In einem Quelltext können Sie, anders als bei LaTeX, HTML,
WinHelp oder RTF, auch Zeichen aus dem oberen Teil Ihres
Systemzeichensatzes verwenden. Es ist also nicht erforderlich, sich zu
überlegen, wie denn wohl ein ß
oder ein ä
in der
Ausgabedatei auszusehen hat; UDO erledigt die Umwandlung für Sie
automatisch.
UDO erwartet Quelltexte mit dem jeweiligen Systemzeichensatz. Nutzen Sie UDO auf einem DOS-kompatiblen Rechner, erwartet UDO Quelltexte, die mit dem DOS-Zeichensatz geschrieben wurden. Die Atari-Version erwartet Quelltexte mit Zeichen des Atari-Zeichensatzes usw.
UDO kann aber auch Quelltexte verarbeiten, die mit systemfremden Zeichensätzen erstellt wurden. Und um es richtig komfortabel zu machen, können Quelltexte sogar aus einem Mischmasch benutzter Zeichensätze bestehen.
Sie müssen UDO nur mittels !code_source <zeichensatz> mitteilen, mit welchem Zeichensatz die folgenden Zeilen erstellt wurden.
Hier eine Übersicht, welches Kürzel für den Zeichensatz benutzt werden kann:
UDO unterstützt verschiedenste Codepages für verschiedenste Systeme. Nachfolgend sind alle derzeit unterstützten Systeme und Codepages mit z.T. mehreren Bezeichnern für die gleiche Codepage aufgeführt. Es spielt keine Rolle, ob Sie den Bezeichner in Groß- oder Kleinschreibung eingeben. (Die Bezeichner orientieren sich an den früheren UDO-Bezeichnern und denen, die das Unix-Kommando iconv unterstützt.)
System | Encoding | Bezeichner |
Unicode | UTF-8 | UTF-8 UTF8 |
Windows | Codepage 1250 | CP1250 MS-EE WINDOWS-1250 |
Codepage 1251 | CP1251 MS-CYRL RUSSIAN WINDOWS-1251 | |
Codepage 1252 | CP1252 MS-ANSI WINDOWS-1252 WIN | |
Codepage 1253 | CP1253 GREEK MS-GREEK WINDOWS-1253 | |
Codepage 1254 | CP1254 MS-TURK TURKISH WINDOWS-1254 | |
Codepage 1255 | CP1255 HEBREW MS-HEBR WINDOWS-1255 | |
Codepage 1256 | CP1256 ARABIC MS-ARAB WINDOWS-1256 | |
Codepage 1257 | CP1257 BALTIC WINBALTRIM WINDOWS-1257 | |
Codepage 1258 | CP1258 WINDOWS-1258 | |
ISO | 8859-1 | ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 LATIN1 L1 CSISOLATIN1 |
8859-2 | ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 LATIN2 L2 CSISOLATIN2 | |
8859-3 | ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 LATIN3 L3 CSISOLATIN3 | |
8859-4 | ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 LATIN4 L4 CSISOLATIN4 | |
8859-5 | ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 CYRILLIC CSISOLATINCYRILLIC | |
8859-6 | ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ARABIC CSISOLATINARABIC ASMO-708 ECMA-114 | |
8859-7 | ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 GREEK GREEK8 CSISOLATINGREEK ECMA-118 ELOT_928 | |
8859-8 | ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 HEBREW CSISOLATINHEBREW | |
8859-9 | ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 LATIN5 L5 CSISOLATIN5 TURKISH | |
8859-10 | ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 LATIN6 L6 CSISOLATIN6 NORDIC | |
8859-11 | ISO-8859-11 ISO8859-11 ISO_8859-11 THAI | |
8859-13 | ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 LATIN7 L7 CSISOLATIN7 BALTIC | |
8859-14 | ISO-8859-14 ISO-IR-199 ISO8859-14 ISO_8859-14 LATIN8 L8 CSISOLATIN8 CELTIC ISO-CELTIC | |
8859-15 | ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 LATIN9 L9 CSISOLATIN9 | |
8859-16 | ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 LATIN10 L10 CSISOLATIN10 | |
Apple | Mac Roman | MAC MACINTOSH MACROMAN CSMACINTOSH |
Mac CentEuro | MAC_CE MACCENTRALEUROPE | |
Atari | TOS | ATARI ATARIST TOS |
DOS | Codepage 437 | 437 CP437 IBM437 CSPC8CODEPAGE437 DOS |
Codepage 850 | 850 CP850 IBM850 CSPC850MULTILINGUAL OS2 | |
HP | Roman8 | HP8 HP-ROMAN8 R8 ROMAN8 CSHPROMAN8 |
NeXTStep | NeXTStep | NEXT NEXTSTEP |
Wichtig: latin1 aus früheren UDO-Dokumenten sollte angepasst werden, da UDO vor Version 7 hierfür die Windows-Codepage 1252 verwendete, seit Version 7 korrekterweise aber ISO-8859-1!
Wenn Sie sog. 1-Byte-Codepages (alle von UDO unterstützten Codepages mit Ausnahme von Unicode) verwenden und eine andere Codepage für die UDO-Dokumente als für die Ausgabe-Dokumente nutzen, müssen Sie ggf. beachten, dass alle Codepages unterschiedlich belegt sind. Eine Codepage ist eine Sammlung von 256 Zeichen aus dem Gesamtvorrat aller Zeichen, die mittlerweile unter dem Unicode-Standard definiert sind.
Wenn Sie z.B. Ihr UDO-Dokument im DOS-Zeichensatz erstellt haben und darin DOS-Grafikzeichen verwenden, das Zielformat aber z.B. Apple MacRoman ist, können die DOS-Grafikzeichen nicht abgebildet werden. Wenn Sie die hebräischen Zeichen des Atari-TOS-Zeichensatzes benutzt haben, werden Sie in den meisten anderen Codepages Pech mit der Abbildung dieser Zeichen haben.
In diesen Fällen empfehlen wir, als Zielformat UTF-8 zu verwenden, sofern das für das Zielformat möglich ist. Denn intern werden sämtliche Codepages im Unicode-Format geführt, so dass z.B. ein hebräisches Alef aus dem TOS-Zeichensatz auch in UTF-8 oder Windows-Codepage 1255 richtig wiedergegeben wird.
for x in `find . -name '*.cs'`; do iconv -f ISO-8859-2 -t UTF-8 $x > "$x.utf8"; rm $x; mv "$x.utf8" $x; doneDie Wandlung des Encoding kann nicht direkt in die gleiche Datei stattfinden, da sie anschließend leer wäre; daher der Umweg über die temporären *.utf8-Dateien, die nach dem Löschen der Originaldateien direkt mit dem Namen der Originaldateien umbenannt werden.