HomeSonderzeichenGedankenstricheUniverseller Zeichensatz
Handbuch UDO > Die UDO-Syntax > Sonderzeichen Index

Umwandlung von 8-bit-Zeichen

In einem Quelltext können Sie, anders als bei LaTeX, HTML, WinHelp oder RTF, auch Zeichen aus dem oberen Teil Ihres Systemzeichensatzes verwenden. Es ist also nicht erforderlich, sich zu überlegen, wie denn wohl ein ß oder ein ä in der Ausgabedatei auszusehen hat; UDO erledigt die Umwandlung für Sie automatisch.

UDO erwartet Quelltexte mit dem jeweiligen Systemzeichensatz. Nutzen Sie UDO auf einem DOS-kompatiblen Rechner, erwartet UDO Quelltexte, die mit dem DOS-Zeichensatz geschrieben wurden. Die Atari-Version erwartet Quelltexte mit Zeichen des Atari-Zeichensatzes usw.

UDO kann aber auch Quelltexte verarbeiten, die mit systemfremden Zeichensätzen erstellt wurden. Und um es richtig komfortabel zu machen, können Quelltexte sogar aus einem Mischmasch benutzter Zeichensätze bestehen.

Sie müssen UDO nur mittels !code_source <zeichensatz> mitteilen, mit welchem Zeichensatz die folgenden Zeilen erstellt wurden.

Hier eine Übersicht, welches Kürzel für den Zeichensatz benutzt werden kann:

UDO unterstützt verschiedenste Codepages für verschiedenste Systeme. Nachfolgend sind alle derzeit unterstützten Systeme und Codepages mit z.T. mehreren Bezeichnern für die gleiche Codepage aufgeführt. Es spielt keine Rolle, ob Sie den Bezeichner in Groß- oder Kleinschreibung eingeben. (Die Bezeichner orientieren sich an den früheren UDO-Bezeichnern und denen, die das Unix-Kommando iconv unterstützt.)

System Encoding Bezeichner
Unicode UTF-8 UTF-8 UTF8
Windows Codepage 1250 CP1250 MS-EE WINDOWS-1250
Codepage 1251 CP1251 MS-CYRL RUSSIAN WINDOWS-1251
Codepage 1252 CP1252 MS-ANSI WINDOWS-1252 WIN
Codepage 1253 CP1253 GREEK MS-GREEK WINDOWS-1253
Codepage 1254 CP1254 MS-TURK TURKISH WINDOWS-1254
Codepage 1255 CP1255 HEBREW MS-HEBR WINDOWS-1255
Codepage 1256 CP1256 ARABIC MS-ARAB WINDOWS-1256
Codepage 1257 CP1257 BALTIC WINBALTRIM WINDOWS-1257
Codepage 1258 CP1258 WINDOWS-1258
ISO 8859-1 ISO-8859-1 ISO-IR-100 ISO8859-1 ISO_8859-1 LATIN1 L1 CSISOLATIN1
8859-2 ISO-8859-2 ISO-IR-101 ISO8859-2 ISO_8859-2 LATIN2 L2 CSISOLATIN2
8859-3 ISO-8859-3 ISO-IR-109 ISO8859-3 ISO_8859-3 LATIN3 L3 CSISOLATIN3
8859-4 ISO-8859-4 ISO-IR-110 ISO8859-4 ISO_8859-4 LATIN4 L4 CSISOLATIN4
8859-5 ISO-8859-5 ISO-IR-144 ISO8859-5 ISO_8859-5 CYRILLIC CSISOLATINCYRILLIC
8859-6 ISO-8859-6 ISO-IR-127 ISO8859-6 ISO_8859-6 ARABIC CSISOLATINARABIC ASMO-708 ECMA-114
8859-7 ISO-8859-7 ISO-IR-126 ISO8859-7 ISO_8859-7 GREEK GREEK8 CSISOLATINGREEK ECMA-118 ELOT_928
8859-8 ISO-8859-8 ISO-IR-138 ISO8859-8 ISO_8859-8 HEBREW CSISOLATINHEBREW
8859-9 ISO-8859-9 ISO-IR-148 ISO8859-9 ISO_8859-9 LATIN5 L5 CSISOLATIN5 TURKISH
8859-10 ISO-8859-10 ISO-IR-157 ISO8859-10 ISO_8859-10 LATIN6 L6 CSISOLATIN6 NORDIC
8859-11 ISO-8859-11 ISO8859-11 ISO_8859-11 THAI
8859-13 ISO-8859-13 ISO-IR-179 ISO8859-13 ISO_8859-13 LATIN7 L7 CSISOLATIN7 BALTIC
8859-14 ISO-8859-14 ISO-IR-199 ISO8859-14 ISO_8859-14 LATIN8 L8 CSISOLATIN8 CELTIC ISO-CELTIC
8859-15 ISO-8859-15 ISO-IR-203 ISO8859-15 ISO_8859-15 LATIN9 L9 CSISOLATIN9
8859-16 ISO-8859-16 ISO-IR-226 ISO8859-16 ISO_8859-16 LATIN10 L10 CSISOLATIN10
Apple Mac Roman MAC MACINTOSH MACROMAN CSMACINTOSH
Mac CentEuro MAC_CE MACCENTRALEUROPE
Atari TOS ATARI ATARIST TOS
DOS Codepage 437 437 CP437 IBM437 CSPC8CODEPAGE437 DOS
Codepage 850 850 CP850 IBM850 CSPC850MULTILINGUAL OS2
HP Roman8 HP8 HP-ROMAN8 R8 ROMAN8 CSHPROMAN8
NeXTStep NeXTStep NEXT NEXTSTEP

Wichtig: latin1 aus früheren UDO-Dokumenten sollte angepasst werden, da UDO vor Version 7 hierfür die Windows-Codepage 1252 verwendete, seit Version 7 korrekterweise aber ISO-8859-1!

Wenn Sie sog. 1-Byte-Codepages (alle von UDO unterstützten Codepages mit Ausnahme von Unicode) verwenden und eine andere Codepage für die UDO-Dokumente als für die Ausgabe-Dokumente nutzen, müssen Sie ggf. beachten, dass alle Codepages unterschiedlich belegt sind. Eine Codepage ist eine Sammlung von 256 Zeichen aus dem Gesamtvorrat aller Zeichen, die mittlerweile unter dem Unicode-Standard definiert sind.

Wenn Sie z.B. Ihr UDO-Dokument im DOS-Zeichensatz erstellt haben und darin DOS-Grafikzeichen verwenden, das Zielformat aber z.B. Apple MacRoman ist, können die DOS-Grafikzeichen nicht abgebildet werden. Wenn Sie die hebräischen Zeichen des Atari-TOS-Zeichensatzes benutzt haben, werden Sie in den meisten anderen Codepages Pech mit der Abbildung dieser Zeichen haben.

In diesen Fällen empfehlen wir, als Zielformat UTF-8 zu verwenden, sofern das für das Zielformat möglich ist. Denn intern werden sämtliche Codepages im Unicode-Format geführt, so dass z.B. ein hebräisches Alef aus dem TOS-Zeichensatz auch in UTF-8 oder Windows-Codepage 1255 richtig wiedergegeben wird.

Mehrere Dateien nach Unicode wandeln
Falls Sie ältere Projektdateien von einer 1-Byte-Codepage nach UTF-8 konvertieren wollen, aber keine Lust haben, diese Konvertierung für jede Datei einzeln zu machen, kann es nützlich sein, wenn Sie das Unix-Kommando iconv benutzen können, das üblicherweise auf Unix-Maschinen und unter Mac OS X zur Verfügung steht.
Hier ist ein einfaches Beispiel, mit dem Sie z.B. in der bash-Shell des Terminal-Programms unter Mac OS X beliebig viele Dateien mit der Endung *.cs rekursiv (d.h., in beliebigen Unterordnern) auf einen Rutsch von Tschechisch (z.B. ISO-8859-2-kodiert) nach UTF-8 wandeln. Beachten Sie die besonderen Einklammerungen für das find-Kommando!
for x in `find . -name '*.cs'`; do iconv -f ISO-8859-2 -t UTF-8 $x > "$x.utf8"; rm $x; mv "$x.utf8" $x; done
Die Wandlung des Encoding kann nicht direkt in die gleiche Datei stattfinden, da sie anschließend leer wäre; daher der Umweg über die temporären *.utf8-Dateien, die nach dem Löschen der Originaldateien direkt mit dem Namen der Originaldateien umbenannt werden.

Copyright © www.udo-open-source.org (Kontakt)
Letzte Aktualisierung am 19. Mai 2014

HomeSonderzeichenGedankenstricheUniverseller Zeichensatz