Kapitel 8. I18N und L10N

Inhaltsverzeichnis

8.1. Das Gebietsschema (Locale)
8.1.1. Argumentation für UTF-8-Gebietsschemata
8.1.2. Die Neukonfiguration des Gebietsschemas (Locale)
8.1.3. Dateinamenkodierung
8.1.4. Lokalisierte Meldungen und übersetzte Dokumentation
8.1.5. Auswirkungen des Gebietsschemas
8.2. Die Tastatureingabe
8.2.1. Tastatureingabe für die Linux-Konsole und X-Window
8.2.2. Tastatureingabe für Wayland
8.2.3. Unterstützung für die Eingabemethode mit IBus
8.2.4. Ein Beispiel für Japanisch
8.3. Die Bildschirmausgabe
8.4. Unbekannte Zeichenbreite bei ostasiatischen Zeichen

Multilingualisation (M17N) oder native Sprachunterstützung (die Anpassung eines Software-Produkts zur Unterstützung mehrerer Sprachen) besteht aus zwei Schritten:

[Tipp] Tipp

Bei den englischen Begriffen Multilingualization, Internationalization und Localization befinden sich 17, 18 bzw. 10 Buchstaben zwischen dem ersten und letzten Buchstaben ("m" und "n", "i" und "n" bzw. "l" und "n"), was M17N, I18N und L10N ergibt. Weitere Details finden Sie unter Internationalization and localization (englisch).

Das Verhalten von Programmen, die Internationalisierung unterstützen, wird bestimmt durch die Umgebungsvariable "$LANG". Die Unterstützung von Locale-abhängigen Funktionalitäten erfordert die Installation von locales-Paketen oder dem Paket locales-all. Die locales-Pakete müssen korrekt eingerichtet sein.

Wenn weder irgendwelche locales-Pakete noch locales-all installiert sind, gibt es keine Locale-spezifischen Funktionalitäten und das System nutzt Meldungen in amerikanischem Englisch; Daten werden als ASCII behandelt. Dieses Verhalten ist dasselbe, wie wenn "$LANG" auf "LANG=", "LANG=C" oder "LANG=POSIX" gesetzt ist.

Moderne Software wie GNOME oder KDE ist für die Unterstützung verschiedener Sprachen ausgerüstet. Sie ist mittels UTF-8 internationalisiert und über übersetzte Texte mittels gettext(1)-Infrastruktur lokalisiert. Übersetzte Texte werden teilweise als separate Lokalisierungspakete bereitgestellt.

Das aktuelle grafische Arbeitsplatzsystem in Debian setzt das Gebietsschema normalerweise in grafischen GUI-Umgebungen auf "LANG=xx_YY.UTF-8". Hierbei entspricht "xx" dem Sprachcode gemäß ISO 639 und "YY" dem Ländercode gemäß ISO 3166. Diese Werte werden über den Konfigurationsdialog der jeweiligen Arbeitsplatzumgebung gesetzt und haben entsprechenden Einfluß auf die Programme. Näheres dazu finden Sie in Abschnitt 1.5.2, „Die "$LANG"-Variable“.

Die einfachste Art von Textdaten ist ASCII, was passend ist für Englisch und weniger als 127 Zeichen enthält (welche in 7 Bits dargestellt werden können).

Sogar reiner Text in Englisch kann nicht-ASCII-Zeichen enthalten, so sind z.B. die leicht geschweiften rechten und linken Anführungszeichen in ASCII nicht enthalten:

“double quoted text” is not "double quoted ASCII"
‘single quoted text’ is not 'single quoted ASCII'

Um mehr Zeichen zu unterstützen, wurden weitere Zeichensätze und Zeichenkodierungen entwickelt, um eine Vielzahl von Sprachen unterstützen zu können (siehe Tabelle 11.2, „Liste von Werten für die Zeichenkodierung und deren Verwendung“).

Der Unicode-Zeichensatz kann nahezu alle dem Menschen bekannten Zeichen mit Codepunkten aus einem Bereich von 21 Bits (dies entspricht 0 bis 10FFFF in hexadezimaler Darstellung) abbilden.

Das Zeichenkodierungssystem UTF-8 passt Unicode-Codepunkte in einen 8 Bit breiten Datenstrom ein, der überwiegend zum ASCII-Datenverarbeitungssystem kompatibel ist. Das macht UTF-8 zur modernen und bevorzugten Zeichenkodierung. UTF steht dabei für Unicode Transformation Format. Wenn reiner ASCII-Text in UTF-8 konvertiert wird, hat er exakt den gleichen Inhalt und die gleiche Größe wie der originale ASCII-Text. Sie verlieren also nichts, wenn Sie ein UTF-8-Gebietsschema nutzen.

Mit einem UTF-8-Gebietsschema und einer dazu kompatiblen Anwendung können Sie Textdaten in jeglicher fremden Sprache anzeigen und editieren, solange die entsprechenden Schriftarten und Eingabemethoden installiert und aktiviert sind. Wenn beispielsweise das Gebietsschema auf "LANG=fr_FR.UTF-8" gesetzt ist, kann mit gedit(1) (dem Texteditor der GNOME Arbeitsplatzumgebung) chinesischer Text dargestellt und bearbeitet werden, während das Menü in Französisch angezeigt wird.

[Tipp] Tipp

Sowohl das neue (standardmäßige) "en_US.UTF-8" wie auch das alte "C"/"POSIX"-Gebietsschema nutzen US-Englisch für Meldungen, es gibt nur minimale Unterschiede bei der Sortierreihenfolge etc. Wenn Sie nicht nur ASCII-Zeichen anzeigen möchten, sondern auch UTF-8-kodierte Zeichen, und trotzdem das alte Verhalten der "C"-Locale bevorzugen, verwenden Sie das Gebietsschema "C.UTF-8" (kein Standard).

[Anmerkung] Anmerkung

Einige Programme verbrauchen mehr Speicher, wenn sie I18N unterstützen. Das kommt daher, weil sie für die Unicode-Unterstützung intern UTF-32(UCS4) verwenden (zwecks Geschwindigkeitsoptimierung; dabei werden 4 Bytes für jedes ASCII-Zeichen genutzt, unabhängig vom gewählten Gebietsschema). Nochmals: Sie verlieren nichts, wenn Sie ein UTF-8-Gebietsschema einsetzen.

Damit das System ein bestimmtes Gebietsschema verwenden kann, müssen die entsprechenden Locale-Daten aus der Datenbank kompiliert werden.

Das locales-Paket enthält all die verfügbaren Locale-Daten nicht bereits vorkompiliert. Sie müssen Sie also konfigurieren mittels:

# dpkg-reconfigure locales

Dieser Prozess besteht aus zwei Schritten:

Der Wert für das systemweite Standard-Gebietsschema (in "/etc/default/locale") kann von der Konfiguration für grafische GUI-Anwendungen überschrieben werden.

[Anmerkung] Anmerkung

Das effektiv genutzte Kodierungssystem kann über "/usr/share/i18n/SUPPORTED" identifiziert werden. So ist "LANG=en_US" letztlich "LANG=en_US.ISO-8859-1".

The locales-all package comes with pre-compiled locale data for all locale data. Since it doesn't create "/etc/default/locale", you may still need to install the locales package, too.

[Tipp] Tipp

The locales package of some Debian derivative distributions come with pre-compiled locale data for all locale data. You need to install both locales and locales-all packages on Debian to emulate such system environment.

Für den Datenaustausch über verschiedene Plattformen hinweg (Näheres in Abschnitt 10.1.7, „Wechseldatenträger“) müssen Sie unter Umständen beim Einbinden einiger Dateisysteme bestimmte Kodierungen vorwählen. Zum Beispiel wird beim Einbinden eines vfat-Dateisystems durch mount(8) die CP437-Kodierung genutzt, wenn nichts anderes angegeben ist. Sie müssen eine explizite mount-Option angeben, wenn UTF-8 oder CP932 als Kodierung für die Dateinamen genutzt werden soll.

[Anmerkung] Anmerkung

Wenn ein während des Betrieb eingesteckter USB-Stick in einer modernen Arbeitsplatzumgebung wie GNOME automatisch eingebunden wird, können Sie solche mount-Optionen möglicherweise durch einen Rechtsklick auf das entsprechende Icon auf der Arbeitsfläche auswählen. Klicken Sie auf die Lasche "Laufwerk", klappen Sie per Mausklick die Liste der "Einstellungen" auf und geben Sie dann "utf8" bei den "Mount-Optionen" ein. Wenn der USB-Stick das nächste Mal eingesteckt wird, ist das Einbinden mit UTF-8 aktiviert.

[Anmerkung] Anmerkung

Beim Hochrüsten eines Systems oder wenn Sie Laufwerke von älteren nicht-UTF-8-Systemen verwenden, könnten Dateinamen mit nicht-ASCII-Zeichen in historischen und überholten Kodierungen wie ISO-8859-1 oder eucJP kodiert sein. Bitte suchen Sie die Hilfe von Textkonvertierungswerkzeugen, um diese in UTF-8 zu konvertieren. Details hierzu finden Sie in Abschnitt 11.1, „Werkzeuge für Textkonvertierung“.

Samba verwendet für neuere Clients (Windows NT, 200x, XP und später) standardmäßig Unicode, aber bei älteren für DOS und Windows 9x/Me wird per Voreinstellung CP850 eingesetzt. Dieser Standard für ältere Clients kann mittels "dos charset" in der Datei "/etc/samba/smb.conf" geändert werden, CP932 zum Beispiel für Japanisch.

Für viele Textmeldungen und Dokumente, die im Debian-System angezeigt werden, wie z.B. Fehlermeldungen, Standard-Programmausgaben, Menüs und Handbuchseiten, existieren Übersetzungen. Für die meisten Übersetzungsaktivitäten werden die GNU-gettext(1)-Werkzeuge als Backend-Programme im Hintergrund verwendet.

aptitude(8) bietet unter "Tasks" → "Lokalisierung" eine ausführliche Liste nützlicher Binärpakete, die lokalisierte Meldungen für Anwendungen und übersetzte Dokumentation enthalten.

So können Sie übersetzte Handbuchseiten (manpages) in Deutsch erhalten, indem Sie das manpages-de-Paket installieren. Um andererseits die italienische Handbuchseite für programmname aus "/usr/share/man/it/" zu lesen, führen Sie folgendes aus:

LANG=it_IT.UTF-8 man programname

GNU gettext kann über die Umgebungsvariable $LANGUAGE eine priorisierte Liste von Übersetzungssprachen erstellen. Nutzen Sie dafür zum Beispiel:

 $ export LANGUAGE="pt:pt_BR:es:it:fr"

Bezüglich weiterer Infos lesen Sie info gettext und dort speziell den Abschnitt "The LANGUAGE variable".

The sort order of characters with sort(1) and ls(1) are affected by the locale. Exporting LANG=en_US.UTF-8 sorts in the dictionary A->a->B->b...->Z->z order, while exporting LANG=C.UTF-8 sorts in ASCII binary A->B->...->Z->a->b... order.

Das Gebietsschema wirkt sich auch auf das Datumsformat von ls(1) aus (Näheres in Abschnitt 9.3.4, „Angepasste Anzeige von Datum und Uhrzeit“).

The date format of date(1) is affected by the locale. For example:

 $ unset LC_ALL
 $ LANG=en_US.UTF-8 date
Thu Dec 24 08:30:00 PM JST 2023
 $ LANG=en_GB.UTF-8 date
Thu 24 Dec 20:30:10 JST 2023
 $ LANG=es_ES.UTF-8 date
jue 24 dic 2023 20:30:20 JST
 $ LC_TIME=en_DK.UTF-8 date
2023-12-24T20:30:30 JST

Die Zahlen-Interpunktion unterscheidet sich ebenfalls abhängig vom Gebietsschema. Zum Beispiel wird ein-tausend-komma-eins im englischen Gebietsschema "1,000.1" geschrieben, im deutschen hingegen "1.000,1". Sie können den Unterschied in einem Tabellenkalkulationsprogramm sehen.

Jegliches Detail der "$LANG"-Umgebungsvariable kann über das Setzen einer der "$LC_*"-Variablen überschrieben werden. Diese wiederum können über die "$LC_ALL"-Variable überschrieben werden. Details hierzu finden Sie in der locale(7)-Handbuchseite. Bitte versuchen Sie, dies alles zu vermeiden und nutzen Sie nur die Variable "$LANG", um eine der UTF-8-Locales zu setzen (außer Sie haben gute Gründe für die Erstellung einer komplizierten Konfiguration).

Für GNOME auf Wayland-Arbeitsplatzsystemen können über den in Abschnitt 8.2.1, „Tastatureingabe für die Linux-Konsole und X-Window“ beschriebenen Weg keine europäischen Sprachen außer Englisch unterstützt werden. IBus wurde nicht nur entwickelt, um asiatische Sprachen zu unterstützen, sondern auch europäische. Die Paketabhängigkeiten für die GNOME-Arbeitsplatzumgebung empfehlen "ibus" über den Umweg des "gnome-shell"-Pakets. Der Code von "ibus" wurde aktualisiert, so dass er jetzt auch setxkbmap- und XKB-option-Funktionalitäten enthält. Sie müssen ibus über die "GNOME Einstellungen" oder über "GNOME Tweaks" für mehrsprachige Tastatureingabe konfigurieren.

[Anmerkung] Anmerkung

Wenn ibus aktiv ist, könnte Ihre klassische X-Tastatur-Konfiguration (durchgeführt über setxkbmap) von ibus überschrieben werden, selbst wenn die klassische X-Arbeitsplatzumgebung läuft. Sie können ibus über im-config deaktivieren, indem Sie die Eingabemethode auf "Keine" einstellen. Weitere Informationen hierzu finden Sie im Debian-Wiki unter Keyboard.

Da die GNOME Arbeitsplatzumgebung jetzt "ibus" empfiehlt (über "gnome-shell"), ist "ibus" die beste Wahl zum Thema Eingabemethoden.

Mehrsprachige Eingaben für Anwendungen werden wie hier dargestellt verarbeitet:

Keyboard                                       Application
   |                                                 ^
   |                                                 |
   +-> Linux kernel ->  Input method (ibus)  -> Gtk, Qt, X, Wayland
                          +-- Engine--+

Hier eine Liste der IBus- und zugehöriger Engine-Pakete:


[Anmerkung] Anmerkung

Für Chinesisch könnte auch "fcitx5" eine Alternative sein. Für Emacs-Liebhaber wäre auch die Verwendung von "uim" ein möglicher Weg. In all diesen Fällen ist zusätzliche manuelle Konfiguration über im-config erforderlich. Einige alte klassische Eingabemethoden wie "kinput2" könnten noch im Debian-Depot existieren, werden aber in modernen Umgebungen nicht mehr empfohlen.

Ich finde diese japanische Eingabemethode, gestartet in einer englischen Umgebung ("en_US.UTF-8"), sehr nützlich. Hier ein Beispiel, wie ich dies mit IBus für GNOME3 unter Wayland eingerichtet habe:

  1. Installieren Sie das japanische Eingabewerkzeug über ibus-mozc (oder ibus-anthy) inklusive der empfohlenen Pakete wie z.B. im-config.

  2. Wählen Sie dann "Einstellungen" → "Tastatur" → "Eingabequellen", klicken Sie bei den "Eingabequellen" auf "+", dann "Japanisch" → "Japanisch mozc (oder anthy)" und dann "Hinzufügen", falls es noch nicht aktiviert wurde.

  3. Sie können weitere Eingabequellen wählen.

  4. Melden Sie sich am Benutzerkonto neu an.

  5. Richten Sie jede Eingabequelle durch einen Rechtsklick auf das Icon in der GUI-Werkzeugleiste ein.

  6. Wählen Sie zwischen den installierten Eingabequellen mittels SUPERTASTE+LEERTASTE (die SUPERTASTE ist normalerweise die Windows-Taste).

[Tipp] Tipp

Wenn Sie mit Ihrer japanischen Tastatur Zugriff auf eine Tastaturumgebung mit alphabetischen Zeichen wünschen, bei der Umschalt-2 das doppelte Anführungszeichen (") ausgibt, sollten Sie in der obigen Prozedur "Japanisch" auswählen. Auch können Sie Japanisch über "Japanisch mozc (oder anthy)" mit einer physikalischen "US"-Tastatur eingeben, dabei wird dann über Umschalt-2 das @-Zeichen ausgegeben.

  • Der Eintrag für im-config(8) im GUI-Menü ist "Eingabemethode"; starten Sie es jetzt.

  • Alternativ führen Sie jetzt "im-config" über eine Benutzer-Shell aus.

  • im-config(8) verhält sich unterschiedlich abhängig davon, ob es von root ausgeführt wurde oder nicht.

  • im-config(8) aktiviert standardmäßig ohne weiteres Zutun des Benutzers die beste Eingabemethode auf dem System.

Die Linux-Konsole kann nur einen beschränkten Bereich von Zeichen anzeigen. (Sie benötigen ein spezielles Terminal-Programm wie jfbterm(1), um nicht-europäische Sprachen in der Konsole außerhalb der grafischen Umgebung anzuzeigen.)

Die grafische Umgebung (Kapitel 7, GUI-System) kann jegliche Zeichen in UTF-8 anzeigen, sofern die benötigten Schriften installiert und aktiviert sind. (Die Kodierung der Original-Schriftdaten wird für den Benutzer transparent erledigt.)

Bei Verwendung des ostasiatischen Gebietsschemas können die Zeichnung der Box sowie griechische und kyrillische Schriftzeichen breiter als beabsichtigt dargestellt werden, was zu einer ungleichmäßigen, schlecht ausgerichteten Terminalausgabe führt (näheres unter Unicode Standard Annex #11).

Sie können dies Problem jedoch umgehen:

  • gnome-terminal: Einstellungen → Profile → Profilname → Kompatibilität → Zeichen mit unbekannter Breite → Schmal

  • ncurses: Setzen einer Umgebungsvariablen mit export NCURSES_NO_UTF8_ACS=0.