Inhaltsverzeichnis
Multilingualisation (M17N) oder native Sprachunterstützung (die Anpassung eines Software-Produkts zur Unterstützung mehrerer Sprachen) besteht aus zwei Schritten:
Internationalisierung (I18N): eine Software so einrichten, dass sie grundsätzlich verschiedene Gebietsschemata (Locales) unterstützt.
Lokalisierung (L10N): eine Software für die Unterstützung eines bestimmten Gebietsschemas anpassen.
Tipp | |
---|---|
Bei den englischen Begriffen Multilingualization, Internationalization und Localization befinden sich 17, 18 bzw. 10 Buchstaben zwischen dem ersten und letzten Buchstaben ("m" und "n", "i" und "n" bzw. "l" und "n"), was M17N, I18N und L10N ergibt. Weitere Details finden Sie unter Internationalization and localization (englisch). |
Das Verhalten von Programmen, die Internationalisierung unterstützen, wird
bestimmt durch die Umgebungsvariable "$LANG
". Die
Unterstützung von Locale-abhängigen Funktionalitäten erfordert die
Installation von locales
-Paketen oder dem Paket
locales-all
. Die locales
-Pakete müssen
korrekt eingerichtet sein.
Wenn weder irgendwelche locales
-Pakete noch
locales-all
installiert sind, gibt es keine
Locale-spezifischen Funktionalitäten und das System nutzt Meldungen in
amerikanischem Englisch; Daten werden als ASCII behandelt. Dieses Verhalten ist dasselbe, wie
wenn "$LANG
" auf "LANG=
",
"LANG=C
" oder "LANG=POSIX
" gesetzt
ist.
Moderne Software wie GNOME oder KDE ist für die Unterstützung verschiedener
Sprachen ausgerüstet. Sie ist mittels UTF-8
internationalisiert und über übersetzte Texte mittels
gettext
(1)-Infrastruktur lokalisiert. Übersetzte Texte
werden teilweise als separate Lokalisierungspakete bereitgestellt.
Das aktuelle grafische Arbeitsplatzsystem in Debian setzt das Gebietsschema
normalerweise in grafischen GUI-Umgebungen auf
"LANG=xx_YY.UTF-8
". Hierbei entspricht
"xx
" dem Sprachcode
gemäß ISO 639 und "YY
" dem Ländercode gemäß ISO 3166. Diese Werte
werden über den Konfigurationsdialog der jeweiligen Arbeitsplatzumgebung
gesetzt und haben entsprechenden Einfluß auf die Programme. Näheres dazu
finden Sie in Abschnitt 1.5.2, „Die "$LANG
"-Variable“.
Die einfachste Art von Textdaten ist ASCII, was passend ist für Englisch und weniger als 127 Zeichen enthält (welche in 7 Bits dargestellt werden können).
Sogar reiner Text in Englisch kann nicht-ASCII-Zeichen enthalten, so sind z.B. die leicht geschweiften rechten und linken Anführungszeichen in ASCII nicht enthalten:
“double quoted text” is not "double quoted ASCII" ‘single quoted text’ is not 'single quoted ASCII'
Um mehr Zeichen zu unterstützen, wurden weitere Zeichensätze und Zeichenkodierungen entwickelt, um eine Vielzahl von Sprachen unterstützen zu können (siehe Tabelle 11.2, „Liste von Werten für die Zeichenkodierung und deren Verwendung“).
Der Unicode-Zeichensatz kann nahezu alle dem Menschen bekannten Zeichen mit Codepunkten aus einem Bereich von 21 Bits (dies entspricht 0 bis 10FFFF in hexadezimaler Darstellung) abbilden.
Das Zeichenkodierungssystem UTF-8 passt Unicode-Codepunkte in einen 8 Bit breiten Datenstrom ein, der überwiegend zum ASCII-Datenverarbeitungssystem kompatibel ist. Das macht UTF-8 zur modernen und bevorzugten Zeichenkodierung. UTF steht dabei für Unicode Transformation Format. Wenn reiner ASCII-Text in UTF-8 konvertiert wird, hat er exakt den gleichen Inhalt und die gleiche Größe wie der originale ASCII-Text. Sie verlieren also nichts, wenn Sie ein UTF-8-Gebietsschema nutzen.
Mit einem UTF-8-Gebietsschema und einer dazu
kompatiblen Anwendung können Sie Textdaten in jeglicher fremden Sprache
anzeigen und editieren, solange die entsprechenden Schriftarten und
Eingabemethoden installiert und aktiviert sind. Wenn beispielsweise das
Gebietsschema auf "LANG=fr_FR.UTF-8
" gesetzt ist, kann
mit gedit
(1) (dem Texteditor der GNOME
Arbeitsplatzumgebung) chinesischer Text dargestellt und bearbeitet werden,
während das Menü in Französisch angezeigt wird.
Tipp | |
---|---|
Sowohl das neue (standardmäßige) " |
Anmerkung | |
---|---|
Einige Programme verbrauchen mehr Speicher, wenn sie I18N unterstützen. Das kommt daher, weil sie für die Unicode-Unterstützung intern UTF-32(UCS4) verwenden (zwecks Geschwindigkeitsoptimierung; dabei werden 4 Bytes für jedes ASCII-Zeichen genutzt, unabhängig vom gewählten Gebietsschema). Nochmals: Sie verlieren nichts, wenn Sie ein UTF-8-Gebietsschema einsetzen. |
Damit das System ein bestimmtes Gebietsschema verwenden kann, müssen die entsprechenden Locale-Daten aus der Datenbank kompiliert werden.
Das locales
-Paket enthält all die verfügbaren
Locale-Daten nicht bereits
vorkompiliert. Sie müssen Sie also konfigurieren mittels:
# dpkg-reconfigure locales
Dieser Prozess besteht aus zwei Schritten:
Auswahl der benötigten Locale-Daten, die in die binäre Form kompiliert werden sollen. (Stellen Sie bitte sicher, dass Sie mindestens ein UTF-8-Gebietsschema auswählen.)
Setzen des Werts für das systemweite Standard-Gebietsschema (mittels
"/etc/default/locale
"); dies wird von PAM genutzt
(Näheres in Abschnitt 4.5, „PAM und NSS“).
Der Wert für das systemweite Standard-Gebietsschema (in
"/etc/default/locale
") kann von der Konfiguration für
grafische GUI-Anwendungen überschrieben werden.
Anmerkung | |
---|---|
Das effektiv genutzte Kodierungssystem kann über
" |
The locales-all
package comes with pre-compiled locale
data for all locale data. Since it doesn't create
"/etc/default/locale
", you may still need to install the
locales
package, too.
Tipp | |
---|---|
The |
Für den Datenaustausch über verschiedene Plattformen hinweg (Näheres in
Abschnitt 10.1.7, „Wechseldatenträger“) müssen Sie unter Umständen beim
Einbinden einiger Dateisysteme bestimmte Kodierungen vorwählen. Zum Beispiel
wird beim Einbinden eines vfat-Dateisystems durch
mount
(8) die CP437-Kodierung
genutzt, wenn nichts anderes angegeben ist. Sie müssen eine explizite
mount-Option angeben, wenn UTF-8 oder CP932 als Kodierung für die Dateinamen genutzt werden
soll.
Anmerkung | |
---|---|
Wenn ein während des Betrieb eingesteckter USB-Stick in einer modernen Arbeitsplatzumgebung wie GNOME automatisch eingebunden wird, können Sie solche mount-Optionen möglicherweise durch einen Rechtsklick auf das entsprechende Icon auf der Arbeitsfläche auswählen. Klicken Sie auf die Lasche "Laufwerk", klappen Sie per Mausklick die Liste der "Einstellungen" auf und geben Sie dann "utf8" bei den "Mount-Optionen" ein. Wenn der USB-Stick das nächste Mal eingesteckt wird, ist das Einbinden mit UTF-8 aktiviert. |
Anmerkung | |
---|---|
Beim Hochrüsten eines Systems oder wenn Sie Laufwerke von älteren nicht-UTF-8-Systemen verwenden, könnten Dateinamen mit nicht-ASCII-Zeichen in historischen und überholten Kodierungen wie ISO-8859-1 oder eucJP kodiert sein. Bitte suchen Sie die Hilfe von Textkonvertierungswerkzeugen, um diese in UTF-8 zu konvertieren. Details hierzu finden Sie in Abschnitt 11.1, „Werkzeuge für Textkonvertierung“. |
Samba verwendet für neuere Clients (Windows NT,
200x, XP und später) standardmäßig Unicode, aber bei älteren für DOS und
Windows 9x/Me wird per Voreinstellung CP850
eingesetzt. Dieser Standard für ältere Clients kann mittels "dos
charset
" in der Datei "/etc/samba/smb.conf
"
geändert werden, CP932 zum Beispiel für
Japanisch.
Für viele Textmeldungen und Dokumente, die im Debian-System angezeigt werden, wie z.B. Fehlermeldungen, Standard-Programmausgaben, Menüs und Handbuchseiten, existieren Übersetzungen. Für die meisten Übersetzungsaktivitäten werden die GNU-gettext(1)-Werkzeuge als Backend-Programme im Hintergrund verwendet.
aptitude
(8) bietet unter "Tasks" → "Lokalisierung" eine
ausführliche Liste nützlicher Binärpakete, die lokalisierte Meldungen für
Anwendungen und übersetzte Dokumentation enthalten.
So können Sie übersetzte Handbuchseiten (manpages) in Deutsch erhalten,
indem Sie das manpages-de
-Paket installieren. Um
andererseits die italienische Handbuchseite für
programmname aus
"/usr/share/man/it/
" zu lesen, führen Sie folgendes aus:
LANG=it_IT.UTF-8 man programname
GNU gettext kann über die Umgebungsvariable $LANGUAGE
eine priorisierte Liste von Übersetzungssprachen erstellen. Nutzen Sie dafür
zum Beispiel:
$ export LANGUAGE="pt:pt_BR:es:it:fr"
Bezüglich weiterer Infos lesen Sie info gettext
und dort
speziell den Abschnitt "The LANGUAGE variable".
The sort order of characters with sort
(1) and
ls
(1) are affected by the locale. Exporting
LANG=en_US.UTF-8
sorts in the dictionary
A->a->B->b...->Z->z
order, while exporting
LANG=C.UTF-8
sorts in ASCII binary
A->B->...->Z->a->b...
order.
Das Gebietsschema wirkt sich auch auf das Datumsformat von
ls
(1) aus (Näheres in Abschnitt 9.3.4, „Angepasste Anzeige von Datum und Uhrzeit“).
The date format of date
(1) is affected by the locale.
For example:
$ unset LC_ALL $ LANG=en_US.UTF-8 date Thu Dec 24 08:30:00 PM JST 2023 $ LANG=en_GB.UTF-8 date Thu 24 Dec 20:30:10 JST 2023 $ LANG=es_ES.UTF-8 date jue 24 dic 2023 20:30:20 JST $ LC_TIME=en_DK.UTF-8 date 2023-12-24T20:30:30 JST
Die Zahlen-Interpunktion unterscheidet sich ebenfalls abhängig vom
Gebietsschema. Zum Beispiel wird ein-tausend-komma-eins im englischen
Gebietsschema "1,000.1
" geschrieben, im deutschen
hingegen "1.000,1
". Sie können den Unterschied in einem
Tabellenkalkulationsprogramm sehen.
Jegliches Detail der "$LANG
"-Umgebungsvariable kann über
das Setzen einer der "$LC_*
"-Variablen überschrieben
werden. Diese wiederum können über die "$LC_ALL
"-Variable
überschrieben werden. Details hierzu finden Sie in der
locale
(7)-Handbuchseite. Bitte versuchen Sie, dies alles
zu vermeiden und nutzen Sie nur die Variable "$LANG
", um
eine der UTF-8-Locales zu setzen (außer Sie haben gute Gründe für die
Erstellung einer komplizierten Konfiguration).
Das Debian-System kann mittels der Pakete
keyboard-configuration
und
console-setup
so konfiguriert werden, dass es mit vielen
internationalen Tastaturkonfigurationen funktioniert:
# dpkg-reconfigure keyboard-configuration # dpkg-reconfigure console-setup
Für die Linux-Konsole und das X-Window-System werden damit Parameter in
"/etc/default/keyboard
" und
"/etc/default/console-setup
" angepasst. Auch wird dabei
die Schrift für die Linux-Konsole konfiguriert. Viele nicht-ASCII-Zeichen,
inklusive akzentuierte Zeichen, die in europäischen Sprachen verwendet
werden, sind über die Tottaste, AltGr-Taste und Compose-Taste zugänglich.
Für GNOME auf Wayland-Arbeitsplatzsystemen können über den in Abschnitt 8.2.1, „Tastatureingabe für die Linux-Konsole und X-Window“ beschriebenen
Weg keine europäischen Sprachen außer Englisch unterstützt werden. IBus wurde nicht nur entwickelt, um asiatische Sprachen
zu unterstützen, sondern auch europäische. Die Paketabhängigkeiten für die
GNOME-Arbeitsplatzumgebung empfehlen "ibus
" über den
Umweg des "gnome-shell
"-Pakets. Der Code von
"ibus
" wurde aktualisiert, so dass er jetzt auch
setxkbmap
- und XKB-option-Funktionalitäten enthält. Sie
müssen ibus
über die "GNOME Einstellungen" oder über
"GNOME Tweaks" für mehrsprachige Tastatureingabe konfigurieren.
Anmerkung | |
---|---|
Wenn ibus aktiv ist, könnte Ihre klassische X-Tastatur-Konfiguration
(durchgeführt über |
Da die GNOME Arbeitsplatzumgebung jetzt "ibus
" empfiehlt
(über "gnome-shell
"), ist "ibus
" die
beste Wahl zum Thema Eingabemethoden.
Mehrsprachige Eingaben für Anwendungen werden wie hier dargestellt verarbeitet:
Keyboard Application | ^ | | +-> Linux kernel -> Input method (ibus) -> Gtk, Qt, X, Wayland +-- Engine--+
Hier eine Liste der IBus- und zugehöriger Engine-Pakete:
Tabelle 8.1. Liste von IBus-betreffenden Paketen
Paket | Popcon | Größe | unterstütztes Gebietsschema |
---|---|---|---|
ibus | V:198, I:245 | 1723 | Eingabemethoden-Rahmenwerk, das dbus verwendet |
ibus-mozc | V:1, I:3 | 944 | Japanisch |
ibus-anthy | V:0, I:1 | 8856 | " |
ibus-skk | V:0, I:0 | 242 | " |
ibus-kkc | V:0, I:0 | 210 | " |
ibus-libpinyin | V:1, I:3 | 2761 | Chinesisch (für zh_CN) |
ibus-chewing | V:0, I:0 | 247 | " (für zh_TW) |
ibus-libzhuyin | V:0, I:0 | 40995 | " (für zh_TW) |
ibus-rime | V:0, I:0 | 73 | " (für zh_CN/zh_TW) |
ibus-cangjie | V:0, I:0 | 119 | " (für zh_HK) |
ibus-hangul | V:0, I:2 | 264 | Koreanisch |
ibus-libthai | I:0 | 90 | Thailändisch |
ibus-table-thai | I:0 | 58 | Thailändisch |
ibus-unikey | V:0, I:0 | 318 | Vietnamesisch |
ibus-keyman | V:0, I:0 | 161 | Multilingual: Keyman engine for over 2000 languages |
ibus-table | V:0, I:1 | 2176 | Tabellen-Engine für IBus |
ibus-m17n | V:0, I:1 | 395 | Multilingual: Indisch, Arabisch und andere |
plasma-widgets-addons | V:50, I:100 | 1992 | additional widgets for Plasma 5 containing Keyboard Indicator |
Anmerkung | |
---|---|
Für Chinesisch könnte auch " |
Ich finde diese japanische Eingabemethode, gestartet in einer englischen
Umgebung ("en_US.UTF-8
"), sehr nützlich. Hier ein
Beispiel, wie ich dies mit IBus für GNOME3 unter Wayland eingerichtet habe:
Installieren Sie das japanische Eingabewerkzeug über
ibus-mozc
(oder ibus-anthy
) inklusive
der empfohlenen Pakete wie z.B. im-config
.
Wählen Sie dann "Einstellungen" → "Tastatur" → "Eingabequellen", klicken Sie
bei den "Eingabequellen" auf "+
", dann "Japanisch" →
"Japanisch mozc (oder anthy)" und dann "Hinzufügen", falls es noch nicht
aktiviert wurde.
Sie können weitere Eingabequellen wählen.
Melden Sie sich am Benutzerkonto neu an.
Richten Sie jede Eingabequelle durch einen Rechtsklick auf das Icon in der GUI-Werkzeugleiste ein.
Wählen Sie zwischen den installierten Eingabequellen mittels SUPERTASTE+LEERTASTE (die SUPERTASTE ist normalerweise die Windows-Taste).
Tipp | |
---|---|
Wenn Sie mit Ihrer japanischen Tastatur Zugriff auf eine Tastaturumgebung
mit alphabetischen Zeichen wünschen, bei der Umschalt- |
Der Eintrag für im-config
(8) im GUI-Menü ist
"Eingabemethode"; starten Sie es jetzt.
Alternativ führen Sie jetzt "im-config
" über eine
Benutzer-Shell aus.
im-config
(8) verhält sich unterschiedlich abhängig davon,
ob es von root ausgeführt wurde oder nicht.
im-config
(8) aktiviert standardmäßig ohne weiteres Zutun
des Benutzers die beste Eingabemethode auf dem System.
Die Linux-Konsole kann nur einen beschränkten Bereich von Zeichen
anzeigen. (Sie benötigen ein spezielles Terminal-Programm wie
jfbterm
(1), um nicht-europäische Sprachen in der Konsole
außerhalb der grafischen Umgebung anzuzeigen.)
Die grafische Umgebung (Kapitel 7, GUI-System) kann jegliche Zeichen in UTF-8 anzeigen, sofern die benötigten Schriften installiert und aktiviert sind. (Die Kodierung der Original-Schriftdaten wird für den Benutzer transparent erledigt.)
Bei Verwendung des ostasiatischen Gebietsschemas können die Zeichnung der Box sowie griechische und kyrillische Schriftzeichen breiter als beabsichtigt dargestellt werden, was zu einer ungleichmäßigen, schlecht ausgerichteten Terminalausgabe führt (näheres unter Unicode Standard Annex #11).
Sie können dies Problem jedoch umgehen:
gnome-terminal
: Einstellungen → Profile →
Profilname → Kompatibilität → Zeichen mit unbekannter
Breite → Schmal
ncurses
: Setzen einer Umgebungsvariablen mit
export NCURSES_NO_UTF8_ACS=0
.