经济--江苏频道--人民网
Dial?kt: Züritüütsch |
Unicode isch en internationale Standard, wo langfristig für jedes sinntr?gende Zeiche bzw. Tekschtelement vo allne bekannten Schriftkulture und Zeichesyschtem ?n digitale Code feschtgl?it wird. Er will s'Problem vo d? verschiidene inkompatible Kodierige i d? underschiidliche L?nder besytige. Herk?mmlichi Computer-Zeichesyschtem umfassed ?n Zeichevorrat vo entweder 128 (7 Bit) Zeiche wie d? sehr bekannti ASCII-Standard oder 256 (8 Bit) Zeiche, wie z. B. ISO Latin-1, wobii det? nach Abzug vo d? Stüürzeiche 96 Elem?nt bi ASCII und 192–224 Elem?nt bi d? 8-Bit ISO-Zeiches?tz als Schrift- und Sonderzeiche darschtellbar sind. Di? Zeichekodierige erlaubed die gliichzytig Darschtellig von nur wenige Schprache im gliiche Tekscht, wenn mer sich n?d demit behilft, imene Tegscht verschiideni Schrifte mit underschiidliche Zeiches?tz z'verwende. Das h?t bisher d? internationali Dateuustuusch starch behinderet.
In Unicode finded Zeiche vo d? wichtigschte Industriistandard-Zeiches?tz wie d'ISO-Norme ? 1:1-Entsprechig (das bedütet, dass binere Konversion vom Industriistandard zu Unicode und zrugg s'gliiche Ergebnis usechunnt). Hüt erlediged die meischte Webbrowser die Darstellig vo dene Zeiches?tz mit ere Unicode-kodierte Schrift i d? Regel perfekt und ooni dass dr Benutzer ?bbis merkt.
ISO 10646 isch die praktisch bedütigsgliichi Bezeichnig vom Unicode-Zeichesatz, wo vo ISO verwendet wird; er wird det als Universal Character Set (UCS) bezeichnet.
Codes, Spiicherig und übertr?gig
[?ndere | Qu?llt?xt bearbeite]D'Codes vo Unicode-Zeiche werded hexadezimal mit voraageschtelltem ?U+“ dargschtellt. Derbii chan ?x“ als Platzhalter verwendet werde, wenn z?meh?ngendi Beriich gmeint sind, wie z. B. ?U+01Fx“ für d? Codebereich U+01F0–U+01FF.
De Coderuum vo Unicode h?t urschprünglich 65'536 Zeiche umfasst (UCS-2, 16 Bit). Bald aber h?t sich usegschtellt, dass das nit l?ngt. I d? Version 2.0 isch d? Codebereich um wiiteri 16 gliich gro?e Bereich, sogenannti Planes (Ebene) erwiiteret worde. So sind jetz maximal 1'114'112 (220+216) Zeiche bzw. Codepoints im Codeberiich vo U+00000 bis U+10FFFF vorgsee (UCS-4, 32 Bit). Bis zur Unicode-Version 4.0, sind 96'382 Codes individuelli Zeiche zuegordnet. Das entspricht erst ?ppe 9% vom gsamte Coderuum.
D Codeberiich (Bl?ck), wo d'Unicode-Ebene drin iideilt werded, sind i d? Lischte dvo d? Unicode-Bl?ck vollscht?ndig ufgfüert. Zues?tzlich zu d? gültig kodierte Zeiche isch au sehr langfrischtig, z. T. no recht ungnau Plaants ufgfüert.
D'Spiicherig und d'übertr?gig vo Unicode erfolgt in underschiidliche Formate:
- Unicode Transformation Format (UTF), wobii UTF-8 am meiste brucht wird, z. B. im Internet und i fascht allne Betriibssystem. N?bed UTF-8 h?t UTF-16 e grossi Bedütig, so z. B. als Zeichecodierig in Java, wo em Unicode UCS-4 für alli UCS-2 Codepoints entschpricht, und alli andere Codepoints als Zweiersequenze, die sogenannte Surrogate Pairs, abbildet.
- SCSU (Standard Compression Scheme for Unicode, früener au als RCSU – Reuters' Compression Scheme for Unicode – bezeichnet) isch ? Methode zur platzsparende Schpiicherig, wo d Aaordnig vo d? verschiedene Alphabet i Bl?ck usnutzt (lueg au bi d? Weblinks).
- UTF-EBCDIC isch ? Unicode-Erwiiterig, wo ufem propriet?re EBCDIC-Format vo IBM-Gro?rechner ufbout.
- Punycode dient dezue, Domainn?me mit nit-ASCII-Zeiche z'kodiere. Lueg au under: IDNA.
- Usserdem gits no d Format CESU-8 und GB18030.
Normierigs-Inschtituzione
[?ndere | Qu?llt?xt bearbeite]S'gmeinnützige Unicode Consortium isch 1991 gründet worde und isch für d? Industriistandard Unicode verantwortlich. Vo d? ISO (International Organization for Standardization) wird di? internationali Norm ISO 10646 us?gee. Beidi Inschtituzione schaffed eng z?me. Sit 1993 sind Unicode und ISO 10646 bezüglich d? Zeichekodierig identisch. W?hrend ISO 10646 nume di? eigentlichi Zeichekodierig feschtleit, gh?rt zum Unicode es umfassends Regelwerch, wo u. a. für alli Zeiche witeri Eigenschafte, wo für die konkrete Aawendig wichtig si (sogenannti Properties), eidütig feschleit wie Sortierreihefolg, L?serichtig und Regle für s'Kombiniere vo Zeiche.
Zur Zyt isch Unicode strenggnoo no ? Undermengi von ISO 10646: W?hrend ISO 10646 Zeichecodes mit bis zu 31 Bit zuelaat, sind bi Unicode maximal 21 Bit erlaubt.
Kodierigskriterie
[?ndere | Qu?llt?xt bearbeite]Andersch als anderi Norme gits bi Unicode d'Bsunderheit, dass Zeiche, won emal kodiert worde si, nie wider entfernt werded, zum d'Langl?bigkeit vo digitale Date z'gw?hrleischte. S?tt sich die Normierig vomene Zeiche nachtr?glich als F?hler erwiise, wird allefalls abgraate, das Zeich z verwende. Drum bruucht d'Uufnahm vomene Zeiche in Standard e üsserscht sorgf?ltigi Prüefig, wo sich au emal über Jahre hiizieh chann.
Im Unicode werded ?abschtrakti Zeiche“ (engl.: characters) kodiert, n?d Glyphe. D Glyphe si die grafisch Darschtellig vo abschtrakte Zeiche, wo extrem underschiidlich usfalle ch?nd, bim latiinische Alphabet byschpilswiis in Fraktur, Antiqua, im Irischen und in Handschrifte. Für Glyphevariante, wo d'Normierig als sinnvoll und notwendig naagwise wird, sind vorsorglich 256 ?Variation Selectors“ vorgseh, wo je noch Umstand am eigentliche Code aaghenkt werde ch?nnd.
Anderersits h?nd Schrifte, wo sowohl s'latiinische wie au s'griechische Alphabet enthalted, dopplet kodierti identischi Glyphe für die folgende mehrdütige Buechstabe: Α Β Ε Ζ Η Ι Κ Μ Ν Ο Ρ Τ Υ Χ. Vo vile Zeiche gits n?d nur Variante, wo dur d'Schriftart bedingt si, sondern au innerhalb vonere Schriftart meh oder minder notwendigi sprach-, schrift- oder kontextabh?ngigi Glyphevariante und Ligature, wo denn zur Darschtellig sogenannti Smartfonttechnike wie OpenType n?tig sind, aber kei Unicode-Kodierig bruuched. Grunds?tzlich werded kei Ligature und suschtigi z?megsetzti Zeiche kodiert, au wenn d'Gründ für die Politik n?d vo jedem verschtande werded. Nume zum Zweck vo der Kompatibilit?t mit elter? Zeiches?tz sind Ligature und z?megsetzti Zeiche enthalte.
In Grenzf?ll wird h?rt um d'Entscheidig grunge, ?bs sich um Glyphevariante oder kodierigswürdigi Zeiche, d. h. underschiidlichi Graphem, handlet. Byschpilswiis sind n?d wenigi Fachlüüt der Meinig, s ph?nizische Alphabet ch?nni mer als Glyphevariante vom hebr?ische betrachte, wil dr gsamti Zeichevorrat vom Ph?nizische det eidütigi Entsprechige h?t, und au wil die beide Schprache sehr ?ng verwandt sind. D Uffassig, es handli sich um es separats Zeichesyschtem, i der Unicode-Terminologii ?script“, h?t sich schliesslich duregsetzt. Andersch verhaltets sich bi CJK (Chinesisch, Japanisch und Koreanisch): Da h?nd sich im 20. Jahrhundert d'Forme vo vile gliichbedütende Schriftzeiche usenandentwicklet. Trotzdem teiled sich die sprachschpezifische Glyphe die gliiche Codes im Unicode. I der Praxis werded da wohl vor Allem sprachschpezifischi Schriftarte verwendet, und die zeichned sich scho dur ussergw?hnlichi Dateigr?ssene uus. Die einheitlichi Kodierig vo de CJK-Schriftzeiche (Han Unification) isch eini vo de wichtigschte und umfangriichschte Vorarbete für d Entwicklig vom Unicode gsii. Bsunders in Japan isch si durchus umschtritte.
Wo de Grundschtei für Unicode gleit worde isch, h?t müesse berücksichtigt werde, dass scho e hufe underschiidlichi Kodierige i verbreitetem Iisatz gsii sind. Unicode-basierti Syschtem h?nd s?lle herk?mmlich kodierti Date mit gringem Ufwand handhabe ch?nne. Für das sind für die undere 256 Zeiche die wit verbreiteti ISO 8859-1-Kodierig (Latin1) biibhalte worde, genau gliich wie d'Kodierigsarte vo verschiidene nationale Norme, z. B. TIS 620 für Thail?ndisch (fascht identisch mit ISO 8859-11) oder ISCII für indischi Schrifte, wo i der urschprüngliche Reihefolg nume in h?cheri Codeberiich verschobe worde sind.
Jedes Zeiche vo massgebliche aber veraltete Kodierige sind in Standard übernoo worde, au wenns de Massst?b n?d grecht wird, wo normalerwiis aagleit werded. Derbii handlets sich zumene grosse Teil um Zeiche, wo us zwei oder meh Zeiche z?megsetzt sind, wie Buechstabe mit diakritische Zeiche. Im übrige verfüegt au hüt no en grosse Teil vo der Software n?t über d'M?glichkeit, Zeiche mit Diakritika ordentlich z?me zsetze. Die exakti Feschtlegig vo ?quivalente Kodierige isch Teil vom umfangriiche Regelwerch, wo zum Unicode gh?rt. Au wenn die hexadekadische Ziffere A bis F formal d'Kriterie für e gsonderti Kodierig erfülled, h?t das müesse underbliibe, wil i dr Praxis dene ihri Funktion immer vo de Buechschtabe A bis F übernoo wird.
Vilne Unicode-Zeiche isch kei Glyphe zuegordnet. Au sie gelted als ?characters“. Nebed de Stüürzeiche wie Ziilevorschuub (U+000A), Tabulator (U+0009) usw. sind elei 19 Zeiche explizit als Leerzeiche definiert, sogar senigi ohni Breiti. Die werded u. a. als Worttrenner bruucht für Sprache wie Thai oder Tibetisch, wo ohni Wortzwüscheruum gschriibe werded. Für bidirektionali Text, z. B. Arabisch und Lateinisch sind siibe Formatierigszeiche n?tig.
Byschpiil: Combining Grapheme Joiner (CGJ)
[?ndere | Qu?llt?xt bearbeite]De CGJ isch es unsichtbars Sonderzeiche, wo normalerwiis vo de Aawendigsprogramm v?llig ignoriert wird (englisch: ?default ignorable“). Er s?ll uusdrücklich n?d zur Kennzeichnig vo Glyphevariante o. ?. verwendet werde. Sin Gebruuch isch wie folgt definiert:
I einzelne Schprache gits Digraphe und Trigraphe, wo grunds?tzlich als eigescht?ndigi Buechschtabe behandlet, d. h. gsonderet sortiert werded. Im Ungarische byspilswiis betrifft das: cs, dz, dzs, gy, ly, ny, sz, ty und zs. Zum Uusnahme vo dem bi Bedarf z'kennzeichne, isch de ?Combining Grapheme Joiner“ CGJ (U+034F) iigfüehrt worde. De Name bedütet eigentli s Gegeteil, aber, au das gh?rt zum Standard, au d N?me vo kodierte Zeiche werded nie g?nderet.
Tr?it en Buechschtabe mehreri Diakritika drüber oder drunder, werded die normalerwiis vertikal gschtaplet. Für Uusnahmef?ll, wo zwei Diakritika nebedenand staa müend, gseht Unicode vor, dass en CGJ dezwüsche gschtellt wird. De Schriftentwickler d?rf entscheide und d Erschiinigsform vo de Zeichefolg ?Diakritikon1 CGJ Diakritikon2“ feschtlege, wo d?nn mittels Schrifttechnik wie OpenType druf zueggriffe werde chan.
D Eigeschaft ?default ignorable“, wo im Standard feschtgleit isch, qualifiziert de CGJ, i Sonderf?ll au anderi fiini Underschiid z'markiere, wo suscht unn?tig sind. So chan d'Dateverarbeitig vo dütsche Bibliotheke d Underscheidig vo Umlut und Trema (meischtens für fremdsprachigi N?me) erfordere. Da empfiehlt Unicode, vor s Trema (U+0308) de CGJ z schtelle, zum das als Umlut z kennzeichne. Di nachtr?glichi gsondert Kodierig vo de Umluut-Punkt, wo urschprünglich vo DIN vorgschlage worde isch, hett zunere chuum vertretbare Inkonsischtenz vo grosse Datemenge gfüehrt.
Iigabe-Methode
[?ndere | Qu?llt?xt bearbeite]Will mer es Unicode-Zeiche (zum Byspil ?⊕“) in HTML oder XML verw?nde, suecht mer das zerscht emal us dr entspr?chende Tabelle (i dem Fall: Mathematischi Symbol). Det isch sini Zeichenummere hexadezimal aagee. Mit dere Zeichenummere erschtellt mer d?nn e Zeiche-Entit?t durs Voraaschtelle vo ?&#x“ und Aafüege vomene Semikolon, ebe ?⊕“. Di? Zeichenummere cha i de Zeiche-Entit?t au dezimal, d?nn aber ohni füehrends ?x“, aagee werde, zum Byspil ?⊕“ fürs gliiche Zeiche. D Text Encoding Initiative TEI h?t Empf?hlige usgarbeitet, Unicode i XML-Dateie in ere liechter verscht?ndliche Form iizgee. Derbii handlets sich um en Satz vo benannte Zeiche (engl.: named entites), wo i s Stylesheet integriert wird. Allgemein üblichi ben?nnti Zeiche sind z. B. d'Umlut wie ??“ statt ??" für ?.
Im Vi Improved chan mer Unicode-Zeiche (Vorussetzig: Unicode-basierti Locale oder als Unicode, zum Byspil UTF-8, erch?nnti Datei) iigee, indem mer Strg+V,U und d?nn di hexadezimali Zeichenummere truckt, also zum Byspil Strg+V,U,2,0,A,C fürs Euro-Zeiche. E alternatiivi Iingabem?glichkeit isch d'Benutzig vo de Digraph-Methode vom Vim.
In Emacs ab Version 21.4 cha mer Unicode-Zeiche iigee, indem mer META-x ucs-insert
und d?nn di hexadezimali Zeichenummere iigit.
Under Windows (ab Windows 2000) cha i vile Programm de Code hexadezimal iigee werde. Mit nachfolgendem Alt-x, innerhalb vo MS Word 2003 aber Alt-c, wird s'Zeiche erzügt. Die Taschtekombination cha under Windows XP au benutzt werde, zum de Code vo vor em Cursor stehende Zeiche aaz'zeige.
?b das entsprechendi Unicode-Zeiche au tats?chlich am Bildschirm erschiint, hangt dervo ab, ?b die verwendeti Schriftart e Glyphe für das gwünschti Zeiche (also e Grafik für di gewünschti Zeichenummere) enthaltet. Oft, z. B. under Windows wird, falls di verwendeti Schrift es Zeiche n?d enthaltet, nach M?glichkeit es Zeiche us enere andere Schrift iigfüegt. I dere Typografie gilt so ?ppis als Fehler namens Zwiebelfisch. In Webbrowser hing?ge isch das zwar h?sslich aber überuus nützlich.
Schriftarte
[?ndere | Qu?llt?xt bearbeite]Underdesse h?t de Zeichesatz vo Unicode/ISO en Umfang erreicht, wo sich nümme vollscht?ndig in einere Schriftdatei underbringe laat. Postscript-CFF-, TrueType- und OpenType-Schriftdateie ch?nd maximal 65'536 Zeiche enthalte. So verschtaat's sich vo elei, dass Unicode/ISO-Konformit?t vo ere Schrift n?d bedüütet, dass de kompletti Zeichesatz enthalte sii mues, sondern lediglich, dass die enthalteni Zeicheuuswahl normgr?cht kodiert isch. Normalerwys wird e Uuswahl troffe wo am Verwendigszweck oder Verbreitigsgebiet aagmesse isch. Die derzyt umfangrychschti Schrift – i zwei Dateie uufgteilt – isch Code 2000/Code 2001 vom James Kass. ? übersicht über vili koschteloosi und kommerzielli, umfangriichi und spezialisierti Unicode-Schrifte büütet Allan Wood.
Dial?kt: Bodeseealemannisch (Linzgau) |
Installiere vu Schriftarte
[?ndere | Qu?llt?xt bearbeite]So kaa me d neetige Schrifte im Windows noochinstalliere:
- Unter Windows 98:
1. Am besten one vu de obe erw?hnte Schriftarte rabladen und installiere, bzw. d TTF-Datei i de Ordner Fonts (normalerwiis C:\Windows\Fonts) inikopiere. 2. Unter "Start -> Einstellungen -> Systemsteuerung" findet me s Symbol "Software". Obe uf "Windows Setup" klicke und d "Sprachunterstützung" mit "Details..." erwiitere. 3. Office-CD iilege und bi "Benutzerdefinierter Installation" bloos di entsprechende Schriftarte uusw?hle. 4. Windows-Internetupdate starte und d Sproochunterstützunge und Schrifte i de Rubrik 'nicht dringende Updates' aaw?hle und installiere. (bloos we me de Internet Explorer dezue nimmt)
- Unter Windows 2000:
I de Systemsteuerung findet sich e Symbol L?ndereinstellungen. Im Feld Allgemein giit s eine Liste Spracheinstellungen fir s System. Doo mo me be alle Sproochfamilene wo aazoegt were sollde, e H?kle mache.
- Unter Windows XP:
I de Systemsteuerung findet sich e Symbol Regioons- und Sproochoptionen. Im Feld Sprachen moss bei Dateien für ostasiatische Sprachen installieren und/oder bei Dateien für Sprachen mit komplexen Schriftzeichen und Zeichen mit Rechts-nach-Links-Schreibung installieren e H?kle gsetzt were.
Dial?kt: Züritüütsch |
Versione vo Unicode
[?ndere | Qu?llt?xt bearbeite]I d? letschte Jahre sind neui Versione jewiils im Früehjahr erschine, wobii i d? letschte Zyt j?hrlich um di? 1'000 Zeiche neu uufgnoo werded.
- DP 10646 1989 (Vorschlaag für d? Entwurf vo ISO 10646, unabh?ngig vo Unicode)
- DIS-1 10646 1990 (Erschte Entwurf für ISO 10646, unabh?ngig vo Unicode)
- Unicode 1.0.0 Oktober 1991
- Unicode 1.0.1 Juni 1992 (Modifikatione zum ? Z?mefüehrig mit ISO 10646 z'erm?gliche)
- Unicode 1.1.0 Juni 1993 (Unicode und ISO-Norm erschtmals vereiniget: Codes id?ntisch zu ISO 10646-1: 1993)
- Unicode 1.1.5 Juli 1995
- Unicode 2.0.0 Juli 1996 (Abgliich mit ISO 10646 Erwiiterige)
- Unicode 2.1.2 Mai 1998 (unter anderem Iifüehrig vom Eurozeiche)
- Unicode 2.1.5 August 1998
- Unicode 2.1.8 Dezember 1998
- Unicode 2.1.9 April 1999
- Unicode 3.0.0 September 1999 (Abgliich mit ISO 10646-1: 2000)
- Unicode 3.0.1 August 2000
- Unicode 3.1.0 M?rz 2001 (Abgliich mit ISO 10646-2: 2001)
- Unicode 3.1.1 August 2001
- Unicode 3.2.0 M?rz 2002
- Unicode 4.0.0 April 2003 (Abgliich mit ISO 10646: 2003)
- Unicode 4.0.1 M?rz 2004
- Unicode 4.1.0 M?rz 2005
- Unicode 5.0.0 geplant für M?rz 2006
Software
[?ndere | Qu?llt?xt bearbeite]S'freye Programm ?gucharmap“ (für Linux/UNIX) stellt d? Unicode-Zeichesatz uf em Bildschirm dar und büütet zues?tzlichi Informatione zu d? einzelne Zeiche. Microsoft Windows liferet entschprechend "charmap.exe" (Zeichetabelle) mit. Under Apple Mac OS X stellt d? Finder ebefalls ? Zeichepalette zur Verfüegig.
Literatur
[?ndere | Qu?llt?xt bearbeite]- Joan Aliprand u. a. (Hrsg.): The Unicode Standard Version 4.0, Addison Wesley, Boston, Mass. 2003, ISBN 0-321-18578-1
Weblink
[?ndere | Qu?llt?xt bearbeite]- www.unicode.org – die offizielli Website vom Unicode Consortium (Englisch)
- Decode Unicode Projekt - Erchl?rige zu 1'400 Unicodezeiche i eim Wiki, dezue 50'000 Glyphe (Deutsch/Englisch)
- UTF-8- und Unicode-FAQ für Unix/Linux (Markus Kuhn, Englisch)
- S'Unicode-Syschtem - Beschriibig im HTML-Kompendium SELFHTML
- Microsoft Word und Unicode-Underschtützig, (bezieht sich uf alti Versione, i aktuelle Versione sind kei Problem bekannt)
- Lischte und Aazeig vo d? Codes nach Kategorie
- Lischte und Aazeig vo d? Codes nach Position
- Benützig vo Unicode bim Programmiere (C/C++)
Standards:
- RFC 3629 (UTF-8, a transformation format of ISO 10646)
- RFC 3492 (Punycode, für Sonderzeiche in Domainname)
![]() |
D? Artikel basiert uff ere fr?ie übersetzig vum Artikel ?Unicode“ vu de dütsche Wikipedia. E Liste vu de Autore un Versione isch do z finde. |