UTF-8

  • 15.03.2017


Was ist UTF-8 und wo kommt es her?

UTF-8 ist eine Abkürzung und steht für UCS Transformation Format. UCS ist seinerseits eine Abkürzung für Universal Character Set. UTF-8 ist eine Methode der Codierung für Unicodezeichen. Unicode ist ein Verzeichnis, in welchem jedem Schriftzeichen mit Bedeutung ein Digitaler Code zugewiesen wird. Diese Art der Codierung wurde erstmals 1992 von Ken Thompson und Rob Pike festgelegt. Zunächst wurde es als FSS-UTF bezeichnet und erst später in UTF-8 umbenannt.

Allgemeines zu UTF-8

Die UTF-8 Codierung vergibt für des Unicode Zeichen eine spezielle Zeichenkette mit unterschiedlicher Länge. In den ersten 128 Zeichen ist der UTF-Standard auch genau gleich mit dem ASCII-Standard. Die maximale Zeichenkettenlänge bei UTF-8 sind vier Byte. Weiterhin hat UTF-8 eine große Bedeutung im Internet. Alle Internetkommunikationsprotokolle müssen unter anderem auch die UTF-8-Codierung unterstützen. Seit Ende 2016 verwendeten ca. 87 % aller im Internet online geschalteten Website UTF-8. Weiterhin empfiehlt das Internet Mail Consortium allen Herstellern von E-Mail Programmen, dass sie die UTF-8 Codierung in ihre Mailclients mit einbauen.

Eigenschaften

Die Codierung gemäß dem UTF-8 Standard hat unter anderem folgende Eigenschaften:

  • relativ Kompakt
  • in beiden Richtungen durchsuchbar
  • Codierungsreserve
  • leicht zu transkodieren
  • Multi-Byte-ZeichenCodierung
Diese Liste ist nicht abschließend.