La série UTF
- Unicode transformation format
- Représentation mémoire des textes Unicode (encodage)
- UTF-8 est la forme la plus élaborée. Séquence d'octets (1, 2 ou plus) pour représenter un point code.
- Adapté aux outils classiques (C/UNIX...) qui manipulent des données de type char.
- Compatible ASCII. A = 0x41, 1 octet en UTF-8 (Un texte latin sans accents est identique en ASCII ou en UTF8)
- Caractères arabes sont des séquences de deux octets. "d8
a8" est la lettre Ba et "d9 8a" est la
lettre Ya.
- Un texte doit s'accompagner de l'information (meta) sur son encodage.
- Exemple Content-Type: text/plain;
charset=UTF-8 (format MIME)