Unicode et ISO/IEC 10646
- Unicode et ISO/IEC 10646 définissent en parallèle le Universal Character
Set (UCS) sur deux octets ou plus..
- C'est un codage qui assigne un nombre unique, code point, à (actuellement) quelques 50.000 caractères dans le monde.
- U+0627, U+0041, ...
- Il couvre (il est sur ensemble) tous les codes habituellement utilisés (ASCII, ISO-8859-1 (Latin-1),
ISO-2022-JP, etc.
- Actuellement version 4.0
- Unicode est utilisé par toutes les spécifications W3C depuis fin 1996.
- Définit aussi des propriétés sémantiques comme le sens d'affichage.
- L'IETF recommande (RFC
2277) que tous les formats protocoles Internet de type
texte soient UCS, en particulier en UTF-8