Internationalisation Du Web
- Le Web est l'univers des informations accessibles à travers le réseaux.
- Le Web tire sa force de son universalité. Accessibilité, Indépendance.
- L'infrastructure sous-jacente est basée sur XML
- XML s'appuie sur Unicode, le codage universel de plus de 5000 caractères dans toutes les langues.
- XHTML (1.1) est l'expression XML (1.0) de HTML (4.01), le langage populaire d'écriture des pages Web.
- C'est l'aspect arabisation que nous abordons ici
- Unicode
- L'Arabe en (X)HTML
- Il
faut une bonne connaissance de ces outils. (pourquoi on voit des
textes avec ????? ou إلى ...)
Unicode
- De l'ASCII à ISO-8859-n
- Unicode et ISO/IEC 10646
-
UTF-8
De l'ASCII à ISO-8859-n
- Caractères occidentaux (anglais) sur un octet, valeurs de 0 à 127 (7 bits). Exemple 64 = 'A' = \0x41
- Extension de 128 à 255 pour des codes par pays. (voir Tableau.)
- ISO-8859-1 (Europe occidentale), ISO-8859-7 (Grecque), ISO-8859-6 (Arabe)
- Equivalents à la série windows-1552, windows-1553, ... windows-1556 ...
- Un même code correspond à plusieurs
caractères
- Difficile d'atteindre une population dans plusieurs pays
Unicode et ISO/IEC 10646
- Unicode et ISO/IEC 10646 définissent en parallèle le Universal Character
Set (UCS) sur deux octets ou plus..
- C'est un codage qui assigne un nombre unique, code point, à (actuellement) quelques 50.000 caractères dans le monde.
- U+0627, U+0041, ...
- Il couvre (il est sur ensemble) tous les codes habituellement utilisés (ASCII, ISO-8859-1 (Latin-1),
ISO-2022-JP, etc.
- Actuellement version 4.0
- Unicode est utilisé par toutes les spécifications W3C depuis fin 1996.
- Définit aussi des propriétés sémantiques comme le sens d'affichage.
- L'IETF recommande (RFC
2277) que tous les formats protocoles Internet de type
texte soient UCS, en particulier en UTF-8
La série UTF
- Unicode transformation format
- Représentation mémoire des textes Unicode (encodage)
- UTF-8 est la forme la plus élaborée. Séquence d'octets (1, 2 ou plus) pour représenter un point code.
- Adapté aux outils classiques (C/UNIX...) qui manipulent des données de type char.
- Compatible ASCII. A = 0x41, 1 octet en UTF-8 (Un texte latin sans accents est identique en ASCII ou en UTF8)
- Caractères arabes sont des séquences de deux octets. "d8
a8" est la lettre Ba et "d9 8a" est la
lettre Ya.
- Un texte doit s'accompagner de l'information (meta) sur son encodage.
- Exemple Content-Type: text/plain;
charset=UTF-8 (format MIME)
La plage des caractères arabes dans Unicode
Aspects plus sémantiques
- L'affichage contextuel est une caractéristique d'un programme client.
L'Arabe dans le Langage HTML
XHTML vs HTML
- XHTML est la forme XML de HTML.
- Cela lui donne l'avantage de bénéficier des applications et outils XML (e.g. XSLT)
- HTML 4.01 est l'ultime version de HTML
- XHTML offre 3 possibilités (DTD) de transitions: Transitional, Strict et frameSet
Attention particulière à l'Arabe en HTML
- Affichage de droite à gauche.
- Textes bidirectionnels
- Spécificités particulières (ponctuations, jointure ou non de caractères, diacretiques)
- Marquage HTML propre
- Intégrité structurelle et transparence par rapport à Unicode. ‎ vs U+200E,
Recommandations: le marquage HTML
- Entête de page: Information d'accompagnement et de décodage
-
Corps de page: indication/changement de direction, styles
- Pièges à éviter
Entête de Page
<?xml version="1.0" encoding="utf-8"?>
<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
"http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
<html dir="rtl" lang="ar" xml:lang="ar">
<head>
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
<title>نص عربي<title>
- La déclaration XML est facultative.
- On peut spécifier "ar-MA"
- Attribut dir ="rtl" right to left, dans balise html pour tout le texte (défaut ltr)
- Balise meta importante pour bien décoder la page.
Corps de page
- Indication/changement de directions de partie de texte.
<p dir="ltr"> texte en français</p>
- Parfois utile pour aligner à gauche.
- Inhiber l'algorithme de bi direction (forcer la direction de texte)
<bdo dir="rtl">ab cd ef</bdo>
fe dc ba
propriétés {direction:rtl; unicode-bidi:embed; }
- HTML recommande néanmoins les balises de marquage de texte.
Petites Déconvenues
abc <span dir="rtl">المغرب </span> efg
abc المغرب efg
<p>العبارة
Langage "HTML" هي</p>
هي "Langage "HTML
العبارة
<p>العبارة
Langage "HTML"‎ هي</p>
هي Langage "HTML"
العبارة
- Texte gauche droite non désiré
<p> منظمه w3c: world wide web consortium هي </p>
هي w3c: world wide web consortium منظمه
<p> منظمه w3c:‏ world wide web consortium هي </p>
هي world wide web consortium :w3c منظمه
Outils Auteurs
- Entités numériques vs séquence code utf-8 (moins volumineux)
- ابج ابج
- Conversions entres différents charsets (cf Mozilla).
-
Mozilla vs Frontpage (Mozilla offre plusieurs charsets possibles)
-
Amaya du W3C
- Parfois trois modes
d'édition
-
Wysiwyg, usage courant, facilité, ergonomie
-
HTML source (balise + texte en arabe),
finition/optimisation niveau HTML
-
Plain HTML source (fichier éditeur de texte ascii,
merci Editplus), finition très
pointue, professionnelle
- outil Tidy.
- Il existe des traducteurs sur le Web (ajeeb.com)
-
HTML résultat d'autres outils/scripts.
- voir http://www.w3c.org/TR/2003/WD-i18n-html-tech-20031009/
Authoring Techniques for HTML/XHTML
Internationalization 1.0,
Richard Ishida & I18N GEO
working Group, W3C
Validation ou clean HTML
En savoir plus
Merci
Merci pour votre attention