UTF-8

De Wiki Otaku

Introduction

Vous avez déjà sûrement voulu montrer des kanjis/hiraganas/katakanas à quelqu'un sur IRC, mais des petits carrés se sont affichés à la place ? Vous avez déjà parlé à quelqu'un sur IRC et certains de ses mots comprenaient des caractères incompréhensibles ?

Exemple : « Les kanjis sont les éléments d'un des trois ensembles de caractères de l'écriture japonaise avec les hiraganas et les katakanas. »

La représentation des caractères en informatique peut plus ou moins être transposée à celle des différentes langues utilisées.

Au niveau des langues, on peut considérer qu'il existe plusieurs familles : « locales », « régionales », « nationales » et « internationales ».

En informatique, il existe aussi deux grandes familles : « locales » et « internationales ». Ces familles sont appelées « jeux de caractères », ou « charset » et permettent de représenter les caractères.

Vous avez sûrement déjà entendu des familles ISO-8859 ou Unicode. La famille ISO-8859 fait partie des « locales » et la famille Unicode des « internationales ».

Les jeux de caractères locaux sont destinés à gérer les caractères d'une langue ou d'un alphabet en particulier. Les jeux de caractères internationaux sont quant à eux destinés à gérer de multiples alphabets, donc de plusieurs langues.

La famille ISO-8859

La famille ISO-8859 est actuellement composée de 16 jeux de caractères différents. Les plus utilisés par les francophones sont les « Latin1 » (ISO-8859-1) et « Latin9 » (ISO-8859-15). Par exemple, ISO-8859-11 contient les différents caractères utilisés par la langue thaï, et ceux-ci ne sont pas disponible sous le jeu de caractères ISO-8859-15. Cela peut être embêtant si l'on souhaite copier/coller une phrase thaï (ISO-8859-11) donc un document utilisant le jeu de caractères ISO-8859.

La famille Unicode

La famille Unicode semble être quant à elle composée de 4 différents jeux de caractères, le plus utilisé étant UTF-8. Les jeux de caractères Unicode permettent de gérer dans les 650 alphabets, donc presque autant de langues. Si l'on transpose l'exemple précédent à la famille Unicode, il est possible d'avoir un document composé de différentes langues.

Quel charset choisir ?

Étant donné que le réseau va changer le charset des messages des serveurs et services dans les mois à venir, il est conseillé d'utiliser l'UTF-8, qui commence à émerger depuis quelques années.

De base, l'UTF-8 et l'ISO-8859-xx sont incompatibles, mais la plupart des clients IRC savent encore lire l'ISO-8859-1 une fois configurés en UTF-8. Au contraire, les clients IRC configurés en ISO-8859-1 ne décoderont pas l'UTF-8.

Mots de passe et charset

Les serveurs et services IRC ne gèrent aucun charset. De leur point de vue, un mot de passe encodé en ISO-8859-1 n'est pas identique au même mot de passe encodé en UTF-8.

Si vous avez des accents dans vos mot de passe NickServ/ChanServ ou dans les clés de vos canaux, vos mots de passe ne fonctionneront plus si vous changez de charset.

Nous vous recommandons vivement de ne mettre aucun accent ou caractère spécial dans vos mots de passe, ou bien d'être toujours en UTF-8.

Activer l'UTF-8 sous mIRC

Nous vous conseillons vivement d'activer le charset UTF-8 en encodage et décodage « Display and encode » sous mIRC, afin d'anticiper la future migration en UTF-8 sur les serveurs. L'UTF-8 s'active par le menu « View », un clic sur « Font », et la sélection de « Display and encode » dans la liste déroulante en dessous de la partie « UTF-8 », ainsi qu'un clic de validation sur « Ok ».

Charset-mirc.png

Activer l'UTF-8 sous XChat

Il faut pour cela modifier une option dans la liste des serveurs.

Vous pouvez y accéder par le raccourci « Xchat », un clic sur « Liste des serveurs », ou bien par le raccourci « Ctrl + S ». Après sélection du réseau et un clic sur le bouton « Editer », vous pouvez définir le jeu de caractères.

Pour passer entièrement en UTF-8 (émission et réception), sélectionnez le mode « UTF-8 (Unicode) ».

Si vous souhaitez bénéficier des avantages de l'UTF-8 tout en continuant d'envoyer les caractères de base en ISO-8859-1, nous vous conseillons le mode « IRC (Latin1/Unicode Hybrid) ». Ce mode hybride envoie les caractères de base en ISO-8859-1, et les caractères non-latins en UTF-8.

Charset-xchat.png

Conclusion

En espérant avoir pu vous éclaircir sur les divers termes tels que charset, ISO-8859, Unicode, UTF-8, je vous laisse vaquer à vos occupations :)