Le site du prof

Représentation des données

Niveau 0

Authentifiez-vous pour suivre votre progression !


Représentation des chaînes de caractères

L'encodage des caractères, ASCII

Pour représenter les caractères, on procède simplement en associant chaque caractère à un code binaire.

Un des premiers standards crée en 1967 a été le code ASCII (American Standard Code for Information Interchange) qui associe 127 caractères (dont certains non affichables) sur 7 bits.

Cependant, de nombreux autres caractères doivent être encodés (les caractères accentués par exemple).

Autres standards

Le standard ISO-8859-1 (couramment appelé Latin-1) est codé sur 8 bits. Les 128 premiers sont les mêmes qu’ASCII, et les 128 autres sont utilisés pour encoder la plupart des caractères utilisés en europe. Il existe beaucoup d’autres standards sur 8 bits adaptés à différentes langues.

L’arrivée d’internet, et l’explosion de la communication a rendu ce système problématique : Un document enregistré selon un encodage particulier doit être lu avec ce même encodage pour être affiché correctement. Si les deux ne sont pas d’accord sur le format, le texte est illisible.

Un nouveau standard contenant l’ensemble de tous les symboles utilisés dans le monde a alors fait son apparition : Unicode (aussi appelé UTF-16), codé sur 2 octets.

Le problème de ce standard est son poids : Il double le coût en mémoire de tous les documents pour un intérêt qui paraît très limité à une bonne partie des utilisateurs. Un autre standard a alors fait son apparition : UTF-8. Sans rentrer dans les détails, il permet lui aussi de coder tous les caractères, mais sur un nombre d’octets variant entre 1 et 4. Il permet ainsi une augmentation du coût en mémoire très faible pour les langues latines, tout en permettant d’encoder tous les caractères internationaux

Conclusion

le standard à utiliser préférentiellement, de manière générale et quel que soit la plateforme ou le logiciel utilisé est UTF-8. Cependant, dans certaines circonstances (informatique embarquée par exemple), on utilise encore très souvent l'ASCII.