# Comment écrire du texte avec Python ?

En programmation, ce que l'on appelle communément du *texte* s'appelle une **chaîne de caractère**. En anglais cela se traduit par **"string"**.

Nous allons voir comment créer et manipuler des chaînes de caractère...

## Créer une chaîne de caractère

Pour expliciter au langage de programmation que nous souhaitons que telle suite de caractères soit du *type string*, il faut l'encadrer de guillements doubles : `"`

In [None]:
ma_chaine = "Ceci est une chaine"
type(ma_chaine)

> **Remarque :**
`ma_chaine` est un exemple suplémentaire de [**bonne pratique**](http://sametmax.com/le-pep8-en-resume) pour nommer une variable : plusieurs mots, uniquement en minuscule, séparés par un *tiret bas* `_`

On peut aussi déclarer une chaîne de caractère avec des apostrophes : `'`

In [None]:
autre_chaine = ' de caractère'
type(autre_chaine)

> **Remarques :**
Cette double notation permet d'utiliser les apostrophes et les guillements à l'intérieur de nos chaînes de caractères.

Quelques exemples de ce qui fonctionne... ou pas !

In [None]:
chaine = 'C'est une mauvaise façon de créer une chaine contenant une apostrophe'

In [None]:
chaine = "C'est une bonne façon de créer une chaine contenant une apostrophe"

In [None]:
chaine = "C'est une mauvaise façon de créer une "chaîne" contenant des guillemets"

In [None]:
chaine = 'Mais c'est compliqué d'avoir à la fois des apostrophes et des "guillemets"'

In [None]:
chaine = '''C'est un cas rare qui peut être "résolu" avec des triples apostrophes'''
print(chaine)

> **Commentaires :**

# Manipulations de chaînes de caractère

## Concaténation
On utilise l'opérateur `+` pour mettre deux chaînes de caractères bout à bout.

In [None]:
print(ma_chaine)
print(autre_chaine)
print(ma_chaine + autre_chaine)

> **Remarque :**
Une chaîne de caractère n'est pas un nombre. Observez attentivement ces exemples :

In [None]:
a = '2'
b = '5'
a + b

In [None]:
a = '2'
b = 5
a + b

In [None]:
a = 2
b = 5
a + b

# Encodage

## Qu’est-ce qu’un encodage ?
Comme vous le savez, la mémoire - ou le disque - d’un ordinateur ne permet que de stocker des représentations binaires. Il n’y a donc pas de façon “naturelle” de représenter un caractère comme ‘A’, un guillemet ou un point-virgule.

On utilise pour cela un encodage, par exemple le code US-ASCII stipule, pour faire simple, qu’un ‘A’ est représenté par l’octet 65 qui s’écrit en binaire 01000001. 

Il se trouve qu’il existe plusieurs encodages, bien sûr incompatibles, selon les systèmes et les langues : qui n'a jamais vu apparaître des caractères étranges pour remplacer les caractères accentués, au mileu d'un mail ou autre document numérique ?

> **Remarques :**
C'est pour cela que la première ligne de vos programmes en Python doit systématiquement rappeler à l'interpréteur avec quel format d'encodage vous avez crée votre programme : `# coding: utf-8`

## Un peu d’histoire sur les encodages
### Le code ASCII
Jusque dans les années 1980, les ordinateurs ne parlaient pour l’essentiel que l’anglais. Dans les années 60, la première vague de standardisation avait créé [l’encodage dit ASCII  (*American Standard Code for Information
Interchange*), ou encore US-ASCII](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange).

**Le code ASCII s’étend sur 128 valeurs, soit 7 bits, mais est le plus souvent implémenté sur un octet** pour préserver l’alignement, le dernier bit pouvant être utilisé par exemple pour ajouter un code correcteur d’erreur (ce qui à l’époque des modems n’était pas superflu). __Chaque caractère est donc encodé sur un octet (8 bits) en ASCII__.

En voici un extrait (caractères 48 à 71) :

| Code | Carac | Code | Carac | Code | Carac | Code | Carac | Code | Carac | Code | Carac |
|:----:|:-----:|:----:|:-----:|:----:|:-----:|:----:|:-----:|:----:|:-----:|:----:| ----- |
| 48   | 0     | 49   | 1     | 50   | 2     | 51   | 3     | 52   | 4     | 53   | 5     |
| 54   | 6     | 55   | 7     | 56   | 8     | 57   | 9     | 58   | :     | 59   | ;     |
| 60   | <     | 61   | =     | 62   | >     | 63   | ?     | 64   | @     | 65   | A     |
| 66   | B     | 67   | C     | 68   | D     | 69   | E     | 70   | F     | 71   | G     |

Notons que la table ASCII contient lettres, chiffres, mais aussi des caractères
invisibles (tabulation, espace, retour chariot). Elle ne contient aucun
caractère accentué.

> **Exercice :**
Retrouver l’expression codée en binaire avec [la table ASCII](https://fr.wikipedia.org/wiki/American_Standard_Code_for_Information_Interchange#/media/Fichier:ASCII-Table-wide.svg) :

> 0100 0010 0111 0010 0110 0001 0111 0110 0110 1111 0010 0001

> **Conseil :** la table ASCII code chaque caractère sur un octet.

### Les encodages ISO
Répondant à la nécessité de représenter les caractères accentués et afin de rester compatible avec l'ASCII, des tables d'encodage supplémentaires sont alors apparues. Leurs 128 premiers caractères restent ceux de l'ASCII, et 128 caractères supplémentaires spécifiques à une langue particulière sont ajoutés (le code passe donc de 7 à 8 bits).

À chaque langage sa table :

- [l'ISO 8859-1](https://fr.wikipedia.org/wiki/ISO/CEI_8859-1), ou *Latin-1*, contient les caractères accentués utilisés dans
  les langues latines.
- l'ISO 8859-7 contient, outre les 128 caractères de l'ASCII, les caractères
  grecs.
- l'ISO 8859-15 ou Latin-9, est presque identique au Latin-1 à 8 caractères près (le Latin-9 contient par exemple les caractères œ, Œ et € qui ne sont pas dans la table Latin-1)

__La table Latin-1 utilise donc 1 octet (8 bits) pour encoder chaque caractère__.

> __Remarques :__ 
- L'encodage utilisé __ne fait pas partie du contenu du fichier__. Si on se trompe sur l'encodage utilisé, certains caractères seront donc mal interprétés.
- À ce stade, le ver était dans le fruit. Depuis cette époque pour ouvrir un fichier il faut connaître son encodage ! Sinon, il arrive que des caractères soient remplacés par d'autres, ce qui peut nuire considérablement à la lisibilité du texte.

### Le format Unicode
Au début des années 90 apparaît la norme [**Unicode**](https://fr.wikipedia.org/wiki/Unicode) qui réunit *tous les caractères* dans une seule table, encore en construction, et qui contient actuellement plus de 135 000 symboles. **Le but est de couvrir tous les besoins**.

Actuellement numérotés sur 21 bits, le code unicode n'est pas utilisé directement comme encodage de fichiers (sous peine de voir la taille des fichiers texte multipliés par 3.

Ce sont des encodages comme UTF-8 qui permettent actuellement d'utiliser Unicode. Le principe est de coder les caractères courants sur un seul octet, et d'utiliser des séquences d'échappement pour accéder à d'autres parties de la table. **En UTF-8, tous les caractères n'occupent donc pas la même place. Certains sont codés sur 1 octet, et d'autres sur 2, 3 ou 4 octets**.

**Actuellement, la bonne pratique est d'utiliser UTF-8 dès que c'est possible**, afin de garantir une bonne interopérabilité, et une durée de vie importante des fichiers.

#### Le fonctionnement du format Unicode

Techniquement, il s’agit de coder les caractères Unicode sous forme de séquences de un à quatre octet. La norme Unicode définit entre autres un ensemble de caractères. Chaque caractère est repéré dans cet ensemble par un index entier aussi appelé « point de code ». Par exemple le caractère « € » (euro) est le 8365e caractère du répertoire Unicode, son index, ou point de code, est donc 8364 (0x20AC) (on commence à compter à partir de 0).

Voici un tableau décrivant comment le format Unicode permet d'utiliser de 1 octet (pour les caractères les plus usuels) jusqu'à 4 octets (pour les caractères les plus rares). Les colonnes de gauche décrivent les intervalles des points de code :

> Commentez le tableau ci-dessous, en particulier en cherchant à comprendre l'utilité des bits coloriés en bleu.

![Fonctionnement UTF-8](UTF-8.png)

> __Remarque :__ chaque $b_i$ correspond à un bit qui permet d'encoder le caractère voulu. Il vaut donc 0 ou 1.

## L'encodage avec Python

**Depuis la version 3, Python représente ses chaînes de caractères en Unicode, et utilise par défaut l'encodage UTF-8 pour écrire des fichiers**.

On peut passer d'un caractère à son code unicode par la fonction `ord()` et réciproquement avec la fonction `chr()`.

In [None]:
ord('A')

In [None]:
chr(65)

In [None]:
ord('6')

In [None]:
ord('€')

> **Commentaires :**

## Décoder du binaire avec Python

**Utiliser Python** pour retrouver l’expression codée en binaire avec [**la table Unicode**](https://fr.wikipedia.org/wiki/Unicode) :

0100 0010 0111 0010 0110 0001 0111 0110 0110 1111 0010 0001

In [None]:
message_binaire = '010000100111001001100001011101100110111100100001'

'''
A vous de jouer...

...en trouvant la fonction adéquate pour convertir ce code binaire
puis en l'appliquant sur chaque portion de code correspondant
à un caractère.

Si vous avez plus d'expérience de programmation, essayer de décoder
l'ensemble du message binaire en une seule exécution de votre code.
'''

## Lecture et écriture de fichiers (approfondissement)

Il convient d'être vigilant lors de la lecture/écriture de fichiers texte pour bien relire un fichier en spécifiant l'encodage avec lequel il a été encodé (par défaut UTF-8).

Un encodage différent peut être spécifié à l'ouverture du fichier en lecture ou en écriture.
La liste des encodages standard peut être trouvée dans la [documentation du langage Python](https://docs.python.org/fr/3/library/codecs.html#standard-encodings).

> **Activité :**
- Voici un programme qui crée un fichier texte au format UTF-8.
- Compléter-le pour lire le contenu de ce fichier au format latin1.

In [None]:
with open("mon_fichier.txt", mode='w', encoding='utf8') as f:
    f.write("Ceci est un texte accentué, enregistré en UTF-8")

# Les deux lignes de code écrites ci-dessus sont à conserver intactes !
# Ce code permet de créer un nouveau fichier, codé en UTF-8.
#
# Il vous faut ajouter des lignes pour lire ce fichier avec l'encodage latin1
# Il faut donc utiliser le mode 'r' (read) pour lire le fichier
# Afficher ce qui a été lu dans le fichier avec la méthode read(), puis commenter
# En cas de difficulté : https://python.doctor/page-lire-ecrire-creer-fichier-python

Nous allons maintenant simuler la situation d'un développeur devant remettre aux normes actuelles un vieux fichier, codé au format ISO 8859-1 (latin1).

> **Activité** :
- Partie préparatoire :
  - Ecrire un programme qui crée un fichier texte en latin1
- Partie "simulation d'une remise aux normes UTF-8" :
  - Lire ce fichier en latin1
  - Réécrire ce même fichier en UTF-8
  - Utiliser un éditeur de texte quelconque pour voir son contenu

Et... c'est à peu près tout ce que vous êtes supposé retenir sur les chaînes de caractères en classe de première !

... et si on allait un peu plus loin ?  ;-)

## Que retenir ?
### À minima...

- Une chaîne de caractères est une suite de caractères (du texte).
- En Python, on note une chaîne de caractères entre guillemets (ex : `"texte"`) ou entre apostrophes (ex : `'texte'`).
- L'opérateur `+` permet de mettre deux chaînes de caractères bout à bout : c'est une concaténation.
- Pour encoder du texte dans une machine numérique, il faut choisir un type d'encodage et utiliser la même norme pour décoder le texte.
- Le code ASCII est le premier système d'encodage qui a été utlisé de façon quasi-universelle.
- De nos jours, il est fortement conseillé d'utiliser le système unicode UTF-8 pour encoder nos fichiers.
- On peut passer d'un caractère à son code unicode par la fonction `ord()` et réciproquement avec la fonction `chr()`.

### Au mieux...

- Le code ASCII encode un caractère sur 8 bits (un octet) mais seuls les 7 bits de poids les plus faibles sont réellement utilisés.
- L'encodage ISO 8859-1, également appelé Latin-1, a lui aussi été beaucoup utilisé car il contient les accents que les européens utilisent.
- L'encodage Latin-1 utilise les 8 bits de l'octet tout en conservant le même encodage que l'ASCII sur les 7 premiers bits (ce qui favorise sa compatibilité).
- En unicode UTF-8, tous les caractères n'occupent pas la même place. Certains sont codés sur 1 octet, et d'autres sur 2, 3 ou 4 octets.
- A l'aide de Python, savoir lire et écrire dans un fichier en tenant compte de l'encodage utilisé (`with open(...) as ...`).

---
[![Licence CC BY NC SA](https://licensebuttons.net/l/by-nc-sa/3.0/88x31.png "licence Creative Commons CC BY-NC-SA")](http://creativecommons.org/licenses/by-nc-sa/3.0/fr/)

<p style="text-align: center;">Auteur : David Landry, Lycée Clemenceau - Nantes</p>

<p style="text-align: center;">D'après des documents partagés par...</p>

<p style="text-align: center;"><a  href=https://www.lecluse.fr/>Olivier Lecluse</a></p>
<p style="text-align: center;"><a  href=https://www.fun-mooc.fr/courses/course-v1:UCA+107001+session02/about>Thierry Parmentelat et Arnaud Legout</a></p>
<p style="text-align: center;">Equipe pédagoqique DIU EIL de l'académie de Nantes</p>