# Traitement de données textuelles

<!--
<div class="alert alert-success">

Regarder les vidéos suivantes sur YouTube et tester le code Python dans la cellule ci-dessous, prévue à cet effet :

- <a href="https://www.youtube.com/watch?v=2q8DM-_AxaI">2.2 Les chaînes de caractères 1/2</a> - durée : 5 min 35
- <a href="https://www.youtube.com/watch?v=LjjCFDCbHhQ">2.2 Les chaînes de caractères 2/2</a> - durée : 5 min 40

</div>-->

## Sommaire

  - [Opérations, méthodes et fonctions pour les chaînes de caractères](#Opérations,-méthodes-et-fonctions-pour-les-chaînes-de-caractères)
    - [Opérations longueur, concaténation, répétition et test d'appartenance](#Opérations-longueur,-concaténation,-répétition-et-test-d'appartenance)
    - [Changement de casse](#Changement-de-casse)
    - [Découpage et assemblage](#Découpage-et-assemblage)
    - [Suppression des espaces aux extrémités](#Suppression-des-espaces-aux-extrémités)
    - [Tests sur les chaînes](#Tests-sur-les-chaînes)
    - [Remplacements](#Remplacements)
    - [Recherche et extraction de sous-chaînes](#Recherche-et-extraction-de-sous-chaînes)
  - [Formatage des chaînes de caractères](#Formatage-des-chaînes-de-caractères)
    - [Les f-strings](#Les-f-strings)
    - [✏️ Exercice : f-strings](#✏️-Exercice-:-f-strings)
    - [L'opérateur %](#L'opérateur-%)
    - [La méthode format](#La-méthode-format)
  - [Travail avec différents jeux de caractères](#Travail-avec-différents-jeux-de-caractères)
    - [Jeux de caractères](#Jeux-de-caractères)
    - [Gestion des encodages dans les programmes Python](#Gestion-des-encodages-dans-les-programmes-Python)
  - [✏️ Exercice : lecture d'un fichier csv](#✏️-Exercice-:-lecture-d'un-fichier-csv)
  - [✏️ Exercice : recherche de mots par leur longueur](#✏️-Exercice-:-recherche-de-mots-par-leur-longueur)
  - [✏️ Exercice : tautogrammes](#✏️-Exercice-:-tautogrammes)
  - [✏️ Exercice : conversion entre encodages](#✏️-Exercice-:-conversion-entre-encodages)
  - [✏️ Exercice : chaînes à A](#✏️-Exercice-:-chaînes-à-A)

## Opérations, méthodes et fonctions pour les chaînes de caractères

Les chaînes de caractères sont de type `str`, qui représente une séquence de caractères Unicode. Les chaînes de caractères sont non-modifiables, c'est-à-dire qu'elles ne peuvent pas être modifiées après création et les manipulations créent de nouvelles chaînes de caractères.

Un certain nombre d'opérations, de méthodes et fonctions sont disponibles pour les chaînes de caractères.


### Opérations longueur, concaténation, répétition et test d'appartenance

In [None]:
len("12345") # Longueur de la chaîne : nombre de caractères dans la chaîne

In [None]:
len("12345\n")

In [None]:
len(r"12345\n")

In [None]:
"ce" + "rise" # Concaténation

In [None]:
"a" * 5 # Répétition / réplication

In [None]:
tbbt = ("knock " * 3 + "\nPenny!\n") * 3
print(tbbt)

In [None]:
'i' in 'cerise'  # Test d'appartenance

### Changement de casse

In [None]:
"cerise".upper() # mise en majuscules

In [None]:
"CERISE".lower() # mise en minuscules

In [None]:
"ceRISE".swapcase() # inversion de la casse

In [None]:
"cerise".capitalize() # première lettre en majuscule

In [None]:
"les bonnes cerises".title() # première lettre de chaque mot en majuscule

In [None]:
"les bonnes cerises".capitalize()

### Découpage et assemblage

In [None]:
"16/11/2018".split('/') # Sépare la chaîne en plusieurs éléments, suivant le séparateur donné (ici '/'). 
                        # Le résultat est une liste

In [None]:
";".join(['un', 'deux', 'trois', 'quatre', 'cinq']) # Assemble les élément de la liste
                                                    # séparés par le séparateur donné

In [None]:
print("\n".join(['a', 'b', 'c', 'd']))

### Suppression des espaces aux extrémités

In [None]:
" \tune chaine à nettoyer \n".strip() # Suppression des caractères blancs
                                      # (espace, tabulation, retour à la ligne) aux extrémités

In [None]:
" \tune chaine à nettoyer \n".rstrip() # Nettoyage à droite

In [None]:
" \tune chaine à nettoyer \n".lstrip() # Nettoyage à gauche

### Tests sur les chaînes

In [None]:
'cerise'.isupper() # Vérifie si la chaîne est entièrement en majuscules

In [None]:
'cerise'.islower() # Vérifie si la chaîne est entièrement en minuscules

In [None]:
'Les Bonnes Cerises'.istitle() # Vérifie si chaque mot commence par une majuscule

In [None]:
'cerise'.isalpha() # Vérifie si la chaîne ne contient que des caractères alphabétiques

In [None]:
'123'.isalpha()

In [None]:
'Un'.isdigit() # Vérifie si la chaîne ne contient que des caractères numériques

In [None]:
'123'.isdigit()

### Remplacements

In [None]:
"les bonnes pommes".replace("pomme", "cerise")

In [None]:
"abracadabra".replace("a", "i", 3) # Le nombre de remplacements est limité à 3

In [None]:
"abracadabra".replace("a", "i").replace("b", "p") # remplacements en chaîne

### Recherche et extraction de sous-chaînes

In [None]:
"cerise".startswith("ce") # commence par

In [None]:
"cerise".endswith("SE")

In [None]:
"cerise".find("ri") # Index (position) de la première occurrence de la sous-chaîne en paramètre

In [None]:
"cerise".find("ri", 3) # Indication d'un index de départ pour la recherche
                       # find() retourne -1 quand la sous-chaîne n'est pas trouvée

In [None]:
"cerise".find("ri", 0, 3) # Indication d'un index de départ et d'arrivée

In [None]:
"cerise".rfind("e") # Recherche à partir de la fin

In [None]:
"cerise".index("y") # index est similaire à find, mais produit une erreur (exception) 
                    # si la sous-chaîne n'est pas trouvée

In [None]:
'y' in 'cerise' # Test d'appartenance

In [None]:
'er' in 'cerise'

In [None]:
'cerise'.count('e') # Décompte du nombre d'occurrences

## Formatage des chaînes de caractères

### Les f-strings
Le mécanisme des `f-strings` est le plus récent (n'existe que depus la version 3.6 de Python) et également le plus simple à manipuler. Les champs sont délimités par des accolades :

In [None]:
prenom = "Marie"
nom = "Muller"
age = 30
f"{prenom} {nom} a {age} ans." # Il suffit d'ajouter f devant la chaîne

In [None]:
f"Dans 5 ans, {prenom.upper()} aura {age+5} ans."

In [None]:
nb = 21
somme = 257
f"Moyenne sur {nb} élèves : {somme/nb:.2f}"

In [None]:
section = "Chapitre 1"
page = 3
f"{section:<}{page:.>30}" # Alignement à gauche : <, alignement à droite >, 
                          # largeur de 30, remplissage avec .

In [None]:
texte = "Titre"
f"{texte:*^50}" # Alignement centré, largeur de 50, remplissage avec * à gauche et à droite

### ✏️ Exercice : f-strings

A partir d'une variable `s` contenant "Mes meilleures recettes pour Noël", donner la f-string permettant de construire la chaîne ci-dessous, sur une largeur de 60 caractères :

```
++++++++++++ Mes Meilleures Recettes Pour Noël +++++++++++++
```

In [None]:
# Construction de la chaîne

### L'opérateur %
L'opérateur `%` peut être utilisé pour insérer des valeurs dans une chaîne de caractères, à des endroits marqués à l'aide de `%s` :

In [None]:
jour = 10
mois = 11
annee = 2018
print("Nous sommes le %s/%s/%s" % (jour, mois, annee))
print("Demain nous serons le %s/%s/%s" % (jour+1, mois, annee))

### La méthode format

La méthode `format` est elle aussi utilisée pour contrôler la création de chaînes formatées.
Historiquement, la méthode `format` a été introduite après l'opérateur `%`.

Etudier le programme ci-dessous pour comprendre son fonctionnement. En particulier, étudier les lignes 12, 21 et 22 qui sont des exemples d'utilisation de `format` :

In [None]:
resultats = [["Edmond Petit", 5, 12, 7],
             ["Marie Durand", 12, 9, 14],
             ["Jacques François", 15, 10, 8],
             ["Catherine Dupont", 16, 17, 18],
             ["Pierre Legrand", 13, 14, 13]]
coefficients = [2, 2, 1]
somme_coef = sum(coefficients)
en_tetes = ["Prénom Nom", "Français", "Mathématiques", "Informatique", 
            "Total", "Moyenne"]
ligne1 = ''
for n in en_tetes:
    ligne1 += '{:^18}'.format(n)
print(ligne1)
for i in range(len(resultats)) :
    somme = 0
    for j in range(1,4):
        somme += resultats[i][j] * coefficients[j-1]
    moyenne = somme / somme_coef
    ligne_resultat = ''
    for r in resultats[i]:
        ligne_resultat += '{:18}'.format(r)
    print("%s%s%s" % (ligne_resultat, '{:18}'.format(somme), '{:18.2f}'.format(moyenne)))

La paire d'accolades désigne un champ qui sera remplacé avec la valeur d'un des paramètres de format. Par exemple, dans `'{:18}'.format(somme)`, le champ sera remplacé par la somme.

`format` permet également de contrôler la largeur de l'affichage, l'alignement, l'affichage des valeurs numériques, etc. :

In [None]:
"Bonjour {}".format("Myrtille")

In [None]:
"{} {} {}".format("a", "b", "c")

In [None]:
"Moyenne sur {} élèves : {:.2f}".format(21, 257/21) # Seulement 2 chiffres après la virgule pour la moyenne

In [None]:
"{:.2%}".format(1/4) # 2 chiffres après la virgule, affichage sous forme de pourcentage

In [None]:
"{:+d} {:+d}".format(100, -54) # Nombre entier base 10, affichage du signe +

In [None]:
"décimal : {0:d}, binaire : {0:b}".format(7) # Formatage dans différentes bases

In [None]:
"|{:15}|".format("Bonjour !") # Largeur minimale de 15 (ajout d'espaces pour obtenir la longueur demandée)

In [None]:
"|{:3}|".format("Bonjour !")

In [None]:
"|{:^15}|".format("Bonjour !") # Alignement centré

In [None]:
"|{:-^15}|".format("Bonjour !") # Alignement centré et remplissage par le caractère -

In [None]:
"|{:->15}|".format("Bonjour !") # Alignement à droite et remplissage par le caractère -

In [None]:
"{:<}{:.>30}".format("Chapitre 1", 3) # Alignement à gauche : <, alignement à droite >, 
                                      # largeur de 30, remplissage avec .

In [None]:
"{:*^50}".format("Titre") # Alignement centré : ^, largeur de 50, remplissage avec *

## Travail avec différents jeux de caractères

### Jeux de caractères

Un jeu de caractères associe chaque caractère qu'il contient à un code numérique. Il existe de nombreux jeux de caractères. Voici quelques exemples de jeux de caractères et de codes numériques associés :

| | **a** | **à** | **œ** | **€** |
|:---------- |-- |----------: |----------: |----------: |
| **ASCII** | 97 | absent | absent | absent |
| **Latin 1 / ISO 8859-1** | 97 | 224 | absent | absent |
| **ISO 8859-15** | 97 | 224 | 339 | 164 |
| **Code Unicode (encodage UTF-8 en décimal)** | U+0061 (97) | U+00E0 (195 160) | U+0153 (197 147) | U+20AC (226 130 172) |


- Pour les codes de 0 à 127, les codes utilisés par UTF 8 sont ceux de la table ASCII ; c’est le cas du caractère ‘a’ par exemple
- Pour les caractères dont les codes Unicode vont de 128 à 2047, UTF 8 utilise deux octets
    - Par exemple, le code Unicode de ‘à’ est U+00E0 qui est représenté en UTF 8 par 195 160. Pour information, 195 en Latin 1 est Ã et 160 est une espace insécable.
    - Le code Unicode de ‘ oe ’ est U+0153 qui est représenté en UTF 8 par 197 147. Pour information, 197 en Latin 1 est Å et 147 est un caractère de contrôle non imprimable.
- Pour les caractères dont les codes Unicode vont de 2048 à 63535, UTF 8 utilise trois octets
    - Le code Unicode de ‘€’ est U+20AC qui est représenté en UTF 8 par 226 130 172. Pour information, 226 en Latin 1 est â, 130 est un caractère de contrôle et 172 est ¬.
- Le jeu de caractères à privilégier est UTF-8, car il est compatible avec le standard Unicode (standard qui vise à coder les caractères écrits de tous les systèmes d'écritures). 

In [None]:
accents = 'aàœ€'
# Transformation en chaîne binaire
bin_accents = accents.encode()
# Affichage des caractères (code hexadecimal base 16 pour les caractères spéciaux)
print(bin_accents)
for i in range(len(bin_accents)):
    # Affichage des caractères avec leurs codes : 
    # format décimal (base 10) et format binaire (base 2)
    print(f"bin_accents[{i}] = {bin_accents[i]} ({bin(bin_accents[i])} - {hex(bin_accents[i])})")

#### Conversion base 2 - base 10

`bin_accents[0] = 97 (0b1100001- 0x61)`

| 1 | 1 | 0 | 0 | 0 | 0 | 1 | Somme |
|:--|:--|:--|:--|:--|:--|:--|------:|
| $1.2^6$ | $1.2^5$ | $0.2^4$ | $0.2^3$ | $0.2^2$ | $0.2^1$ | $1.2^0$ | |
| 64 | 32 | 0 | 0 | 0 | 0 | 1 | 97 |

#### Conversion base 2 - base 16

Groupement des chiffres binaires par 4 :

| 1 1 0 | 0 0 0 1 | Résultat |
|--:|--:|------:|
| 6 | 1 | 61 |

#### Problèmes d'encodage

Le caractères `à` ne se trouve pas dans la table ASCII.
Ce caractères est en fait codé sur deux octets, correspondant à deux nombres lors de l’affichage :
```
bin_accents[1] = 195 (0b11000011)
bin_accents[2] = 160 (0b10100000)
```

Ceci explique les mauvais affichage qui peuvent être rencontrés pour ce caractère :

- `195` est le code pour `Ã` en Latin-1
- `160` est le code pour l'espace insécable en Latin-1

### Gestion des encodages dans les programmes Python

Les programmes Python peuvent manipuler des chaînes de caractères Unicode. Pour cela, lors de la lecture d'une chaîne de caractères dans un fichier par exemple, il faut procéder à son **décodage** pour la convertir en Unicode.  A l'inverse, pour écrire une chaîne de caractères dans un fichier, il faut l'**encoder**.

![encod_decode.png](attachment:encod_decode.png)

L'encodage et le décodage peut se faire à l'aide des méthodes `encode()` et `decode()`, en spécifiant respectivement l'encodage cible et l'encodage source :

In [None]:
s = 'un été à la plage' 
# Passage de la représentation interne au jeu de caractères latin1 : b'un \xe9t\xe9 \xe0 la plage' 
s_latin1 = s.encode('latin1') 
print('s_latin1 après encodage :', s_latin1)
# Passage de latin1 à la représentation interne (chaîne de caractères Unicode)
s_latin1.decode('latin1') 

L'instruction ci-dessous provoque une erreur de type `UnicodeDecodeError`. Pourquoi ?

In [None]:
s_latin1.decode('ascii')

In [None]:
s_utf8 = s.encode('utf8')
print("s_utf8 après encode :", s_utf8)
s_utf8.decode('utf8')

L'instruction ci-dessous donne un affichage erroné des caractères accentués. Pourquoi ?

In [None]:
s_utf8.decode('latin1')

In [None]:
s2 = 'une glace coûte 2 €'
print("s2 :", s2)
s2_885915 = s2.encode('iso8859-15')
print("s2_885915 :", s2_885915)
s2_885915.decode('iso8859-15')

L'instruction ci-dessous montre que le caractère `€` est remplacé par `¤`. Pourquoi ?

In [None]:
s2_885915.decode('cp1252')

Si on compare les tables de codes pour [ISO-8859-15](https://fr.wikipedia.org/wiki/ISO/CEI_8859-15) et [Cp1252](https://fr.wikipedia.org/wiki/Windows-1252), on voit que le code attribué à € en ISO-8859-15 (0xA4) correspond au caractère ¤ en Cp1252, d'où l'affichage obtenu.

Il est possible de spécifier directement le code d'un caractère :

In [None]:
a_grave = '\u00e0'
a_grave

Ou d'utiliser son nom (voir la liste https://www.unicode.org/Public/UCD/latest/ucd/NamesList.txt)

In [None]:
a_grave_n = '\N{LATIN SMALL LETTER A WITH GRAVE}'
a_grave_n

Pour lire un fichier dont on connaît l'encodage et le décoder correctement, on spécifie l'encodage à l'ouverture, que ce soit en mode lecture ou écriture :

In [None]:
with open('input/conteGrimm.txt', 'r', encoding='utf-8') as f:
    for line in f:
        line = line.strip()
        print(line.encode('unicode_escape'))

Le pseudo encodage `unicode_escape` convertit tous les caractères non-ASCII soit en une représentation sous la forme `\uXXXX` (code Unicode sur 4 chiffres), soit sous la forme `\xXX` (code sur 2 chiffres).

## ✏️ Exercice : lecture d'un fichier csv
Soit le fichier `temperatures.csv`. Ce fichier contient un tableau avec des villes, leur température moyenne et leur ensoleillement moyen. Écrire un programme qui lit ce fichier et affiche les villes qui ont la plus grande et la plus petite température moyenne.

In [None]:
# Exercice : lecture d'un fichier csv

## ✏️ Exercice : recherche de mots par leur longueur
Soit le fichier `conteGrimm.txt`. Écrire un programme pour effectuer les opérations suivantes :
1. Compter le nombre de mots de longueur 5 caractères dans le fichier.
2. Les afficher en minuscules avec le numéro de ligne dans laquelle ils apparaissent.

Si vous souhaitez un découpage en mot plus précis, vous pouvez utiliser la méthode ci-dessous, qui découpe la chaîne au niveau de tous les caractères non alphanumériques et non pas uniquement les espaces :

In [None]:
import re
mots = re.split('\W+', 'Words, words, words.')

In [None]:
# Exercice : recherche de mots par leur longueur

## ✏️ Exercice : tautogrammes
Soit le fichier `phrases.txt`. Écrire un programme appelé `tautogramme.py` qui lit le contenu de `phrases.txt` et affiche les numéro et le contenu des lignes qui sont des tautogrammes (tous les mots de la ligne commencent par la même lettre, en majuscule ou en minuscule).
Voici l'affichage à obtenir pour le fichier `phrases.txt` :

```
1 : Le lion lape le lait lentement.
3 : Voici venir vingt vampires verts.
7 : Mazarin, ministre malade, méditait même moribond malicieusement mille maltôtes.
8 : Si sa soeur savait sourire, sa soirée serait sûrement satisfaisante.
```

In [None]:
# Exercice : tautogrammes

## ✏️ Exercice : conversion entre encodages

Soient les fichiers `texte_utf8.txt` et `texte_cp1252.txt`. Écrire un programme pour effectuer les opérations suivantes :
1. Convertir `texte_cp1252.txt` en UTF-8 et écrire le résultat dans le fichier `texte_utf8_converti.txt`. Que constatez-vous ?
1. Essayer de convertir `texte_utf8.txt` en ASCII et d'écrire le résultat dans le fichier `texte_ascii_converti.txt`. Que constatez-vous ?

In [None]:
# Exercice : conversion entre encodages

## ✏️ Exercice : chaînes à A

Soit le fichier `lexique.txt` : ce fichier comporte un mot par ligne. Écrire un programme qui compte le nombre de mots du fichier qui contiennent au moins trois occurrences du caractère A et qui affiche les lignes correspondantes.

Voici le début et la fin de l'affichage à obtenir :
```
6 : abandonnant
20 : abattage
26 : abbatial
89 : abracadabrant
147 : acacia
156 : accablant
198 : acclamation
200 : acclimatation
204 : accompagnant
343 : actionnariat
356 : actualisation
....
21441 : travaillaient
21442 : travaillait
21443 : travaillant
22444 : yamaha
Il y a 168 mots dans le fichier qui contiennent au moins trois A.
```

In [None]:
# Exercice : chaînes à A