# Traitement de données textuelles en Python
## Expresssions régulières

In [2]:
import re #On importe la bibliothèqe re, pour regular expressions, qui permet de manipuler des expressions régulières en python

In [2]:
regex='a' 
s='a'
re.fullmatch(regex,s)#la fonction fullmatch permet de vérifier si une chaîne correspond bien a une expression régulière

<re.Match object; span=(0, 1), match='a'>

In [3]:
regex='.' 
s='B'
re.fullmatch(regex,s)

<re.Match object; span=(0, 1), match='B'>

### Préambule 1
La fonction `finditer` permet de repérer toutes les sous-chaînes correspondant à une expression régulière et de les parcourir:

In [4]:
texte = open('LAvare.txt').read()
liste=[]
for personnage in re.finditer("- .* -", texte):
    liste.append(texte[personnage.start():personnage.end()])
len(liste)

968

In [22]:
personnage.end()

121297

In [26]:
texte[121285:121297]

'- Harpagon -'

### Préambule 2

Les parenthèses dans les expressions régulières définissent des *groupes* auxquels on peut par la suite se référer:

In [6]:
liste=[]
for personnage in re.finditer("- (.*) -", texte):
    liste.append(personnage.group(1))
len(liste)

968

### Préambule 3
Par défaut, en Python, le . correspond à n'importe quel caractère *sauf* le retour à la ligne

In [8]:
liste=[]
for match in re.finditer(".+", texte):
    liste.append(match)
len(liste)

3115

On peut modifier ce comportement pour travailler sur des expressions régulière qui s'étendent sur plusieurs lignes :

In [10]:
liste=[]
for match in re.finditer(".+", texte, re.DOTALL):
    liste.append(match)
len(liste)

1

### Exercice 1
Quelle est l'expression régulière qui permet de décrire un acte ? Quelle est l'expression régulière qui permet de décrire un acte tout en isolant son titre de son texte ?

Vous pouvez tatonner ici : https://regex101.com/r/UZvZCl/3

Ecrire une fonction qui construit un dictionnaire `pièce` qui associe à chaque titre d'acte son texte :

```python
{
    'ACTE PREMIER' : '''Scène première
                        - Valère -
                        Hé quoi ! charmante Élise, vous devenez mélancolique, après les
                        obligeantes assurances que vous avez eu la bonté de me donner de votre
                        foi ? Je vous vois soupire...
                     ''',
    "ACTE SECOND" : """Scène première
                       - Cléante -
                       Ah ! traître que tu es ! où ...
                    """
}
```

### Exercice 2
Quelle est l'expression régulière qui permet de décrire une scène ? Quelle est l'expression régulière qui permet de décrire une scène tout en isolant son titre de son texte ?


Ecrire une fonction qui construit un dictionnaire `pièce` qui associe à chaque titre d'acte un dictionnaire qui associe à chaque titre de scène son texte :  

```python
{
    'ACTE PREMIER' : {'Scène première' : """- Valère -
                                            Hé quoi ! charmante Élise, vous devenez mélancolique, après les
                                            obligeantes assurances que vous avez eu la bonté de me donner de votre
                                            foi ? Je vous vois soupire...
                                         """,
                      'Scène II': """- Cléante -
                                     Je suis bien aise de vous trouver seule, ma soeur ; et je brûlais de
                                     vous parler, pour ...
                                     """
                      }
    "ACTE SECOND" : {'Scène première':"""- Cléante -
                                         Ah ! traître que tu es ! où ...
                                      """
                    }
}
```

### Exercice 3
Quelle est l'expression régulière qui permet de décrire une réplique ? Quelle est l'expression régulière qui permet de décrire une scène tout en isolant son personnage de son texte ?

Ecrire une fonction qui construit la structure complète de la pièce :
```python
{
    'ACTE PREMIER' : {'Scène première' : [{'personnage' : 'Valère',
                                           'réplique' : """Hé quoi ! charmante Élise, vous devenez mélancolique, après les
                                                           obligeantes assurances que ...
                                                         """
                                          },
                                          {'personnage' : 'Élise',
                                           'réplique' : """Non, Valère, je ne puis pas me repentir de tout ce que je fais pour
                                                           vous. Je m'y sens entraîner par une trop douce puissance, et je n'ai
                                                           ...
                                                         """
                                          }
                                          ],
                      'Scène II': [{'personnage': 'Cléante',
                                  'réplique': """Je suis bien aise de vous trouver seule, ma soeur ; et je brûlais de
                                                 vous parler, pour m'ouvrir à vous d'un secret.
                                              """
                                  },
                                 {'personnage': 'Élise',
                                  'réplique': "Me voilà prête à vous ouïr, mon frère. Qu'avez-vous à me dire ?"
                                 }
                                 ]
                      }
}
```

## Analyse des données
Maintenant que l'on a construit notre représention de la pièce, on peut l'exploiter !
### Exercice 4
Constuire la liste des personnages de la pièce
```python
['Valère',
 'Élise',
 'Cléante',
 'Harpagon',
 'La Flèche',
 'Maître Simon',
 'Frosine',
 'Maître Jacques',
 'La Merluche',
 'Brindavoine',
 'Mariane',
 'Le commissaire',
 'Anselme']
```

### Exercice 5
Constuire un dictionnaire qui associe à chaque personnage le nombre de caractères de l'ensemble de ses répliques
```python
{'Anselme': 2740,
 'Brindavoine': 207,
 'Cléante': 17264,
 'Frosine': 12102,
 'Harpagon': 31377,
 'La Flèche': 8494,
 'La Merluche': 289,
 'Le commissaire': 1580,
 'Mariane': 4753,
 'Maître Jacques': 8545,
 'Maître Simon': 971,
 'Valère': 14220,
 'Élise': 5568}
```

### Exercice 6
Constuire un dictionnaire qui associe à chaque personnage une liste de 5 nombres, correspondant au nombre de caractères de leurs répliques, acte par acte
```python
{'Anselme': [0, 0, 0, 0, 2740],
 'Brindavoine': [0, 0, 207, 0, 0],
 'Cléante': [5150, 2592, 3523, 5326, 673],
 'Frosine': [0, 8340, 1520, 2214, 28],
 'Harpagon': [9449, 3796, 6377, 5664, 6091],
 'La Flèche': [1345, 6895, 0, 254, 0],
 'La Merluche': [0, 0, 289, 0, 0],
 'Le commissaire': [0, 0, 0, 0, 1580],
 'Mariane': [0, 0, 2311, 1236, 1206],
 'Maître Jacques': [0, 0, 5032, 1531, 1982],
 'Maître Simon': [0, 971, 0, 0, 0],
 'Valère': [6991, 0, 1951, 0, 5278],
 'Élise': [4384, 0, 98, 331, 755]}
```


## Conversion en JSON
JSON est un format de fichier pour enregistré des données structurées très répandu. Nous allons l'utiliser pour conserver notre structuration de la pièce

In [8]:
import json

In [9]:
f=open('LAvare.json', 'w')
f.write(json.dumps(pièce))
f.close()

On peut ensuite recharger les données

In [10]:
f=open('LAvare.json')
pièce = json.loads(f.read())
f.close()