# Traitement de données textuelles en Python

## Structuration des données
Nous allons travailler sur la pièce de Molière L'Avare.

On va chercher à rendre explicites des informations qui sont représentées implicitement dans le texte (cf. diaporama).

Une fois ces informations explicitées, il devient "facile" d'y accéder et de les exploiter. Dans notre exemple, on peut alors répondre à des questions du type : Combien de mots Harpagon prononce-t-il dans la scène 3 de l'acte 4 ?

### "Exercice" 1 
On va commencer par représenter la pièce par un dictionnaire qui associe à chaque titre d'acte le texte de l'acte :
```python
{
    'ACTE PREMIER' : '''Scène première
                        - Valère -
                        Hé quoi ! charmante Élise, vous devenez mélancolique, après les
                        obligeantes assurances que vous avez eu la bonté de me donner de votre
                        foi ? Je vous vois soupire...
                     ''',
    "ACTE SECOND" : """Scène première
                       - Cléante -
                       Ah ! traître que tu es ! où ...
                    """
}
```
**Rappel:**

Les chaînes de caractères sont délimitées soit par des guillemets simples ', soit par des guillemets doubles, soit par des guillemets simples ou doubles triplés.

In [1]:
"texte"=='texte'=='''texte'''=="""texte"""

True

Pouvoir utiliser des guillemets simple ou double permet de facilement construire des chaînes qui comportent ces caractères :

In [2]:
"Aujourd'dui"
'Je dis : "Bonjour !"'

'Je dis : "Bonjour !"'

Pouvoir utiliser des guillemets simple ou double triplés permet d'avoir des chaînes de caractères sur plusieurs lignes

In [3]:
"""texte sur 
plusieurs lignes"""

'texte sur \nplusieurs lignes'

In [1]:
text=open('LAvare.txt', encoding='utf8') #on ouvre le fichier, on précise l'encodage de caractères au cas uù ce programme serait exécuté sous Windows
pièce={} # La pièce est un dictionnaire, initialement vide, qui va être complété au fur et à mesure qu'on lit le fichier
for l in text: #un fichier est itérable, ligne par ligne
    if l[:4]=='ACTE':#La ligne commence par ACTE ? C'est qu'on débute un nouvel acte !
        acteCourant=l.strip()#On nettoie la ligne pour obtenir le titre de l'acte
        pièce[acteCourant]=''#Pour l'instant, le contenu de ce nouvel acte est vide
    else:#La ligne ne commence pas par acte ?
        pièce[acteCourant]+=l #on ajoute la ligne à l'acte que l'on est en train de construire

### Exercice 2
On rajoute les scènes ! On veut construire cette fois-ci construire un dictionnaire de dictionnaire : 
```python
{
    'ACTE PREMIER' : {'Scène première' : """- Valère -
                                            Hé quoi ! charmante Élise, vous devenez mélancolique, après les
                                            obligeantes assurances que vous avez eu la bonté de me donner de votre
                                            foi ? Je vous vois soupire...
                                         """,
                      'Scène II': """- Cléante -
                                     Je suis bien aise de vous trouver seule, ma soeur ; et je brûlais de
                                     vous parler, pour ...
                                     """
                      }
    "ACTE SECOND" : {'Scène première':"""- Cléante -
                                         Ah ! traître que tu es ! où ...
                                      """
                    }
}
```

### Exercice 3
On ajoute les répliques !
```python
{
    'ACTE PREMIER' : {'Scène première' : [{'personnage' : 'Valère',
                                           'réplique' : """Hé quoi ! charmante Élise, vous devenez mélancolique, après les
                                                           obligeantes assurances que ...
                                                         """
                                          },
                                          {'personnage' : 'Élise',
                                           'réplique' : """Non, Valère, je ne puis pas me repentir de tout ce que je fais pour
                                                           vous. Je m'y sens entraîner par une trop douce puissance, et je n'ai
                                                           ...
                                                         """
                                          }
                                          ],
                      'Scène II': [{'personnage': 'Cléante',
                                  'réplique': """Je suis bien aise de vous trouver seule, ma soeur ; et je brûlais de
                                                 vous parler, pour m'ouvrir à vous d'un secret.
                                              """
                                  },
                                 {'personnage': 'Élise',
                                  'réplique': "Me voilà prête à vous ouïr, mon frère. Qu'avez-vous à me dire ?"
                                 }
                                 ]
                      }
}
```

## Analyse des données
Maintenant que l'on a construit notre représention de la pièce, on peut l'exploiter !
### Exercice 4
Constuire la liste des personnages de la pièce
```python
['Valère',
 'Élise',
 'Cléante',
 'Harpagon',
 'La Flèche',
 'Maître Simon',
 'Frosine',
 'Maître Jacques',
 'La Merluche',
 'Brindavoine',
 'Mariane',
 'Le commissaire',
 'Anselme']
```

### Exercice 5
Constuire un dictionnaire qui associe à chaque personnage le nombre de caractères de l'ensemble de ses répliques
```python
{'Anselme': 2740,
 'Brindavoine': 207,
 'Cléante': 17264,
 'Frosine': 12102,
 'Harpagon': 31377,
 'La Flèche': 8494,
 'La Merluche': 289,
 'Le commissaire': 1580,
 'Mariane': 4753,
 'Maître Jacques': 8545,
 'Maître Simon': 971,
 'Valère': 14220,
 'Élise': 5568}
```

### Exercice 6
Constuire un dictionnaire qui associe à chaque personnage une liste de 5 nombres, correspondant au nombre de caractères de leurs répliques, acte par acte
```python
{'Anselme': [0, 0, 0, 0, 2740],
 'Brindavoine': [0, 0, 207, 0, 0],
 'Cléante': [5150, 2592, 3523, 5326, 673],
 'Frosine': [0, 8340, 1520, 2214, 28],
 'Harpagon': [9449, 3796, 6377, 5664, 6091],
 'La Flèche': [1345, 6895, 0, 254, 0],
 'La Merluche': [0, 0, 289, 0, 0],
 'Le commissaire': [0, 0, 0, 0, 1580],
 'Mariane': [0, 0, 2311, 1236, 1206],
 'Maître Jacques': [0, 0, 5032, 1531, 1982],
 'Maître Simon': [0, 971, 0, 0, 0],
 'Valère': [6991, 0, 1951, 0, 5278],
 'Élise': [4384, 0, 98, 331, 755]}
```


In [4]:
comptesParActe={}
nActe=0
for acte in pièce:
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            personnage = réplique['personnage']
            if personnage not in compteParActe:
                compteParActe[personnage]=[0,0,0,0,0]
            compteParActe[personnage][i]+=len(réplique['réplique'])
    nActe+=1

TypeError: string indices must be integers

In [6]:
comptesParActe={}
nActe=0
for acte in pièce:
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            personnage = réplique['personnage']
            if personnage not in compteParActe:
                compteParActe[personnage]=[0,0,0,0,0]
            compteParActe[personnage][i]+=len(réplique['réplique'])
    nActe+=1

TypeError: string indices must be integers

## Bascule dans excel

In [48]:
f = open('comptesParActe.csv', 'w')
f.write('Nom,Acte 1,Acte 2,Acte 3,Acte 4,Acte 5\n')
for perso in comptesParActe:
    f.write(perso)
    for n in comptesParActe[perso]:
        f.write(',%d'%n)
    f.write('\n')
f.close()