In [None]:
!python -m spacy download fr_core_news_sm

# Traitement de données textuelles en Python
## Lemmatisation, étiquetage

In [1]:
import spacy

Cette ligne importe un modèle du français proposé par [spaCy]
(http://www.spacy.io), une bibliothèque pour le traitement automatique des langues. Pour l'utiliser, il faut charger ce modèle, ce qui renvoie une "fonction" capable de traiter du texte :

In [2]:
nlp = spacy.load('fr_core_news_sm')
print(nlp)

<spacy.lang.fr.French object at 0x7fdc778f69d0>


In [3]:
texte="Nous allons prendre ce petit texte comme exemple. Que fait Spacy avec ?"
nlp(texte)

Nous allons prendre ce petit texte comme exemple. Que fait Spacy avec ?

De prime abord, il ne s'est pas passé grand chose. Mais en fait, ce texte a été tokenisé :

In [4]:
for token in nlp(texte):
    print(token)

Nous
allons
prendre
ce
petit
texte
comme
exemple
.
Que
fait
Spacy
avec
?


Il a également été lemmatisé :

In [5]:
for token in nlp(texte):
    print(token.text,token.lemma_)

Nous nous
allons aller
prendre prendre
ce ce
petit petit
texte texte
comme comme
exemple exemple
. .
Que que
fait faire
Spacy spacy
avec avec
? ?


Mais aussi étiqueté ! 

In [6]:
for token in nlp(texte):
    print(token.text,token.pos_)

Nous PRON
allons AUX
prendre VERB
ce DET
petit ADJ
texte NOUN
comme ADP
exemple NOUN
. PUNCT
Que PRON
fait VERB
Spacy VERB
avec ADP
? PUNCT


On peut aussi savoir si un token est un mot ou pas :

In [7]:
for token in nlp(texte):
    print(token.text,token.is_alpha)

Nous True
allons True
prendre True
ce True
petit True
texte True
comme True
exemple True
. False
Que True
fait True
Spacy True
avec True
? False


### Exercice 1
Reprendre L'Avare et analyser toutes les répliques de manière en en faire des listes de tokens, où chaque token est un dictionnaire donnant sa forme graphique, son lemme, sa partie du discours et indicant s'il s'agit d'un mot à proprement parler.
```python
{'ACTE PREMIER': {'Scène première': [{'personnage': 'Valère',
  'réplique': [{'formeGraphique': 'Hé',
    'is_alpha': True,
    'lemme': 'hé',
    'pos': 'DET'},
   {'formeGraphique': 'quoi',
    'is_alpha': True,
    'lemme': 'quoi',
    'pos': 'PRON'},
   {'formeGraphique': '!', 
    'is_alpha': False, 
    'lemme': '!', 
    'pos': 'PUNCT'},
   {'formeGraphique': 'charmante',
    'is_alpha': True,
    'lemme': 'charmant',
    'pos': 'ADJ'},
   {'formeGraphique': 'Élise',
    'is_alpha': True,
    'lemme': 'Élise',
    'pos': 'PROPN'},
...
```

In [1]:
import json
pièce = json.loads(open('LAvare.json').read())

In [None]:
for acte in pièce:
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            nouvelleRéplique=[]
            for token in nlp(réplique['réplique']):
                dictionnaire_du_token={}
                dictionnaire_du_token['formeGraphique']=???
                dictionnaire_du_token['pos']=???
                dictionnaire_du_token['lemme']=???
                dictionnaire_du_token['is_alpha']=???
                nouvelleRéplique.append(dictionnaire_du_token)
            réplique['réplique']=nouvelleRéplique

### Exercice 2 
Quel est le nombre de tokens dans toute la pièce ?

In [9]:
n=0
for acte in pièce:
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            for token in réplique['réplique']:
                ???
n            

### Exercice 3
Quel est le nombre de lemmes différents ?

In [9]:
lemmes=[]
for acte in pièce:
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            for token in réplique['réplique']:
                ???
len(lemmes)

### Exercice 4
Quel est le lemme le plus fréquent ? Pour cela, construire un dictionnaire qui associe à chaque lemme sa fréquence, écrire ce dictionnaire dans un fichier csv (quel est le bon séparateur ?), l'ouvrir dans Google Spreadsheat

In [None]:
frequence = {}
for acte in pièce:
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            for token in réplique['réplique']:
                ???

In [None]:
f=open('frequence.csv','w')
for lemme in frequence:
    f.write('%s\t%d\n'%(lemme,frequence[lemme]))
f.close()

La bibliothèque `Pandas` permet de manipuler des tableaux semblables aux feuilles de calcul :

In [None]:
import pandas as pd

In [None]:
freq_df=pd.DataFrame({'freq':frequence})

In [None]:
freq_df.head(5)

Unnamed: 0,freq
,1
!,290
"""",31
(,17
),16


In [None]:
freq_df.sort_values(by='freq', ascending=False).head(5)

Unnamed: 0,freq
",",1574
de,1057
le,975
.,960
que,802


In [None]:
print('Il y a %d mots différents'%freq_df.shape[0])
print('Il y a %d tokens'%freq_df.sum())

Il y a 2340 mots différents
Il y a 24756 tokens


Pandas permet également de lire et écrire facilement des données :

In [None]:
freq_df.to_csv('frequence.csv')

In [None]:
freq_df = pd.read_csv('frequence.csv', index_col=0)

## Vocabulaire spécifique des différentes parties de la pièce

### Exercice 5
Construire un dictionnaire de dictionnaire `lemmeParActe` qui donne le nombre d'occurrences de chacun des lemmes dans chacun des actes, en ne prenant en compte que les tokens qui sont réellement des mots.
```python
{'ACTE PREMIER': {'Adieu': 1,
 'Anselme': 4,
 'Après': 1,
 'Au': 1,
 'Bon': 1,
 'Car': 1,
 'De': 4,
 'Dieu': 3,
 'Dès': 2,
 'Eh': 2,
 'Enfin': 1,
                  
...
                 }
}
```


In [None]:
lemmeParActe={}
for acte in pièce:
    lemmeParActe[acte]={}
    for scène in pièce[acte]:
        for réplique in pièce[acte][scène]:
            for token in réplique['réplique']:
                if not token['is_alpha']:
                    continue
                ???

On peut construire un `DataFrame` à partir de ce dictionnaire. Cette table est appelée `table lexicale` :

In [None]:
table=pd.DataFrame(lemmeParActe)
table.head()

In [None]:
table=table.fillna(0)#Quand un lemme n'apparait pas dans un acte, c'est qu'il y apparait 0 fois !
table.head()

On peut faire de sommes le long des lignes ou des colonnes

In [None]:
table.sum()

In [None]:
table.sum(axis=1)

Ces décomptes bruts sont difficiles à interpréter car les actes n'ont pas tous la même taille. Une première manière de leur de donner plus de sens est de les diviser par le nombre de lemmes par acte, pour obtenir une fréquence:

In [None]:
freq=table/table.sum()
freq.head()

Une mesure classique pour estimer l'importance d'un mot dans un document (ici, dans un acte) est tf-idf

* **tf** signifie term frequency, la fréquence d'un terme dans un document. C'est ce que l'on vient de calculer. Plus un mot est fréquent dans un document, plus il est important pour ce document. Sauf s'il est fréquent dans tous les documents...

* **idf** signifier inverse document frequency, l'inverse de la fréquence en document. La fréquence en document est la fraction de documents dans lesquels un mot apparait. Par exemple, Adieu n'apparait que dans 2 des 5 actes. Sa fréquence en document est 2/5. Plus ce nombre est petit, c'est-à-dire moins le mot est présent dans beaucoup de documents, plus il est important dans les documents dans lesquels ont le trouve.

En divisant la fréquence tf par la fréquence df, on obtient une mesure de l'importance du mot dans le document. Et diviser par df correspond à multiplier par son inverse :

$$\frac{tf}{df} = tf\cdot\frac{1}{df} = tf\cdot idf$$
Avec $$idf = \frac{1}{df} = \frac{N}{N_{+}}$$
$N$ étant le nombre de documents et $N_{+}$ le nombre de documents où le terme est présent.

Généralement, on ne prend pas ce idf "brut", mais son logarithme :

$$tf \cdot idf= tf\cdot log(\frac{N}{N_{+}})$$

Comment calculer ce df ?

In [None]:
df=table.copy()

In [None]:
df>0

Unnamed: 0,ACTE PREMIER,ACTE SECOND,ACTE TROISIÈME,ACTE QUATRIÈME,ACTE CINQUIÈME
Hé,True,True,True,True,True
quoi,True,True,False,True,True
charmante,True,False,False,True,True
Élise,True,False,False,False,True
vous,True,True,True,True,True
...,...,...,...,...,...
noce,False,False,False,False,True
allégresse,False,False,False,False,True
holà,False,False,False,False,True
écriture,False,False,False,False,True


In [None]:
df[df>0]=1

In [None]:
df

Unnamed: 0,ACTE PREMIER,ACTE SECOND,ACTE TROISIÈME,ACTE QUATRIÈME,ACTE CINQUIÈME
Hé,1.0,1.0,1.0,1.0,1.0
quoi,1.0,1.0,0.0,1.0,1.0
charmante,1.0,0.0,0.0,1.0,1.0
Élise,1.0,0.0,0.0,0.0,1.0
vous,1.0,1.0,1.0,1.0,1.0
...,...,...,...,...,...
noce,0.0,0.0,0.0,0.0,1.0
allégresse,0.0,0.0,0.0,0.0,1.0
holà,0.0,0.0,0.0,0.0,1.0
écriture,0.0,0.0,0.0,0.0,1.0


In [None]:
df.sum(axis=1)

Hé            5.0
quoi          4.0
charmante     3.0
Élise         2.0
vous          5.0
             ... 
noce          1.0
allégresse    1.0
holà          1.0
écriture      1.0
payement      1.0
Length: 2278, dtype: float64

In [None]:
import numpy as np
df = np.log(5/df.sum(axis=1))

In [None]:
df

Hé            0.000000
quoi          0.223144
charmante     0.510826
Élise         0.916291
vous          0.000000
                ...   
noce          1.609438
allégresse    1.609438
holà          1.609438
écriture      1.609438
payement      1.609438
Length: 2278, dtype: float64

In [None]:
tfidf=freq.multiply(df,axis=0)

In [None]:
tfidf.sort_values(by='ACTE PREMIER', ascending=False)

Unnamed: 0,ACTE PREMIER,ACTE SECOND,ACTE TROISIÈME,ACTE QUATRIÈME,ACTE CINQUIÈME
avaricieux,0.001968,0.000000,0.000000,0.000000,0.000000
soeur,0.001868,0.000000,0.000000,0.000000,0.000250
dot,0.001681,0.000232,0.000000,0.000000,0.000000
avarice,0.001121,0.000232,0.000000,0.000000,0.000000
frère,0.001041,0.000000,0.000000,0.000173,0.000279
...,...,...,...,...,...
frais,0.000000,0.000232,0.000000,0.000000,0.000250
teint,0.000000,0.000407,0.000000,0.000000,0.000000
santé,0.000000,0.000232,0.000240,0.000000,0.000000
visage,0.000000,0.000232,0.000961,0.000000,0.000000


In [None]:
tfidf.sort_values(by='ACTE SECOND', ascending=False)

Unnamed: 0,ACTE PREMIER,ACTE SECOND,ACTE TROISIÈME,ACTE QUATRIÈME,ACTE CINQUIÈME
prêteur,0.000000,0.003259,0.0,0.0,0.000000
mille,0.000625,0.002069,0.0,0.0,0.000279
livre,0.000187,0.001855,0.0,0.0,0.000000
dessus,0.000000,0.001629,0.0,0.0,0.000000
emprunteur,0.000000,0.001629,0.0,0.0,0.000000
...,...,...,...,...,...
fouiller,0.000328,0.000000,0.0,0.0,0.000000
satisfaire,0.000187,0.000000,0.0,0.0,0.000250
poche,0.000328,0.000000,0.0,0.0,0.000000
Tenez,0.000328,0.000000,0.0,0.0,0.000000


### Exercice 6
Quel est le vocabulaire spécifique de chaque personnage ?