# Nettoyages
On veut éliminer la ponctuation et les non-mots, transformer les majuscules en minuscules et découper le texte résultant en tokens.  
Optionnellement, on peut vouloir supprimer les stopwords.

In [1]:
import re,sys,nltk,codecs
import pandas as pd

nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /Users/gilles/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/gilles/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [2]:
chaineBrute=u"<balise attribut='valeur'>Alors</balise>, comment tu vas à la gare ? <br/> Avec l'itinéraire bis, c'est ça ? À la gare, j'y vais pas !"

## Éliminer les balises
Une balise commence par un chevron inférieur **<** et continue avec des caractères qui ne sont pas des chevrons supérieurs **>**, c'est à dire **[^>]\***, et elle se termine par un chevron supérieur **>** :
- <[^>]\*>
On enlève les balises de **chaineBrute** avec : **re.sub(u"<[^>]\*>","",chaineBrute)**

In [3]:
chaine=re.sub(u"<[^>]*>","",chaineBrute)

## Ne conserver que les mots
### Expressions régulières : Python2 vs Python3
Pour pouvoir utiliser l'expression régulière qui sélectionne les non-lettres **\W** ou les chiffres **\d** : **(\W|\d)+**, la syntaxe est différente entre Python2 et Python3.

- avec py3, il suffit d'activer l'option re.U
- avec py2, il faut compiler l'expression régulière avec l'option U (UNICODE) avant de l'utiliser (cette méthode marche aussi avec py3)

In [4]:
# Pour python3, il n'y a pas besoin de précompiler l'expression régulière
# Mais pour python2, ça ne marche pas sans la précompilation...
if sys.version_info.major>2:
    filteredChaine=re.sub(u"(\W|\d)+"," ",chaine,re.U).lower()

In [5]:
p=re.compile(u"(\W|\d)+",re.U)
filteredChaine=p.sub(" ",chaine)

### Mettre tout le texte en minuscules

In [6]:
filteredChaine=filteredChaine.lower()

## Utiliser NLTK pour le nettoyage
### découper en tokens

In [7]:
from nltk.tokenize import word_tokenize
tokens=word_tokenize(filteredChaine)

### Enlever les stopwords

In [8]:
from nltk.corpus import stopwords
stops = set(stopwords.words('french'))

In [9]:
filteredTokens=[w for w in tokens if w not in stops]
filteredTokens

['alors', 'comment', 'vas', 'gare', 'itinéraire', 'bis', 'ça', 'gare', 'vais']

# Utiliser Pandas pour lire un fichier TSV à nettoyer
Deux cas :
1. le fichier est juste découpé en phrases (une phrase par ligne sans tabulation particulière)
1. le fichier est découpé en phrases et en mots (une phrase par ligne, une tabulation entre chaque mot)

In [10]:
repName="/Users/gilles/ownCloud/Cours/Bordeaux/M2-TraitementsCorpus/"
fName="Grimm-FR.text"

### Lecture de TSV avec Pandas : fichier de phrases
Pour la lecture elle-même : **pd.read_csv(nFichier,encoding="encodage",sep="séparateur")**.<br/>
La structure résultante est un DataFrame de Pandas qui ne permet pas l'itération tel quel.<br>
En utilisant **DataFrame.values.tolist()**, on transforme cette structure en une liste de listes qui peut être utilisée dans une boucle.
```
[['<div class="text" itemprop="text">'],
 [" Il était une fois un meunier qui avait une fille splendide et lorsqu'elle fut devenue une belle jeune fille il voulut qu'elle fût bien dotée et bien mariée. Ainsi pensait-il:"],
 [' <br/>']]```
 
Attention, les chaînes sont contenues dans deux listes enchassées.<br> Pour accédér à la première chaîne, par exemple ci-dessous, il faudrait écrire : **texteBrut[0][0]**

In [28]:
texteBrut=pd.read_csv(repName+fName,encoding="utf8",sep="\t",header=None).values.tolist()
texteBrut[0][0]

'040  — Le fiancé voleur'

### Compiler les différentes formes du texte
Les 4 variables recevront les différentes versions du texte à choisir selon les besoins pour la suite du traitement :
- sent => la liste des phrases nettoyées
- sentTokens => la liste des listes de tokens par phrase nettoyée
- sentFilter => la liste des phrases nettoyées sans les stopwords
- sentFilterTokens => la liste des listes de tokens par phrase nettoyée sans les stopwords

In [29]:
sent=[]
sentTokens=[]
sentFilter=[]
sentFilterTokens=[]

for chaineBrute in texteBrut:
    # on utilise chaineBrute[0] pour sortir la chaîne de la liste où elle est contenue
    chaine=re.sub(u"<[^>]*>","",chaineBrute[0]) 
    p=re.compile(u"(\W)+",re.U)
    filteredChaine=p.sub(" ",chaine)
    filteredChaine=filteredChaine.lower()
    tokens=word_tokenize(filteredChaine)
    if tokens:
        sentTokens.append(tokens)
        sent.append(" ".join(tokens))
        filteredTokens=[w for w in tokens if w not in stops]
        if filteredTokens:
            sentFilterTokens.append(filteredTokens)
            sentFilter.append(" ".join(filteredTokens))

In [30]:
print (sent[:2])

['040 le fiancé voleur', 'il était une fois un meunier qui avait une fille splendide et lorsqu elle fut devenue une belle jeune fille il voulut qu elle fût bien dotée et bien mariée ainsi pensait il']


In [31]:
print (sentTokens[:2])

[['040', 'le', 'fiancé', 'voleur'], ['il', 'était', 'une', 'fois', 'un', 'meunier', 'qui', 'avait', 'une', 'fille', 'splendide', 'et', 'lorsqu', 'elle', 'fut', 'devenue', 'une', 'belle', 'jeune', 'fille', 'il', 'voulut', 'qu', 'elle', 'fût', 'bien', 'dotée', 'et', 'bien', 'mariée', 'ainsi', 'pensait', 'il']]


In [32]:
print (sentFilter[:2])

['040 fiancé voleur', 'fois meunier fille splendide lorsqu devenue belle jeune fille voulut bien dotée bien mariée ainsi pensait']


In [33]:
print (sentFilterTokens[:2])

[['040', 'fiancé', 'voleur'], ['fois', 'meunier', 'fille', 'splendide', 'lorsqu', 'devenue', 'belle', 'jeune', 'fille', 'voulut', 'bien', 'dotée', 'bien', 'mariée', 'ainsi', 'pensait']]


In [34]:
with codecs.open(repName+"Cleaned.txt","w",encoding="utf8") as outFile:
    for line in sent:
        outFile.write(line+"\n")

In [45]:
conteLines={}
nConte=""
for nLine,line in enumerate(sent):
    m=re.search(u"(^\d\d\d)",line)
    if m:
        nConte=m.group(1)
        conteLines[nConte]=[]
    conteLines[nConte].append(str(nLine+1)+" "+line)
conteLines

{'040': ['1 040 le fiancé voleur',
  '2 il était une fois un meunier qui avait une fille splendide et lorsqu elle fut devenue une belle jeune fille il voulut qu elle fût bien dotée et bien mariée ainsi pensait il',
  '3 qu il advint un gentilhomme acceptable et qu il la trouvât à son goût et je la lui donnerais volontier bientôt vint un gentilhomme qui paraissait être très riche et sans que le meunier ne sut rien de lui lui promit sa fille mais la fille ne l aimait pas comme une promise doit aimé son promis et elle ne lui faisait nullement confiance chaque fois qu elle l observait ou chaque fois qu elle pensait à lui son coeur s assombrissait un jour il lui parla',
  '4 tu es ma promise et jamais tu ne me rends visite',
  '5 la fille lui répondit',
  '6 j ignore où se trouve votre demeure',
  '7 le fiancé annonça',
  '8 ma maison est dans la sombre forêt',
  '9 elle chercha des faux fuyants et expliqua qu elle ne pouvait pas trouver le chemin le fiancé dit',
  '10 dimanche prochain tu 

In [47]:
conteLines["098"]

['1704 098 le docteur universel',
 '1705 il y avait une fois un paysan nommé écrevisse ayant porté une charge de bois chez un docteur il remarqua les mets choisis et les vins fins dont se régalait celui ci et demanda en ouvrant de grands yeux s il ne pourrait pas aussi devenir docteur',
 '1706 oui certes répondit le savant il suffit pour cela de trois choses 1 procure toi un abécédaire c est le principal 2 vends ta voiture et tes bœufs pour acheter une robe et tout ce qui concerne le costume d un docteur 3 mets à ta porte une enseigne avec ces mots je suis le docteur universel',
 '1707 le paysan exécuta ces instructions à la lettre à peine exerçait il son nouvel état qu une somme d argent fut volée à un riche seigneur du pays ce seigneur fait mettre les chevaux à sa voiture et vient demander à notre homme s il est bien le docteur universel',
 '1708 c est moi même monseigneur',
 '1709 en ce cas venez avec moi pour m aider à retrouver mon argent',
 '1710 volontiers dit le docteur mais ma

In [48]:
%store conteLines

Stored 'conteLines' (dict)
