In [48]:
import re
import nltk  
import heapq
import numpy as np  
import pandas as pd

from nltk.corpus import stopwords

### Load Data

In [3]:
f = open("../../files/cgu_figaro.txt")
text = f.read()

### Retourne une liste de phrase présent dans le corpus

In [5]:
corpus = nltk.sent_tokenize(text)
corpus[:5]

["Conditions Générales d'Utilisation\n\n \n\nSociété du Figaro, SAS au capital de 16.860.475 €, dont le siège est 14, bd Haussmann, 75009 PARIS, immatriculée au Registre du Commerce et des Sociétés de Paris sous le numéro 542 077 755 (ci-après « Le Figaro »), édite un site d'informations générales www.lefigaro.fr, ci-après le « Site » permettant un accès à différentes informations, ainsi qu'à différents services et produits complémentaires, détaillés ci-après.",
 'Les présentes conditions générales d\'utilisation, ("CGU"), soumises au droit français, ont vocation à régir l\'utilisation du Site ainsi que l\'utilisation des différents services payants ou gratuits (ci-après le(s) « Service(s) »).',
 "La navigation dans le Site et/ou l'inscription à un Service emporte de plein droit acceptation expresse et sans réserve des CGU par l'utilisateur du Site.",
 "En cas de non respect des termes des présentes CGU, Le Figaro se réserve le droit de prendre toute mesure de nature à préserver ses in

### Clean les phrase et mets en minuscule

In [18]:
clean_sentences = []
clean_sentences = pd.Series(corpus).str.replace("[^a-zA-Zàéêèç]" , " ")
clean_sentences = [sentence.lower() for sentence in clean_sentences]
clean_sentences[:5]

['conditions générales d utilisation     société du figaro  sas au capital de               dont le siège est     bd haussmann        paris  immatriculée au registre du commerce et des sociétés de paris sous le numéro              ci après   le figaro     édite un site d informations générales www lefigaro fr  ci après le   site   permettant un accès à différentes informations  ainsi qu à différents services et produits complémentaires  détaillés ci après ',
 'les présentes conditions générales d utilisation    cgu    soumises au droit français  ont vocation à régir l utilisation du site ainsi que l utilisation des différents services payants ou gratuits  ci après le s    service s     ',
 'la navigation dans le site et ou l inscription à un service emporte de plein droit acceptation expresse et sans réserve des cgu par l utilisateur du site ',
 'en cas de non respect des termes des présentes cgu  le figaro se réserve le droit de prendre toute mesure de nature à préserver ses intérêts 

### Suppression des stops word

In [49]:
stop_words = stopwords.words('french')
def remove_stopwords(sen):
    sen_new = " ".join([i for i in sen if i not in stop_words])
    return sen_new

clean_sentences = [remove_stopwords(r.split()) for r in clean_sentences]
clean_sentences[:5]

['conditions générales utilisation société figaro sas capital dont siège bd haussmann paris immatriculée registre commerce sociétés paris sous numéro ci après figaro édite site informations générales www lefigaro fr ci après site permettant accès différentes informations ainsi différents services produits complémentaires détaillés ci après',
 'présentes conditions générales utilisation cgu soumises droit français vocation régir utilisation site ainsi utilisation différents services payants gratuits ci après service',
 'navigation site inscription service emporte plein droit acceptation expresse sans réserve cgu utilisateur site',
 'cas non respect termes présentes cgu figaro réserve droit prendre toute mesure nature préserver intérêts notamment assurer exécution',
 'figaro pourra notamment cette fin assigner utilisateur site responsabilité civile pénale']

### Compte les occurences de chaques mots

In [53]:
wordfreq = {}
for sentence in clean_sentences:
    tokens = nltk.word_tokenize(sentence)
    for token in tokens:
        if token not in wordfreq.keys():
            wordfreq[token] = 1
        else:
            wordfreq[token] += 1
np.array(list(wordfreq.items()))[:10]
len(list(wordfreq.items()))

1100

### Récupération des 200 mots les plus importants

In [51]:
most_freq = heapq.nlargest(200, wordfreq, wordfreq.get)
most_freq[:10]

['figaro',
 'site',
 'utilisateur',
 'informations',
 'services',
 'contenu',
 'être',
 'données',
 'cas',
 'toute']

In [55]:
sentence_vectors = []
for sentence in corpus:
    sentence_tokens = nltk.word_tokenize(sentence)
    sent_vec = []
    for token in most_freq:
        if token in sentence_tokens:
            sent_vec.append(1)
        else:
            sent_vec.append(0)
    sentence_vectors.append(sent_vec)
sentence_vectors[:1]

[[0,
  1,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  1,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0,
  0]]