# 10. NLP (Natural Language Processing)

## –– Sommaire

### A. Scraping

• Scrapy  
• Beautifulsoup

### B. NLTK

• Pré-traitement du texte  
• x

### C. Visualisations multivariées

• x  

### –– Pré-traitement du texte

- **Récupération du corpus** par scraping ou en téléchargeant des fichiers textes, par exemple. Cela peut demander l'utilisation de regex afin de récupérer uniquement les parties qui vous intéressent.
- **La tokenization**, qui désigne le découpage en mots des différents documents qui constituent votre corpus
- **La normalisation et la construction du dictionnaire** qui permet de ne pas prendre en compte des détails importants au niveau local (ponctuation, majuscules, conjugaison, etc.)

In [None]:
import nltk
nltk.download('punkt')

In [12]:
#Récupération du corpus
corpus = "Bonjour, je suis un texte d'exemple pour le #cours d'Openclassrooms !!!"

#Tokenization en tableau de mots
print(nltk.word_tokenize(corpus))

#Normalisation
tokenizer = nltk.RegexpTokenizer(r'\w+')
print(tokenizer.tokenize(corpus))

['Bonjour', ',', 'je', 'suis', 'un', 'texte', "d'exemple", 'pour', 'le', '#', 'cours', "d'Openclassrooms", '!', '!', '!']
['Bonjour', 'je', 'suis', 'un', 'texte', 'd', 'exemple', 'pour', 'le', 'cours', 'd', 'Openclassrooms']


### –– Traîtement du texte

- **Suppression des stopwords** qui sont les mots très courants dans la langue étudiée ("et", "à", "le"... en français) qui n'apportent pas de valeur informative pour la compréhension du "sens" d'un document.
- **Suppression des mots les plus fréquents** pour ne garder que ceux qui permettent de distinguer le contenu d'un texte d'un autre.
- **Stemming** qui permet de supprimer les préfixes/suffixes pour ne garder que la racine (la partie la plus porteuse de sens) des mots.

In [None]:
from sklearn.datasets import fetch_20newsgroups
dataset = fetch_20newsgroups(shuffle=True, random_state=1, remove=('headers', 'footers', 'quotes'))
documents = dataset.data

In [9]:
from sklearn.decomposition import LatentDirichletAllocation
nb_topics = 20

from sklearn.feature_extraction.text import CountVectorizer

tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=1000, stop_words='english')
tf = tf_vectorizer.fit_transform(documents)

# Run LDA
lda = LatentDirichletAllocation(n_components=nb_topics, max_iter=5, learning_method='online', learning_offset=50., random_state=0).fit(tf)

def display_topics(model, feature_names, nb_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic %d:" % (topic_idx))
        print(" ".join([feature_names[i] for i in topic.argsort()[:-nb_top_words - 1:-1]]))

nb_top_words = 10
display_topics(lda, tf_vectorizer.get_feature_names(), nb_top_words)


Topic 0:
people gun state control right guns crime states law police
Topic 1:
time question book years did like don space answer just
Topic 2:
mr line rules science stephanopoulos title current define int yes
Topic 3:
key chip keys clipper encryption number des algorithm use bit
Topic 4:
edu com cs vs w7 cx mail uk 17 send
Topic 5:
use does window problem way used point different case value
Topic 6:
windows thanks know help db does dos problem like using
Topic 7:
bike water effect road design media dod paper like turn
Topic 8:
don just like think know people good ve going say
Topic 9:
car new price good power used air sale offer ground
Topic 10:
file available program edu ftp information files use image version
Topic 11:
ax max b8f g9v a86 145 pl 1d9 0t 34u
Topic 12:
government law privacy security legal encryption court fbi technology information
Topic 13:
card bit memory output video color data mode monitor 16
Topic 14:
drive scsi disk mac hard apple drives controller software port
T

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF

# NMF is able to use tf-idf
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2, max_features=1000, stop_words='english')
tfidf = tfidf_vectorizer.fit_transform(documents)
tfidf_feature_names = tfidf_vectorizer.get_feature_names()

# Run NMF
nmf = NMF(n_components=20, random_state=1, alpha=.1, l1_ratio=.5, init='nndsvd').fit(tfidf)

no_top_words = 10
display_topics(nmf, tfidf_feature_names, no_top_words)

NameError: name 'no_features' is not defined

**livrable OCR** : Vous devrez effectuer les opérations de traitement suivantes sur le texte, pas forcément dans cet ordre

- Créer des paires de document (article, highlights)
- Suppression de la ponctuation
- Séparation en token en minuscules
- Suppression des stopwords pour les articles
- Calcul des fréquences et tf-idf sur les deux types de documents
- Enregistrement du nouveau jeu de données d’entraînement pour usage ultérieur