# TP Traitement des textes

### Installation

Ce TP utilise la librairie python NTLK (natural language processing toolkit), qui est la librairie python de référence
pour le traitement des textes. Elle est organisée de manière plus complexe que les autres librairies, puisqu'elle fait appel à de nombreux composants et corpus qu'on peut charger via un "downloader" spécifique, comme ci-dessous :


Hors du notebook :

installer le package python nltk (avec conda ou pip, par exemple)

puis 
* `import nltk`
* `nltk.download()`

ce qui doit ouvrir une fenêtre pour chargement interactif de corpus et modules de traitement de la langue. Il faudra installer des modules au fur des besoins pour le TP.


### Tokenization

Ici s'agit ici de découper automatiquement un texte en phrases. Quelles sont les difficultés que doit résoudre la fonction (le travail est déjà fait !) ? (penser à la ponctuation et aux majuscules, modifier le texte pour confronter la fonction à des difficultés).


In [1]:
from nltk import sent_tokenize, word_tokenize, pos_tag

# Ici un texte que vous êtes invités à modifier
text = "Machine learning is the lovely science of getting computers to act without being explicitly programmed. In the past decade, machine learning has given us self-driving cars, practical speech recognition, effective web search, and a vastly improved understanding of the human genome. Machine learning is so pervasive today that you probably use it dozens of times a day without knowing it. Many researchers also think it is the best way to make progress towards human-level AI. In this class, you will learn about the most effective machine learning techniques, and gain practice implementing them and getting them to work for yourself. More importantly, you'll learn about not only the theoretical underpinnings of learning, but also gain the practical know-how needed to quickly and powerfully apply these techniques to new problems. Finally, you'll learn about some of Silicon Valley's best practices in innovation as it pertains to machine learning and AI."

sentences = sent_tokenize(text)
print(sentences) # Affichons le découpage en phrases

premiere_phrase = sentences[0]
les_mots=word_tokenize(premiere_phrase)
print(les_mots) # Affichons le découpage en mots

ModuleNotFoundError: No module named 'nltk'

### Part-of-speech tagging

On peut également tenter d'identifier la nature grammaticale de chaque mot (Part-of-Speech) :

In [None]:
pos_tag(les_mots)

où VBP : verbe au présent, IN : préposition, NN: nom, NNP : nom propre, CC: conjonction de coordination, JJ : adjectif,....

### Collocations

Il s'agit d'expressions composée de plusieurs mots successifs  ("Machine learning", "pâté de campagne","école d'ingénieurs","abat-jour","travaux pratiques) où dont sémantique est associée à la séquence et non à chaque mot pris isolément. 

* Proposer un principe statistique d'identification automatique des collocations dans un corpus de textes ? 
* Quelle est l'importance de cette identification pour, par exemple, la traduction ?

Ci-dessous, un petit exemple sur le script (texte) de Monty Python-Sacré Graal.

In [None]:

import nltk
from nltk.collocations import *
from nltk.book import *
import re

bigram_measures = nltk.collocations.BigramAssocMeasures()

montypython_words = sum([re.findall(r'[A-Z]?[a-z]+', token) for token in text6.tokens], [])
finder = BigramCollocationFinder.from_words(montypython_words)
finder.apply_freq_filter(3)
finder.nbest(bigram_measures.likelihood_ratio, 10)
finder.score_ngrams(bigram_measures.likelihood_ratio)


## Stemming 

Il s'agit d'extraire automatiquement la racine de mots. 
Le premier des algorithmes est expliqué ici :
https://nlp.stanford.edu/IR-book/html/htmledition/stemming-and-lemmatization-1.html

Quel est l'intérêt de cette opération, dans la perspective de calculer les fréquences d'occurrence des termes dans un texte ?


In [None]:
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
print(porter_stemmer.stem("computer"))
print(porter_stemmer.stem("computation"))
print(porter_stemmer.stem("working"))
print(porter_stemmer.stem("worked"))

In [None]:
from nltk.stem import SnowballStemmer
snowball_stemmer = SnowballStemmer("french")
print(snowball_stemmer.stem("finir"))
print(snowball_stemmer.stem("finis"))
print(snowball_stemmer.stem("finissant"))
print(snowball_stemmer.stem("fini"))
print(snowball_stemmer.stem("infini"))

### Lemmatisation

Il s'agit d'un objectif voisin, mais plus soigné parce qu'exploitant des ressources linguistiques (ici la base Wordnet)

In [None]:
from nltk.stem import WordNetLemmatizer
wordnet_lemmatizer = WordNetLemmatizer()
wordnet_lemmatizer.lemmatize('are', pos='v')

## Stop word removal

List des mots à enlever 

In [None]:
from nltk.corpus import stopwords
stop = set(stopwords.words('french'))
print(stop)

Découpage et suppression des "stop words"

In [None]:
sentence = "Voici une longue phrase qui contient plusieurs petits et longs mots"

mots_non_stop = [i for i in sentence.lower().split() if i not in stop]
print(mots_non_stop)

### Ressource wordnet

In [None]:
from nltk.corpus import wordnet as wn 
wn.synsets('computer')

In [None]:
wn.synset('computer.n.01').definition()

In [None]:
wn.synset('dog.n.01').hypernyms()

In [None]:
wn.synset('computer.n.01').hyponyms()

In [None]:
wn.synset('dog.n.01').lemmas()[0].antonyms()

In [None]:
wn.synsets('dark')
wn.synset('beautiful.a.01').lemmas()[0].antonyms()

In [None]:
dog = wn.synset('dog.n.01')
cat = wn.synset('cat.n.01')
dog.path_similarity(cat)

#### Wordnet pour l'analyse de sentiment

In [None]:
from nltk.corpus import sentiwordnet as swn

feeling = swn.senti_synset('failure.n.03')
print(feeling)
feeling = swn.senti_synset('wonderful.a.01')
print(feeling)
feeling = swn.senti_synset('hate.v.01')
print(feeling)
all = swn.all_senti_synsets()
print(all)

## Identification de thèmes par factorisation matricielle

In [None]:
# adapté de : 
# Author: Olivier Grisel <olivier.grisel@ensta.org>
#         Lars Buitinck
#         Chyi-Kwei Yau <chyikwei.yau@gmail.com>


from __future__ import print_function
from time import time

from sklearn.feature_extraction.text import TfidfVectorizer, CountVectorizer
from sklearn.decomposition import NMF
from sklearn.datasets import fetch_20newsgroups



n_samples = 2000
n_features = 1000
n_topics = 10
n_top_words = 20


def print_top_words(model, feature_names, n_top_words):
    for topic_idx, topic in enumerate(model.components_):
        print("Topic #%d:" % topic_idx)
        print(" ".join([feature_names[i]
                        for i in topic.argsort()[:-n_top_words - 1:-1]]))

# Load the 20 newsgroups dataset and vectorize it. We use a few heuristics
# to filter out useless terms early on: the posts are stripped of headers,
# footers and quoted replies, and common English words, words occurring in
# only one document or in at least 95% of the documents are removed.


dataset = fetch_20newsgroups(shuffle=True, random_state=1,
                             remove=('headers', 'footers', 'quotes'))



In [None]:

data_samples = dataset.data[:n_samples]

print(data_samples[:3])

### Fabrication d'une matrice tf.idf

In [None]:
# Use tf-idf features for NMF.
print("Extracting tf-idf features for NMF...")
tfidf_vectorizer = TfidfVectorizer(max_df=0.95, min_df=2,
                                   max_features=n_features,
                                   stop_words='english')

tfidf = tfidf_vectorizer.fit_transform(data_samples)
# tfidf est une matrice creuse

print(tfidf)

### Factorisation de la matrice

In [None]:


# Fit the NMF model
print("Fitting the NMF model with tf-idf features, "
      "n_samples=%d and n_features=%d..."
      % (n_samples, n_features))

nmf = NMF(n_components=n_topics, random_state=1,
          alpha=.1, l1_ratio=.5).fit(tfidf)


print("\nTopics in NMF model:")
tfidf_feature_names = tfidf_vectorizer.get_feature_names()
print_top_words(nmf, tfidf_feature_names, n_top_words)

