# Atelier 1 : Techniques NLP de Base



# 1.	Objectif


L’objectif de cet atelier est d’apprendre les tâches NLP les plus courantes à travers l’utilisation des bibliothèques nltk, scikitlearn et Spacy.

# 2.	Outils et environnement de travail


 Installer les packages nltk , Spacy, Scikitlearn et pywsd.

In [None]:
!pip install nltk
import nltk
nltk.download('all')

#nltk.download('punkt')

# 3.	Segmentation (Tokenization)

La segmentation de texte et la tâche de subdivision du texte en petites unités qui seront plus simples à traiter et qu’on appelle tokens.
La bibliothèque nltk offre à travers le module **tekenize** un certain nombre de tokinzers qui permettent de réaliser la segmentation du texte en fonction de la nature du problème : words tokenizer, regular-expression based tokenizer, sentences based tokinizers, etc. Ci-dessous une liste non exhaustive de quelques fonctions du module tokinize.

* regexp_span_tokenize(text, regexp): Retourne les tokens de texte qui correspondent à l’expression régulière regexp

* sent_tokenize(text[, language]):	Retourne les phrases contenues dans le texte en utilisant le tokenizer PunktSentenceTokenizer.

* word_tokenize(text[, language]:	Retourne les mots contenus dans le texte en utilisant le tokenizer TreebankWordTokenizer avec PunktSentenceTokenizer.

NLTK offre également un certain nombre de classes qui offrent des tokinizers plus avancés : BlanklineTokenizer, MWETokenizer, PunktSentenceTokenizer, TextTilingTokenizer, TweetTokenizer, etc.
Ci-dessous deux exemples de tokenization à base de **sent_tokenize** et **word_tokenize**:

In [None]:

from nltk.tokenize import sent_tokenize, word_tokenize
data="Hello, i am very happy to meet you. I created this course for you. Good by!"

sentences=sent_tokenize(data)
print("sentences: " , sentences)

words=word_tokenize(data)
print("Words: ",words)

# 4.	Nettoyage


Le nettoyage des données texte joue un rôle très important dans l’amélioration des performances des opérations d’analyse et de découverte de paternes. Ça consiste à la suppression des termes non significatifs **"Stop words"**, comme par exemple « le », « la », « de », « du », « ce »… en français et « as » « the », « a », « an », « in » en anglais.  Ces termes qui sont présents fréquemment dans des documents texte peuvent influencer négativement sur la qualité des résultats d’analyse.
Le nettoyage peut consister également à la supression des caratères de pontuation et des chaînes de caractères non alphabétiques.
Ci-dessous le code qui permet de supprimer les stop words à partir d’un texte.

In [None]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

data="Hello, i am very happy to meet you. I created this course for you. Good by!"
word_tokens = [word.lower() for word in word_tokenize(data)]
data_clean = [word for word in word_tokens if (not word in set(stopwords.words('english')) and  word.isalpha())]
print(data_clean)

# 5.	Racinisation

La racinisation (Stemming en anglais) permet de normaliser la représentation des mots contenus dans une expression texte en extrayant leurs racines. Ça permettra de supprimer toutes les redondances des mots ayant la même racine. Plusieurs **stemmers** sont offerts par nltk dont les plus utilisés sont : *PorterStemmer, LancasterStemmer, SnowballStemmer...*. Également, le module nltk.stem.snowball offre un certain nombre de stemmers personnalisés à chaque langue, comme par exemple :  *FrenchStemmer, ArabicStemmer*, etc.


In [None]:
from nltk.stem import PorterStemmer,SnowballStemmer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
#stemmer=SnowballStemmer('french')
stemmer=PorterStemmer()
data="Hello, i am very happy to meet you. I created this course for you. Good by!"

word_tokens = [word.lower() for word in word_tokenize(data)]

for i in range(len(word_tokens)):
    words=[stemmer.stem(word) for word in word_tokens if (not word in set(stopwords.words('english')) and  word.isalpha())]
print(words)

# 6.	Lemmatisation

A la différence de la racisation qui fournit souvent une représentation non significative et incomplète des mots, la lemmatisation permet d’obtenir les **formes canoniques** des mots contenus dans une expression texte. Ainsi, au lieu de supprimer juste les suffixes et les préfixes des mots pour obtenir leurs racines, la lemmatisation réalise une **analyse morphologique** des mots afin d’extraire leurs formats canoniques.
nltk offre le lemmatizer  *WordNetLemmatizer* pour la réalisation des opérations de lemmatisation, mais uniquement pour l’anglais. pour d'autre langues on peut recourir à la bibliotheque **SpaCy**.  


In [None]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

lemmmatizer=WordNetLemmatizer()
data1="Le big data  « grosses données » en anglais,les mégadonnées ou les données massives, " \
     "désigne les ressources d’informations dont les caractéristiques en termes de volume," \
     " de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques " \
     "particulières pour générer de la valeur, et qui dépassent en général les capacités " \
     "d'une seule et unique machine et nécessitent des traitements parallélisés"
data2="Big data is a field that treats ways to analyze, systematically extract information from," \
     " or otherwise deal with data sets that are too large or complex to be dealt with by traditional" \
     " data-processing application software. Data with many cases (rows) offer greater statistical power," \
     " while data with higher complexity (more attributes or columns) " \
     "may lead to a higher false discovery rate. "

words1 = word_tokenize(data1)
words1 = [lemmmatizer.lemmatize(word.lower()) for word in words1 if(not word in set(stopwords.words('french')) and  word.isalpha())]
print(words1)

words2 = word_tokenize(data2)
words2 = [lemmmatizer.lemmatize(word.lower()) for word in words2 if(not word in set(stopwords.words('english')) and  word.isalpha())]
print(words2)

#7.	POS-Tagging

Le pos-tagging permet de réaliser une analyse lexicale d’une expression texte selon les règles de la grammaire. Les différentes unités seront dotées d’une annotation permettant de savoir le rôle grammatical de chaque mot dans l’expression. Les annotations les plus courante sont (DT : Determiner, NN : noun , JJ : adjective,  RB: adverb, VB : verb,  PRP : Personal Pronoun…).

NLTK offre une panoplie de taggers pour le pos-taggin qui recoivent une liste de tokens et leurs attribuent automatiquement  des tags en se basant sur des corpus d'apprentisgae.  

Par defaut la methode *pos_tag* offre un pos_tagging standard (Recommandé) pour l'anglais et cela en se bsant sur le tagset *"Penn Treebank"*:


In [None]:
import nltk
from nltk.tokenize import word_tokenize
data="Hello, i am very happy to meet you. I created this course for you. Good by!. "
words=word_tokenize(data)
print(nltk.pos_tag(words))

Dans le cas d'un document qui se compose de plusieurs phrases, il sera preferable d'utliser pos_tag_sents.

In [None]:
import nltk
from nltk.tokenize import sent_tokenize
data="Hello, i am very happy to meet you. I created this course for you. Good by!. "


sentences=sent_tokenize(data)

list=[]
for sentence in sentences:
    list.append(word_tokenize(sentence))

print(nltk.pos_tag_sents(list))

UnigramTagger permet d'attribuer aux mots leurs tags les plus frequents par rapport à un corpus d'apprentissage.   

In [None]:
import nltk
nltk.download('brown')
from nltk.corpus import brown
from nltk.tag import UnigramTagger
from nltk.tokenize import word_tokenize

brown_tagged_sents = brown.tagged_sents(categories='news')
size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]
unigram_tagger = nltk.UnigramTagger(train_sents)
print(unigram_tagger.evaluate(test_sents))

data="Hello, i am very happy to meet you. I created this course for you. Good by!. "
print(unigram_tagger.tag(word_tokenize(data)))

[nltk_data] Downloading package brown to /root/nltk_data...
[nltk_data]   Package brown is already up-to-date!


0.8121200039868434
[('Hello', None), (',', ','), ('i', None), ('am', 'BEM'), ('very', 'QL'), ('happy', 'JJ'), ('to', 'TO'), ('meet', 'VB'), ('you', 'PPSS'), ('.', '.'), ('I', 'PPSS'), ('created', 'VBN'), ('this', 'DT'), ('course', 'NN'), ('for', 'IN'), ('you', 'PPSS'), ('.', '.'), ('Good', 'JJ-TL'), ('by', 'IN'), ('!', '.'), ('.', '.')]


  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  print(unigram_tagger.evaluate(test_sents))


le modèle n-gram est une generalisation de l'unigram qui cnsidère également le contexte où apparait le mot en considerant les tags des n-1 mots precedents.

bigram tagger est un exemple generateur pos-tagging n-gram.

In [None]:
brown_tagged_sents = brown.tagged_sents()

size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]

bigram_tagger = nltk.BigramTagger(train_sents)

print(bigram_tagger.evaluate(test_sents))

data="Hello, i am very happy to meet you. I created this course for you. Good by!"
print(bigram_tagger.tag(word_tokenize(data)))

On t combiner plusieurs taggers en les executant d'une maniere sequentielle comme montré dans l'exemple c-dessous:

In [None]:
brown_tagged_sents = brown.tagged_sents(categories='news')

size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]

t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)
print(t2.evaluate(test_sents))

data="Hello, i am very happy to meet you. I created this course for you. Good by!"
print(t2.tag(word_tokenize(data)))


Pour le moment la package nltk ne permet de faire le pos-tagging que pour l’anglais et le russe à l’aide du modèle « averaged_perceptron_tagger ».
StanfordPOSTagguer permet faire du pos-tagging pour d’autre langues comme le français et l’arabe. Il suffit de télécharger les differents librairies nécessaires (https://nlp.stanford.edu/software/tagger.shtml) et utiliser celles qui correspondent à la langue comme présenté dans l’exemple ci-dessous.

In [None]:
!unzip stanford-tagger-4.2.0

In [None]:

import nltk
from nltk.tag.stanford import StanfordPOSTagger

data="Le big data  « grosses données » en anglais,les mégadonnées ou les données massives, " \
     "désigne les ressources d’informations dont les caractéristiques en termes de volume," \
     " de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques " \
     "particulières pour générer de la valeur, et qui dépassent en général les capacités " \
     "d'une seule et unique machine et nécessitent des traitements parallélisés"
root="stanford-postagger-full-2020-11-17"
stf = StanfordPOSTagger(root+'/models/french-ud.tagger',root+"/stanford-postagger.jar",encoding='utf8')
tokens = nltk.word_tokenize(data)
print(stf.tag(tokens))

[('Le', 'DET'), ('big', 'ADJ'), ('data', 'NOUN'), ('«', 'PUNCT'), ('grosses', 'ADJ'), ('données', 'NOUN'), ('»', 'PUNCT'), ('en', 'ADP'), ('anglais', 'NOUN'), (',', 'PUNCT'), ('les', 'DET'), ('mégadonnées', 'NOUN'), ('ou', 'CCONJ'), ('les', 'DET'), ('données', 'NOUN'), ('massives', 'ADJ'), (',', 'PUNCT'), ('désigne', 'VERB'), ('les', 'DET'), ('ressources', 'NOUN'), ('d', 'ADP'), ('’', 'NUM'), ('informations', 'NOUN'), ('dont', 'PRON'), ('les', 'DET'), ('caractéristiques', 'NOUN'), ('en', 'ADP'), ('termes', 'NOUN'), ('de', 'ADP'), ('volume', 'NOUN'), (',', 'PUNCT'), ('de', 'ADP'), ('vélocité', 'NOUN'), ('et', 'CCONJ'), ('de', 'ADP'), ('variété', 'NOUN'), ('imposent', 'VERB'), ('l', 'DET'), ('’', 'PUNCT'), ('utilisation', 'NOUN'), ('de', 'ADP'), ('technologies', 'NOUN'), ('et', 'CCONJ'), ('de', 'ADP'), ('méthodes', 'NOUN'), ('analytiques', 'ADJ'), ('particulières', 'ADJ'), ('pour', 'ADP'), ('générer', 'VERB'), ('de', 'ADP'), ('la', 'DET'), ('valeur', 'NOUN'), (',', 'PUNCT'), ('et', 'CCON

#8.	Analyse Sémantique

Un mot peut avoir plusieurs significations selon son contexte (les mots voisins et le rôle grammaticale). Par exemple, le mot anglais « break » possède 75 sens. Chose qui montre l’importance de la désambiguïsation lors de l’analyse d’un texte. Ci-dessous un extrait de la récupération des différents sens du mot « break » avec leurs annotations grammaticales.

In [None]:
from nltk.corpus import wordnet
for synset in wordnet.synsets('break'):
    print(">>>",synset.definition())


Pour un synset bien determiné on peut recuperer la liste des termes qui partage le même sens (La même description du sens):
    

In [None]:
from nltk.corpus import wordnet
seynsets= wordnet.synsets('break')

for synset in seynsets:
    print(synset.lemmas())

On peut même récuperer le terme correspedant dans une autre langue

In [None]:
from nltk.corpus import wordnet
seynsets= wordnet.synsets('break')

#Francais
for synset in seynsets:
    print(synset.lemmas(lang='fra'))

#Arabe
for synset in seynsets:
    print(synset.lemmas(lang='arb'))

pour la liste des langues dsiponibles executer: sorted(wn.langs())

La bibliothèque nltk offre à travers le module **wsd** la possibilité de détecter le sens d’un mot en fonction de son contexte. A cette fin, l’algorithme **Lesk** est utilisé pour réaliser une désambiguïsation du sens d’un mot en retournant le sens qui a permis d’avoir le plus grand nombre de termes en intersection avec le contexte du mot pour lequel on est en train de chercher le sens exact. L’algorithme ne retourne aucun sens s’il n’arrive pas à réaliser la désambiguïsation.


In [None]:
from nltk.wsd import lesk
from nltk.tokenize import word_tokenize
context= word_tokenize("I've just finished the first step of the competition. I need a little break to catch my breath")
print(lesk(context, 'break','n').definition())

L’exemple ci-dessus montre que l’algorithme n’est pas assez performant. D’autres algorithmes peuvent être utilisés en se basant sur les bibliothèques baseline, pywsd ou spaCy. Ci-dessous un autre exemple avec la bibliotheque pywsd.


In [None]:
!pip install pywsd
# pip install -U pywsd
#pip install wn==0.0.22
from pywsd.lesk import simple_lesk
sent = "I've just finished the first step of the competition. I need a little break to catch my breath"
ambiguous = 'break'
answer = simple_lesk(sent, ambiguous, pos='n')
print (answer)
print (answer.definition())


#9.	Analyse syntaxique

L'objectif de cette section est d'analyser la structure grammaticale des phrases au lieu de se focaliser d'une manière individuelle sur les mots les composant. Nous nous contenetant dans un premier temps de l'approche grammaticale pour realiser l'inference de la structure arborescente d'une phrase.

Il existe plusieurs bibliotehques permettant de reéaliser cette tâche. ci-dessous deux exemples avec les bibliotheque stanford et spacy


### Stanford

In [None]:
!unzip stanford-parser-4.2.0.zip

In [None]:
#import os
from nltk.parse import stanford
!os.environ['STANFORD_PARSER'] = 'stanford-parser-full-2020-11-17'
!os.environ['STANFORD_MODELS'] = 'stanford-parser-full-2020-11-17'

parser = stanford.StanfordParser(model_path="stanford-parser-full-2020-11-17/stanford-parser-4.2.0-models/edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz")
sentences = parser.raw_parse_sents(("Hello, My name is Melroy.", "What is your name?"))


#Formatted

for line in sentences:
    for sentence in line:
        print(sentence)


'''
# GUI
for line in sentences:
    for sentence in line:
        sentence.draw()

'''



### SpaCy

spaCy une bibliothèque de la NLP qui est très puissante (elle est orientée production, non uniquement pour la recherche ou l’apprentissage de la NLP), totalement écrite python, gratuite et libre.
Par défaut, lorsqu’on fait appel au module **nlp** de spaCy, les opérations suivantes sont exécutées : Segmentation, pos-tagging, analyse syntaxique, NER (Named Entity Recognition), etc.  Un objet Doc est retourné à l’issue de toutes les opérations et qui encapsule tous les resultats de l’analyse.

L’exemple ci-dessous montre comment extraire les différentes informations à partir d’un objet Doc.

In [None]:
!python -m spacy download fr_core_news_sm

import spacy
nlp = spacy.load('fr_core_news_sm')
doc = nlp("Le big data  « grosses données » en anglais,les mégadonnées ou les données massives, " \
     "désigne les ressources d’informations dont les caractéristiques en termes de volume," \
     " de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques " \
     "particulières pour générer de la valeur, et qui dépassent en général les capacités " \
     "d'une seule et unique machine et nécessitent des traitements parallélisés")

for token in doc:
    print("/token:",token.text, "/lemma:",token.lemma_, token.shape_, token.is_alpha, token.is_stop,"/POS:", token.tag_, "/PARS:", token.head, token.dep_, "/NER:", token.ent_iob_, token.ent_type_)

Pour récuperer L'arbre de dependance syntaxique evec spaCy

In [None]:
!python -m spacy download en_core_web_sm
import spacy
from spacy import displacy


nlp = spacy.load("en_core_web_sm")
doc = nlp("Hello, My name is Melroy. What is your name?")

#Visualisation 1
print ("{:<15} | {:<8} | {:<15} |{:<10} | {:<20}".format('Token','Relation','Head','POS', 'Children'))
print ("-" * 70)
for token in doc:
  # Print the token, dependency nature, head and all dependents of the token
  print ("{:<15} | {:<8} | {:<15} |{:<10} | {:<20}"
         .format(str(token.text), str(token.dep_), str(token.head.text), str(token.head.pos_), str([child for child in token.children])))


#Visualisation 2 (graphique)
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})


# 10.	Exercices :

## 10.1 Exercice 1: Traduction automatique

On desire assister l'utilisateur pendant la traduction de l'anglais vers le francais.

* Constituer le contexte du document en recuperant tous les termes sigfificatifs
* Découper le texte en des phrases simples et recuperer les tags de leurs mots.
* Pour chaque phrase récuperer le sens exacte de chaque terme en se basant sur leurs Tags et leur contexts
* Récuperer les termes correspendant en francais
* Pour chaque phrase afficher à l'utilisateur les propostions de traduction pour les nom, les adjectifs et les verbes

## 10.2 Exercice 2: Detection du plagiarisme


L’objectif de cet exercice est de détecter le pélagianisme à partir de wikipedia pendant la préparation des réponses à un certain nombre de questions sur des connaissances en informatique. Le dataset utilisé peut-être récupéré à partir du lien suivant :Cliquer <a href="https://ir.shef.ac.uk/cloughie/resources/plagiarism_corpus.html#Download" target="_blank">ICI</a>

Pour ce faire, nous nous basant sur le calcul des similarités entre les réponses des candidats et les définitions exactes trouvées sur Wikipédia. Deux méthodes de calcul de similarité sont à utiliser, à savoir, la similarité syntaxique (orientée caractères) et la similarité sémantique.

### Similarité Syntaxique

Pour la similarité  syntaxique entre des documents courts (des phrases) on peut recrorir à l'utilisation de l'un des algorithmes suivants:
* Longest Common Sequence (LCS)
* Set features
* Word Order Similarity
* n-gram sentences
* Jaro-Winkler
* ...


* Recuperer le dataset du plagiarisme?
* Réaliser les différentes tâches de prétraitement?
* Calculer les similarités syntaxiques entre les réponses des étudiants et les définitions trouvées sur wikipedia.

### Similarité Sémantique

WordNet est une base de données lexicale qui comporte des concepts (termes) classifiés et reliés les uns aux autres à travers des realtions semantiques

La composante principale de wordNet est le synset (synonym set) tel que chacun contient plusieurs mots qui partagent le même sens (des lemmas). Egalement, un mot peut appartenir à plusieurs synsets à la foix.

l'exemple suivant montre comment recuperer les synsets d'un mot et comment recuperer ses synonymes pour un sens particuliers

In [None]:
from nltk.corpus import wordnet as wn
computer_synsets = wn.synsets("computer")
print("Computer sens in wordNet:")
i=0;
for sense in computer_synsets:
    print(" \t Sens :", i)
    print(" \t\t Sens definition: "+sense.definition())
    lemmas = [l.name() for l in sense.lemmas()]
    print("\t\t Lemmas for sense :" +str(lemmas))
    i=i+1

Pour la similarité sémantique, la bibliothèque nltk et à travers le module wordnet permet de mesurer la distance ou la similarité sémantique entre les sens des mots. Ainsi, en récupérant les sens synset1 et synset2 de deux mots quelconques plusieurs façons sont possibles pour calculer leur similarité:

* synset1.path_similarity(synset2) : retourne leur ordre de similarité sous forme d’une valeur numérique entre 0 et 1 en se basant sur le plus court chemin qui relie les deux sens dans l’arborescence de wordnet.
* synset1.lch_similarity(synset2): qui se base sur l’algorithme Leacock-Chodorow
* Synset1.wup_similarity(synset2): qui se base sur l’algorithme Wu-Palmer
* synset1.res_similarity(synset2, ic): qui se base sur l’algorithme Resnik:
* synset1.jcn_similarity(synset2, ic): qui se base sur l’algorithme Jiang-Conrath
* synset1.lin_similarity(synset2, ic): qui se base sur l’algorithme Lin

l'exemple suivant montre comment calculer les similarité entres les sens des termes computer et device en se basant sur les metriques Leacock-Chodorow et Wu-Palmer

In [None]:
from nltk.corpus import wordnet as wn
import pandas as pd
import numpy as np
computer_synsets = wn.synsets("computer")
device_synsets = wn.synsets("device")
lch=[]
wup=[]


for s1 in computer_synsets:
    for s2 in device_synsets:
        lch.append(s1.lch_similarity(s2))
        wup.append(s1.wup_similarity(s2))

pd.DataFrame([lch,wup],["lch","wup"])

Souvent on aura besoin de recuperer les sens exactes des termes dans leurs contextes afin mesurer leurs similarité d'une manière plus precise

In [None]:
from nltk.wsd import lesk
from nltk.tokenize import word_tokenize
def WSD(word, doc):
    context= word_tokenize(doc)
    sens=lesk(context, word)
    return sens

doc1='Computer science is the study of computers and computing concepts. It includes both hardware and software, as well as networking and the Internet'
doc2='Computer science is the science that deals with the theory and methods of processing information in digital computers, the design of computer hardware and software, and the applications of computers.'


print(WSD("Computer", doc1).definition())
print(WSD("Computer", doc2).definition())

Pour calculer la distance semantique entre deux documents, on aura besoin de calculer les similarités semantiques entre leurs mots deux à deux ou utiliser par example la distance de Hausdorff ou l'indic de Jaccard.

* Defnir la fonction SemanticDistanceDocs(doc1,doc2) qui permet de calculer la distance semantique totale entre deux documents texte?

In [None]:
from nltk.corpus import wordnet as wn
from nltk.tokenize import word_tokenize

doc1='Computer science is the study of computers and computing concepts. It includes both hardware and software, as well as networking and the Internet'
doc2='Computer science is the science that deals with the theory and methods of processing information in digital computers, the design of computer hardware and software, and the applications of computers.'

def SemanticDistanceDocs(doc1,doc2):
    sensDoc1=[WSD(word, doc1) for word in word_tokenize(doc1)]
    sensDoc2=[WSD(word, doc2) for word in word_tokenize(doc2)]
    '''A completer'''


* Calculer les similarités syntaxiques entre les réponses des étudiants et les définitions trouvées sur wikipedia?