# Atelier 1 : Techniques NLP de Base



# 1.	Objectif


L’objectif de cet atelier est d’apprendre les tâches NLP les plus courantes à travers l’utilisation des bibliothèques nltk, scikitlearn et Spacy.

# 2.	Outils et environnement de travail


 Installer les package nltk.

In [1]:
import nltk
# nltk.download('all')

#nltk.download('punkt')

# 3.	Segmentation (Tokenization)

La segmentation de texte et la tâche de subdivision du texte en petites unités qui seront plus simples à traiter et qu’on appelle tokens.
La bibliothèque nltk offre à travers le module **tekenize** un certain nombre de tokinzers qui permettent de réaliser la segmentation du texte en fonction de la nature du problème : words tokenizer, regular-expression based tokenizer, sentences based tokinizers, etc. Ci-dessous une liste non exhaustive de quelques fonctions du module tokinize.

* regexp_span_tokenize(text, regexp): Retourne les tokens de texte qui correspondent à l’expression régulière regexp

* sent_tokenize(text[, language]):	Retourne les phrases contenues dans le texte en utilisant le tokenizer PunktSentenceTokenizer.

* word_tokenize(text[, language]:	Retourne les mots contenus dans le texte en utilisant le tokenizer TreebankWordTokenizer avec PunktSentenceTokenizer.

NLTK offre également un certain nombre de classes qui offrent des tokinizers plus avancés : BlanklineTokenizer, MWETokenizer, PunktSentenceTokenizer, TextTilingTokenizer, TweetTokenizer, etc.
Ci-dessous deux exemples de tokenization à base de **sent_tokenize** et **word_tokenize**:

In [2]:

from nltk.tokenize import sent_tokenize, word_tokenize
data="Hello, i am very happy to meet you. I created this course for you. Good by!"

sentences=sent_tokenize(data)
print("sentences: " , sentences)

words=word_tokenize(data)
print("Words: ",words)

sentences:  ['Hello, i am very happy to meet you.', 'I created this course for you.', 'Good by!']
Words:  ['Hello', ',', 'i', 'am', 'very', 'happy', 'to', 'meet', 'you', '.', 'I', 'created', 'this', 'course', 'for', 'you', '.', 'Good', 'by', '!']


# 4.	Nettoyage


Le nettoyage des données texte joue un rôle très important dans l’amélioration des performances des opérations d’analyse et de découverte de paternes. Ça consiste à la suppression des termes non significatifs **"Stop words"**, comme par exemple « le », « la », « de », « du », « ce »… en français et « as » « the », « a », « an », « in » en anglais.  Ces termes qui sont présents fréquemment dans des documents texte peuvent influencer négativement sur la qualité des résultats d’analyse.
Le nettoyage peut consister également à la supression des caratères de pontuation et des chaînes de caractères non alphabétiques.
Ci-dessous le code qui permet de supprimer les stop words à partir d’un texte.

In [3]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

data="Hello, i am very happy to meet you. I created this course for you. Good by!"
word_tokens = [word.lower() for word in word_tokenize(data)]
data_clean = [word for word in word_tokens if (not word in set(stopwords.words('english')) and  word.isalpha())]
print(data_clean)

['hello', 'happy', 'meet', 'created', 'course', 'good']


# 5.	Racinisation

La racinisation (Stemming en anglais) permet de normaliser la représentation des mots contenus dans une expression texte en extrayant leurs racines. Ça permettra de supprimer toutes les redondances des mots ayant la même racine. Plusieurs **stemmers** sont offerts par nltk dont les plus utilisés sont : *PorterStemmer, LancasterStemmer, SnowballStemmer...*. Également, le module nltk.stem.snowball offre un certain nombre de stemmers personnalisés à chaque langue, comme par exemple :  *FrenchStemmer, ArabicStemmer*, etc.


In [4]:
from nltk.stem import PorterStemmer,SnowballStemmer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
#stemmer=SnowballStemmer('french')
stemmer=PorterStemmer()
data="Hello, i am very happy to meet you. I created this course for you. Good by!"

word_tokens = [word.lower() for word in word_tokenize(data)]

for i in range(len(word_tokens)):
    words=[stemmer.stem(word) for word in word_tokens if (not word in set(stopwords.words('english')) and  word.isalpha())]
print(words)

['hello', 'happi', 'meet', 'creat', 'cours', 'good']


# 6.	Lemmatisation

A la différence de la racisation qui fournit souvent une représentation non significative et incomplète des mots, la lemmatisation permet d’obtenir les **formes canoniques** des mots contenus dans une expression texte. Ainsi, au lieu de supprimer juste les suffixes et les préfixes des mots pour obtenir leurs racines, la lemmatisation réalise une **analyse morphologique** des mots afin d’extraire leurs formats canoniques.
nltk offre le lemmatizer  *WordNetLemmatizer* pour la réalisation des opérations de lemmatisation, mais uniquement pour l’anglais. pour d'autre langues on peut recourir à la bibliotheque **SpaCy**.  


In [5]:
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

lemmmatizer=WordNetLemmatizer()
data1="Le big data  « grosses données » en anglais,les mégadonnées ou les données massives, " \
     "désigne les ressources d’informations dont les caractéristiques en termes de volume," \
     " de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques " \
     "particulières pour générer de la valeur, et qui dépassent en général les capacités " \
     "d'une seule et unique machine et nécessitent des traitements parallélisés"
data2="Big data is a field that treats ways to analyze, systematically extract information from," \
     " or otherwise deal with data sets that are too large or complex to be dealt with by traditional" \
     " data-processing application software. Data with many cases (rows) offer greater statistical power," \
     " while data with higher complexity (more attributes or columns) " \
     "may lead to a higher false discovery rate. "

words1 = word_tokenize(data1)
words1 = [lemmmatizer.lemmatize(word.lower()) for word in words1 if(not word in set(stopwords.words('french')) and  word.isalpha())]
print(words1)

words2 = word_tokenize(data2)
words2 = [lemmmatizer.lemmatize(word.lower()) for word in words2 if(not word in set(stopwords.words('english')) and  word.isalpha())]
print(words2)

['le', 'big', 'data', 'gross', 'données', 'anglais', 'mégadonnées', 'données', 'massif', 'désigne', 'ressources', 'information', 'dont', 'caractéristiques', 'termes', 'volume', 'vélocité', 'variété', 'imposent', 'utilisation', 'technology', 'méthodes', 'analytiques', 'particulières', 'générer', 'valeur', 'dépassent', 'général', 'capacités', 'seule', 'unique', 'machine', 'nécessitent', 'traitements', 'parallélisés']
['big', 'data', 'field', 'treat', 'way', 'analyze', 'systematically', 'extract', 'information', 'otherwise', 'deal', 'data', 'set', 'large', 'complex', 'dealt', 'traditional', 'application', 'software', 'data', 'many', 'case', 'row', 'offer', 'greater', 'statistical', 'power', 'data', 'higher', 'complexity', 'attribute', 'column', 'may', 'lead', 'higher', 'false', 'discovery', 'rate']


#7.	POS-Tagging

Le pos-tagging permet de réaliser une analyse lexicale d’une expression texte selon les règles de la grammaire. Les différentes unités seront dotées d’une annotation permettant de savoir le rôle grammatical de chaque mot dans l’expression. Les annotations les plus courante sont (DT : Determiner, NN : noun , JJ : adjective,  RB: adverb, VB : verb,  PRP : Personal Pronoun…).

NLTK offre une panoplie de taggers pour le pos-taggin qui recoivent une liste de tokens et leurs attribuent automatiquement  des tags en se basant sur des corpus d'apprentisgae.  

Par defaut la methode *pos_tag* offre un pos_tagging standard (Recommandé) pour l'anglais et cela en se bsant sur le tagset *"Penn Treebank"*:


In [6]:
import nltk
from nltk.tokenize import word_tokenize
data="Hello, i am very happy to meet you. I created this course for you. Good by!. "
words=word_tokenize(data)
print(nltk.pos_tag(words))

[('Hello', 'NNP'), (',', ','), ('i', 'NN'), ('am', 'VBP'), ('very', 'RB'), ('happy', 'JJ'), ('to', 'TO'), ('meet', 'VB'), ('you', 'PRP'), ('.', '.'), ('I', 'PRP'), ('created', 'VBD'), ('this', 'DT'), ('course', 'NN'), ('for', 'IN'), ('you', 'PRP'), ('.', '.'), ('Good', 'JJ'), ('by', 'IN'), ('!', '.'), ('.', '.')]


Dans le cas d'un document qui se compose de plusieurs phrases, il sera preferable d'utliser pos_tag_sents.

In [7]:
import nltk
from nltk.tokenize import sent_tokenize
data="Hello, i am very happy to meet you. I created this course for you. Good by!. "


sentences=sent_tokenize(data)

list=[]
for sentence in sentences:
    list.append(word_tokenize(sentence))

print(nltk.pos_tag_sents(list))

[[('Hello', 'NNP'), (',', ','), ('i', 'NN'), ('am', 'VBP'), ('very', 'RB'), ('happy', 'JJ'), ('to', 'TO'), ('meet', 'VB'), ('you', 'PRP'), ('.', '.')], [('I', 'PRP'), ('created', 'VBD'), ('this', 'DT'), ('course', 'NN'), ('for', 'IN'), ('you', 'PRP'), ('.', '.')], [('Good', 'JJ'), ('by', 'IN'), ('!', '.'), ('.', '.')]]


UnigramTagger permet d'attribuer aux mots leurs tags les plus frequents par rapport à un corpus d'apprentissage.   

In [8]:
import nltk
nltk.download('brown')
from nltk.corpus import brown
from nltk.tag import UnigramTagger
from nltk.tokenize import word_tokenize

brown_tagged_sents = brown.tagged_sents(categories='news')
size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]
unigram_tagger = nltk.UnigramTagger(train_sents)
print(unigram_tagger.evaluate(test_sents))

data="Hello, i am very happy to meet you. I created this course for you. Good by!. "
print(unigram_tagger.tag(word_tokenize(data)))

[nltk_data] Downloading package brown to
[nltk_data]     C:\Users\dscon\AppData\Roaming\nltk_data...
[nltk_data]   Package brown is already up-to-date!


0.8121200039868434
[('Hello', None), (',', ','), ('i', None), ('am', 'BEM'), ('very', 'QL'), ('happy', 'JJ'), ('to', 'TO'), ('meet', 'VB'), ('you', 'PPSS'), ('.', '.'), ('I', 'PPSS'), ('created', 'VBN'), ('this', 'DT'), ('course', 'NN'), ('for', 'IN'), ('you', 'PPSS'), ('.', '.'), ('Good', 'JJ-TL'), ('by', 'IN'), ('!', '.'), ('.', '.')]


  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  print(unigram_tagger.evaluate(test_sents))


le modèle n-gram est une generalisation de l'unigram qui cnsidère également le contexte où apparait le mot en considerant les tags des n-1 mots precedents.

bigram tagger est un exemple generateur pos-tagging n-gram.

In [9]:
brown_tagged_sents = brown.tagged_sents()

size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]

bigram_tagger = nltk.BigramTagger(train_sents)

print(bigram_tagger.evaluate(test_sents))

data="Hello, i am very happy to meet you. I created this course for you. Good by!"
print(bigram_tagger.tag(word_tokenize(data)))

  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  print(bigram_tagger.evaluate(test_sents))


0.3515747783994468
[('Hello', 'UH'), (',', ','), ('i', None), ('am', None), ('very', None), ('happy', None), ('to', None), ('meet', None), ('you', None), ('.', None), ('I', None), ('created', None), ('this', None), ('course', None), ('for', None), ('you', None), ('.', None), ('Good', None), ('by', None), ('!', None)]


On peut combiner plusieurs taggers en les executant d'une maniere sequentielle comme montré dans l'exemple c-dessous:

In [10]:
brown_tagged_sents = brown.tagged_sents(categories='news')

size = int(len(brown_tagged_sents) * 0.9)
train_sents = brown_tagged_sents[:size]
test_sents = brown_tagged_sents[size:]

t0 = nltk.DefaultTagger('NN')
t1 = nltk.UnigramTagger(train_sents, backoff=t0)
t2 = nltk.BigramTagger(train_sents, backoff=t1)
print(t2.evaluate(test_sents))

data="Hello, i am very happy to meet you. I created this course for you. Good by!"
print(t2.tag(word_tokenize(data)))


0.8452108043456593
[('Hello', 'NN'), (',', ','), ('i', 'NN'), ('am', 'BEM'), ('very', 'QL'), ('happy', 'JJ'), ('to', 'TO'), ('meet', 'VB'), ('you', 'PPO'), ('.', '.'), ('I', 'PPSS'), ('created', 'VBN'), ('this', 'DT'), ('course', 'NN'), ('for', 'IN'), ('you', 'PPO'), ('.', '.'), ('Good', 'JJ-TL'), ('by', 'IN'), ('!', '.')]


  Function evaluate() has been deprecated.  Use accuracy(gold)
  instead.
  print(t2.evaluate(test_sents))


Pour le moment la package nltk ne permet de faire le pos-tagging que pour l’anglais et le russe à l’aide du modèle « averaged_perceptron_tagger ».
StanfordPOSTagguer permet faire du pos-tagging pour d’autre langues comme le français et l’arabe. Il suffit de télécharger les differents librairies nécessaires (https://nlp.stanford.edu/software/tagger.shtml) et utiliser celles qui correspondent à la langue comme présenté dans l’exemple ci-dessous.

In [None]:
# !unzip stanford-tagger-4.2.0

'unzip' n'est pas reconnu en tant que commande interne
ou externe, un programme ex�cutable ou un fichier de commandes.


In [None]:

import nltk
from nltk.tag.stanford import StanfordPOSTagger

data="Le big data  « grosses données » en anglais,les mégadonnées ou les données massives, " \
     "désigne les ressources d’informations dont les caractéristiques en termes de volume," \
     " de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques " \
     "particulières pour générer de la valeur, et qui dépassent en général les capacités " \
     "d'une seule et unique machine et nécessitent des traitements parallélisés"
root="stanford-postagger-full-2020-11-17"
stf = StanfordPOSTagger(root+'/models/french-ud.tagger',root+"/stanford-postagger.jar",encoding='utf8')
tokens = nltk.word_tokenize(data)
print(stf.tag(tokens))

#8.	Analyse Sémantique

Un mot peut avoir plusieurs significations selon son contexte (les mots voisins et le rôle grammaticale). Par exemple, le mot anglais « break » possède 75 sens. Chose qui montre l’importance de la désambiguïsation lors de l’analyse d’un texte. Ci-dessous un extrait de la récupération des différents sens du mot « break » avec leurs annotations grammaticales.

In [12]:
from nltk.corpus import wordnet
for synset in wordnet.synsets('break')[:10]:
    print(">>>",synset.definition())


>>> some abrupt occurrence that interrupts an ongoing activity
>>> an unexpected piece of good luck
>>> (geology) a crack in the earth's crust resulting from the displacement of one side with respect to the other
>>> a personal or social separation (as between opposing factions)
>>> a pause from doing something (as work)
>>> the act of breaking something
>>> a time interval during which there is a temporary cessation of something
>>> breaking of hard tissue such as bone
>>> the occurrence of breaking
>>> an abrupt change in the tone or register of the voice (as at puberty or due to emotion)


Pour un synset bien determiné on peut recuperer la liste des termes qui partage le même sens (La même description du sens):
    

In [13]:
from nltk.corpus import wordnet
seynsets= wordnet.synsets('break')

for synset in seynsets[:10]:
    print(synset.lemmas())

[Lemma('interruption.n.02.interruption'), Lemma('interruption.n.02.break')]
[Lemma('break.n.02.break'), Lemma('break.n.02.good_luck'), Lemma('break.n.02.happy_chance')]
[Lemma('fault.n.04.fault'), Lemma('fault.n.04.faulting'), Lemma('fault.n.04.geological_fault'), Lemma('fault.n.04.shift'), Lemma('fault.n.04.fracture'), Lemma('fault.n.04.break')]
[Lemma('rupture.n.02.rupture'), Lemma('rupture.n.02.breach'), Lemma('rupture.n.02.break'), Lemma('rupture.n.02.severance'), Lemma('rupture.n.02.rift'), Lemma('rupture.n.02.falling_out')]
[Lemma('respite.n.02.respite'), Lemma('respite.n.02.recess'), Lemma('respite.n.02.break'), Lemma('respite.n.02.time_out')]
[Lemma('breakage.n.03.breakage'), Lemma('breakage.n.03.break'), Lemma('breakage.n.03.breaking')]
[Lemma('pause.n.01.pause'), Lemma('pause.n.01.intermission'), Lemma('pause.n.01.break'), Lemma('pause.n.01.interruption'), Lemma('pause.n.01.suspension')]
[Lemma('fracture.n.01.fracture'), Lemma('fracture.n.01.break')]
[Lemma('break.n.09.break'

On peut même récuperer le terme correspedant dans une autre langue

In [15]:
from nltk.corpus import wordnet
seynsets= wordnet.synsets('break')

#Francais
for synset in seynsets[:10]:
    print(synset.lemmas(lang='fra'))

#Arabe
for synset in seynsets[:10]:
    print(synset.lemmas(lang='arb'))

[Lemma('interruption.n.02.interruption')]
[Lemma('break.n.02.casser')]
[Lemma('fault.n.04.casser'), Lemma('fault.n.04.cassure'), Lemma('fault.n.04.fracture')]
[Lemma('rupture.n.02.briser'), Lemma('rupture.n.02.chute'), Lemma('rupture.n.02.rift'), Lemma('rupture.n.02.rompre')]
[Lemma('respite.n.02.casser'), Lemma('respite.n.02.pause'), Lemma('respite.n.02.repos'), Lemma('respite.n.02.trêve')]
[Lemma('breakage.n.03.cassure')]
[Lemma('pause.n.01.intermission'), Lemma('pause.n.01.interruption'), Lemma('pause.n.01.pause'), Lemma('pause.n.01.repos'), Lemma('pause.n.01.trêve')]
[Lemma('fracture.n.01.casser'), Lemma('fracture.n.01.fracture')]
[Lemma('break.n.09.casser')]
[Lemma('break.n.10.casser')]
[Lemma('interruption.n.02.توقُّف')]
[]
[]
[]
[]
[Lemma('breakage.n.03.تحْطِيم'), Lemma('breakage.n.03.تكْسِير'), Lemma('breakage.n.03.كسْر')]
[Lemma('pause.n.01.إِرْجاء'), Lemma('pause.n.01.اِسْتِراحة'), Lemma('pause.n.01.اِيقاف'), Lemma('pause.n.01.تعْلِيق'), Lemma('pause.n.01.توقُّف')]
[Lemma('fr

pour la liste des langues dsiponibles executer: sorted(wn.langs())

La bibliothèque nltk offre à travers le module **wsd** la possibilité de détecter le sens d’un mot en fonction de son contexte. A cette fin, l’algorithme **Lesk** est utilisé pour réaliser une désambiguïsation du sens d’un mot en retournant le sens qui a permis d’avoir le plus grand nombre de termes en intersection avec le contexte du mot pour lequel on est en train de chercher le sens exact. L’algorithme ne retourne aucun sens s’il n’arrive pas à réaliser la désambiguïsation.


In [16]:
from nltk.wsd import lesk
from nltk.tokenize import word_tokenize

context= word_tokenize("I've just finished the first step of the competition. I need a little break to catch my breath")
synset=lesk(context, 'break','n')
print(synset.definition())

(geology) a crack in the earth's crust resulting from the displacement of one side with respect to the other


L’exemple ci-dessus montre que l’algorithme n’est pas assez performant. D’autres algorithmes peuvent être utilisés en se basant sur les bibliothèques baseline, pywsd ou spaCy. Ci-dessous un autre exemple avec la bibliotheque pywsd.


In [17]:
# !pip install pywsd
# pip install -U pywsd
#pip install wn==0.0.22
from pywsd.lesk import simple_lesk
sent = "I've just finished the first step of the competition. I need a little break to catch my breath"
ambiguous = 'break'
answer = simple_lesk(sent, ambiguous, pos='n')
print (answer)
print (answer.definition())


Warming up PyWSD (takes ~10 secs)... 

Synset('rupture.n.02')
a personal or social separation (as between opposing factions)


took 3.2237613201141357 secs.


#9.	Analyse syntaxique

L'objectif de cette section est d'analyser la structure grammaticale des phrases au lieu de se focaliser d'une manière individuelle sur les mots les composant. Nous nous contenetant dans un premier temps de l'approche grammaticale pour realiser l'inference de la structure arborescente d'une phrase.

Il existe plusieurs bibliotehques permettant de reéaliser cette tâche. ci-dessous deux exemples avec les bibliotheque stanford et spacy


### Stanford

In [None]:
#import os
from nltk.parse import stanford
!os.environ['STANFORD_PARSER'] = 'stanford-parser-full-2020-11-17'
!os.environ['STANFORD_MODELS'] = 'stanford-parser-full-2020-11-17'

parser = stanford.StanfordParser(model_path="stanford-parser-full-2020-11-17/stanford-parser-4.2.0-models/edu/stanford/nlp/models/lexparser/englishPCFG.ser.gz")
sentences = parser.raw_parse_sents(("Hello, My name is Melroy.", "What is your name?"))


#Formatted

for line in sentences:
    for sentence in line:
        print(sentence)


'''
# GUI
for line in sentences:
    for sentence in line:
        sentence.draw()

'''



### SpaCy

spaCy une bibliothèque de la NLP qui est très puissante (elle est orientée production, non uniquement pour la recherche ou l’apprentissage de la NLP), totalement écrite python, gratuite et libre.
Par défaut, lorsqu’on fait appel au module **nlp** de spaCy, les opérations suivantes sont exécutées : Segmentation, pos-tagging, analyse syntaxique, NER (Named Entity Recognition), etc.  Un objet Doc est retourné à l’issue de toutes les opérations et qui encapsule tous les resultats de l’analyse.

L’exemple ci-dessous montre comment extraire les différentes informations à partir d’un objet Doc.

In [19]:
# !python -m spacy download fr_core_news_sm

import spacy
nlp = spacy.load('fr_core_news_sm')
doc = nlp("Le big data  « grosses données » en anglais,les mégadonnées ou les données massives, " \
     "désigne les ressources d’informations dont les caractéristiques en termes de volume," \
     " de vélocité et de variété imposent l’utilisation de technologies et de méthodes analytiques " \
     "particulières pour générer de la valeur, et qui dépassent en général les capacités " \
     "d'une seule et unique machine et nécessitent des traitements parallélisés")

for token in doc:
    print("/token:",token.text, "/lemma:",token.lemma_, token.shape_, token.is_alpha, token.is_stop,"/POS:", token.tag_, "/PARS:", token.head, token.dep_, "/NER:", token.ent_iob_, token.ent_type_)

/token: Le /lemma: le Xx True True /POS: DET /PARS: big det /NER: O 
/token: big /lemma: big xxx True False /POS: PRON /PARS: data nsubj /NER: O 
/token: data /lemma: dater xxxx True False /POS: VERB /PARS: data ROOT /NER: O 
/token:   /lemma:     False False /POS: SPACE /PARS: data dep /NER: O 
/token: « /lemma: « « False False /POS: NUM /PARS: data xcomp /NER: O 
/token: grosses /lemma: grosse xxxx True False /POS: NOUN /PARS: grosses ROOT /NER: O 
/token: données /lemma: donnée xxxx True False /POS: NOUN /PARS: grosses amod /NER: O 
/token: » /lemma: » » False False /POS: PUNCT /PARS: grosses punct /NER: O 
/token: en /lemma: en xx True True /POS: ADP /PARS: anglais case /NER: O 
/token: anglais /lemma: anglais xxxx True False /POS: NOUN /PARS: grosses nmod /NER: O 
/token: , /lemma: , , False False /POS: PUNCT /PARS: désigne punct /NER: O 
/token: les /lemma: le xxx True True /POS: DET /PARS: mégadonnées det /NER: O 
/token: mégadonnées /lemma: mégadonnée xxxx True False /POS: NOUN

Pour récuperer L'arbre de dependance syntaxique evec spaCy

In [20]:
# !python -m spacy download en_core_web_sm
import spacy
from spacy import displacy


nlp = spacy.load("en_core_web_sm")
doc = nlp("Hello, My name is Melroy. What is your name?")

#Visualisation 1
print ("{:<15} | {:<8} | {:<15} |{:<10} | {:<20}".format('Token','Relation','Head','POS', 'Children'))
print ("-" * 70)
for token in doc:
  # Print the token, dependency nature, head and all dependents of the token
  print ("{:<15} | {:<8} | {:<15} |{:<10} | {:<20}"
         .format(str(token.text), str(token.dep_), str(token.head.text), str(token.head.pos_), str([child for child in token.children])))


#Visualisation 2 (graphique)
displacy.render(doc, style='dep', jupyter=True, options={'distance': 120})


Token           | Relation | Head            |POS        | Children            
----------------------------------------------------------------------
Hello           | intj     | is              |AUX        | []                  
,               | punct    | is              |AUX        | []                  
My              | poss     | name            |NOUN       | []                  
name            | nsubj    | is              |AUX        | [My]                
is              | ROOT     | is              |AUX        | [Hello, ,, name, Melroy, .]
Melroy          | attr     | is              |AUX        | []                  
.               | punct    | is              |AUX        | []                  
What            | attr     | is              |AUX        | []                  
is              | ROOT     | is              |AUX        | [What, name, ?]     
your            | poss     | name            |NOUN       | []                  
name            | nsubj    | is           

# 10.	Exercices :

## 10.1 Exercice 1: Traduction automatique

On desire assister l'utilisateur pendant la traduction de l'anglais vers le francais.

* Constituer le contexte du document en recuperant tous les termes sigfificatifs
* Découper le texte en des phrases simples et recuperer les tags de leurs mots.
* Pour chaque phrase récuperer le sens exacte de chaque terme en se basant sur leurs Tags et leur contexts
* Récuperer les termes correspendant en francais
* Pour chaque phrase afficher à l'utilisateur les propostions de traduction pour les nom, les adjectifs et les verbes

**Proposition - Exercice 01**

In [21]:
import spacy
from nltk.corpus import wordnet as wn
from nltk.wsd import lesk

# Load spaCy's English model
nlp = spacy.load("en_core_web_sm")

text = """Inheritance is a basic concept of Object-Oriented Programming. It allows a class to use properties and methods of another class."""

def extract_significant_terms(doc):
    """
    Extract all significant terms from the document.
    """
    significant_terms = [token.text for token in doc if not token.is_stop and not token.is_punct]
    return significant_terms

def split_and_tag_sentences(doc):
    """
    Split the text into simple sentences and retrieve the POS tags for each word.
    """
    sentences = []
    for sent in doc.sents:
        tagged_words = [(token.text, token.pos_) for token in sent]
        sentences.append(tagged_words)
    return sentences

def retrieve_exact_meaning_synset(word, sentence):
    """
    Use WordNet to retrieve the exact sense (meaning) of the word in the context of the sentence.
    """
    synset = lesk(sentence, word)
    if synset:
        return synset
    return None

def translate_with_synset(word, sentence):
    """
    Retrieve French translation of the word using its synset.
    """
    synset = retrieve_exact_meaning_synset(word, sentence)
    if synset:
        translations = synset.lemmas('fra')
        if translations:
            return translations[0].name()
    return word

def display_translation_suggestions(tagged_sentence, sentence):
    """
    Display translation suggestions for nouns, adjectives, and verbs.
    """
    suggestions = []
    for word, pos in tagged_sentence:
        if pos in ["NOUN", "VERB", "ADJ"]:
            french_term = translate_with_synset(word, sentence)
            suggestions.append((word, french_term, pos))
    return suggestions

doc = nlp(text)

significant_terms = extract_significant_terms(doc)
print("Significant Terms from the Document (Context):", significant_terms)

tagged_sentences = split_and_tag_sentences(doc)
print("\nTagged Sentences:")
for sentence in tagged_sentences:
    print(sentence)

print("\nTranslation Suggestions (For Nouns, Adjectives, and Verbs):")
for sentence in doc.sents:
    tagged_sentence = [(token.text, token.pos_) for token in sentence]
    suggestions = display_translation_suggestions(tagged_sentence, sentence)
    for original, french, pos in suggestions:
        print(f"Original: {original} ({pos}) -> Suggested Translation: {french}")


Significant Terms from the Document (Context): ['Inheritance', 'basic', 'concept', 'Object', 'Oriented', 'Programming', 'allows', 'class', 'use', 'properties', 'methods', 'class']

Tagged Sentences:
[('Inheritance', 'NOUN'), ('is', 'AUX'), ('a', 'DET'), ('basic', 'ADJ'), ('concept', 'NOUN'), ('of', 'ADP'), ('Object', 'NOUN'), ('-', 'PUNCT'), ('Oriented', 'VERB'), ('Programming', 'PROPN'), ('.', 'PUNCT')]
[('It', 'PRON'), ('allows', 'VERB'), ('a', 'DET'), ('class', 'NOUN'), ('to', 'PART'), ('use', 'VERB'), ('properties', 'NOUN'), ('and', 'CCONJ'), ('methods', 'NOUN'), ('of', 'ADP'), ('another', 'DET'), ('class', 'NOUN'), ('.', 'PUNCT')]

Translation Suggestions (For Nouns, Adjectives, and Verbs):
Original: Inheritance (NOUN) -> Suggested Translation: héritage
Original: basic (ADJ) -> Suggested Translation: basique
Original: concept (NOUN) -> Suggested Translation: concept
Original: Object (NOUN) -> Suggested Translation: chose
Original: Oriented (VERB) -> Suggested Translation: adapter


## 10.2 Exercice 2: Detection du plagiarisme


L’objectif de cet exercice est de détecter le pélagianisme à partir de wikipedia pendant la préparation des réponses à un certain nombre de questions sur des connaissances en informatique. Le dataset utilisé peut-être récupéré à partir du lien suivant :Cliquer <a href="https://drive.google.com/file/d/11y6oqH4kjlIBTQj3qDODi7bIfp9g2Rks/view?usp=drive_link" target="_blank">ICI</a>

Pour ce faire, nous nous basant sur le calcul des similarités entre les réponses des candidats et les définitions exactes trouvées sur Wikipédia. Deux méthodes de calcul de similarité sont à utiliser, à savoir, la similarité syntaxique (orientée caractères) et la similarité sémantique.

### Exploration du corpus

Le corpus utilisé dans cette exercice était realisé dans le cadre d'un travail de recherche "Clough, P., Stevenson, M. Developing a corpus of plagiarised short answers. Lang Resources & Evaluation 45, 5–24 (2011). https://doi.org/10.1007/s10579-009-9112-1"

Le corpus se compose de plusieurs fichiers texte dont les carateristiques sont decrites dans corpus-final09.xls.

Chaque fichier est associé à une tache (tasks a-e) et à un type de plagiarisme:

*   cut: du copier coller à partir du texte original.
*   light: quelquie extrait du texte original avec queklques reformulations.
*   heavy: du copier colller vaec reformulation.
*   non: pas de copier coller.
*   orig: texte origional.


### Similarité Syntaxique

Pour la similarité  syntaxique entre des documents courts (des phrases) on peut recrorir à l'utilisation de l'un des algorithmes suivants:
* Longest Common Sequence (LCS)
* Set features
* Word Order Similarity
* n-gram sentences
* Jaro-Winkler
* ...


* Recuperer le dataset du plagiarisme?
* Réaliser les différentes tâches de prétraitement?
* Calculer les similarités syntaxiques entre les réponses des étudiants et les reponses originales.


In [12]:
#glob lib
!pip install glob2



### Similarité Sémantique

WordNet est une base de données lexicale qui comporte des concepts (termes) classifiés et reliés les uns aux autres à travers des realtions semantiques

La composante principale de wordNet est le synset (synonym set) tel que chacun contient plusieurs mots qui partagent le même sens (des lemmas). Egalement, un mot peut appartenir à plusieurs synsets à la foix.

l'exemple suivant montre comment recuperer les synsets d'un mot et comment recuperer ses synonymes pour un sens particuliers

In [22]:
from nltk.corpus import wordnet as wn
computer_synsets = wn.synsets("computer")
print("Computer sens in wordNet:")
i=0
for sense in computer_synsets:
    print(" \t Sens :", i)
    print(" \t\t Sens definition: "+sense.definition())
    lemmas = [l.name() for l in sense.lemmas()]
    print("\t\t Lemmas for sense :" +str(lemmas))
    i=i+1

Computer sens in wordNet:
 	 Sens : 0
 		 Sens definition: a machine for performing calculations automatically
		 Lemmas for sense :['computer', 'computing_machine', 'computing_device', 'data_processor', 'electronic_computer', 'information_processing_system']
 	 Sens : 1
 		 Sens definition: an expert at calculation (or at operating calculating machines)
		 Lemmas for sense :['calculator', 'reckoner', 'figurer', 'estimator', 'computer']


Pour la similarité sémantique, la bibliothèque nltk et à travers le module wordnet permet de mesurer la distance ou la similarité sémantique entre les sens des mots. Ainsi, en récupérant les sens synset1 et synset2 de deux mots quelconques plusieurs façons sont possibles pour calculer leur similarité:

* synset1.path_similarity(synset2) : retourne leur ordre de similarité sous forme d’une valeur numérique entre 0 et 1 en se basant sur le plus court chemin qui relie les deux sens dans l’arborescence de wordnet.
* synset1.lch_similarity(synset2): qui se base sur l’algorithme Leacock-Chodorow
* Synset1.wup_similarity(synset2): qui se base sur l’algorithme Wu-Palmer
* synset1.res_similarity(synset2, ic): qui se base sur l’algorithme Resnik:
* synset1.jcn_similarity(synset2, ic): qui se base sur l’algorithme Jiang-Conrath
* synset1.lin_similarity(synset2, ic): qui se base sur l’algorithme Lin

l'exemple suivant montre comment calculer les similarité entres les sens des termes computer et device en se basant sur les metriques Leacock-Chodorow et Wu-Palmer

In [23]:
from nltk.corpus import wordnet as wn
import pandas as pd
import numpy as np
computer_synsets = wn.synsets("computer")
device_synsets = wn.synsets("device")
lch=[]
wup=[]


for s1 in computer_synsets:
    for s2 in device_synsets:
        lch.append(s1.lch_similarity(s2))
        wup.append(s1.wup_similarity(s2))

pd.DataFrame([lch,wup],["lch","wup"])

Unnamed: 0,0,1,2,3,4,5,6,7,8,9
lch,2.538974,1.072637,0.693147,1.558145,1.440362,1.440362,1.335001,0.864997,1.335001,1.239691
wup,0.875,0.142857,0.1,0.588235,0.555556,0.5,0.181818,0.117647,0.470588,0.444444


Souvent on aura besoin de recuperer les sens exactes des termes dans leurs contextes afin mesurer leurs similarité d'une manière plus precise

In [24]:
from nltk.wsd import lesk
from nltk.tokenize import word_tokenize
def WSD(word, doc):
    context= word_tokenize(doc)
    sens=lesk(context, word)
    return sens

doc1='Computer science is the study of computers and computing concepts. It includes both hardware and software, as well as networking and the Internet'
doc2='Computer science is the science that deals with the theory and methods of processing information in digital computers, the design of computer hardware and software, and the applications of computers.'


print(WSD("Computer", doc1).definition())
print(WSD("Computer", doc2).definition())

a machine for performing calculations automatically
a machine for performing calculations automatically


Pour calculer la distance semantique entre deux documents, on aura besoin de calculer les similarités semantiques entre leurs mots deux à deux ou utiliser par example la distance de Hausdorff ou l'indic de Jaccard.

* Defnir la fonction SemanticDistanceDocs(doc1,doc2) qui permet de calculer la distance semantique totale entre deux documents texte?

In [25]:
from nltk.corpus import wordnet as wn
from nltk.tokenize import word_tokenize

doc1='Computer science is the study of computers and computing concepts. It includes both hardware and software, as well as networking and the Internet'
doc2='Computer science is the science that deals with the theory and methods of processing information in digital computers, the design of computer hardware and software, and the applications of computers.'

def WSD(word, sentence):
    return lesk(sentence, word) 

def synset_similarity(synset1, synset2):
    if synset1 is None or synset2 is None:
        return 0  # Aucun synset trouvé pour l'un des mots, pas de similarité possible
    return synset1.wup_similarity(synset2) or 0  # Wu-Palmer Similarity


def SemanticDistanceDocs(doc1, doc2):
    # Tokenisation des documents
    words_doc1 = word_tokenize(doc1)
    words_doc2 = word_tokenize(doc2)
    
    # Désambiguïsation des sens pour chaque mot dans les deux documents
    senses_doc1 = [WSD(word, doc1) for word in words_doc1]
    senses_doc2 = [WSD(word, doc2) for word in words_doc2]
    
    # Calculer la similarité entre tous les sens (synsets) des deux documents
    total_similarity = 0
    count = 0
    for sense1 in senses_doc1:
        for sense2 in senses_doc2:
            similarity = synset_similarity(sense1, sense2)
            total_similarity += similarity
            count += 1
 

    # Si aucun synset n'a pu être trouvé, retourner 0
    if count == 0:
        return 0

    # Retourner la similarité moyenne entre les synsets des deux documents
    average_similarity = total_similarity / count
    return 1 - average_similarity  # La distance est l'inverse de la similarité



In [26]:
SemanticDistanceDocs(doc1, doc2)

0.9111448876638121

* Calculer les similarités sémantiqueq entre les réponses des étudiants et les définitions trouvées sur wikipedia? considerer par example que:
  *      cut: correspond à une similarité entre 75% et 100%
  *      heavy: correspond à une similarité entre 50% et 75%
  *      light: correspond à une similarité entre 25% et 50%
  *      Non: correspond à une similarité entre 0% et 25%


In [27]:
import glob
def NLP(text):
    lemmes = [lemmatizer.lemmatize(word.lower()) for word in word_tokenize(text) if (not word in set(stopwords.words('english')) and  word.isalpha())]
    return lemmes

for file in glob.glob("*user.txt"):
    with open(file, 'r') as f:
        text=f.read()
        task=file.len

In [28]:
# !pip install xlrd==2.0.1
# !pip install openpyxl


## **10.2 Exercice 2: Detection du plagiarisme**

**1.a. Data Preprocessing**

In [30]:
import re
import string
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'\d+', '', text)
    words = word_tokenize(text)
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)

**2. Calcul de similarités Syntaxiques**

In [31]:
import glob, os
import pandas as pd

path = 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Original/*.txt'
def txts_file_to_df(path):
    file_paths = glob.glob(path)
    print(file_paths)
    data = []
    for filepath in file_paths:
        try:
            with open(filepath, 'r', encoding='utf-8') as file:
                content = file.read()
        except UnicodeDecodeError:
            with open(filepath, 'r', encoding='ISO-8859-1') as file:
                content = file.read()
        filename = os.path.basename(filepath)
        data.append({
            "File": filename,
            'Content': content,
            'Task': filename.split('task')[-1].split('.')[0]
        })
    df = pd.DataFrame(data)    
    return df

response_files = txts_file_to_df(path)

['c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Original\\orig_taska.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Original\\orig_taskb.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Original\\orig_taskc.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Original\\orig_taskd.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Original\\orig_taske.txt']


In [32]:
path = 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users/*.txt'
users_files = txts_file_to_df(path)

def getName(text):
    return str(text).split('_')[0]

users_files['User'] = users_files['File'].apply(getName)

['c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pA_taska.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pA_taskb.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pA_taskc.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pA_taskd.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pA_taske.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pB_taska.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pB_taskb.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/plagitat/Users\\g0pB_taskc.txt', 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagi

In [33]:
response_files

Unnamed: 0,File,Content,Task
0,orig_taska.txt,"In object-oriented programming, inheritance is...",a
1,orig_taskb.txt,PageRank is a link analysis algorithm used by ...,b
2,orig_taskc.txt,Vector space model (or term vector model) is a...,c
3,orig_taskd.txt,"In probability theory, Bayes' theorem (often c...",d
4,orig_taske.txt,"In mathematics and computer science, dynamic p...",e


In [34]:
# change column name content to Response
response_files.rename(columns={'Content': 'OResponse'}, inplace=True)
users_files.rename(columns={'Content': 'UResponse'}, inplace=True)

In [35]:
users_files

Unnamed: 0,File,UResponse,Task,User
0,g0pA_taska.txt,Inheritance is a basic concept of Object-Orien...,a,g0pA
1,g0pA_taskb.txt,PageRank is a link analysis algorithm used by ...,b,g0pA
2,g0pA_taskc.txt,"The vector space model (also called, term vect...",c,g0pA
3,g0pA_taskd.txt,Bayes’ theorem was names after Rev Thomas Baye...,d,g0pA
4,g0pA_taske.txt,Dynamic Programming is an algorithm design tec...,e,g0pA
...,...,...,...,...
90,g4pE_taska.txt,Object oriented programming is a style of pro...,a,g4pE
91,g4pE_taskb.txt,PageRankalgorithm is also known as link analys...,b,g4pE
92,g4pE_taskc.txt,The definition of term depends on the applicat...,c,g4pE
93,g4pE_taskd.txt,"""Bayes' Theorem"" or ""Bayes' Rule"", or somethin...",d,g4pE


In [36]:
# Load data
excel_path = 'c:/Users/dscon/Documents/COURS UM6P/S3/TEXT-MINING/Corpus_Plagiat/Corpus_Plagiat/corpus-final09.xls'
sheet_name = 'File list'
decision_df = pd.read_excel(excel_path, sheet_name=sheet_name)

# Extract User and Task from filename
decision_df['User'] = decision_df['File'].apply(getName)
decision_df

Unnamed: 0,File,Group,Person,Task,Category,Native English,Knowledge,Difficulty,User
0,g0pA_taska.txt,0,A,a,non,native,1,1,g0pA
1,g0pA_taskb.txt,0,A,b,cut,native,4,3,g0pA
2,g0pA_taskc.txt,0,A,c,light,native,5,3,g0pA
3,g0pA_taskd.txt,0,A,d,heavy,native,3,4,g0pA
4,g0pA_taske.txt,0,A,e,non,native,4,3,g0pA
...,...,...,...,...,...,...,...,...,...
90,g4pE_taska.txt,4,E,a,heavy,non-native,1,2,g4pE
91,g4pE_taskb.txt,4,E,b,light,non-native,3,2,g4pE
92,g4pE_taskc.txt,4,E,c,cut,non-native,4,2,g4pE
93,g4pE_taskd.txt,4,E,d,non,non-native,4,4,g4pE


In [37]:
# merge the two dataframes on the 'Task' column
merged_df = pd.merge(response_files[['OResponse', 'Task']], users_files, on=['Task'], how='inner')
merged_df = pd.merge(merged_df, decision_df, on=['Task', 'User'], how='inner')
merged_df.to_csv('merged_df.csv', index=False)

In [38]:
new_df = merged_df[['User', 'Task', 'OResponse', 'UResponse', 'Category']]
new_df

Unnamed: 0,User,Task,OResponse,UResponse,Category
0,g0pA,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept of Object-Orien...,non
1,g0pB,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept in object orien...,non
2,g0pC,a,"In object-oriented programming, inheritance is...",inheritance in object oriented programming is ...,heavy
3,g0pD,a,"In object-oriented programming, inheritance is...",Inheritance in object oriented programming is ...,cut
4,g0pE,a,"In object-oriented programming, inheritance is...","In object-oriented programming, inheritance is...",light
...,...,...,...,...,...
90,g3pC,e,"In mathematics and computer science, dynamic p...","In computer science and mathematics, dynamic p...",light
91,g4pB,e,"In mathematics and computer science, dynamic p...","In mathematics and computer science, dynamic p...",cut
92,g4pC,e,"In mathematics and computer science, dynamic p...","In mathematics and computer science, dynamic p...",light
93,g4pD,e,"In mathematics and computer science, dynamic p...",Dynamic programming is a method of providing s...,heavy


In [39]:
import re
import string
import pandas as pd
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from difflib import SequenceMatcher

# Prétraitement du texte
stop_words = set(stopwords.words('english'))

def preprocess_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    text = re.sub(r'\d+', '', text)
    words = word_tokenize(text)
    words = [word for word in words if word not in stop_words]
    return ' '.join(words)


def jaro_winkler_similarity(str1, str2):
    return SequenceMatcher(None, str1, str2).ratio()

def ngram_similarity(str1, str2, n=2):
    str1 = str1.split()
    str2 = str2.split()
    ngrams1 = {tuple(str1[i:i+n]) for i in range(len(str1) - n + 1)}
    ngrams2 = {tuple(str2[i:i+n]) for i in range(len(str2) - n + 1)}
    intersection = ngrams1.intersection(ngrams2)
    return len(intersection) / float(len(ngrams1.union(ngrams2)))

def set_features_similarity(str1, str2):
    set1 = set(str1.split())
    set2 = set(str2.split())
    intersection = set1.intersection(set2)
    return len(intersection) / float(len(set1.union(set2)))

def word_order_similarity(str1, str2):
    words1 = str1.split()
    words2 = str2.split()
    matching_words = sum(1 for word in words1 if word in words2)
    return matching_words / float(max(len(words1), len(words2)))

def apply_syntaxic_similarity(df, algorithms):
    # Pour chaque algorithme, ajouter une colonne vide dans le DataFrame
    for algo_name in algorithms.keys():
        df[algo_name] = 0.0  # Initialiser chaque colonne avec des scores à 0.0

    # Appliquer chaque algorithme de similarité aux lignes du DataFrame
    for index, row in df.iterrows():
        response = preprocess_text(row['UResponse'])
        original_response = preprocess_text(row['OResponse'])
        
        for algo_name, algo in algorithms.items():
            similarity_score = algo(response, original_response)
            df.at[index, algo_name] = similarity_score  # Ajouter le score dans la colonne correspondante

    return df

def classify_similarity(similarity):
    if similarity >= 0.75:
        return 'cut'      
    elif similarity >= 0.50:
        return 'heavy'
    elif similarity >= 0.25:
        return 'light'
    else:
        return 'non'
    
# Définir les algorithmes de similarité
algorithms = {
    'Jaro-Winkler': jaro_winkler_similarity,
    'N-GRAMM': ngram_similarity,
    'Set features': set_features_similarity,
    'Word Order Similarity': word_order_similarity,
}

# Appliquer la fonction sur votre DataFrame
df_syntaxic = apply_syntaxic_similarity(new_df, algorithms)
df_syntaxic


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[algo_name] = 0.0  # Initialiser chaque colonne avec des scores à 0.0
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[algo_name] = 0.0  # Initialiser chaque colonne avec des scores à 0.0
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df[algo_name] = 0.0  # Initialiser chaque colonne avec des sc

Unnamed: 0,User,Task,OResponse,UResponse,Category,Jaro-Winkler,N-GRAMM,Set features,Word Order Similarity
0,g0pA,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept of Object-Orien...,non,0.040767,0.010453,0.080645,0.175141
1,g0pB,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept in object orien...,non,0.026549,0.006431,0.103627,0.129944
2,g0pC,a,"In object-oriented programming, inheritance is...",inheritance in object oriented programming is ...,heavy,0.020779,0.066929,0.191860,0.310734
3,g0pD,a,"In object-oriented programming, inheritance is...",Inheritance in object oriented programming is ...,cut,0.132450,0.373737,0.533333,0.559322
4,g0pE,a,"In object-oriented programming, inheritance is...","In object-oriented programming, inheritance is...",light,0.966419,0.897143,0.909091,0.920904
...,...,...,...,...,...,...,...,...,...
90,g3pC,e,"In mathematics and computer science, dynamic p...","In computer science and mathematics, dynamic p...",light,0.110737,0.126394,0.238372,0.185053
91,g4pB,e,"In mathematics and computer science, dynamic p...","In mathematics and computer science, dynamic p...",cut,0.615753,0.540741,0.591954,0.679715
92,g4pC,e,"In mathematics and computer science, dynamic p...","In mathematics and computer science, dynamic p...",light,0.043729,0.400749,0.549708,0.459075
93,g4pD,e,"In mathematics and computer science, dynamic p...",Dynamic programming is a method of providing s...,heavy,0.044361,0.171975,0.326425,0.377224


In [48]:
# classer les similarités
df_syntaxic['Category_JARO'] = df_syntaxic['Jaro-Winkler'].apply(classify_similarity)
df_syntaxic['Category_NGRAM'] = df_syntaxic['N-GRAMM'].apply(classify_similarity)
df_syntaxic['Category_Set'] = df_syntaxic['Set features'].apply(classify_similarity)
df_syntaxic['Category_WordOrder'] = df_syntaxic['Word Order Similarity'].apply(classify_similarity)
df_syntaxic.head()

Unnamed: 0,User,Task,OResponse,UResponse,Category,Jaro-Winkler,N-GRAMM,Set features,Word Order Similarity,Category_JARO,Category_NGRAM,Category_Set,Category_WordOrder
0,g0pA,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept of Object-Orien...,non,0.040767,0.010453,0.080645,0.175141,non,non,non,non
1,g0pB,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept in object orien...,non,0.026549,0.006431,0.103627,0.129944,non,non,non,non
2,g0pC,a,"In object-oriented programming, inheritance is...",inheritance in object oriented programming is ...,heavy,0.020779,0.066929,0.19186,0.310734,non,non,non,cut
3,g0pD,a,"In object-oriented programming, inheritance is...",Inheritance in object oriented programming is ...,cut,0.13245,0.373737,0.533333,0.559322,non,cut,light,light
4,g0pE,a,"In object-oriented programming, inheritance is...","In object-oriented programming, inheritance is...",light,0.966419,0.897143,0.909091,0.920904,heavy,heavy,heavy,heavy


In [41]:
# Accuracy
print("Jaro-Winkler Accuracy:", sum(df_syntaxic['Category_JARO'] == df_syntaxic['Category'])/ len(new_df) *100)
print("N-GRAMM Accuracy:", sum(df_syntaxic['Category_NGRAM'] == df_syntaxic['Category'])/ len(new_df) * 100)
print("Set features Accuracy:", sum(df_syntaxic['Category_Set'] == df_syntaxic['Category'])/ len(new_df) * 100)
print("Word Order Similarity Accuracy:", sum(df_syntaxic['Category_WordOrder'] == df_syntaxic['Category'])/ len(new_df) * 100)

Jaro-Winkler Accuracy: 44.21052631578947
N-GRAMM Accuracy: 48.421052631578945
Set features Accuracy: 53.68421052631579
Word Order Similarity Accuracy: 51.578947368421055


In [42]:
from sklearn.metrics import jaccard_score
import numpy as np
import pandas as pd

# Calculate n-grams
def ngrams(text, n=3):
    words = text.split()
    return set([' '.join(words[i:i+n]) for i in range(len(words)-n+1)])

# Calculate the Jaccard index
def jaccard_index(doc1, doc2, n=3):
    ngrams_doc1 = ngrams(doc1, n)
    ngrams_doc2 = ngrams(doc2, n)
    intersection = ngrams_doc1.intersection(ngrams_doc2)
    union = ngrams_doc1.union(ngrams_doc2)
    return len(intersection) / len(union) if len(union) > 0 else 0  # Avoid division by zero

# Classification based on the similarity score
def classify_similarity(similarity_score):
    if similarity_score < 0.2:
        return 'non'
    elif 0.2 <= similarity_score < 0.5:
        return 'cut'
    elif 0.5 <= similarity_score < 0.75:
        return 'light'
    else:
        return 'heavy'

# Compute semantic similarity for the DataFrame
def compute_semantic_similarity(df):
    semantic_results = []
    
    for i in range(len(df)):
        doc1 = df['OResponse'][i]
        doc2 = df['UResponse'][i]
        
        semantic = SemanticDistanceDocs(doc1, doc2)
        similarity_class = classify_similarity(semantic)

        semantic_results.append({
            'Semantic_Similarity': semantic,
            'Semantic_Category': similarity_class
        })

    semantic_df = pd.DataFrame(semantic_results)
    df = pd.concat([df.reset_index(drop=True), semantic_df], axis=1)
    return df

result = compute_semantic_similarity(new_df)


In [135]:
new_df.to_csv('final_df.csv', index=False)

In [43]:
new_df.columns

Index(['User', 'Task', 'OResponse', 'UResponse', 'Category', 'Jaro-Winkler',
       'N-GRAMM', 'Set features', 'Word Order Similarity', 'Category_JARO',
       'Category_NGRAM', 'Category_Set', 'Category_WordOrder'],
      dtype='object')

In [44]:
result.columns

Index(['User', 'Task', 'OResponse', 'UResponse', 'Category', 'Jaro-Winkler',
       'N-GRAMM', 'Set features', 'Word Order Similarity', 'Category_JARO',
       'Category_NGRAM', 'Category_Set', 'Category_WordOrder',
       'Semantic_Similarity', 'Semantic_Category'],
      dtype='object')

In [47]:
new_df.head()

Unnamed: 0,User,Task,OResponse,UResponse,Category,Jaro-Winkler,N-GRAMM,Set features,Word Order Similarity,Category_JARO,Category_NGRAM,Category_Set,Category_WordOrder
0,g0pA,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept of Object-Orien...,non,0.040767,0.010453,0.080645,0.175141,non,non,non,non
1,g0pB,a,"In object-oriented programming, inheritance is...",Inheritance is a basic concept in object orien...,non,0.026549,0.006431,0.103627,0.129944,non,non,non,non
2,g0pC,a,"In object-oriented programming, inheritance is...",inheritance in object oriented programming is ...,heavy,0.020779,0.066929,0.19186,0.310734,non,non,non,light
3,g0pD,a,"In object-oriented programming, inheritance is...",Inheritance in object oriented programming is ...,cut,0.13245,0.373737,0.533333,0.559322,non,light,heavy,heavy
4,g0pE,a,"In object-oriented programming, inheritance is...","In object-oriented programming, inheritance is...",light,0.966419,0.897143,0.909091,0.920904,cut,cut,cut,cut


In [46]:
print(f'Accuracy of Semantic Similarity: {sum(new_df["Category"] == result["Semantic_Category"])/len(new_df) * 100}%')

Accuracy of Semantic Similarity: 20.0%


**Accuracy of Semantic Similarity: 20.0%**