<a href="https://colab.research.google.com/github/IvanJ-02/Intelligence_Artificielle_B1IM/blob/main/4_Similitude_de_text.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyse de similarit√© entre texte

## 1. Introduction & TF-IDF

<img src='https://www.gstatic.com/aihub/tfhub/universal-sentence-encoder/example-similarity.png'>

L'analyse de la similarit√© entre textes consiste √† mesurer la ressemblance ou la proximit√© entre deux ou plusieurs textes en utilisant des algorithmes math√©matiques et des m√©triques sp√©cifiques, cette analyse permet : 
- la **classification de documents** : Elle peut √™tre utilis√©e pour classer des documents en fonction de leur ressemblance, ce qui est utile pour organiser et classer des documents en fonction de leur sujet ou de leur contenu.

- la **d√©tection de doublons** : Elle peut √™tre utilis√©e pour d√©tecter les documents en double ou similaires, ce qui est utile pour nettoyer les bases de donn√©es ou les archives de documents.

- la **recommandation de contenu** : Elle peut √™tre utilis√©e pour recommander du contenu similaire √† l'utilisateur, bas√© sur son historique de recherche ou de lecture.

- la **dettection de contenu** : Elle consiste √† trouver et √† identifier les textes ou les parties de textes qui sont identiques ou tr√®s similaires entre eux. Cela peut √™tre utile pour de nombreuses t√¢ches, telles que la suppression de doublons dans les bases de donn√©es, la d√©tection de plagiat dans les travaux acad√©miques, la v√©rification de l'originalit√© des articles de presse, et la mise en place de contr√¥les de qualit√© pour les sites Web et les applications.

### 1.1 Bag Of Word

Un **Bag of Words** (BoW) est une repr√©sentation fr√©quentielle des mots d'un document. Il s'agit d'un mod√®le simpliste qui se concentre sur la fr√©quence d'apparition de chaque mot dans le document psans prendre en compte l'ordre des mots.

Il suffit de compter le nombre d'occurrences de chaque mot dans le document et stocker ces informations dans un vecteur. Chaque √©l√©ment du vecteur repr√©sente le nombre d'occurrences d'un mot donn√© dans le document.

Les **BoW** sont souvent utilis√©s en NLP pour la vectorisation des textes, ce qui signifie qu'ils sont transform√©s en vecteurs num√©riques pouvant √™tre utilis√©s pour les algorithmes de classification et de clustering. 

In [1]:
!pip install sklearn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sklearn
  Downloading sklearn-0.0.post1.tar.gz (3.6 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: sklearn
  Building wheel for sklearn (setup.py) ... [?25l[?25hdone
  Created wheel for sklearn: filename=sklearn-0.0.post1-py3-none-any.whl size=2344 sha256=0bd7dde321999cb857912bebbd2fe3f2306f0d4561b473a651c276e7c5f81ff4
  Stored in directory: /root/.cache/pip/wheels/14/25/f7/1cc0956978ae479e75140219088deb7a36f60459df242b1a72
Successfully built sklearn
Installing collected packages: sklearn
Successfully installed sklearn-0.0.post1


In [2]:
import pandas as pd
import numpy as np
# Import the CountVectorizer depuis sklearn.feature_extraction.text
from sklearn.feature_extraction.text import CountVectorizer

text = """Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.
NLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.
NLP is a complex field, as human language is highly ambiguous and context-dependent. To overcome these challenges, NLP models often rely on large amounts of annotated data and sophisticated algorithms to learn patterns and relationships in language.
Despite its challenges, NLP has the potential to revolutionize the way we interact with computers and unlock new possibilities for communication, education, and more."""
text

'Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.\nNLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.\nNLP is a complex field, as human language is highly ambiguous and context-dependent. To overcome these challenges, NLP models often rely on large amounts of annotated data and sophisticated algorithms to learn patterns and relationships in language.\nDespite its challenges, NLP has the potential to revolutionize the way we interact with computers and unlock new p

In [3]:
corpus = text.split('\n')
corpus

['Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.',
 'NLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.',
 'NLP is a complex field, as human language is highly ambiguous and context-dependent. To overcome these challenges, NLP models often rely on large amounts of annotated data and sophisticated algorithms to learn patterns and relationships in language.',
 'Despite its challenges, NLP has the potential to revolutionize the way we interact with computers and un

In [4]:
# Create a CountVectorizer object
vectorizer = CountVectorizer(stop_words='english')
BOW = vectorizer.fit_transform(corpus).toarray()

# Convert the BOW array to a DataFrame
BOW = pd.DataFrame(data=BOW, columns=vectorizer.get_feature_names())
BOW



Unnamed: 0,algorithms,ambiguous,amounts,analysis,analyze,annotated,applications,artificial,challenges,chatbots,...,sophisticated,speech,structure,techniques,text,translation,trees,understand,unlock,way
0,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
1,1,0,0,1,1,0,1,0,0,1,...,0,1,1,1,1,1,1,0,0,0
2,1,1,1,0,0,1,0,0,1,0,...,1,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,1,1


In [5]:
# Nombre de fois que le mot "nlp" apparait dans le corpus



### 1.2 Term Frequency (TF)

La fr√©quence des termes est le nombre d'occurrences d'un terme (par exemple un mot) dans un √©chantillon de texte, mais normalis√© par le nombre de mots dans cet √©chantillon. C'est tr√®s proche d'un Bag Of Words (BOW) : la principale diff√©rence est la normalisation.

üëâüèª Voyons un exemple pour comprendre pourquoi nous aurions besoin de la normalisation. Supposons que nous recherchions la requ√™te "amour", et que nous souhaitions trouver la citation la plus pertinente parmi 3 citations diff√©rentes :



In [6]:
BOW.sum(axis=1)

0    26
1    34
2    24
3    13
dtype: int64

In [7]:
TF = BOW.divide(BOW.sum(axis=1), axis=0)
TF

Unnamed: 0,algorithms,ambiguous,amounts,analysis,analyze,annotated,applications,artificial,challenges,chatbots,...,sophisticated,speech,structure,techniques,text,translation,trees,understand,unlock,way
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.038462,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.038462,0.0,0.0
1,0.029412,0.0,0.0,0.029412,0.029412,0.0,0.029412,0.0,0.0,0.029412,...,0.0,0.029412,0.029412,0.029412,0.029412,0.029412,0.029412,0.0,0.0,0.0
2,0.041667,0.041667,0.041667,0.0,0.0,0.041667,0.0,0.0,0.041667,0.0,...,0.041667,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.076923,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.076923,0.076923



### 1.3 Inverse Document Frequency (IDF)

**Inverse Document Frequency (IDF)** repr√©sente l'inverse de la fr√©quence √† laquelle un terme appara√Æt dans nos documents. Fondamentalement, l'IDF donnera donc un poids plus √©lev√© aux mots qui apparaissent rarement dans nos documents et r√©duira le poids des mots qui apparaissent fr√©quemment.

<img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/0f1b67e328e503d7dd2d10fdfff9ee75df88032a'>

O√π D est le nombre total de documents dans le corpus et le d√©nominateur : nombre de documents o√π le terme t appara√Æt.

In [9]:
len(bow)

NameError: ignored

In [None]:
bow.sum(axis=0)

In [None]:
bow = BOW
bow[bow>1] = 1
IDF = np.log(len(bow)/bow.sum(axis=0) +1)
IDF

In [None]:
IDF.index[IDF.argmin()]


### 1.4 **TF-IDF** (Term Frequency - Inverse Document Frequency)

|       **`TF-IDF = TF √ó IDF`** |


Pourquoi est-ce une bonne fonctionnalit√© ?

D'une part, si vous recherchez un mot dans un corpus, plus ce mot appara√Æt, plus il a de chances d'√™tre pertinent : cela s'exprime par le Terme Fr√©quence.

En revanche, si ce mot particulier appara√Æt dans tous les documents du corpus, il n'est peut-√™tre pas opportun de discriminer les diff√©rents documents : cela s'exprime par la Fr√©quence Inverse des Documents.

‚û°Ô∏è En cons√©quence, la combinaison de TF et IDF semble √™tre un bon compromis et est une fonctionnalit√© largement utilis√©e dans le traitement du langage naturel.

üëâüèª Suite √† notre exemple pr√©c√©dent, nous pouvons calculer le TF-IDF manuellement :

In [None]:
TF*IDF

___
# Exercice 


1. Ajoutez √† la classe `Processing` une m√©thode `tfidf` qui prend en argument un corpus sous forme de list de chaine de caract√®re et qui retourne le traitement TF-IDF de ce corpus.

- la m√©thode cr√©e un artibut `vectorizer=CountVectorizer(stop_words='english')`

2. Testez votre code sur le jeu de donn√©es [suivant](https://drive.google.com/file/d/1Pz9YfRErwnkgD2qTk4Q0CCY_PPP7akqa/view?usp=sharing).

In [None]:
#Cr√©ation d'une classe de pr√©traitement
#Import de la fonction word_tokenize depuis la biblioth√®que nltk.tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

class Processing():
    def tokenization(self, document, stem:bool=False, lemm:bool=False):
        # Instanciation des objet stemm et lemm
        stemmer = PorterStemmer()
        lemmatizer = WordNetLemmatizer()

        # Tokenization avec la fonction word_tokenize sur le document
        document = document.lower()
        tokens = word_tokenize(document)

        # instanciation de la liste stop_words √† partir du module words (english)
        stop_words = stopwords.words('english') + [',', '.', '!', ]

        # Suppression des stop words avec une liste compr√©hension
        tokens = [token for token in tokens if token not in stop_words]

        # Stemming
        if stem:
            tokens = [stemmer.stem(token) for token in tokens]

        # Lemmatization
        if lemm:
            tokens = [lemmatizer.lemmatize(token) for token in tokens]

        return tokens
    
    def tfidf(self, corpus):
        # Completez le code ici

In [None]:
process = Processing()
tfidf = process.tfidf(corpus)
tfidf

___
## 2. M√©triques de Similarity

Il existe de nombreuses fa√ßons de mesurer la similarit√© entre les documents , nous nous concentrerons uniquement sur deux d'entre elles :

- Similitude Jaccard (principalement √† des fins p√©dagogiques mais nous ne l'utiliserons pas souvent)
- Similitude cosinus (que nous avons d√©j√† vue avec nos algorithmes de recommandation).

### 2.1 Jaccard Similarity

La similarit√© Jaccard est une m√©trique tr√®s simple pour mesurer la similarit√© : la taille de l'intersection divis√©e par la taille de l'union des ensembles d'√©chantillons . En consid√©rant deux documents A et B, la Similitude Jaccard J sera :

<img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/b80075655821258068b67f3121a490dd65577083'>

<img src='https://www.logamaths.fr/wp-content/uploads/2019/08/inresection.png'>

‚ö†Ô∏è Pour √™tre pertinente, cette formule doit √™tre appliqu√©e uniquement sur des donn√©es pr√©trait√©es.

üëâüèª Calculons la similarit√© Jaccard pour les documents suivants :

A = 'Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.


B = 'NLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.
'

In [None]:
A = model.tokenization(corpus[0], True)
B = model.tokenization(corpus[1], True)

# Compute the intersection and union
intersection = set(A).intersection(B)
print(f"Intersection: {intersection}")
print()
union = set(A).union(B)
print(f"Union: {union}")
print()
# Compute and print the Jaccard Similarity
J = len(intersection)/len(union)
print('Jaccard Similarity:', J)


### 2.2. Cosine Similarity

Le **Cosine Similarity** est un moyen plus puissant de mesurer la similarit√© entre les documents : il calcule le produit scalaire entre deux vecteurs repr√©sentant les documents plong√©s dans un l'espace vectoriel TFI-DF, chaque axe correspond √† un token.


<img src = 'https://sites.temple.edu/tudsc/files/2017/03/cosine-equation.png'>

<img src='https://www.oreilly.com/api/v2/epubs/9781788295758/files/assets/2b4a7a82-ad4c-4b2a-b808-e423a334de6f.png'>



In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns

cosine_similarity([tfidf.iloc[0], tfidf.iloc[1]])

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns

cos_sim = cosine_similarity(tfidf)
cos_sim[cos_sim > 0.5] = 0
sns.heatmap(cos_sim)


___
# Exercice 

1. Cr√©ez une m√©thode `cosine_similarity` √† la classe `Processing` qui prend en param√®tre une chaine de caract√®re et un corpus et retourne le document du corpus qui √† la plus grande similarit√©.


____
## 3. Introduction aux chatbots

<img src='https://f.hellowork.com/blogdumoderateur/2022/02/chatbot-definition-avantages-fonctions-marques.jpeg'>


### 3.1. Cat√©gories de chatbots
ü§ñ Les chatbots sont de plus en plus populaires ces derni√®res ann√©es. La plupart des sites de e-commerce ont d√©sormais leurs propres chatbots.

Il existe principalement deux types de chatbots :

- **chatbots bas√©s sur des r√®gles** : bas√©s sur un arbre de d√©cision avec des conditions pr√©d√©finies
- **chatbots d'auto-apprentissage** : ils utilisent l'apprentissage automatique et peuvent comprendre du texte libre

Dans la cat√©gorie auto-apprentissage, les chatbots peuvent √™tre subdivis√©s en deux sous-cat√©gories :

- **Bots bas√©s sur la r√©cup√©ration** : ils r√©pondent en fonction d'une base de donn√©es pr√©d√©finie de r√©ponses
- Les **bots g√©n√©ratifs** : ils g√©n√®rent des r√©ponses (g√©n√©ralement gr√¢ce √† des algorithmes de Deep Learning)

‚û°Ô∏è Aujourd'hui, nous allons nous concentrer sur les robots bas√©s sur la r√©cup√©ration et utiliser nos outils nouvellement acquis pour cr√©er un chatbot de base.


# Exercice

1. Cr√©ez un programme de recommandation de contenu musical. A partir du jeu de donn√©es suivant : [coldplay.csv]() l'utilisateur doit avoir trois propositions de musique en fonction du text qu'il passe en entr√© du programme.

D√©marche √† suivre :
1. Cr√©ez dans la classe Processing une m√©thode `recommandation` qui prend en param√®tre `text` et `corpus` o√π text repr√©sente la saisie de l'utilisateur et corpus repr√©sente l'ensemble des Lyrics de coldplay.
2. La m√©thode `recommandation` transforme le corpus en dataframe TFIDF.
3. La m√©thode fait ensuite un `cosine_similarity` entre le text `text` et l'ensemblre du corpus.
4. La m√©thode `recommandation` les 3 chansons avec le co√©ficient `cosine_similarity` le plus √©lev√©.

In [None]:
import pandas as pd

corpus = pd.read_csv('coldplay.csv').Lyrics
corpus