<a href="https://colab.research.google.com/github/IvanJ-02/Intelligence_Artificielle_B1IM/blob/main/4_Similitude_de_text.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analyse de similarité entre texte

## 1. Introduction & TF-IDF

<img src='https://www.gstatic.com/aihub/tfhub/universal-sentence-encoder/example-similarity.png'>

L'analyse de la similarité entre textes consiste à mesurer la ressemblance ou la proximité entre deux ou plusieurs textes en utilisant des algorithmes mathématiques et des métriques spécifiques, cette analyse permet : 
- la **classification de documents** : Elle peut être utilisée pour classer des documents en fonction de leur ressemblance, ce qui est utile pour organiser et classer des documents en fonction de leur sujet ou de leur contenu.

- la **détection de doublons** : Elle peut être utilisée pour détecter les documents en double ou similaires, ce qui est utile pour nettoyer les bases de données ou les archives de documents.

- la **recommandation de contenu** : Elle peut être utilisée pour recommander du contenu similaire à l'utilisateur, basé sur son historique de recherche ou de lecture.

- la **dettection de contenu** : Elle consiste à trouver et à identifier les textes ou les parties de textes qui sont identiques ou très similaires entre eux. Cela peut être utile pour de nombreuses tâches, telles que la suppression de doublons dans les bases de données, la détection de plagiat dans les travaux académiques, la vérification de l'originalité des articles de presse, et la mise en place de contrôles de qualité pour les sites Web et les applications.

### 1.1 Bag Of Word

Un **Bag of Words** (BoW) est une représentation fréquentielle des mots d'un document. Il s'agit d'un modèle simpliste qui se concentre sur la fréquence d'apparition de chaque mot dans le document psans prendre en compte l'ordre des mots.

Il suffit de compter le nombre d'occurrences de chaque mot dans le document et stocker ces informations dans un vecteur. Chaque élément du vecteur représente le nombre d'occurrences d'un mot donné dans le document.

Les **BoW** sont souvent utilisés en NLP pour la vectorisation des textes, ce qui signifie qu'ils sont transformés en vecteurs numériques pouvant être utilisés pour les algorithmes de classification et de clustering. 

In [1]:
!pip install sklearn

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting sklearn
  Downloading sklearn-0.0.post1.tar.gz (3.6 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: sklearn
  Building wheel for sklearn (setup.py) ... [?25l[?25hdone
  Created wheel for sklearn: filename=sklearn-0.0.post1-py3-none-any.whl size=2344 sha256=0bd7dde321999cb857912bebbd2fe3f2306f0d4561b473a651c276e7c5f81ff4
  Stored in directory: /root/.cache/pip/wheels/14/25/f7/1cc0956978ae479e75140219088deb7a36f60459df242b1a72
Successfully built sklearn
Installing collected packages: sklearn
Successfully installed sklearn-0.0.post1


In [2]:
import pandas as pd
import numpy as np
# Import the CountVectorizer depuis sklearn.feature_extraction.text
from sklearn.feature_extraction.text import CountVectorizer

text = """Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.
NLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.
NLP is a complex field, as human language is highly ambiguous and context-dependent. To overcome these challenges, NLP models often rely on large amounts of annotated data and sophisticated algorithms to learn patterns and relationships in language.
Despite its challenges, NLP has the potential to revolutionize the way we interact with computers and unlock new possibilities for communication, education, and more."""
text

'Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.\nNLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.\nNLP is a complex field, as human language is highly ambiguous and context-dependent. To overcome these challenges, NLP models often rely on large amounts of annotated data and sophisticated algorithms to learn patterns and relationships in language.\nDespite its challenges, NLP has the potential to revolutionize the way we interact with computers and unlock new p

In [3]:
corpus = text.split('\n')
corpus

['Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.',
 'NLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.',
 'NLP is a complex field, as human language is highly ambiguous and context-dependent. To overcome these challenges, NLP models often rely on large amounts of annotated data and sophisticated algorithms to learn patterns and relationships in language.',
 'Despite its challenges, NLP has the potential to revolutionize the way we interact with computers and un

In [4]:
# Create a CountVectorizer object
vectorizer = CountVectorizer(stop_words='english')
BOW = vectorizer.fit_transform(corpus).toarray()

# Convert the BOW array to a DataFrame
BOW = pd.DataFrame(data=BOW, columns=vectorizer.get_feature_names())
BOW



Unnamed: 0,algorithms,ambiguous,amounts,analysis,analyze,annotated,applications,artificial,challenges,chatbots,...,sophisticated,speech,structure,techniques,text,translation,trees,understand,unlock,way
0,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,0,0,1,0,0
1,1,0,0,1,1,0,1,0,0,1,...,0,1,1,1,1,1,1,0,0,0
2,1,1,1,0,0,1,0,0,1,0,...,1,0,0,0,0,0,0,0,0,0
3,0,0,0,0,0,0,0,0,1,0,...,0,0,0,0,0,0,0,0,1,1


In [5]:
# Nombre de fois que le mot "nlp" apparait dans le corpus



### 1.2 Term Frequency (TF)

La fréquence des termes est le nombre d'occurrences d'un terme (par exemple un mot) dans un échantillon de texte, mais normalisé par le nombre de mots dans cet échantillon. C'est très proche d'un Bag Of Words (BOW) : la principale différence est la normalisation.

👉🏻 Voyons un exemple pour comprendre pourquoi nous aurions besoin de la normalisation. Supposons que nous recherchions la requête "amour", et que nous souhaitions trouver la citation la plus pertinente parmi 3 citations différentes :



In [6]:
BOW.sum(axis=1)

0    26
1    34
2    24
3    13
dtype: int64

In [7]:
TF = BOW.divide(BOW.sum(axis=1), axis=0)
TF

Unnamed: 0,algorithms,ambiguous,amounts,analysis,analyze,annotated,applications,artificial,challenges,chatbots,...,sophisticated,speech,structure,techniques,text,translation,trees,understand,unlock,way
0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.038462,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.038462,0.0,0.0
1,0.029412,0.0,0.0,0.029412,0.029412,0.0,0.029412,0.0,0.0,0.029412,...,0.0,0.029412,0.029412,0.029412,0.029412,0.029412,0.029412,0.0,0.0,0.0
2,0.041667,0.041667,0.041667,0.0,0.0,0.041667,0.0,0.0,0.041667,0.0,...,0.041667,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
3,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.076923,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.076923,0.076923



### 1.3 Inverse Document Frequency (IDF)

**Inverse Document Frequency (IDF)** représente l'inverse de la fréquence à laquelle un terme apparaît dans nos documents. Fondamentalement, l'IDF donnera donc un poids plus élevé aux mots qui apparaissent rarement dans nos documents et réduira le poids des mots qui apparaissent fréquemment.

<img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/0f1b67e328e503d7dd2d10fdfff9ee75df88032a'>

Où D est le nombre total de documents dans le corpus et le dénominateur : nombre de documents où le terme t apparaît.

In [9]:
len(bow)

NameError: ignored

In [None]:
bow.sum(axis=0)

In [None]:
bow = BOW
bow[bow>1] = 1
IDF = np.log(len(bow)/bow.sum(axis=0) +1)
IDF

In [None]:
IDF.index[IDF.argmin()]


### 1.4 **TF-IDF** (Term Frequency - Inverse Document Frequency)

|       **`TF-IDF = TF × IDF`** |


Pourquoi est-ce une bonne fonctionnalité ?

D'une part, si vous recherchez un mot dans un corpus, plus ce mot apparaît, plus il a de chances d'être pertinent : cela s'exprime par le Terme Fréquence.

En revanche, si ce mot particulier apparaît dans tous les documents du corpus, il n'est peut-être pas opportun de discriminer les différents documents : cela s'exprime par la Fréquence Inverse des Documents.

➡️ En conséquence, la combinaison de TF et IDF semble être un bon compromis et est une fonctionnalité largement utilisée dans le traitement du langage naturel.

👉🏻 Suite à notre exemple précédent, nous pouvons calculer le TF-IDF manuellement :

In [None]:
TF*IDF

___
# Exercice 


1. Ajoutez à la classe `Processing` une méthode `tfidf` qui prend en argument un corpus sous forme de list de chaine de caractère et qui retourne le traitement TF-IDF de ce corpus.

- la méthode crée un artibut `vectorizer=CountVectorizer(stop_words='english')`

2. Testez votre code sur le jeu de données [suivant](https://drive.google.com/file/d/1Pz9YfRErwnkgD2qTk4Q0CCY_PPP7akqa/view?usp=sharing).

In [None]:
#Création d'une classe de prétraitement
#Import de la fonction word_tokenize depuis la bibliothèque nltk.tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer

class Processing():
    def tokenization(self, document, stem:bool=False, lemm:bool=False):
        # Instanciation des objet stemm et lemm
        stemmer = PorterStemmer()
        lemmatizer = WordNetLemmatizer()

        # Tokenization avec la fonction word_tokenize sur le document
        document = document.lower()
        tokens = word_tokenize(document)

        # instanciation de la liste stop_words à partir du module words (english)
        stop_words = stopwords.words('english') + [',', '.', '!', ]

        # Suppression des stop words avec une liste compréhension
        tokens = [token for token in tokens if token not in stop_words]

        # Stemming
        if stem:
            tokens = [stemmer.stem(token) for token in tokens]

        # Lemmatization
        if lemm:
            tokens = [lemmatizer.lemmatize(token) for token in tokens]

        return tokens
    
    def tfidf(self, corpus):
        # Completez le code ici

In [None]:
process = Processing()
tfidf = process.tfidf(corpus)
tfidf

___
## 2. Métriques de Similarity

Il existe de nombreuses façons de mesurer la similarité entre les documents , nous nous concentrerons uniquement sur deux d'entre elles :

- Similitude Jaccard (principalement à des fins pédagogiques mais nous ne l'utiliserons pas souvent)
- Similitude cosinus (que nous avons déjà vue avec nos algorithmes de recommandation).

### 2.1 Jaccard Similarity

La similarité Jaccard est une métrique très simple pour mesurer la similarité : la taille de l'intersection divisée par la taille de l'union des ensembles d'échantillons . En considérant deux documents A et B, la Similitude Jaccard J sera :

<img src='https://wikimedia.org/api/rest_v1/media/math/render/svg/b80075655821258068b67f3121a490dd65577083'>

<img src='https://www.logamaths.fr/wp-content/uploads/2019/08/inresection.png'>

⚠️ Pour être pertinente, cette formule doit être appliquée uniquement sur des données prétraitées.

👉🏻 Calculons la similarité Jaccard pour les documents suivants :

A = 'Natural Language Processing (NLP) is a field of computer science, artificial intelligence, and linguistics concerned with the interactions between computers and human (natural) languages. The goal of NLP is to make it possible for computers to understand, interpret, and generate human language.


B = 'NLP applications include text classification, sentiment analysis, language translation, named entity recognition, speech recognition, and chatbots. NLP techniques rely on machine learning algorithms, such as decision trees, random forests, neural networks, and deep learning, to analyze and model the structure and meaning of language.
'

In [None]:
A = model.tokenization(corpus[0], True)
B = model.tokenization(corpus[1], True)

# Compute the intersection and union
intersection = set(A).intersection(B)
print(f"Intersection: {intersection}")
print()
union = set(A).union(B)
print(f"Union: {union}")
print()
# Compute and print the Jaccard Similarity
J = len(intersection)/len(union)
print('Jaccard Similarity:', J)


### 2.2. Cosine Similarity

Le **Cosine Similarity** est un moyen plus puissant de mesurer la similarité entre les documents : il calcule le produit scalaire entre deux vecteurs représentant les documents plongés dans un l'espace vectoriel TFI-DF, chaque axe correspond à un token.


<img src = 'https://sites.temple.edu/tudsc/files/2017/03/cosine-equation.png'>

<img src='https://www.oreilly.com/api/v2/epubs/9781788295758/files/assets/2b4a7a82-ad4c-4b2a-b808-e423a334de6f.png'>



In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns

cosine_similarity([tfidf.iloc[0], tfidf.iloc[1]])

In [None]:
from sklearn.metrics.pairwise import cosine_similarity
import seaborn as sns

cos_sim = cosine_similarity(tfidf)
cos_sim[cos_sim > 0.5] = 0
sns.heatmap(cos_sim)


___
# Exercice 

1. Créez une méthode `cosine_similarity` à la classe `Processing` qui prend en paramètre une chaine de caractère et un corpus et retourne le document du corpus qui à la plus grande similarité.


____
## 3. Introduction aux chatbots

<img src='https://f.hellowork.com/blogdumoderateur/2022/02/chatbot-definition-avantages-fonctions-marques.jpeg'>


### 3.1. Catégories de chatbots
🤖 Les chatbots sont de plus en plus populaires ces dernières années. La plupart des sites de e-commerce ont désormais leurs propres chatbots.

Il existe principalement deux types de chatbots :

- **chatbots basés sur des règles** : basés sur un arbre de décision avec des conditions prédéfinies
- **chatbots d'auto-apprentissage** : ils utilisent l'apprentissage automatique et peuvent comprendre du texte libre

Dans la catégorie auto-apprentissage, les chatbots peuvent être subdivisés en deux sous-catégories :

- **Bots basés sur la récupération** : ils répondent en fonction d'une base de données prédéfinie de réponses
- Les **bots génératifs** : ils génèrent des réponses (généralement grâce à des algorithmes de Deep Learning)

➡️ Aujourd'hui, nous allons nous concentrer sur les robots basés sur la récupération et utiliser nos outils nouvellement acquis pour créer un chatbot de base.


# Exercice

1. Créez un programme de recommandation de contenu musical. A partir du jeu de données suivant : [coldplay.csv]() l'utilisateur doit avoir trois propositions de musique en fonction du text qu'il passe en entré du programme.

Démarche à suivre :
1. Créez dans la classe Processing une méthode `recommandation` qui prend en paramètre `text` et `corpus` où text représente la saisie de l'utilisateur et corpus représente l'ensemble des Lyrics de coldplay.
2. La méthode `recommandation` transforme le corpus en dataframe TFIDF.
3. La méthode fait ensuite un `cosine_similarity` entre le text `text` et l'ensemblre du corpus.
4. La méthode `recommandation` les 3 chansons avec le coéficient `cosine_similarity` le plus élevé.

In [None]:
import pandas as pd

corpus = pd.read_csv('coldplay.csv').Lyrics
corpus