<a href="https://colab.research.google.com/github/RMoulla/MMD/blob/main/TP_TF_IDF.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **TP : Moteur de recherche basé sur le modèle TF-IDF**


Ce TP a pour objectif de construire un moteur de recherche en utilisant la technique **TF-IDF** (Term Frequency - Inverse Document Frequency). Le TF-IDF est une méthode couramment utilisée en traitement automatique des langues (TAL) pour évaluer l'importance d'un mot dans un document par rapport à un ensemble de documents. Le but est de permettre aux utilisateurs de rechercher des documents en fonction d'une requête textuelle et de retourner les documents les plus pertinents.

---

## Outils et bibliothèques utilisés

Pour ce TP, nous utiliserons les outils et bibliothèques suivants :
- **Python** : Langage principal pour le traitement des données.
- **pandas** : Pour la manipulation des données sous forme de tableaux (DataFrames).
- **spaCy** : Pour effectuer le prétraitement linguistique, notamment la lemmatisation et la gestion des stopwords.
- **scikit-learn** : Pour calculer le TF-IDF avec `TfidfVectorizer` et la similarité cosinus entre les documents et la requête.

Le dataset utilisé est un ensemble de discours extraits des comptes rendus de débats de l'Assemblée Nationale, stockés dans un fichier CSV, qui servira de base pour la construction du moteur de recherche.

---

## **Partie 1 : Lecture des données**

### Objectif

L'objectif de cette première partie est de charger le dataset contenant les discours extraits des débats de l'Assemblée Nationale depuis un fichier CSV. Ce dataset servira de base pour le calcul du TF-IDF et la construction du moteur de recherche.

---

### Consignes

1. Charger le fichier CSV contenant les documents en utilisant la bibliothèque `pandas`.
2. Afficher les premières lignes du DataFrame pour visualiser les données.

---

In [None]:
import pandas as pd

# Charger les documents depuis le fichier CSV
df = pd.read_csv('speeches_debates.csv')

# Afficher les premières lignes pour vérifier le contenu
df.head()

Unnamed: 0,Document
0,Conformément au premier alinéa de l’article 28...
1,Philippine avait 19 ans seulement. Le 21 septe...
2,Je suis heureuse de souhaiter en votre nom à t...
3,L’ordre du jour appelle la déclaration du Gouv...
4,"Mesdames, messieurs les députés, avant de comm..."


In [None]:
!python -m spacy download fr_core_news_sm

Collecting fr-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/fr_core_news_sm-3.7.0/fr_core_news_sm-3.7.0-py3-none-any.whl (16.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m16.3/16.3 MB[0m [31m33.3 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('fr_core_news_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


## **Partie 2 : Prétraitement des documents**

### Objectif

L'objectif de cette partie est d'effectuer un prétraitement des documents afin d'uniformiser le texte et d'améliorer les résultats lors du calcul du TF-IDF. Le prétraitement consiste à :

---

### Consignes

1. Transformer tous les documents en minuscules pour éviter que les mots "Apple" et "apple" soient considérés comme différents.
2. Supprimer toute la ponctuation, afin de ne pas inclure des signes inutiles dans le calcul du TF-IDF.
3. Utiliser le modèle de langue française de `spaCy` pour effectuer la lemmatisation des documents.
4. Supprimer les stopwords, ces mots courants qui n'apportent pas de valeur ajoutée à la recherche.

---

In [None]:
import spacy
import re

# Charger le modèle français de spaCy pour la lemmatisation
nlp = spacy.load("fr_core_news_sm")

# Fonction de prétraitement
def pretraiter_texte(texte):
    # Transformer en minuscules


    # Supprimer la ponctuation


    # Lemmatisation avec spaCy


    return texte_lemmatise

# Appliquer le prétraitement à tous les documents
df['Document_pretraite'] = df['Document'].apply(pretraiter_texte)

# Vérifier le résultat du prétraitement
print(df['Document_pretraite'].head())

0    conformément alinéa larticle   28 constitution...
1    philippin 19   an 21   septembre corps vie êtr...
2    heureux souhaiter nom bienvenue délégation nou...
3    lordre jour appeler déclaration gouvernement s...
4    mesdame monsieur député commencer déclaration ...
Name: Document_pretraite, dtype: object


## **Partie 3 : Calcul du TF-IDF**

### Objectif

L'objectif de cette partie est de calculer la matrice **TF-IDF** (Term Frequency - Inverse Document Frequency) pour les documents prétraités. Le TF-IDF permet de quantifier l'importance d'un mot dans un document donné par rapport à un ensemble de documents. Il est utilisé pour évaluer la pertinence d'un mot dans un moteur de recherche.

---

### Consignes

1. Utiliser la fonction `TfidfVectorizer` de la bibliothèque `scikit-learn` pour calculer le TF-IDF des documents prétraités.
2. Calculer la matrice TF-IDF pour l'ensemble des documents.
3. Observer la forme de la matrice résultante (nombre de documents vs nombre de termes).
4. Visualiser le vecteur correspondant au premier document.


---

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Initialisation du vectorizer
v

# Calcul de la matrice TF-IDF
t

# Afficher la forme de la matrice TF-IDF (nombre de documents, nombre de termes)
p

# Visualiser le vecteur correspondant au premier document
first_doc_vector = tfidf_matrix[0]  # Vecteur du premier document
print(first_doc_vector)

(303, 2270)
  (0, 372)	0.32924272963290935
  (0, 89)	0.3530032437917184
  (0, 1115)	0.31238437654891826
  (0, 27)	0.32924272963290935
  (0, 395)	0.2993080220009609
  (0, 646)	0.31238437654891826
  (0, 1960)	0.3530032437917184
  (0, 1483)	0.3530032437917184
  (0, 20)	0.3530032437917184


## **Partie 4 : Recherche par requête et classement des documents**

### Objectif

L'objectif de cette dernière partie est d'utiliser la **similarité cosinus** pour comparer la requête de l'utilisateur avec les documents de la matrice **TF-IDF**. Les documents seront classés en fonction de leur similarité avec la requête, permettant ainsi de retourner les documents les plus pertinents dans un moteur de recherche.

---

### Consignes

1. Permettre à l'utilisateur d'entrer une requête textuelle (une phrase ou quelques mots).
2. Transformer la requête en vecteur **TF-IDF** en utilisant le même modèle que pour les documents.
3. Calculer la similarité cosinus entre la requête et chaque document du corpus.
4. Classer les documents en fonction de leur score de similarité cosinus.
5. Afficher les documents les plus pertinents avec leur score de similarité, en laissant un espace entre chaque résultat pour faciliter la lecture.

---

In [None]:

from sklearn.metrics.pairwise import cosine_similarity

# Fonction pour effectuer la recherche
def recherche(query, tfidf_matrix, vectorizer):
    # Transformer la requête en vecteur TF-IDF


    # Calculer la similarité cosinus entre la requête et les documents


    # Trouver les indices des documents les plus similaires
                                   # Obtenir les 5 documents les plus pertinents

    # Retourner les documents les plus pertinents et leurs scores
    return df.iloc[indices], similarity[indices]

# Exemple de requête
query = "hausse des impôts"
documents_pertinents, scores = recherche(query, tfidf_matrix, vectorizer)

# Afficher chaque document intégralement suivi de son score de similarité
for doc, score in zip(documents_pertinents['Document'], scores):
    print(f"Document :\n{doc}\n")
    print(f"Score de similarité : {score}\n")
    print("-----\n")  # Séparateur entre les documents

Document :
Le succès est partagé et je pense que l’effort doit l’être aussi. Ciblées, exceptionnelles et temporaires, ces hausses ne concerneront donc pas tous les Français. J’aimerais que vous me donniez au moins acte que je n’ai pas parlé d’effort général.

Score de similarité : 0.24515342796869025

-----

Document :
Vous avez évoqué, de même que M. Ciotti, des hausses de la fiscalité. Il convient de dire la vérité. Je répète une fois pour toutes, à l’intention des orateurs des divers groupes, qu’il n’y aura ni choc fiscal ni matraquage. Si nous devons travailler – j’espère le plus longtemps possible – en bonne intelligence ou du moins dans le respect des uns et des autres, je vous demande que vous ne me fassiez pas dire ou que vous ne disiez pas que le Gouvernement fait certaines choses alors que ce n’est pas vrai. Nous allons faire porter l’essentiel de l’effort – vital pour la crédibilité de notre signature, pour celle de notre action et pour la préservation de l’investissement – 