# TASK1

In [1]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import re
import numpy as np

## 1) la Tokenisation:

Pour comparer la similitude entre les réponses, nous devons d'abord procéder à la tokenisation. La tokenisation consiste à diviser le texte en unités discrètes appelées "tokens", qui peuvent être des mots, des phrases, ou d'autres éléments linguistiques.

In [2]:
def simple_tokenizer(text):
    tokens = re.findall(r"\b\w+\b", text.lower())
    return tokens

## 2) La préparation du texte en vue de l'analyse de similitude:

Définissons un processus de prétraitement permettant de normaliser le texte pour faciliter la comparaison ultérieure de la similitude entre plusieurs textes.

In [3]:
def preprocess_text(text):
    return " ".join(simple_tokenizer(text))

## 3) Calcul de la similarité:

Définissons une fonction qui encapsule le processus de calcul de la similarité cosinus entre deux textes, fournissant ainsi un indicateur quantitatif de leur similitude.

In [4]:
def calculate_similarity(text1, text2):
    # Prétraiter les textes
    preprocessed_text1 = preprocess_text(text1)
    preprocessed_text2 = preprocess_text(text2)

    # Vectorisation des textes
    vectorizer = CountVectorizer(tokenizer=simple_tokenizer)
    vectors = vectorizer.fit_transform([preprocessed_text1, preprocessed_text2])

    # Calcul de la similarité cosinus entre les vecteurs
    similarity_matrix = cosine_similarity(vectors)

    # La valeur de similarité cosinus est dans la position (0, 1) de la matrice
    similarity = similarity_matrix[0, 1]

    return similarity

## 4) Calcul de la matrice de similarité entre n textes: 

In [5]:
def calculate_similarity_matrix(texts):
    # Nombre de textes
    num_texts = len(texts)

    # Initialiser la matrice de similarité à zéro
    similarity_matrix = np.zeros((num_texts, num_texts))

    # Calculer la similarité entre chaque paire de textes
    for i in range(num_texts):
        for j in range(i + 1, num_texts):
            similarity = calculate_similarity(texts[i], texts[j])
            # Remplir la matrice de similarité (symétrique)
            similarity_matrix[i, j] = similarity
            similarity_matrix[j, i] = similarity

    return similarity_matrix

## 5) Test 

In [6]:
text1 = "Le chat est sur le toit."
text2 = "Un chien regarde par la fenêtre."
text3 = "Un chat dort tranquillement."

similarity_text1_text2 = calculate_similarity(text1, text2)
similarity_text1_text3 = calculate_similarity(text1, text3)

print(f"Similarité entre text1 et text2 : {similarity_text1_text2}")
print(f"Similarité entre text1 et text3 : {similarity_text1_text3}")

# Exemple avec une liste de textes
texts = ["Le chat est sur le toit.", "Un chien regarde par la fenêtre.", "Un chat dort paisiblement."]
similarity_matrix = calculate_similarity_matrix(texts)

# Affichage de la matrice de similarité
print("\nMatrice de similarité:")
print(similarity_matrix)

Similarité entre text1 et text2 : 0.0
Similarité entre text1 et text3 : 0.17677669529663687

Matrice de similarité:
[[0.         0.         0.1767767 ]
 [0.         0.         0.20412415]
 [0.1767767  0.20412415 0.        ]]


