<a href="https://colab.research.google.com/github/RMoulla/DDDM/blob/main/Recherche_s%C3%A9mantique.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Recherche sémantique sur des descriptions de produits sportifs

Dans ce tutoriel, nous allons aborder l'implémentation d'une fonctionnalité de recherche sémantique sur un dataset de produits sportifs. Le dataset est structuré en deux colonnes. La première colonne contient des identifiants uniques de produits ; la seconde colonne contient les descriptions correspondantes. Celles-ci sont détaillées et couvrent une gamme variée d'équipements et de vêtements.

Notre objectif est de créer un programme Python capable de traiter des requêtes de recherche basées sur la sémantique des descriptions plutôt que sur des correspondances exactes de mots-clés. Cela permet d'améliorer significativement l'expérience de recherche pour les utilisateurs en leur fournissant des résultats plus pertinents et en adéquation avec leurs besoins spécifiques.

## Méthodologie

La fonction de recherche sémantique se décline en deux étapes principales :

* Dans un premier temps, les descriptions sont transformés en vecteurs à l'aide d'un encodeur `sentence_transformers`.
* Quand l'utilisateur saisit une requête en langage naturel, celle-ci est encodé à l'aide du même modèle `sentence_transformers` ; elle est ensuite comparée aux vecteurs relatifs aux descriptions à l'aide de la similarité cosine. Les `top_n` descriptions les plus similaires à la requête de l'utilisateur sont renvoyées comme résultat.

In [1]:
!pip install sentence_transformers

Collecting sentence_transformers
  Downloading sentence_transformers-2.3.1-py3-none-any.whl (132 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/132.8 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m[90m━━[0m [32m122.9/132.8 kB[0m [31m3.5 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m132.8/132.8 kB[0m [31m3.0 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sentence_transformers
Successfully installed sentence_transformers-2.3.1


In [3]:
from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# Charger le dataset
file_path = 'sample-data.csv'
data = pd.read_csv(file_path)

# Initialiser le modèle sentence transformer
model = SentenceTransformer('all-MiniLM-L6-v2')

# Générer des embeddings pour les descriptions
descriptions = data['description'].tolist()
description_embeddings = model.encode(descriptions)

def search_semantic(query, top_n=5):
    # Encoder la requête pour obtenir l'embedding
    query_embedding = model.encode([query])[0]

    # Calculer la similarité cosinus entre la requête et les descriptions du dataset
    similarities = cosine_similarity([query_embedding], description_embeddings)[0]

    # Obtenir les indices des descriptions les plus similaires
    top_indices = similarities.argsort()[-top_n:][::-1]

    # Retourner les descriptions les plus similaires
    return data.iloc[top_indices]

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.6k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [5]:
# Exemple d'utilisation
query = "Cotton sweatshirt for men"
results = search_semantic(query)
for desc in results['description']:
   print(desc, '')

Mandeville hoody - A going-places hoody. The Mandeville's soft, waffle knit is a supple blend of 40% organic cotton, 35% Tencel and 20% all-recycled polyester with 5% spandex for stretch. The rib-knit trimmed hood (with drawcord) opens to a full zip; the extra-wide rib-knit cuffs have thumb loops for attitude; the hem, also in a rib knit, hits at the lower hip. With handwarmer pockets. Recyclable through the Common Threads Recycling Program.<br><br><b>Details:</b><ul> <li>Supersoft organic cotton/Tencel blend waffle-knit hoody with cotton twill drawcord in hood</li> <li>Rib knit trim on hood and hem</li> <li>Thumb loop in cuffs for warmth; front pockets</li> <li>Lower hip length</li></ul><br><br><b>Fabric: </b>6.3-oz 40% organic cotton/35% Tencel/20% all-recycled polyester/5% spandex. Recyclable through the Common Threads Recycling Program<br><br><b>Weight: </b>(323 g 11.2 oz)<br><br>Made in Thailand. 
Hooded monk sweatshirt - The sacred garment of predawn surf checks, sunset barbecues