# **Projet 8 : R√©alisez un dashboard et assurez une veille technique**

L‚Äôobjectif de cette partie est de r√©aliser un **√©tat de l‚Äôart sur une technique r√©cente de mod√©lisation des donn√©es texte**, datant de moins de cinq ans, afin d‚Äô√©valuer son **apport par rapport √† une m√©thode plus classique** d√©j√† mise en ≈ìuvre pr√©c√©demment.

Dans ce cadre, nous avons choisi d‚Äô√©tudier **LLM2Vec**, une approche r√©cente permettant d‚Äôutiliser des **Large Language Models (LLM)** comme encodeurs de texte pour la g√©n√©ration d‚Äôembeddings s√©mantiques, et de la comparer √† la m√©thode **SBERT (Sentence-BERT)** utilis√©e dans les travaux pr√©c√©dents.

Cette veille vise √† :
- approfondir la compr√©hension des techniques r√©centes en NLP,
- √©valuer leur pertinence op√©rationnelle,
- et mesurer leurs performances sur un cas d‚Äôusage concret d√©j√† connu.

**Missions** : 
- √âtat de l‚Äôart et recherche bibliographique
    - Identifier une technique r√©cente de mod√©lisation de donn√©es texte (LLM2Vec), publi√©e dans un article scientifique de moins de 5 ans.
    - √âtudier les principes th√©oriques de la m√©thode √† partir de sources reconnues et situer LLM2Vec par rapport aux approches classiques d‚Äôembeddings de phrases (SBERT).
- Analyse conceptuelle de la m√©thode : expliquer le fonctionnement g√©n√©ral de LLM2Vec et identifier les avantages et limites th√©oriques de la m√©thode.
- Preuve de concept (Proof of Concept) : mettre en ≈ìuvre LLM2Vec sur un jeu de donn√©es texte d√©j√† exploit√© pr√©c√©demment.
- Comparaison avec une approche classique (SBERT utilis√© dans le P6)
- Synth√®se et restitution : r√©diger une **note m√©thodologique** synth√©tisant la technique √©tudi√©e, les r√©sultats exp√©rimentaux et les enseignements tir√©s de la comparaison.

**Conclusion attendue** : Cette veille scientifique doit permettre de d√©terminer si une approche r√©cente comme **LLM2Vec** constitue une **alternative pertinente ou compl√©mentaire √† SBERT**, et dans quels contextes elle peut apporter une r√©elle valeur ajout√©e pour des probl√©matiques de traitement du langage naturel.


# üìö Sommaire

**0. Imports, config et helpers g√©n√©raux**

### **0. Imports, config et helpers g√©n√©raux** 

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import missingno as msno
import seaborn as sns
from pathlib import Path
from time import perf_counter

### **1. Importation des donn√©es** 

In [4]:
DATA_PATH = Path("C:/Users/marga/Documents/Openclassrooms/_Projet_6/Data/Flipkart/flipkart_com-ecommerce_sample_1050.csv")

In [6]:
data = pd.read_csv(DATA_PATH)

data.head(3)


Unnamed: 0,uniq_id,crawl_timestamp,product_url,product_name,product_category_tree,pid,retail_price,discounted_price,image,is_FK_Advantage_product,description,product_rating,overall_rating,brand,product_specifications
0,55b85ea15a1536d46b7190ad6fff8ce7,2016-04-30 03:22:56 +0000,http://www.flipkart.com/elegance-polyester-mul...,Elegance Polyester Multicolor Abstract Eyelet ...,"[""Home Furnishing >> Curtains & Accessories >>...",CRNEG7BKMFFYHQ8Z,1899.0,899.0,55b85ea15a1536d46b7190ad6fff8ce7.jpg,False,Key Features of Elegance Polyester Multicolor ...,No rating available,No rating available,Elegance,"{""product_specification""=>[{""key""=>""Brand"", ""v..."
1,7b72c92c2f6c40268628ec5f14c6d590,2016-04-30 03:22:56 +0000,http://www.flipkart.com/sathiyas-cotton-bath-t...,Sathiyas Cotton Bath Towel,"[""Baby Care >> Baby Bath & Skin >> Baby Bath T...",BTWEGFZHGBXPHZUH,600.0,449.0,7b72c92c2f6c40268628ec5f14c6d590.jpg,False,Specifications of Sathiyas Cotton Bath Towel (...,No rating available,No rating available,Sathiyas,"{""product_specification""=>[{""key""=>""Machine Wa..."
2,64d5d4a258243731dc7bbb1eef49ad74,2016-04-30 03:22:56 +0000,http://www.flipkart.com/eurospa-cotton-terry-f...,Eurospa Cotton Terry Face Towel Set,"[""Baby Care >> Baby Bath & Skin >> Baby Bath T...",BTWEG6SHXTDB2A2Y,,,64d5d4a258243731dc7bbb1eef49ad74.jpg,False,Key Features of Eurospa Cotton Terry Face Towe...,No rating available,No rating available,Eurospa,"{""product_specification""=>[{""key""=>""Material"",..."
