# SAE-79 - Visualisation t-SNE des Embeddings

**En tant que** data scientist  
**Je veux** visualiser les embeddings en 2D  
**Afin de** voir la structure des donn√©es

## Objectifs

- Appliquer t-SNE sur les embeddings de documents
- Visualiser la projection 2D
- Colorer par note (stars) pour voir la s√©paration
- Sauvegarder le graphique

## Inputs/Outputs

- **Input**: 
    - Embeddings: `outputs/doc_embeddings_w2v.npy`
    - Labels: `data/cleaned/reviews_clean.parquet`
- **Output**: 
    - Figure: `outputs/figures/tsne-embeddings.png`

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.manifold import TSNE
from pathlib import Path

# Configuration visuelle
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (12, 8)

print("‚úÖ Imports r√©ussis")

## 1. Chargement des Donn√©es

In [None]:
# Chemins
EMBEDDINGS_PATH = Path('../../outputs/doc_embeddings_w2v.npy')
REVIEWS_PATH = Path('../../data/cleaned/reviews_clean.parquet')
FIGURES_PATH = Path('../../outputs/figures')

# Cr√©er dossier figures si inexistant
FIGURES_PATH.mkdir(parents=True, exist_ok=True)

print(f"üìÇ Embeddings: {EMBEDDINGS_PATH}")
print(f"üìÇ Reviews: {REVIEWS_PATH}")

In [None]:
# Charger embeddings
if not EMBEDDINGS_PATH.exists():
    raise FileNotFoundError(f"‚ùå Fichier introuvable: {EMBEDDINGS_PATH}")

doc_embeddings = np.load(EMBEDDINGS_PATH)
print(f"‚úÖ Embeddings charg√©es: {doc_embeddings.shape}")

# Charger labels (stars)
if not REVIEWS_PATH.exists():
    raise FileNotFoundError(f"‚ùå Fichier introuvable: {REVIEWS_PATH}")

df_reviews = pd.read_parquet(REVIEWS_PATH, columns=['stars'])
print(f"‚úÖ Notes charg√©es: {len(df_reviews):,}")

# V√©rification coh√©rence
if len(doc_embeddings) != len(df_reviews):
    print(f"‚ö†Ô∏è Attention: Mismatch dimensions ({len(doc_embeddings)} vs {len(df_reviews)}) - Utilisation de l'intersection")
    min_len = min(len(doc_embeddings), len(df_reviews))
    doc_embeddings = doc_embeddings[:min_len]
    df_reviews = df_reviews.iloc[:min_len]

## 2. √âchantillonnage et t-SNE
t-SNE est tr√®s lent sur >10k points. Nous allons prendre un √©chantillon repr√©sentatif.

In [None]:
# Param√®tres
SAMPLE_SIZE = 5000  # Nombre de points √† visualiser
RANDOM_SEED = 42

# √âchantillonnage al√©atoire
if len(doc_embeddings) > SAMPLE_SIZE:
    print(f"‚úÇÔ∏è √âchantillonnage de {SAMPLE_SIZE} points...")
    indices = np.random.choice(len(doc_embeddings), SAMPLE_SIZE, replace=False)
    X_sample = doc_embeddings[indices]
    y_sample = df_reviews['stars'].iloc[indices].values
else:
    X_sample = doc_embeddings
    y_sample = df_reviews['stars'].values

print(f"üìä Donn√©es pr√™tes pour t-SNE: {X_sample.shape}")

In [None]:
print("‚è≥ Calcul t-SNE en cours (patience...)")

tsne = TSNE(
    n_components=2,
    perplexity=30,
    n_iter=1000,
    random_state=RANDOM_SEED,
    n_jobs=-1  # Utiliser tous les coeurs
)

X_embedded = tsne.fit_transform(X_sample)

print("‚úÖ t-SNE termin√©!")
print(f"   Output shape: {X_embedded.shape}")

## 3. Visualisation

In [None]:
plt.figure(figsize=(14, 10))

# Cr√©er le scatter plot
scatter = plt.scatter(
    X_embedded[:, 0],
    X_embedded[:, 1],
    c=y_sample,
    cmap='RdYlGn',  # Rouge (1) -> Vert (5)
    alpha=0.6,
    s=20,
    edgecolor='none'
)

# Ajouter la l√©gende de couleur
cbar = plt.colorbar(scatter)
cbar.set_label('Rating (stars)', fontsize=12)

# Esth√©tique
plt.title('t-SNE Visualization of Document Embeddings\n(Color by Rating)', fontsize=16)
plt.xlabel('Dimension 1', fontsize=12)
plt.ylabel('Dimension 2', fontsize=12)
plt.grid(True, alpha=0.3)

# Sauvegarder
output_file = FIGURES_PATH / 'tsne-embeddings.png'
plt.savefig(output_file, dpi=300, bbox_inches='tight')

print(f"üíæ Graphique sauvegard√©: {output_file}")
plt.show()

## 4. Analyse

### Observations
- **Structure Globale**: Regarder si les points forment des "nuages" distincts ou une masse continue.
- **S√©paration des Sentiments**: 
    - Les points **verts** (5 √©toiles) sont-ils s√©par√©s des points **rouges** (1 √©toile) ?
    - Si oui, cela indique que les embeddings capturent bien l'information de sentiment.
    - Si non, les embeddings sont peut-√™tre domin√©s par d'autres caract√©ristiques (th√®me, type de commerce, etc.).