# Visualisation des Embeddings
Visualisation des embeddings avec UMAP et t-SNE

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.manifold import TSNE
import umap

%matplotlib inline

## Chargement des embeddings

In [None]:
# Charger les embeddings
embeddings = np.load('../models/embeddings.npy')
docs = pd.read_csv('../data/processed/docs.csv')

print(f"Shape des embeddings: {embeddings.shape}")
print(f"Nombre de documents: {len(docs)}")

## Réduction de dimensionnalité avec UMAP

In [None]:
# UMAP
reducer = umap.UMAP(n_components=2, random_state=42)
embeddings_2d = reducer.fit_transform(embeddings)

plt.figure(figsize=(12, 8))
plt.scatter(embeddings_2d[:, 0], embeddings_2d[:, 1], alpha=0.5, s=10)
plt.title('Visualisation des embeddings avec UMAP')
plt.xlabel('UMAP 1')
plt.ylabel('UMAP 2')
plt.show()

## Réduction de dimensionnalité avec t-SNE

In [None]:
# t-SNE (sur un échantillon si trop de données)
sample_size = min(5000, len(embeddings))
sample_indices = np.random.choice(len(embeddings), sample_size, replace=False)

tsne = TSNE(n_components=2, random_state=42)
embeddings_tsne = tsne.fit_transform(embeddings[sample_indices])

plt.figure(figsize=(12, 8))
plt.scatter(embeddings_tsne[:, 0], embeddings_tsne[:, 1], alpha=0.5, s=10)
plt.title('Visualisation des embeddings avec t-SNE')
plt.xlabel('t-SNE 1')
plt.ylabel('t-SNE 2')
plt.show()