In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import os

FOLDER = "playground-series-s5e8/"
FILES = os.listdir(FOLDER)
FILES

In [None]:
TEST = pd.read_csv(FOLDER + FILES[0], index_col=0)
TEST.head()

In [None]:
TRAIN = pd.read_csv(FOLDER + FILES[2], index_col=0)
TRAIN.head()

In [None]:
X = TRAIN.drop(columns=["y"])
y = TRAIN["y"]

In [None]:
y.value_counts().plot(kind="bar")

In [None]:
for col in X.columns:
    plt.figure(figsize=(10, 6))
    sns.histplot(X[col])
    plt.title(f"Distribution of {col}")
    plt.xlabel(col)
    plt.ylabel("Frequency")
    plt.show()

In [None]:
print(X.dtypes)
# pour chaque colonne de X si c'est un objet, faire un value_counts et mettre à la place du texte une valeur numérique (1, 2, 3, ...)
for col in X.columns:
    if X[col].dtype == "object":
        print(X[col].value_counts())
        X[col] = X[col].astype("category").cat.codes
X.head()

In [None]:
# PCA
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

pca = PCA(n_components=2)
X_pca = pca.fit_transform(X)

plt.figure(figsize=(10, 6))
plt.scatter(X_pca[:, 0], X_pca[:, 1], c=y, cmap='viridis', edgecolor='k', s=50)
plt.title("PCA of Features")
plt.xlabel("Principal Component 1")
plt.ylabel("Principal Component 2")
plt.colorbar(label='Target Variable')
plt.tight_layout()
plt.show()

In [None]:
pca = PCA(n_components=3)
X_pca = pca.fit_transform(X)

plt.figure(figsize=(10, 6))
ax = plt.axes(projection='3d')
ax.scatter3D(X_pca[:, 0], X_pca[:, 1], X_pca[:, 2], c=y, cmap='viridis', edgecolor='k', s=50)
ax.set_title("3D PCA of Features")
ax.set_xlabel("Principal Component 1")
ax.set_ylabel("Principal Component 2")
ax.set_zlabel("Principal Component 3")
plt.colorbar(label='Target Variable')
plt.tight_layout()
plt.show()

In [None]:
# t-SNE
from sklearn.manifold import TSNE
tsne = TSNE(n_components=2, random_state=42)
X_tsne = tsne.fit_transform(X)
plt.figure(figsize=(10, 6))
plt.scatter(X_tsne[:, 0], X_tsne[:, 1], c=y, cmap='viridis', edgecolor='k', s=50)
plt.title("t-SNE of Features")
plt.xlabel("t-SNE Component 1")
plt.ylabel("t-SNE Component 2")
plt.colorbar(label='Target Variable')
plt.tight_layout()
plt.show()

In [None]:
tsne = TSNE(n_components=3, random_state=42)
X_tsne = tsne.fit_transform(X)
plt.figure(figsize=(10, 6))
ax = plt.axes(projection='3d')
ax.scatter3D(X_tsne[:, 0], X_tsne[:, 1], X_tsne[:, 2], c=y, cmap='viridis', edgecolor='k', s=50)
ax.set_title("3D t-SNE of Features")
ax.set_xlabel("t-SNE Component 1")
ax.set_ylabel("t-SNE Component 2")
ax.set_zlabel("t-SNE Component 3")
plt.colorbar(label='Target Variable')
plt.tight_layout()
plt.show()

In [None]:
# faire une visualisation de la répartition des variables comme à la cellule d'avant mais le faire avec X et faire deux couleurs pour représenter y
for col in X.columns:
    plt.figure(figsize=(10, 5))
    sns.histplot(data=X, x=col, hue=y, multiple="stack", rotation=45)
    plt.title(f"Distribution of {col} by y")
    plt.show()

In [None]:
## Différences entre PCA et t-SNE

### **PCA (Principal Component Analysis)**
- **Méthode linéaire** : Trouve les directions de variance maximale dans les données
- **Préservation de la variance globale** : Garde l'information sur la variabilité totale
- **Déterministe** : Donne toujours le même résultat
- **Rapide** : Calcul efficace même sur de gros datasets
- **Interprétable** : Les composantes principales peuvent être analysées
- **Usage** : Réduction de dimensionnalité, compression de données, visualisation rapide

### **t-SNE (t-Distributed Stochastic Neighbor Embedding)**
- **Méthode non-linéaire** : Capture les relations complexes entre les points
- **Préservation de la structure locale** : Garde les points similaires proches
- **Stochastique** : Résultats peuvent varier entre les exécutions
- **Plus lent** : Calcul intensif, surtout sur de gros datasets
- **Moins interprétable** : Les axes n'ont pas de signification directe
- **Usage** : Visualisation de clusters, exploration de données, détection de patterns

### **Quand utiliser quoi ?**
- **PCA** : Pour une vue d'ensemble rapide, réduction de dimensionnalité, preprocessing
- **t-SNE** : Pour explorer la structure des clusters, visualiser des groupes cachés

In [None]:
# Comparaison pratique PCA vs t-SNE côte à côte
import time

# Prendre un échantillon pour t-SNE (plus rapide)
sample_size = 5000
indices = np.random.choice(len(X), sample_size, replace=False)
X_sample = X.iloc[indices]
y_sample = y.iloc[indices]

fig, axes = plt.subplots(2, 2, figsize=(15, 12))

# PCA 2D
start_time = time.time()
pca_2d = PCA(n_components=2, random_state=42)
X_pca_2d = pca_2d.fit_transform(X_sample)
pca_time = time.time() - start_time

axes[0, 0].scatter(X_pca_2d[:, 0], X_pca_2d[:, 1], c=y_sample, cmap='viridis', alpha=0.7)
axes[0, 0].set_title(f'PCA 2D (Temps: {pca_time:.2f}s)')
axes[0, 0].set_xlabel(f'PC1 ({pca_2d.explained_variance_ratio_[0]:.1%} variance)')
axes[0, 0].set_ylabel(f'PC2 ({pca_2d.explained_variance_ratio_[1]:.1%} variance)')

# t-SNE 2D
start_time = time.time()
tsne_2d = TSNE(n_components=2, random_state=42, perplexity=30)
X_tsne_2d = tsne_2d.fit_transform(X_sample)
tsne_time = time.time() - start_time

axes[0, 1].scatter(X_tsne_2d[:, 0], X_tsne_2d[:, 1], c=y_sample, cmap='viridis', alpha=0.7)
axes[0, 1].set_title(f't-SNE 2D (Temps: {tsne_time:.2f}s)')
axes[0, 1].set_xlabel('t-SNE Component 1')
axes[0, 1].set_ylabel('t-SNE Component 2')

# Distribution des distances dans l'espace original vs réduit
from scipy.spatial.distance import pdist
import numpy as np

# Échantillon plus petit pour le calcul des distances
small_sample = 500
small_indices = np.random.choice(len(X_sample), small_sample, replace=False)
X_very_small = X_sample.iloc[small_indices]

# Distances originales
orig_distances = pdist(X_very_small)

# Distances PCA
pca_distances = pdist(X_pca_2d[small_indices])

# Distances t-SNE
tsne_distances = pdist(X_tsne_2d[small_indices])

axes[1, 0].scatter(orig_distances, pca_distances, alpha=0.5)
axes[1, 0].set_xlabel('Distances originales')
axes[1, 0].set_ylabel('Distances PCA')
axes[1, 0].set_title('Préservation des distances - PCA')
correlation_pca = np.corrcoef(orig_distances, pca_distances)[0, 1]
axes[1, 0].text(0.05, 0.95, f'Corrélation: {correlation_pca:.3f}', transform=axes[1, 0].transAxes)

axes[1, 1].scatter(orig_distances, tsne_distances, alpha=0.5)
axes[1, 1].set_xlabel('Distances originales')
axes[1, 1].set_ylabel('Distances t-SNE')
axes[1, 1].set_title('Préservation des distances - t-SNE')
correlation_tsne = np.corrcoef(orig_distances, tsne_distances)[0, 1]
axes[1, 1].text(0.05, 0.95, f'Corrélation: {correlation_tsne:.3f}', transform=axes[1, 1].transAxes)

plt.tight_layout()
plt.show()

print(f"Variance expliquée par PCA: {pca_2d.explained_variance_ratio_.sum():.1%}")
print(f"Temps PCA: {pca_time:.2f}s vs t-SNE: {tsne_time:.2f}s")
print(f"PCA préserve mieux les distances globales (corrélation: {correlation_pca:.3f})")
print(f"t-SNE se concentre sur la structure locale (corrélation: {correlation_tsne:.3f})")

In [None]:
import numpy as np