In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.cluster import AgglomerativeClustering
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.neighbors import kneighbors_graph

# Charger le fichier CSV dans un DataFrame
df = pd.read_csv('../data/en.openfoodfacts.org.products.csv', delimiter='\t',  nrows=100000, low_memory=False)

# Sélectionner les colonnes numériques
numeric_cols = df.select_dtypes('number')

# Supprimer les lignes avec des valeurs manquantes
df.dropna(subset=numeric_cols, inplace=True)
# ou remplacer les valeurs manquantes par zéro
# df[numeric_cols] = df[numeric_cols].fillna(0)

# Appliquer la normalisation aux colonnes numériques
scaler = StandardScaler()
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])

# Réduire la dimensionnalité à l'aide de PCA
pca = PCA(n_components=50)
reduced_data = pca.fit_transform(df[numeric_cols])

# Appliquer le clustering hiérarchique
connectivity = kneighbors_graph(reduced_data, n_neighbors=10, include_self=False)
agg_clustering = AgglomerativeClustering(n_clusters=3, connectivity=connectivity)
labels = agg_clustering.fit_predict(reduced_data)

# Réduire la dimensionnalité pour visualiser les résultats
pca = PCA(n_components=2)
pca_df = pd.DataFrame(pca.fit_transform(reduced_data), columns=['PCA1', 'PCA2'])

# Afficher les résultats pour Hierarchical Clustering avec connectivité
pca_df['labels'] = labels
plt.scatter(pca_df['PCA1'], pca_df['PCA2'], c=labels, cmap='viridis')
plt.show()