In [None]:
import pandas as pd
import numpy as np
from sklearn.cluster import KMeans
from sklearn.preprocessing import MinMaxScaler
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt

# Charger le fichier CSV dans un DataFrame
df = pd.read_csv('en.openfoodfacts.org.products.csv', delimiter='\t', low_memory=False)

# Sélectionner les colonnes numériques
numeric_cols = ['energy_100g', 'fat_100g', 'carbohydrates_100g', 'proteins_100g']

# Remplacer les valeurs manquantes par zéro
df[numeric_cols] = df[numeric_cols].fillna(0)

# Créer un scaler MinMax
scaler = MinMaxScaler()

# Appliquer la normalisation aux colonnes numériques
df[numeric_cols] = scaler.fit_transform(df[numeric_cols])

# Réduire la dimensionnalité avec PCA
pca = PCA(n_components=2)
pca_df = pd.DataFrame(pca.fit_transform(df[numeric_cols]), columns=['PCA1', 'PCA2'])

# Appliquer K-means
inertia = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(pca_df)
    inertia.append(kmeans.inertia_)

# Afficher le graphique de la méthode du coude
plt.plot(range(1, 11), inertia)
plt.title('Méthode du coude')
plt.xlabel('Nombre de clusters')
plt.ylabel('Inertie')
plt.show()

# Sélectionner le nombre optimal de clusters
k = 3

# Appliquer K-means avec le nombre optimal de clusters
kmeans = KMeans(n_clusters=k, random_state=42)
kmeans.fit(pca_df)

# Afficher les centres de cluster
centers = kmeans.cluster_centers_
plt.scatter(pca_df['PCA1'], pca_df['PCA2'], c=kmeans.labels_, cmap='viridis')
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.5)
plt.show()
