In [None]:
import pandas as pd

In [None]:
data = pd.read_csv('data.csv')
data

In [None]:
# Supprimer les lignes avec des valeurs manquantes
data = data.dropna()
data.isnull().sum()

In [None]:
# Convertir les colonnes pertinentes en types de données appropriés
data = data[data['Order Date'] != 'Order Date']
data['Quantity Ordered'] = pd.to_numeric(data['Quantity Ordered'])
data['Price Each'] = pd.to_numeric(data['Price Each'])
data['Order Date'] = pd.to_datetime(data['Order Date'], format='%m/%d/%y %H:%M')
data

In [None]:
# Sélectionner les caractéristiques pertinentes pour la segmentation (par exemple, 'Quantity Ordered' et 'Price Each')
caracteristiques = data[['Quantity Ordered', 'Price Each']]

In [None]:
from sklearn.cluster import KMeans
import warnings

# Désactiver les avertissements liés à threadpoolctl
warnings.filterwarnings("ignore", category=UserWarning, message=".*OpenMP*")

# Créer le modèle K-Means avec le nombre de classes souhaité (à déterminer)
kmeans = KMeans(n_clusters=5, random_state=0, n_init="auto").fit(caracteristiques)

# Appliquer le modèle aux caractéristiques sélectionnées
data['Cluster'] = kmeans.predict(caracteristiques)

In [None]:
import matplotlib.pyplot as plt

# Visualisation des clusters en fonction des caractéristiques (par exemple, Quantity Ordered vs Price Each)
plt.figure(figsize=(10, 6))
plt.scatter(caracteristiques['Quantity Ordered'], caracteristiques['Price Each'], c=data['Cluster'], cmap='viridis')
plt.xlabel('Quantity Ordered')
plt.ylabel('Price Each')
plt.title('Visualisation des clusters')
plt.grid(True)
plt.show()


In [None]:
from sklearn.cluster import KMeans
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

# Liste des nombres de clusters à essayer
n_clusters_list = [2, 3, 4, 5, 6]

# Initialisation des listes pour stocker les scores de silhouette
silhouette_scores = []

# Itérer sur différents nombres de clusters
for n_clusters in n_clusters_list:
    kmeans = KMeans(n_clusters=n_clusters, random_state=0, n_init="auto").fit(caracteristiques)
    labels = kmeans.labels_
    silhouette_avg = silhouette_score(caracteristiques, labels)
    silhouette_scores.append(silhouette_avg)


In [None]:
# Tracer le graphique du score de silhouette en fonction du nombre de clusters
plt.figure(figsize=(10, 6))
plt.plot(n_clusters_list, silhouette_scores, marker='o')
plt.xlabel('Nombre de clusters')
plt.ylabel('Score de silhouette')
plt.title('Évaluation du nombre de clusters')
plt.grid(True)
plt.show()