In [13]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt

In [14]:
DATA_PATH = "Леденцы.dat"

In [15]:
df = pd.read_csv(DATA_PATH, sep=None, engine="python", encoding="utf-8")

In [16]:
imp = SimpleImputer(strategy="median")
X = imp.fit_transform(df)
X_scaled = StandardScaler().fit_transform(X)

In [17]:
N_CLUSTERS = 4
kmeans = KMeans(n_clusters=N_CLUSTERS, n_init=10, random_state=42)
labels = kmeans.fit_predict(X_scaled)

In [18]:
df_l = df.copy()
df_l["cluster"] = labels + 1  # чтобы кластеры были 1..K, как у тебя после fcluster

In [19]:
print("Количество кластеров:", N_CLUSTERS)
print("Размеры кластеров:")
print(df_l["cluster"].value_counts().sort_index())

Количество кластеров: 4
Размеры кластеров:
cluster
1    108
2     61
3    110
4     59
Name: count, dtype: int64


In [20]:
profile_means = (
    df_l.groupby("cluster")
    .mean(numeric_only=True)
    .sort_index()
)

In [21]:
print("Средние по признакам:")
print(profile_means.round(2))

Средние по признакам:
           V1    V2    V3    V4    V5    V6    V7    V8    V9   V10   V11
cluster                                                                  
1        2.82  2.83  2.77  2.62  2.61  2.58  2.75  2.92  4.95  4.81  4.86
2        3.00  3.00  3.00  3.00  4.85  4.85  3.00  2.92  2.75  2.75  2.75
3        4.85  4.80  4.84  4.68  3.04  3.04  3.00  2.99  3.07  3.05  3.05
4        3.00  2.97  2.97  2.92  2.92  2.95  4.92  4.92  3.00  3.00  3.00


In [22]:
df_l.to_csv("candy_kmeans.csv", index=False)

**Теперь про классификацию потребителей по потребностям. Средние по признакам сильно различны в зависимости от кластера, причем различие очень четкое. Можно заметить, что второй кластер использует леденцы для повышения свежести и уверенности, первый кластер - для улучшения самочувствия и подавления симптомов болезней, четвертый - заменяет сладкое леденцами, а третий - для улучшения когнитивных способностей.**