In [43]:
import pandas as pd
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import DBSCAN
import matplotlib.pyplot as plt

In [44]:
DATA_PATH = "Леденцы.dat"

In [45]:
df = pd.read_csv(DATA_PATH, sep=None, engine="python", encoding="utf-8")

In [46]:
imp = SimpleImputer(strategy="median")
X = imp.fit_transform(df)
X_scaled = StandardScaler().fit_transform(X)

In [47]:
db = DBSCAN(eps=0.8, min_samples=20)
labels = db.fit_predict(X_scaled)

In [48]:
df_l = df.copy()
df_l["cluster"] = labels

In [49]:
unique_labels = np.unique(labels)
n_clusters = len(unique_labels[unique_labels != -1])

In [50]:
print("Количество кластеров (без шума):", n_clusters)
print("Размеры кластеров (включая шум):")
print(df_l["cluster"].value_counts().sort_index())

Количество кластеров (без шума): 4
Размеры кластеров (включая шум):
cluster
-1    151
 0     49
 1     49
 2     37
 3     52
Name: count, dtype: int64


In [51]:
valid = df_l[df_l["cluster"] != -1]
profile_means = (
    valid.groupby("cluster")
    .mean(numeric_only=True)
    .sort_index()
)

In [52]:
print("Средние по признакам (по кластерам без шума):")
print(profile_means.round(2))

Средние по признакам (по кластерам без шума):
          V1   V2   V3   V4   V5   V6   V7   V8   V9  V10  V11
cluster                                                       
0        5.0  5.0  5.0  5.0  3.0  3.0  3.0  3.0  3.0  3.0  3.0
1        3.0  3.0  3.0  3.0  3.0  3.0  3.0  3.0  5.0  5.0  5.0
2        3.0  3.0  3.0  3.0  5.0  5.0  3.0  3.0  3.0  3.0  3.0
3        3.0  3.0  3.0  3.0  3.0  3.0  5.0  5.0  3.0  3.0  3.0


In [53]:
df_l.to_csv("candy_dbscan.csv", index=False)

**Теперь про классификацию потребителей по потребностям. Средние по признакам сильно различны в зависимости от кластера, причем различие очень четкое. Можно заметить, что второй кластер использует леденцы для повышения свежести и уверенности, первый кластер - для улучшения самочувствия и подавления симптомов болезней, четвертый - заменяет сладкое леденцами, а третий - для улучшения когнитивных способностей.**