# 12-дәріс: Кластерлеу. Мұғалімсіз оқыту арқылы деректердегі құрылымды іздеу

**Дәрістің мақсаты:**
1. Мұғаліммен оқыту мен **мұғалімсіз оқыту** арасындағы айырмашылықты түсіну.
2. Центроидтарға негізделген ең танымал кластерлеу алгоритмі - **K-Means**-ті зерттеу.
3. **Иерархиялық кластерлеумен** және дендрограммалармен қысқаша танысу.
4. Тығыздыққа негізделген кластерлеу алгоритмі - **DBSCAN**-ді зерттеу.
5. Қай алгоритмнің қай есепке жақсырақ сәйкес келетінін түсіну үшін тәсілдерді салыстыру.

### 1-бөлім: Мұғалімсіз оқытуға кіріспе

Осы уақытқа дейін біз **мұғаліммен оқыту (Supervised Learning)** парадигмасында жұмыс істедік. Бізде әрқашан `X` белгілері мен `y` дұрыс жауаптары бар таңбаланған оқыту таңдамасы болды. Біздің мақсатымыз — `X` бойынша `y`-ті болжайтын модель құру еді.

Енді біз **мұғалімсіз оқытуға (Unsupervised Learning)** көшеміз. Басты айырмашылық — бізде **тек `X` белгілері бар**, ал **`y` дұрыс жауаптары жоқ**. Міндет — белгіні болжау емес, деректердің өзіндегі жасырын құрылымды, заңдылықтарды немесе топтарды табу.

#### 1.1. Мұғалімсіз оқыту есептерінің түрлері

Мұғалімсіз оқыту — бұл тұтас бір алгоритмдер тобы. Кластерлеу — оның ең танымал, бірақ жалғыз өкілі емес.

1.  **Кластерлеу (Clustering):**
    *   **Мақсаты:** Ұқсас объектілерді бірге топтастыру, ал ұқсас еместерін әртүрлі топтарға (кластерлерге) бөлу.
    *   **Мысал:** Дүкен клиенттерін олардың сатып алу мінез-құлқы бойынша сегменттеу.
    *   **Алгоритмдер:** K-Means, DBSCAN, Иерархиялық кластерлеу.

2.  **Өлшемділікті азайту (Dimensionality Reduction):**
    *   **Мақсаты:** Деректер жинағындағы белгілер санын азайту, бірақ сонымен бірге мүмкіндігінше көп пайдалы ақпаратты сақтау. Бұл "өлшемділік қарғысымен" күресуге, басқа модельдердің оқуын жылдамдатуға және деректерді визуализациялауға көмектеседі.
    *   **Мысал:** 50 белгісі бар деректер жинағын 2D-графикте сызу үшін 2 белгіге түрлендіру.
    *   **Алгоритмдер:** Негізгі компоненттер әдісі (PCA), t-SNE.

3.  **Ассоциативті ережелерді іздеу (Association Rule Learning):**
    *   **Мақсаты:** Үлкен деректер жинақтарындағы айнымалылар арасындағы қызықты өзара байланыстар мен заңдылықтарды табу.
    *   **Мысал:** Супермаркеттегі чектерді талдау арқылы "Егер сатып алушы {Нан, Сүт} сатып алса, онда ол жоғары ықтималдылықпен {Май} да сатып алады" сияқты ережелерді табу.
    *   **Алгоритмдер:** Apriori, Eclat.

Бұл дәрісте біз **кластерлеуге** назар аударамыз.

### 2-бөлім: K-Means алгоритмі (Центроидтарға негізделген кластерлеу)

K-Means — ең ескі және ең танымал кластерлеу алгоритмдерінің бірі. Оның идеясы өте қарапайым: деректер топтасатын `K` орталықты (центроидты) табу.

#### Интуициясы: Ллойд алгоритмі
Алгоритм итеративті түрде жұмыс істейді:
1.  **0-қадам: `K`-ны таңдау** — кластерлер санын анықтау.
2.  **1-қадам: Инициализация.** `K` центроидты кездейсоқ орналастыру.
3.  **2-қадам: Тағайындау.** Әрбір нүктені ең жақын центроидқа жатқызу.
4.  **3-қадам: Жаңарту.** Әрбір центроидтың орнын оның кластеріндегі барлық нүктелердің орташа мәні ретінде қайта есептеу.
5.  **Қайталау:** 2 және 3-қадамдарды жинақталғанша (өзгеріс тоқтағанша) қайталау.

> **Интерактивті визуализация:** K-Means алгоритмімен тікелей жұмыс істеп көруге болады: 
> [https://www.naftaliharris.com/blog/visualizing-k-means-clustering/](https://www.naftaliharris.com/blog/visualizing-k-means-clustering/)

Математикалық тұрғыдан, K-Means `inertia` деп те аталатын **кластерішілік қашықтықтардың квадраттарының қосындысын (Within-Cluster Sum of Squares - WCSS)** минимизациялауға тырысады:
$$ \Phi_0 = \sum_{a=1}^{K} \sum_{i: a_i=a} ||x_i - \mu_a||^2 \rightarrow \min $$
мұндағы $\mu_a$ — бұл $a$ кластерінің центроиды.

#### K-Means Scikit-Learn-де

*   **Класс:** `sklearn.cluster.KMeans`
*   **Негізгі гиперпараметрлер:**
    *   `n_clusters`: Сол `K`, яғни кластерлер саны. **Ең маңызды параметр.**
    *   `init`: Центроидтарды инициализациялау әдісі.
        *   `'random'`: Деректер жинағынан `K` кездейсоқ нүктені бастапқы центроидтар ретінде таңдайды. Бұл әдіс өте жылдам, бірақ егер бастапқы центрлер бір-біріне жақын болып қалса, сәтсіз жинақталуға әкелуі мүмкін.
        *   `'k-means++'` (әдепкі бойынша): Бұл "ақылды" инициализация әдісі. Ол былай жұмыс істейді:
            1.  Бірінші центроид кездейсоқ таңдалады.
            2.  Әрбір келесі центроид қалған нүктелердің ішінен, таңдалып қойылған центроидтардың ең жақынына дейінгі **қашықтықтың квадратына** пропорционалды ықтималдықпен таңдалады.
            **Қарапайым сөзбен:** `k-means++` бастапқы центроидтарды мүмкіндігінше **бір-бірінен алыс** орналастыруға тырысады. Бұл алгоритмнің жылдам және сапалы жинақталу мүмкіндігін едәуір арттырады.
    *   `n_init`: Алгоритм әртүрлі кездейсоқ бастапқы центроидтармен қанша рет іске қосылатыны. Модель барлық іске қосулардың ішіндегі ең жақсы нәтижені (ең аз `inertia_` мәнімен) қайтарады.
        *   **`'auto'` (1.4 нұсқасынан бастап әдепкі бойынша):** Бұл ақылды баптау. Егер `init='k-means++'` болса, онда тек **бір** рет іске қосылады (себебі бұл әдіс детерминирленген). Егер `init='random'` болса, онда **10** рет іске қосылады. Бұл әдепкі мән көп жағдайда тамаша таңдау болып табылады.
    *   `random_state`: Кездейсоқ сандар генераторын инициализациялауға арналған сан. Нәтижелердің қайталануын қамтамасыз ету үшін қолданылады, себебі `k-means++` және `'random'` әдістерінде кездейсоқтық элементі бар.

#### `K`-ны қалай таңдауға болады? Шынтақ әдісі (Elbow Method)

K-Means-тің басты кемшілігі — біз `K`-ны алдын ала көрсетуіміз керек. **Шынтақ әдісі** — оны табуға арналған танымал эвристика:
1.  Біз K-Means-ті әртүрлі кластерлер саны үшін іске қосамыз (мысалы, `K=2`-ден `10`-ға дейін).
2.  Әрбір `K` үшін біз соңғы `WCSS` мәнін есептейміз (`model.inertia_` атрибуты).
3.  `WCSS`-тің `K`-ға тәуелділік графигін саламыз.
4.  Графиктен "шынтаққа" ұқсас нүктені іздейміз — қисықтың жазықтала бастайтын жері. Дәл осы оңтайлы `K`-ға кандидат болып табылады.

In [None]:
import os

# Әртүрлі кітапханаларды қамту үшін бірнеше орта айнымалыларын орнатамыз
# Осы операция үшін проблемалы параллелизмді кепілді түрде өшіру үшін '1' мәнін орнатамыз
os.environ['OMP_NUM_THREADS'] = '1'
os.environ['MKL_NUM_THREADS'] = '1'
os.environ['OPENBLAS_NUM_THREADS'] = '1'
os.environ['VECLIB_MAXIMUM_THREADS'] = '1'
os.environ['NUMEXPR_NUM_THREADS'] = '1'

# Енді қалғандарын импорттаймыз
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_blobs
from sklearn.cluster import KMeans

In [None]:
# Деректерді генерациялаймыз
X, y = make_blobs(n_samples=500, centers=4, random_state=42, cluster_std=1.0)

ssd = []
k_range = range(1, 11)
for k in k_range:
    model = KMeans(n_clusters=k, random_state=42, n_init=10)
    model.fit(X)
    ssd.append(model.inertia_)

# График сызамыз
plt.figure(figsize=(8,6))
plt.plot(k_range, ssd, 'o-')
plt.xlabel("Кластерлер саны (K)")
plt.ylabel("Квадраттық қашықтықтар қосындысы (WCSS)")
plt.title("K-Means үшін шынтақ әдісі")
plt.xticks(k_range)
plt.grid(True)
plt.show()

### Оңтайлы K мәнімен нәтижені визуализациялау

"Шынтақ әдісі" графигінен біз кластерлердің оңтайлы саны K=4 екенін көреміз.
Енді осы мәнмен соңғы модельді оқытып, нәтижесін көрейік.

In [None]:
# 1. K=4 мәнімен соңғы модельді оқытамыз
final_model = KMeans(n_clusters=4, random_state=42, n_init=10)
labels = final_model.fit_predict(X)

# Кластер белгілері — бұл әр нүктеге кластер нөмірі (0-ден 3-ке дейін) тағайындалған массив
print("Алғашқы 10 нүкте үшін кластер белгілерінің мысалдары:")
print(labels[:10])

# 2. Кластерлерді визуализациялаймыз
plt.figure(figsize=(10, 7))

# Нүктелерді кластер белгілеріне сәйкес бояп, сызамыз
sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='viridis', s=60)

# Кластер центрлерін жақсы көрінуі үшін бөлек сызамыз
centers = final_model.cluster_centers_
plt.scatter(centers[:, 0], centers[:, 1], c='red', s=200, alpha=0.8, marker='X', label='Центроидтар')

plt.title("K-Means кластерлеу нәтижесі (K=4)")
plt.xlabel("Белгі 1")
plt.ylabel("Белгі 2")
plt.legend()
plt.show()

In [None]:
from scipy.cluster.hierarchy import dendrogram, linkage

# Алдымен байланыс матрицасын (linkage matrix) есептеу керек
linked = linkage(X, method='ward')

# Енді дендрограмманы саламыз
plt.figure(figsize=(12, 8))
dendrogram(linked,
            orientation='top',
            distance_sort='descending',
            show_leaf_counts=True)
plt.title('Иерархиялық кластерлеу дендрограммасы')
plt.ylabel('Уорд бойынша қашықтық')

# K таңдау үшін кесу сызығын қосамыз
plt.axhline(y=35, c='k', linestyle='--') 

plt.show()

Ең ұзын тік кесінділерді көретін жерде көлденең сызық жүргізіп, біз 4 сызықты қиып өтеміз, бұл да 4 кластердің бар екенін көрсетеді. Бұл - иерархиялық кластерлеу.

### 3-бөлім: Баламалы тәсіл — Иерархиялық кластерлеу

K-Means-тен басқа, қашықтыққа негізделген тағы бір танымал әдіс бар — **иерархиялық кластерлеу**. Оның басты ерекшелігі — ол деректерді жай ғана `K` кластерге бөлмейді, керісінше бір-біріне салынған кластерлердің тұтас \"ағашын\" құрады.

#### Интуициясы: Агломеративті тәсіл

Иерархиялық кластерлеудің ең көп таралған түрі — **агломеративті** (біріктіруші). Алгоритм "төменнен жоғарыға" қарай жұмыс істейді:
1.  **Бастамасы:** Әрбір дерек нүктесі жеке кластер болып саналады.
2.  **1-қадам:** Бір-біріне **ең жақын** екі кластер табылып, бір кластерге біріктіріледі.
3.  **2-қадам:** Қайтадан ең жақын екі кластер табылып, біріктіріледі.
4.  **Қайталау:** Процесс барлық нүктелер бір үлкен кластерге біріккенше қайталанады.

#### Иерархиялық кластерлеу Scikit-Learn және SciPy-да
*   **Класс:** `sklearn.cluster.AgglomerativeClustering`
*   **Негізгі гиперпараметрлер:**
    *   `n_clusters`: Нәтижесінде алғымыз келетін кластерлер саны (егер `distance_threshold=None` болса).
    *   `metric` (немесе `affinity`): Нүктелер арасындағы қашықтық метрикасы (`euclidean`, `manhattan`).
    *   `linkage`: **Ең маңызды параметр.** **Кластерлер арасындағы** қашықтықты өлшеу ережесі.

#### Әртүрлі `linkage` әдістері қалай жұмыс істейді?

Бізде екі кластер, $U$ және $V$ бар деп есептейік, және біз олардың арасындағы қашықтықты, $D(U, V)$, өлшегіміз келеді.

![linkage](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/linkage.png)

*   **`'single'` (Жақын көрші қашықтығы):**
    *   **Интуициясы:** Кластерлер арасындағы қашықтық — осы кластерлердегі **ең жақын екі** нүктенің арасындағы қашықтық. Бұл созылған, таспа тәрізді кластерлерді жақсы табатын "оптимистік" тәсіл.
    $$ D(U, V) = \min_{u \in U, v \in V} d(u, v) $$

*   **`'complete'` (Алыс көрші қашықтығы):**
    *   **Интуициясы:** Кластерлер арасындағы қашықтық — осы кластерлердегі **ең алыс екі** нүктенің арасындағы қашықтық. Бұл "пессимистік" тәсіл ықшам, шар тәрізді кластерлер құруға бейім.
    $$ D(U, V) = \max_{u \in U, v \in V} d(u, v) $$

*   **`'average'` (Топтық орташа қашықтық):**
    *   **Интуициясы:** Қашықтық — бір кластердегі нүктелер мен екінші кластердегі нүктелер арасындағы барлық мүмкін жұптық қашықтықтардың **арифметикалық ортасы**. Бұл `single` мен `complete` арасындағы ымыра.
    $$ D(U, V) = \frac{1}{|U| \cdot |V|} \sum_{u \in U} \sum_{v \in V} d(u, v) $$

*   **`'ward'` (Уорд әдісі):**
    *   **Интуициясы:** Бұл әдіс басқаша жұмыс істейді. Ол бірігуі **жалпы кластерішілік дисперсияның (WCSS) минималды артуына** әкелетін екі кластерді біріктіреді. Шын мәнінде, ол әр қадамда барлық мүмкін жаңа кластерлердің ішіндегі ең ықшамын жасайтын бірігуді таңдайды.
    *   Бұл әдіс шамамен бірдей өлшемдегі кластерлер құруға бейім және егер сіз сфералық кластерлер табамын деп күтсеңіз, жиі ең жақсы әдепкі таңдау болып табылады.

#### Визуализация: Дендрограмма

Осы біріктіру процесін `SciPy` кітапханасының көмегімен салуға ең ыңғайлы **дендрограмма** арқылы визуализациялауға болады.

**Дендрограмманы қалай оқу керек:**
*   **Тігінен** биіктік — бірігу болған қашықтық (таңдалған `linkage` әдісіне сәйкес) көрсетілген. Ұзын тік сызықтар бір-бірінен өте алыс кластерлердің біріккенін білдіреді.
*   **Дендрограмма** — оңтайлы `K`-ны таңдаудың тағы бір тәсілі. Біз ең ұзын тік сызықты қиып өтетін жерде көлденең кесу сызығын жүргізе аламыз. Қиылысулар саны ұсынылатын кластерлер саны болады.

#### Визуализация: Практикалық мысалдағы дендрограмма

Иерархиялық кластерлеу мен дендрограмманың қарапайым және көрнекі мысалда қалай жұмыс істейтінін көрейік. 12 адам және екі белгісі бар шағын деректер жинағын құрайық: "Күніне орташа жұмыс сағаты" және "Айлық табыс (мыңмен)". Интуитивті түрде біз 3 топты көреміз деп күтеміз: кеңсе қызметкерлері, студенттер және фрилансерлер.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.cluster.hierarchy import dendrogram, linkage
from sklearn.cluster import AgglomerativeClustering

# Көрнекі деректер жинағын құрамыз
X = np.array([
    # 1-топ: Кеңсе қызметкерлері (көп сағат, орташа табыс)
    [8, 150], [9, 160], [8.5, 140], [7.5, 155],
    # 2-топ: Студенттер (аз сағат, төмен табыс)
    [3, 40], [4, 50], [2.5, 35], [3.5, 45],
    # 3-топ: Фрилансерлер (икемді сағат, жоғары табыс)
    [5, 200], [6, 210], [4.5, 190], [5.5, 220]
])

# 1. Бастапқы деректерді визуализациялаймыз
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X[:,0], y=X[:,1], s=100)
plt.title('Бастапқы деректер: 12 адам')
plt.xlabel('Күніне жұмыс сағаты')
plt.ylabel('Табыс (мыңмен)')
plt.grid(True)
plt.show()

# 2. Дендрограмманы саламыз
# linkage байланыс матрицасын есептейді, 'ward' біріктіру кезінде дисперсияны минимизациялайды
linked = linkage(X, method='ward')

plt.figure(figsize=(12, 8))
dendrogram(linked,
            orientation='top',
            labels=[f"Нүкте {i}" for i in range(len(X))], # Нүктелерді белгілейміз
            distance_sort='descending',
            show_leaf_counts=True)

plt.title('Иерархиялық кластерлеу дендрограммасы')
plt.ylabel('Уорд бойынша қашықтық')
plt.axhline(y=100, c='k', linestyle='--') # Кесу сызығын қосамыз
plt.show()

# 3. K=3 мәнімен AgglomerativeClustering қолданамыз
agg_cluster = AgglomerativeClustering(n_clusters=3, linkage='ward')
labels = agg_cluster.fit_predict(X)

# 4. Кластерлеу нәтижесін визуализациялаймыз
plt.figure(figsize=(8, 6))
sns.scatterplot(x=X[:,0], y=X[:,1], hue=labels, palette='viridis', s=100)
plt.title('Иерархиялық кластерлеу нәтижесі (K=3)')
plt.xlabel('Күніне жұмыс сағаты')
plt.ylabel('Табыс (мыңмен)')
plt.grid(True)
plt.show()

**Нәтижелерді интерпретациялау:**

1.  **Бастапқы деректер:** Бірінші графикте біз 3 визуалды кластерді анық көреміз.
2.  **Дендрограмма:**
    *   **Төменгі деңгейлер:** Алгоритм алдымен әрбір топтың ішіндегі ең жақын нүктелерді біріктіреді (мысалы, ұқсас параметрлері бар екі студентті).
    *   **Орта деңгейлер:** Содан кейін ол осы шағын ішкі топтарды үш үлкен кластерге біріктіреді. Осы кластерлердің ішіндегі "көпірлердің" биіктігі салыстырмалы түрде шағын.
    *   **Жоғарғы деңгей:** Осы 3 үлкен кластерді біріктіру үшін алгоритмге өте үлкен қашықтыққа "секіруге" тура келеді (ұзын тік сызықтар).
3.  **K таңдау:** Ең ұзын тік сызық арқылы көлденең кесу сызығын (`y=100`) жүргізу арқылы біз дәл **3** тармақты қиып өтеміз. Бұл біздің кластерлердің оңтайлы саны — **үш** деген интуициямызды растайды.
4.  **Қорытынды кластерлеу:** Соңғы график `n_clusters=3` мәнімен `AgglomerativeClustering` есепті мінсіз орындап, біз күткен топтарды дәл анықтағанын көрсетеді.

### 4-бөлім: K-Means қай жерде сәтсіздікке ұшырайды?

K-Means өте тиімді, бірақ оның іргелі шектеуі бар: ол кластерлер **сфералық (дөңес) пішінге** ие және шамамен бірдей өлшемде деп болжайды. Ол күрделі пішіндегі кластерлерде сәтсіздікке ұшырайды.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_moons, make_circles
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler

# 1. Деректерді генерациялаймыз
# "Жарты айлар" деректер жинағы
X_moons, y_moons = make_moons(n_samples=500, noise=0.1, random_state=42)
# "Сақиналар" деректер жинағы
X_circles, y_circles = make_circles(n_samples=500, factor=0.5, noise=0.05, random_state=42)

# Деректерді масштабтаймыз, себебі K-Means қашықтыққа негізделген
X_moons_scaled = StandardScaler().fit_transform(X_moons)
X_circles_scaled = StandardScaler().fit_transform(X_circles)

# 2. Әрбір деректер жинағы үшін K-Means оқытамыз
# Екі жағдайда да 2 кластер болуы керек екенін білеміз, сондықтан n_clusters=2
kmeans_moons = KMeans(n_clusters=2, random_state=42, n_init=10)
kmeans_circles = KMeans(n_clusters=2, random_state=42, n_init=10)

# Кластер белгілерін аламыз
labels_moons = kmeans_moons.fit_predict(X_moons_scaled)
labels_circles = kmeans_circles.fit_predict(X_circles_scaled)

# 3. Нәтижелерді визуализациялаймыз
# Екі графикті қатар орналастыру үшін аймақ құрамыз
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# "Жарты айлар" үшін график
sns.scatterplot(ax=axes[0], x=X_moons[:,0], y=X_moons[:,1], hue=labels_moons, palette='viridis', s=50)
axes[0].set_title('K-Means-тің \"жарты айлардағы\" сәтсіз нәтижесі')
axes[0].set_xlabel('Белгі 1')
axes[0].set_ylabel('Белгі 2')


# "Сақиналар" үшін график
sns.scatterplot(ax=axes[1], x=X_circles[:,0], y=X_circles[:,1], hue=labels_circles, palette='viridis', s=50)
axes[1].set_title('K-Means-тің \"сақиналардағы\" сәтсіз нәтижесі')
axes[1].set_xlabel('Белгі 1')
axes[1].set_ylabel('Белгі 2')


plt.suptitle('K-Means шектеулері: сызықты емес пішіндегі кластерлер', fontsize=16)
plt.show()

### 5-бөлім: DBSCAN алгоритмі (Тығыздыққа негізделген кластерлеу)

DBSCAN мүлдем басқа тәсілді ұсынады. Ол центрлерді іздеудің орнына, **нүктелердің тығыз жиынтығын** іздейді.

> **Интерактивті визуализация:** DBSCAN алгоритмімен тікелей жұмыс істеп көруге болады: 
> [https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/](https://www.naftaliharris.com/blog/visualizing-dbscan-clustering/)

#### Негізгі ұғымдар мен гиперпараметрлер
DBSCAN екі гиперпараметрмен анықталады:
1.  **`eps` (эпсилон):** Көршілес аймақтың радиусы. Бұл біз көршілерді іздейтін қашықтық.
2.  **`min_samples`:** Нүктені "тығыздықтың өзегі" деп санау үшін `eps`-аймақтағы көршілердің минималды саны (нүктенің өзін қосқанда).

#### DBSCAN Scikit-Learn-де
*   **Класс:** `sklearn.cluster.DBSCAN`
*   **Негізгі гиперпараметрлер:** `eps` және `min_samples`.
  
Осы параметрлер негізінде барлық нүктелер үш түрге бөлінеді:

![dbscan](https://raw.githubusercontent.com/yuliya-sabirova/ml-course/main/figs/dbscan.png)

*   **Core Point (Негізгі нүкте):** `eps`-аймағында кемінде `min_samples` көршісі бар нүкте. Бұл кластердің "жүрегі".
*   **Border Point (Шекаралық нүкте):** Көршілері `min_samples`-тан аз, бірақ өзі қандай да бір негізгі нүктенің көршісі болып табылатын нүкте. Бұл кластердің "шеті".
*   **Noise (Шу/Шығарынды):** Негізгі де, шекаралық та емес нүкте. Ол сирек аймақта орналасқан.

#### Алгоритмнің қарапайым түсіндірмесі
1.  Кездейсоқ, әлі қаралмаған нүкте таңдалады.
2.  Егер ол **негізгі** болса, ол **жаңа кластерді** бастайды.
3.  Бұл кластер "өсе" бастайды: оның барлық көршілері осы кластерге қосылады. Егер көршілердің бірі де негізгі нүкте болса, оның да көршілері қосылады. Процесс кластер өсуін тоқтатқанша жалғасады.
4.  Егер нүкте **негізгі болмаса**, ол уақытша "шу" деп белгіленеді. Кейінірек ол басқа бір кластердің аймағына түсіп қалса, шекаралық болуы мүмкін.
5.  Процесс барлық нүктелер үшін қайталанады.

In [None]:
# K-Means нашар, ал DBSCAN жақсы жұмыс істейтін мысал
from sklearn.cluster import DBSCAN
from sklearn.datasets import make_moons

X_moons, y_moons = make_moons(n_samples=500, noise=0.1, random_state=42)
X_moons_scaled = StandardScaler().fit_transform(X_moons)

# Модельдер
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
dbscan = DBSCAN(eps=0.3)

# Болжамдар
labels_kmeans = kmeans.fit_predict(X_moons_scaled)
labels_dbscan = dbscan.fit_predict(X_moons_scaled)

# Визуализация
fig, axes = plt.subplots(1, 2, figsize=(14, 6))
sns.scatterplot(ax=axes[0], x=X_moons[:,0], y=X_moons[:,1], hue=labels_kmeans, palette='viridis')
axes[0].set_title('K-Means-тің сәтсіз нәтижесі')

sns.scatterplot(ax=axes[1], x=X_moons[:,0], y=X_moons[:,1], hue=labels_dbscan, palette='viridis')
axes[1].set_title('DBSCAN-ның сәтті нәтижесі')
plt.show()

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.datasets import make_circles  # make_moons-ты make_circles-ке ауыстырамыз
from sklearn.cluster import KMeans, DBSCAN
from sklearn.preprocessing import StandardScaler

# 1. Екі сақина түрінде деректерді генерациялаймыз
# factor=0.5 ішкі сақина сыртқысынан екі есе кіші болатынын білдіреді
X_circles, y_circles = make_circles(n_samples=500, noise=0.05, factor=0.5, random_state=42)

# Деректерді масштабтаймыз, бұл DBSCAN үшін маңызды, себебі eps - қашықтық өлшемі
X_circles_scaled = StandardScaler().fit_transform(X_circles)

# 2. Модельдерді инициализациялаймыз
# K-Means үшін кластерлер 2 болуы керек екенін білеміз
kmeans = KMeans(n_clusters=2, random_state=42, n_init=10)
# DBSCAN үшін eps-ті таңдаймыз. Ықшам сақиналар үшін ол жарты айларға қарағанда кішірек болуы керек.
dbscan = DBSCAN(eps=0.3)

# 3. Модельдерді оқытып, кластер белгілерін аламыз
labels_kmeans = kmeans.fit_predict(X_circles_scaled)
labels_dbscan = dbscan.fit_predict(X_circles_scaled)

# 4. Нәтижелерді визуализациялаймыз
fig, axes = plt.subplots(1, 2, figsize=(14, 6))

# K-Means үшін график
sns.scatterplot(ax=axes[0], x=X_circles[:,0], y=X_circles[:,1], hue=labels_kmeans, palette='viridis')
axes[0].set_title('K-Means-тің \"сақиналардағы\" сәтсіз нәтижесі')
axes[0].set_xlabel("Белгі 1")
axes[0].set_ylabel("Белгі 2")

# DBSCAN үшін график
sns.scatterplot(ax=axes[1], x=X_circles[:,0], y=X_circles[:,1], hue=labels_dbscan, palette='viridis')
axes[1].set_title('DBSCAN-ның \"сақиналардағы\" сәтті нәтижесі')
axes[1].set_xlabel("Белгі 1")
axes[1].set_ylabel("Белгі 2")

plt.suptitle('K-Means пен DBSCAN-ды сақина тәрізді деректерде салыстыру', fontsize=16)
plt.show()

### 6-бөлім: Кластерлерді интерпретациялау — қарапайым емес міндет

Кластерлеу алгоритмдері тек **кластер нөмірлерін** (0, 1, 2, ...) қайтаратынын түсіну маңызды. Олар бұл топтардың **не білдіретінін** айтпайды. Алынған кластерлерге бизнес-мағына беру — **кейінгі өңдеу** немесе **интерпретация** деп аталатын жеке және өте маңызды міндет.

**Негізгі тәсіл:**
1.  **Белгілерді қосу:** Алынған кластер белгілерін бастапқы, **масштабталмаған** DataFrame-ге қосу.
2.  **Кластерлерді профильдеу:** Әрбір кластер ішіндегі белгілердің орташа мәндерін және үлестірімдерін талдау үшін `groupby('cluster').mean()` немесе `.describe()` әдістерін пайдалану.
3.  **"Персоналар" құру:** Талдау негізінде әрбір кластерге мағыналы атау беру. Мысалы, егер біз интернет-дүкен клиенттерін кластерлесек, бізде мынадай топтар пайда болуы мүмкін:
    *   **0-кластер ("Адал VIP-клиенттер"):** Жоғары орташа чек, жоғары сатып алу жиілігі, үлкен `total_spent`.
    *   **1-кластер ("Жеңілдік аңшылары"):** Төмен орташа чек, тек сатылым кезеңіндегі сатып алулар.
    *   **2-кластер ("Жаңадан келгендер"):** Аз сатып алулар, төмен `total_spent`.

Бұл интерпретация математикалық нәтижені **бизнеске пайдалы құралға** айналдыруға мүмкіндік береді.

### 7-бөлім: Дәріс бойынша қорытындылар

1.  Біз **Мұғаліммен оқытудан** **Мұғалімсіз оқытуға** көштік, мұндағы басты міндет — белгілі бір белгіні болжау емес, деректердегі **жасырын құрылымды** табу.

2.  Біз центроидтар негізінде **сфералық кластерлерді** іздейтін жылдам және қарапайым алгоритм — **K-Means**-ті қарастырдық. Оның басты кемшілігі — **шынтақ әдісі** арқылы бағалауға болатын `K` кластерлер санын алдын ала көрсету қажеттілігі.

3.  Біз кластерлер санын анықтауға көмектесетін қуатты визуалды құрал — **Иерархиялық кластерлеу** мен **дендрограммаларға** қысқаша тоқталдық.

4.  Біз **тығыздыққа** негізделген **DBSCAN** алгоритмін зерттедік. Ол кластерлер санын алдын ала білуді қажет етпейді, **кез келген пішіндегі** кластерлерді таба алады және **шығарындыларды** автоматты түрде анықтайды.

5.  Басты қорытынды: **әмбебап "ең жақсы" кластерлеу алгоритмі жоқ**. Әдісті таңдау сіздің деректеріңіздің құрылымына және зерттеу мақсаттарына байланысты.