In [1]:
import numpy as np
import pandas as pd

## <span style="color:green">Задача</span>
Реализовать сеть <span style="color:red">Кохонена</span> из 4 нейронов для кластеризации данных,
ограничить эпохи до 6, и скорость обучения с 0.3 -> уменьшаем по 0.05

### <span style="color:orange">Небольшое пояснение</span>
Нейронная сеть <span style="color:red">Кохонена</span>, также известная как самоорганизующаяся карта (SOM, Self-Organizing Map) - является типом искусственной нейронной сети, созданной Тево Кохоненом в 1980-х годах. Этот вид сети используется для кластеризации и визуализации данных без учителя, что означает, что обучение происходит без предварительных меток или классов.

Сеть <span style="color:red">Кохонена</span> состоит из двух слоев: входного слоя и выходного слоя, где нейроны выходного слоя обычно организованы в двумерную сетку. В процессе обучения сеть адаптирует свои веса, исходя из входных данных, таким образом, формируя кластеры сходных объектов на выходном слое.

Основная идея обучения заключается в использовании конкурентного обучения. Когда входной вектор предъявляется сети, находится нейрон-победитель (best matching unit, BMU), который обладает весами, наиболее близкими к входному вектору. Затем веса этого нейрона и его соседей обновляются, чтобы стать более похожими на входной вектор. В результате сеть становится самоорганизующейся, где соседние нейроны выходного слоя представляют сходные данные.

В DataFrame:
0: пол студента (0 - женский, 1 - мужской)
1: наличие всех зачетов (0 - нет, 1 - да)

In [2]:
import PerceptronCLUST

In [3]:
X = pd.DataFrame({
    0: [0,0,1,0,1,1,1,0,0,0,1,1,0,1,0,1,0,1,0,0],
    1: [1,0,0,1,1,1,1,0,0,0,1,1,0,1,0,1,1,1,1,0],
    2: [60,60,60,85,65,60,55,55,55,60,85,60,55,80,55,60,75,85,80,55],
    3: [79,61,61,78,78,78,79,56,60,56,89,88,64,83,10,67,98,85,56,60],
    4: [60,30,30,72,60,77,56,50,21,30,85,76,0,62,3,57,86,81,50,30],
    5: [72,5,66,70,67,81,69,56,64,16,92,66,9,72,8,64,82,85,69,8],
    6: [63,17,58,85,65,60,72,60,50,17,85,60,50,72,50,50,85,72,50,60],
})
X

Unnamed: 0,0,1,2,3,4,5,6
0,0,1,60,79,60,72,63
1,0,0,60,61,30,5,17
2,1,0,60,61,30,66,58
3,0,1,85,78,72,70,85
4,1,1,65,78,60,67,65
5,1,1,60,78,77,81,60
6,1,1,55,79,56,69,72
7,0,0,55,56,50,56,60
8,0,0,55,60,21,64,50
9,0,0,60,56,30,16,17


После создания датасета, код выполняет нормализацию данных для всех столбцов, начиная со столбца с индексом 2 и до последнего столбца. Нормализация выполняется по формуле:

x_normalized = (x - min) / (max - min)

где x - исходное значение, min и max - минимальное и максимальное значения соответствующего столбца. Нормализация данных обычно выполняется перед обучением машинного обучения, чтобы улучшить процесс обучения и сделать его более эффективным.
Создается датасет и нормализуется, но не обучает модель и не выполняет кластеризацию.

In [4]:
for index in range(len(X.columns)-2):
    X[index+2] = X[index+2].apply(lambda x: (x - X[index+2].values.min()) / (X[i+2].values.max() - X[index+2].values.min()))

In [5]:
X

Unnamed: 0,0,1,2,3,4,5,6
0,0,1,0.166667,0.784091,0.697674,0.770115,0.676471
1,0,0,0.166667,0.579545,0.348837,0.0,0.0
2,1,0,0.166667,0.579545,0.348837,0.701149,0.602941
3,0,1,1.0,0.772727,0.837209,0.747126,1.0
4,1,1,0.333333,0.772727,0.697674,0.712644,0.705882
5,1,1,0.166667,0.772727,0.895349,0.873563,0.632353
6,1,1,0.0,0.784091,0.651163,0.735632,0.808824
7,0,0,0.0,0.522727,0.581395,0.586207,0.632353
8,0,0,0.0,0.568182,0.244186,0.678161,0.485294
9,0,0,0.166667,0.522727,0.348837,0.126437,0.0


----------------------------------------------------------------
**Проведем исследование**
Посмотрим на сколько кластеров обычно разбивает этот алгоритм при epochs=**(4, 6, 12)**

In [6]:
statistics = pd.DataFrame(columns=["Splitting", "Landmark samples"])
for i in range(50):  # epochs = 4
    perceptron = PerceptronCLUST.Percept(X, amount_of_features=len(X.columns))
    perceptron.transform_fit(epochs=4)
    statistics.loc[i] = [list(set(perceptron.clusters)), perceptron.clusters]
statistics["Amount of clusters"] = statistics.Splitting.str.len()
print("1:", statistics["Amount of clusters"].tolist().count(1),"\n2:", statistics["Amount of clusters"].tolist().count(2),"\n3:", statistics["Amount of clusters"].tolist().count(3))
statistics

1: 13 
2: 36 
3: 1


Unnamed: 0,Splitting,Landmark samples,Amount of clusters
0,"[1, 2]","[1, 2, 2, 1, 1, 1, 1, 2, 2, 2, 1, 1, 2, 1, 2, ...",2
1,"[1, 2, 3]","[2, 3, 1, 2, 1, 1, 1, 3, 3, 3, 1, 1, 3, 1, 3, ...",3
2,[3],"[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...",1
3,"[0, 2]","[0, 2, 2, 0, 0, 0, 0, 2, 2, 2, 0, 0, 2, 0, 2, ...",2
4,[2],"[2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, ...",1
5,"[1, 3]","[1, 3, 3, 1, 1, 1, 1, 3, 3, 3, 1, 1, 3, 1, 3, ...",2
6,"[0, 3]","[3, 0, 0, 3, 3, 3, 3, 0, 0, 0, 3, 3, 0, 3, 0, ...",2
7,"[2, 3]","[2, 3, 3, 2, 2, 2, 2, 3, 3, 3, 2, 2, 3, 2, 3, ...",2
8,"[2, 3]","[3, 2, 2, 3, 3, 3, 3, 2, 2, 2, 3, 3, 2, 3, 2, ...",2
9,"[1, 2]","[2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 2, 2, 1, 2, 1, ...",2


In [7]:
statistics = pd.DataFrame(columns=["Splitting", "Landmark samples"])
for i in range(50):  # epochs = 6
    perceptron = PerceptronCLUST.Percept(X, amount_of_features=len(X.columns))
    perceptron.transform_fit()
    statistics.loc[i] = [list(set(perceptron.clusters)), perceptron.clusters]
statistics["Amount of clusters"] = statistics.Splitting.str.len()
print("1:", statistics["Amount of clusters"].tolist().count(1),"\n2:", statistics["Amount of clusters"].tolist().count(2),"\n3:", statistics["Amount of clusters"].tolist().count(3))
statistics

1: 14 
2: 32 
3: 4


Unnamed: 0,Splitting,Landmark samples,Amount of clusters
0,"[0, 3]","[0, 3, 3, 0, 0, 0, 0, 3, 3, 3, 0, 0, 3, 0, 3, ...",2
1,"[0, 2]","[2, 0, 0, 2, 2, 2, 2, 0, 0, 0, 2, 2, 0, 2, 0, ...",2
2,"[0, 2]","[2, 0, 0, 2, 2, 2, 2, 0, 0, 0, 2, 2, 0, 2, 0, ...",2
3,[3],"[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...",1
4,[0],"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...",1
5,"[2, 3]","[2, 3, 3, 2, 2, 2, 2, 3, 3, 3, 2, 2, 3, 2, 3, ...",2
6,"[0, 2]","[0, 2, 2, 0, 0, 0, 0, 2, 2, 2, 0, 0, 2, 0, 2, ...",2
7,[3],"[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...",1
8,"[1, 2]","[1, 2, 2, 1, 1, 1, 1, 2, 2, 2, 1, 1, 2, 1, 2, ...",2
9,"[1, 2]","[2, 1, 1, 2, 2, 2, 2, 1, 1, 1, 2, 2, 1, 2, 1, ...",2


In [8]:
statistics = pd.DataFrame(columns=["Splitting", "Landmark samples"])
for i in range(50):  # epochs = 12
    perceptron = PerceptronCLUST.Percept(X, amount_of_features=len(X.columns))
    perceptron.transform_fit(epochs=12)
    statistics.loc[i] = [list(set(perceptron.clusters)), perceptron.clusters]
statistics["Amount of clusters"] = statistics.Splitting.str.len()
print("1:", statistics["Amount of clusters"].tolist().count(1),"\n2:", statistics["Amount of clusters"].tolist().count(2),"\n3:", statistics["Amount of clusters"].tolist().count(3))
statistics

1: 15 
2: 26 
3: 9


Unnamed: 0,Splitting,Landmark samples,Amount of clusters
0,"[0, 3]","[3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 0, 3, 0, ...",2
1,[2],"[2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, ...",1
2,"[1, 2]","[2, 2, 2, 1, 2, 2, 2, 2, 2, 2, 1, 2, 2, 1, 2, ...",2
3,[2],"[2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, ...",1
4,"[2, 3]","[2, 3, 3, 2, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, 3, ...",2
5,[0],"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...",1
6,[1],"[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, ...",1
7,[0],"[0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, ...",1
8,"[2, 3]","[3, 2, 3, 3, 3, 3, 3, 2, 2, 2, 3, 3, 2, 3, 2, ...",2
9,"[0, 2]","[2, 0, 2, 2, 2, 2, 2, 0, 0, 0, 2, 2, 0, 2, 0, ...",2


## Замечания:
- 4 эпохи => стабильное разбиение множества на 2 (иногда 1,3) кластера.
- 6 эпох => в силу того, что скорость обучения уменьшается каждую эпоху на 0.05, то к 6ой эпохе изменение весов равно нулю.
- 12 эпох => скорее всего сильно влияет аномальное распределение множеств, т.к. после 6ой эпохи скорость обучения < 0.