# Задание.

#### Возьмите датасет с цветками iris’а (функция load_iris из библиотеки sklearn)
#### Оставьте два признака - sepal_length и sepal_width и целевую переменную - variety
#### Разделите данные на выборку для обучения и тестирования
#### Постройте модель LDA
#### Визуализируйте предсказания для тестовой выборки и центры классов
#### Отбросьте целевую переменную и оставьте только два признака - sepal_length и sepal_width
#### Подберите оптимальное число кластеров для алгоритма kmeans и визуализируйте полученную кластеризацию

In [None]:
from sklearn.datasets import load_iris
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from matplotlib import colors

In [None]:
iris = load_iris()
print(iris.DESCR)

In [None]:
iris

In [None]:
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df = df[['sepal length (cm)', 'sepal width (cm)']]
df['variety'] = iris['target']
df

In [None]:
# разделяем выборку на тренировочную и тестовую
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(df, iris.target, test_size=0.25)

In [None]:
iris.target

In [None]:
# импортируем LDA-функционал
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis

In [None]:
lda = LinearDiscriminantAnalysis()

In [None]:
# обучаем данные
lda.fit(X_train, y_train)

In [None]:
# делаем прогноз на тестовой выборке
lda.predict(X_test)

In [None]:
# смотрим разницу факта и прогноза
result = pd.DataFrame([y_test, lda.predict(X_test)]).T
result

In [None]:
# расчет точности - отношение верных прогнозов к общему количеству позиций
from sklearn.metrics import accuracy_score
accuracy_score(y_test, lda.predict(X_test))

In [None]:
# При каждом новом обучении даются разные результаты расчета точности от 0.72 до 0,86

In [None]:
cmap = colors.LinearSegmentedColormap(
    'red_blue_classes',
    {'red': [(0, 1, 1), (1, 0.7, 0.7)],
     'green': [(0, 0.7, 0.7), (1, 0.7, 0.7)],
     'blue': [(0, 0.7, 0.7), (1, 1, 1)]})
plt.cm.register_cmap(cmap=cmap)

In [None]:
# Визуализация тестовой выборки
plt.scatter(X_test['sepal length (cm)'], X_test['sepal width (cm)'], c=y_test)
plt.show()

In [None]:
y_pred = lda.predict(X_test)

In [None]:
# Визуализация предсказания для тестовой выборки
plt.scatter(X_test['sepal length (cm)'], X_test['sepal width (cm)'], c=y_pred)
plt.show()

In [None]:
da = LinearDiscriminantAnalysis()
lda.fit(X_test, y_pred)

In [None]:
# центры классов
lda.means_

In [None]:
# Визуализация предсказания для тестовой выборки и центры классов
plt.scatter(X_test['sepal length (cm)'], X_test['sepal width (cm)'], c=y_pred)
plt.scatter(lda.means_[:, 0], lda.means_[:, 1], c='r', s=150, marker='*')

In [None]:
# Отбрасываем целевую переменную из df
df2 = df[['sepal length (cm)', 'sepal width (cm)']]
df2

In [None]:
# Подбираем оптимальное число кластеров для алгоритма kmeans и визуализируем полученную кластеризацию

In [None]:
X = df2[['sepal length (cm)', 'sepal width (cm)']].to_numpy()
X

In [None]:
plt.scatter(X[:, 0], X[:, 1], cmap='autumn', s=60)

In [None]:
df2.plot(kind='scatter', x='sepal length (cm)', y='sepal width (cm)')

In [None]:
# приведем данные к единому масштабу
from sklearn.preprocessing import StandardScaler

In [None]:
scaler = StandardScaler()

In [None]:
# fit-transform сразу обучается и преобразует данные
X_scaled = scaler.fit_transform(X)
X_scaled

In [None]:
plt.scatter(X_scaled[:, 0], X_scaled[:, 1],cmap='autumn', s=60)

In [None]:
from sklearn.cluster import KMeans

In [None]:
# явно указываем количество кластеров
kmeans = KMeans(n_clusters=2)
# fit_predict обучается на данных и каждому объекту присваивает кластер
clusters = kmeans.fit_predict(X_scaled)
clusters

In [None]:
plt.scatter(X_scaled[:, 0], X_scaled[:, 1], cmap='autumn', c=clusters, s=60)

In [None]:
# строим график локтя

# создаем список для инерции
k_inertia = []
# задаем диапазон кластеров
ks = range(1, 20)

for k in ks:
    clf_kmeans = KMeans(n_clusters=k)
    clusters_kmeans = clf_kmeans.fit_predict(X_scaled)
    # добавляем инерцию каждой модели в список
    k_inertia.append(clf_kmeans.inertia_)

In [None]:
plt.plot(ks, k_inertia)
plt.plot(ks, k_inertia ,'ro')

# Иерархическая кластеризация

In [None]:
from scipy.spatial.distance import pdist
from scipy.cluster import hierarchy

In [None]:
# строим дендрограмму
distance_mat = pdist(X_scaled) # pdist посчитает нам матрицу попарных расстояний между точками
# Z = hierarchy.linkage(distance_mat) # linkage — реализация агломеративного алгоритма
Z = hierarchy.linkage(distance_mat, 'ward')
plt.figure(figsize=(20, 9))
dn = hierarchy.dendrogram(Z)