# Кластеризация и PCA

In [None]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA # Метод главных компонент
from sklearn.cluster import AgglomerativeClustering, KMeans
from sklearn.preprocessing import StandardScaler  # z-нормировка
# from sklearn.preprocessing import MinMaxScaler, RobustScaler # другие способы нормировки

# import seaborn as sns # 2D-визуализация
import plotly.express as px # 3D-визуализация

# import matplotlib.pyplot as plt

# Не показывать Warning
import warnings
warnings.simplefilter(action='ignore', category=Warning)

In [None]:
df = pd.read_csv('./datasets/Countries.csv')
# Удалим нечисловые переменные
X = df.drop(columns=['Страны'])
X.index = df['Страны']

## Нормирование данных

In [None]:
# Специфицируем метод нормировки
scaler = StandardScaler(with_mean=True, with_std=True)
# scaler = MinMaxScaler()
# scaler = RobustScaler()

X_norm = scaler.fit_transform(X)

## Выделение главных компонент

Выделим первые 4 главные компоненты

In [None]:
pc = PCA(n_components=4)

X_pca = pc.fit_transform(X_norm)

X_pca = pd.DataFrame(data=X_pca, columns = ['PC1', 'PC2', 'PC3', 'PC4'])

In [None]:
# Специфицируем процедуру
cluster = AgglomerativeClustering(n_clusters=3, metric='euclidean', linkage='ward', compute_full_tree=True)
# проводим кластеризацию
cluster.fit(X_pca)

print(cluster.labels_)

In [None]:
X['Cluster'] = np.astype(cluster.labels_, str)
X_pca['Cluster'] = np.astype(cluster.labels_, str)

In [None]:
# sns.scatterplot(data=X, x='ИРЧП', y='Население', hue='Cluster')
# plt.show()

In [None]:
# sns.scatterplot(data=X_pca, x='PC1', y='PC2', hue='Cluster')
# plt.show()

In [None]:
fig = px.scatter(X, x='ИРЧП', y='Население', color='Cluster', hover_name=X.index)
# fig.update_traces(marker_size=6)
fig.show()

In [None]:
fig = px.scatter(X_pca, x='PC1', y='PC2', color='Cluster', hover_name=X.index)
# fig.update_traces(marker_size=6)
fig.show()

In [None]:
fig = px.scatter_3d(X_pca, x='PC1', y='PC2', z='PC3', color='Cluster', hover_name=X.index)
fig.update_traces(marker_size=4)
fig.show()