# Метод главных компонент

In [None]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA # Метод главных компонент
from sklearn.preprocessing import StandardScaler  # z-нормировка
# from sklearn.preprocessing import MinMaxScaler, RobustScaler # другие способы нормировки

import matplotlib.pyplot as plt # 2D-визуализация
import plotly.express as px # 3D-визуализация

In [None]:
df = pd.read_csv('./datasets/countries.csv')
df.head()

In [None]:
# Удалим нечисловые переменные
X = df.drop(columns=['Страны'])
X

## Нормирование данных

Основные методы нормировки в `scikit-learn`

|Методы|формула|класс в `scikit-learn`|
|-|-|-|
| z-нормировка | $(x_i-\bar{x})/s.d.(x)$ |`StandardScaler`|
| min-max- нормировка | $(x_i-x_{\min})/(x_{\max}-x_{\min})$ | `MinMaxScaler` |
| робастная нормировка | $(x_i-x_{med})/IQR$ | `RobustScaler` |

In [None]:
# Специфицируем метод нормировки
scaler = StandardScaler(with_mean=True, with_std=True)
# scaler = MinMaxScaler()
# scaler = RobustScaler()

X_norm = scaler.fit_transform(X)

## Выделение главных компонент
Выделим ГК, выведем и визуализируем
- дисперсии главных компонент нормированные на сумму дисперсий всех компонент 
- накопленную сумму этих дисперсий

In [None]:
pca = PCA()
pca.fit(X_norm)
print('Дисперсии главных компонент')
print(pca.explained_variance_ratio_)

In [None]:
plt.bar(np.arange(1, len(pca.explained_variance_ratio_)+1),  pca.explained_variance_ratio_)
plt.title('Нормированные дисперсии главных компонент')
plt.xlabel('PC')
plt.ylabel('%')
plt.show()

In [None]:
print('Накопленная дисперсия главных компонент')
print(np.cumsum(pca.explained_variance_ratio_) )

In [None]:
plt.bar(np.arange(1, len(pca.explained_variance_ratio_)+1), np.cumsum(pca.explained_variance_ratio_) )
plt.title('Накопленные дисперсии главных компонент')
plt.xlabel('PC')
plt.ylabel('%')
plt.show()

*Вывод*: первые три компоненты объясняют $\approx 70\%$ вариации

Используем `PCA` для выделения первых трёх компонент (параметр `n_components`) 

In [None]:
pca = PCA(n_components=3)
PC = pca.fit_transform(X_norm)
# Переведём в формат DataFrame
PC_df = pd.DataFrame(data=PC, columns = ['PC1', 'PC2', 'PC3'])
PC_df

Веса (координаты) для главных компонент в пространстве признаков

In [None]:
pca.components_.T

## Визуализация главных компонент

In [None]:
plt.scatter(data=PC_df, x='PC1', y='PC2')
plt.xlabel('PC1')
plt.ylabel('PC2')
plt.show()

In [None]:
fig = px.scatter_3d(PC_df, x='PC1', y='PC2', z='PC3', text=df['Страны'])
fig.update_traces(marker_size=3)
fig.show()