# Метод главных компонент

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA # Метод главных компонент
from sklearn import preprocessing  # функция для предварительной обработки данных
import matplotlib.pyplot as plt  #импотируем подбиблиотеку и даем ей имя
import matplotlib    # для рисования
df = pd.read_csv('Labour.csv')

Основные переменные в датафрейме `df` (данные по бельгийским фирмам за 1996 г.)
- `capital`:капитал (в млн евро)
- `labour`: число сотрудников
- `output`: выпуск (в млн евро)
- `wage`: зарплата на одного сотрудника (в тыс евро)

In [None]:
df.head()

Нормализация данных

In [None]:
scaler=preprocessing.StandardScaler().fit(df)  # специфицируем стандартизацию
data_rescaled=scaler.transform(df)  # применяем эту стандарти 

## Выделение главных компонент
Выделим ГК и выведем 
- дисперсии главных компонент нормированные на сумму дисперсий всех компонент 
- накопленную сумму этих дисперсий

In [None]:
pca = PCA().fit(data_rescaled)
print(pca.explained_variance_ratio_)
print(np.cumsum(pca.explained_variance_ratio_) )

**Вывод**: первые две компоненты объясняются **>95% вариации**

Графический выбор числа ГК

In [None]:
plt.rcParams["figure.figsize"] = (12,6)

fig, ax = plt.subplots()
n=df.shape[1]
xi = np.arange(1, n+1, step=1)
y = np.cumsum(pca.explained_variance_ratio_)

plt.ylim(0.0,1.1)

plt.plot(xi, y, linestyle='--', color='b')
plt.xlabel('Number of Components')
plt.xticks(np.arange(0, 11, step=1)) #change from 0-based array index to 1-based human-readable label
plt.ylabel('Cumulative variance (%)')
plt.title('The number of components needed to explain variance')

plt.axhline(y=0.95, color='r', linestyle='-')
plt.text(0.5, 0.85, '95% cut-off threshold', color = 'red', fontsize=16)

ax.grid(axis='x')
plt.show()

Выделем первые две компоненты и визуализаируем в них данные

In [None]:
pca=PCA(n_components=2)
pca.fit(data_rescaled)
data_pca = pca.transform(data_rescaled)
df_pca = pd.DataFrame(data=data_pca, columns = ['principal component 1', 'principal component 2'])
df_pca

In [None]:
df_pca.plot.scatter('principal component 1', 'principal component 2')