В данной лабораторной работе нужно рассмотреть [метод главных компонент](http://www.machinelearning.ru/wiki/index.php?title=%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82) на наборе данных с [индексом Доу - Джонса](https://finance.yahoo.com/quote/%5EDJI/history/).

Метод главных компонент используется для снижения размерности данных с потеряй информации: чем больше компонент используется, тем больше информации они в себе содержат. В качестве меры информативности используется дисперсия.

Главные компоненты располагаются в порядке убывания объясняемой ими дисперсии.

Полезные материалы:
* [видеолекция](https://www.youtube.com/watch?v=NKmwnILrHD8) "Идея и суть метода главных компонент";
* [видеолекция](https://www.youtube.com/watch?v=WP2VLhAAM24) "Свойства главных компонент".

In [1]:
import pandas as pd
from sklearn.decomposition import PCA
from sklearn.preprocessing import Normalizer

In [2]:
data = pd.read_csv('dji.csv')
data = data.drop(columns=['Date'])
data.head()

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
0,1277.719971,1295.48999,1266.890015,1292.619995,1292.619995,13560000
1,1297.369995,1305.099976,1278.930054,1287.880005,1287.880005,16820000
2,1283.23999,1293.400024,1272.640015,1286.77002,1286.77002,14070000
3,1276.939941,1286.109985,1269.77002,1277.719971,1277.719971,10980000
4,1272.079956,1294.939941,1268.98999,1290.079956,1290.079956,11630000


Осуществим нормализацию данных, т. к. [PCA](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html) в scikit-learn не делает этого, из-за чего скорее всего будет выбрана не самая информативная переменная, а самая "шумная".

In [3]:
normed_data = Normalizer().fit_transform(data)

In [4]:
pca = PCA(n_components=2)
pca_data = pca.fit_transform(normed_data)
pca_data = pd.DataFrame(data=pca_data, columns=['1 Component', '2 Component'])
pca_data.head()

Unnamed: 0,1 Component,2 Component
0,-2.6e-05,-8.615469e-07
1,-6.6e-05,5.301774e-07
2,-3.4e-05,-1.790596e-07
3,2.2e-05,1.814805e-08
4,9e-06,-1.133985e-06


Смотрим, какую дисперсию объясняет каждая из компонент:

In [5]:
for index, value in enumerate(pca.explained_variance_):
    variance_ratio = pca.explained_variance_ratio_[index]
    print('{} component explain {:.3f} ({:.9f}%) of variance'.format(index + 1, value, variance_ratio))

1 component explain 0.000 (0.999953889%) of variance
2 component explain 0.000 (0.000029065%) of variance


Создадим датафрейм (по факту, представляет из себя матрицу факторных нагрузок) для наглядной визуализации "вклада" каждого признака в компоненты.

Значения в данной матрице &ndash; корреляция признаков с компонентой.

In [6]:
pd.DataFrame(data=pca.components_,columns=data.columns)

Unnamed: 0,Open,High,Low,Close,Adj Close,Volume
0,0.446981,0.449099,0.445207,0.447386,0.447386,-0.000433
1,0.708938,0.212015,0.029366,-0.475171,-0.475171,0.004442
