In [1]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA

<b>Метод главных компонент реализован в пакете scikit-learn в модуле decomposition в классе PCA. Основным параметром является количество компонент (n_components). Для обученного преобразования этот класс позволяет вычислять различные характеристики. Например, поле <i>explained_variance_ratio_</i> содержит процент дисперсии, который объясняет каждая компонента. Поле <i>components_</i> содержит информацию о том, какой вклад вносят признаки в компоненты. Чтобы применить обученное преобразование к данным, можно воспользоваться методом transform.</b>

<b>Для нахождения коэффициента корреляции Пирсона можно воспользоваться функцией corrcoef из пакета numpy.</b>

### Загрузите данные close_prices.csv. В этом файле приведены цены акций 30 компаний на закрытии торгов за каждый день периода.

In [15]:
data = pd.read_csv('close_prices.csv', index_col='date')

In [16]:
data.head()

Unnamed: 0_level_0,AXP,BA,CAT,CSCO,CVX,DD,DIS,GE,GS,HD,...,PFE,PG,T,TRV,UNH,UTX,V,VZ,WMT,XOM
date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
2013-09-23,76.440002,117.510002,85.029999,24.27,125.519997,59.409999,64.75,24.280001,165.25,75.910004,...,28.799999,79.279999,34.220001,86.379997,71.82,109.419998,196.240005,47.98,76.419998,87.75
2013-09-24,76.07,119.0,85.110001,24.139999,124.489998,59.319997,64.32,24.32,162.970001,76.040001,...,28.709999,78.620003,34.09,85.870003,72.32,110.0,193.339996,47.27,75.75,87.360001
2013-09-25,75.989998,118.510002,84.5,24.43,124.07,59.319997,64.449997,24.23,162.309998,75.519997,...,28.49,77.720001,34.049999,85.980003,71.980003,109.260002,191.559998,46.950001,74.650002,87.139999
2013-09-26,76.32,119.379997,84.199997,23.77,123.489998,59.509996,65.239998,24.25,162.289993,76.07,...,28.52,78.050003,34.23,85.830002,72.160004,109.660004,193.559998,47.669998,74.620003,87.07
2013-09-27,75.889999,118.739998,83.800003,23.33,122.639999,59.009995,65.190002,24.049999,159.850006,75.959999,...,28.879999,77.209999,33.98,85.410004,71.989998,109.360001,193.050003,47.0,74.360001,86.900002


### На загруженных данных обучите преобразование PCA с числом компоненты равным 10. Скольких компонент хватит, чтобы объяснить 90% дисперсии? 

In [36]:
pca = PCA(n_components=10)

In [37]:
pca.fit(data)

PCA(copy=True, iterated_power='auto', n_components=10, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

In [38]:
pca.explained_variance_ratio_

array([ 0.73897118,  0.11007169,  0.04995088,  0.0287492 ,  0.02215448,
        0.01931577,  0.00674853,  0.00614091,  0.00320594,  0.00305611])

In [39]:
answer1 = 0
temp = 0
for i in pca.explained_variance_ratio_:
    temp += i
    answer1 += 1
    if temp >= 0.9:
        break

In [40]:
with open('task1.txt', 'w') as f:
    f.write(str(answer1))

### Примените построенное преобразование к исходным данным и возьмите значения первой компоненты.

In [41]:
data_transform = pca.transform(data)

In [47]:
first_comp = np.array(list(map(lambda x: x[0], data_transform)))

### Загрузите информацию об индексе Доу-Джонса из файла djia_index.csv. Чему равна корреляция Пирсона между первой компонентой и индексом Доу-Джонса?

In [52]:
data_djia = pd.read_csv('djia_index.csv', index_col='date')

In [53]:
data_djia.head()

Unnamed: 0_level_0,^DJI
date,Unnamed: 1_level_1
2013-09-23,15401.379883
2013-09-24,15334.589844
2013-09-25,15273.259766
2013-09-26,15328.299805
2013-09-27,15258.240234


In [61]:
corr = np.corrcoef([data_djia['^DJI'], first_comp])[0][1]
corr

0.90965221930502382

In [62]:
with open('task2.txt', 'w') as f:
    f.write(str(corr))

### Какая компания имеет наибольший вес в первой компоненте? Укажите ее название с большой буквы.

In [68]:
comp_idx = np.argmax(pca.components_[0])
company = data.columns[comp_idx]

In [69]:
with open('task3.txt', 'w') as f:
    f.write(str(company))