# [Составление фондового индекса](https://www.coursera.org/learn/vvedenie-mashinnoe-obuchenie/programming/UzPbw/sostavlieniie-fondovogho-indieksa)

Метод главных компонент (principal component analysis, PCA) — это один из методов обучения без учителя, который позволяет сформировать новые признаки, являющиеся линейными комбинациями старых. При этом новые признаки строятся так, чтобы сохранить как можно больше дисперсии в данных. Иными словами, метод главных компонент понижает размерность данных оптимальным с точки зрения сохранения дисперсии способом.

Основным параметром метода главных компонент является количество новых признаков. Как и в большинстве методов машинного обучения, нет четких рекомендаций по поводу выбора значения этого параметров. Один из подходов — выбирать минимальное число компонент, при котором объясняется не менее определенной доли дисперсии (это означает, что в выборке сохраняется данная доля от исходной дисперсии).

В этом задании понадобится измерять схожесть двух наборов величин. Если имеется набор пар измерений (например, одна пара — предсказания двух классификаторов для одного и того же объекта), то охарактеризовать их зависимость друг от друга можно с помощью корреляции Пирсона. Она принимает значения от -1 до 1 и показывает, насколько данные величины линейно зависимы. Если корреляция равна -1 или 1, то величины линейно выражаются друг через друга. Если она равна нулю, то линейная зависимость между величинами отсутствует.

# 1. Загрузите данные close_prices.csv. В этом файле приведены цены акций 30 компаний на закрытии торгов за каждый день периода. 

In [2]:
import pandas as pd
import numpy as np

from sklearn.decomposition import PCA

data = pd.read_csv('./data/close_prices.csv')
data.head()

Unnamed: 0,date,AXP,BA,CAT,CSCO,CVX,DD,DIS,GE,GS,...,PFE,PG,T,TRV,UNH,UTX,V,VZ,WMT,XOM
0,2013-09-23,76.440002,117.510002,85.029999,24.27,125.519997,59.409999,64.75,24.280001,165.25,...,28.799999,79.279999,34.220001,86.379997,71.82,109.419998,196.240005,47.98,76.419998,87.75
1,2013-09-24,76.07,119.0,85.110001,24.139999,124.489998,59.319997,64.32,24.32,162.970001,...,28.709999,78.620003,34.09,85.870003,72.32,110.0,193.339996,47.27,75.75,87.360001
2,2013-09-25,75.989998,118.510002,84.5,24.43,124.07,59.319997,64.449997,24.23,162.309998,...,28.49,77.720001,34.049999,85.980003,71.980003,109.260002,191.559998,46.950001,74.650002,87.139999
3,2013-09-26,76.32,119.379997,84.199997,23.77,123.489998,59.509996,65.239998,24.25,162.289993,...,28.52,78.050003,34.23,85.830002,72.160004,109.660004,193.559998,47.669998,74.620003,87.07
4,2013-09-27,75.889999,118.739998,83.800003,23.33,122.639999,59.009995,65.190002,24.049999,159.850006,...,28.879999,77.209999,33.98,85.410004,71.989998,109.360001,193.050003,47.0,74.360001,86.900002


## 2. На загруженных данных обучите преобразование PCA с числом компоненты равным 10. Скольких компонент хватит, чтобы объяснить 90% дисперсии?

In [22]:
pca = PCA(n_components=10)
pca.fit(data.loc[:, 'AXP':])

PCA(copy=True, iterated_power='auto', n_components=10, random_state=None,
  svd_solver='auto', tol=0.0, whiten=False)

In [29]:
print(f"{pca.explained_variance_ratio_}\n\n{pca.explained_variance_ratio_.sum()}")

[0.73897118 0.11007169 0.04995088 0.0287492  0.02215448 0.01931577
 0.00674853 0.00614091 0.00320594 0.00305611]

0.988364692910826


In [46]:
_ = [(PCA(n_components=i).fit(data.loc[:, 'AXP':])).explained_variance_ratio_.sum() for i in range(1, 9)]
print(*enumerate(_, 1))

(1, 0.7389711827152156) (2, 0.8490428728139179) (3, 0.8989937555837079) (4, 0.9277429537836404) (5, 0.9498974326632793) (6, 0.969213199173712) (7, 0.9759617307369696) (8, 0.9821026409235678)


In [67]:
pca = PCA(.9)
pca.fit(data.loc[:, 'AXP':]).explained_variance_ratio_

array([0.73897118, 0.11007169, 0.04995088, 0.0287492 ])

# 3. Примените построенное преобразование к исходным данным и возьмите значения первой компоненты. 

In [50]:
pca = PCA(n_components=4)
U = pca.fit_transform(data.loc[:, 'AXP':])

# 4. Загрузите информацию об индексе Доу-Джонса из файла djia_index.csv. Чему равна корреляция Пирсона между первой компонентой и индексом Доу-Джонса?


In [47]:
djia_index = pd.read_csv('./data/djia_index.csv')
djia_index.head()

Unnamed: 0,date,^DJI
0,2013-09-23,15401.379883
1,2013-09-24,15334.589844
2,2013-09-25,15273.259766
3,2013-09-26,15328.299805
4,2013-09-27,15258.240234


In [56]:
np.corrcoef(U[:,0], djia_index['^DJI'])

array([[1.        , 0.90965222],
       [0.90965222, 1.        ]])

In [57]:
round(0.90965222, 2)

0.91

# 5. Какая компания имеет наибольший вес в первой компоненте? Укажите ее название с большой буквы.

In [75]:
pd.DataFrame(pca.components_, columns=data.columns[1:], index=['PC-1', 'PC-2', 'PC-3', 'PC-4'])

Unnamed: 0,AXP,BA,CAT,CSCO,CVX,DD,DIS,GE,GS,HD,...,PFE,PG,T,TRV,UNH,UTX,V,VZ,WMT,XOM
PC-1,0.016138,0.120645,-0.051661,0.050484,-0.12586,0.11409,0.233906,-0.006205,0.251227,0.288996,...,0.023092,0.077732,-0.007206,0.18948,0.321564,0.053683,0.579684,0.000109,0.087161,-0.042942
PC-2,-0.233026,0.138102,-0.564736,-0.029421,-0.297156,-0.070072,-0.241633,-0.022603,-0.105527,0.031603,...,0.040701,-0.018652,-0.035559,-0.07671,-0.054117,-0.00183,0.106388,-0.032192,0.050303,-0.257983
PC-3,-0.105902,-0.473845,-0.053749,0.007206,-0.048401,-0.066652,-0.045366,-0.031786,0.348309,0.142316,...,-0.070711,0.135307,-0.001104,0.091877,0.072012,-0.433768,-0.37535,0.022252,-0.012916,-0.164835
PC-4,-0.326936,0.445168,-0.230866,0.05592,0.124084,0.098464,0.219909,0.002888,-0.051801,0.306424,...,0.005825,-0.040714,0.051274,0.189204,0.297421,0.0215,-0.51071,0.055608,0.025815,-0.040676


In [77]:
np.argmax(pca.components_[0])

26

In [86]:
data.columns[27]

'V'