# Введение

<p>Метод главных компонент (principal component analysis, PCA) — это один из методов обучения без учителя, который позволяет сформировать новые признаки, являющиеся линейными комбинациями старых.<br> При этом новые признаки строятся так, чтобы сохранить как можно больше дисперсии в данных.<br> Иными словами, метод главных компонент понижает размерность данных оптимальным с точки зрения сохранения дисперсии способом.</p>
<p>Основным параметром метода главных компонент является количество новых признаков.<br> Как и в большинстве методов машинного обучения, нет четких рекомендаций по поводу выбора значения этого параметров.<br> Один из подходов — выбирать минимальное число компонент, при котором объясняется не менее определенной доли дисперсии (это означает, что в выборке сохраняется данная доля от исходной дисперсии).</p>

# Данные 

<p>В этом задании мы будем работать с данными о стоимостях акций 30 крупнейших компаний США.<br> На основе этих данных можно оценить состояние экономики, например, с помощью индекса Доу-Джонса.<br> Со временем состав компаний, по которым строится индекс, меняется.<br> Для набора данных был взят период с 23.09.2013 по 18.03.2015, в котором набор компаний был фиксирован (подробнее почитать о составе можно по ссылке из материалов).</p>

## Реализация в sklearn


<p>Метод главных компонент реализован в пакете *scikit-learn* в модуле *decomposition* в классе PCA.<br> Основным параметром является количество компонент **(n_components)**.<br> Для обученного преобразования этот класс позволяет вычислять различные характеристики.<br>Например, поле **explained_variance_ratio_** содержит процент дисперсии, который объясняет каждая компонента.<br> Поле **components_** содержит информацию о том, какой вклад вносят признаки в компоненты.<br> Чтобы применить обученное преобразование к данным, можно воспользоваться методом *transform.*</p>

In [1]:
import pandas as pd
from sklearn.decomposition import PCA
from numpy import corrcoef

Загрузите данные close_prices.csv. В этом файле приведены цены акций 30 компаний на закрытии торгов за каждый
день периода.

In [2]:
df = pd.read_csv('close_prices.csv')
X = df.loc[:, 'AXP':]

На загруженных данных обучите преобразование PCA с числом компоненты равным 10.<br> Скольких компонент хватит,
чтобы объяснить 90% дисперсии?

In [3]:
pca = PCA(n_components=10)
pca.fit(X.values)

var = 0
n_var = 0
for v in pca.explained_variance_ratio_:
    n_var += 1
    var += v
    if var >= 0.9:
        break

print(n_var)

4


 Примените построенное преобразование к исходным данным и возьмите значения первой компоненты.

In [5]:
df_comp = pd.DataFrame(pca.transform(X))
comp0 = df_comp[0]

Загрузите информацию об индексе Доу-Джонса из файла djia_index.csv.<br> Чему равна корреляция Пирсона между первой
компонентой и индексом Доу-Джонса?

In [7]:
df2 = pd.read_csv('djia_index.csv')
dji = df2['^DJI']
corr = corrcoef(comp0, dji)
print(corr[1, 0])

0.9096522193050239


 Какая компания имеет наибольший вес в первой компоненте? Укажите ее название с большой буквы.

In [9]:
comp0_w = pd.Series(pca.components_[0])
comp0_w_top = comp0_w.sort_values(ascending=False).head(1).index[0]
company = X.columns[comp0_w_top]
print(company)

V
