## Introducción al Machine Learning 
### (PCA) Análisis de Componentes Principales

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.decomposition import PCA

In [None]:
bankruptcy = pd.read_csv('../data/bankruptcy.csv', index_col='Company')

In [None]:
features = bankruptcy.loc[:, bankruptcy.columns != 'Bankrupt']
target =  bankruptcy.Bankrupt


___

Se crea el objeto con el numero de componentes que nos interese

In [None]:
pca = PCA(n_components=5)

In [None]:
pca = pca.fit(features)

In [None]:
# Las transformaciones lineales que representan las componentes
pd.DataFrame(pca.components_, columns=features.columns)

In [None]:
pc_labels = [f'pc{i+1}' for i in range(len(features.columns))]

In [None]:
var_exp = pd.Series(pca.explained_variance_ratio_,
                    index=pc_labels)

Mostramos el porcentaje de varianza explicada por cada componente principal

In [None]:
var_exp.plot.bar()

Al aplicar la transformación obtenemos una nueva representación a partir
de las componentes principales

In [None]:
feat_pca = pca.transform(features)
feat_pca_df = pd.DataFrame(feat_pca, columns=pc_labels)
feat_pca_df.head()

Confirmamos que en la nueva representación las características no están correladas

In [None]:
feat_pca_df.corr().round(3)

In [None]:
features.corr().round(3)

___

### Reducción de dimensiones 
En este caso seleccionamos solo 2 componentes para 
hacer una representación gráfica de los datos


In [None]:
pca2 = PCA(n_components=2)

In [None]:
pca_feat = pca2.fit_transform(features)

In [None]:
pca_feat_df = pd.DataFrame(pca_feat,
                           columns=['PC1','PC2'],
                           index=features.index)


In [None]:
pca_feat_df.head()

In [None]:
x_no = pca_feat_df[target == 'no']
x_yes = pca_feat_df[target == 'yes']

fig, ax = plt.subplots(figsize=(6,6))
ax.scatter(x_no.PC1, x_no.PC2)
ax.scatter(x_yes.PC1, x_yes.PC2)

ax.set_xlabel('PC1')
ax.set_ylabel('PC2')



____

### Ejercicio Propuesto
Extraer las 3 primeras componentes principales para utilizarlas como características
de una regresión logística.  Comparar el resultado con una versión entrenada con las 
características originales