# Análisis de Componentes Principales y Clustering

## 1.- Importe las librerías correspondientes junto con el conjunto de datos
* Necesitará el método `pd.read_excel` para poder ingerir los datos en formato `xlsx`.
* El argumento `skiprows` le permite indicarle al lector que salte las primeras `n` líneas del archivo a leer
* Recuerde definir una variable que sirva como semilla aleatoria!.

In [None]:
import pandas as pd
import numpy as np
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sn

seed = 1123

df = pd.read_excel('Residential-Building-Data-Set.xlsx', skiprows = 1)
df.head()

## 2.- Data Wrangling & Feature Engineering
1. Elimine las columnas `START QUARTER` y `COMPLETION QUARTER`, por ahora las ignoraremos para nuestro análisis.

Nuestro primero objetivo será realizar una transformación/extracción de las componentes principales de la matriz de datos, el objetivo de esto es encontrar aquellas componentes principales que permiten explicar un cierto porcentaje de la variación total de los datos.

2. Sabiendo que PCA en rigor solo debiese ser aplicado a variables numéricas de rango (recordar la diferencia entre variables ordinales y nominales), realice un split entrenamiento y test, apartando un conjunto de test correspondiente al 30% de la muestra. Considere que nuestra variable objetivo va a ser `COMPLETION YEAR`. Lo que haremos con el conjunto de train será pasarlo por la transformación PCA.
> * _Observación:_ En mi caso particular, creo que prefiero dejar la dimensión de `START YEAR` fuera de la transformación pues la considero una variable más que todo ordinal.
3. Antes de pasar el conjunto de datos, elimine todos los registros en los que `START YEAR` o `COMPLETION YEAR` es NaN.

4. Escale la matriz de datos con la que se entrenará la transformación. Recuerde: Nunca debemos entrenar la transformación con todos los datos del dataset, de lo contrario, estaríamos pasando información del conjunto de test al modelo.
> a. Instancie un objeto `StandarScaler` y entrenelo con el conjunto de entrenamiento
>
> b. Cree una nueva variable y asignele la transformación del conjunto de entrenamiento pasado por `StandarScaler`.
>
> c. Cree una nueva variable y asignele la transformación del conjunto de test pasado por `StandarScaler`.

5. Transforme la matriz de atributos mediante PCA, para esto, realice los siguientes pasos:
> a. Instancie un objeto `PCA` y entrenelo con la matriz de datos escalada __de entrenamiento__. Dentro de los argumentos del método, indique que requiere un número de componentes igual al $0.99$ de la variación total de los datos, además, indique `svd_solver = "full"`.
>
> b. Cree una nueva variable y asignele la transformación del conjunto de entrenamiento pasado por `PCA`.
>
> c. Cree una nueva variable y asignele la transformación del conjunto de test pasado por `PCA`.


In [None]:
df.drop(['START QUARTER', 'COMPLETION QUARTER'], inplace = True, axis = 1)

In [None]:
df.shape

In [None]:
df['START YEAR'].value_counts()

In [None]:
df.dropna(subset=['START YEAR', 'COMPLETION YEAR'], inplace = True)
df.shape

In [None]:
x_train_pre, x_test_pre, y_train, y_test = train_test_split(df.drop('COMPLETION YEAR', axis = 1),
                                                    df['COMPLETION YEAR'],
                                                    test_size = .3,
                                                    random_state = seed)


In [None]:
x_train_pre.shape

In [None]:
std_scaler = StandardScaler().fit(x_train_pre.loc[:, 'V-1':])

numeric_scaled_train = std_scaler.transform(x_train_pre.loc[:,'V-1':])

numeric_scaled_test = std_scaler.transform(x_test_pre.loc[:,'V-1':])


In [None]:
numeric_scaled_train.shape

In [None]:
pca_transform = PCA(n_components = .95, svd_solver='full').fit(numeric_scaled_train)

x_train = pd.DataFrame(pca_transform.transform(numeric_scaled_train))
x_train['START YEAR'] = np.array(x_train_pre['START YEAR'])

x_test = pd.DataFrame(pca_transform.transform(numeric_scaled_test))
x_test['START YEAR'] = np.array(x_test_pre['START YEAR'])

In [None]:
x_train

## 3.- Estudio de las componentes encontradas

1. Si decidió dejar la columna `START YEAR` fuera de la transformación, ahora agreguela como una nueva columna a las matrices de datos transformadas del punto anterior.

2. Ralice un gráfico de barras donde se muestre:
> a. En orden decreciente, la variación explicada por cada componente principal.
>
> b. La variación explicada acumulada a medida que se agregan componentes principales.

__Nota:__ Es normal que la curva de variación explicada no parta de 0.

Necesitará llamar a los argumentos `components_` y `explained_variance_`.


In [None]:
1- np.sum(pca_transform.explained_variance_ratio_[:3])

In [None]:
_,_ = plt.subplots(figsize= (15,10))
plt.bar(range(1, len(pca_transform.components_)+1),pca_transform.explained_variance_ratio_);
sn.despine()
plt.plot(range(1, len(pca_transform.components_)+1),pca_transform.explained_variance_ratio_, 'o-', color = 'tomato', label = 'Explained Variance');
plt.plot(range(1, len(pca_transform.components_)+1),np.cumsum(pca_transform.explained_variance_ratio_), 'o-', label = 'Total Explained Variance')
plt.axhline(.95)
plt.legend();

In [None]:
df_pca = pd.concat([x_train_pre.reset_index(drop = True), x_train.iloc[:,:-1].reset_index(drop = True)], axis = 1)
df_pca.sample(10)

In [None]:
df_pca.corr()[0].sort_values(ascending = False)[1:11]

In [None]:
import seaborn as sn

In [None]:
_,_ = plt.subplots(figsize = (10,20))
sn.barplot(y = df_pca.corr()[0].sort_values(ascending = False)[:150].index, x = np.abs(df_pca.corr()[0]).sort_values(ascending = False)[:150], orient = 'h')
sn.despine()
plt.axvline(0.8);
#plt.xticks(size = 10);

## 4.- Modelamiento
1. Realice una regresión lineal para poder predecir `COMPLETION YEAR`.
2. Reporte la cantidad de varianza explicada por el modelo ($R^2$).
3. Realice un dotplot entre `COMPLETION YEAR` y `START YEAR`, le hace sentido el valor que observó de varianza explicada?.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import r2_score


std2 = StandardScaler().fit(x_train)

x_train_reg = std2.transform(x_train)
x_test_reg = std2.transform(x_test)

In [None]:

lin_reg = LinearRegression().fit(x_train_reg, y_train)
lin_reg_preds = lin_reg.predict(x_test_reg)

In [None]:
r2_score(y_test, lin_reg_preds)

In [None]:
lin_reg.coef_

In [None]:
pd.DataFrame({'col_name':x_train.columns, 'coefficient':lin_reg.coef_})

In [None]:
plt.plot(df['START YEAR'], df['COMPLETION YEAR'], 'o');

In [None]:
df['COMPLETION YEAR'].corr(df['START YEAR'])