**MÓDULO 6 - INGENIERÍA DE CARACTERÍSTICAS**

---


**TEMA 1. PCA**

#### Instrucciones

1. Revisa la documentación relacionada con los datos que vamos a trabajar y has un breve resumen sobre las variables que tiene el conjunto de datos:

USArrests: https://www.rdocumentation.org/packages/datasets/versions/3.6.2/topics/USArrests

__Aquí va tu descripción__


2. Importa las paqueterías necesarias para hacer el análisis

In [2]:
# Tratamiento de datos(3 paqueterías: numpy, pandas, statsmodels.api)
# ==============================================================================
import numpy as np
import pandas as pd
import statsmodels.api as sm
# Preprocesado y modelado (3 paqueterías sklearn.decomposition para PCA, StandardScaler, scale)
# ==============================================================================
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import scale
# Configuración warnings
# ==============================================================================
import warnings
warnings.filterwarnings('ignore')

3. Lee los datos tal cuál en el ejercico anterior, sustituyendo "iris" por "USArrests" (3 sustituciones)

In [3]:
USArrests = sm.datasets.get_rdataset('USArrests')
datos = USArrests.data
datos.head()

Unnamed: 0_level_0,Murder,Assault,UrbanPop,Rape
rownames,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,13.2,236,58,21.2
Alaska,10.0,263,48,44.5
Arizona,8.1,294,80,31.0
Arkansas,8.8,190,50,19.5
California,9.0,276,91,40.6


4. Calcula la media y la desviación estándar de las variables

In [4]:
#Media
print('Media de cada variable')
datos.mean()

Media de cada variable


Unnamed: 0,0
Murder,7.788
Assault,170.76
UrbanPop,65.54
Rape,21.232


In [5]:
#Desviación estándar
print('Desviación estándar de cada variable')
datos.std()

Desviación estándar de cada variable


Unnamed: 0,0
Murder,4.35551
Assault,83.337661
UrbanPop,14.474763
Rape,9.366385


5. Estandariza tus variables

__¡Importante!__ A diferencia del conjunto de datos de Iris, en este conjunto de datos no tenemos una variable Y definida, por lo tanto, la transformación se hace a las 4 variables en el conjunto de datos y hacer una division entre Y y X no es necesario.

In [9]:
# Utiliza StandarScaler
escalar = StandardScaler()

In [10]:
#Calcula los datos escalados con .fit y .transform
datos_escalados = escalar.fit(datos)
datos_escalados = escalar.transform(datos)
datos_escalados

array([[ 1.25517927,  0.79078716, -0.52619514, -0.00345116],
       [ 0.51301858,  1.11805959, -1.22406668,  2.50942392],
       [ 0.07236067,  1.49381682,  1.00912225,  1.05346626],
       [ 0.23470832,  0.23321191, -1.08449238, -0.18679398],
       [ 0.28109336,  1.2756352 ,  1.77678094,  2.08881393],
       [ 0.02597562,  0.40290872,  0.86954794,  1.88390137],
       [-1.04088037, -0.73648418,  0.79976079, -1.09272319],
       [-0.43787481,  0.81502956,  0.45082502, -0.58583422],
       [ 1.76541475,  1.99078607,  1.00912225,  1.1505301 ],
       [ 2.22926518,  0.48775713, -0.38662083,  0.49265293],
       [-0.57702994, -1.51224105,  1.21848371, -0.11129987],
       [-1.20322802, -0.61527217, -0.80534376, -0.75839217],
       [ 0.60578867,  0.94836277,  1.21848371,  0.29852525],
       [-0.13637203, -0.70012057, -0.03768506, -0.0250209 ],
       [-1.29599811, -1.39102904, -0.5959823 , -1.07115345],
       [-0.41468229, -0.67587817,  0.03210209, -0.34856705],
       [ 0.44344101, -0.

6. Utiliza el modelo de PCA
*  ¿Cuántos componentes debemos de considerar y por qué?
*  Construye el modelo utilizando PCA de sklearn

__Aquí va tu respuesta a la primera pregunta__

In [11]:
#Utiliza PCA con n_components considerando tu pregunta anterior
pca_model = PCA(n_components = 4)

In [12]:
#Ajusta tu modelocon la función .fit y tus datos estandarizados
pca_model.fit(datos_escalados)

7. Extrae la matriz de cargas de tu modelo construido

In [13]:
#utiliza .components_
pca_model.components_

array([[ 0.53589947,  0.58318363,  0.27819087,  0.54343209],
       [-0.41818087, -0.1879856 ,  0.87280619,  0.16731864],
       [-0.34123273, -0.26814843, -0.37801579,  0.81777791],
       [-0.6492278 ,  0.74340748, -0.13387773, -0.08902432]])

In [15]:
#crea un dataframe más entendible
pd.DataFrame(
    data = pca_model.components_,
    columns = datos.columns,
    index = ['PC1', 'PC2', 'PC3', 'PC4']
)

Unnamed: 0,Murder,Assault,UrbanPop,Rape
PC1,0.535899,0.583184,0.278191,0.543432
PC2,-0.418181,-0.187986,0.872806,0.167319
PC3,-0.341233,-0.268148,-0.378016,0.817778
PC4,-0.649228,0.743407,-0.133878,-0.089024


8. Análisa el primer y segundo componente principal con respecto a sus cargas, ¿Qué información describe cada uno?

__Aquí va tu respuesta__

9. Calcula el porcentaje de varianza explicada acumula

In [16]:
# Utiliza .explained_variance_ratio_.cumsum()
pca_model.explained_variance_ratio_.cumsum()

array([0.62006039, 0.86750168, 0.95664248, 1.        ])

10. Determina cuántos componentes principales vas a considerar para crear tu nuevo conjunto de datos y ¿por qué?

__Aquí va tu respuesta__

11. Has la última conversión para poder tener tu nuevo conjunto de datos


*   Multiplicación de matriz de cargas por valores originales
*   Asignar nombres de componentes
*   Transponer la matriz para obtener resultado final


In [17]:
#utilizar el ejemplo de proyecciones
proyecciones = np.dot(pca_model.components_, scale(datos).T)
proyecciones = pd.DataFrame(proyecciones, index = ['PC1', 'PC2', 'PC3', 'PC4'])
proyecciones = proyecciones.transpose().set_index(datos.index)
proyecciones

Unnamed: 0_level_0,PC1,PC2,PC3,PC4
rownames,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Alabama,0.985566,-1.133392,-0.444269,-0.156267
Alaska,1.950138,-1.073213,2.040003,0.438583
Arizona,1.763164,0.745957,0.054781,0.834653
Arkansas,-0.14142,-1.119797,0.114574,0.182811
California,2.52398,1.542934,0.598557,0.341996
Colorado,1.514563,0.987555,1.095007,-0.001465
Connecticut,-1.358647,1.088928,-0.643258,0.118469
Delaware,0.047709,0.325359,-0.718633,0.881978
Florida,3.013042,-0.039229,-0.576829,0.096285
Georgia,1.639283,-1.278942,-0.34246,-1.076797


12. Guarda tu o tus conjuntos de datos finales en drive

*   Llama la paquetería necesaria
*   Crea la conexión
*   Guarda tu archivo en un csv en la carpeta de tu interés

In [18]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [19]:
pd.DataFrame(proyecciones).to_csv('/content/drive/MyDrive/Colab Notebooks/Data Science and AI/Quinta sesión/proyecciones.csv')

__¡EXCELENTE!__