# PCA vs Reducción de variables

Acabamos de ver el PCA como elemento par reducir las variables. Sin embargo, esto ya lo habíamos hecho antes. Ya habíamos visto unos métodos para reducir variables. ¿Por qué acabamos de dar otro método para... lo mismo?

Bueno, si has prestado atención en clase, te habrás dado cuenta de que no es exactamente lo mismo. PCA no te selecciona variables sino que te crea unas nuevas que maximicen la información del dataset original.

Veamos la diferencia con algún dataset de los que ya hemos visto en clase. En concreto, vamos a utilizar el dataset que hemos visto en el notebook principal: "comprar_alquilar.csv".

## Importa las librerías principales

Puedes ir rellenando este apartado a medida que vayas llamando a más y más librerías.

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

## Lee el fichero ``comprar_alquilar.csv``

In [3]:
df = pd.read_csv("comprar_alquilar.csv")
df

Unnamed: 0,ingresos,gastos_comunes,pago_coche,gastos_otros,ahorros,vivienda,estado_civil,hijos,trabajo,comprar
0,6000,1000,0,600,50000,400000,0,2,2,1
1,6745,944,123,429,43240,636897,1,3,6,0
2,6455,1033,98,795,57463,321779,2,1,8,1
3,7098,1278,15,254,54506,660933,0,0,3,0
4,6167,863,223,520,41512,348932,0,0,3,1
...,...,...,...,...,...,...,...,...,...,...
197,3831,690,352,488,10723,363120,0,0,2,0
198,3961,1030,270,475,21880,280421,2,3,8,0
199,3184,955,276,684,35565,388025,1,3,8,0
200,3334,867,369,652,19985,376892,1,2,5,0


## Empezamos la magia

Ahora que ya tenemos unos datos (conocidos) y viendo que sabemos lo que queremos (predecir la variable comprar), es hora de probar diferentes algoritmos para tratar de obtener el mejor modelo. Para ello, podemos utilizar todo lo que queramos. La idea es comparar el mejor modelo que tengamos con las versiones utilizando menos variables.

## Creando variables

Una vez ya tengas tu modelo con todas las variables originales, vamos a hacer un poco de ingeniería de datos y vamos a crearnos nuevas variables. Este paso es fundamental en la creación de modelos, pues no puede dar relaciones existentes en los datos pero que nuestros algoritmos no son capaces de detectar, como, por ejemplo, la media de gastos por hijo, o la ``bucketización`` de algunos datos (agupaciones en rangos).

Juega con estos conceptos y créate nuevas variables. Una vez tengas un número considerable de ellas (siempre que tengan sentido), utilízalas para obtener el mejor algoritmo posible. ¿Es mejor que el anterior?

## Acelerando las cosas

Si todo lo anterior ha ido bien (y no has hecho overfitting con tus modelos), deberías haber obtenido un modelo mejor que en el apartado anterior. Sin embargo, debido a la cantidad de variables nuevas que te has creado, y en función del algoritmo (o algoritmos) que hayas utilizado, puede que ya se nos haya hecho tarde. Sin embargo, para reducir el coste computacional, así como el overfittiing que podría causar el exceso de varaibles, tenemos a mano las técnicas de selección de variables.

Prueba a utilizar ambas y trata de obtener el mejor modelo que puedas. Para ello, utiliza los objetos ``SelectKBest`` y ``SelectFromModel``:

## Poniendo en práctica lo aprendido

Finalmente, y para comprobar que hemos entendido bien los conceptos de clase, prueba a utilizar un PCA para quedarte con menos variables, y resuelve:
1. ¿Qué ocurriría si utilizas el mismo número de variables que en el apartado anterior?
2. Volviendo al caso original, ¿cuántas variables son necesarias para explicar, al menos, el 90% de los datos originales? Implementa el modelo con esas variables, ¿qué resultado obtienes? ¿Cuánto se diferencia del original?
3. Prueba lo mismo con el mejor modelo del apartado con más variables y calcula el número de varaibles que puedes reducir manteniendo un score que podamos considerar bueno (aquí entra tu criterio con tu razonamiento).