<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/didactica_ciencia_datos/blob/main/referentes/geron/part_1/c_2/c_2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table> 

## [Video de apoyo a la lectura de esta clase](https://www.youtube.com/watch?v=4JDqj1NT4Qk)

# Modelo de regresión para predicción de precio de vivienda

## Objetivo

* Construir un modelo de regresión para la predicción de precio de vivienda siguiendo la metodología de Aurelien Geron.

## Metodología de modelamiento para Machine Learning de Geron

1. Plantear, de manera justificada, la pregunta.
   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

2. Exploración inicial.
   * Indicar la fuente de dónde se toman los datos.
   * Hacer explícita la función objetivo.
   * Decir cuáles son los atributos (descripción breve de cada uno)
   * Practicar una primera exploración gráfica de los datos.

3. Preparar los datos para los algoritmos de aprendizaje.
   * Hacer separación inicial de datos para entrenar y para testear.
   * Explorar correlaciones lineales con la variable objetivo.
   * Eliminar de ser necesario atributos que no sean de mucha utilidad.
   * Limpiar datos y llenar datos faltantes.
   * Estandarizar los datos.
   * Crear funciones en Python de manera que se puedan replicar los procesos de transformación de datos en proyectos nuevos.

4. Entrenamiento y selección de modelo.
   * Instanciar varios modelos y entrenarlos sobre datos de entrenamiento preparados.
   * Medir el desempeño de varios modelos (comparativa, con la técnica de la validación cruzada).

5. Afinar el modelo.
   * Crear cuadrícula (de búsqueda) de hiperparámetros.
   * Seleccionar la combinación de hiperparámetros que consigue el mejor puntaje. (El mejor modelo).

6. Presentar la solución.
   * Mostrar el desempeño sobre los datos para testear.
   * (Opcional) Gráfico intuitivo para representar el modelo.

[Video de apoyo sobre presentación de la metodología para modelo de machine Learning](https://www.youtube.com/watch?v=blRXFU2KooI)

# Implementación del plan 

1. Plantear bien la pregunta.
   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

Tenemos un dataset con la siguiente configuración: $[X|y]$.  

$X = [x_{ij}] \in \mathbb{R}_{n,d}$.  
$X^{j}$: $j$ ésimo atributo.   
$X_{i}$: $i$ ésima fila o instancia ($i$ -ésimo distrito)  
$x_{ij}$: $ij$ ésima entrada de la matriz $X$.   
$y = [y_{i}] \in \mathbb{R}^{n}$: el vector de los valores promedios de vivienda.  
$y_{i}$ el valor promedio de vivienda en el $i$ ésimo distrito

Este es un problema de regresión porque lo que se trata es de predecir un valor o la función predictora de valor continuo o de valores en un intervalo de números reales. 

El tipo de regresión es lineal porque 

$$h_{w}(X_{i}) = y_{i} = w^{T}X_{i} = w \cdot X_{i} = w_{0} + w_{1}x_{i1} + \cdots + w_{d}x_{id} $$ 
$$ = \begin{pmatrix} w_{0} \\ w_{1} \\ \vdots \\ w_{d} \end{pmatrix} \cdot \begin{pmatrix} 1 \\ x_{i1} \\ \cdots \\ x_{id} \end{pmatrix} $$

donde $d$ es el número de atributos. 



# 2. Exploración inicial.

##  Indicar la fuente de dónde se toman los datos.

Su primera tarea es utilizar los datos del censo de California para construir un modelo de precios de viviendas en el estado.

Estos datos incluyen métricas como la población, el ingreso medio y el precio medio de la vivienda para cada grupo de bloques en California.

Los grupos de bloques son la unidad geográfica más pequeña para la que la Oficina del Censo de EE. UU. publica datos de muestra (un grupo de bloques suele tener una población de 600 a 3000 personas).

Los llamaremos “distritos” para abreviar.

Su modelo debe aprender de estos datos y poder predecir el precio medio de la vivienda en cualquier distrito, dadas todas las demás métricas.

# Hacer explícita la función objetivo.

$$ h:\mathbb{R}^{9} \to \mathbb{R} $$

$$ h(X_{n \times d}) = y $$

donde $X$ es una matriz alta (número de filas mucho mayor al número de columnas). 

$y$ es un vector de $\mathbb{R}^{m}$ cuyas entradas son los precios promedio de vivienda por distrito. 

$$ h(X_{i}) = y_{i} \in \mathbb{R}$$

## Decir cuáles son los atributos (descripción breve de cada uno)

Son nueve atributos o variables predictoras entre las que están:

* longitud
* latitud
* habitaciones
* dormitorios
* ingresos promedio
* proximidad al oceano
* antiguedad promedio de las viviendas en el distrito.
* Número de hogares
* población


## [Video de apoyo]()

## Practicar una primera exploración gráfica de los datos.

In [None]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 


In [None]:
v = pd.read_csv('vivienda.csv')  

In [None]:
v.head()

In [None]:
v.head(2) 

In [None]:
v.tail()

In [None]:
v.info()

Hay `20_640` instancias en el conjunto de datos, lo que significa que es bastante pequeño para los estándares de Machine Learning, pero es perfecto para comenzar. Tenga en cuenta que el atributo total_bedrooms solo tiene 20 433 valores no nulos, lo que significa que 207 distritos no tienen esta función. Tendremos que ocuparnos de esto más tarde.

Todos los atributos son numéricos, excepto el campo `ocean_proximity`. Su tipo es objeto, por lo que podría contener cualquier tipo de objeto de Python. Pero dado que cargó estos datos desde un archivo CSV, sabe que debe ser un atributo de texto.

Cuando miró las cinco filas superiores, probablemente notó que los valores en la columna ocean_proximity eran repetitivos, lo que significa que probablemente sea un atributo categórico. Puede averiguar qué categorías existen y cuántos distritos pertenecen a cada categoría usando el método `value_counts()`:

## Inferencias e interpretaciones de la sintesis obtenida con el método `.info()`

In [None]:
v.proximidad.value_counts().plot(kind = 'bar')

In [None]:
v.describe() 

In [None]:
import matplotlib.pyplot as plt

v.hist(figsize = (20,10))

plt.show() 

## Visualización de datos geográficos 


In [None]:
v.plot(kind = 'scatter', x = 'longitud', y = 'latitud', alpha = 0.8)

plt.show() 

In [None]:
v.plot(kind = 'scatter', x = 'longitud', y = 'latitud', alpha = 0.1) 

plt.show() 

In [None]:
v.plot(kind = 'scatter', x = 'longitud', y = 'latitud', alpha = 0.4, \
      s = v.población/100, label = 'Población', \
      c = 'precio', cmap = plt.get_cmap('jet'), colorbar = True, figsize = (12, 8))  

# s de size o tamaño del punto. 
plt.savefig('california_4D.jpg')

plt.show() 

# 3. Preparar los datos para los algoritmos de aprendizaje.

## Hacer separación inicial de datos para entrenar y para testear.

In [None]:
import numpy as np 
np.random.seed(42) 
# establecer una semilla aleatoria para hacer 
# reproducible la separación o muestreo aleatorio

def dividir_entrenamiento_testeo(datos, porcentaje_testeo):
    indices_reordenados = np.random.permutation(len(datos))
    tamaño_conjunto_testeo = int(len(datos)*porcentaje_testeo)
    indices_testeo = indices_reordenados[:tamaño_conjunto_testeo]
    indices_entrenamiento = indices_reordenados[tamaño_conjunto_testeo:]
    return datos.iloc[indices_entrenamiento], datos.iloc[indices_testeo]

In [None]:
v_train, v_test = dividir_entrenamiento_testeo(v, 0.2)

In [None]:
len(v_train), len(v_test) 

In [None]:
len(v_train)+ len(v_test) 

In [None]:
len(v_train)/len(v_test) 


# Separación del dataset en entrenamiento y testeo usando sklearn

In [None]:
from sklearn.model_selection import train_test_split

v_train, v_test = train_test_split(v, test_size = 0.2, random_state = 42)

De ahora en adelante se seguirá es procesando a los datos de entrenamiento

## Limpiar datos y llenar datos faltantes.

In [None]:
mediana  = v.dormitorios.median() 

In [None]:
mediana 

In [None]:
v.dormitorios.fillna(mediana)

In [None]:
len(pd.DataFrame(v.dormitorios.fillna(mediana)))

# Imputación de datos faltantes

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
imputado = SimpleImputer(strategy = 'median') 

In [None]:
v_num = v.drop(['proximidad'], axis = 1)

In [None]:
imputado.fit(v_num)

In [None]:
X = imputado.fit_transform(v_num) 

In [None]:
v_num_imputado = pd.DataFrame(X,\
                     columns = v_num.columns, \
                     index = v_num.index) 

In [None]:
v_num_imputado.info() 

## Explorar correlaciones lineales con la variable objetivo.

<img src = 'https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/759px-Correlation_examples2.svg.png'>

In [None]:
v.corr() 

In [None]:
v.corr().precio.sort_values(ascending = False) 

In [None]:
from pandas.plotting import scatter_matrix 

# Eliminar de ser necesario atributos que no sean de mucha utilidad. Ingeniería de atributos.

# Experimentación con combinación de atributos 

Una última cosa que quizás desee hacer antes de preparar los datos para los algoritmos de Machine Learning es probar varias combinaciones de atributos.

Por ejemplo, el número total de habitaciones en un distrito no es muy útil si no sabe cuántos hogares hay. 

Lo que realmente desea es el número de habitaciones por hogar. 

Del mismo modo, el número total de dormitorios por sí solo no es muy útil: probablemente quieras compararlo con el número de habitaciones.

Y la población por hogar también parece una combinación de atributos interesante para observar.

Vamos a crear estos nuevos atributos:

In [None]:
v.head(1)

In [None]:
v["habitaciones_por_hogar"] = v["habitaciones"]/v["hogares"]

In [None]:
v["población_por_hogar"] = v["población"]/v["hogares"] 

In [None]:
v['dormitorios_por_habitacion'] = v.dormitorios/v.habitaciones

In [None]:
corr_matrix = v.corr()
corr_matrix['precio'].sort_values(ascending=False)

# Manipulación de datos categóricos

In [None]:
v_cat = v[['proximidad']] 
# Recuerde que la clase OrdinalEncoder exige que el atributo categórico se entregue 
#en la forma de arreglo 2D

In [None]:
v_cat.value_counts()

In [None]:
from sklearn.preprocessing  import OrdinalEncoder 

In [None]:
ordinal_encoder = OrdinalEncoder()

In [None]:
v_cat_codificado = ordinal_encoder.fit_transform(v_cat) 

In [None]:
v_cat_codificado[:10] 

# Transformadores personalizados

Aunque Scikit-Learn proporciona muchos transformadores útiles, deberá escribir los suyos propios para tareas como operaciones de limpieza personalizadas o combinación de atributos específicos.

Querrá que su transformador funcione a la perfección con las funcionalidades de Scikit-Learn (como las canalizaciones), y dado que Scikit-Learn se basa en la tipificación pato (no en la herencia), todo lo que necesita hacer es crear una clase e implementar tres métodos:  

* `fit()` (retornando a sí mismo),
* `transform()`, y
* `fit_transform()`.

Puede obtener el último de forma gratuita simplemente agregando `TransformerMixin` como clase base.

Si agrega `BaseEstimator` como clase base (y evita `*args` y `**kargs` en su constructor), también obtendrá dos métodos adicionales (`get_params()` y `set_params()`) que ser útil para el ajuste automático de hiperparámetros.

Por ejemplo, aquí hay una pequeña clase de transformador que agrega los atributos combinados que discutimos anteriormente:

In [None]:
from sklearn.base import BaseEstimator, TransformerMixin

In [None]:
rooms_ix, bedrooms_ix, population_ix, households_ix = 3, 4, 5, 6

In [None]:
class CombinedAttributesAdder(BaseEstimator, TransformerMixin):
    def __init__(self, add_bedrooms_per_room = True): # no *args or **kargs
         self.add_bedrooms_per_room = add_bedrooms_per_room
    def fit(self, X, y=None):
        return self               # nothing else to do
    def transform(self, X, y=None):
        rooms_per_household = X[:, rooms_ix] / X[:, households_ix]
        population_per_household = X[:, population_ix] / X[:, households_ix]
        if self.add_bedrooms_per_room:
            bedrooms_per_room = X[:, bedrooms_ix] / X[:, rooms_ix]
            return np.c_[X, rooms_per_household, population_per_household, bedrooms_per_room]
        else:
            return np.c_[X, rooms_per_household, population_per_household]

In [None]:
attr_adder = CombinedAttributesAdder(add_bedrooms_per_room=False)

In [None]:
v_extra_attribs = attr_adder.transform(v_train.values)

In [None]:
v_extra_attribs_df = pd.DataFrame(v_extra_attribs, \
                                  columns = list(v_train.columns) + ['habitaciones_por_hogar', 'población_por_hogar'],\
                                 index = v_train.index)

In [None]:
v_extra_attribs_df

En este ejemplo, el transformador tiene un hiperparámetro, `add_bedrooms_per_room`, establecido en True de forma predeterminada (a menudo es útil proporcionar valores predeterminados sensibles).

Este hiperparámetro le permitirá averiguar fácilmente si agregar este atributo ayuda o no a los algoritmos de Machine Learning.

More generally, you can add a hyperparameter to gate any data preparation step that you are not 100% sure about. 

The more you automate these data preparation steps, the more combinations you can automatically try out, making it much more likely that you will find a great combination (and saving you a lot of time).

# Feature Scaling

One of the most important transformations you need to apply to your data is feature scaling. 

With few exceptions, Machine Learning algorithms don’t perform well when the input numerical attributes have very different scales.

This is the case for the housing data: the total number of rooms ranges from about 6 to 39,320, while the median incomes only range from 0 to 15. 

Note that scaling the target values is generally not required.

There are two common ways to get all attributes to have the same scale: min-max scaling and standardization.

Min-max scaling (many people call this normalization) is the simplest: values are shifted and rescaled so that they end up ranging from 0 to 1. 

We do this by subtracting the min value and dividing by the max minus the min. 

Scikit-Learn provides a transformer called MinMaxScaler for this. 

It has a feature_range hyperparameter that lets you change the range if, for some reason, you don’t want 0–1.

Standardization is different: first it subtracts the mean value (so standardized values always have a zero mean), and then it divides by the standard deviation so that the resulting distribution has unit variance. Unlike min-max scaling,
standardization does not bound values to a specific range, which may be a
problem for some algorithms (e.g., neural networks often expect an input value
ranging from 0 to 1). However, standardization is much less affected by
outliers. For example, suppose a district had a median income equal to 100 (by
mistake). Min-max scaling would then crush all the other values from 0–15
down to 0–0.15, whereas standardization would not be much affected. Scikit-Learn provides a transformer called StandardScaler for standardization.


## WARNING

As with all the transformations, it is important to fit the scalers to the training data only, not to the full dataset (including the test set). Only then can you use them to transform the training set and the test set (and new data).

## Transformation Pipelines

As you can see, there are many data transformation steps that need to be executed in the right order. 

Fortunately, Scikit-Learn provides the Pipeline class to help with such sequences of transformations. 

Aquí hay una pequeña tubería para los atributos numéricos:

In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler

num_pipeline = Pipeline([
('imputer', SimpleImputer(strategy="median")),
('attribs_adder', CombinedAttributesAdder()),
('std_scaler', StandardScaler()),
])
v_num_tr = num_pipeline.fit_transform(v_num)

The Pipeline constructor takes a list of name/estimator pairs defining a sequence of steps. 

All but the last estimator must be transformers (i.e., they must have a `fit_transform()` method). 

The names can be anything you like (as long as they are unique and don’t contain double underscores, __); they will
come in handy later for hyperparameter tuning.

When you call the pipeline’s fit() method, it calls fit_transform() sequentially on all transformers, passing the output of each call as the parameter to the next call until it reaches the final estimator, for which it calls the fit()
method.

The pipeline exposes the same methods as the final estimator. 

In this example, the last estimator is a `StandardScaler`, which is a transformer, so the pipeline has a `transform()` method that applies all the transforms to the data in sequence (and of course also a `fit_transform()` method, which is the one we
used).

So far, we have handled the categorical columns and the numerical columns
separately. It would be more convenient to have a single transformer able to
handle all columns, applying the appropriate transformations to each column. In
version 0.20, Scikit-Learn introduced the ColumnTransformer for this purpose,
and the good news is that it works great with pandas DataFrames. Let’s use it to
apply all the transformations to the housing data:

In [None]:
from sklearn.compose import ColumnTransformer
num_attribs = list(v_train_num)
cat_attribs = ["ocean_proximity"]
full_pipeline = ColumnTransformer([
("num", num_pipeline, num_attribs),
("cat", OneHotEncoder(), cat_attribs),
])
v_prepared = full_pipeline.fit_transform(v_train)

First we import the ColumnTransformer class, next we get the list of numerical
column names and the list of categorical column names, and then we construct
a ColumnTransformer. The constructor requires a list of tuples, where each
tuple contains a name, a transformer, and a list of names (or indices) of
columns that the transformer should be applied to. In this example, we specify
that the numerical columns should be transformed using the num_pipeline that
we defined earlier, and the categorical columns should be transformed using a
OneHotEncoder. Finally, we apply this ColumnTransformer to the housing
data: it applies each transformer to the appropriate columns and concatenates the outputs along the second axis (the transformers must return the same
number of rows).

Note that the OneHotEncoder returns a sparse matrix, while the num_pipeline returns a dense matrix. 

When there is such a mix of sparse and dense matrices,
the ColumnTransformer estimates the density of the final matrix (i.e., the ratio
of nonzero cells), and it returns a sparse matrix if the density is lower than a
given threshold (by default, sparse_threshold=0.3). In this example, it
returns a dense matrix. And that’s it! We have a preprocessing pipeline that
takes the full housing data and applies the appropriate transformations to each
column.

## TIP

Instead of using a transformer, you can specify the string "drop" if you want the columns to be dropped, or you can specify "passthrough" if you want the columns to be left untouched.

By default, the remaining columns (i.e., the ones that were not listed) will be dropped, but
you can set the remainder hyperparameter to any transformer (or to "passthrough") if you
want these columns to be handled differently.

If you are using Scikit-Learn 0.19 or earlier, you can use a third-party library
such as sklearn-pandas, or you can roll out your own custom transformer to
get the same functionality as the ColumnTransformer. Alternatively, you can
use the FeatureUnion class, which can apply different transformers and
concatenate their outputs. But you cannot specify different columns for each
transformer; they all apply to the whole data. It is possible to work around this
limitation using a custom transformer for column selection (see the Jupyter
notebook for an example).

# Select and Train a Model

At last! You framed the problem, you got the data and explored it, you sampled a training set and a test set, and you wrote transformation pipelines to clean up and prepare your data for Machine Learning algorithms automatically. 

You are now ready to select and train a Machine Learning model

## Training and Evaluating on the Training Set

The good news is that thanks to all these previous steps, things are now going to be much simpler than you might think. Let’s first train a Linear Regression model, like we did in the previous chapter:

In [None]:
from sklearn.linear_model import LinearRegression
lin_reg = LinearRegression()
lin_reg.fit(v_train_prepared, v_labels_train)