<table align="left">
  <td>
    <a href="https://colab.research.google.com/github/marco-canas/intro-Machine-Learning/blob/main/classes/class_16_end_to_end_1/class_16_end_to_end_1.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>
  </td>
</table> 

## [Video de apoyo a la lectura de esta clase](https://www.youtube.com/watch?v=4JDqj1NT4Qk)

Pasos para creación del cuaderno interactivo.

1. Plantear bien la pregunta.
   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

2. Exploración inicial.
   * Indicar la fuente de dónde se toman los datos.
   * Hacer explícita la función objetivo.
   * Decir cuáles son los atributos (descripción breve de cada uno)
   * Practicar una primera exploración gráfica de los datos.

3. Preparar los datos para los algoritmos de aprendizaje.
   * Hacer separación inicial de datos para entrenar y para testear.
   * Limpiar datos y llenar datos faltantes.
   * Explorar correlaciones lineales con la variable objetivo.
   * Eliminar de ser necesario atributos que no sean de mucha utilidad.
   * Ingeniería de atributos.
   * Estandarizar los datos.
   * Crear funciones en Python de manera que se puedan replicar los procesos de transformación de datos en proyectos nuevos.

4. Entrenamiento y selección de modelo.
   * Instanciar varios modelos y entrenarlos sobre datos de entrenamiento preparados.
   * Medir el desempeño de varios modelos (comparativa, con la técnica de la validación cruzada).

5. Afinar el modelo.
   * Crear cuadrícula (de búsqueda) de hiperparámetros.
   * Seleccionar la combinación de hiperparámetros que consigue el mejor puntaje. (El mejor modelo).

6. Presentar la solución.
   * Mostrar el desempeño sobre los datos para testear.
   * (Opcional) Gráfico intuitivo para representar el modelo.

7. (Opcional) ¿Cómo se sacará provecho del modelo en otros proyectos?

[Video de apoyo sobre presentación de la metodología para modelo de machine Learning](https://www.youtube.com/watch?v=blRXFU2KooI)

# Implementación del plan 

1. Plantear bien la pregunta.
   * ¿Regresión o clasificación?
   * ¿Tipo de regresión y tipo de clasificación?

Tenemos un dataset con la siguiente configuración: $[X|y]$.  

$X = [x_{ij}] \in \mathbb{R}_{n,d}$.  
$X^{j}$: $j$ ésimo atributo.   
$X_{i}$: $i$ ésima fila o instancia ($i$ -ésimo distrito)  
$x_{ij}$: $ij$ ésima entrada de la matriz $X$.   
$y = [y_{i}] \in \mathbb{R}^{n}$: el vector de los valores promedios de vivienda.  
$y_{i}$ el valor promedio de vivienda en el $i$ ésimo distrito

Este es un problema de regresión porque lo que se trata es de predecir un valor o la función predictora de valor continuo o de valores en un intervalo de números reales. 

El tipo de regresión es lineal porque 

$$h_{w}(X_{i}) = y_{i} = w \cdot X_{i} = w_{0} + w_{1}x_{i1} + \cdots + w_{n}x_{id} = \begin{pmatrix} w_{0} \\ w_{1} \\ \vdots \\ w_{d} \end{pmatrix} \cdot \begin{pmatrix} 1 \\ x_{i1} \\ \cdots \\ x_{id} \end{pmatrix} $$

donde $d$ es el número de atributos. 



# 2. Exploración inicial.

##  Indicar la fuente de dónde se toman los datos.

Su primera tarea es utilizar los datos del censo de California para construir un modelo de precios de viviendas en el estado.

Estos datos incluyen métricas como la población, el ingreso medio y el precio medio de la vivienda para cada grupo de bloques en California.

Los grupos de bloques son la unidad geográfica más pequeña para la que la Oficina del Censo de EE. UU. publica datos de muestra (un grupo de bloques suele tener una población de 600 a 3000 personas).

Los llamaremos “distritos” para abreviar.

Su modelo debe aprender de estos datos y poder predecir el precio medio de la vivienda en cualquier distrito, dadas todas las demás métricas.

# Hacer explícita la función objetivo.

$$ h:\mathbb{R}^{9} \to \mathbb{R} $$

$$ h(X_{n \times m}) = y $$

donde $X$ es una matriz alta (número de filas nucho mayor al número de columnas). 

$y$ es un vector de $\mathbb{R}^{m}$ cuyas entradas son los valores promedio de vivienda por distrito. 

$$ h(X_{i}) = y_{i} \in \mathbb{R}$$

## Decir cuáles son los atributos (descripción breve de cada uno)

Son nueve atributos o variables predictoras entre las que están:

* longitud
* latitud
* habitaciones
* dormitorios
* ingresos promedio
* proximidad al oceano
* antiguedad promedio de las viviendas en el distrito.
* Número de hogares
* población


## [Video de apoyo]()

## Practicar una primera exploración gráfica de los datos.

In [None]:
import pandas as pd 
import numpy as np 
import matplotlib.pyplot as plt 


In [None]:
v = pd.read_csv('vivienda.csv')  

In [None]:
v.head() 

In [None]:
v.info()

In [None]:
20640 - 20433

In [None]:
v.proximidad.value_counts() 

In [None]:
v.describe() 

In [None]:
import matplotlib.pyplot as plt

v.hist(figsize = (20,10))

plt.show() 

## Visualización de datos geográficos 


In [None]:
v.plot(kind = 'scatter', x = 'longitud', y = 'latitud', alpha = 1)

plt.show() 

In [None]:
v.plot(kind = 'scatter', x = 'longitud', y = 'latitud', alpha = 0.1) 

plt.show() 

In [None]:
v.plot(kind = 'scatter', x = 'longitud', y = 'latitud', alpha = 0.4, \
      s = v.población/100, label = 'Población', \
      c = 'valor', cmap = plt.get_cmap('jet'), colorbar = True, figsize = (12, 8))  

# s de size o tamaño del punto. 

plt.show() 

# 3. Preparar los datos para los algoritmos de aprendizaje.

## Hacer separación inicial de datos para entrenar y para testear.

In [None]:
import numpy as np 
np.random.seed(42)

def dividir_entrenamiento_testeo(datos, porcentaje_testeo):
    indices_reordenados = np.random.permutation(len(datos))
    tamaño_conjunto_testeo = int(len(datos)*porcentaje_testeo)
    indices_testeo = indices_reordenados[:tamaño_conjunto_testeo]
    indices_entrenamiento = indices_reordenados[tamaño_conjunto_testeo:]
    return datos.iloc[indices_entrenamiento], datos.iloc[indices_testeo]

In [None]:
v_train, v_test = dividir_entrenamiento_testeo(v, 0.2)

In [None]:
len(v_train), len(v_test) 

In [None]:
len(v_train)+ len(v_test) 

In [None]:
len(v_train)/len(v_test) 


In [None]:
from sklearn.model_selection import train_test_split

v_train, v_test = train_test_split(v, test_size = 0.2, random_state = 42)

De ahora en adelante se seguirá es procesando a los datos de entrenamiento

In [None]:
v = v_train 

## Limpiar datos y llenar datos faltantes.

In [None]:
mediana  = v.dormitorios.median() 

In [None]:
mediana 

In [None]:
v.dormitorios.fillna(mediana)

In [None]:
len(pd.DataFrame(v.dormitorios.fillna(mediana)))

In [None]:
from sklearn.impute import SimpleImputer

In [None]:
imputado = SimpleImputer(strategy = 'median') 

In [None]:
v_num = v.drop(['proximidad'], axis = 1)

In [None]:
imputado.fit(v_num)

In [None]:
X = imputado.fit_transform(v_num) 

In [None]:
v_num_imputado = pd.DataFrame(X,\
                     columns = v_num.columns, \
                     index = v_num.index) 

In [None]:
v_num_imputado.info() 

## Explorar correlaciones lineales con la variable objetivo.

<img src = 'https://github.com/marco-canas/taca/blob/main/ref/geron/part_1/chap_2/4_visualize/figura_2_14_Standard_correlation_coefficient_of_various_datasets.PNG?raw=true'>

In [1]:
v.corr() 

NameError: name 'v' is not defined

In [None]:
v.corr().valor.sort_values(ascending = False) 

In [3]:
from pandas.plotting import scatter_matrix 

## Eliminar de ser necesario atributos que no sean de mucha utilidad. Ingeniería de atributos.

# Experimentación con combinación de atributos 

Una última cosa que quizás desee hacer antes de preparar los datos para los algoritmos de Machine Learning es probar varias combinaciones de atributos.

Por ejemplo, el número total de habitaciones en un distrito no es muy útil si no sabe cuántos hogares hay. Lo que realmente desea es el número de habitaciones por hogar. Del mismo modo, el número total de dormitorios por sí solo no es muy útil:
probablemente quieras compararlo con el número de habitaciones.

Y la población por hogar también parece una combinación de atributos interesante para observar.

Vamos a crear estos nuevos atributos:

In [None]:
v["salas_por_hogar"] = v["salas"]/v["hogares"]

In [None]:
v["habitaciones_por_sala"] = v["habitaciones"]/v["salas"]

In [None]:
v["población_por_hogar"]=v["población"]/v["hogares"] 

In [None]:
corr_matrix = v.corr()
corr_matrix['valor'].sort_values(ascending=False)

# Manipulación de datos categóricos

In [5]:
v_cat = v.proximidad 

NameError: name 'v' is not defined

In [4]:
v_cat.value_counts()

NameError: name 'v_cat' is not defined

In [8]:
from sklearn.preprocessing  import OrdinalEncoder 

In [9]:
ordinal_encoder = OrdinalEncoder()

In [10]:
v_cat_codificado = ordinal_encoder.fit_transform(v_cat) 

NameError: name 'v_cat' is not defined

In [11]:
v_cat_codificado[:10] 

NameError: name 'v_cat_codificado' is not defined

# Estandarizar los datos.
   

## Tiempos 

1. Clase 17: 
   * Construir en dataframe y sistetizar la información y visualizarla 
   * división en entrenamiento y testeo.
   * Establecer corralaciones y definir nuevos atributos.

2. Calse 18
   * imputar los datos faltantes
   * escalar los datos
   * entrenar el modelo lineal
   * medir su desempeño. 