In [None]:
! mkdir -p datasets
%cd datasets
! wget -nc https://raw.githubusercontent.com/pablonoya/zigzag-ml/master/datasets/housing.csv
%cd ..

# ¬øC√≥mo probamos un modelo?
La mejor manera de probar un modelo es **utilizarlo el mundo real**, mandarlo a enfrentar la vida prediciendo nuevos datos que no haya visto durante su entrenamiento üòÉ.

Obtener estos datos puede ser muy complicado, y si el modelo no rindiera bien tendremos que realizar ajustes como elegir diferentes *features* y volver a conseguir m√°s datos.

Pero esta sigue siendo la mejor manera de evaluar, vamos a enga√±ar al modelo dici√©ndole que **no tenemos todo el dataset** üòè.  
**Reservaremos una parte** que no utilizar√° durante el entrenamiento, el **test set** o conjunto de prueba.  
Por supuesto, el otro conjunto ser√° el **training set** o conjunto de entrenamiento.

![training_test_set](img/3.1_train_test_set.png)

# Separando training y test
Con frecuencia, se divide el dataset en **80% para training y 20% para test**, y particiones de 70-30 o 60-40 tambi√©n son habituales, dependiendo a la cantidad de ejemplos en nuestro dataset y qu√© tan preciso deseamos que sea.

Pero **antes debemos mezclarlo** como una baraja de naipes üÉè, ¬øpor qu√©? porque necesitamos una **muestra aleatoria que represente en general** a todo el conjunto de datos.  
Imaginemos que los datos fueron tomados por zonas y en orden, la √∫ltima parte podr√≠an ser las viviendas de una s√≥la zona, y esta podr√≠a **faltar en el entrenamiento**. Entonces nuestro modelo **no aprender√≠a** de ella.

Esta diversidad de datos es importante, si faltar√° cualquier tipo de ejemplos, el modelo simplemente no la conocer√≠a.

## Primero mezclamos
Sea n el tama√±o del dataset.  
Creamos un array de 0 a n-1 que contiene los **indices**, lo mezclamos al azar y reemplazamos **X** e **y** con los **indices desordenados**, es importante que sean los **mismos indices**, cada **X** mantiene su correspondiente **y**.

In [None]:
import pandas as pd
data_housing = pd.read_csv('./datasets/housing.csv')

X = data_housing['median_income']
y = data_housing['median_house_value']

# ¬øcu√°ntos datos tenemos?
n = len(X)
print(n)

In [None]:
import numpy as np
# array de 0 a n-1
indices = np.arange(n)

print(indices[:5], "...", indices[-3:])

In [None]:
# desordenamos
np.random.shuffle(indices)

print(indices[:5], "...")

# reemplazamos
X = X[indices]
y = y[indices]

Ejecuta de nuevo la celda anterior, para comprobar la aleatoriedad.

## Entonces dividimos  
Dividamos en 80-20, necesitamos el indice que marque d√≥nde se ubica este 80%  
Tanto **train set** como **test set** son t√©rminos que agrupan a las *features* y *labels*, por lo que compartir√°n √≠ndices en sus respectivos conjuntos.

In [None]:
# el √≠ndice debe ser entero
training_size = int(n * 0.8)

# seleccionamos el primer 80%
X_train = X[:training_size]
y_train = y[:training_size]

# y el 20% restante
X_test = X[training_size:]
y_test = y[training_size:]

print(f"N√∫mero de datos de entrenamiento: {len(X_train)}, y de prueba: {len(X_test)}")

**Veamos ambos conjuntos** con gr√°ficas de dispersi√≥n, como vimos en el ejemplo de la recta, podemos sobreponer gr√°ficas llam√°ndolas una despu√©s de otra.

In [None]:
import matplotlib.pyplot as plt

# primero entrenamiento pues es un conjunto m√°s grande
plt.scatter(X_train, y_train)
plt.scatter(X_test, y_test)

plt.title("Conjuntos de entrenamiento y prueba")

Ambos conjuntos son representativos, ¬øverdad?

## Probando, probando
Primero entrenamos **s√≥lo y √∫nicamente en el train set**.  

Luego predecimos y calculamos el **MSE** usando los datos no vistos, el **test set**.

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

#reshape again
X_train_2D = X_train.values.reshape(-1, 1)
X_test_2D = X_test.values.reshape(-1, 1)

# entrenamiento
model = LinearRegression()
model.fit(X_train_2D, y_train)

# prueba!
y_hat = model.predict(X_test_2D)
print(f"MSE (test set) {mean_squared_error(y_hat, y_test) :.2f}")

Esta cantidad es m√°s fiable, como el modelo no conoce estos datos, podemos decir que  nuestro modelo ha enfrentado la vida real üòÉ (siempre que tus datos sean reales üòÖ).

## Separar en entrenamiento y prueba
Sci-kit learn es bastante √∫til para realizar machine learning por su **colecci√≥n de funciones** y `train_test_split` nos permite realizar justo lo que acabamos de ver. Recibe como argumentos las *features*, *labels* y el tama√±o, en una escala de 0 a 1, del conjunto de prueba en `test_size`, o el de entrenamiento en `train_size`.

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test,y_train,y_test = train_test_split(X, y, test_size=0.2)
len(X_train)

## Ejercicios
Calcula el MSE en el conjunto de entrenamiento, ¬øeste sube es mejor o pero que en el de prueba?, ¬øpor qu√© crees que sea?

In [None]:
# lo mismo pero con otra variable


**¬°Importante!**  
No es bueno que tus datos aleatorios var√≠en tanto, inclu√≠r o no ciertos datos podr√≠a afectar a tus pruebas y hacer que los resultados no sean [reproducibles](https://es.wikipedia.org/wiki/Reproducibilidad_y_repetibilidad), esto es, que sean diferentes cada vez que los ejecutas.  
Puedes cuidarte de esto usando una  **implementando una** [semilla aleatoria](https://es.wikipedia.org/wiki/Semilla_aleatoria), crea una para este cap√≠tulo

In [None]:
# def√≠ne la semilla aparte


In [None]:
# y entonces realiza tus pruebas


## Mejoremos el modelo
Con las pruebas realizadas es natural que busquemos alguna manera de **mejorar los resultados**, y existe algo que puede ser mejor que elegir y combinar features: crear [nuevas features](4_Creando_features.ipynb).