# Primer modelo en Scikit Learn
En esta sesión, nos enfocaremos en uno de los aspectos más fascinantes y divertidos de la ciencia de datos: el desarrollo de modelos de machine learning. Utilizaremos una de las bibliotecas más populares y robustas en el ecosistema de Python, `scikit-learn`.

## ¿Qué es Machine Learning?

Machine learning (o aprendizaje automático o aprendizaje de máquina), es una rama de la inteligencia artificial que permite a las máquinas aprender de los datos y hacer predicciones o tomar decisiones sin ser programadas explícitamente para cada tarea. Esta capacidad de aprender y adaptarse es lo que hace que machine learning sea una herramienta increíblemente poderosa en una amplia variedad de aplicaciones, desde la detección de fraudes hasta el reconocimiento de voz y la personalización de recomendaciones.

## Herramientas y Librerías

Utilizaremos `scikit-learn`, una biblioteca de Python diseñada para simplificar la implementación de algoritmos de machine learning. Scikit-learn ofrece una amplia gama de herramientas para el preprocesamiento de datos, la selección de modelos, el entrenamiento, la evaluación y la optimización.

## Instalación de scikit-learn
Este repositorio ya cuenta con sckikit-learn en el archivo requirements.txt, por lo tanto, sólo debes jalar los últimos cambios del repositorio y correr un comando

~~~bash
git stash
git pull
source .venv/bin/activate
pip install -r requirements.txt
~~~

Si quisieras instalar scikit-learn en otro entorno virtual, lo puedes hacer con pip

~~~bash
pip install scikit-learn
~~~

## Introducción a modelos
Comenzaremos con una visión general de cómo funcionan los modelos de machine learning y cómo se utilizan. Esto puede parecer básico, pero no te preocupes, pronto avanzaremos a construir modelos más poderosos.

Imaginemos el siguiente escenario

Tu primo ha ganado millones de dólares especulando en bienes raíces. Te ha ofrecido convertirse en socio de negocios contigo debido a tu interés en la ciencia de datos. Él aportará el dinero y tú aportarás modelos que puedan predecir el valor de diversas casas.

Le preguntas a tu primo cómo ha predicho los valores de las propiedades en el pasado, y dice que es solo intuición. Pero al cuestionarlo más, revela que ha identificado patrones de precios a partir de las casas que ha visto en el pasado y utiliza esos patrones para hacer predicciones sobre nuevas casas que está considerando.

Machine learning funciona de la misma manera. Comenzaremos con un modelo llamado **Árbol de Decisión**. Existen modelos más sofisticados que ofrecen predicciones más precisas. Pero los árboles de decisión son fáciles de entender y son el bloque de construcción básico para algunos de los mejores modelos en ciencia de datos.

Para simplificar, comenzaremos con el árbol de decisión más sencillo posible.

![árbol de decisión](./img/tree1.png)

Divide las casas en solo dos categorías. El precio predicho para cualquier casa en consideración es el precio promedio histórico de las casas en la misma categoría.

Usamos datos para decidir cómo dividir las casas en dos grupos y luego nuevamente para determinar el precio predicho en cada grupo. Este paso de capturar patrones a partir de los datos se llama **ajuste o entrenamiento del modelo**. Los datos utilizados para ajustar el modelo se llaman **datos de entrenamiento**.


## Mejoremos el árbol de decisión
![árboles](./img/tree2.png)

El árbol de decisión de la izquierda (Árbol de decisión 1) probablemente tenga más sentido, porque captura la realidad de que las casas con más recámaras tienden a venderse a precios más altos. La mayor limitación de este modelo es que no captura la mayoría de los factores que afectan el precio de una casa, como el número de baños, el tamaño del lote, la ubicación, etc.

Puedes capturar más factores utilizando un árbol que tenga más "divisiones" o "splits". Decimos que estos árboles tienen mayor profundidad. Un árbol de decisión que también considere el tamaño total del lote de cada casa podría verse así:

![árboles](./img/tree3.png)


Predices el precio de cualquier casa siguiendo el árbol de decisión, siempre eligiendo el camino que corresponde a las características de esa casa. El precio predicho para la casa se encuentra en la parte inferior del árbol. El punto en la parte inferior donde hacemos una predicción se llama hoja.

Los splits y los valores en las hojas serán determinados por los datos, así que pasemos a revisar los datos con los que trabajaremos.

## Análisis exploratorio con pandas
Los datos se encuentran en `./data/melb_data.csv` 

Como ya sabes, el primer paso en cualquier proyecto de machine learning es familiarizarte con los datos. Utilizaremos Pandas para esto. 

In [None]:
import pandas as pd

Veremos datos sobre precios de casas en Melbourne, Australia.


Cargamos y exploramos los datos con los siguientes comandos:

In [None]:
# ruta del archivo
ruta_archivo = './data/melb_data.csv'

# leer el archivo csv a un dataframe
melbourne_data = pd.read_csv(ruta_archivo) 

# mostarr un resumen de los datos
melbourne_data.describe()

### Interpretación

`describe()` nos muestra 8 números para cada columna del dataset. El primer número (count) indica cuántas filas tienen valores no nulos.

Los valores faltantes surgen por muchas razones. Por ejemplo, el tamaño de la segunda recámara no se recopilaría al encuestar una casa de una sola recámara. 


Para interpretar los valores de min, 25%, 50%, 75% y max, imagina ordenar cada columna de menor a mayor valor. El primer valor (el más pequeño) es el min. Si avanzas un cuarto de camino a través de la lista, encontrarás un número que es mayor que el 25% de los valores y menor que el 75% de los valores. Ese es el valor del 25% ("percentil 25" o "segundo cuartil"). Los percentiles 50 y 75 se definen de manera análoga, y el max es el número más grande.

- Mínimo (min): El valor más bajo del conjunto de datos.
- Primer cuartil (Q1 o 25%): También conocido como el percentil 25, es el valor debajo del cual se encuentra el 25% de los datos.
- Mediana (Q2 o 50%): También conocido como el percentil 50, es el valor que divide al conjunto de datos en dos partes iguales. La mitad de los datos son menores que este valor y la otra mitad es mayor.
- Tercer cuartil (Q3 o 75%): También conocido como el percentil 75, es el valor debajo del cual se encuentra el 75% de los datos.
- Máximo (max): El valor más alto del conjunto de datos.


## Modelado
El dataset tiene demasiadas variables para entenderlas todas de una vez, o incluso para imprimirlas de manera ordenada. ¿Cómo podemos reducir la cantidad de datos a algo que podamos comprender?

Comenzaremos seleccionando algunas variables utilizando nuestra intuición. 

Para elegir variables/columnas, necesitaremos ver una lista de todas las columnas en el conjunto de datos. Esto se hace con la propiedad columns del DataFrame.

In [None]:
melbourne_data.columns

Los datos tienen algunos valores faltantes. Tomaremos un camino simple por ahora y eliminaremos las casas de nuestro conjunto de datos.

El argumento axis en la función dropna especifica si se deben eliminar filas o columnas que contienen valores faltantes.

axis=0: Elimina todas las filas que tienen al menos un valor faltante. En este contexto, 0 representa las filas. Es la opción predeterminada.
axis=1: Elimina todas las columnas que tienen al menos un valor faltante. En este contexto, 1 representa las columnas.

In [None]:
# dropna elimina los valores faltantes (piensa en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)

## Selección de la variable objetivo (target)

**Queremos predecir el precio**

Podemos extraer una variable utilizando la notación de punto. Esta columna individual se almacena en una Serie, que es, en términos generales, como un DataFrame con una sola columna de datos.

Utilizaremos la notación de punto para seleccionar la columna que queremos predecir. Por convención, el objetivo de predicción se llama `y`. Así que el código que necesitamos para guardar los precios de las casas en los datos de Melbourne es:

In [None]:
y = melbourne_data.Price

In [None]:
y.head()

## Eligiendo features
Las columnas que se ingresan en nuestro modelo (y luego se usan para hacer predicciones) se llaman "características" o "features". En nuestro caso, esas serían las columnas utilizadas para determinar el precio de la casa. A veces, utilizarás todas las columnas (excepto el target) como features. Otras veces, será mejor usar menos features.

Seleccionamos múltiples features proporcionando una lista de nombres de columnas. Cada elemento en esa lista debe ser un string.

In [None]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Ahora obtendremos un subconjunto del dataset que contenga únicamente estas columnas. Por convención, llamaremos `X` a este dataframe resultante.

In [None]:
X = melbourne_data[melbourne_features]

Veamos los datos de `X` con `describe` y `head`

In [None]:
X.head()

In [None]:
X.describe()

## Construcción del modelo

Como mencionamos anteriormente, usaremos `scikit-learn` para crear nuestros modelos. Al codear, esta librería se escribe como `sklearn`. Scikit-learn es, sin duda, la biblioteca más popular para modelar los tipos de datos que normalmente se almacenan en DataFrames.

Los pasos para construir y usar un modelo son:

- Definir: ¿Qué tipo de modelo será? ¿Un árbol de decisión? ¿Algún otro tipo de modelo? También se especifican otros parámetros del tipo de modelo.
- Ajustar: Capturar patrones a partir de los datos proporcionados. Este es el núcleo del modelado.
- Predecir: Justo lo que parece.
- Evaluar: Determinar qué tan precisas son las predicciones del modelo.

Veamos cómo podemos crear un árbol de decisión con `sklearn`

---

Lo primero será, por supuesto, importar `sklearn`. Sin embargo, no vamos a importar el módulo completo, sino únicamente una clase llamada `DecisionTreeRegressor`.

In [None]:
from sklearn.tree import DecisionTreeRegressor

Ahora vamos a crear una instancia de la clase. Notarás que usaremos un argumento `random_state`

> ¿Se te ocurre para qué funciona este argumento?

In [None]:
melbourne_model = DecisionTreeRegressor(random_state=1)

Finalmente, ajustaremos nuestro modelo. Usaremos el método `fit` y los argumentos `X` y `y`. 

Queremos que nuestro modelo se "aprenda" el precio de las casas `y` con base en los argumentos de entrada `X`

In [None]:
melbourne_model.fit(X, y)

Muchos modelos de machine learning permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para `random_state` asegura que obtengas los mismos resultados en cada ejecución. Esto se considera una buena práctica. Puedes usar cualquier número, y la calidad del modelo no dependerá significativamente del valor exacto que elijas.

Ahora tenemos un modelo ajustado que podemos usar para hacer predicciones.

En la práctica, querrás hacer predicciones para nuevas casas que salgan al mercado, en lugar de las casas para las cuales ya tenemos precios. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.

In [None]:
print("Prediciendo precios de las siguientes 5 casas:")
print(X.head())
print("\nLas predicciones son:")
print(melbourne_model.predict(X.head()))

Veamos los datos reales:

In [None]:
features_con_precio = melbourne_features + ["Price"]
melbourne_data[features_con_precio].head()

Como mencionamos arriba, estas predicciones no tienen mucho chiste porque a fin de cuentas el modelo se entrenó "viendo" estos precios. 

Probemos predecir el precio con datos completamente nuevos.

Creemos una casa de 5 recámaras, 4 baños, 190 pies cuadrados y otras coordenadas

In [None]:
nueva_casa = pd.DataFrame({
    'Rooms': [5],
    'Bathroom': [4],
    'Landsize': [190],
    'Lattitude': [-37.8068],
    'Longtitude': [144.9954]
})

prediccion = melbourne_model.predict(nueva_casa)[0]
prediccion_formateada = '${:,.2f}'.format(prediccion)
print(f'El precio estimado de la casa es: {prediccion_formateada}')