# Modelo ML de Predictor de costos de casas

## Seleccionar datos para el modelado

Importar pandas

In [None]:
import pandas as pd

Leer ruta csv

In [None]:
melbourne_path = "./melb_data.csv"
melbourne_data = pd.read_csv(melbourne_path)

Generar un resumen estadístico de un conjunto de datos con `describe()`. Por defecto, proporciona estadísticas como el recuento, la media, la desviación estándar, el mínimo, el máximo y los cuartiles para las columnas numéricas

In [None]:
melbourne_data.describe()

Ver todas las columnas del dataset

In [None]:
melbourne_data.columns

Eliminar las filas que contienen algún valor faltante (NaN o None) de un DataFrame con `dropna()`.

In [None]:
melbourne_data = melbourne_data.dropna(axis=0)

Hay muchas maneras de seleccionar un subset de los datos. Podemos contar con dos por el momento:
- Notación punto. Seleccionar un **prediction target**.
- Seleccionar con una lista de columnas. Seleccionar **features**.

Usando notación punto, la columna seleccionada se guarda en una **Serie**, que es un dataframe pero con una sola columna de datos. La columna seleccionada es un objetivo de predicción, por convención ésta se llama **y**. 

In [None]:
y = melbourne_data.Price

## Escogiendo features

Las columnas que serán introducidas al modelo (y hacer predicciones) se llaman **features**. En este caso serán usadas para calcular el precio de la casa. A veces se usarán todas las columnas como features excepto el la columna de predicción objetivo. Otras veces serán menos features.

In [None]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Por convención, a estos datos se le llama **x**.

In [None]:
X = melbourne_data[melbourne_features]

Describiendo **x**.

In [None]:
X.describe()

Mostrar las primeras filas de **x** con `head()`.

In [None]:
X.head()

## Construyendo el modelo
Scikit-learn es la biblioteca más popular para modelar los tipos de datos guardados en DataFrames.

Los pasos para construir y usar un modelo son:
1. **Definir**. ¿Qué tipo de modelo será? ¿Un árbol de decisión o alguno otro? Otros parámetros del modelo se especifican también.
2. **Fit**. Capturar patrones de los datos. Este es el corazón del modelado.
3. **Predecir**. ¿Cuál será el valor del target con una entrada nueva?
4. **Evaluar**. Determinar qué tan precisas las predicciones del modelo son.

Ejemplo de definición de modelo con las features y el target.
*Nota*: Especificar un número para `random_state` asegura que se obtienen los mismos resultados en cada ejecución, lo cual es una buena práctica.

In [None]:
from sklearn.tree import DecisionTreeRegressor

melbourne_model = DecisionTreeRegressor(random_state=1)

melbourne_model.fit(X, y)

En la práctica se querrán hacer predicciones para nuevas casas entrantes al mercado en vez de precios de casas que ya se tienen, pero se harán para las primeras filas para ver cómo la función de predicción trabaja.

In [None]:
print("HACIENDO PREDICCIÓN PARA LAS SIGUIENTES 5 CASAS:")
print(X.head())
print("Las predicciones son:")
print(melbourne_model.predict(X.head()))