# Introducción al Aprendizaje Automático.

## El primer modelo de Aprendizaje Automático

### Seleccionar datos para modelar

Nuestro conjunto de datos tenía demasiadas variables para entenderlo o incluso para imprimirlo bien. ¿Cómo podemos reducir esta cantidad abrumadora de datos a algo que podamos entender? Comenzaremos eligiendo algunas variables usando nuestra intuición. Más adelante veremos técnicas estadísticas para priorizar automáticamente las variables.

Para elegir variables/columnas, necesitaremos ver una lista de todas las columnas en el conjunto de datos. Eso se hace con la propiedad **column** del DataFrame (la línea inferior del código a continuación).

In [1]:
import pandas as pd

melbourne_file_path = "./input/melbourne-housing-snapshot/melb_data.csv"
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

Los datos de Melbourne tienen algunos valores ausentes (algunas casas para las que no se registraron algunas variables). Aprenderemos a manejar los valores faltantes más adelante. Nuestros datos de Iowa no tienen valores faltantes en las columnas que usa. Por lo tanto, tomaremos la opción más simple por ahora y eliminaremos las casas de nuestros datos. No nos  preocupemos por esto por ahora, aunque el código es:

In [2]:
# dropna elimina valores ausentes (na = "not available")
melbourne_data = melbourne_data.dropna(axis=0)

Hay muchas formas de seleccionar un subconjunto de sus datos. Por ahora nos centraremos en dos enfoques.

1. Notación de puntos, que usamos para seleccionar el "objetivo de predicción" (*prediction target*)
2. Seleccionando con una lista de columnas, que usamos para seleccionar las "características" (*features*)

#### Seleccionando el Objetivo de Predicción

Podemos extraer una variable con **notación de puntos**. Esta única columna se almacena en una **Serie**, que en general es como un DataFrame con solo una sola columna de datos.

Usaremos la notación de puntos para seleccionar la columna que queremos predecir, que se llama el **objetivo de predicción**. Por convención, el objetivo de predicción se llama **y**. Entonces, el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es

In [3]:
y = melbourne_data.Price

### Seleccionando "Características"

Las columnas que se introducen en nuestro modelo (y luego se usan para hacer predicciones) se denominan "características". En nuestro caso, esas serían las columnas utilizadas para determinar el precio de la vivienda. A veces, usaremos todas las columnas excepto el objetivo como características. Otras veces será mejor con menos características.

Por ahora, crearemos un modelo con solo algunas características. Más adelante veremos cómo iterar y comparar modelos creados con diferentes características.

Seleccionamos múltiples características al proporcionar una lista de nombres de columnas entre paréntesis. Cada elemento de esa lista debe ser una cadena (con comillas).

Aquí hay un ejemplo:

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Por convención, estos datos se llaman **X**.

In [5]:
X = melbourne_data[melbourne_features]

Revisemos rápidamente los datos que usaremos para predecir los precios de la vivienda utilizando el método `describe` y el método `head`, que muestra algunas de las filas superiores.

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Verificar visualmente nuestros datos con estos comandos es una parte importante del trabajo de un científico de datos. Con frecuencia encontraremos sorpresas en el conjunto de datos que merecen una mayor inspección.

### Construyendo nuestro modelo

Utilizaremos la biblioteca **scikit-learn** para crear nuestros modelos. Al codificar, esta biblioteca se escribe como **sklearn**, como veremos en el código de muestra. Scikit-learn es la biblioteca más popular para modelar los tipos de datos típicamente almacenados en DataFrames.

Los pasos para construir y usar un modelo son:

+ **Definir**: ¿Qué tipo de modelo será? ¿Un árbol de decisión? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
+ **Ajuste**: Capturar patrones de los datos proporcionados. Este es el corazón del modelado.
+ **Predecir**: Tal como suena.
+ **Evaluar**: determinar cuán precisas son las predicciones del modelo.

Aquí hay un ejemplo de cómo definir un modelo de árbol de decisión con scikit-learn y ajustarlo con las características y la variable objetivo.

In [8]:
from sklearn.tree import DecisionTreeRegressor

# Define el modelo. Especifica un valor para random_state para asegurar el mismo resultado en cada ejecución
melbourne_model = DecisionTreeRegressor(random_state=1)

# Entrenar el modelo
melbourne_model.fit(X, y)

DecisionTreeRegressor(criterion='mse', max_depth=None, max_features=None,
                      max_leaf_nodes=None, min_impurity_decrease=0.0,
                      min_impurity_split=None, min_samples_leaf=1,
                      min_samples_split=2, min_weight_fraction_leaf=0.0,
                      presort=False, random_state=1, splitter='best')

Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento de modelos. Especificar un número para random_state asegura que obtendremos los mismos resultados en cada ejecución. Esto se considera una buena práctica. Utiliza cualquier número y la calidad del modelo no dependerá significativamente del valor que elija.

Ahora tenemos un modelo entrenado que podemos usar para hacer predicciones.

En la práctica, querremos hacer predicciones para las nuevas casas que saldrán al mercado en lugar de las casas para las que ya tenemos precios. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.

In [9]:
print("Haciendo predicciones para las siguientes 5 casas:")
print(X.head())
print("Las predicciones son")
print(melbourne_model.predict(X.head()))

Haciendo predicciones para las siguientes 5 casas:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
Las predicciones son
[1035000. 1465000. 1600000. 1876000. 1636000.]
