# Su primer modelo de aprendizaje automático

Construyendo tu primer modelo. ¡Viva!

### Seleccionar datos para modelar

Su conjunto de datos tenía demasiadas variables para entenderlas o incluso para imprimirlas correctamente. ¿Cómo puedes reducir esta abrumadora cantidad de datos a algo que puedas entender?

Comenzaremos eligiendo algunas variables usando nuestra intuición. Cursos posteriores le mostrarán técnicas estadísticas para priorizar variables automáticamente.

Para elegir variables/columnas, necesitaremos ver una lista de todas las columnas del conjunto de datos. Esto se hace con la propiedad de columnas del DataFrame (la línea inferior del código a continuación).

In [1]:
import pandas as pd

melbourne_file_path = 'melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [2]:
# A los datos de Melbourne les faltan algunos valores (algunas casas para las cuales no se registraron algunas variables).
# Aprenderemos a manejar los valores faltantes en un tutorial posterior.
# A sus datos de Iowa no les faltan valores en las columnas que utiliza.
# Entonces, tomaremos la opción más simple por ahora y eliminaremos las casas de nuestros datos.
# No te preocupes mucho por esto por ahora, aunque el código es:
# dropna elimina los valores faltantes (piense en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)

Hay muchas formas de seleccionar un subconjunto de sus datos. El curso Pandas los cubre con más profundidad, pero por ahora nos centraremos en dos enfoques.

1. Notación de puntos, que utilizamos para seleccionar el "objetivo de predicción"
2. Seleccionar con una lista de columnas, que usamos para seleccionar las "características"

### Seleccionar el objetivo de predicción

Puede extraer una variable con notación de puntos. Esta única columna se almacena en una Serie, que en términos generales es como un DataFrame con una sola columna de datos.

Usaremos la notación de puntos para seleccionar la columna que queremos predecir, que se denomina objetivo de predicción. Por convención, el objetivo de predicción se denomina y. Entonces, el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es

In [3]:
y = melbourne_data.Price
y

1        1035000.0
2        1465000.0
4        1600000.0
6        1876000.0
7        1636000.0
           ...    
12205     601000.0
12206    1050000.0
12207     385000.0
12209     560000.0
12212    2450000.0
Name: Price, Length: 6196, dtype: float64

### Elegir "Características"

Las columnas que se ingresan en nuestro modelo (y luego se usan para hacer predicciones) se denominan "características". En nuestro caso, esas serían las columnas utilizadas para determinar el precio de la vivienda. A veces, utilizará todas las columnas excepto la de destino como características. Otras veces estará mejor con menos funciones.

Por ahora, construiremos un modelo con sólo unas pocas características. Más adelante verá cómo iterar y comparar modelos creados con diferentes características.

Seleccionamos múltiples funciones proporcionando una lista de nombres de columnas entre paréntesis. Cada elemento de esa lista debe ser una cadena (entre comillas).

Aquí hay un ejemplo:

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Por convención, estos datos se denominan X.

In [5]:
X = melbourne_data[melbourne_features]

Repasemos rápidamente los datos que usaremos para predecir los precios de la vivienda utilizando el método de descripción y el método principal, que muestra las filas superiores.

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Verificar visualmente sus datos con estos comandos es una parte importante del trabajo de un científico de datos. Con frecuencia encontrará sorpresas en el conjunto de datos que merecen una inspección más detallada.

### Construyendo su modelo

Utilizará la biblioteca scikit-learn para crear sus modelos. Al codificar, esta biblioteca se escribe como sklearn, como verá en el código de muestra. Scikit-learn es fácilmente la biblioteca más popular para modelar los tipos de datos que normalmente se almacenan en DataFrames.

Los pasos para construir y utilizar un modelo son:

1. Definir: ¿Qué tipo de modelo será? ¿Un árbol de decisiones? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
2. Ajuste: capture patrones a partir de los datos proporcionados. Este es el corazón del modelaje.
3. Predecir: justo lo que parece
4. Evaluar: determinar qué tan precisas son las predicciones del modelo.

A continuación se muestra un ejemplo de cómo definir un modelo de árbol de decisión con scikit-learn y ajustarlo con las características y la variable objetivo.

In [8]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para random_state garantiza que obtendrá los mismos resultados en cada ejecución. Esto se considera una buena práctica. Utilice cualquier número y la calidad del modelo no dependerá significativamente del valor exacto que elija.

Ahora tenemos un modelo ajustado que podemos utilizar para hacer predicciones.

En la práctica, querrás hacer predicciones sobre las casas nuevas que saldrán al mercado en lugar de las casas cuyos precios ya tenemos. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.

In [11]:
print("Haciendo predicciones para las siguientes 5 casas:")
print(X.head())
print("Las predicciones son: ")
print(melbourne_model.predict(X.head()))

Haciendo predicciones para las siguientes 5 casas:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
Las predicciones son: 
[1035000. 1465000. 1600000. 1876000. 1636000.]


In [12]:
melbourne_data.head()

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.0,1900.0,Yarra,-37.8079,144.9934,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.0,1900.0,Yarra,-37.8093,144.9944,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.0,2014.0,Yarra,-37.8072,144.9941,Northern Metropolitan,4019.0
6,Abbotsford,124 Yarra St,3,h,1876000.0,S,Nelson,7/05/2016,2.5,3067.0,...,2.0,0.0,245.0,210.0,1910.0,Yarra,-37.8024,144.9993,Northern Metropolitan,4019.0
7,Abbotsford,98 Charles St,2,h,1636000.0,S,Nelson,8/10/2016,2.5,3067.0,...,1.0,2.0,256.0,107.0,1890.0,Yarra,-37.806,144.9954,Northern Metropolitan,4019.0


# EJERCICIOS

### Resumen

Hasta ahora, ha cargado sus datos y los ha revisado con el siguiente código. Ejecute esta celda para configurar su entorno de codificación donde quedó el paso anterior.

In [None]:
# Code you have previously used to load data
import pandas as pd

# Path of the file to read
iowa_file_path = 'train.csv'

home_data = pd.read_csv(iowa_file_path)

print("Setup Complete")

### Paso 1: especificar el objetivo de predicción

Seleccione la variable objetivo, que corresponde al precio de venta. Guarde esto en una nueva variable llamada y. Deberá imprimir una lista de las columnas para encontrar el nombre de la columna que necesita.

In [None]:
# print the list of columns in the dataset to find the name of the prediction target
home_data.columns

In [None]:
y = home_data.SalePrice

### Paso 2: Crea X

Ahora creará un DataFrame llamado X que contiene las features predictivas.

Como solo desea algunas columnas de los datos originales, primero creará una lista con los nombres de las columnas que desea en X.

Utilizará solo las siguientes columnas en la lista (puede copiar y pegar la lista completa para ahorrar algo de escritura, aunque aún necesitará agregar comillas):

Área del lote
Año de construcción
1er piso SF
2do piso SF
Baño Completo
DormitorioAbvGr
TotRmsAbvGrd
Una vez que haya creado esa lista de características, úsela para crear el DataFrame que usará para ajustarse al modelo.

In [None]:
# Create the list of features below
feature_names = ['LotArea','YearBuilt','1stFlrSF','2ndFlrSF','FullBath','BedroomAbvGr','TotRmsAbvGrd']

# Select data corresponding to features in feature_names
X = home_data[feature_names]

### Revisar datos
Antes de construir un modelo, eche un vistazo rápido a X para verificar que parezca sensato.

In [None]:
# Review data
# print description or statistics from X
#print(_)
X.describe()
# print the top few lines
#print(_)
#X.head()

### Paso 3: especificar y ajustar el modelo

Cree un DecisionTreeRegressor y guárdelo iowa_model. Asegúrese de haber realizado la importación relevante desde sklearn para ejecutar este comando.

Luego, ajuste el modelo que acaba de crear utilizando los datos en X e y que guardó anteriormente.

In [None]:
# from _ import _
from sklearn.tree import DecisionTreeRegressor
#specify the model. 
#For model reproducibility, set a numeric value for random_state when specifying the model
iowa_model = DecisionTreeRegressor(random_state=1)

# Fit the model
iowa_model.fit(X,y)

### Paso 4: Hacer predicciones

Haga predicciones con el comando de predicción del modelo utilizando X como datos. Guarde los resultados en una variable llamada predicciones.

In [None]:
predictions = iowa_model.predict(X)
print(predictions)

# Check your answer
step_4.check()

### Piense en sus resultados

Utilice el método principal para comparar las principales predicciones con los valores reales de las viviendas (en y) para esas mismas viviendas. ¿Algo sorprendente?