# Selección de datos para modelización

Su conjunto de datos contiene demasiadas variables como para que pueda entenderlas o incluso imprimirlas. ¿Cómo puede reducir esta abrumadora cantidad de datos a algo que pueda entender?

Empezaremos por seleccionar algunas variables utilizando nuestra intuición. Cursos posteriores le mostrarán técnicas estadísticas para priorizar automáticamente las variables.

Para elegir variables/columnas, necesitaremos ver una lista de todas las columnas del conjunto de datos. Eso se hace con la propiedad columns del DataFrame (la línea inferior del código de abajo).

In [None]:
import pandas as pd

melbourne_file_path = '/content/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [None]:
# Los datos de Melbourne tienen algunos valores perdidos (algunas casas para las que no se registraron algunas variables).
# Aprenderemos a manejar los valores perdidos en un tutorial posterior.  
# Tus datos de Iowa no tienen valores perdidos en las columnas que utilizas. 
# Así que tomaremos la opción más simple por ahora, y eliminaremos las casas de nuestros datos. 
# No te preocupes mucho por esto por ahora, aunque el código es:

# dropna elimina los valores perdidos (piense en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)

# Selección del objetivo de predicción
Puede extraer una variable con anotación por puntos. Esta única columna se almacena en una Serie, que a grandes rasgos es como un DataFrame con una única columna de datos.

Utilizaremos la notación de puntos para seleccionar la columna que queremos predecir, que se denomina objetivo de predicción. Por convención, el objetivo de predicción se llama y. Así que el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es

In [None]:
y = melbourne_data.Price

# Selección de características
Las columnas que se introducen en nuestro modelo (y que luego se utilizan para hacer predicciones) se denominan "características". En nuestro caso, serían las columnas utilizadas para determinar el precio de la vivienda. A veces, utilizará como características todas las columnas excepto el objetivo. Otras veces será mejor utilizar menos características.

Por ahora, construiremos un modelo con sólo unas pocas características. Más adelante verá cómo iterar y comparar modelos construidos con diferentes características.

Seleccionamos múltiples características proporcionando una lista de nombres de columnas entre paréntesis. Cada elemento de la lista debe ser una cadena (entre comillas).

He aquí un ejemplo:

In [None]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Por convención, estos datos se denominan X.

In [None]:
X = melbourne_data[melbourne_features]

Repasemos rápidamente los datos que utilizaremos para predecir los precios de la vivienda utilizando el método de descripción y el método de la cabeza, que muestra las primeras filas.

In [None]:
## Imprime las primeras filas

In [None]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
0,2,1.0,202.0,-37.7996,144.9984
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
3,3,2.0,94.0,-37.7969,144.9969
4,4,1.0,120.0,-37.8072,144.9941


Comprobar visualmente los datos con estos comandos es una parte importante del trabajo de un científico de datos. A menudo encontrarás sorpresas en el conjunto de datos que merecen una inspección más detallada.

# Creación del modelo
Utilizarás la librería scikit-learn para crear tus modelos. Al codificar, esta biblioteca se escribe como sklearn, como verás en el código de ejemplo. Scikit-learn es fácilmente la biblioteca más popular para modelar los tipos de datos típicamente almacenados en DataFrames.

Los pasos para construir y utilizar un modelo son:

Definir: ¿Qué tipo de modelo será? ¿Un árbol de decisión? ¿Otro tipo de modelo? También se especifican otros parámetros del tipo de modelo.
Ajustar: Capturar patrones a partir de los datos proporcionados. Este es el corazón del modelado.
Predecir: Justo lo que parece
Evaluar: Determinar la precisión de las predicciones del modelo.
He aquí un ejemplo de definición de un modelo de árbol de decisión con scikit-learn y su ajuste con las características y la variable objetivo.

In [None]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

DecisionTreeRegressor(random_state=1)

Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para random_state le asegura obtener los mismos resultados en cada ejecución. Esto se considera una buena práctica. Puede utilizar cualquier número y la calidad del modelo no dependerá significativamente del valor exacto que elija.

Ahora tenemos un modelo ajustado que podemos utilizar para hacer predicciones.

En la práctica, querremos hacer predicciones para las nuevas viviendas que salgan al mercado y no para las viviendas de las que ya tenemos precios. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función predecir.

In [None]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
0      2       1.0     202.0   -37.7996    144.9984
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
3      3       2.0      94.0   -37.7969    144.9969
4      4       1.0     120.0   -37.8072    144.9941
The predictions are
[1480000. 1035000. 1465000.  850000. 1600000.]


# Tu primer modelo

In [None]:
import pandas as pd

iowa_file_path = '/content/train.csv'

home_data = pd.read_csv(iowa_file_path)

## Especificar objetivo de predicción
Seleccione la variable objetivo, que corresponde al precio de venta. Guárdela en una nueva variable llamada y. Tendrá que imprimir una lista de las columnas para encontrar el nombre de la columna que necesita.

In [None]:
# imprimir la lista de columnas del conjunto de datos para encontrar el nombre del objetivo de predicción
print(home_data.columns)

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [None]:
y = home_data.SalePrice
print(y)

0       208500
1       181500
2       223500
3       140000
4       250000
         ...  
1455    175000
1456    210000
1457    266500
1458    142125
1459    147500
Name: SalePrice, Length: 1460, dtype: int64


## Crear X

Ahora creará un DataFrame llamado X que contendrá las características predictivas.

Como sólo quiere algunas columnas de los datos originales, primero creará una lista con los nombres de las columnas que quiere en X.

Utilizará sólo las siguientes columnas en la lista (puede copiar y pegar toda la lista para ahorrar algo de escritura, aunque todavía tendrá que añadir comillas):

- LotArea
- YearBuilt
- 1stFlrSF
- 2ndFlrSF
- FullBath
- BedroomAbvGr
- TotRmsAbvGrd

Después de crear esa lista de características, utilízala para crear el DataFrame que utilizarás para ajustar el modelo.

In [None]:
# Crear la lista de características
feature_names =['LotArea','YearBuilt','1stFlrSF','2ndFlrSF','FullBath','BedroomAbvGr','TotRmsAbvGrd']

# Seleccionar los datos correspondientes a las características en feature_names
X = home_data[feature_names]

# Revisar datos
Antes de construir un modelo, echa un vistazo rápido a X para verificar que parece sensato

In [None]:
# Revisar datos
# imprimir descripción o estadísticas de X
X.describe()
# imprimir las primeras lineas
X.head()

Unnamed: 0,LotArea,YearBuilt,1stFlrSF,2ndFlrSF,FullBath,BedroomAbvGr,TotRmsAbvGrd
0,8450,2003,856,854,2,3,8
1,9600,1976,1262,0,2,3,6
2,11250,2001,920,866,2,3,6
3,9550,1915,961,756,1,3,7
4,14260,2000,1145,1053,2,4,9


# Especificar y ajustar el modelo
Cree un DecisionTreeRegressor y guárdelo en iowa_model. Asegúrese de que ha realizado la importación correspondiente desde sklearn para ejecutar este comando.

A continuación, ajuste el modelo que acaba de crear utilizando los datos en **X** y **y** que guardó anteriormente.

In [None]:
# Importar DecisionTreeRegressor
from sklearn.tree import DecisionTreeRegressor
# Especificar el modelo. 
# Para la reproducibilidad del modelo, establecer un valor numérico para random_state al especificar el modelo.
iowa_model = DecisionTreeRegressor(random_state=0)

# Hacer Fit al modelo
iowa_model.fit(X, y)

DecisionTreeRegressor(random_state=3)

# Hacer predicciones
Realiza predicciones con el comando predecir del modelo utilizando X como datos. Guarda los resultados en una variable llamada predictions.

In [None]:
predictions =iowa_model.predict(X.head())
print(predictions)

[208500. 181500. 223500. 140000. 250000.]
