<img src="https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Fbigdatamagazine.es%2Fwp-content%2Fuploads%2F2023%2F02%2FFOTO-OK-BDM-DIG-DATA-MAGAZINE.jpg&f=1&nofb=1&ipt=4061921fa0da07483f83edb036d31f25545b2cae889c7eeefebd576f6e0fe5f4" style="width:300px; float: right; margin: 0 40px 40px 40px;"></img>

# Selección de Datos para Modelado
Tu conjunto de datos tenía demasiadas variables como para entenderlo bien, o incluso para imprimirlo de manera ordenada. ¿Cómo puedes reducir esta abrumadora cantidad de datos a algo que puedas comprender?

Comenzaremos eligiendo algunas variables usando nuestra intuición. En secciones posteriores, aprenderás técnicas estadísticas para priorizar variables de manera automática.

Para elegir las variables/columnas, necesitamos ver una lista de todas las columnas en el conjunto de datos. Esto se logra con la propiedad **columns** del DataFrame (la última línea de código a continuación).

In [1]:
import pandas as pd

melbourne_file_path = '/content//melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [2]:
# Los datos de Melbourne tienen algunos valores faltantes (algunas casas para las cuales no se registraron algunas variables).
# Así que tomaremos la opción más sencilla por ahora y eliminaremos las casas de nuestros datos.
# No te preocupes demasiado por esto por ahora, el código es:

# dropna elimina los valores faltantes (piensa en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)

Hay muchas formas de seleccionar un subconjunto de tus datos. Ahora nos enfocaremos en dos enfoques:

1. Notación de punto, que usamos para seleccionar el "objetivo de predicción"
2. Selección con una lista de columnas, que usamos para seleccionar las "características"

## Selección del Objetivo de Predicción
Puedes extraer una variable con **notación de punto**. Esta única columna se almacena en una **Serie**, que es algo similar a un DataFrame, pero con solo una columna de datos.

Usaremos la notación de punto para seleccionar la columna que queremos predecir, la cual se llama **objetivo de predicción** (*prediction target*). Por convención, el objetivo de predicción se llama **y**. Entonces, el código que necesitamos para guardar los precios de las casas en los datos de Melbourne es:

In [3]:
y = melbourne_data.Price

# Selección de "Características"
Las columnas que se introducen en nuestro modelo (y que luego se usan para hacer predicciones) se llaman "características" (*features*). En nuestro caso, esas serían las columnas que se utilizan para determinar el precio de la vivienda. A veces, utilizarás todas las columnas excepto el objetivo como características. Otras veces, será mejor usar menos características.

Por ahora, construiremos un modelo con solo unas pocas características. Más adelante verás cómo iterar y comparar modelos construidos con diferentes características.

Seleccionamos múltiples características proporcionando una lista de nombres de columnas dentro de corchetes. Cada elemento de esa lista debe ser una cadena (con comillas).

Aquí tienes un ejemplo:

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

By convention, this data is called **X**.

In [5]:
X = melbourne_data[melbourne_features]

Vamos a revisar rápidamente los datos que utilizaremos para predecir los precios de las casas usando el método `describe` y el método `head`, que muestra las primeras filas del conjunto de datos.

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Revisar visualmente tus datos con estos comandos es una parte importante del trabajo de un científico de datos. Frecuentemente encontrarás sorpresas en el conjunto de datos que merecen una inspección más detallada.


---
# Construyendo tu Modelo

Utilizarás la librería **scikit-learn** para crear tus modelos. Cuando escribas el código, esta librería se escribe como **sklearn**, como verás en el código de ejemplo. Scikit-learn es, sin duda, la librería más popular para modelar los tipos de datos que comúnmente se almacenan en DataFrames.

Los pasos para construir y usar un modelo son:
* **Definir:** ¿Qué tipo de modelo será? ¿Un árbol de decisión? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
* **Ajustar:** Capturar patrones a partir de los datos proporcionados. Este es el corazón del modelado.
* **Predecir:** Tal como suena.
* **Evaluar:** Determinar cuán precisas son las predicciones del modelo.

Aquí tienes un ejemplo de cómo definir un modelo de árbol de decisión con scikit-learn y ajustarlo con las características y la variable objetivo.


In [8]:
from sklearn.tree import DecisionTreeRegressor

# Definir el modelo. Especifica un número para random_state para asegurar que los resultados sean los mismos en cada ejecución
melbourne_model = DecisionTreeRegressor(random_state=1)

# Ajustar el modelo
melbourne_model.fit(X, y)

Muchos modelos de *machine learning* permiten algo de aleatoriedad durante el entrenamiento del modelo. Especificar un número para `random_state` asegura que obtengas los mismos resultados en cada ejecución. Esto se considera una buena práctica. Puedes usar cualquier número, y la calidad del modelo no dependerá de manera significativa del valor exacto que elijas.

Ahora tenemos un modelo ajustado que podemos usar para hacer predicciones.

En la práctica, querrás hacer predicciones para nuevas casas que lleguen al mercado, en lugar de las casas para las que ya tenemos precios. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.

In [9]:
print("Haciendo predicciones para las primeras 5 casas: ")
print(X.head())
print("Las predicciones son: ")
print(melbourne_model.predict(X.head()))

Haciendo predicciones para las primeras 5 casas: 
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
Las predicciones son: 
[1035000. 1465000. 1600000. 1876000. 1636000.]
