# Seleccionar datos para modelar

##### Su conjunto de datos tenía demasiadas variables para entenderlas o incluso para imprimirlas correctamente. ¿Cómo puedes reducir esta abrumadora cantidad de datos a algo que puedas entender?

##### Comenzaremos eligiendo algunas variables usando nuestra intuición. Cursos posteriores le mostrarán técnicas estadísticas para priorizar variables automáticamente.

##### Para elegir variables/columnas, necesitaremos ver una lista de todas las columnas del conjunto de datos. Esto se hace con la propiedad **columns** del DataFrame (la línea inferior del código a continuación).


In [None]:
# Si tengo demasiadas columnas, tengo que seleccionar variables y quedarme solamente con las importantes o las que aporten información a mi análisis.
# Columnas que tengan aproximadamente 90% de nulos --> AFUUEEERA

## Pasos a seguir para el modelo:

##### 1. Ver qué columnas tengo.
##### 2. Elimino los faltantes.
##### 3. Ver qué quiero predecir (variable Y).
##### 4. Ver cuales son los features de esa vatiable Y (variable X). Puedo modificarlos la cantidad de veces que quiera.
##### 5. Le hago un describe y reviso si hay outliers → boxplot
##### 6. Hago un head


___

In [1]:
import pandas as pd

melbourne_file_path = '/Users/lolonastri/Desktop/POO_UCEMA/machine_learning/5-modelos/data/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path)
melbourne_data.columns



Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [2]:
# A los datos de Melbourne les faltan algunos valores (algunas casas para las cuales no se registraron algunas variables).
# Entonces, tomaremos la opción más simple por ahora y eliminaremos las casas de nuestros datos.

# dropna elimina los valores faltantes (piense en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)

##### Hay muchas formas de seleccionar un subconjunto de sus datos, pero por ahora nos centraremos en dos enfoques.

##### 1. Notación de puntos, que utilizamos para seleccionar el "objetivo de predicción"
##### 2. Seleccionar con una lista de columnas, que usamos para seleccionar las "características"

___

## Seleccionar el target de predicción

##### Puede extraer una variable con **notación de puntos**. Esta única columna se almacena en una **Serie**, que es, en términos generales, como un DataFrame con una sola columna de datos.

##### Usaremos la notación de puntos para seleccionar la columna que queremos predecir, que se denomina **objetivo de predicción**. Por convención, el objetivo de predicción se denomina **y**. Entonces, el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es

In [3]:
y = melbourne_data.Price

___

# Elegir "Features"

##### Las columnas que se ingresan en nuestro modelo (y luego se usan para hacer predicciones) se denominan "features". En nuestro caso, esas serían las columnas utilizadas para determinar el precio de la vivienda. A veces, utilizará todas las columnas excepto la de destino como características. Otras veces estará mejor con menos features.

##### Por ahora, construiremos un modelo con sólo unas pocas características. Más adelante verá cómo iterar y comparar modelos creados con diferentes características.

##### Seleccionamos múltiples features proporcionando una lista de nombres de columnas entre paréntesis. Cada elemento de esa lista debe ser una cadena (entre comillas).

##### Aquí hay un ejemplo:

In [4]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

##### Por convención, estos datos se denominan **X**.

In [5]:
X = melbourne_data[melbourne_features]

##### Repasemos rápidamente los datos que usaremos para predecir los precios de la vivienda utilizando el método "describe" y el método "head", que muestra las primeras filas.

In [6]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [7]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


##### Verificar visualmente sus datos con estos comandos es una parte importante del trabajo de un científico de datos. Con frecuencia encontrará sorpresas en el conjunto de datos que merecen una inspección más detallada.

---
# Construyendo su modelo

##### Utilizará la biblioteca **scikit-learn** para crear sus modelos. Al codificar, esta biblioteca se escribe como **sklearn**, como verá en el código de muestra. Scikit-learn es fácilmente la biblioteca más popular para modelar los tipos de datos que normalmente se almacenan en DataFrames.

##### Los pasos para construir y utilizar un modelo son:
##### * **Definir:** ¿Qué tipo de modelo será? ¿Un árbol de decisiones? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
##### * **Ajuste:** Capture patrones a partir de los datos proporcionados. Este es el corazón del modelaje.
##### * **Predecir:** Justo lo que parece
##### * **Evaluar**: determina qué tan precisas son las predicciones del modelo.

##### A continuación se muestra un ejemplo de cómo definir un modelo de árbol de decisión con scikit-learn y ajustarlo con las características y la variable objetivo.

In [10]:
from sklearn.tree import DecisionTreeRegressor # decision tree es un modelo de ML

# Definir modelo. Especifique un número para random_state para garantizar los mismos resultados en cada ejecución.
melbourne_model = DecisionTreeRegressor(random_state=1) # random_state es para que siempre me de el mismo resultado

# Fit modelo
melbourne_model.fit(X, y) # fit es para entrenar el modelo.

##### Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para 'random_state' garantiza que obtendrá los mismos resultados en cada ejecución. Esto se considera una buena práctica. Utilice cualquier número y la calidad del modelo no dependerá significativamente del valor exacto que elija.

##### Ahora tenemos un modelo ajustado que podemos utilizar para hacer predicciones.

##### En la práctica, querrás hacer predicciones sobre las casas nuevas que saldrán al mercado en lugar de las casas cuyos precios ya tenemos. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.


In [9]:
print("Haciendo predicciones para las siguientes 5 casas:")
print(X.head())
print("Las Predicciones son:")
print(melbourne_model.predict(X.head()))

Haciendo predicciones para las siguientes 5 casas:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
4      4       1.0     120.0   -37.8072    144.9941
6      3       2.0     245.0   -37.8024    144.9993
7      2       1.0     256.0   -37.8060    144.9954
Las Predicciones son:
[1035000. 1465000. 1600000. 1876000. 1636000.]
