### Introducción
Comenzaremos con una descripción general de cómo funcionan los modelos de aprendizaje automático y cómo se utilizan. Esto puede parecer básico si ya ha realizado modelos estadísticos o aprendizaje automático. No se preocupe, pronto avanzaremos hacia la construcción de modelos potentes.

Este curso le permitirá construir modelos a medida que avanza por el siguiente escenario:

* Tu primo ha ganado millones de dólares especulando con bienes raíces. Se ha ofrecido a convertirse en socio comercial suyo debido a su interés en la ciencia de datos. Él le proporcionará el dinero y usted le proporcionará modelos que predicen cuánto valen las distintas casas.

* Le preguntas a tu primo cómo predijo los valores inmobiliarios en el pasado y te dice que es sólo intuición. Pero más preguntas revelan que ha identificado patrones de precios de casas que ha visto en el pasado y que utiliza esos patrones para hacer predicciones para las nuevas casas que está considerando.

El aprendizaje automático funciona de la misma manera. Comenzaremos con un modelo llamado Árbol de Decisión. Hay modelos más sofisticados que dan predicciones más precisas. Per
o los árboles de decisión son fáciles de entender y son la base de algunos de los mejores modelos en ciencia de datos.

Para simplificar, comenzaremos con el árbol de decisiones más simple posible.

Divide las casas en sólo dos categorías. El precio previsto para cualquier casa considerada es el precio promedio histórico de casas en la misma categoría.

Usamos datos para decidir cómo dividir las casas en dos grupos y luego nuevamente para determinar el precio previsto en cada grupo. Este paso de capturar patrones a partir de datos se denomina ajuste o entrenamiento del modelo. Los datos utilizados para ajustar el modelo se denominan datos de entrenamiento.

Los detalles de cómo se ajusta el modelo (por ejemplo, cómo dividir los datos) son lo suficientemente complejos como para guardarlos para más adelante. Una vez ajustado el modelo, puede aplicarlo a nuevos datos para predecir los precios de viviendas adicionales.

# Mejorando el árbol de decisiones
¿Cuál de los siguientes dos árboles de decisión es más probable que resulte del ajuste de los datos de capacitación inmobiliaria? Mejora del árbol de decisión 

El árbol de decisión de la izquierda (árbol de decisión 1) probablemente tenga más sentido, porque capta la realidad de que las casas con más dormitorios tienden a venderse a precios más altos que las casas con menos dormitorios. La mayor deficiencia de este modelo es que no captura la mayoría de los factores que afectan el precio de la vivienda, como la cantidad de baños, el tamaño del lote, la ubicación, etc.

Puede capturar más factores utilizando un árbol que tenga más "divisiones". Estos se llaman árboles "más profundos". Un árbol de decisión que también considere el tamaño total del lote de cada casa podría verse así:

Puedes predecir el precio de cualquier casa siguiendo el árbol de decisión, eligiendo siempre el camino correspondiente a las características de esa casa. El precio previsto de la casa se encuentra en la parte inferior del árbol. El punto en la parte inferior donde hacemos una predicción se llama hoja.

Las divisiones y los valores en las hojas estarán determinados por los datos, por lo que es hora de que revises los datos con los que trabajarás.

 # Usando Pandas para familiarizarse con sus datos
El primer paso en cualquier proyecto de aprendizaje automático es familiarizarse con los datos. Utilizarás la biblioteca Pandas para esto. Pandas es la principal herramienta que utilizan los científicos de datos para explorar y manipular datos. La mayoría de la gente abrevia pandas en su código como pd. Esto lo hacemos con el comando

In [2]:
import pandas as pd

La parte más importante de la biblioteca Pandas es el DataFrame. Un DataFrame contiene el tipo de datos que podría considerar una tabla. Esto es similar a una hoja en Excel o una tabla en una base de datos SQL.

Pandas tiene métodos poderosos para la mayoría de las cosas que querrás hacer con este tipo de datos.

Como ejemplo, veremos datos sobre los precios de las viviendas en Melbourne, Australia. En los ejercicios prácticos, aplicará los mismos procesos a un nuevo conjunto de datos, que tiene precios de viviendas en Iowa.

Los datos de ejemplo (Melbourne) se encuentran en la ruta del archivo **../input/melbourne-housing-snapshot/melb_data.csv.**

Cargamos y exploramos los datos con los siguientes comandos:

In [3]:
# save filepath to variable for easier access
melbourne_file_path = '/kaggle/input/melbourne-housing-snapshot/melb_data.csv'
# read the data and store data in DataFrame titled melbourne_data
melbourne_data = pd.read_csv(melbourne_file_path) 
# print a summary of the data in Melbourne data
melbourne_data.describe()

Unnamed: 0,Rooms,Price,Distance,Postcode,Bedroom2,Bathroom,Car,Landsize,BuildingArea,YearBuilt,Lattitude,Longtitude,Propertycount
count,13580.0,13580.0,13580.0,13580.0,13580.0,13580.0,13518.0,13580.0,7130.0,8205.0,13580.0,13580.0,13580.0
mean,2.937997,1075684.0,10.137776,3105.301915,2.914728,1.534242,1.610075,558.416127,151.96765,1964.684217,-37.809203,144.995216,7454.417378
std,0.955748,639310.7,5.868725,90.676964,0.965921,0.691712,0.962634,3990.669241,541.014538,37.273762,0.07926,0.103916,4378.581772
min,1.0,85000.0,0.0,3000.0,0.0,0.0,0.0,0.0,0.0,1196.0,-38.18255,144.43181,249.0
25%,2.0,650000.0,6.1,3044.0,2.0,1.0,1.0,177.0,93.0,1940.0,-37.856822,144.9296,4380.0
50%,3.0,903000.0,9.2,3084.0,3.0,1.0,2.0,440.0,126.0,1970.0,-37.802355,145.0001,6555.0
75%,3.0,1330000.0,13.0,3148.0,3.0,2.0,2.0,651.0,174.0,1999.0,-37.7564,145.058305,10331.0
max,10.0,9000000.0,48.1,3977.0,20.0,8.0,10.0,433014.0,44515.0,2018.0,-37.40853,145.52635,21650.0


# Interpretación de la descripción de datos
Los resultados muestran 8 números para cada columna en su conjunto de datos original. El primer número, el recuento, muestra cuántas filas tienen valores no faltantes.

Los valores faltantes surgen por muchas razones. Por ejemplo, el tamaño del segundo dormitorio no se recopilaría al inspeccionar una casa de 1 dormitorio. Volveremos al tema de los datos faltantes.

El segundo valor es la media, que es el promedio. Debajo de eso, std es la desviación estándar, que mide qué tan dispersos numéricamente están los valores.

Para interpretar los valores mínimo, 25 %, 50 %, 75 % y máximo, imagine ordenar cada columna del valor más bajo al más alto. El primer valor (el más pequeño) es el mínimo. Si recorre un cuarto de la lista, encontrará un número que es mayor que el 25% de los valores y menor que el 75% de los valores. Ese es el valor del 25% (pronunciado "percentil 25"). Los percentiles 50 y 75 se definen de manera análoga y el máximo es el número más grande.

# Seleccionar datos para modelar
Su conjunto de datos tenía demasiadas variables para entenderlas o incluso para imprimirlas correctamente. ¿Cómo puedes reducir esta abrumadora cantidad de datos a algo que puedas entender?

Comenzaremos eligiendo algunas variables usando nuestra intuición. Cursos posteriores le mostrarán técnicas estadísticas para priorizar variables automáticamente.

Para elegir variables/columnas, necesitaremos ver una lista de todas las columnas del conjunto de datos. Esto se hace con la propiedad de columnas del DataFrame (la línea inferior del código a continuación).

In [39]:
import pandas as pd

melbourne_file_path = '/kaggle/input/melbourne-housing-snapshot/melb_data.csv'
melbourne_data = pd.read_csv(melbourne_file_path) 
melbourne_data.columns

Index(['Suburb', 'Address', 'Rooms', 'Type', 'Price', 'Method', 'SellerG',
       'Date', 'Distance', 'Postcode', 'Bedroom2', 'Bathroom', 'Car',
       'Landsize', 'BuildingArea', 'YearBuilt', 'CouncilArea', 'Lattitude',
       'Longtitude', 'Regionname', 'Propertycount'],
      dtype='object')

In [5]:
# A los datos de Melbourne les faltan algunos valores (algunas casas para las cuales no se registraron algunas variables).
# Aprenderemos a manejar los valores faltantes en un tutorial posterior.
# A sus datos de Iowa no les faltan valores en las columnas que utiliza.
# Entonces, tomaremos la opción más simple por ahora y eliminaremos las casas de nuestros datos.
# No te preocupes mucho por esto por ahora, aunque el código es:

# dropna elimina los valores faltantes (piense en na como "no disponible")
melbourne_data = melbourne_data.dropna(axis=0)
melbourne_data

Unnamed: 0,Suburb,Address,Rooms,Type,Price,Method,SellerG,Date,Distance,Postcode,...,Bathroom,Car,Landsize,BuildingArea,YearBuilt,CouncilArea,Lattitude,Longtitude,Regionname,Propertycount
1,Abbotsford,25 Bloomburg St,2,h,1035000.0,S,Biggin,4/02/2016,2.5,3067.0,...,1.0,0.0,156.0,79.00,1900.0,Yarra,-37.80790,144.99340,Northern Metropolitan,4019.0
2,Abbotsford,5 Charles St,3,h,1465000.0,SP,Biggin,4/03/2017,2.5,3067.0,...,2.0,0.0,134.0,150.00,1900.0,Yarra,-37.80930,144.99440,Northern Metropolitan,4019.0
4,Abbotsford,55a Park St,4,h,1600000.0,VB,Nelson,4/06/2016,2.5,3067.0,...,1.0,2.0,120.0,142.00,2014.0,Yarra,-37.80720,144.99410,Northern Metropolitan,4019.0
6,Abbotsford,124 Yarra St,3,h,1876000.0,S,Nelson,7/05/2016,2.5,3067.0,...,2.0,0.0,245.0,210.00,1910.0,Yarra,-37.80240,144.99930,Northern Metropolitan,4019.0
7,Abbotsford,98 Charles St,2,h,1636000.0,S,Nelson,8/10/2016,2.5,3067.0,...,1.0,2.0,256.0,107.00,1890.0,Yarra,-37.80600,144.99540,Northern Metropolitan,4019.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
12205,Whittlesea,30 Sherwin St,3,h,601000.0,S,Ray,29/07/2017,35.5,3757.0,...,2.0,1.0,972.0,149.00,1996.0,Whittlesea,-37.51232,145.13282,Northern Victoria,2170.0
12206,Williamstown,75 Cecil St,3,h,1050000.0,VB,Williams,29/07/2017,6.8,3016.0,...,1.0,0.0,179.0,115.00,1890.0,Hobsons Bay,-37.86558,144.90474,Western Metropolitan,6380.0
12207,Williamstown,2/29 Dover Rd,1,u,385000.0,SP,Williams,29/07/2017,6.8,3016.0,...,1.0,1.0,0.0,35.64,1967.0,Hobsons Bay,-37.85588,144.89936,Western Metropolitan,6380.0
12209,Windsor,201/152 Peel St,2,u,560000.0,PI,hockingstuart,29/07/2017,4.6,3181.0,...,1.0,1.0,0.0,61.60,2012.0,Stonnington,-37.85581,144.99025,Southern Metropolitan,4380.0


Hay muchas formas de seleccionar un subconjunto de sus datos. El curso Pandas los cubre con más profundidad, pero por ahora nos centraremos en dos enfoques.

* Notación de puntos, que utilizamos para seleccionar el "objetivo de predicción"
* Seleccionar con una lista de columnas, que usamos para seleccionar las "características"

## Seleccionar el objetivo de predicción
Puede extraer una variable con notación de puntos. Esta única columna se almacena en una Serie, que en términos generales es como un DataFrame con una sola columna de datos.

Usaremos la notación de puntos para seleccionar la columna que queremos predecir, que se denomina objetivo de predicción. Por convención, el objetivo de predicción se denomina y. Entonces, el código que necesitamos para guardar los precios de la vivienda en los datos de Melbourne es

In [40]:
y = melbourne_data.Price
print(y)

0        1480000.0
1        1035000.0
2        1465000.0
3         850000.0
4        1600000.0
           ...    
13575    1245000.0
13576    1031000.0
13577    1170000.0
13578    2500000.0
13579    1285000.0
Name: Price, Length: 13580, dtype: float64


## Elegir "Características"

Las columnas que se ingresan en nuestro modelo (y luego se usan para hacer predicciones) se denominan "características". En nuestro caso, esas serían las columnas utilizadas para determinar el precio de la vivienda. A veces, utilizará todas las columnas excepto la de destino como características. Otras veces estará mejor con menos funciones.

Por ahora, construiremos un modelo con sólo unas pocas características. Más adelante verá cómo iterar y comparar modelos creados con diferentes características.

Seleccionamos múltiples funciones proporcionando una lista de nombres de columnas entre paréntesis. Cada elemento de esa lista debe ser una cadena (entre comillas).

Aquí hay un ejemplo:

In [9]:
melbourne_features = ['Rooms', 'Bathroom', 'Landsize', 'Lattitude', 'Longtitude']

Por convención, estos datos se denominan X.

In [41]:
X = melbourne_data[melbourne_features]

Repasemos rápidamente los datos que usaremos para predecir los precios de la vivienda utilizando el método de descripción y el método principal, que muestra las filas superiores.

In [13]:
X.describe()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
count,6196.0,6196.0,6196.0,6196.0,6196.0
mean,2.931407,1.57634,471.00694,-37.807904,144.990201
std,0.971079,0.711362,897.449881,0.07585,0.099165
min,1.0,1.0,0.0,-38.16492,144.54237
25%,2.0,1.0,152.0,-37.855438,144.926198
50%,3.0,1.0,373.0,-37.80225,144.9958
75%,4.0,2.0,628.0,-37.7582,145.0527
max,8.0,8.0,37000.0,-37.45709,145.52635


In [14]:
X.head()

Unnamed: 0,Rooms,Bathroom,Landsize,Lattitude,Longtitude
1,2,1.0,156.0,-37.8079,144.9934
2,3,2.0,134.0,-37.8093,144.9944
4,4,1.0,120.0,-37.8072,144.9941
6,3,2.0,245.0,-37.8024,144.9993
7,2,1.0,256.0,-37.806,144.9954


Verificar visualmente sus datos con estos comandos es una parte importante del trabajo de un científico de datos. Con frecuencia encontrará sorpresas en el conjunto de datos que merecen una inspección más detallada.

# Construyendo su modelo

Utilizará la biblioteca scikit-learn para crear sus modelos. Al codificar, esta biblioteca se escribe como sklearn, como verá en el código de muestra. Scikit-learn es fácilmente la biblioteca más popular para modelar los tipos de datos que normalmente se almacenan en DataFrames.

Los pasos para construir y utilizar un modelo son:

* Definir: ¿Qué tipo de modelo será? ¿Un árbol de decisiones? ¿Algún otro tipo de modelo? También se especifican algunos otros parámetros del tipo de modelo.
* Ajuste: capture patrones a partir de los datos proporcionados. Este es el corazón del modelaje.
* Predecir: justo lo que parece
* Evaluar: determinar qué tan precisas son las predicciones del modelo.

A continuación se muestra un ejemplo de cómo definir un modelo de árbol de decisión con scikit-learn y ajustarlo con las características y la variable objetivo.

In [42]:
from sklearn.tree import DecisionTreeRegressor

# Define model. Specify a number for random_state to ensure same results each run
melbourne_model = DecisionTreeRegressor(random_state=1)

# Fit model
melbourne_model.fit(X, y)

Muchos modelos de aprendizaje automático permiten cierta aleatoriedad en el entrenamiento del modelo. Especificar un número para random_state garantiza que obtendrá los mismos resultados en cada ejecución. Esto se considera una buena práctica. Utilice cualquier número y la calidad del modelo no dependerá significativamente del valor exacto que elija.

Ahora tenemos un modelo ajustado que podemos utilizar para hacer predicciones.

En la práctica, querrás hacer predicciones sobre las casas nuevas que saldrán al mercado en lugar de las casas cuyos precios ya tenemos. Pero haremos predicciones para las primeras filas de los datos de entrenamiento para ver cómo funciona la función de predicción.

In [45]:
print("Making predictions for the following 5 houses:")
print(X.head())
print("The predictions are")
print(melbourne_model.predict(X.head()))

Making predictions for the following 5 houses:
   Rooms  Bathroom  Landsize  Lattitude  Longtitude
0      2       1.0     202.0   -37.7996    144.9984
1      2       1.0     156.0   -37.8079    144.9934
2      3       2.0     134.0   -37.8093    144.9944
3      3       2.0      94.0   -37.7969    144.9969
4      4       1.0     120.0   -37.8072    144.9941
The predictions are
[1480000. 1035000. 1465000.  850000. 1600000.]


In [46]:
# Valores de entrada para la predicción
valores_prediccion = [3, 2, 150, -37.8079, 144.9934]

# Convertir la lista de valores en un array bidimensional
x_prediccion = [valores_prediccion]

# Realizar la predicción
resultado_prediccion = melbourne_model.predict(x_prediccion)

# Imprimir el resultado de la predicción
print(resultado_prediccion)

[1465000.]




In [62]:
#x_p = X.iloc[2]
#print(melbourne_model.predict([x_p]))
x_p = X.iloc[4:5]
print(x_p)

resultado_prediccion = melbourne_model.predict(x_p)

# Imprimir el resultado de la predicción
print(resultado_prediccion)

   Rooms  Bathroom  Landsize  Lattitude  Longtitude
4      4       1.0     120.0   -37.8072    144.9941
[1600000.]
