# Práctica 2: Aprendizaje automático

__Fecha de entrega: 16 de mayo de 2021__

El objetivo de esta práctica es aplicar los distintos algoritmos de aprendizaje automático disponibles en la scikit-learn [sklearn](https://scikit-learn.org/stable/) sobre varios conjuntos de datos y aprender a interpretar los resultados obtenidos. La práctica consta de 3 notebooks que se entregarán simultáneamente en la tarea de entrega habilitada en el Campus  Virtual.

Lo más importante en esta práctica no es el código Python, sino el análisis de los datos y modelos que construyas y las explicaciones razonadas de cada una de las decisiones que tomes. __No se valorarán trozos de código o gráficas sin ningún tipo de contexto o explicación__.

Finalmente, recuerda establecer el parámetro `random_state` en todas las funciones que tomen decisiones aleatorias para que los resultados sean reproducibles (los resultados no varíen entre ejecuciones).

In [None]:
# Fijamos el parámetro RANDOM_STATE
RANDOM_STATE = 333

# Parte 3: Regresión

__Número de grupo: 15__

__Nombres de los estudiantes:__
- Daniela Alejanda Córdova
- David Bugoi
- Erik Karlgren Domercq

En este notebook trabajaremos con una colección de datos de alquileres de Airbnb en Amsterdam. El objetivo de este problema es entrenar una red neuronal capaz de predecir el precio del alojamiento a partir de un conjunto de características.

## 1) Descripción de los datos

Carga el fichero de datos `airbnb.csv` en un dataframe. Describe el conjunto de datos y trata de interpretar el significado de cada una de las variables. Estudia la distribución de precios.

### Descripción del conjunto de datos

In [5]:
import pandas as pd

df = pd.read_csv (r'airbnb.csv')
df

Unnamed: 0,accommodates,bathrooms,bedrooms,guests_included,host_listings_count,latitude,longitude,minimum_nights,number_of_reviews,distance_centre,instant_bookable,entire_home,private_room,shared_room,price
0,4,2.0,2.0,1,1.0,52.358466,4.933843,2,8,3.279483,0,1,0,0,160.0
1,4,1.0,2.0,2,1.0,52.363589,4.983353,3,0,5.951843,0,1,0,0,120.0
2,2,1.0,1.0,1,1.0,52.375209,4.861647,3,8,2.601055,0,1,0,0,99.0
3,2,1.0,1.0,1,1.0,52.387382,4.890457,2,41,1.095138,0,0,1,0,100.0
4,2,1.0,1.0,1,1.0,52.384062,4.889877,3,0,0.844491,0,1,0,0,175.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14993,2,1.0,1.0,1,43.0,52.382970,4.873389,3,10,1.815773,0,1,0,0,140.0
14994,4,1.0,2.0,1,1.0,52.347479,4.833644,4,2,5.687407,1,1,0,0,120.0
14995,2,1.0,1.0,1,1.0,52.370400,4.918489,1,5,1.620395,0,1,0,0,120.0
14996,3,1.0,1.0,1,1.0,52.389637,4.879580,2,7,1.777881,0,1,0,0,95.0


In [7]:
df.describe().transpose()

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
accommodates,14998.0,2.880317,1.298492,1.0,2.0,2.0,4.0,17.0
bathrooms,14998.0,1.116215,0.343442,0.0,1.0,1.0,1.0,8.0
bedrooms,14998.0,1.390919,0.839649,0.0,1.0,1.0,2.0,10.0
guests_included,14998.0,1.499333,0.940643,1.0,1.0,1.0,2.0,16.0
host_listings_count,14998.0,3.372316,11.203593,0.0,1.0,1.0,1.0,106.0
latitude,14998.0,52.365312,0.015765,52.290308,52.355582,52.36496,52.374805,52.426224
longitude,14998.0,4.889033,0.03501,4.753513,4.864839,4.88637,4.907953,5.027689
minimum_nights,14998.0,2.885051,7.252271,1.0,2.0,2.0,3.0,523.0
number_of_reviews,14998.0,17.79744,34.766613,0.0,2.0,7.0,18.0,496.0
distance_centre,14998.0,2.998582,1.610995,0.115801,1.948924,2.841338,3.577086,11.842162


Tenemos los datos de unos 14.998 apartamentos disponibles para alquiler en Amsterdam, y de cada uno tenemos 15 características que queremos usar para predecir el precio de cualquier apartamento de la ciudad.

### Significado de cada variable
Para deducir el significado de algunas de estas variables nos ha servido consultar foros y páginas oficiales de Airbnb.
- **Accomodates:** Número de huéspedes que caben o pueden quedarse en el apartamento.
- **Bathrooms:** Número de cuartos de baño del apartamento.
- **Bedrooms:** Número de dormitorios.
- **Guests included:** Número de invitados que pueden traer los huéspedes.
- **Host listings count:** Puede que el número de anfitriones
- **Latitude & Longitude:** Coordenadas del apartamento en latitud y longitud respectivamente.
- **Minimum nights:** Mínimo número de noches de una estancia.
- **Number of reviews:** Número de valoraciones del apartamento.
- **Distance centre:** Distancia al centro de la ciudad (probablemente en kilómetros).
- **Instant bookable:** 1 si se puede reservar el apartamento inmediatamente, 0 en caso contrario.
- **Entire home:** 1 si se alquila la casa entera, 0 en caso contrario.
- **Private room:** 1 si se tiene una habitación privada, 0 en caso contrario.
- **Shared room:** 1 si la habitación es compartida, 0 en caso contrario.
- **Price:** Precio del alquiler en € (posiblemente sea el precio por noche).

### Estudio de la distribución de precios
Como queremos predecir los precios

## 2) Selección de variables

Calcula los coeficientes de correlación de Pearson entre la variable de salida y el resto de variables. Crea un nuevo dataframe que contenga el precio y, además, las variables que estén relacionadas con él por un valor de correlacción de al menos 0.2 (de forma directa o inversa).

## 3) Normalización

Decide si debes o no normalizar los datos. En caso afirmativo elige razonadamente entre escalarlos o estandarizarlos.

Si decides escalar los datos deberás crear dos `scalers` distintos, uno para el array con la descripción de los pisos y otro para el array con el precio. Lo hacemos de este modo porque así podremos desescalar las predicciones más fácilmente.

## 4) Entrenamiento y selección

Crea dos redes neuronales de tipo Perceptrón Multicapa:
- La primera con una capa oculta de 200 neuronas
- La segunda con dos capas ocultas cada una de 100 neuronas

Pinta la curva de aprendizaje para cada red variando el parámetro `alpha` que controla el coeficiente de regularización L2 y determina el valor óptimo usando validación cruzada. Asegúrate de que no salen warnings indicando que no se ha alcanzado la convergencia durante el entrenamiento (basta con poner un número de max_iter suficientemente grande).

¿Alguna de las dos redes domina a la otra? ¿Por qué crees que se producen las diferencias?

## 5) Medición del error

Elige la mejor configuración del apartado anterior y usa la función `cross_val_predict` para realizar una predicción del valor de todos los establecimientos usando validación cruzada. ¿Cuál es el error medio del modelo en euros? ¿Crees que el modelo es suficientemente bueno?

Pinta la distribución del error en euros y el diagrama de dispersión de la predicción frente al valor real. ¿El modelo comete los mismos tipos de errores en establecimientos de distintos precios? ¿Por qué crees que se producen esos errores?