# Práctica Machine Learning KC

## Problema de regresión para predecir el precio de un airbnb 

En este notebook se revisarán los conceptos de:



## 1. Carga de datos, limpieza y división train/test 

En primer lugar, se va a echar un vistazo previo a los datos, eliminando todos aquellos campos que no nos interesen como URLs, reseñas...

Así pues, se han eliminado lo ssiguientes campos del data set original, que se consideran que no aportan valor:
* Listing Url
* Scrape ID
* Last Scraped
* Name (con el ID es suficiente)
* Summary
* Space
* Description
* Experience
* Neighborhood Overview
* Notes
* Transit
* Access
* Interaction 
* House Rules
* Thumbnail Url	
* Medium Url	
* Picture Url	
* XL Picture Url
* Host ID
* Host URL
* Host Name
* Host Since
* Host Location
* Host About
* Host Response Time
* Host Response Rate
* Host Acceptance Rate
* Host Thumbnail Url	
* Host Picture Url	
* Host Neighbourhood
* Host Listings Count	
* Host Total Listings Count	
* Host Verifications
* Street
* Neighbourhood	
* Neighbourhood Cleansed
* State	
* Zipcode	
* Market	
* Smart Location	
* Country Code	
* Country	
* Latitude	
* Longitude
* Bed Type
* Square Feet
* Weekly Price	
* Monthly Price	
* Security Deposit	
* Cleaning Fee	
* Guests Included
* Extra People	
* Minimum Nights
* Maximum Nights
* Calendar Updated	
* Has Availability	
* Availability 30	
* Availability 60	
* Availability 90	
* Availability 365	
* Calendar last Scraped
* First Review	
* Last Review
* Review Scores Accuracy	
* Review Scores Cleanliness	
* Review Scores Checkin	
* Review Scores Communication	
* Review Scores Location	
* Review Scores Value	
* License	Jurisdiction Names
* Cancellation Policy	
* Calculated host listings count

Así pues, nos quedaremos con los siguientes atributos:


| Atributo              | Descripción                                      |
| :-                    | :-                                               |
| *City*                | Ciudad donde se encuentra la vivienda            |
| *Property Type*       | Tipo de propiedad (loft, apartamento, etc.)      |
| *Room Type*           | Tipo de habitación (entera, privada, compartida) |
| *Accommodates*        | Número de personas que puede alojar              |
| *Bathrooms*           | Número de baños/aseos                            |
| *Bedrooms*            | Número de habitaciones                           |
| *Beds*                | Número de camas                                  |
| *Bed Type*            | Tipo de cama (individual, doble, etc.)           |
| *Amenities*           | Servicios y comodidades disponibles              |
| *Number of Reviews*   | Número de reseñas                                |
| *Review Scores Rating*| Puntuación de las reseñas                        |
| *Reviews per Month*   | Número de reseñas por mes                        |
| *Geolocation*         | Ubicación geográfica (latitud y longitud)        |
| *Features*            | Características adicionales                      |
| *Price*               | Precio de la vivienda                            |

A continuación, procedemos a cargar los datos para proceder con su visualización:


In [10]:
# Importamos las librerias necesarias
import numpy  as np
import pandas as pd
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt

%matplotlib inline

In [36]:
house_data = pd.read_csv("./data/airbnb-listings-extract-cleaned.csv", sep=';', encoding = "latin")
print(house_data.shape)
house_data.head(5).T  

(14780, 16)


Unnamed: 0,0,1,2,3,4
ID,11210388,17471131,17584891,5398030,18104606
City,Austin,Barcelona,Barcelona,Barcelona,Barcelona
Property Type,Loft,Apartment,Apartment,Apartment,Apartment
Room Type,Entire home/apt,Entire home/apt,Entire home/apt,Entire home/apt,Entire home/apt
Accommodates,2,4,4,8,5
Bathrooms,10.0,10.0,10.0,20.0,10.0
Bedrooms,1.0,1.0,1.0,3.0,2.0
Beds,1.0,1.0,1.0,4.0,2.0
Bed Type,Real Bed,Real Bed,Real Bed,Real Bed,Real Bed
Amenities,"TV,Cable TV,Internet,Wireless Internet,Air con...","Wireless Internet,Air conditioning,Elevator in...","Wireless Internet,Air conditioning,Elevator in...","TV,Internet,Wireless Internet,Air conditioning...","TV,Wireless Internet,Air conditioning,Kitchen,..."


Visualizando los datos se observan varios problemas que pueden afectar al entrenamiento de los modelos. 

En primer lugar se detecta un número inusualmente de baños, ya que no tiene mucho sentido que un apartamento con capacidad para 2 personas tenga 10 baños. Esto puede deberse a un error en la carga de datos, por eso, se ha confirmado que al importar el csv con excel para eliminar las columnas no deseadas ha habido un error. En el dataset original, el atributo bathrooms es de tipo float e incluía un punto que separaba la parte entera de la decimal. Al importar los datos se ha eliminado el punto que los separaba, por lo que se va a dividir entre 10 todos los valores de este atributo.

In [37]:
house_data['Bathrooms'] = house_data['Bathrooms'] / 10
house_data.head(5).T  

Unnamed: 0,0,1,2,3,4
ID,11210388,17471131,17584891,5398030,18104606
City,Austin,Barcelona,Barcelona,Barcelona,Barcelona
Property Type,Loft,Apartment,Apartment,Apartment,Apartment
Room Type,Entire home/apt,Entire home/apt,Entire home/apt,Entire home/apt,Entire home/apt
Accommodates,2,4,4,8,5
Bathrooms,1.0,1.0,1.0,2.0,1.0
Bedrooms,1.0,1.0,1.0,3.0,2.0
Beds,1.0,1.0,1.0,4.0,2.0
Bed Type,Real Bed,Real Bed,Real Bed,Real Bed,Real Bed
Amenities,"TV,Cable TV,Internet,Wireless Internet,Air con...","Wireless Internet,Air conditioning,Elevator in...","Wireless Internet,Air conditioning,Elevator in...","TV,Internet,Wireless Internet,Air conditioning...","TV,Wireless Internet,Air conditioning,Kitchen,..."


Por lo demás no se observan más errores en la carga, por lo que pasamos a dividir los conjuntos de train y test antes de la imputación y limpieza de datos. Esto se realiza antes para evitar un posible sesgo en los datos, para tener una correcta validación al tener un conjunto de datos de test intactos antes de la evaluación del rendimiento del modelo y una simulación de valores reales. 

Para la separación de los conjuntos se va a utilizar la fuinción `train_test_split` de sklearn. Adicionalmente se va a dividir un 80% en el conjunto de train y un 20% para el conjunto de test, y se va a realizar el suffle para mezclar los datos y evitar el sesgo en caso de que los datos pudieran estar ordenados.


In [39]:
train, test = train_test_split(house_data, test_size=0.2, shuffle=True, random_state=0)

print(f'Dimensiones del dataset de training: {train.shape}')
print(f'Dimensiones del dataset de test: {test.shape}')

# Guardamos
train.to_csv('./data/house_data_train.csv', sep=';', decimal='.', index=False)
test.to_csv('./data/house_data_test.csv', sep=';', decimal='.', index=False)

# A partir de este momento cargamos el dataset de train y trabajamos ÚNICAMENTE con él. 

house_data = pd.read_csv('./data/house_data_train.csv', sep=';', decimal='.')
house_data.head(5).T

Dimensiones del dataset de training: (11824, 16)
Dimensiones del dataset de test: (2956, 16)


Unnamed: 0,0,1,2,3,4
ID,5994463,14136180,15520134,8809721,1162707
City,Madrid,Madrid,Madrid,Madrid,Madrid
Property Type,Apartment,Apartment,Apartment,Apartment,Apartment
Room Type,Entire home/apt,Entire home/apt,Shared room,Private room,Private room
Accommodates,4,4,1,2,2
Bathrooms,1.0,1.0,1.5,3.0,1.0
Bedrooms,1.0,1.0,1.0,1.0,1.0
Beds,2.0,2.0,8.0,1.0,1.0
Bed Type,Real Bed,Real Bed,Real Bed,Real Bed,Real Bed
Amenities,"TV,Internet,Wireless Internet,Air conditioning...","TV,Internet,Wireless Internet,Air conditioning...","Internet,Wireless Internet,Wheelchair accessib...","Wireless Internet,Kitchen,Smoking allowed,Heat...","TV,Cable TV,Internet,Wireless Internet,Air con..."


## 2. Análisis exploratorio

Vamos a proceder al análisis de los datos viendo usando funciones de Pandas para intentar sacar conclusiones a cerca de los datos.

In [40]:
house_data.describe()

Unnamed: 0,ID,Accommodates,Bathrooms,Bedrooms,Beds,Number of Reviews,Review Scores Rating,Reviews per Month,Price
count,11824.0,11824.0,11780.0,11804.0,11787.0,11824.0,9163.0,9285.0,11809.0
mean,10253080.0,3.277486,1.285229,1.34429,2.049122,22.664834,91.628179,163.085407,73.712592
std,5566485.0,2.093973,0.664691,0.90518,1.623489,38.092338,9.137614,183.128112,71.624844
min,19864.0,1.0,0.0,0.0,1.0,0.0,20.0,1.0,9.0
25%,5510692.0,2.0,1.0,1.0,1.0,1.0,89.0,29.0,34.0
50%,11257540.0,3.0,1.0,1.0,2.0,7.0,94.0,88.0,55.0
75%,15319820.0,4.0,1.0,2.0,2.0,27.0,98.0,243.0,87.0
max,18583610.0,16.0,8.0,10.0,16.0,356.0,100.0,1721.0,969.0


El método `describe()` nos arroja los principales valores estadísticos y nos permite sacar las siguientes conclusiones:
1. Vemos que en el conteo de atributos no todas las columnas tienen el valor 11824, por lo que va a ver atributos nulos. Más adelante se decidirá qué hacer con ellos.
2. La fila MAX nos arroja información que puede tratarse de outliers. Por ejemplo, vemos que algún apartamento recibe 1721 reviews al mes, lo cual a priori parece algo elevado, aunque puede ser real ya que suponiendo que tiene una capacidad para 16 huéspedes (el máximo) si cada día cambiara de huéspedes y todo el mes alquilara las 16 plazas, suponiendo que todos los huéspedes dejan una reseña, podría tener como máximo 16 * 30 =  480 reseñas en un mes. 

Para saber qué atributos tienen valores nulos vamos a ejecutar las funciones `isnull().any()`:

In [38]:
house_data.isnull().any()

ID                      False
City                     True
Property Type           False
Room Type               False
Accommodates            False
Bathrooms                True
Bedrooms                 True
Beds                     True
Bed Type                False
Amenities                True
Number of Reviews       False
Review Scores Rating     True
Reviews per Month        True
Geolocation             False
Features                 True
Price                    True
dtype: bool

En función del atributo, vamos a completar los valores nulos con la media o con 0 para valores numéricos y con Unknown en caso de atributos de tipo texto.

### Media
* Bathrooms
* Bedrooms
* Beds
* Price. En este caso nos interesa que sea la media ya que es nuestra variable objetivo.

### Valor 0
* Review Scores Rating
* Reviews per Month 

### Unknown 
* City 
* Amenities
* Features

In [43]:
house_data['Bathrooms'].fillna(house_data['Bathrooms'].mean(), inplace=True)
house_data['Bedrooms'].fillna(house_data['Bedrooms'].mean(), inplace=True)
house_data['Beds'].fillna(house_data['Beds'].mean(), inplace=True)
house_data['Price'].fillna(house_data['Price'].mean(), inplace=True)

house_data['Review Scores Rating'].fillna(house_data['Review Scores Rating'].mode()[0], inplace=True)
house_data['Reviews per Month'].fillna(house_data['Reviews per Month'].mode()[0], inplace=True)

house_data['City'].fillna('Unknown', inplace=True)
house_data['Amenities'].fillna('Unknown', inplace=True)
house_data['Features'].fillna('Unknown', inplace=True)

house_data.isnull().any()
house_data.head(5).T

Unnamed: 0,0,1,2,3,4
ID,5994463,14136180,15520134,8809721,1162707
City,Madrid,Madrid,Madrid,Madrid,Madrid
Property Type,Apartment,Apartment,Apartment,Apartment,Apartment
Room Type,Entire home/apt,Entire home/apt,Shared room,Private room,Private room
Accommodates,4,4,1,2,2
Bathrooms,1.0,1.0,1.5,3.0,1.0
Bedrooms,1.0,1.0,1.0,1.0,1.0
Beds,2.0,2.0,8.0,1.0,1.0
Bed Type,Real Bed,Real Bed,Real Bed,Real Bed,Real Bed
Amenities,"TV,Internet,Wireless Internet,Air conditioning...","TV,Internet,Wireless Internet,Air conditioning...","Internet,Wireless Internet,Wheelchair accessib...","Wireless Internet,Kitchen,Smoking allowed,Heat...","TV,Cable TV,Internet,Wireless Internet,Air con..."
