# London Airbnb Dataset EDA
___

### Importación de librerías

In [None]:
# Librerías de análisis de datos
import numpy as np
import pandas as pd

# Librerías de visualización
import matplotlib.pyplot as plt
import seaborn as sns

### Exploración básica del dataset

Estas son las variables por entrada que contiene el dataset:
+ **id**: número de identificación de la publicación del alojamiento.
+ **name**: nombre de la publicación del alojamiento. 
+ **host_id**: número de identificación del anfitrión.
+ **host_name**: nombre del anfitrión.
+ **neighbourhood_group**: grupo de barrios.
+ **neighbourhood**:barrio o vecindario. 
+ **latitude**: latitud de la ubicación del alojamiento.
+ **longitude**:longitud de la ubicación del alojamiento.
+ **room_type**: tipo de habitación.
+ **price**: precio.
+ **minimum_nights**: noches mínimas.
+ **number_of_reviews**: cuantas personas han revisado el anuncio.
+ **last_review**: última revisión de la publicación.
+ **reviews_per_month**: promedio de revisión por mes.
+ **calculated_host_listings_count**: recuento de host calculados por un propietario/a.
+ **availability_365**: disponibilidad en los 365 días. 

In [None]:
# Una variable para la ruta, buenas prácticas
path_to_data = "./london_airbnb.csv"

# Importamos el dataset y comprobamos que está correcto
df = pd.read_csv(path_to_data)
df.head()

In [None]:
# Se muestran las últimas entradas.
df.tail()

In [None]:
#Cantidad de entradas y columnas. 
df.shape

Se observa: 
+ 16 columnas. 
+ 85068 entradas.

In [None]:
# Información sobre el dataset
df.info()

Se observa:
+ La columna "neighbourhood_group" se encuentra vacía por lo que no se considerará por falta de datos.
+ EL resto de columnas, en su mayoría, se encuentran completas. A excepción de las columnas: reviews_per_month, last_review, name y host_name.

In [None]:
#Conteo de datos faltantes por columna. 
df.isnull().sum(axis = 0)

Se observa:
+ Las columnas con más datos faltantes son last_review y reviews_per_month, la cantidad es significativa. 

### Creación de nueva tabla
___

In [None]:
# Creando nueva tabla "df_londres" descartando columnas:
df_londres = df.drop(columns=["neighbourhood_group","id", "name","host_id","host_name"])
df_londres.head()

In [None]:
# Se comprueba la eliminación de columnas.
df_londres.shape

Se observa:
+ Se redujo de 16 a 11 columnas.

In [None]:
# Información de nueva tabla "df_londres":
df_londres.info()

In [None]:
# Datos faltantes en porcentaje ordenado de mayor a menor.
df_londres.isnull().mean().sort_values(ascending = False)

Se observa:
+ Falta de datos en las columnas last_review y reviews_per_month. Mismo porcentaje= 23.5177%.

In [None]:
# Identificación de variables:
categoricas = ["neighbourhood", "room_type", "last_review"]
numericas = ["latitude", "longitude", "price", "minimum_nights", "number_of_reviews", "reviews_per_month", "calculated_host_listings_count", "availability_365"]

### Hipótesis y gráficas

Objetivo: análisis de datos y predicción para alquileres de pisos y habitaciones con fines vacacionales. 
___

+ De acuerdo al "neighbourhood" y al "type_room" varía el precio de los alojamientos. 
+ De acuerdo al "number_of_reviews" y "reviews_per_month" se determina los sitios más visitados/solicitados.
+ De acuerdo a la longitud y latitud se puede determinar la ubicación de los alojamientos y el clima (N/S).
+ De acuerdo a la "availability_365" y al "price" se puede determinar la exclusividad del alojamiento. 
+ De acuerdo a las últimas revisiones y el precio se puede determinar las temporadas altas de alojamiento con su precio.

In [None]:
sns.catplot(x ='price', hue ='availability_365', kind ='count', col ='neighbourhood', data = df_londres)

In [None]:
pd.plotting.scatter_matrix(df_londres[numericas], figsize=(12,8))

In [None]:
#Vecindarios más visitados
plt.pie(df_londres["neighbourhood"].value_counts())

In [None]:
#De acuerdo al vecindario se estima el precio del alojamiento. 
sns.relplot(x="neighbourhood", y="price", ci=None, kind="line", data=df_londres, aspect=2, height=20)

Se observa:
+ Los alojamientos que se aproximan a los 220 por noche se encuentran en Lambeth,Islington, Kensington y Chelsea, Westminster y Wandsworth.
+ Los alojamientos que se aproximan a los 200 por noche se encuentran en Enfield, City of London y Greenwich.
+ En el resto de lugares el costo de alojamiento se encuentran en el rango de 60 a 160 por noche.

In [None]:
#De acuerdo al tipo de habitación se estima el precio del alojamiento. 
sns.relplot(x="room_type", y="price", ci=None, kind="line", data=df_londres, aspect=3, height=4)

Se observa:
+ Las habitaciones de hotel son de mayor costo y le sigue los alquileres de casa o apartamento.
+ Mientras las habitaciones compartidas o privadas son de menor costo. 

In [None]:
sns.scatterplot(data=df_londres, x="neighbourhood", y="price")

In [None]:
df[numericas].hist(bins=50, figsize=(20,15))

In [None]:
sns.catplot(x ='price', hue ='room_type', kind ='count', col ='neighbourhood', data = df)

In [None]:
sns.catplot(x="number_of_reviews", y="price", data=df_londres, kind="bar", aspect=3, height=6)
plt.xticks(rotation=90)
plt.grid(axis='x')
plt.grid(axis='y')
plt.show()

In [None]:
sns.catplot(x="availability_365", y="price", data=df_londres, kind="bar", aspect=3, height=6)
plt.xticks(rotation=90)
plt.grid(axis='x')
plt.grid(axis='y')
plt.show()

In [None]:
sns.scatterplot(data=df_londres, x="latitude", y="longitude", hue="neighbourhood")