#Descripción del dataset
\
**Dataset original:** [Inside Airbnb](https://public.opendatasoft.com/explore/dataset/airbnb-listings/export/?disjunctive.host_verifications&disjunctive.amenities&disjunctive.features&q=Madrid&dataChart=eyJxdWVyaWVzIjpbeyJjaGFydHMiOlt7InR5cGUiOiJjb2x1bW4iLCJmdW5jIjoiQ09VTlQiLCJ5QXhpcyI6Imhvc3RfbGlzdGluZ3NfY291bnQiLCJzY2llbnRpZmljRGlzcGxheSI6dHJ1ZSwiY29sb3IiOiJyYW5nZS1jdXN0b20ifV0sInhBeGlzIjoiY2l0eSIsIm1heHBvaW50cyI6IiIsInRpbWVzY2FsZSI6IiIsInNvcnQiOiIiLCJzZXJpZXNCcmVha2Rvd24iOiJyb29tX3R5cGUiLCJjb25maWciOnsiZGF0YXNldCI6ImFpcmJuYi1saXN0aW5ncyIsIm9wdGlvbnMiOnsiZGlzanVuY3RpdmUuaG9zdF92ZXJpZmljYXRpb25zIjp0cnVlLCJkaXNqdW5jdGl2ZS5hbWVuaXRpZXMiOnRydWUsImRpc2p1bmN0aXZlLmZlYXR1cmVzIjp0cnVlfX19XSwidGltZXNjYWxlIjoiIiwiZGlzcGxheUxlZ2VuZCI6dHJ1ZSwiYWxpZ25Nb250aCI6dHJ1ZX0%3D&location=16,41.38377,2.15774&basemap=jawg.streets)

\
**Información del dataset** 

El dataset contiene un conjunto, independiente y no comercial, de herramientas y datos para explorar cómo se utiliza realmente Airbnb en ciudades de todo el mundo. Para la práctica solo utilizaremos los 14,780 registros correspondientes a la ciudad de Madrid.

\
**Descripción de columnas seleccionadas**


* ID: Número de identificación de la propiedad.
* Name: Nombre descriptivo con el que se oferta la propiedad.
* Description: Descripción de la propiedad.
* Host ID: Número de identificación del host.
* Host Since: Fecha de registro del host en la aplicación. 
* Host Location: Ubicación geográfica del host.
* Host Response Rate: Porcentaje de respuesta del host (no hay datos de cómo se calcula).
* Host Total Listings Count: Número de espacios listados por un host.
* Neighbourhood Cleansed Vecindario en que se ubica el apartamento.
* City: Ciudad del inmueble.
* Zipcode: Código Postal del inmueble.
* Country: País del inmueble.
* Latitude: Latituden del inmueble.
* Longitude: Longitud del inmueble.
* Property Type: Tipo de inmueble.
* Room Type: Tipo de espacio ofertado en la plataforma.
* Accommodates: Número de huéspedes máximo.
* Bathrooms: Número de baños.
* Bedrooms: Numero de habitaciones.
* Beds: Número de camas.
* Bed Type: Tipo de cama.
* Amenities: Amenidades.
* Price: Precio de renta por día.
* Weekly Price: Precio de renta por semana.
* Monthly Price: Precio de renta por mes.
* Security Deposit: Depósito de seguridad.
* Cleaning Fee: Tasa de limpieza.
* Guests Included: Huéspedes incluidos en la reserva.
* Extra People: Personas extra.
* Minimum Nights: Número de noches mínimas en que puede alquilarse.
* Maximum Nights: Número de noches máximas en que puede alquilarse.
* Number of Reviews: Número de reseñas de espacio.
* Review Scores Rating: Puntuación del espacio (tampoco indica cómo se calcula).
* Cancellation Policy: Política de cancelación.
* Geolocalización: Longitud y Latitud del inmueble.


\
**Anotaciones:**

* Se cambio Host Response Time por Host Response Rate porque la primera es categorica y la segunda numérica.

* Accommodates y Guests Included son una suposición, hay que verificar que los datos correspondan con estas.

* Se quitaron los campos: 'Features', 'Reviews per Month' y se agregó 'Host Total Listings Count'.


#Importación de las librerías

In [None]:
#Procesamiento
import pandas as pd
import numpy as np

#Visualización
import seaborn as sns
import matplotlib as plt

In [None]:
pd.options.display.float_format = '{:.2f}'.format
pd.set_option('max_columns', None)

#Cargar datos

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
df = pd.read_csv("/content/drive/MyDrive/Proyecto Final KC Data/airbnb-listings.csv", sep=";")

#Visualizar datos del dataset

Tamaño del inicial del dataset


**Filas:** 14780\
**Columnas:** 89

In [None]:
df.shape

(14780, 89)

In [None]:
#Primeras 5 lineas:
df.head()

In [None]:
#Últimas 5 líneas:
df.tail()

In [None]:
#Líneas al azar:
df.sample(5)

In [None]:
df['Host Response Time'].unique()
#Tal vez esta variables se podría estandarizar para que cada valor sea equivalente a un numero.

#Análisis Exploratorio de Datos (EDA)

Análisis para conocer el comportamiento de los datos.


Nota: Es recomendable realizarlo antes de comenzar con la limpieza.

In [None]:
#Resumen de los datos:
df.info()

Anotaciones:

Tipos de dato

*   Numéricos: 23 tipo float64, 13 tipo int64.
*   No numéricos: 53 tipo object.



In [None]:
#Resumen estadístico de los datos numéricos:
df.describe(include=[np.number]).T

In [None]:
#Resumen de variables categóricas ('top' indica el dato que más se repite y 'freq' su frecuencia en la columna en específico):
df.describe(include="O")

In [None]:
#Buscar valores únicos de ciertas columnas:
df['Country'].unique()

In [None]:
list(df['City'].unique())

In [None]:
df['Property Type'].unique()

In [None]:
df['Host Since'].unique()

In [None]:
df['Price'].median()

In [None]:
#Análisis univariable de 'Host Response Rate'
df['Host Response Rate'].describe()

In [None]:
sns.histplot(data= df, x='Host Response Rate', stat="percent", discrete=True, kde= True)

Anotaciones:


*   Hay datos de otros países y ciudades, no solo de Madrid.
*   En la columna ciudad podemos encontrar diversas formas de referirse a Madrid.


#Limpieza de datos

Eliminación de columnas:

In [None]:
df.columns

In [None]:
#Seleccionar columnas a conservar
to_keep = ['ID', 'Name', 'Description', 'Host ID', 'Host Since', 'Host Location', 'Host Response Rate', 'Host Total Listings Count',
           'Neighbourhood Cleansed', 'City', 'Zipcode', 'Country', 'Latitude', 'Longitude', 'Property Type',
           'Room Type', 'Accommodates', 'Bathrooms', 'Bedrooms', 'Beds', 'Bed Type', 'Amenities', 'Price', 'Weekly Price',
           'Monthly Price', 'Security Deposit', 'Cleaning Fee', 'Guests Included', 'Extra People', 'Minimum Nights', 
           'Maximum Nights', 'Number of Reviews', 'Review Scores Rating', 'Cancellation Policy', 'Geolocation']

In [None]:
#Eliminar columnas:
df.drop(columns=[col for col in df if col not in to_keep], inplace=True)

In [None]:
#Verificar que se eliminaron correctamente:
df.head()
len(df.columns)

Filtrado de datos para la ciudad de Madrid:

In [None]:
#Número de valores nulos en la columna 'Ciudad'
df['City'].isnull().sum()

In [None]:
#Inspeccionar las filas en las cuales se localizaron los nulos.
df[df['City'].isna()]

In [None]:
#Como se verificó que los NaN pertenecen a Madrid, se reemplaza el por el valor correcto.
df['City'].fillna('Madrid', inplace=True)

In [None]:
#Filtrado y reasignación de la modificación al df:
substring = 'mad'
df = df[df['City'].str.lower().str.contains(substring.lower())]

Dimensiones del dataframe después de filtrar los datos correspondientes a Madrid

**Filas:** 13253

**Columnas:** 36

In [None]:
df.shape

Valores nulos:

In [None]:
#Conteo de valores nulos por columna:
datos_nulos = df.isnull().sum()
datos_nulos

In [None]:
#Porcentaje de valores nulos por columna:
porcentaje_nulos = df.isnull().mean().round(4) * 100
porcentaje_nulos

Inspección y reemplazo de nulos:

In [None]:
#Para Weekly Price:
df['Weekly Price'].fillna(0.0, inplace=True)

In [None]:
#Para Monthly Price:
df['Monthly Price'].fillna(0.0, inplace=True)

In [None]:
#Para Security Deposit:
df['Security Deposit'].fillna(0.0, inplace=True)

In [None]:
#Para Cleaning Fee:
df['Cleaning Fee'].fillna(0.0, inplace=True)

In [None]:
# Para reemplazar Rates:
df['Review Scores Rating'].fillna(df['Review Scores Rating'].median(), inplace = True)

In [None]:
#Para Host Response Rate:
df['Host Response Rate'].fillna(100.0, inplace=True)

Inspección y reemplazo en 'Description':

In [None]:
df[df['Description'].isna()]

In [None]:
df['Description'].fillna('Sin Descripción', inplace=True)

Inspección y reemplazo en 'Host Since':

In [None]:
df[df['Host Since'].isna()]

In [None]:
#Pensar cómo reemplazar porque es una fecha

Inspección y reemplazo en 'Host Location':

In [None]:
df[df['Host Location'].isna()]

In [None]:
df['Host Location'].fillna('Sin Ubicación', inplace=True)

Inspección y reemplazo en 'Host Total Listings Count':

In [None]:
df[['ID', 'Host Total Listings Count']]

In [None]:
df['Host Total Listings Count'].fillna(1.00, inplace=True)

Inspección y reemplazo en 'Bathrooms':

In [None]:
#Inspeccionando columnas:
df[df['Bathrooms'].isna()][['Description','Bathrooms', 'Property Type']]

In [None]:
df['Property Type'].unique()

In [None]:
#Filtrado de datos
nan_bathrooms = df['Bathrooms'].isna()
df_filtered = df[nan_bathrooms]
df_filtered

In [None]:
#Aplicación de filtros:

#Cambia NaN por 0 si es Dormitorio
df_filtered.loc[(df_filtered['Property Type'] == 'Apartment') | (df_filtered['Property Type'] == 'House'), 'Bathrooms'] = 1.00

#Cambia NaN por 1 si es Casa o Apartamento
df_filtered.loc[(df_filtered['Property Type'] == 'Bed & Breakfast') | (df_filtered['Property Type'] == 'Dorm') | (df_filtered['Property Type'] == 'Boat'), 'Bathrooms'] = 0.00

In [None]:
#Actualizando los cambios en el dataframe:
df.update(df_filtered)

Inspección y reemplazo de nulos en 'Beds':

In [None]:
df['Beds'].fillna(1.00, inplace=True)

Inspección y reemplazo de nulos en 'Bedrooms':

In [None]:
#Inspección de columnas:
df[df['Bedrooms'].isna()][['Bedrooms','Property Type', 'Description']]

In [None]:
#Reemplazo:
df['Bedrooms'].fillna(1.00, inplace=True)

Anotaciones:


*   Se cambió arbitrariamente el NaN por 1 porque la cantidad de columnas no es proporcionalmente significativa.




Inspección y reemplazo de nulos en Zipcode:

In [None]:
#Inspeccionar filas con NaN en ZipCode
df[df['Zipcode'].isna()]

In [None]:
df.loc[df['Zipcode'].isna(), ['Zipcode', 'Neighbourhood Cleansed']]

Anotaciones:

*   Cada Neighbourhood tiene más de un Zipcode.

In [None]:
valores_unicos = df['Neighbourhood Cleansed'].unique()
len(valores_unicos)

126

Valores únicos en 'Neighbourhood Cleansed': 126

In [None]:
#Crea un nuevo df solo con las columnas seleccionadas excluyendo los NaN:
zipcodes = df[['Neighbourhood Cleansed', 'Zipcode']].dropna()

In [None]:
#Dado que a cada Neighbourhood le corresponde más de un Zipcode, nos quedamos solo con el primer registro.
grouped = zipcodes.groupby('Neighbourhood Cleansed').agg({'Zipcode': 'first'})

In [None]:
grouped

In [None]:
len(grouped)

El número de elementos en grouped correcpode con los valores únicos de Neighbourhood Cleansed: 126

In [None]:
#Se establece Neighbourhood Cleansed como índice para poder usarse como key en el diccionario.
grouped = grouped.reset_index().set_index('Neighbourhood Cleansed')

In [None]:
#Convertimos grouped en diccionario
zipcodes_dict = grouped['Zipcode'].to_dict()

In [None]:
# Reemplazamos los nulos en Zipcode:
df['Zipcode'].fillna(df['Neighbourhood Cleansed'].map(zipcodes_dict), inplace=True)

Inspección y reemplazo de nulos en 'Price':

In [None]:
df[df['Price'].isna()]

In [None]:
#Dado que la variable 'Price' es la más importante para la actvidad, eliminaré los 9 registros que no contienen ese dato.
df.dropna(subset=['Price'], inplace=True)

Inspección y reemplazo de nulos en 'Host Since':

In [None]:
df[df['Host Since'].isna()]

In [None]:
df['Host Since'].fillna('9999-99-99', inplace=True)

Inspección y reemplazo provisional de nulos en 'Amenities':

In [None]:
df['Amenities'].fillna('Sin información', inplace=True)

#Guardar el archivo modificado en un nuevo .csv

In [None]:
df.to_csv('/content/drive/My Drive/Proyecto Final KC Data/airbnb_cleansed_preliminar.csv', index=False)

## T
ransformación de la columna Amenities

In [None]:
pd.DataFrame(df['Amenities']).head(5)

In [None]:
have_tv = (df['Amenities'].str.contains('TV', na=False).sum())

In [None]:
#Este dataframe solo contiene inmuebles que tienes TV
df[df['Amenities'].str.contains('TV', na=False)].head(3)

In [None]:
#Se podría crear una nueva columna que almacene True o False en función de si el inmueble posee o no determinado amenities. 
df['Has TV'] = df['Amenities'].str.contains('TV', na=False)
df.sample(3)