<center><h1>Proyecto final</h1></center>
<center><h3>IBM SkillsBuild Europa - Análisis de datos</h3></center>

# Requisitos



* Conocimientos de Python, Power BI o Tableau.
* Comprensión de la limpieza de datos.
* Comprensión de la visualización de datos.



#### Nivel de ejercicio: Intermedio



#### Duración: aproximadamente 3 horas


### Análisis de datos de Airbnb:



#### Objetivo:



En este ejercicio, practicarás el análisis de datos sobre un conjunto de datos abiertos procedentes de Airbnb. Algunas de las tareas incluyen:

- limpieza de datos,
- transformación de datos y
- visualización de datos.



#### Resumen sobre los datos de Airbnb:



Los criterios principales de la gente cuando visita lugares nuevos son contar con alojamiento y comida a precios razonables. Airbnb (Air-Bed-Breakfast) es un mercado en línea creado para satisfacer esta necesidad, pues permite a la gente alquilar sus casas durante plazos cortos. Estos servicios se ofrecen a un precio relativamente inferior al de los hoteles y en diversas ubicaciones geográficas. Además, personas de todo el mundo prefieren el servicio hogareño y económico.



#### Fuente de los datos



Puedes obtener el <i>dataset</i> para realizar este proyecto en el siguiente enlace: https://www.kaggle.com/datasets/arianazmoudeh/airbnbopendata



Este <i>dataset</i> contiene información sobre los alojamientos, tal como el barrio, el tipo de habitación, el precio, la disponibilidad, las opiniones, los gastos de servicio, la política de cancelación y las normas de uso de la casa.



¡Te deseamos lo mejor en tu análisis de los datos de Airbnb!

## Tarea 1: Carga de datos (Python)



1. Lee el fichero csv y cárgarlo en un <i>dataframe</i> de pandas.
2. Visualiza las cinco primeras filas de tu <i>dataframe</i>.
3. Visualize los tipos de datos de las columnas.

In [None]:
## Lee el fichero csv.
import pandas as pd
datos = pd.read_csv('Airbnb_Open_Data.csv')

In [None]:
## Muestra las primeras 5 filas.
datos.head(5)

In [None]:
## Muestra los tipos de datos.
datos.dtypes

## Tarea 2a: Limpieza de datos (cualquier herramienta)


1. Elimina las columnas no deseadas del <i>dataframe</i>, entre ellas se incluyen `host id`, `id`, `country` y `country code`.
2. Indica la razón por la cual se han eliminado estas columnas para tu análisis de datos.


Si utilizas Python para este ejercicio, incluye el código que hayas utilizado en las celdas siguientes. Si utilizas cualquier otra herramienta, incluye capturas de pantalla tomadas antes y después de eliminar las columnas.

In [None]:
#Eliminar columnas id, hostid, country, country code (se han eliminado estas columnas ya que solo contienen información que no es relevante)
datos.drop(['id','host id','country','country code'], axis='columns', inplace=True)
datos

## Tarea 2b: Limpieza de datos (Python)


- Compueba si hay valores nulos y muestra el recuento en orden ascendente. **Si faltan valores, imputa los valores como consideres.**
- Comprueba si hay valores duplicados y elimínalos.
- Muestra el número total de registros antes y después de eliminar los duplicados.

In [None]:
## Comprueba si hay valores nulos y muestra el recuento en orden ascendente.
datos.isnull().sum().sort_values(ascending=1)



In [None]:
## Comprueba si hay valores duplicados y elimínalos.
registrosTotales = len(datos.index)
valoresDuplicados = datos.duplicated().sum()
datos = datos.drop_duplicates()
datos



In [None]:
## Muestra el número total de registros antes y después de eliminar los duplicados.
registrosTotales
print('Número de regiestros totales antes ' + str(registrosTotales) + ', número de registros después de eliminar duplicados ' + str(len(datos.index)))


## Tarea 3: Transformación de datos (cualquier herramienta)





- Cambia el nombre de la columna `availability 365` a `days_booked`.
- Convierte todos los nombres de columna a minúsculas y sustituye los espacios en los nombres de columna por un guión bajo "_".
- Elimina el signo de dólares y la coma de las columnas `price` y `service_fee`. Si es necesario, convierte estas dos columnas al tipo de datos adecuado.



Si utilizas Python para este ejercicio, incluye el código que hayas utilizado en las celdas siguientes. Si utilizas cualquier otra herramienta, incluye capturas de pantalla de tu trabajo.

In [None]:
## Cambia el nombre de la columna.
datos.rename(columns={'availability 365': 'days_booked'})









In [None]:
## Convierte todos los nombres de columna a minúsculas y sustituye los espacios por un guión bajo "_".
datos.columns = datos.columns.str.lower().str.replace(' ', '_')
datos







In [None]:
## Elimina el signo de dólares y la coma de las columnas. Si es necesario, convierte estas dos columnas al tipo de datos adecuado.
datos['price'] = datos['price'].str.replace(',', '')
datos['price'] = datos['price'].str.replace('$', '')
datos['service_fee'] = datos['price'].str.replace(',', '')
datos['service_fee'] = datos['service_fee'].str.replace('$', '')
datos['price'].fillna(0, inplace = True)
datos['service_fee'].fillna(0, inplace = True)
datos['price'] = datos['price'].astype(int)
datos['service_fee'] = datos['service_fee'].astype(int)




### Tarea 4: Análisis exploratorio de datos (cualquier herramienta)



- Enumera los tipos de habitaciones disponibles en el <i>dataset</i>.
- ¿Qué tipo de habitación tiene la política de cancelación más estricta?
- Enumera el precio medio por barrio y señala cuál es el conjunto de barrios más caro para alquilar.



Si utilizas Python para este ejercicio, incluye el código que hayas utilizado en las celdas siguientes. Si utilizas cualquier otra herramienta, incluye capturas de pantalla de tu trabajo.

In [None]:
## Enumera los tipos de habitaciones disponibles en Airbnb.
datos['room_type'].value_counts()

In [None]:
## ¿Qué tipo de habitación se adhiere a una política de cancelación más estricta?
datos.loc[datos['cancellation_policy'] == 'strict', 'room_type'].value_counts().head(1)

In [None]:
## Enumera los precios por barrio y menciona también cuál es el grupo de barrios con alquileres más caros.
group1=datos['price'].groupby(datos['neighbourhood_group']).mean().sort_values(ascending=False)
group1

## Tarea 5a: Visualización de datos (Cualquier herramienta)

* Enumerar los distintos tipos de habitaciones disponibles en Airnb
* Qué tipo de habitación se adhiere a una política de cancelación más estricta.
* Enumere los precios por grupo de barrios y mencione también cuál es el grupo de barrios más caro para los alquileres.
* Enumere los 10 barrios más caros por orden creciente de precio con la ayuda de un gráfico de barras horizontales. ¿Cuál es el barrio más barato?
* Enumere los barrios que ofrecen alquileres a corto plazo de menos de 10 días. Ilustrar con un gráfico de barras
* Enumere los precios con respecto al tipo de habitación utilizando un gráfico de barras y exponga también sus inferencias.
* Cree un gráfico circular que muestre la distribución de los días reservados para cada grupo de barrios.

Si utiliza Python para este ejercicio, por favor incluya el código en las celdas de abajo. Si utiliza cualquier otra herramienta, por favor incluya pantallazos de su trabajo.

In [None]:
import seaborn as sns
sns.countplot(x=datos['room_type'])

In [None]:
sns.countplot(datos.loc[datos['cancellation_policy'] == 'strict', 'room_type'])

## Tarea 5b: Visualización de datos (Cualquier herramienta)

* ¿El precio del servicio y el precio de la habitación tienen un impacto mutuo? Ilustre esta relación con un gráfico de dispersión e indique sus inferencias
* Utilizando un gráfico lineal muestre en qué año tuvo lugar la máxima construcción de habitaciones.

Si utiliza Python para este ejercicio, incluya el código en las celdas siguientes. Si utiliza cualquier otra herramienta, incluya capturas de pantalla de su trabajo.

## Tarea 5c: Visualización de datos (Cualquier herramienta)

* Con la ayuda de gráficos de caja ilustra lo siguiente
 * Efecto del número de tasa de revisión en el precio
 * Efecto de la identidad del host verificada en el precio

Si utiliza Python para este ejercicio, por favor incluya el código en las celdas de abajo. Si utiliza cualquier otra herramienta, por favor incluya capturas de pantalla de su trabajo.