# Air Bnb Open Dataset

Airbnb es una empresa estadounidense que facilita un mercado en línea para alquileres de alojamientos, principalmente casas de particulares para vacaciones, y también ofrece actividades turísticas. Su plataforma, disponible tanto en su sitio web como en su aplicación móvil, conecta a viajeros con anfitriones que ofrecen sus propiedades. Airbnb no es dueño de las propiedades que se ofrecen; su ganancia proviene de las comisiones que recibe por cada reserva realizada. Fundada en 2008, Airbnb es una abreviatura de su nombre original, AirBedandBreakfast.com.

## El Dataset
El conjunto de datos con el que trabajaras forma parte de la iniciativa Airbnb Inside y proporciona información sobre los anuncios de alojamientos en casas particulares en la ciudad de Nueva York. Este conjunto de datos incluye detalles sobre los anuncios, como descripciones completas y puntuaciones de reseñas promedio, reseñas de usuarios con identificación única y comentarios detallados, y calendarios con información de precios y disponibilidad para cada anuncio y día.

## Tarea 1: Iniciacion en EDA

### Paso 1
 Comencemos famializandonos con el dataset. Cargue y familiaricece con la informacion que se encuentra almacenada. Con esto, nos referimos a conocer los tipos de datos con los cual cuenta este datset, así como los nombres de cada columnas. Al mismo tiempo, hagase una idea de lo que contiene cada columna, obteniendo un vista de algunas filas del dataset.

 [Descarga el dataset aqui](https://drive.google.com/file/d/16Z1rpnVm_NQ5ljiIZfSGzHAiNlUXL0x4/view)

 [Pandas Cheat Sheet](https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf)

In [None]:
# Cargar el dataset
# librerias necesarias

airbnb = # cargar dataset

In [None]:
# Veamos algunas filas


In [None]:
# Informacion sobre las columnas y el tipo de dato asociado a ellas



### Paso 2
Siguiendo con un análisis preliminar de nuestro dataset, genere un vista estadìstica descriptiva, tanto para variables numéricas como para las categóricas.

In [None]:
# Estadisticas de las Variables Numericas del dataset


In [None]:
# Estadisticas de las Variables categoricas del dataset


## Paso 3

Reemplace todas aquelas columnas con espacio entre las palabras con "_". Adicionalmente, deje todos los nombre en minúsculas.

## Tarea 2: Limpieza de Datos - Manejo de Valores Faltantes


Ahora que tienes una idea general de lo que hay en el dataset, deberás corregir los problemas que este tiene.

1. Identifica las columnas con valores faltantes.
2. Decide una estrategia para manejarlos (por ejemplo, imputación con la media/mediana, eliminar la columna, eliminar filas con valores faltantes en columnas críticas). Justifica tus elecciones.

He aqui una sugerencia de estrategia a seguir:

- Eliminar la columna: Si una columna tiene un porcentaje muy alto de valores faltantes (por ejemplo, más del 50%) y/o no es crucial para el análisis, eliminarla puede ser la mejor opción.
- Imputación: Si una columna tiene un porcentaje moderado de valores faltantes y es importante, puedes imputar los valores faltantes. Considera diferentes estrategias de imputación:
  - Media/Mediana: Para columnas numéricas, imputar con la media o la mediana puede ser apropiado. La mediana es más robusta a los valores atípicos.
  - Moda: Para columnas categóricas, imputar con la moda (el valor más frecuente) es una opción.
  - Valor específico: En algunos casos, puede tener sentido imputar con un valor específico que tenga significado en el contexto del problema.
- Eliminar las filas: Si una columna tiene pocos valores faltantes y es muy importante, puedes optar por eliminar las filas que tengan valores faltantes en esa columna. Sin embargo, ten cuidado de no eliminar demasiadas filas, ya que esto podría sesgar los resultados.
- Dejar como está (con justificación): En algunos casos, puede que no sea necesario hacer nada y se pueda trabajar con los valores faltantes. Esto debe justificarse.


In [None]:
# Verificar valores faltantes


id                                     0
name                                 250
host_id                                0
host_identity_verified               289
host_name                            406
neighbourhood_group                   29
neighbourhood                         16
lat                                    8
long                                   8
country                              532
country_code                         131
instant_bookable                     105
cancellation_policy                   76
room_type                              0
construction_year                    214
price                                247
service_fee                          273
minimum_nights                       409
number_of_reviews                    183
last_review                        15893
reviews_per_month                  15879
review_rate_number                   326
calculated_host_listings_count       319
availability_365                     448
house_rules     

In [None]:
# a. Eliminar columnas con muchos valores faltantes


# b. Imputar con la mediana (ej: 'minimum nights')


# c. Imputar con la moda (ej: 'neighbourhood group')


# d. Eliminar filas con valores faltantes en columnas importantes (ej: 'price')


#e. Llenar valores nulos de 'review rate number' con 0. Asumimos que si no tiene review rate number es porque no tiene reviews.


#f. Llenar valores nulos de 'reviews per month' con 0. Asumimos que si no tiene reviews per month es porque no tiene reviews.


#g. Para 'last review', 'host name', 'country', 'country code', 'NAME', 'host_identity_verified', 'neighbourhood', 'Construction year', 'service fee', 'number of reviews', 'availability 365' y 'house_rules' se podría hacer un analisis mas profundo de que valores ponerles.
#Por ahora se imputaran por 'unknown' las columnas de tipo object y por 0 las de tipo numérico.
for col in airbnb.columns:
    if airbnb[col].dtype == 'object':
        airbnb[col] = airbnb[col].fillna('unknown')
    elif airbnb[col].dtype in ['int64', 'float64']:
        airbnb[col] = airbnb[col].fillna(0)

# 3. Verificar que no queden valores faltantes (o al menos en las columnas críticas)
print(airbnb.isnull().sum())



## Tarea 3: Agrupaciond de datos

### Paso 1

Para los datos categoricos, conozcamos como estos se distribuyen. Para ello:

1. Identifica las columnas de tu conjunto de datos que contienen la información relevante para tu análisis. ¿Qué quieres investigar o comprender mejor?
2. Utiliza la función `groupby()` para crear grupos basados en los valores de una o varias columnas. Esta agrupación te permitirá comparar y analizar subconjuntos de datos de manera individual.
3. Aplica una función de agregación como `count()`, `mean()`, `sum()`, `median()` o similar para obtener un resultado numérico para cada grupo.

Realiza los sigueintes análisis

In [None]:
# Distribucion de viviendas segun año de contruccion. Para ello, debe contar el numero de registros según el año de construcción.


In [None]:
# Barrios con mayor numero de viviendas para arriendo. Cuente el número de registros y agrupelos por barrio de forma descendente.


In [None]:
# Tipo de alojamiento predominante. Cuente el número de registros y agrupelos por el tipo de alojamiento (room_type).



### Paso 2. Agrupación a dos variables

En el siguiente ejercicio, obtendremos estadísticas combiando dos varaibles al mismo tiempo.

A modo de ejemplo, utilizaremos las columnas `neighbourhood` y `review rate number` para determinar el top 5 de vecindarios con el mejor review promedio.  Cada lugar debe tener al menos un review en total.


In [None]:
df = airbnb.loc[airbnb['review_rate_number'] > 1]
df[['neighbourhood','review_rate_number']].groupby('neighbourhood')['review_rate_number'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,review_rate_number
neighbourhood,Unnamed: 1_level_1
Glen Oaks,4.500000
Co-op City,4.400000
Gerritsen Beach,4.333333
Emerson Hill,4.142857
Huguenot,4.111111
...,...
Lighthouse Hill,2.666667
Jamaica Hills,2.666667
Fort Wadsworth,2.000000
Willowbrook,2.000000


## Tus Propios analisis.

Siguiendo el ejemplo anterior, aplica las siguiente agrupaciones.

In [None]:
# Convertir 'price' y 'service fee' a data numerico. Hint: Utilice el método replace().

In [None]:
### Barrio más costoso
# Obtenga el costo promedio de alojamiento según el barrio de la ciudad.

In [None]:
### Barrio con el service fee más alto
# Obtenga el costo promedio de fee según el barrio de la ciudad.

In [None]:
### Barrio con mayor reviews
# Determine el barrio con el mayor número de reviews en la ciudad. Para ello, y para cada barrio, debe suma todo los review de las propiedades dentro de ese barrio.

In [None]:
### Politicas de Cancelacion
# Escoja un bario, el de su preferencia, y conozca las políticas de cancelacion predominante entre las propiedades del barrio escogido