## Análisis de hosts y sus propiedades
Cada alumno tiene la base de datos de una ciudad. La tarea es fusionar los datos de hosts con sus listings para responder preguntas clave.

## Ejercicio 1: ¿Cuántas propiedades tiene cada host?
Usa groupby() y merge() para unir la información de hosts y calcular cuántas propiedades administra cada uno.

In [None]:
# Cargar los archivos CSV en DataFrames
import pandas as pd 
airbnb = pd.read_csv('../Cambridge.csv')

In [None]:
airbnb.head()

In [None]:
hosts = airbnb[['host_id', 'host_name', 'host_since', 'host_is_superhost', 'host_listings_count']]
listings = airbnb[['host_id', 'id', 'name', 'property_type', 'room_type', 'price']]
print(hosts)
print(listings)





In [None]:
# Merge entre hosts y listings
df_hosts = pd.merge(hosts, listings, on='host_id', how='left')
print(df_hosts)


In [None]:
# Contar cuántas propiedades tiene cada host
df_host_count = df_hosts.groupby(['host_id', 'host_name', 'host_is_superhost'])['id'].count().reset_index()
print(f"Número de propiedades por host: \n{df_host_count}")
df_host_count.rename(columns={'id': 'num_listings'}, inplace=True)

print(f"Número de propiedades por host: \n{df_host_count}")

## ¿Cuáles son los superhosts más activos?
Filtra solo los superhosts (host_is_superhost == 't') y ordena por número de propiedades.

In [None]:
superhosts = df_host_count[df_host_count['host_is_superhost'] == 't']
print(f"Superhosts: \n{superhosts}")
superhosts_sorted = superhosts.sort_values(by='num_listings', ascending=False)
print(f"Los 10 superhosts más activos: \n {superhosts_sorted.head(10)}")  # Los 10 superhosts más activos


## Análisis de precios y tipos de propiedades
Ahora combinaremos datos de precios, tipos de propiedades y ubicación para descubrir tendencias de precios.

¿Cuál es el precio promedio por tipo de propiedad?

In [None]:
import pandas as pd  

# Supongamos que df es tu DataFrame y 'columna' es el nombre de la columna que quieres verificar  
nulos = airbnb['price'].isnull().sum()  
print(f'Cantidad de valores nulos en la columna: {nulos}')  

In [None]:
import numpy as np
# Reemplazar "no data" por NaN
airbnb['price'] = airbnb['price'].replace('No data', np.nan)

# Eliminar filas con valores faltantes en la columna 'price'
airbnb = airbnb.dropna(subset=['price'])

# Convertir la columna a número (eliminando símbolos y comas)
airbnb['price'] = airbnb['price'].str.replace(r'[$,]', '', regex=True).astype(float)

In [None]:
df_price_type = airbnb.groupby('property_type')['price'].mean().reset_index()
df_price_type.sort_values(by='price', ascending=False, inplace=True)

print(f"Precio promedio por tipo de propiedad: \n{df_price_type}")


 ¿Cuál es el barrio más caro?

In [None]:
df_price_neigh = airbnb.groupby('neighbourhood_cleansed')['price'].mean().reset_index()
df_price_neigh.sort_values(by='price', ascending=False, inplace=True)

print(f"Los 10 barrios más caros: \n{df_price_neigh.head(10)}")
