# Dentro de Airbnb, explorando conjunto de datos


**Explorando Buenos Aires a trav√©s de los Datos de Airbnb (Julio-Agosto- Septiembre 2023)**

Buenos Aires, Argentina, es una ciudad que nunca deja de sorprender. En el invierno de 2023, miles de viajeros exploraron sus calles, disfrutaron de su cultura y se sumergieron en experiencias √∫nicas. Descubriremos esta hermosa ciudad a trav√©s de los datos de Airbnb recopilados durante el trimestre de julio a septiembre de 2023.
En este informe, abordaremos el proceso de an√°lisis y responderemos algunas preguntas claves.

Antes de comenzar cualquier an√°lisis, es fundamental identificar las fuentes de datos disponibles.

ref: http://insideairbnb.com/get-the-data/

El siguiente conjunto de datos que exploraremos contiene datos sobre Airbnb en Buenos Aires, Argentina, (Per√≠odo: Julio - Agosto - Septiembre 2023).
Informaci√≥n resumida y m√©tricas para Buenos Aires.

`argentina.csv`

Trataremos de obtener algunas respuestas:
- Total de alojamientos realizados
- Alojamientos por tipo de habitaci√≥n
- Cantidad de propietarios
- Promedio del precio
- Promedio del precio por tipo de alojamiento
- Promedio de ingresos
- Cantidad y % de alojamientos relizados por barrio
- Cantidad de alojamientos que tuvo cada anfitri√≥n
- % de propietarios con un alojamiento
- Anfitriones Top
- Mapa interactivo de los alojamientos realizados en BsAs
- Algunas conclusiones...
- Visualizaci√≥n final

## 1- Descarga de los datos

Librer√≠as

In [None]:
# importar los m√≥dulos para el an√°lisis de datos: pandas y numpy
import numpy as np  # para c√°lculos en Python
import pandas as pd # para estructura de datos
import plotly.express as px
import matplotlib.pyplot as plt
import seaborn as sns
import ipywidgets as widgets
from IPython.display import display

In [None]:
## seleccionar la ruta del dataset "df_argentina.csv"
path='.../argentina.csv'
df_argentina = pd.read_csv(path)
print('Datos descargados y le√≠dos con √©xito!')

In [None]:
# osbservamos los primeros cinco elementos
df_argentina.head()

In [None]:
# los √∫ltimos cinco elementos
df_argentina.tail()

In [None]:
# analizamos la dimensi√≥n del dataframe
print(df_argentina.shape)

In [None]:
# breve resumen del dataframe
df_argentina.info(verbose=False)

In [None]:
# informaci√≥n general del dataframe
print('Cantidad de Filas y columnas:', df_argentina.shape, '\n')
print('Nombre de las columnas:',df_argentina.columns, '\n')
print('Informaci√≥n sobre el dataset:', '\n')
df_argentina.info()

In [None]:
# √≠ndices utilizados
df_argentina.index

## 2- Limpieza de los datos

In [None]:
# buscar duplicados
df_argentina.duplicated().value_counts

In [None]:
# identificar valores faltantes
df_argentina.isnull().values.any()

Dado que el resultado es True podemos confirmar que existen valores faltantes.
Visualicemos a continaci√≥n cuales son las columnas con valores faltantes.

In [None]:
print(df_argentina.isnull().sum())

Seg√∫n el resultado, podemos afirmar que:

- La variable **"neighbourhood_group"** contiene **29,346 registros vac√≠os**.
- La variable **"last_review"** contiene **5,505 registros vac√≠os**.
- La variable **"reviews_per_month"** contiene **5,505 registros vac√≠os**.
- La variable **"license"** contiene **28,901 registros vac√≠os**.




Veamos los valores √∫nicos para cada columna.
El resultado proporciona informaci√≥n valiosa sobre la diversidad de valores en cada columna del conjunto de datos.

In [None]:
# valores √∫nicos para cada columna
df_argentina.nunique()

Contemos cu√°ntas columnas existen de tipo num√©rico y cu√°ntas de tipo objeto. En total tiene que haber 18 columnas.

In [None]:
# contar tipos de datos
numericos = df_argentina.select_dtypes(include=['int', 'float']).shape[1]
objetos = df_argentina.select_dtypes(include='object').shape[1]
print(f"N√∫mero de columnas num√©ricas: {numericos}")
print(f"N√∫mero de columnas de tipo objeto: {objetos}")

Eliminaremos a continuaci√≥n las columnas que no necesitamos para nuestro an√°lisis

In [None]:
# eliminamos las columnas
df_argentina.drop(['neighbourhood_group', 'last_review', 'reviews_per_month', 'number_of_reviews_ltm', 'license'], axis=1, inplace=True)

# visualizamos nuevamente el dataframe para ver los cambios
df_argentina.head()

In [None]:
# visualizamos nuevamente la dimensi√≥n del dataframe, para chequear que tenga 5 columnas menos (de 18 a 13)
print('dimensi√≥n de los datos:', df_argentina.shape)

Cambiemos el nombre de las columnas para un mejor entendimiento de los datos

In [None]:
# cambiar nombre de las columnas
df_argentina.rename(columns={'name':'nombre', 'host_id':'id_anfitrion', 'host_name':'nombre_anfitrion', 'neighbourhood':'barrio', 'room_type':'tipo_habitacion', 'price':'precio', 'minimum_nights':'minimo_noches', 'number_of_reviews':'numero_rese√±as', 'availability_365':'disponibilidad'}, inplace=True)
df_argentina.head()

Visualicemos los tipos de datos de nuestro df para verificar.

In [None]:
# tipos de datos por columna
print(df_argentina.dtypes)

Chequear que todas las etiquetas de las columnas sean de tipo string, para asegurar la coherencia

In [None]:
# chequeamos los tipos de etiqueta
all(isinstance(column, str) for column in df_argentina.columns)

El resultado True es una confirmaci√≥n de que los nombres de las columnas en el DataFrame son cadenas de texto, lo cual es el tipo de dato esperado para las etiquetas de las columnas en la mayor√≠a de los DataFrames de pandas. Esto es importante para garantizar que las operaciones y an√°lisis posteriores del DataFrame se realicen de manera adecuada y consistente.

In [None]:
print("\nResumen estad√≠stico:")
print(df_argentina.describe())

El resumen estad√≠stico proporciona informaci√≥n valiosa sobre las caracter√≠sticas de las columnas num√©ricas del conjunto de datos.

Algunas observaciones:

- La columna "precio" tiene un valor medio (media) de aproximadamente 24,780.22 y una desviaci√≥n est√°ndar significativamente alta, lo que indica una gran variabilidad en los precios de los alojamientos.

- La columna "minimo_noches" tiene un valor m√≠nimo de 1 y un valor m√°ximo de 1,000, lo que sugiere una variabilidad significativa en los requisitos de estad√≠as m√≠nimas.

- La columna "numero_rese√±as" tiene un valor medio de alrededor de 22.12 y una desviaci√≥n est√°ndar considerable, lo que indica una variabilidad en la cantidad de rese√±as.

- La columna "disponibilidad" tiene un valor m√≠nimo de 0 y un valor m√°ximo de 365, lo que sugiere que existen alojamientos con disponibilidad durante todo el a√±o.

In [None]:
df_filtrado = df_argentina[df_argentina['minimo_noches'] >=999]
df_filtrado

## 3- Exploraci√≥n de los datos y visualizaciones

Comencemos a responder algunas preguntas:

### ‚Ü™ Total de alojamientos realizados

Cantidad total de alojamientos realizados en el per√≠odo (trimestre: julio-agosto-setiembre 2023)

In [None]:
# Calcular la cantidad total de alojamientos que se han realizado
total_alojamientos = df_argentina.shape[0]

# Mostrar la cantidad total de alojamientos
print(f"La cantidad total de alojamientos es: {total_alojamientos}")

### ‚Ü™ Alojamientos por tipo de habitaci√≥n

Los anfitriones de Airbnb pueden publicar casas/apartamentos completos, habitaciones privadas, compartidas y m√°s...

En el an√°lisis de datos de Airbnb, una parte fundamental es entender la distribuci√≥n de los diferentes tipos de habitaci√≥n que los anfitriones ofrecen a los hu√©spedes. Este an√°lisis arroja luz sobre las preferencias de alojamiento y puede ser √∫til tanto para los anfitriones que desean tomar decisiones informadas sobre sus listados como para los viajeros que buscan la opci√≥n que mejor se adapte a sus necesidades. El conjunto de datos que estamos examinando proporciona informaci√≥n detallada sobre la cantidad y el porcentaje de cada tipo de habitaci√≥n ofrecida.

Analicemos los tipos de alojamientos del dataframe.

In [None]:
# Calcular la cantidad por tipo de habitaci√≥n
cant_tipo_habitacion = df_argentina['tipo_habitacion'].value_counts()

# Calcular el porcentaje por tipo de habitaci√≥n
porc_tipo_habitacion = (cant_tipo_habitacion / len(df_argentina)) * 100

# Crear un nuevo DataFrame con los resultados
df_resultado = pd.DataFrame({
    'Tipo de Habitaci√≥n': cant_tipo_habitacion.index,
    'Cantidad': cant_tipo_habitacion.values,
    'Porcentaje (%)': porc_tipo_habitacion.values
})

# Ordenar el DataFrame por cantidad en orden descendente
df_resultado = df_resultado.sort_values(by='Cantidad', ascending=False)

# Mostrar el resultado
print(df_resultado)


Creamos un gr√°fico para visualizar mejor los resultados

In [None]:
# Crear un gr√°fico de barras interactivo
fig = px.bar(df_resultado, x='Tipo de Habitaci√≥n', y='Cantidad', text='Porcentaje (%)',
             title='Cantidad y Porcentaje por Tipo de Habitaci√≥n (trimestre julio - agosto - setiembre 2023)')

# Personalizar el dise√±o del gr√°fico
fig.update_traces(texttemplate='%{text:.2f}%', textposition='outside')

# Mostrar el gr√°fico interactivo
fig.show()

**Resumen de la Distribuci√≥n de Tipos de Habitaci√≥n en Airbnb**

El conjunto de datos revela que hay cuatro tipos principales de habitaciones ofrecidas en Airbnb, cada uno con su propia participaci√≥n en el mercado:

- **Hogar o Apartamento Completo (Entire home/apt):**
   - Cantidad: 26,467
   - Porcentaje: 90.19%

- **Habitaci√≥n Privada (Private room):**
   - Cantidad: 2,565
   - Porcentaje: 8.74%

- **Habitaci√≥n Compartida (Shared room):**
   - Cantidad: 215
   - Porcentaje: 0.73%

- **Habitaci√≥n de Hotel (Hotel room):**
   - Cantidad: 99
   - Porcentaje: 0.34%

**Interpretaci√≥n y Conclusiones:**

- **Hogar o Apartamento Completo:** El tipo "Entire home/apt" es claramente el tipo de habitaci√≥n m√°s popular, representando el 90.19% de todas las ofertas. Esto indica que la mayor√≠a de los anfitriones optan por alquilar sus viviendas completas, lo que sugiere que los viajeros pueden estar buscando privacidad y espacio para s√≠ mismos.

- **Preferencia por Habitaciones Privadas:** Las "Private rooms" tambi√©n tienen una presencia significativa, con un 8.74% de las ofertas. Esto indica que hay una demanda considerable de habitaciones privadas dentro de los hogares de los anfitriones, posiblemente para viajeros que buscan un equilibrio entre privacidad y presupuesto.

- **Habitaciones Compartidas y de Hotel:** Las "Shared rooms" y las "Hotel rooms" representan una proporci√≥n relativamente peque√±a del mercado, con 0.73% y 0.34%, respectivamente. Esto sugiere que estos tipos de alojamiento pueden no ser tan populares entre los viajeros, ya que las preferencias se inclinan hacia opciones m√°s privadas.


### ‚Ü™ Cantidad de propietarios

In [None]:
# Calcular la cantidad de propietarios √∫nicos reflejados en el set de datos
cantidad_propietarios = df_argentina['id_anfitrion'].nunique()

print("Cantidad de propietarios:", cantidad_propietarios)

El resultado muestra que en el conjunto de datos, hay un total de 14958 propietarios √∫nicos. Esto significa que hay 14958 personas o entidades diferentes que han listado propiedades en Airbnb en este caso en la ciudad de Buenos Aires en el trimestre.

### ‚Ü™ Calculamos el promedio del precio

In [None]:
# Calcular el promedio de la variable precio
promedio_precio = df_argentina['precio'].mean()

print("Promedio de precio:", promedio_precio)

El resultado muestra que el promedio de precio en el conjunto de datos para Bs. As. es de aproximadamente 24,780.22. Este valor representa un promedio de los precios de todas las propiedades listadas en el conjunto de datos.

El c√°lculo del promedio es una m√©trica importante en el an√°lisis de datos, ya que proporciona una comprensi√≥n general de la tendencia de los precios en el mercado. En este caso, el promedio de precio podr√≠a ser √∫til para entender cu√°l es el precio promedio que los viajeros pueden esperar pagar por una propiedad en Argentina seg√∫n los datos del conjunto. Esto es √∫til tanto para los anfitriones que establecen sus tarifas como para los viajeros que buscan alojamiento en la regi√≥n.

### ‚Ü™ Promedio del precio por tipo de alojamiento

In [None]:
# Calcular el promedio de precio por tipo de alojamiento
promedio_por_tipo = df_argentina.groupby('tipo_habitacion')['precio'].mean()

print("Promedio de precio por tipo de alojamiento:")
print(promedio_por_tipo)

El resultado muestra el promedio de precio para cada tipo de alojamiento en el conjunto de datos:

- "Entire home/apt" (Casa o apartamento completo): $24,781.75

- "Hotel room" (Habitaci√≥n de hotel): $24,737.43

- "Private room" (Habitaci√≥n privada): $21,604.18

- "Shared room" (Habitaci√≥n compartida): $62,502.69

Este an√°lisis es esencial para comprender c√≥mo var√≠an los precios seg√∫n el tipo de alojamiento en Bs. As. Ayuda tanto a los anfitriones a establecer tarifas competitivas como a los viajeros a elegir la opci√≥n que mejor se adapte a su presupuesto y preferencias.

La gran diferencia en el precio promedio entre "Shared room" y los otros tipos de alojamiento podr√≠a indicar una mayor demanda o una oferta limitada en esa categor√≠a.

Graficamos para visualizar mejor

In [None]:
# Colores personalizados
colores_barras = ['skyblue', 'lightgreen', 'lightcoral', 'lightblue', 'pink']

# Crear un gr√°fico de barras
plt.figure(figsize=(10, 6))  # Tama√±o del gr√°fico
ax = promedio_por_tipo.plot(kind='bar', color=colores_barras)

# Crear un estilo de fondo personalizado
plt.style.use({
    'axes.facecolor': 'whitesmoke',  # Color de fondo del gr√°fico
    'axes.edgecolor': 'lightgrey',  # Color del borde del gr√°fico
    'grid.color': 'white',  # Color de las l√≠neas de cuadr√≠cula
    'axes.labelcolor': 'black'  # Color de las etiquetas
    })

# Personalizar el gr√°fico
plt.title('Promedio de Precio por Tipo de Alojamiento Airbnb en Buenos Aires', y=1.06)
plt.xlabel('Tipo de Alojamiento', labelpad=15)
plt.ylabel('Precio Promedio', labelpad=15)
plt.xticks(rotation=0)  # Rotar etiquetas en el eje X para mayor legibilidad

# Alinear y ajustar los espaciados internos
plt.tight_layout()

# Agregar n√∫meros en las barras con un mayor espaciado vertical y horizontal
for i, v in enumerate(promedio_por_tipo):
    ax.text(i, v, f'{v:.0f}', ha='center', va='bottom', fontsize=9, color='black', rotation='horizontal')

# Mostrar el gr√°fico
plt.show()


### ‚Ü™ Promedio de ingresos

Calculamos el promedio de ingreso del set de datos (recordar que el df contiene la informaci√≥n de un trimestre: julio-agosto-setiembre 2023).

Se tiene como objetivo calcular el ingreso promedio generado por los alojamientos en el conjunto de datos df_argentina.

In [None]:
# Calcular el ingreso total
df_argentina['ingreso_total'] = df_argentina['precio'] * df_argentina['minimo_noches']
ingreso_total = df_argentina['ingreso_total'].sum()

# Calcular el n√∫mero total de alojamientos
total_alojamientos = len(df_argentina)

# Calcular el ingreso promedio
ingreso_promedio = ingreso_total / total_alojamientos

print("Ingreso promedio:", ingreso_promedio)

El resultado muestra que el ingreso promedio por alojamiento en el conjunto de datos de Airbnb para Bs.As. Argentina es de aproximadamente 188,728.35. Este valor representa el promedio de los ingresos generados por cada alojamiento en la ciudad.

### ‚Ü™ Cantidad y % de alojamientos realizados por barrio

In [None]:
# Agrupar el DataFrame por el campo 'barrio' y contar la cantidad de alojamientos en cada barrio.
alojamientos_por_barrio = df_argentina['barrio'].value_counts().reset_index()
alojamientos_por_barrio.columns = ['barrio', 'cantidad_alojamientos']

# Calcular el porcentaje de alojamientos en cada barrio.
total_alojamientos = len(df_argentina)
alojamientos_por_barrio['porcentaje'] = (alojamientos_por_barrio['cantidad_alojamientos'] / total_alojamientos) * 100

# Ordenar el DataFrame por 'cantidad_alojamientos' en orden descendente.
alojamientos_por_barrio = alojamientos_por_barrio.sort_values(by='cantidad_alojamientos', ascending=False)

# Imprimir el resultado.
print(alojamientos_por_barrio)

El resultado proporciona una visi√≥n detallada de la distribuci√≥n de alojamientos en diferentes barrios de Bs.As. Argentina. Cada fila del DataFrame muestra el nombre del barrio, la cantidad de alojamientos en ese barrio y el porcentaje de alojamientos que representa con respecto al total.

Este an√°lisis es esencial para comprender qu√© √°reas o barrios son m√°s populares o tienen una mayor concentraci√≥n de alojamientos en Airbnb en la ciudad de Bs. As. en el trimestre. Puede ser √∫til tanto para viajeros que buscan alojamiento en √°reas espec√≠ficas como para anfitriones que desean comprender la competencia en su √°rea.

Elaboramos un gr√°fico para visualizar mejor el resultado

In [None]:
# Establecer un estilo de gr√°fico de barras
sns.set(style="whitegrid")

# Crear un gr√°fico de barras horizontal para una mejor legibilidad
plt.figure(figsize=(12, 8))
ax = sns.barplot(x="cantidad_alojamientos", y="barrio", data=alojamientos_por_barrio, palette="viridis")

# Agregar etiquetas y t√≠tulo
plt.xlabel("Cantidad de Alojamientos realizados")
plt.ylabel("Barrio")
plt.title("Cantidad de Alojamientos realizados por Barrio trimestre julio-agosto-setiembre 2023")

# Mostrar los valores en las barras
for p in ax.patches:
    width = p.get_width()
    plt.text(width, p.get_y() + p.get_height() / 2, f"{int(width)}", ha="left", va="center")

plt.tight_layout()
plt.show()


### ‚Ü™ Cantidad de alojamientos que tuvo cada anfitrion y barrio

In [None]:
# Agrupar el DataFrame por 'id_anfitrion' y contar la cantidad de alojamientos.
alojamientos_por_anfitrion = df_argentina.groupby(['id_anfitrion', 'nombre_anfitrion'])['id'].count().reset_index()
alojamientos_por_anfitrion.columns = ['id_anfitrion', 'nombre_anfitrion', 'cantidad_alojamientos']

# Encontrar la ubicaci√≥n de cada anfitri√≥n.
ubicacion_por_anfitrion = df_argentina.groupby(['id_anfitrion', 'nombre_anfitrion'])['barrio'].first().reset_index()

# Combinar los DataFrames en uno solo.
resultado = pd.merge(alojamientos_por_anfitrion, ubicacion_por_anfitrion, on=['id_anfitrion', 'nombre_anfitrion'])

# Crear un widget de DataFrame interactivo
df_widget = widgets.Output()
with df_widget:
    display(resultado)

# Mostrar el widget
df_widget


Esta informaci√≥n es valiosa para comprender la actividad de los anfitriones y su distribuci√≥n geogr√°fica. Los usuarios pueden navegar por la tabla para explorar detalles sobre cada anfitri√≥n y sus alojamientos.

Exportemos el resultado a un archivo de excel

In [None]:
# from google.colab import files

## Nombre del archivo de Excel de salida
# archivo_excel = "resultado_anfitriones.xlsx"

# Exportar los datos a un archivo Excel
# resultado.to_excel(archivo_excel, index=False)

## Descargar el archivo autom√°ticamente
# files.download(archivo_excel)


Apliquemos el filtro por "id_anfitri√≥n" para poder ver la cantidad de alojamientos por anfitri√≥n y barrios

In [None]:
# Agrupar el DataFrame por 'id_anfitrion' y contar la cantidad de alojamientos.
alojamientos_por_anfitrion = df_argentina.groupby(['id_anfitrion', 'nombre_anfitrion'])['id'].count().reset_index()
alojamientos_por_anfitrion.columns = ['id_anfitrion', 'nombre_anfitrion', 'cantidad_alojamientos']

# Encontrar la ubicaci√≥n de cada anfitri√≥n.
ubicacion_por_anfitrion = df_argentina.groupby(['id_anfitrion', 'nombre_anfitrion'])['barrio'].first().reset_index()

# Combinar los DataFrames en uno solo.
resultado = pd.merge(alojamientos_por_anfitrion, ubicacion_por_anfitrion, on=['id_anfitrion', 'nombre_anfitrion'])

# Crear un widget de filtro por id_anfitrion
filtro_id_anfitrion = widgets.Dropdown(
    options=['Todos'] + resultado['id_anfitrion'].unique().tolist(),
    value='Todos',
    description='ID del Anfitri√≥n:'
)

# Funci√≥n para aplicar el filtro
def filtrar_datos(id_anfitrion):
    if id_anfitrion == 'Todos':
        datos_filtrados = resultado
    else:
        datos_filtrados = resultado[resultado['id_anfitrion'] == id_anfitrion]

    with output:
        output.clear_output()
        display(datos_filtrados)

# Aplicar el filtro al interactuar con el widget
output = widgets.Output()
display(filtro_id_anfitrion, output)
filtro_id_anfitrion.observe(lambda change: filtrar_datos(change.new), names='value')


### ‚Ü™ % de propietarios con un alojamiento

In [None]:
# Identificar propietarios √∫nicos
prop_unicos = df_argentina[['id_anfitrion', 'nombre_anfitrion']].drop_duplicates()

# Contar la cantidad de propietarios √∫nicos
total_prop_unicos = prop_unicos.shape[0]

# Identificar propietarios √∫nicos con exactamente 1 alojamiento
prop_un_alojamiento = df_argentina.groupby(['id_anfitrion', 'nombre_anfitrion'])['id'].count().reset_index()
prop_un_alojamiento = prop_un_alojamiento[prop_un_alojamiento['id'] == 1]

# Contar la cantidad de propietarios con exactamente 1 alojamiento
total_prop_un_alojamiento = prop_un_alojamiento.shape[0]

# Calcular el porcentaje de propietarios con 1 alojamiento
porc_prop_un_alojamiento = (total_prop_un_alojamiento / total_prop_unicos) * 100

print(f"Porcentaje de propietarios con 1 alojamiento: {porc_prop_un_alojamiento:.2f}%")

El resultado muestra que aproximadamente el 76.77% de los propietarios en el conjunto de datos de Airbnb en Bs.As. en el trimestre tienen exactamente 1 alojamiento listado. Esto significa que la gran mayor√≠a de los propietarios tienen una sola propiedad para alquilar.

Este an√°lisis puede ser √∫til para comprender la diversidad de propietarios en la plataforma y cu√°ntos de ellos tienen un enfoque en un solo alojamiento.

### ‚Ü™ Anfitriones Top

Lista de anfitriones Top basada en el dataframe de Bs.As. trimestre julio-agosto-setiembre 2023

In [None]:
# Calcular la cantidad de alojamientos por anfitri√≥n y ordenar en orden descendente
anfitriones_top = df_argentina.groupby(['id_anfitrion', 'nombre_anfitrion'])['id'].count().reset_index()
anfitriones_top.columns = ['id_anfitrion', 'nombre_anfitrion', 'cantidad_alojamientos']
anfitriones_top = anfitriones_top.sort_values(by='cantidad_alojamientos', ascending=False)

# Seleccionar los 20 anfitriones principales (ajusta el n√∫mero seg√∫n tus necesidades)
top_anfitriones = anfitriones_top.head(20)

# Mostrar la lista de los 20 anfitriones principales
print("Los 20 anfitriones con la mayor cantidad de alojamientos:")
print(top_anfitriones)

### ‚Ü™ Qu√© nos pueden decir las rese√±as?

Analicemos un poco el tema de las rese√±as

In [None]:
# visualicemos nuevamente el df_argentina para chequear su estado
df_argentina.head()

Calcular la mediana y el promedio de rese√±as:

In [None]:
# Calcular la mediana y el promedio de rese√±as
mediana_resenas = df_argentina['numero_rese√±as'].median()
promedio_resenas = df_argentina['numero_rese√±as'].mean()

print(f"Mediana de rese√±as: {mediana_resenas}")
print(f"Promedio de rese√±as: {promedio_resenas}")

En base a los resutlados podemos sacar algunas observaciones:

- La mediana es significativamente m√°s baja que el promedio, lo que sugiere que hay algunos alojamientos con un gran n√∫mero de rese√±as que est√°n inflando el promedio.

- El promedio m√°s alto indica que algunos alojamientos han recibido un gran n√∫mero de rese√±as, posiblemente debido a su popularidad o tiempo en la plataforma. Al mismo tiempo, la mediana m√°s baja indica que la mayor√≠a de los alojamientos tienen un n√∫mero relativamente bajo de rese√±as.

- Los alojamientos extremadamente populares con un gran n√∫mero de rese√±as pueden estar sesgando el promedio hacia arriba. Esto significa que unos pocos alojamientos con muchas rese√±as pueden estar teniendo un impacto significativo en el promedio.

- La diferencia entre la mediana y el promedio sugiere que hay una variaci√≥n significativa en la calidad y popularidad de los alojamientos en el conjunto de datos. Algunos alojamientos son muy populares y tienen muchas rese√±as, mientras que otros tienen menos rese√±as.

Explorar la distribuci√≥n de rese√±as  utilizando un gr√°fico para visualizar c√≥mo se distribuyen las rese√±as en el conjunto de datos y determinar si hay una concentraci√≥n en un rango particular de valores.

In [None]:
# Establecer el estilo de la gr√°fica con Seaborn
sns.set_style("whitegrid")

# Crear un histograma
plt.figure(figsize=(10, 6))  # Ajustar el tama√±o de la figura
plt.hist(df_argentina['numero_rese√±as'], bins=20, color='skyblue', edgecolor='black', alpha=0.7)
plt.xlabel('N√∫mero de Rese√±as')
plt.ylabel('Frecuencia')
plt.title('Distribuci√≥n de Rese√±as en Bs As')

# Agregar una l√≠nea vertical para la mediana
median = df_argentina['numero_rese√±as'].median()
plt.axvline(median, color='red', linestyle='dashed', linewidth=2, label=f'Mediana: {median}')

# Agregar una leyenda
plt.legend()

# Mostrar un cuadro con estad√≠sticas
plt.text(150, 1000, f'Mediana: {median}', bbox=dict(facecolor='white', alpha=0.8))

# Personalizar el dise√±o
plt.grid(True, linestyle='--', alpha=0.7)
sns.despine(left=True)  # Quitar los bordes izquierdos para una apariencia m√°s limpia

# Mostrar el histograma
plt.show()

Estudiemos un poco las correlaciones

In [None]:
# Calcula la matriz de correlaci√≥n de Pearson (variables num√©ricas)
correlac_matrix = df_argentina.corr()

# Filtra las correlaciones de 'numero_rese√±as' con otras variables
correlac_resenas = correlac_matrix['numero_rese√±as']

# Imprime las correlaciones
print("Correlaciones con 'numero_rese√±as':")
print(correlac_resenas)

EL resultado deja evidencia de que no hay correlaciones fuertes entre la variable "numero_rese√±as" y el resto.
Por ejemplo una correlaci√≥n de -0.010 est√° muy cerca de cero, lo que sugiere que el precio y el n√∫mero de rese√±as no tienen una relaci√≥n lineal significativa. Esto significa que, en general, el precio de un alojamiento no parece estar fuertemente relacionado con la cantidad de rese√±as que recibe. En otras palabras, un precio m√°s alto o m√°s bajo no parece influir significativamente en la cantidad de rese√±as que los alojamientos reciben.

Alojamientos con pocas o ninguna rese√±a:

In [None]:
# Filtrar alojamientos con menos de 5 rese√±as ordenados de mayor a menor
aloj_pocas_resenas = df_argentina[df_argentina['numero_rese√±as'] < 5].sort_values(by='numero_rese√±as', ascending=False)

# Imprimir los primeros 10 alojamientos con pocas rese√±as
print(aloj_pocas_resenas.head(10))

Alojamientos populares:

In [None]:
# Filtrar alojamientos con m√°s de 100 rese√±as (ajusta el valor seg√∫n tu criterio), orden descendente
aloj_populares = df_argentina[df_argentina['numero_rese√±as'] > 100].sort_values(by='numero_rese√±as', ascending=False)

# Mostrar los primeros 10 alojamientos populares en una tabla
pd.set_option('display.max_columns', None)  # Mostrar todas las columnas
pd.set_option('display.max_colwidth', None)  # Mostrar todo el contenido de las celdas

print("Primeros 10 alojamientos populares (ordenados por n√∫mero de rese√±as en orden descendente):")
display(aloj_populares.head(10))


Comparaciones por tipo de alojamiento o ubicaci√≥n:

In [None]:
# Comparar el n√∫mero de rese√±as entre diferentes tipos de alojamiento
resenas_por_tipo_ordenado = df_argentina.groupby('tipo_habitacion')['numero_rese√±as'].mean().sort_values(ascending=False)

print("N√∫mero medio de rese√±as por tipo de habitaci√≥n (ordenado en orden descendente):")
print(resenas_por_tipo_ordenado)

Dado los resutlados el tipo de habitaci√≥n con mayor n√∫mero de rese√±as es el tipo de habitaci√≥n "Entire home/apt", con un promedio de aproximadamente 22.92 rese√±as. Esto sugiere que, en promedio, alojamientos de este tipo reciben m√°s rese√±as que los dem√°s.
Comprender c√≥mo los diferentes tipos de habitaci√≥n impactan en la cantidad de rese√±as que reciben. Por ejemplo, es com√∫n que los alojamientos completos o "Entire home/apt" reciban m√°s rese√±as que las habitaciones compartidas o "Shared room". Esto puede deberse a las experiencias que los hu√©spedes tienen en diferentes tipos de alojamientos.

In [None]:
# Comparar el n√∫mero de rese√±as entre diferentes ubicaciones
resenas_por_ubicacion = df_argentina.groupby('barrio')['numero_rese√±as'].mean().sort_values(ascending=False)

print(resenas_por_ubicacion)

Algunas observaciones basadas en el resultado:

Los barrios "San Nicolas", "Palermo" y "San Telmo" tienen los n√∫meros medios m√°s altos de rese√±as, con valores de aproximadamente 28.98, 27.44 y 25.35, respectivamente. Esto sugiere que los alojamientos en estos barrios tienden a recibir m√°s rese√±as en promedio.

Hay una amplia variabilidad en el n√∫mero medio de rese√±as entre los diferentes barrios. Mientras que algunos barrios como "San Nicolas" y "Palermo" tienen n√∫meros medios significativamente altos, otros como "Villa Real", "Villa Riachuelo" y "Villa Soldati" tienen n√∫meros medios de rese√±as muy bajos o incluso cero.

Esta informaci√≥n puede ser √∫til para comprender la popularidad relativa de los barrios en t√©rminos de alojamientos con rese√±as. Los barrios m√°s populares pueden ser atractivos para los turistas y viajeros, lo que podr√≠a explicar el mayor n√∫mero de rese√±as.

Es importante tener en cuenta que la cantidad de rese√±as puede depender de varios factores, como la ubicaci√≥n, la oferta de alojamientos, la afluencia de turistas y m√°s. Los resultados proporcionan una visi√≥n general de la actividad de rese√±as por barrio en el conjunto de datos, pero se deben considerar otros factores para obtener una comprensi√≥n completa.




Recordar:
La interpretaci√≥n de los resultados debe realizarse en funci√≥n del contexto de los datos y los objetivos de an√°lisis espec√≠ficos.
Tener en cuenta que estos resultados reflejan una relaci√≥n observada en los datos y no implican necesariamente causalidad.

Anfitriones destacados:

In [None]:
# Agrupar el DataFrame por el nombre del anfitri√≥n y calcular la cantidad de alojamientos y el n√∫mero total de rese√±as para cada anfitri√≥n.
anfitriones_destacados = df_argentina.groupby('nombre_anfitrion').agg({'id': 'count', 'numero_rese√±as': 'sum'}).reset_index()

# Renombrar las columnas para mayor claridad.
anfitriones_destacados.columns = ['nombre_anfitrion', 'cantidad_alojamientos', 'cantidad_rese√±as']

# Ordenar los anfitriones destacados por el n√∫mero de alojamientos en orden descendente.
anfitriones_destacados = anfitriones_destacados.sort_values(by='cantidad_alojamientos', ascending=False)

# Mostrar los 10 anfitriones destacados (puedes ajustar el n√∫mero seg√∫n tus necesidades).
print(anfitriones_destacados.head(10))

### ‚Ü™ Mapa interactivo Buenos Aires | Airbnb

Mapa interactivo de Buenos Aires con todos los marcadores de los alojamientos realizados.

Utilizaremos la librer√≠a folium para crear el mapa interactivo.
Los alojamientos est√°n agrupados en cl√∫steres para facilitar la visualizaci√≥n de m√∫ltiples puntos en el mapa. Los usuarios pueden hacer clic en los marcadores para ver m√°s detalles sobre cada alojamiento. Este tipo de visualizaci√≥n es √∫til para identificar la distribuci√≥n geogr√°fica de los alojamientos en la ciudad y puede contener informaci√≥n valiosa para los usuarios que buscan alojamiento en Buenos Aires.

In [None]:
#!pip3 install folium==0.5.0
import folium

print('Folium instalado e importado!')

In [None]:
from folium import plugins

# variables para latitud y longitud de la ciudad de Buenos Aires (Argentina)
latitud_bsas = -34.61315
longitud_bsas = -58.37723

# crear mapa
mapa_bsas = folium.Map(location = [latitud_bsas, longitud_bsas], zoom_start = 12)

# crear una instancia de un objeto de grupo de marcas para los alojamientos en el df
alojamientos = plugins.MarkerCluster().add_to(mapa_bsas)

# recorrer el marco de datos y agreguar cada punto de datos al grupo de marcas
for lat, lng, label, in zip(df_argentina.latitude, df_argentina.longitude, df_argentina.nombre):
    folium.Marker(
        location=[lat, lng],
        icon=None,
        popup=label,
    ).add_to(alojamientos)

# visualizar el mapa
mapa_bsas

### üîä Algunas conclusiones...

üîπ `Destinos`:

Buenos Aires ofrece una variedad de barrios √∫nicos para explorar. Los datos revelan cu√°les fueron los destinos m√°s buscados durante este per√≠odo:

- San Nicol√°s: este barrio c√©ntrico con casi 29 rese√±as de media, fue uno de los destinos favoritos de los viajeros.
- Palermo: Con una media de 27.44 rese√±as, atrae a aquellos que buscan experiencias de moda y estilo de vida.
- San Telmo: Con una media de 25.35 rese√±as, te sumerge en la historia y la cultura de la ciudad.

üîπ `Variedad de Alojamiento:`

Los viajeros tuvieron una amplia gama de opciones de alojamiento en Buenos Aires. Los datos revelan cu√°les fueron los tipos de alojamiento m√°s populares:

- Alojamiento completo (Entire home/apt): Con una media de 22.92 rese√±as, esta opci√≥n ofrece privacidad y comodidad.
- Habitaci√≥n privada (Private room): Con una media de 15.58 rese√±as, estas habitaciones ofrecen una experiencia m√°s √≠ntima.
- Habitaci√≥n de hotel (Hotel room): Con 14.59 rese√±as de media, los hoteles ofrecen comodidades adicionales y servicio.


üîπ `Anfitriones Destacados:`

Encontramos a algunos anfitriones excepcionales que se destacaron por su hospitalidad y cantidad de alojamientos:

- Anfitri√≥n Destacado 1: **Pablo** - Con 420 alojamientos y 7914 rese√±as.
- Anfitri√≥n Destacado 2: **Federico** - Con 409 alojamientos y 7294 rese√±as.
- Anfitri√≥n Destacado 3: **Diego** - Con 350 alojamientos y 8290 rese√±as.

### ‚Ü™ Visualizaci√≥n final

In [None]:
# Descargamos el df_argentina para utilizarlo en Power BI, para nuestro Dashboard

from google.colab import files

# Nombre del archivo de Excel de salida
datosBsAs = "datosBsAs.xlsx"

# Exportar los datos a un archivo Excel
df_argentina.to_excel(datosBsAs, index=False)

# Descargar el archivo autom√°ticamente
files.download(datosBsAs)

Visualizaci√≥n en proceso...