In [None]:
import gdown

# Enlace de Google Drive con el ID del archivo 
url = 'https://drive.google.com/uc?id=1s5ABkyT_3DVO3aoUhILP9m0I1YnhIZ6r'
output = 'dataframe_consolidado.csv'
gdown.download(url, output, quiet=False)

# Cargar el archivo CSV en un DataFrame
import pandas as pd
df_final = pd.read_csv(output)


In [None]:
# Información general del DataFrame
df_final.info()

# Descripción estadística del DataFrame
df_final.describe()

# Mostrar las primeras filas del DataFrame
df_final.head()

In [None]:
# Verificar si la columna 'date' está en el DataFrame
if 'date' in df_final.columns:
    print("La columna 'date' está presente en el DataFrame.")
else:
    print("La columna 'date' NO está presente en el DataFrame.")


In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

# 1. Resumen Estadístico
numeric_columns = df_final.select_dtypes(include=['float64', 'int64']).columns
summary_stats = df_final[numeric_columns].describe()

print("Resumen Estadístico de las Variables Numéricas:")
print(summary_stats)

In [None]:
import pandas as pd

# Filtrar las columnas numéricas que tienen '_clean' en su nombre
clean_numeric_columns = [col for col in df_final.columns if col.endswith('_clean') and df_final[col].dtype in ['float64', 'int64']]
num_clean_numeric_columns = len(clean_numeric_columns)

# Crear un DataFrame para mostrar la información en forma de tabla
df_clean_numeric = pd.DataFrame({
    'Column Name': clean_numeric_columns,
    'Data Type': df_final[clean_numeric_columns].dtypes.values
})

# Mostrar la tabla
df_clean_numeric


In [None]:
from matplotlib import pyplot as plt
import seaborn as sns
df_clean_numeric.groupby('Data Type').size().plot(kind='barh', color=sns.palettes.mpl_palette('Dark2'))
plt.gca().spines[['top', 'right',]].set_visible(False)

In [None]:
# Resumen estadístico de las variables numéricas '_clean'
df_clean_numeric.describe()

In [None]:
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
import seaborn as sns

# Distribución de registros por precio segmentado aplicando K-means en 4 grupos
price_data = df_final[['price_clean']].copy()
kmeans = KMeans(n_clusters=4, random_state=42, n_init='auto')
df_final['segmento_precio_kmeans'] = kmeans.fit_predict(price_data)
segmentos = df_final.groupby('segmento_precio_kmeans')['price_clean'].mean().sort_values().index
nombres_segmentos = ['Básico', 'Estándar', 'Premium', 'Exclusivo']
mapping_segmentos = {seg: nombre for seg, nombre in zip(segmentos, nombres_segmentos)}
df_final['segmento_precio_kmeans'] = df_final['segmento_precio_kmeans'].map(mapping_segmentos)
orden_segmentos = ['Básico', 'Estándar', 'Premium', 'Exclusivo']
colors = ['#2ca02c', '#ff7f0e', '#1f77b4', '#9467bd']

# Gráfico
plt.figure(figsize=(10, 6))
sns.countplot(data=df_final, x='segmento_precio_kmeans', order=orden_segmentos, palette=colors)
plt.title('Distribución de Registros por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('Número de Registros')
plt.show()


In [None]:
# Variables clave para el análisis
variables_clave = [
    'availability_30_clean', 'availability_60_clean', 'availability_90_clean', 
    'availability_365_listings_clean', 'bedrooms_clean', 
    'beds_clean', 'accommodates_clean'
]
# Crear un resumen estadístico por segmento de precio
resumen_por_segmento = df_final.groupby('segmento_precio_kmeans')[variables_clave].describe()

# Mostrar el resumen estadístico
print(resumen_por_segmento)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Actualizar los nombres de los segmentos de precios
df_final['segmento_precio_kmeans'] = df_final['segmento_precio_kmeans'].replace({
    'Económico': 'Básico',
    'Moderado': 'Estándar',
    'Caro': 'Premium',
    'Lujoso': 'Exclusivo'
})

# Ordenar el eje X en el orden deseado
orden_segmentos = ['Básico', 'Estándar', 'Premium', 'Exclusivo']

# Definir los colores personalizados
colors = ['#2ca02c', '#ff7f0e', '#1f77b4', '#9467bd']

# Disponibilidad
plt.figure(figsize=(8, 6))
sns.boxplot(x='segmento_precio_kmeans', y='availability_30_clean', data=df_final, order=orden_segmentos, palette=colors)
plt.title('Distribución de availability_30_clean por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('availability_30_clean')
plt.tight_layout()
plt.show()

# Número de dormitorios
plt.figure(figsize=(8, 6))
sns.boxplot(x='segmento_precio_kmeans', y='bedrooms_clean', data=df_final, order=orden_segmentos, palette=colors)
plt.title('Distribución de bedrooms_clean por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('bedrooms_clean')
plt.tight_layout()
plt.show()

# Número de camas
plt.figure(figsize=(8, 6))
sns.boxplot(x='segmento_precio_kmeans', y='beds_clean', data=df_final, order=orden_segmentos, palette=colors)
plt.title('Distribución de beds_clean por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('beds_clean')
plt.tight_layout()
plt.show()

# Capacidad de alojamiento
plt.figure(figsize=(8, 6))
sns.boxplot(x='segmento_precio_kmeans', y='accommodates_clean', data=df_final, order=orden_segmentos, palette=colors)
plt.title('Distribución de accommodates_clean por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('accommodates_clean')
plt.tight_layout()
plt.show()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Ordenar los segmentos de precio en el orden deseado
orden_segmentos = ['Básico', 'Estándar', 'Premium', 'Exclusivo']

# Definir los colores personalizados
colors = ['#2ca02c', '#ff7f0e', '#1f77b4', '#9467bd']

# Variables para analizar
variables = ['availability_30_clean', 'bedrooms_clean', 'beds_clean', 'accommodates_clean']

# Crear gráficos de barras para las medianas
for variable in variables:
    plt.figure(figsize=(10, 6))
    
    # Calcular las medianas por segmento de precio
    medianas = df_final.groupby('segmento_precio_kmeans')[variable].median().reindex(orden_segmentos)
    
    # Crear el gráfico de barras
    sns.barplot(x=medianas.index, y=medianas.values, palette=colors)
    
    # Añadir títulos y etiquetas
    plt.title(f'Mediana de {variable} por Segmento de Precio')
    plt.xlabel('Segmento de Precio')
    plt.ylabel(f'Mediana de {variable}')
    
    # Mostrar el gráfico
    plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Estadísticas descriptivas de los segmentos de precios formados por K-means
kmeans_stats = df_final.groupby('segmento_precio_kmeans')['price_clean'].describe()
print("Estadísticas descriptivas por segmento de precio (K-means):")
print(kmeans_stats)

# Visualización de la distribución de precios dentro de cada segmento
plt.figure(figsize=(14, 8))

# Crear un boxplot para cada segmento
sns.boxplot(x='segmento_precio_kmeans', y='price_clean', data=df_final, order=orden_segmentos, palette=colors)
plt.title('Distribución de Precios dentro de Cada Segmento de Precio (K-means)')
plt.xlabel('Segmento de Precio')
plt.ylabel('Precio')

plt.show()

# Crear un histograma para cada segmento
plt.figure(figsize=(14, 8))

sns.histplot(data=df_final, x='price_clean', hue='segmento_precio_kmeans', element='step', palette=colors, bins=50)
plt.title('Histograma de Precios por Segmento de Precio (K-means)')
plt.xlabel('Precio')
plt.ylabel('Frecuencia')

plt.show()


In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
import pandas as pd

# Supongamos que df_final es el DataFrame que contiene la columna 'price_clean'
# Visualización inicial de la distribución de precios
plt.figure(figsize=(10, 6))
sns.histplot(df_final['price_clean_normalized'], bins=50, kde=True, color='blue')
plt.title('Distribución General de Precios de las Propiedades')
plt.xlabel('Precio (normalizado)')
plt.ylabel('Frecuencia')
plt.grid(True)
plt.show()

# Segmentación dinámica de precios usando K-means
kmeans = KMeans(n_clusters=4, random_state=42)
df_final['segmento_precio_kmeans'] = kmeans.fit_predict(df_final[['price_clean']])

# Renombrar los segmentos de acuerdo a las categorías discutidas
df_final['segmento_precio_kmeans'] = df_final['segmento_precio_kmeans'].replace({
    0: 'Básico',
    1: 'Estándar',
    2: 'Premium',
    3: 'Exclusivo'
})


El hecho de que "Entire Place" sea dominante en los segmentos de precios "Básico" y "Premium" sugiere varias cosas interesantes sobre el mercado de Airbnb en Londres:

Preferencia por Privacidad: Muchos huéspedes, incluso aquellos que buscan opciones más económicas (Básico) o de rango medio (Premium), parecen valorar la privacidad y la exclusividad de tener un espacio completo para ellos mismos. Esto podría estar relacionado con la disposición a pagar un poco más por una mayor comodidad y privacidad, en lugar de compartir espacios con otros.

Diversidad de Ofertas: En el segmento "Básico", la predominancia de "Entire Place" podría indicar que existen muchas propiedades completas en Londres que se ofrecen a precios accesibles, probablemente en áreas menos céntricas o con menos demanda turística. En el segmento "Premium", esto sugiere que hay un número significativo de propiedades completas de alta calidad que se ofrecen a precios relativamente accesibles, pero que aún son más asequibles que las opciones más lujosas.

Competitividad en el Mercado: La prevalencia de "Entire Place" en el segmento "Premium" también podría reflejar un mercado competitivo en el que los anfitriones intentan ofrecer más valor (propiedades completas) para justificar precios más altos dentro de ese segmento.

Estrategia de Precios: Los anfitriones que ofrecen "Entire Place" podrían estar segmentando sus precios para atraer a diferentes tipos de huéspedes, desde aquellos que buscan una opción económica hasta aquellos dispuestos a pagar más por un lugar premium. Esto sugiere una estrategia de precios flexible y adaptada a diferentes nichos de mercado.

Evolución del Mercado de Airbnb: El predominio de "Entire Place" en estos segmentos podría reflejar un cambio en la oferta de Airbnb, que ha evolucionado desde su origen como una plataforma para compartir habitaciones hasta una donde los alquileres de propiedades completas son ahora una parte importante del inventario.

Este tipo de análisis puede ayudar a Airbnb a entender mejor las necesidades y preferencias de los usuarios en Londres, lo que podría influir en la forma en que la plataforma promueve ciertas propiedades o en cómo asesora a los anfitriones sobre estrategias de precios y posicionamiento en el mercado.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Definir los colores personalizados para unificar la paleta
colors = ['#2ca02c', '#ff7f0e', '#1f77b4', '#9467bd', '#8c564b']

# Ordenar los segmentos en el eje X
orden_segmentos = ['Básico', 'Estándar', 'Premium', 'Exclusivo']

# Crear los gráficos con la paleta unificada y el orden correcto
plt.figure(figsize=(14, 7))

# Distribución de Tipos de Propiedades por Segmento de Precio
plt.subplot(1, 2, 1)
sns.countplot(x='segmento_precio_kmeans', hue='property_type_clean', data=df_final, order=orden_segmentos, palette=colors)
plt.title('Distribución de Tipos de Propiedades por Segmento de Precio ')
plt.xlabel('Segmento de Precio')
plt.ylabel('Número de Propiedades')
plt.legend(title='Tipo de Propiedad', bbox_to_anchor=(1.05, 1), loc='upper left')

# Distribución General de Propiedades por Segmento de Precio
plt.subplot(1, 2, 2)
sns.countplot(x='segmento_precio_kmeans', data=df_final, order=orden_segmentos, palette=colors[:4])
plt.title('Distribución de Propiedades por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('Número de Propiedades')

plt.tight_layout()
plt.show()



**Análisis gráficos:**

El análisis revela una segmentación del mercado de Airbnb en Londres donde las propiedades completas dominan los segmentos de precios más bajos, mientras que las habitaciones privadas ganan terreno en el segmento Premium, probablemente debido a su ubicación estratégica. Esta distribución sugiere que el mercado de Airbnb en Londres ha evolucionado desde su origen mochilero y de economía compartida hacia un mercado más diversificado, donde la ubicación y la exclusividad juegan un papel crucial en la determinación de los precios.

In [None]:
import geopandas as gpd
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Paso 1: Descargar el archivo GeoJSON
url = 'https://drive.google.com/uc?export=download&id=1H3m7vtOayoxaKqPkq1FfH7pKHBw48XZn'
london_geojson = gpd.read_file(url)

# Asegúrate de que el nombre de la columna de barrios en GeoJSON y el DataFrame coincida
# Si es necesario, revisa las columnas del GeoDataFrame con london_geojson.columns
# Y cambia 'neighbourhood_column_in_shapefile' al nombre correcto de la columna de barrios
london_geojson.rename(columns={'name': 'neighbourhood_clean'}, inplace=True)

# Paso 2: Unir el GeoDataFrame con nuestro DataFrame de propiedades
df_geo = df_final.groupby('neighbourhood_clean').size().reset_index(name='counts')
london_geo = london_geojson.merge(df_geo, on="neighbourhood_clean")

# Paso 3: Visualizar en un mapa la distribución de propiedades por barrio
plt.figure(figsize=(12, 12))
london_geo.plot(column='counts', cmap='OrRd', linewidth=0.8, edgecolor='0.8', legend=True)
plt.title('Distribución de Propiedades Airbnb por Barrio en Londres')
plt.show()

# Paso 4: Visualizar la distribución de precios por barrio (opcional)
plt.figure(figsize=(20, 15))
sns.countplot(
    data=df_final,
    x='neighbourhood_clean',
    hue='segmento_precio_kmeans',
    palette=colors,
    order=df_final['neighbourhood_clean'].value_counts().index
)
plt.xticks(rotation=90)
plt.title('Distribución de Precios por Barrio y Segmento de Precio')
plt.xlabel('Barrio')
plt


El gráfico que presentas muestra la distribución de precios por barrio y segmento de precio en Londres. Este tipo de visualización es útil para identificar patrones de precio en función de la ubicación geográfica, lo que puede ofrecer insights clave para estrategias de mercado o decisiones de negocio.

Algunas observaciones iniciales que podrías destacar en tu presentación:

Westminster, Kensington y Chelsea dominan los segmentos Premium y Estándar: Estos barrios son conocidos por ser zonas exclusivas en Londres, y el gráfico lo refleja claramente, con un alto número de propiedades en los segmentos Premium y Estándar.

Distribución amplia del segmento Básico: Aunque el segmento Premium es fuerte en muchos barrios, el segmento Básico tiene una presencia significativa en casi todos los barrios, lo que indica que aún hay muchas propiedades accesibles en términos de precio en varias partes de la ciudad.

Exclusividad en barrios específicos: Los segmentos de precio más alto, como el Exclusivo, están mucho más concentrados en barrios específicos, como Westminster y Kensington y Chelsea, lo que refuerza la percepción de estos barrios como los más exclusivos de la ciudad.

Variación entre barrios: Notarás que algunos barrios como Croydon y Barking tienen una distribución más inclinada hacia el segmento Básico y Premium, lo que puede estar relacionado con su distancia del centro de la ciudad o su desarrollo reciente.

In [None]:
# Calcular la media de precios por barrio
mean_price_by_neighbourhood = df_final.groupby('neighbourhood_clean')['price_clean'].mean().sort_values(ascending=False)

# Mostrar las primeras filas
print(mean_price_by_neighbourhood.head())

In [None]:
import matplotlib.pyplot as plt

# Crear un gráfico de barras de la media de precios por barrio
plt.figure(figsize=(14, 7))
mean_price_by_neighbourhood.plot(kind='bar', color='blue')
plt.title('Media de Precios por Barrio en Londres')
plt.xlabel('Barrio')
plt.ylabel('Precio Medio')
plt.xticks(rotation=90)
plt.show()


In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Selección de las variables de interés
variables_interes = [
    'price_clean', 'bedrooms_clean', 'beds_clean', 'availability_30_clean',
    'availability_365_listings_clean', 'number_of_reviews_ltm_listings_clean', 
    
]

# Crear el DataFrame con solo las variables seleccionadas
df_selected = df_final[variables_interes]

# Crear un mapa de calor para mostrar las correlaciones
plt.figure(figsize=(12, 8))
correlation_matrix = df_selected.corr()
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', center=0)
plt.title('Mapa de Calor de la Correlación entre Variables Seleccionadas')
plt.show()


El mapa de calor muestra la correlación entre varias variables clave en tu dataset. Aquí algunos puntos importantes:

Correlación entre price_clean y otras variables:

La correlación más fuerte de price_clean es con bedrooms_clean (0.53), lo que sugiere que a mayor número de dormitorios, mayor es el precio. Hay una correlación positiva moderada entre price_clean y beds_clean (0.45), indicando que el número de camas también influye en el precio. La disponibilidad a 30 días (availability_30_clean) y a 365 días (availability_365_listings_clean) tienen una correlación muy baja con el precio, lo que indica que estos factores no tienen un impacto significativo en los precios. Correlación entre otras variables:

Existe una fuerte correlación entre bedrooms_clean y beds_clean (0.74), lo cual es lógico, ya que más dormitorios generalmente significan más camas. Las variables de disponibilidad (availability_30_clean y availability_365_listings_clean) están correlacionadas entre sí (0.46), pero su relación con otras variables es bastante débil. La variable number_of_reviews_ltm_listings_clean tiene una correlación negativa con el precio (-0.14), lo que podría indicar que las propiedades más baratas tienden a recibir más reseñas, posiblemente por tener un mayor número de reservas.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np

# 1. Gráfico de Dispersión (Scatter Plot) con línea de tendencia
plt.figure(figsize=(10, 6))
sns.scatterplot(x='price_clean', y='number_of_reviews_ltm_listings_clean', data=df_final, alpha=0.5)
sns.regplot(x='price_clean', y='number_of_reviews_ltm_listings_clean', data=df_final, scatter=False, color='red')
plt.title('Relación entre Precio y Número de Reseñas')
plt.xlabel('Precio (en dólares)')
plt.ylabel('Número de Reseñas')
plt.show()

# 2. Boxplots para visualizar la distribución de reseñas en diferentes rangos de precios
df_final['price_segment'] = pd.qcut(df_final['price_clean'], q=4, labels=['Bajo', 'Medio', 'Alto', 'Muy Alto'])

plt.figure(figsize=(10, 6))
sns.boxplot(x='price_segment', y='number_of_reviews_ltm_listings_clean', data=df_final)
plt.title('Distribución del Número de Reseñas por Segmento de Precio')
plt.xlabel('Segmento de Precio')
plt.ylabel('Número de Reseñas')
plt.show()

# 3. Análisis de Correlación por Segmentos de Precio
price_segments = ['Bajo', 'Medio', 'Alto', 'Muy Alto']
for segment in price_segments:
    segment_df = df_final[df_final['price_segment'] == segment]
    correlation = segment_df['price_clean'].corr(segment_df['number_of_reviews_ltm_listings_clean'])
    print(f'Correlación entre Precio y Reseñas en el segmento {segment}: {correlation:.2f}')

Estos gráficos indican que las propiedades con precios más bajos tienden a recibir más reseñas, mientras que las propiedades más caras suelen tener menos reseñas. Esto puede reflejar la demanda y la frecuencia de uso, donde las propiedades más económicas son más accesibles para un mayor número de personas, resultando en un mayor número de reseñas.

El gráfico de dispersión con la línea de regresión destaca esta tendencia decreciente en el número de reseñas a medida que el precio aumenta. Los boxplots segmentados por rango de precio también refuerzan esta observación, mostrando distribuciones similares en los diferentes segmentos, pero con una mediana de reseñas que disminuye ligeramente en los segmentos de precios más altos.

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Gráfico de dispersión para precio vs puntuaciones del Grupo 1
plt.figure(figsize=(10, 6))
sns.scatterplot(x='price_clean', y='group_1_score_clean', data=df_final, alpha=0.5, color='teal')
sns.regplot(x='price_clean', y='group_1_score_clean', data=df_final, scatter=False, color='red')
plt.title('Relación entre Precio y Valoraciones del Grupo 1 (Valoraciones de satisfacción general)')
plt.xlabel('Precio (en dólares)')
plt.ylabel('Valoración (Group 1 Score)')
plt.grid(True)
plt.show()

In [None]:
# Gráfico de dispersión para precio vs puntuaciones del Grupo 2
plt.figure(figsize=(10, 6))
sns.scatterplot(x='price_clean', y='group_2_score_clean', data=df_final, alpha=0.5, color='purple')
sns.regplot(x='price_clean', y='group_2_score_clean', data=df_final, scatter=False, color='red')
plt.title('Relación entre Precio y Valoraciones del Grupo 2 (Valoraciones aspectos más específicos)')
plt.xlabel('Precio (en dólares)')
plt.ylabel('Valoración (Group 2 Score)')
plt.grid(True)
plt.show()


Estas gráficas generadas muestran la relación entre el precio y las valoraciones de los dos grupos:

Grupo 1 (Valoraciones de satisfacción general): Este grupo incluye variables que reflejan la satisfacción general de los huéspedes, como la puntuación global, la precisión y el valor percibido. En el gráfico correspondiente, se puede observar que la mayoría de las propiedades tienen una alta puntuación en este grupo, independientemente del precio. La línea de tendencia muestra una ligera pendiente positiva, lo que sugiere que, en general, las propiedades más caras tienden a recibir un poco mejor valoración, aunque la diferencia es mínima. Sin embargo, también se puede ver que las propiedades con precios más bajos tienden a tener una mayor variabilidad en las valoraciones, con algunas propiedades de bajo costo obteniendo puntuaciones bajas.

Grupo 2 (Valoraciones de aspectos específicos): Este grupo agrupa las valoraciones relacionadas con la limpieza, el check-in y la comunicación. En el gráfico correspondiente, se observa un patrón similar al del Grupo 1, con la mayoría de las propiedades recibiendo altas puntuaciones independientemente del precio. Sin embargo, la línea de tendencia es casi plana, lo que indica que el precio no influye significativamente en estas valoraciones específicas. Esto sugiere que los huéspedes tienen expectativas similares para estos aspectos, independientemente de cuánto estén pagando por la propiedad.

Conclusiones Homogeneidad en las valoraciones: Ambas gráficas muestran que la mayoría de las propiedades reciben valoraciones altas, lo que indica una homogeneidad en las puntuaciones, independientemente del precio. Esto podría significar que los anfitriones en Londres mantienen un nivel de calidad consistente, sin importar el segmento de precio.

Ligeras diferencias entre grupos: Aunque ambos grupos muestran tendencias similares, la pendiente ligeramente positiva en el Grupo 1 podría sugerir que las propiedades más caras logran un poco más de satisfacción general. Sin embargo, en el Grupo 2, los aspectos específicos como la limpieza y la comunicación no parecen verse afectados por el precio, lo que sugiere que estas expectativas son más universales entre los huéspedes.

Estos insights son útiles para que Airbnb entienda cómo los diferentes aspectos de la experiencia del huésped están correlacionados con el precio, lo que podría ayudar en la optimización de estrategias de precios y mejoras en el servicio.

In [None]:
# Agrupar por barrio y calcular la mediana de las valoraciones del Grupo 1 y Grupo 2
grouped_by_neighbourhood = df_final.groupby('neighbourhood_clean')[['group_1_score_clean', 'group_2_score_clean']].median().reset_index()

# Mostrar las primeras filas para verificar
grouped_by_neighbourhood.head()

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

# Configuración del tamaño de los gráficos
plt.figure(figsize=(15, 10))

# Gráfico para el Grupo 1
plt.subplot(2, 1, 1)
sns.barplot(x='group_1_score_clean', y='neighbourhood_clean', data=grouped_by_neighbourhood, palette='viridis')
plt.title('Mediana de las Valoraciones del Grupo 1 por Barrio')
plt.xlabel('Mediana del Grupo 1 Score')
plt.ylabel('Barrio')

# Gráfico para el Grupo 2
plt.subplot(2, 1, 2)
sns.barplot(x='group_2_score_clean', y='neighbourhood_clean', data=grouped_by_neighbourhood, palette='plasma')
plt.title('Mediana de las Valoraciones del Grupo 2 por Barrio')
plt.xlabel('Mediana del Grupo 2 Score')
plt.ylabel('Barrio')

plt.tight_layout()
plt.show()


In [None]:
# Convertir los nombres de los barrios a códigos numéricos para el análisis de correlación
df_final['neighbourhood_code'] = df_final['neighbourhood_clean'].astype('category').cat.codes

# Calcular la correlación
correlation = df_final[['neighbourhood_code', 'group_1_score_clean', 'group_2_score_clean']].corr()

# Visualizar la matriz de correlación
plt.figure(figsize=(8, 6))
sns.heatmap(correlation, annot=True, cmap='coolwarm', center=0)
plt.title('Matriz de Correlación entre Ubicación y Valoraciones')
plt.show()


El análisis muestra que la ubicación, representada por los diferentes barrios de Londres, no tiene un impacto significativo en las valoraciones de los usuarios. La correlación entre la ubicación y las valoraciones es casi nula (cerca de 0), lo que sugiere que los usuarios de Airbnb en Londres califican su experiencia basada en factores que no están directamente relacionados con el barrio en el que se encuentra la propiedad.

Esto podría deberse a que los aspectos específicos de cada propiedad, como su limpieza, precisión en la descripción, relación calidad-precio, y otros factores agrupados en los Grupos 1 y 2, tienen más peso en la decisión de la calificación que la ubicación geográfica por sí sola. Por lo tanto, es crucial para los anfitriones enfocarse en mejorar estas áreas para obtener mejores calificaciones, independientemente del barrio donde se encuentren.

In [None]:
# Paso 1: Identificación de Áreas Mejor Valoradas
top_rated_areas_group1 = df_final.groupby('neighbourhood_clean')['group_1_score_clean'].median().sort_values(ascending=False).head(10).index
top_rated_areas_group2 = df_final.groupby('neighbourhood_clean')['group_2_score_clean'].median().sort_values(ascending=False).head(10).index

# Combinar los dos grupos en un único conjunto para evitar duplicaciones
top_rated_areas = set(top_rated_areas_group1).union(set(top_rated_areas_group2))

In [None]:
# Paso 2: Extraer datos de precios para áreas mejor valoradas
df_top_rated = df_final[df_final['neighbourhood_clean'].isin(top_rated_areas)]

# Graficar la distribución de precios en áreas mejor valoradas
plt.figure(figsize=(14, 7))
sns.boxplot(x='neighbourhood_clean', y='price_clean', data=df_top_rated, palette='Set2')
plt.title('Variación de Precios en las Áreas Mejor Valoradas')
plt.xlabel('Barrio')
plt.ylabel('Precio (en dólares)')
plt.xticks(rotation=45)
plt.show()


In [None]:
# Paso 3: Comparación de distribuciones de precios
plt.figure(figsize=(14, 7))
sns.violinplot(x='neighbourhood_clean', y='price_clean', data=df_top_rated, palette='Set2')
plt.title('Distribución de Precios en las Áreas Mejor Valoradas')
plt.xlabel('Barrio')
plt.ylabel('Precio (en dólares)')
plt.xticks(rotation=45)
plt.show()


Los gráficos proporcionan una visión clara de la variación de precios en las áreas mejor valoradas de Londres. Aquí te ofrezco un resumen de las observaciones clave:

Dispersión de Precios:

Los precios muestran una gran variabilidad dentro de los barrios mejor valorados, como Hackney, Richmond upon Thames, y Wandsworth. Aunque la mayoría de las propiedades se encuentran en un rango de precio moderado (aproximadamente entre 100y300), existen varias propiedades con precios significativamente más altos, llegando hasta los $1000 por noche en algunos casos. Estos valores atípicos podrían representar propiedades con características exclusivas o ubicaciones particularmente privilegiadas dentro de esos barrios. Rangos de Precios y Medianas:

A pesar de la variabilidad, las medianas de precios en estos barrios tienden a estar relativamente alineadas, indicando que la mayoría de las propiedades se ofrecen a precios similares, con ciertas excepciones. Barrios como Richmond upon Thames y Hackney tienen medianas más altas, lo que sugiere una mayor concentración de propiedades de mayor precio en comparación con otros barrios. Distribución de Precios:

El gráfico de violín muestra que, aunque los precios pueden alcanzar niveles altos, la mayoría de las propiedades se agrupan en un rango de precio más asequible, con una alta densidad de propiedades en el rango de 100a200 en la mayoría de los barrios. La distribución de los precios en algunos barrios como Sutton y Barnet es más estrecha, lo que indica que hay menos variabilidad en los precios dentro de estos barrios. Impacto en la Valoración:

La distribución homogénea de los precios en barrios bien valorados sugiere que la ubicación y la calidad de las propiedades en estas áreas pueden justificar los precios más altos. Sin embargo, es crucial considerar que la presencia de valores atípicos puede influir en la percepción general de los precios en estos barrios. Conclusión: En resumen, aunque los precios pueden variar significativamente en los barrios mejor valorados, hay una tendencia clara hacia precios más altos en estas áreas, con ciertos barrios mostrando una mayor concentración de propiedades caras. Esto refleja la demanda y el valor percibido de estas ubicaciones dentro de Londres. La variabilidad dentro de cada barrio también sugiere que los huéspedes tienen opciones variadas en términos de precio, lo que puede atraer a diferentes segmentos del mercado.