# Análisis departamento de Experiencia del Cliente

## Pregunta de negocio:

¿Que aspectos presentan diferencias más grandes entre los alojamientos mejor y peor valorados en la puntuación general?
- Precisión de detalles
- Higiene
- Check-in 

## Cargar dataset df_tourist_python_sprint2.csv

In [1]:
import pandas as pd   

nombre_documento = r'df_tourist_python_sprint2.csv'
df_tourist = pd.read_csv(nombre_documento, sep=';', decimal='.')

## Transformación dataset df_tourist_python_sprint2 para crear df_cl y responder la pregunta de negocio

In [2]:
# Creación dataset:
df_cl = df_tourist[['apartment_id','room_type','accommodates','bathrooms','bedrooms','beds','price',
                    'number_of_reviews','review_scores_rating','review_scores_accuracy','review_scores_cleanliness',
                    'review_scores_checkin','review_scores_communication','review_scores_location','reviews_per_month','city']]

# Visualiza el dataset:
df_cl

Unnamed: 0,apartment_id,room_type,accommodates,bathrooms,bedrooms,beds,price,number_of_reviews,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,reviews_per_month,city
0,11964,Private room,2,2.0,1.0,1.0,400.0,78,97.0,100.0,100.0,100.0,100.0,100.0,75.0,malaga
1,21853,Private room,1,1.0,1.0,1.0,170.0,33,92.0,90.0,90.0,100.0,100.0,80.0,52.0,madrid
2,32347,Entire home/apt,4,1.0,2.0,2.0,990.0,148,98.0,100.0,100.0,100.0,100.0,100.0,142.0,sevilla
3,35379,Private room,2,2.0,1.0,1.0,400.0,292,94.0,100.0,90.0,100.0,100.0,100.0,306.0,barcelona
4,35801,Private room,5,1.0,2.0,5.0,900.0,36,97.0,100.0,100.0,100.0,100.0,100.0,39.0,girona
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7688,32392193,Private room,1,1.0,1.0,1.0,3000.0,0,94.0,100.0,90.0,100.0,100.0,100.0,88.0,barcelona
7689,32392774,Entire home/apt,6,2.0,3.0,4.0,2090.0,36,100.0,100.0,100.0,100.0,100.0,100.0,157.0,sevilla
7690,32395123,Entire home/apt,2,1.0,1.0,2.0,930.0,0,96.0,100.0,100.0,100.0,100.0,100.0,25.0,mallorca
7691,32407332,Private room,3,2.0,2.0,2.0,960.0,21,98.0,100.0,100.0,100.0,100.0,100.0,389.0,barcelona


In [3]:
df_cl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7693 entries, 0 to 7692
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   apartment_id                 7693 non-null   int64  
 1   room_type                    7693 non-null   object 
 2   accommodates                 7693 non-null   int64  
 3   bathrooms                    7693 non-null   float64
 4   bedrooms                     7693 non-null   float64
 5   beds                         7693 non-null   float64
 6   price                        7693 non-null   float64
 7   number_of_reviews            7693 non-null   int64  
 8   review_scores_rating         7693 non-null   float64
 9   review_scores_accuracy       7693 non-null   float64
 10  review_scores_cleanliness    7693 non-null   float64
 11  review_scores_checkin        7693 non-null   float64
 12  review_scores_communication  7693 non-null   float64
 13  review_scores_loca

## Analasis de la Experiencia del Cliente:

Analista de experiencia del cliente:
¿Qué aspectos (precisión de los detalles, limpieza, check-in o comunicación) presentan mayores diferencias entre los alojamientos mejor y peor valorados en la puntuación general?


In [4]:
# Entre el 10% de alojamientos con mejor y peor valoración general

import plotly.graph_objects as go

# Eliminar valores faltantes en las columnas relevantes
cols = [
    'review_scores_rating',
    'review_scores_accuracy',
    'review_scores_cleanliness',
    'review_scores_checkin',
    'review_scores_communication'
]
df = df_cl[cols].dropna()

# Definir percentiles para dividir los grupos
q75 = df['review_scores_rating'].quantile(0.75)
q25 = df['review_scores_rating'].quantile(0.25)

# Agrupar datos
high = df[df['review_scores_rating'] >= q75]
low = df[df['review_scores_rating'] <= q25]

# Calcular promedios
mean_high = high.iloc[:, 1:].mean()
mean_low = low.iloc[:, 1:].mean()

# Crear etiquetas más legibles para el eje X
aspects = mean_high.index.str.replace('review_scores_', '').str.capitalize()

# Crear gráfico de barras doble
fig = go.Figure(data=[
    go.Bar(
        name='Alta puntuación',
        x=aspects,
        y=mean_high.values,
        marker_color='#8BAE3F'  # Verde lima
    ),
    go.Bar(
        name='Baja puntuación',
        x=aspects,
        y=mean_low.values,
        marker_color='#2D6A4F'  # Verde bosque oscuro
    )
])

# Configuración del diseño del gráfico
fig.update_layout(
    title='Comparación de aspectos entre alojamientos mejor y peor valorados',
    xaxis_title='Aspecto de la experiencia del cliente',
    yaxis_title='Puntuación promedio',
    barmode='group',
    template='plotly_white',
    font=dict(size=14)
)
fig.update_layout(paper_bgcolor="#D8F3DC")
fig.show()


Mostrar en qué aspectos de la experiencia del cliente los alojamientos con una puntuación superior a 80 funcionan mejor que aquellos con puntuaciones más bajas, y cuánto es la diferencia en cada aspecto.


In [5]:
import plotly.graph_objects as go

# Definir umbral
umbral = 80

# Limpiar datos con valores nulos en columnas clave
df_limpio = df.dropna(subset=['review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication'])

# Separar en dos grupos según la puntuación general
bien = df_limpio[df_limpio['review_scores_rating'] >= umbral]
mal = df_limpio[df_limpio['review_scores_rating'] < umbral]

# Columnas a comparar
cols = ['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']

# Promedio de cada grupo
prom_bien = bien[cols].mean()
prom_mal = mal[cols].mean()

# Diferencia de promedios
diff = prom_bien - prom_mal

# Colores para barras (verde claro si positivo, verde oscuro si negativo)
colores = ['#8BAE3F' if v > 0 else '#2D6A4F' for v in diff]

# Crear gráfico
fig = go.Figure(go.Bar(
    x=['Precisión', 'Limpieza', 'Check-in', 'Comunicación'],
    y=diff.values,
    marker_color=colores,
    text=[f'{v:.2f}' for v in diff.values],
    textposition='outside'
))

fig.update_layout(
    title='Diferencia promedio de puntuaciones entre grupos',
    yaxis_title='Diferencia (bien - mal)',
    xaxis_title='Aspectos',
    yaxis=dict(zeroline=True, zerolinecolor='black'),
    template='plotly_white'
)
fig.update_layout(paper_bgcolor="#D8F3DC")
fig.show()

#Análisis comparativo de diferencias en aspectos clave de la experiencia del cliente entre alojamientos mejor y peor valorados según percentiles 90 y 10


In [6]:

import plotly.graph_objects as go

# Seleccionamos solo las columnas que nos interesan
cols = [
    'review_scores_rating',
    'review_scores_accuracy',
    'review_scores_cleanliness',
    'review_scores_checkin',
    'review_scores_communication'
]
df = df_cl[cols].dropna()

# Definimos los umbrales alto y bajo para la puntuación general
high_threshold = df['review_scores_rating'].quantile(0.75)  # Percentil 75
low_threshold = df['review_scores_rating'].quantile(0.25)   # Percentil 25

# Dividimos el DataFrame en dos grupos: los mejores y los peores según la puntuación general
top = df[df['review_scores_rating'] >= high_threshold]
bottom = df[df['review_scores_rating'] <= low_threshold]

# Calculamos la media de las puntuaciones de diferentes aspectos de la experiencia para cada grupo
aspects = ['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']
top_means = top[aspects].mean()
bottom_means = bottom[aspects].mean()

# Calculamos las diferencias de puntuación media entre el grupo superior e inferior
differences = (top_means - bottom_means).sort_values()

# Creamos un gráfico de barras horizontal con Plotly para mostrar las diferencias
fig = go.Figure(go.Bar(
    x=differences.values,
    y=differences.index,
    orientation='h',
    marker=dict(
        color='#8BAE3F'  # Color verde lima
    )
))

# Configuramos el diseño del gráfico
fig.update_layout(
    title='Diferencias en aspectos de la experiencia del cliente\nentre los alojamientos mejor y peor valorados',
    xaxis_title='Diferencia en la puntuación media (Mejor - Peor)',
    yaxis_title='Aspectos',
    plot_bgcolor='white',
    font=dict(size=14),
    xaxis=dict(showgrid=True, gridcolor='#2D6A4F'),  # Verde oscuro para la grilla
    yaxis=dict(showgrid=False),
    height=400
)

fig.update_layout(paper_bgcolor="#D8F3DC")
fig.show()


In [7]:
import plotly.express as px
import pandas as pd

# Calculamos la suma de 'number_of_reviews' por ciudad
reviews_por_ciudad = df_cl.groupby('city')['number_of_reviews'].sum().reset_index()
reviews_por_ciudad = reviews_por_ciudad.sort_values(by='number_of_reviews', ascending=False)

# Calculamos la suma total de reviews
suma_total_reviews = df_cl['number_of_reviews'].sum()

# Definimos la lista de colores a alternar
colors = ['#8BAE3F','#D8F3DC']

# Creamos el gráfico de barras con colores personalizados
fig = px.bar(reviews_por_ciudad, x='city', y='number_of_reviews',
             color=reviews_por_ciudad['city'], # Usamos la ciudad para el mapeo de color inicial
             color_discrete_sequence=[colors[i % len(colors)] for i in range(len(reviews_por_ciudad))],
             title='Cantidad total de puntuaciones por ciudad',
             labels={'city': 'Ciudad', 'number_of_reviews': 'Num. evaluaciones'})

# Añadimos una anotación con la suma total
fig.add_annotation(
    text=f'Suma total: {suma_total_reviews}',
    xref="paper", yref="paper",
    x=0.95, y=0.90,
    showarrow=False,
    font=dict(size=12),
    align="right",
    bgcolor="#D8F3DC",
    bordercolor="black",
    borderwidth=1,
    borderpad=4,
)
fig.show()

In [8]:
import plotly.express as px
import pandas as pd

# Calculamos la suma de 'number_of_reviews' por ciudad
reviews_por_tipo_alojamiento = df_cl.groupby('room_type')['number_of_reviews'].sum().reset_index()
reviews_por_tipo_alojamiento = reviews_por_tipo_alojamiento.sort_values(by='number_of_reviews', ascending=False)

# Definimos la lista de colores a alternar, empezando por el verde más oscuro
colors = ['#8BAE3F', '#D8F3DC']

# Creamos el gráfico de barras con colores personalizados
fig = px.bar(reviews_por_tipo_alojamiento, x='room_type', y='number_of_reviews',
             color=reviews_por_tipo_alojamiento['room_type'], # Usamos el tipo de alojamiento para el mapeo de color inicial
             color_discrete_sequence=[colors[i % len(colors)] for i in range(len(reviews_por_tipo_alojamiento))],
             title='Cantidad total de puntuaciones por tipo de alojamiento',
             labels={'room_type': 'Tipo de alojamiento', 'number_of_reviews': 'Cantidad total de evaluaciones'})

# Añadimos una anotación con la suma total
fig.add_annotation(
    text=f'Suma total: {suma_total_reviews}',
    xref="paper", yref="paper",
    x=0.95, y=0.97,
    showarrow=False,
    font=dict(size=12),
    align="right",
    bgcolor="#D8F3DC",
    bordercolor="black",
    borderwidth=1,
    borderpad=4,
)

fig.show()

# # Exportamos el gráfico a un archivo HTML
# fig.write_html("cantidad_puntuaciones_por_alojamiento.html")

# print("El gráfico se ha guardado como cantidad_puntuaciones_por_alojamiento.html")

## Selección del 25% de los casos con mayor y menor puntuación

In [9]:
import plotly.graph_objects as go
import pandas as pd

# Asegúrate de que df_cl esté ordenado por 'review_scores_rating'
df_sorted = df_cl.sort_values(by='review_scores_rating').copy()

n = len(df_sorted)
lower_count = round(0.25 * n)
upper_count = round(0.25 * n)

lower_threshold = df_sorted['review_scores_rating'].iloc[lower_count - 1] if lower_count > 0 else df_sorted['review_scores_rating'].min()
upper_threshold = df_sorted['review_scores_rating'].iloc[n - upper_count] if upper_count > 0 else df_sorted['review_scores_rating'].max()

fig = go.Figure()

# Datos para el 25% inferior (rojo)
lower_df = df_sorted[df_sorted['review_scores_rating'] <= lower_threshold]
fig.add_trace(go.Scatter(x=lower_df['review_scores_rating'], y=[0]*len(lower_df), mode='markers', marker=dict(color='red'), name='25% Inferior'))
count_lower = len(lower_df)

# Datos para el 50% central (azul)
middle_df = df_sorted[(df_sorted['review_scores_rating'] > lower_threshold) & (df_sorted['review_scores_rating'] < upper_threshold)]
fig.add_trace(go.Scatter(x=middle_df['review_scores_rating'], y=[0]*len(middle_df), mode='markers', marker=dict(color='blue'), name='50% Central'))
count_middle = len(middle_df)

# Datos para el 25% superior (verde)
upper_df = df_sorted[df_sorted['review_scores_rating'] >= upper_threshold]
fig.add_trace(go.Scatter(x=upper_df['review_scores_rating'], y=[0]*len(upper_df), mode='markers', marker=dict(color='green'), name='25% Superior'))
count_upper = len(upper_df)

# Añadir líneas verticales en los umbrales
fig.add_vline(x=lower_threshold, line_dash="dash", line_color="red")
fig.add_vline(x=upper_threshold, line_dash="dash", line_color="green")

# Añadir anotaciones con el recuento (texto coloreado, fondo blanco)
fig.add_annotation(
    text=f"Casos: {count_lower}",
    xref="x", yref="paper",
    x=df_sorted['review_scores_rating'].min(), y=1.05,
    showarrow=False,
    bgcolor="white", bordercolor='black',
    font=dict(color="red")
)

fig.add_annotation(
    text=f"Casos: {count_middle}",
    xref="x", yref="paper",
    x=df_sorted['review_scores_rating'].median(), y=1.10,
    showarrow=False,
    bgcolor="white", bordercolor='black',
    font=dict(color="blue")
)

fig.add_annotation(
    text=f"Casos: {count_upper}",
    xref="x", yref="paper",
    x=df_sorted['review_scores_rating'].max(), y=1.05,
    showarrow=False,
    bgcolor="white", bordercolor='black',
    font=dict(color="green")
)

fig.update_layout(yaxis_visible=False, yaxis_showticklabels=False)
fig.update_layout(title='Dispersión de review_scores_rating con cuartiles destacados y recuento de casos')
fig.update_xaxes(title_text='review_scores_rating')

fig.show()

En el gráfico los valores entre la parte superior e inferior no coinciden debido al solapamiento de casos en el mismo valor por eso aparecen más en el rango superior que en el inferior, pero para el resto del código eso no se ha solucionado

In [10]:
# Selección del 10% de los casos con mayor score_rating por ciudad y room_type:
def top_n_percent(group, col, percent=0.25):
    n = int(len(group) * percent)
    return group.nlargest(n, col)

top_25_percent_reviews = df_cl.groupby(['room_type', 'city']).apply(top_n_percent, col='review_scores_rating', percent=0.25).reset_index(drop=True)





In [11]:
# Selección del 10% de los casos con menor score_rating por ciudad y room_type:
def bottom_n_percent(group, col, percent=0.25):
    n = int(len(group) * percent)
    return group.nsmallest(n, col)

bottom_25_percent_reviews = df_cl.groupby(['room_type', 'city']).apply(bottom_n_percent, col='review_scores_rating', percent=0.25).reset_index(drop=True)





In [12]:
print(f'Cantidad de casos: {len(top_25_percent_reviews)}, del 25% con mayor puntuación')
print('\n')
print(f'Cantidad de casos: {len(bottom_25_percent_reviews)}, del 25% con menor puntuación')

Cantidad de casos: 1913, del 25% con mayor puntuación


Cantidad de casos: 1913, del 25% con menor puntuación


### Selección del 25% de los casos mejor puntuados

In [13]:
import plotly.graph_objects as go

fig = go.Figure()

room_types = top_25_percent_reviews['room_type'].unique()
score_columns = ['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']

for room in room_types:
    subset = top_25_percent_reviews[top_25_percent_reviews['room_type'] == room]
    mean_scores = subset[score_columns].mean()
    fig.add_trace(go.Scatter(
        x=score_columns,
        y=mean_scores.values,
        mode='markers+lines',
        name=f'Promedio {room}'
    ))

fig.update_layout(
    title='Promedio de métricas de reseñas por tipo de habitación',
    yaxis_title='Puntuación promedio',
    xaxis_title='Métrica de reseña'
)

fig.show()

In [14]:
import plotly.express as px
import pandas as pd

# Asumiendo que 'top_25_percent_reviews' es tu DataFrame

# Calculamos el promedio de cada métrica por tipo de habitación
grouped_reviews = top_25_percent_reviews.groupby('room_type')[['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']].mean().reset_index().round(2)

# "Unimos" las métricas para poder usar plotly.express
df_melted = grouped_reviews.melt(
    id_vars=['room_type'],
    value_vars=['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication'],
    var_name='review_metric',
    value_name='average_score'
)

fig = px.bar(
    df_melted,
    x='review_metric',
    y='average_score',
    color='room_type',
    barmode='group',
    title='Promedio del 25% con mayor puntuación por tipo de alojamiento'
)

fig.update_layout(
    yaxis_title='Puntuación',
    xaxis_title='Reseñas'
)

fig.show()

### Selección del 25% de los casos peor puntuados

In [15]:
import plotly.graph_objects as go

fig = go.Figure()

room_types = bottom_25_percent_reviews['room_type'].unique()
score_columns = ['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']

for room in room_types:
    subset = bottom_25_percent_reviews[bottom_25_percent_reviews['room_type'] == room]
    mean_scores = subset[score_columns].mean()
    fig.add_trace(go.Scatter(
        x=score_columns,
        y=mean_scores.values,
        mode='markers+lines',
        name=f'Promedio {room}'
    ))

fig.update_layout(
    title='Promedio de métricas de reseñas por tipo de habitación',
    yaxis_title='Puntuación promedio',
    xaxis_title='Métrica de reseña'
)

fig.show()

In [16]:
import plotly.express as px

# Asumiendo que 'bottom_25_percent_reviews' es tu DataFrame

# Fusionamos las columnas de las puntuaciones en un formato 'largo'
df_melted = bottom_25_percent_reviews.melt(
    id_vars=['room_type'],
    value_vars=['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication'],
    var_name='review_metric',
    value_name='score'
)

fig = px.box(
    df_melted,
    x='review_metric',
    y='score',
    color='room_type',
    title='Distribución de métricas de reseñas por tipo de habitación'
)

fig.update_layout(
    yaxis_title='Puntuación',
    xaxis_title='Métrica de reseña'
)

fig.show()

In [17]:
import plotly.express as px
import pandas as pd

# Asumiendo que 'bottom_25_percent_reviews' es tu DataFrame

# Calculamos el promedio de cada métrica por tipo de habitación
grouped_reviews = bottom_25_percent_reviews.groupby('room_type')[['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']].mean().reset_index().round(2)

# "Unimos" las métricas para poder usar plotly.express
df_melted = grouped_reviews.melt(
    id_vars=['room_type'],
    value_vars=['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication'],
    var_name='review_metric',
    value_name='average_score'
)

fig = px.bar(
    df_melted,
    x='review_metric',
    y='average_score',
    color='room_type',
    barmode='group',
    title='Promedio del 25% con menor puntuación por tipo de alojamiento'
)

fig.update_layout(
    yaxis_title='Puntuación',
    xaxis_title='Reseñas'
)

fig.show()

In [18]:
import plotly.express as px
import pandas as pd

# Asumiendo que 'bottom_25_percent_reviews' es tu DataFrame

# Calculamos el promedio de cada métrica por tipo de habitación
grouped_reviews = bottom_25_percent_reviews.groupby('room_type')[['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']].mean().reset_index().round(2)

# "Unimos" las métricas para poder usar plotly.express
df_melted = grouped_reviews.melt(
    id_vars=['room_type'],
    value_vars=['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication'],
    var_name='review_metric',
    value_name='average_score'
)

fig = px.line(
    df_melted,
    x='review_metric',
    y='average_score',
    color='room_type',
    title='Promedio del 25% con menor puntuación por tipo de alojamiento',
    markers=True # Añadimos marcadores para que los puntos sean más visibles
)

fig.update_layout(
    yaxis_title='Puntuación Promedio',
    xaxis_title='Métrica de Reseña'
)

fig.show()

## Propuestas de negocio

### City

In [19]:
import pandas as pd

# Agrupar por ciudad y calcular las sumas necesarias
city_data = df_cl.groupby('city').agg(
    total_reviews=('number_of_reviews', 'sum'),
    total_accommodates=('accommodates', 'sum'),
    total_price=('price', 'sum')
).reset_index()

# Calcular el precio promedio por persona (basado en el total de cada ciudad)
city_data['price_per_person'] = city_data['total_price'] / city_data['total_accommodates']

# Calcular el precio promedio por review
city_data['price_per_review'] = city_data['total_price'] / city_data['total_reviews']

# Ordenar por el número total de reviews
city_reviews_sorted = city_data.sort_values(by='total_reviews', ascending=False).round(2)

city_reviews_sorted

Unnamed: 0,city,total_reviews,total_accommodates,total_price,price_per_person,price_per_review
0,barcelona,82792,7561,1911210.0,252.77,23.08
2,madrid,68099,5543,1224610.0,220.93,17.98
6,sevilla,25850,1582,378980.0,239.56,14.66
7,valencia,17134,1426,240864.0,168.91,14.06
4,mallorca,16203,7743,2029285.0,262.08,125.24
3,malaga,15792,1577,287530.0,182.33,18.21
1,girona,13901,6787,1418670.0,209.03,102.06
5,menorca,1709,1018,261080.0,256.46,152.77


In [20]:
import pandas as pd
import plotly.express as px
from sklearn.preprocessing import MinMaxScaler # Necesitarás scikit-learn

# Verifica que 'city_reviews_sorted' no esté vacío
if not city_reviews_sorted.empty:
    # 1. Selecciona las columnas numéricas que quieres normalizar
    cols_to_normalize = ['total_reviews', 'total_accommodates', 'total_price', 'price_per_person', 'price_per_review']
    
    # Crea una copia del DataFrame con la columna 'city' y las columnas a normalizar
    df_normalized_metrics = city_reviews_sorted[['city'] + cols_to_normalize].copy()

    # 2. Inicializa y aplica el MinMaxScaler a las columnas seleccionadas
    scaler = MinMaxScaler()
    df_normalized_metrics[cols_to_normalize] = scaler.fit_transform(df_normalized_metrics[cols_to_normalize])

    # 3. Reestructura el DataFrame de formato ancho a largo usando pd.melt()
    df_melted = pd.melt(df_normalized_metrics,
                        id_vars=['city'],
                        value_vars=cols_to_normalize,
                        var_name='Métrica',          # Nombre de la nueva columna que contendrá los nombres de las métricas
                        value_name='Valor Normalizado') # Nombre de la nueva columna que contendrá los valores normalizados

     # 4. Crea el gráfico de líneas con la nueva estructura de datos
    fig_pivoted = px.line(df_melted,
                          x='Métrica',             # Las diferentes métricas en el eje X
                          y='Valor Normalizado',   # Los valores normalizados en el eje Y
                          color='city',            # Cada ciudad será una línea de color diferente
                          title='Perfil Normalizado de Ciudades por Métrica',
                          labels={
                              'Valor Normalizado': 'Valor Normalizado (0 a 1)',
                              'Métrica': 'Indicador', # Cambiamos "Tipo de Métrica" por "Indicador" o similar
                              'city': 'Ciudad'
                          },
                          markers=True) # Añade marcadores en los puntos

    # Personalizar el diseño del gráfico
    fig_pivoted.update_layout(
        xaxis_title='Indicador Analizado',
        yaxis_title='Valor Normalizado (0-1)',
        legend_title_text='Ciudad',
        width=900,  # Ajusta el ancho según necesites
        height=500 # Ajusta la altura según necesites
    )
    # Opcional: Rotar las etiquetas del eje X si los nombres de las métricas son largos
    fig_pivoted.update_xaxes(tickangle=-45) # Rotar etiquetas para mejor legibilidad

    # Mostrar el gráfico
    fig_pivoted.show()
else:
    print("El DataFrame 'city_reviews_sorted' está vacío o no se ha generado correctamente.")

In [21]:
import plotly.express as px
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Verifica que 'city_reviews_sorted' no esté vacío y contenga las columnas necesarias
if not city_reviews_sorted.empty:
    # Selecciona las columnas a normalizar
    cols_to_normalize = ['total_reviews','total_accommodates', 'total_price','price_per_review','price_per_person']

    # Crea una copia del DataFrame con la columna 'city' y las columnas a normalizar
    df_normalized = city_reviews_sorted[['city'] + cols_to_normalize].copy()

    # Inicializa y aplica el MinMaxScaler
    scaler = MinMaxScaler()
    df_normalized[cols_to_normalize] = scaler.fit_transform(df_normalized[cols_to_normalize])

    # Reestructura el DataFrame para usar plotly.express
    df_melted = pd.melt(df_normalized,
                         id_vars=['city'],
                         value_vars=cols_to_normalize,
                         var_name='Métrica Normalizada',
                         value_name='Valor Normalizado')

    fig = px.line(df_melted,
                    x='city',
                    y='Valor Normalizado',
                    color='Métrica Normalizada',
                    title='Gráfico de las dimensiones por ciudades',
                    labels={
                        'Valor Normalizado': 'Valor Normalizado (0 a 1)',
                        'Métrica Normalizada': 'Métrica',
                        'city': 'Ciudad'
                    },
                    markers=True)

    # Personalizar el diseño del gráfico (opcional, pero recomendado)
    fig.update_layout(
        xaxis_title='Ciudad', 
        yaxis_title='Valor Normalizado (0-1)',
        legend_title_text='Métricas'
    )

    # Cambiamos el color de fondo del gráfico
    fig.update_layout(paper_bgcolor="#D8F3DC")

    # Cambiamos el color de fondo del área 
    fig.update_layout(plot_bgcolor="#D8F3DC")

    # Mostrar el gráfico
    fig.show()
else:
   print('Gráfico generado con éxito')

In [22]:
import plotly.express as px
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Verifica que 'city_reviews_sorted' no esté vacío y contenga las columnas necesarias
if not city_reviews_sorted.empty:
    # Selecciona las columnas a normalizar
    cols_to_normalize = ['total_reviews','total_accommodates', 'total_price','price_per_review','price_per_person']

    # Crea una copia del DataFrame con la columna 'city' y las columnas a normalizar
    df_normalized = city_reviews_sorted[['city'] + cols_to_normalize].copy()

    # Inicializa y aplica el MinMaxScaler
    scaler = MinMaxScaler()
    df_normalized[cols_to_normalize] = scaler.fit_transform(df_normalized[cols_to_normalize])

    # Reestructura el DataFrame para usar plotly.express
    df_melted = pd.melt(df_normalized,
                         id_vars=['city'],
                         value_vars=cols_to_normalize,
                         var_name='Métrica Normalizada',
                         value_name='Valor Normalizado')

    fig = px.line(df_melted,
                  x='Métrica Normalizada',
                  y='Valor Normalizado',
                  color='city',
                  title='Gráfico de las dimensiones por ciudades',
                  labels={
                      'Valor Normalizado': 'Valor Normalizado (0 a 1)',
                      'Métrica Normalizada': 'Métrica',
                      'city': 'Ciudad'
                  },
                  markers=True)

    # Personalizar el diseño del gráfico
    fig.update_layout(
        xaxis_title='Métrica',
        yaxis_title='Valor Normalizado (0-1)',
        legend_title_text='Ciudad'
    )

    # Cambiamos el color de fondo del gráfico
    fig.update_layout(paper_bgcolor="#D8F3DC")

    # Cambiamos el color de fondo del área
    fig.update_layout(plot_bgcolor="#D8F3DC")

    # Mostrar el gráfico
    fig.show()
else:
    print('Gráfico generado con éxito')

### Room_type

In [23]:
import pandas as pd

# Agrupar por ciudad y calcular las sumas necesarias
room_type_data = df_cl.groupby('room_type').agg(
    total_reviews=('number_of_reviews', 'sum'),
    total_accommodates=('accommodates', 'sum'),
    total_price=('price', 'sum')
).reset_index()

# Calcular el precio promedio por persona (basado en el total de cada ciudad)
room_type_data['price_per_person'] = room_type_data['total_price'] / room_type_data['total_accommodates']

# Calcular el precio promedio por review
room_type_data['price_per_review'] = room_type_data['total_price'] / room_type_data['total_reviews']

# Ordenar por el número total de reviews
room_type_reviews_sorted = room_type_data.sort_values(by='total_reviews', ascending=False).round(2)

room_type_reviews_sorted

Unnamed: 0,room_type,total_reviews,total_accommodates,total_price,price_per_person,price_per_review
0,Entire home/apt,166469,28718,6718179.0,233.94,40.36
2,Private room,73543,4240,964640.0,227.51,13.12
1,Hotel room,910,159,54030.0,339.81,59.37
3,Shared room,558,120,15380.0,128.17,27.56


In [24]:
import plotly.express as px
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Verifica que 'city_reviews_sorted' no esté vacío y contenga las columnas necesarias
if not room_type_data.empty:
    # Selecciona las columnas a normalizar
    cols_to_normalize = ['total_reviews','total_accommodates', 'total_price','price_per_review','price_per_person']

    # Crea una copia del DataFrame con la columna 'room_type' y las columnas a normalizar
    df_normalized = room_type_data[['room_type'] + cols_to_normalize].copy()

    # Inicializa y aplica el MinMaxScaler
    scaler = MinMaxScaler()
    df_normalized[cols_to_normalize] = scaler.fit_transform(df_normalized[cols_to_normalize])

    # Reestructura el DataFrame para usar plotly.express
    df_melted = pd.melt(df_normalized,
                         id_vars=['room_type'],
                         value_vars=cols_to_normalize,
                         var_name='Métrica Normalizada',
                         value_name='Valor Normalizado')

    fig = px.line(df_melted,
                    x='room_type',
                    y='Valor Normalizado',
                    color='Métrica Normalizada',
                    title='Gráfico de las dimensiones por tipo de alojamiento',
                    labels={
                        'Valor Normalizado': 'Valor Normalizado (0 a 1)',
                        'Métrica Normalizada': 'Métrica',
                        'room_type': 'Tipo de alojamiento'
                    },
                    markers=True)

    # Personalizar el diseño del gráfico (opcional, pero recomendado)
    fig.update_layout(
        xaxis_title='Tipo de alojamiento', 
        yaxis_title='Valor Normalizado (0-1)',
        legend_title_text='Métricas'
    )

    # Cambiamos el color de fondo del gráfico
    fig.update_layout(paper_bgcolor="#D8F3DC")

    # Cambiamos el color de fondo del área 
    fig.update_layout(plot_bgcolor="#D8F3DC")

    # Mostrar el gráfico
    fig.show()
else:
   print('Gráfico generado con éxito')

In [25]:
import plotly.express as px
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Verifica que 'room_type_data' no esté vacío y contenga las columnas necesarias
if not room_type_data.empty:
    # Selecciona las columnas a normalizar
    cols_to_normalize = ['total_reviews','total_accommodates', 'total_price','price_per_review','price_per_person']

    # Crea una copia del DataFrame con la columna 'room_type' y las columnas a normalizar
    df_normalized = room_type_data[['room_type'] + cols_to_normalize].copy()

    # Inicializa y aplica el MinMaxScaler
    scaler = MinMaxScaler()
    df_normalized[cols_to_normalize] = scaler.fit_transform(df_normalized[cols_to_normalize])

    # Reestructura el DataFrame para usar plotly.express
    df_melted = pd.melt(df_normalized,
                         id_vars=['room_type'],
                         value_vars=cols_to_normalize,
                         var_name='Métrica Normalizada',
                         value_name='Valor Normalizado')

    fig = px.line(df_melted,
                  x='Métrica Normalizada',
                  y='Valor Normalizado',
                  color='room_type',
                  title='Gráfico de las dimensiones por tipo de alojamiento',
                  labels={
                      'Valor Normalizado': 'Valor Normalizado (0 a 1)',
                      'Métrica Normalizada': 'Métrica',
                      'room_type': 'Tipo de alojamiento'
                  },
                  markers=True)

    # Personalizar el diseño del gráfico
    fig.update_layout(
        xaxis_title='Métrica',
        yaxis_title='Valor Normalizado (0-1)',
        legend_title_text='Tipo de alojamiento'
    )

    # Cambiamos el color de fondo del gráfico
    fig.update_layout(paper_bgcolor="#D8F3DC")

    # Cambiamos el color de fondo del área
    fig.update_layout(plot_bgcolor="#D8F3DC")

    # Mostrar el gráfico
    fig.show()
else:
    print('Gráfico generado con éxito')

In [26]:
import plotly.express as px
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Verifica que 'room_type_reviews_sorted' no esté vacío y contenga las columnas necesarias
if not room_type_reviews_sorted.empty:
    # Selecciona las columnas a normalizar
    cols_to_normalize = ['total_accommodates', 'price_per_person']

    # Crea una copia del DataFrame con la columna 'room_type' y las columnas a normalizar
    df_normalized = room_type_reviews_sorted[['room_type'] + cols_to_normalize].copy()

    # Inicializa y aplica el MinMaxScaler
    scaler = MinMaxScaler()
    df_normalized[cols_to_normalize] = scaler.fit_transform(df_normalized[cols_to_normalize])

    # Reestructura el DataFrame para usar plotly.express
    df_melted = pd.melt(df_normalized,
                         id_vars=['room_type'],
                         value_vars=cols_to_normalize,
                         var_name='Métrica Normalizada',
                         value_name='Valor Normalizado')

    fig = px.line(df_melted,
                    x='room_type',
                    y='Valor Normalizado',
                    color='Métrica Normalizada',
                    title='Gráfico de las dimensiones por tipo de habitación',
                    labels={
                        'Valor Normalizado': 'Valor Normalizado (0 a 1)',
                        'Métrica Normalizada': 'Métrica',
                        'room_type': 'Tipo de Habitación'
                    },
                    markers=True)

    # Personalizar el diseño del gráfico (opcional, pero recomendado)
    fig.update_layout(
        xaxis_title='Tipo de Habitación',
        yaxis_title='Valor Normalizado (0-1)',
        legend_title_text='Métricas'
    )

    # Cambiamos el color de fondo del gráfico
    fig.update_layout(paper_bgcolor="#D8F3DC")

    # Cambiamos el color de fondo del área del gráfico
    fig.update_layout(plot_bgcolor="#D8F3DC") 

    # Mostrar el gráfico
    fig.show()
else:
    print("El DataFrame 'room_type_reviews_sorted' está vacío o no se ha generado correctamente.")

Una de las propuestas de negocio basandonos en la capacidad de plazas que dispone nuestra plataforma por toda España y comparandolas con el número de puntuaciones emitidas en la plataforma observamos que las 3 ciudades que más reviews tienen por orden son:

1. Barcelona
2. Madrid
3. Sevilla 

Pero por contra estas ciudades ordenadas por capacidad de plazas:

2. Barcelona
4. Madrid
5. Sevilla

Por ello creemos que puede ser una buena inversión aumentar el número de alojamientos en estas ciudades para poder ofrecer mayor número de plazas para visitar estas ciudades.

En cuanto el tipo de alojamientos el mayor número de plazas y el mayor número de reviews con diferencia es en el Entire home/apt. 

Pero si observamos la relación precio/cliente:

- Hotel room es el alojamiento que mayores ingresos por cliente

Y si observamos la relación ciudad/precio:

- Mallorca es la ciudad con mayores ingresos por cliente

Por ello recomendamos aumentar el número de plaza en estos dos sectores ya que son los más rentables por cliente.