# Análisis departamento de Experiencia del Cliente

## Pregunta de negocio:

¿Que aspectos presentan diferencias más grandes entre los alojamientos mejor y peor valorados en la puntuación general?
- Precisión de detalles
- Higiene
- Check-in 

## Cargar dataset df_tourist_python_sprint2.csv

In [2]:
import pandas as pd   

nombre_documento = r'df_tourist_python_sprint2.csv'
df_tourist = pd.read_csv(nombre_documento, sep=';', decimal='.')

## Transformación dataset df_tourist_python_sprint2 para crear df_cl y responder la pregunta de negocio

In [3]:
# Creación dataset:
df_cl = df_tourist[['apartment_id','room_type','accommodates','bathrooms','bedrooms','beds','price',
                    'number_of_reviews','review_scores_rating','review_scores_accuracy','review_scores_cleanliness',
                    'review_scores_checkin','review_scores_communication','review_scores_location','reviews_per_month','city']]

# Visualiza el dataset:
df_cl

Unnamed: 0,apartment_id,room_type,accommodates,bathrooms,bedrooms,beds,price,number_of_reviews,review_scores_rating,review_scores_accuracy,review_scores_cleanliness,review_scores_checkin,review_scores_communication,review_scores_location,reviews_per_month,city
0,11964,Private room,2,2.0,1.0,1.0,400.0,78,97.0,100.0,100.0,100.0,100.0,100.0,75.0,malaga
1,21853,Private room,1,1.0,1.0,1.0,170.0,33,92.0,90.0,90.0,100.0,100.0,80.0,52.0,madrid
2,32347,Entire home/apt,4,1.0,2.0,2.0,990.0,148,98.0,100.0,100.0,100.0,100.0,100.0,142.0,sevilla
3,35379,Private room,2,2.0,1.0,1.0,400.0,292,94.0,100.0,90.0,100.0,100.0,100.0,306.0,barcelona
4,35801,Private room,5,1.0,2.0,5.0,900.0,36,97.0,100.0,100.0,100.0,100.0,100.0,39.0,girona
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
7688,32392193,Private room,1,1.0,1.0,1.0,3000.0,0,94.0,100.0,90.0,100.0,100.0,100.0,88.0,barcelona
7689,32392774,Entire home/apt,6,2.0,3.0,4.0,2090.0,36,100.0,100.0,100.0,100.0,100.0,100.0,157.0,sevilla
7690,32395123,Entire home/apt,2,1.0,1.0,2.0,930.0,0,96.0,100.0,100.0,100.0,100.0,100.0,25.0,mallorca
7691,32407332,Private room,3,2.0,2.0,2.0,960.0,21,98.0,100.0,100.0,100.0,100.0,100.0,389.0,barcelona


In [4]:
df_cl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7693 entries, 0 to 7692
Data columns (total 16 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   apartment_id                 7693 non-null   int64  
 1   room_type                    7693 non-null   object 
 2   accommodates                 7693 non-null   int64  
 3   bathrooms                    7693 non-null   float64
 4   bedrooms                     7693 non-null   float64
 5   beds                         7693 non-null   float64
 6   price                        7693 non-null   float64
 7   number_of_reviews            7693 non-null   int64  
 8   review_scores_rating         7693 non-null   float64
 9   review_scores_accuracy       7693 non-null   float64
 10  review_scores_cleanliness    7693 non-null   float64
 11  review_scores_checkin        7693 non-null   float64
 12  review_scores_communication  7693 non-null   float64
 13  review_scores_loca

## Analasis de la Experiencia del Cliente:

Analista de experiencia del cliente:
¿Qué aspectos (precisión de los detalles, limpieza, check-in o comunicación) presentan mayores diferencias entre los alojamientos mejor y peor valorados en la puntuación general?


In [None]:

# Entre el 10 % de alojamientos con mejor y peor valoración general

import plotly.graph_objects as go

# Eliminar valores faltantes en las columnas relevantes
cols = [
    'review_scores_rating',
    'review_scores_accuracy',
    'review_scores_cleanliness',
    'review_scores_checkin',
    'review_scores_communication'
]
df = df_cl[cols].dropna()

# Definir percentiles para dividir los grupos
q90 = df['review_scores_rating'].quantile(0.90)
q10 = df['review_scores_rating'].quantile(0.10)

# Agrupar datos
high = df[df['review_scores_rating'] >= q90]
low = df[df['review_scores_rating'] <= q10]

# Calcular promedios
mean_high = high.iloc[:, 1:].mean()
mean_low = low.iloc[:, 1:].mean()

# Crear etiquetas más legibles para el eje X
aspects = mean_high.index.str.replace('review_scores_', '').str.capitalize()

# Crear gráfico de barras doble
fig = go.Figure(data=[
    go.Bar(
        name='Alta puntuación',
        x=aspects,
        y=mean_high.values,
        marker_color='#8BAE3F'  # Verde lima
    ),
    go.Bar(
        name='Baja puntuación',
        x=aspects,
        y=mean_low.values,
        marker_color='#2D6A4F'  # Verde bosque oscuro
    )
])

# Configuración del diseño del gráfico
fig.update_layout(
    title='Comparación de aspectos entre alojamientos mejor y peor valorados',
    xaxis_title='Aspecto de la experiencia del cliente',
    yaxis_title='Puntuación promedio',
    barmode='group',
    template='plotly_white',
    font=dict(size=14)
)

fig.show()


Mostrar en qué aspectos de la experiencia del cliente los alojamientos con una puntuación superior a 80 funcionan mejor que aquellos con puntuaciones más bajas, y cuánto es la diferencia en cada aspecto.


In [None]:

import plotly.graph_objects as go

# Definir umbral
umbral = 80

# Limpiar datos con valores nulos en columnas clave
df_limpio = df.dropna(subset=['review_scores_rating', 'review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication'])

# Separar en dos grupos según la puntuación general
bien = df_limpio[df_limpio['review_scores_rating'] >= umbral]
mal = df_limpio[df_limpio['review_scores_rating'] < umbral]

# Columnas a comparar
cols = ['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']

# Promedio de cada grupo
prom_bien = bien[cols].mean()
prom_mal = mal[cols].mean()

# Diferencia de promedios
diff = prom_bien - prom_mal

# Colores para barras (verde claro si positivo, verde oscuro si negativo)
colores = ['#8BAE3F' if v > 0 else '#2D6A4F' for v in diff]

# Crear gráfico
fig = go.Figure(go.Bar(
    x=['Precisión', 'Limpieza', 'Check-in', 'Comunicación'],
    y=diff.values,
    marker_color=colores,
    text=[f'{v:.2f}' for v in diff.values],
    textposition='outside'
))

fig.update_layout(
    title='Diferencia promedio de puntuaciones entre grupos',
    yaxis_title='Diferencia (bien - mal)',
    xaxis_title='Aspectos',
    yaxis=dict(zeroline=True, zerolinecolor='black'),
    template='plotly_white'
)

fig.show()

#Análisis comparativo de diferencias en aspectos clave de la experiencia del cliente entre alojamientos mejor y peor valorados según percentiles 90 y 10


In [None]:

import plotly.graph_objects as go

# Seleccionamos solo las columnas que nos interesan
cols = [
    'review_scores_rating',
    'review_scores_accuracy',
    'review_scores_cleanliness',
    'review_scores_checkin',
    'review_scores_communication'
]
df = df_cl[cols].dropna()

# Definimos los umbrales alto y bajo para la puntuación general
high_threshold = df['review_scores_rating'].quantile(0.9)  # Percentil 90
low_threshold = df['review_scores_rating'].quantile(0.1)   # Percentil 10

# Dividimos el DataFrame en dos grupos: los mejores y los peores según la puntuación general
top = df[df['review_scores_rating'] >= high_threshold]
bottom = df[df['review_scores_rating'] <= low_threshold]

# Calculamos la media de las puntuaciones de diferentes aspectos de la experiencia para cada grupo
aspects = ['review_scores_accuracy', 'review_scores_cleanliness', 'review_scores_checkin', 'review_scores_communication']
top_means = top[aspects].mean()
bottom_means = bottom[aspects].mean()

# Calculamos las diferencias de puntuación media entre el grupo superior e inferior
differences = (top_means - bottom_means).sort_values()

# Creamos un gráfico de barras horizontal con Plotly para mostrar las diferencias
fig = go.Figure(go.Bar(
    x=differences.values,
    y=differences.index,
    orientation='h',
    marker=dict(
        color='#8BAE3F'  # Color verde lima
    )
))

# Configuramos el diseño del gráfico
fig.update_layout(
    title='Diferencias en aspectos de la experiencia del cliente\nentre los alojamientos mejor y peor valorados',
    xaxis_title='Diferencia en la puntuación media (Mejor - Peor)',
    yaxis_title='Aspectos',
    plot_bgcolor='white',
    font=dict(size=14),
    xaxis=dict(showgrid=True, gridcolor='#2D6A4F'),  # Verde oscuro para la grilla
    yaxis=dict(showgrid=False),
    height=400
)

# Mostramos el gráfico
fig.show()
