- **KPI: que el porcentaje de reviews negativas asociadas a un factor específico sobre el total, se mantenga por debajo del 5%, medir entre el ultimo semestre y el anterior.**

In [1]:
# Import necessary libraries
import pandas as pd

# Load the data
df = pd.read_parquet('../data/Starbucks_reviews_ETL_limpio.parquet')

# Convert the 'date' column to datetime format
df['date'] = pd.to_datetime(df['date'])

# Define the patterns
patterns = ['slow', 'long', 'line', 'slowest']

# Filter reviews for the last semester of 2021 and the previous semester
start_date_last_semester = '2021-07-01'
end_date_last_semester = '2021-12-31'
start_date_previous_semester = '2021-01-01'
end_date_previous_semester = '2021-06-30'

# Filter reviews based on the date range
last_semester_reviews = df[(df['date'] >= start_date_last_semester) & (df['date'] <= end_date_last_semester)]
previous_semester_reviews = df[(df['date'] >= start_date_previous_semester) & (df['date'] <= end_date_previous_semester)]

# Function to check if a review contains any of the patterns
def contains_patterns(text, patterns):
    if text is None:
        return False
    return any(pattern in text.lower() for pattern in patterns)

# Apply the function to filter reviews containing the patterns
last_semester_reviews['contains_patterns'] = last_semester_reviews['text'].apply(lambda x: contains_patterns(x, patterns))
previous_semester_reviews['contains_patterns'] = previous_semester_reviews['text'].apply(lambda x: contains_patterns(x, patterns))

# Calculate the percentage of negative reviews associated with slow service
last_semester_negative_reviews = last_semester_reviews[last_semester_reviews['contains_patterns']]
previous_semester_negative_reviews = previous_semester_reviews[previous_semester_reviews['contains_patterns']]

# Calculate the KPI
last_semester_kpi = (len(last_semester_negative_reviews) / len(last_semester_reviews)) * 100
previous_semester_kpi = (len(previous_semester_negative_reviews) / len(previous_semester_reviews)) * 100

# Calculate the percentage decrease between the two KPIs
percentage_decrease = ((previous_semester_kpi - last_semester_kpi) / previous_semester_kpi) * 100

# Check if the KPI condition is met (5% decrease)
kpi_condition_met = percentage_decrease >= 5

# Print the results
print('Porcentaje del último semestre de 2021: ' + str(last_semester_kpi) + '%')
print('Porcentaje del primer semestre de 2021: ' + str(previous_semester_kpi) + '%')
print('Disminución porcentual: ' + str(percentage_decrease) + '%')
print('KPI cumplido: ' + str(kpi_condition_met))

Porcentaje del último semestre de 2021: 4.160246533127889%
Porcentaje del primer semestre de 2021: 4.681784930504755%
Disminución porcentual: 11.1397342064715%
KPI cumplido: True


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  last_semester_reviews['contains_patterns'] = last_semester_reviews['text'].apply(lambda x: contains_patterns(x, patterns))
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  previous_semester_reviews['contains_patterns'] = previous_semester_reviews['text'].apply(lambda x: contains_patterns(x, patterns))


- **KPI:el objetivo es incrementar el total de reviews en al menos un 10% entre el ultimo año(2021) y el anterior(2020).**

In [3]:
# Este código calcula el KPI "Aumento Anual de Reviews" para verificar si el total de reviews aumentó al menos un 10% entre 2020 y 2021.

import pandas as pd

# Cargar los datos
df = pd.read_parquet('../data/Starbucks_reviews_ETL_limpio.parquet')

# Extraer el año de la fecha del review
df['year'] = pd.to_datetime(df['date']).dt.year

# Contar el número de reviews por año
reviews_per_year = df['year'].value_counts().sort_index()

# Calcular el aumento porcentual de reviews de 2020 a 2021
reviews_2020 = reviews_per_year.get(2020, 0)
reviews_2021 = reviews_per_year.get(2021, 0)

if reviews_2020 > 0:
    percentaje_variation = ((reviews_2021 - reviews_2020) / reviews_2020) * 100
else:
    percentaje_variation = float('inf')  # Si no hubo reviews en 2020, el aumento se considera infinito

# Verificar si el aumento es al menos del 10%
kpi_achieved = percentaje_variation >= 10

print('Reviews en 2020:', reviews_2020)
print('Reviews en 2021:', reviews_2021)
print('Variacion porcentual:', percentaje_variation)
print('KPI Alcanzado:', kpi_achieved)

Reviews en 2020: 27658
Reviews en 2021: 18427
Variacion porcentual: -33.375515221635695
KPI Alcanzado: False


- **KPI: Que la puntuación promedio de Starbucks sea superior en un 5% a la de su principal competidor(Dunkin), medida por semestre(el ultimo comparado con el anterior).**

In [6]:
# Importar las bibliotecas necesarias
import pandas as pd

# Cargar los datos
starbucks_df = pd.read_parquet('../data/Starbucks_reviews_ETL_limpio.parquet')
dunkin_df = pd.read_parquet('../data/Dunkin_reviews_ETL_limpio.parquet')

# Convertir las columnas de fecha a tipo datetime
starbucks_df['date'] = pd.to_datetime(starbucks_df['date'])
dunkin_df['date'] = pd.to_datetime(dunkin_df['date'])

# Filtrar los datos para el último semestre de 2021 y el semestre anterior
fecha_inicio_semestre_1 = '2021-01-01'
fecha_fin_semestre_1 = '2021-06-30'
fecha_inicio_semestre_2 = '2021-07-01'
fecha_fin_semestre_2 = '2021-12-31'

starbucks_semestre_1 = starbucks_df[(starbucks_df['date'] >= fecha_inicio_semestre_1) & (starbucks_df['date'] <= fecha_fin_semestre_1)]
starbucks_semestre_2 = starbucks_df[(starbucks_df['date'] >= fecha_inicio_semestre_2) & (starbucks_df['date'] <= fecha_fin_semestre_2)]

dunkin_semestre_1 = dunkin_df[(dunkin_df['date'] >= fecha_inicio_semestre_1) & (dunkin_df['date'] <= fecha_fin_semestre_1)]
dunkin_semestre_2 = dunkin_df[(dunkin_df['date'] >= fecha_inicio_semestre_2) & (dunkin_df['date'] <= fecha_fin_semestre_2)]

# Calcular las puntuaciones promedio para cada semestre
puntuacion_promedio_starbucks_semestre_1 = starbucks_semestre_1['rating'].mean()
puntuacion_promedio_starbucks_semestre_2 = starbucks_semestre_2['rating'].mean()

puntuacion_promedio_dunkin_semestre_1 = dunkin_semestre_1['rating'].mean()
puntuacion_promedio_dunkin_semestre_2 = dunkin_semestre_2['rating'].mean()

# Calcular la puntuación promedio total para el año 2021
puntuacion_promedio_starbucks = (puntuacion_promedio_starbucks_semestre_1 + puntuacion_promedio_starbucks_semestre_2) / 2
puntuacion_promedio_dunkin = (puntuacion_promedio_dunkin_semestre_1 + puntuacion_promedio_dunkin_semestre_2) / 2

# Calcular la variación porcentual
variacion_porcentual = ((puntuacion_promedio_starbucks - puntuacion_promedio_dunkin) / puntuacion_promedio_dunkin) * 100

# Calcular el KPI para una diferencia del 5%
kpi_5_por_ciento = puntuacion_promedio_starbucks > (puntuacion_promedio_dunkin * 1.05)

# Imprimir los resultados
print('Puntuación Promedio de Starbucks:', puntuacion_promedio_starbucks)
print('Puntuación Promedio de Dunkin:', puntuacion_promedio_dunkin)
print('Variación Porcentual:', variacion_porcentual)
print('KPI Cumplido (5%):', kpi_5_por_ciento)

Puntuación Promedio de Starbucks: 4.24807023162943
Puntuación Promedio de Dunkin: 4.059433996080868
Variación Porcentual: 4.646860516285729
KPI Cumplido (5%): False
