In [2]:
import pandas as pd

# Indicadores Clave - KPIs

Tasa de retención de clientes (objetivo de aumento del 5% en 6 meses) → Este KPI mide la capacidad de la empresa para retener clientes durante un período específico (6 meses). La tasa de retención se calcula como el porcentaje de clientes al final del período(después de 6 meses), descontando los nuevos clientes, dividido por el número de clientes al inicio del período. Esto nos proporciona una medida de cómo la empresa ha podido retener a sus clientes existentes y atraer nuevos clientes durante el período. El objetivo es alcanzar un aumento del 5% en la tasa de retención de clientes durante esos 6 meses.

### → tasa_retencion = ((clientes_al_final - nuevos_clientes) / clientes_al_inicio) * 100


In [3]:
# Importamos la biblioteca Pandas
import pandas as pd

# Leemos el archivo Parquet 'Yelp_Reviews_Florida.parquet'
df_KPI_1 = pd.read_parquet('Yelp_Reviews_Florida.parquet')

# Seleccionamos las columnas 'user_id', 'business_id' y 'date'
df_KPI_1 = df_KPI_1[['user_id','business_id','date']]

# Convertimos la columna 'date' a tipo fecha
df_KPI_1['Fecha'] = pd.to_datetime(df_KPI_1['date'])

# Creamos una nueva columna 'Mes_Año' que extrae el mes y el año
df_KPI_1['Mes_Año'] = df_KPI_1['Fecha'].dt.to_period('M')

# Creamos una columna 'Semestre' para identificar el semestre del año
df_KPI_1['Semestre'] = df_KPI_1['Fecha'].apply(lambda x: '1er Semestre' if x.month <= 6 else '2do Semestre')

# Creamos una columna 'Año_Semestre' para combinar el año y el semestre
df_KPI_1['Año_Semestre'] = df_KPI_1['Fecha'].dt.year.astype(str) + ' ' + df_KPI_1['Semestre']

# Contamos el número de filas por 'Año_Semestre'
conteo_por_semestre = df_KPI_1.groupby('Año_Semestre').size()

# Reseteamos el índice y lo convertimos en un DataFrame
nuevo_df = conteo_por_semestre.reset_index(name='Cantidad')

# Calculamos el cambio porcentual en la cantidad de filas
nuevo_df['Cambio_Porc'] = nuevo_df['Cantidad'].pct_change() * 100

# Exportamos el DataFrame a un archivo Parquet 'KPI_1.parquet'
nuevo_df.to_parquet('KPI_1.parquet')

# Mostramos el DataFrame
nuevo_df


Unnamed: 0,Año_Semestre,Cantidad,Cambio_Porc
0,2005 1er Semestre,9,
1,2005 2do Semestre,13,44.444444
2,2006 1er Semestre,33,153.846154
3,2006 2do Semestre,77,133.333333
4,2007 1er Semestre,197,155.844156
5,2007 2do Semestre,220,11.675127
6,2008 1er Semestre,545,147.727273
7,2008 2do Semestre,843,54.678899
8,2009 1er Semestre,1005,19.217082
9,2009 2do Semestre,1179,17.313433


# KPI 2

Promedio de calificación de negocios (objetivo de aumento de promedio del 10% en 6 meses) → Este KPI muestra el promedio de las calificaciones de los negocios durante 6 meses. Se calcula como la suma de las calificaciones de los negocios en el período actual y anterior, dividido por el número total de negocios en el período actual y anterior. El objetivo es alcanzar un aumento del 10% en el promedio de calificación de los negocios durante esos 6 meses.

### → promedio_calificacion = (suma_calificacion_actual + suma_calificacion_anterior) / (numero_total_negocios_actual + numero_total_negocios_anterior)


In [5]:
# Importamos la biblioteca Pandas
import pandas as pd

# Leemos el archivo Parquet 'Yelp_Reviews_Florida.parquet'
df1 = pd.read_parquet('Yelp_Reviews_Florida.parquet')

# Seleccionamos las columnas 'stars' y 'date'
df1 = df1[['stars','date']]

# Convertimos la columna 'date' a tipo fecha
df1['Fecha'] = pd.to_datetime(df1['date'])

# Creamos una columna 'Semestre' para identificar el semestre del año
df1['Semestre'] = df1['Fecha'].apply(lambda x: '1er Semestre' if x.month <= 6 else '2do Semestre')

# Creamos una columna 'Año_Semestre' para combinar el año y el semestre
df1['Año_Semestre'] = df1['Fecha'].dt.year.astype(str) + ' ' + df1['Semestre']

# Calculamos el promedio de la calificación por 'Año_Semestre'
promedio_rating = df1.groupby('Año_Semestre')['stars'].mean().reset_index()

# Añadimos una columna 'Cambio_Porc' para calcular el cambio porcentual en la calificación
promedio_rating['Cambio_Porc'] = promedio_rating['stars'].pct_change() * 100

# Exportamos el DataFrame a un archivo Parquet 'KPI_2.parquet'
promedio_rating.to_parquet('KPI_2.parquet')



# KPI 3
Porcentaje de reseñas positivas (objetivo de aumento del 10% en 6 meses) → Este KPI muestra el porcentaje de reseñas positivas en comparación con el total de reseñas durante 6 meses. Se calcula como el número total de reseñas positivas en el período actual, dividido por el número total de reseñas en el período actual. El objetivo es alcanzar un aumento del 10% en el porcentaje de reseñas positivas durante esos 6 meses.

→ porcentaje_reseñas_positivas = (numero_total_reseñas_positivas / numero_total_reseñas) * 100


In [3]:
import pandas as pd 

df1 = pd.read_parquet('Yelp_Reviews_Florida.parquet')
df1 = df1[['Sentiment_analysis','date']]
df1['Fecha'] = pd.to_datetime(df1['date'])

# Creamos una columna 'Semestre' para identificar el semestre del año
df1['Semestre'] = df1['Fecha'].apply(lambda x: '1er Semestre' if x.month <= 6 else '2do Semestre')

# Creamos una columna 'Año_Semestre' para combinar el año y el semestre
df1['Año_Semestre'] = df1['Fecha'].dt.year.astype(str) + ' ' + df1['Semestre']
grouped = df1.groupby('Año_Semestre')

# Calcular el total de filas por 'Año_Semestre'
total_filas = grouped.size()

# Calcular el total de filas con 'Sentiment_analysis' igual a 2 por 'Año_Semestre'
total_sentiment_2 = df1[df1['Sentiment_analysis'] == 2].groupby('Año_Semestre').size()

# Calcular el porcentaje de filas con 'Sentiment_analysis' igual a 2 sobre el total de filas por grupo
porcentaje = (total_sentiment_2 / total_filas) * 100

# Crear un nuevo DataFrame con los resultados
resultado = pd.DataFrame({'Total resenas': total_filas, 'Total postivas': total_sentiment_2, 'Porcentaje': porcentaje})
resultado['Cambio Porcentual'] = resultado['Porcentaje'].pct_change() * 100
resultado.to_parquet('KPI_3.parquet')

Unnamed: 0,Sentiment_analysis,date,Fecha,Semestre,Año_Semestre
0,2,2015-04-15 15:30:48,2015-04-15 15:30:48,1er Semestre,2015 1er Semestre
1,1,2015-06-08 18:14:13,2015-06-08 18:14:13,1er Semestre,2015 1er Semestre
2,2,2014-03-16 23:27:08,2014-03-16 23:27:08,1er Semestre,2014 1er Semestre
3,2,2015-05-15 01:40:59,2015-05-15 01:40:59,1er Semestre,2015 1er Semestre
4,0,2014-10-28 14:38:58,2014-10-28 14:38:58,2do Semestre,2014 2do Semestre
...,...,...,...,...,...
235339,2,2022-01-15 15:44:18,2022-01-15 15:44:18,1er Semestre,2022 1er Semestre
235340,2,2021-10-02 00:53:43,2021-10-02 00:53:43,2do Semestre,2021 2do Semestre
235341,0,2021-11-17 16:29:38,2021-11-17 16:29:38,2do Semestre,2021 2do Semestre
235342,2,2021-09-29 22:02:26,2021-09-29 22:02:26,2do Semestre,2021 2do Semestre


# KPI 4

Tasa de conversión de recomendaciones en visitas (objetivo de aumento del 10% en 1 año) → Este KPI muestra la eficacia de las recomendaciones en generar visitas durante 1 año. Se calcula como el número de visitas en el año actual menos el número de visitas en el año anterior, dividido por el número total de recomendaciones en el año actual y anterior. El objetivo es alcanzar un aumento del 10% en la tasa de conversión de recomendaciones en visitas durante esos periodo de tiempo.

→ tasa_conversion_recomendaciones_visitas = ((visitas_actual - visitas_anterior) / numero_total_recomendaciones) * 100


In [53]:
# Importamos la biblioteca Pandas
import pandas as pd

# Leemos el archivo Parquet 'Yelp_Reviews_Florida.parquet' dos veces y lo almacenamos en DataFrames df1 y df2
df1 = pd.read_parquet('Yelp_Reviews_Florida.parquet')
df2 = pd.read_parquet('Yelp_Reviews_Florida.parquet')

# Convertimos la columna 'date' a tipo fecha en df1
df1['Fecha'] = pd.to_datetime(df1['date'])

# Creamos una columna 'Año' en df1
df1['Año'] = df1['Fecha'].dt.year.astype(str)

# Filtramos df1 para obtener solo las reviews con 'Sentiment_analysis' igual a 2
df1 = df1[df1['Sentiment_analysis'] == 2]

# Seleccionamos las columnas 'Año' y 'Sentiment_analysis' de df1
df1 = df1[['Año','Sentiment_analysis']]

# Contamos el número de reviews por 'Año' en df1 y lo almacenamos en df_grouped
df_grouped = df1.groupby('Año').size().reset_index(name='#_Recomendaciones')

# Convertimos la columna 'date' a tipo fecha en df2
df2['Fecha'] = pd.to_datetime(df2['date'])

# Creamos una columna 'Año' en df2
df2['Año'] = df2['Fecha'].dt.year.astype(str)

# Seleccionamos las columnas 'Año' y 'Sentiment_analysis' de df2
df2 = df2[['Año','Sentiment_analysis']]

# Contamos el número de reviews por 'Año' en df2 y lo almacenamos en df2
df2 = df2.groupby('Año').size().reset_index(name='#_Visitas')

# Combinamos df_grouped y df2 por 'Año'
df_join = pd.merge(df_grouped, df2, on='Año', how='inner')

# Calculamos la diferencia en el número de visitas entre años consecutivos
df_join['Dif_Visitas'] = df_join['#_Visitas'].diff()

# Calculamos la tasa de conversión
# Ajustamos el cálculo para el primer año ya que no tiene un año anterior para comparar
df_join['Tasa_Conversion'] = df_join.apply(lambda row: (row['Dif_Visitas'] / row['#_Recomendaciones']) * 100 if not pd.isnull(row['Dif_Visitas']) else 0, axis=1)

# Exportamos el DataFrame a un archivo Parquet 'KPI_4.parquet'
df_join.to_parquet('KPI_4.parquet')


Unnamed: 0,review_id,user_id,business_id,stars,text,date,Sentiment_analysis
0,mO398Ed5dpv1H5ZsKc8KXw,yobeeTUBfaTBcnk26mXNuA,hKameFsaXh9g8WQbv593UA,4.0,Food was good- atmosphere/decor is like a fish...,2015-04-15 15:30:48,2
1,qZF1NLDPUUL_iE_jQICixA,dxAtZ4i4qb0wHoWKZFsj6A,hKameFsaXh9g8WQbv593UA,3.0,We took my father here for his 80th birthday. ...,2015-06-08 18:14:13,1
2,cBX15OtoBIPZ5aPWrofDMQ,LfW6kFWMDV0NC6Dl1Xy9Mg,hKameFsaXh9g8WQbv593UA,3.0,Aquafinz is a great value spot if you are look...,2014-03-16 23:27:08,2
3,VT4qLL61Ieq2DR6IIKfYgw,f574pqjSPUvpPKHne87WNw,hKameFsaXh9g8WQbv593UA,3.0,"Steak and shrimp is greatly delicious, big siz...",2015-05-15 01:40:59,2
4,xJuVVh0wspQlCPgTcbbiIg,---2PmXbF47D870stH1jqA,hKameFsaXh9g8WQbv593UA,5.0,No matter what night we go....Service and food...,2014-10-28 14:38:58,0
...,...,...,...,...,...,...,...
235339,Za9bhad4VV-F_FcBHKfC1g,Lb3StbVXruBbKXfY-iP8Zg,1Eclf7L9ftwSljaMAGI8tg,1.0,We tried Yummy House for the 1st time last nig...,2022-01-15 15:44:18,2
235340,FgulPSpSlJK9gmyFsam9zQ,GthdpkF2DaVD1aqoQTuBAg,1Eclf7L9ftwSljaMAGI8tg,4.0,We had steak and shrimp hibachi (5 shrimp) wit...,2021-10-02 00:53:43,2
235341,qrvoZoqBKWOIXbmtatIYuw,s8EFIOWZo5kjmVbbNmblkg,1Eclf7L9ftwSljaMAGI8tg,3.0,"I usually get take-out, but eating ""at"" the re...",2021-11-17 16:29:38,0
235342,Q1SG0iMn2heHY6cuilzIuA,024zLSZPMVGIFhWFZBJVxQ,1Eclf7L9ftwSljaMAGI8tg,3.0,We left a little confused. We thought from ot...,2021-09-29 22:02:26,2


# KPI 5

Tasa de crecimiento de la industria (objetivo de aumento del 10% en 1 año) → Este KPI muestra la tasa de crecimiento de la industria durante 12 meses. Se calcula como la diferencia entre el número de negocios en el año actual y el año anterior, dividido por el número de negocios en el año anterior. El objetivo es alcanzar un aumento del 10% en la tasa de crecimiento de la industria durante esos 12 meses.

→ tasa_crecimiento_industria = ((negocios_actual - negocios_anterior) / negocios_anterior) * 100


In [64]:
# Importamos la biblioteca Pandas
import pandas as pd

# Leemos el archivo Parquet 'Yelp_Reviews_Florida.parquet'
df1 = pd.read_parquet('Yelp_Reviews_Florida.parquet')

# Convertimos la columna 'date' a tipo fecha
df1['Fecha'] = pd.to_datetime(df1['date'])

# Creamos una columna 'Año'
df1['Año'] = df1['Fecha'].dt.year.astype(str)

# Seleccionamos las columnas 'Año' y 'business_id'
df1 = df1[['Año','business_id']]

# Contamos el número de negocios únicos por 'Año'
df_unique_counts = df1.groupby('Año')['business_id'].nunique().reset_index(name='Cantidad de Negocios')

# Añadimos una columna para el número de negocios del año anterior
df_unique_counts['Negocios_Anterior'] = df_unique_counts['Cantidad de Negocios'].shift(1)

# Calculamos la tasa de crecimiento de la industria
df_unique_counts['Tasa_Crecimiento_Industria'] = ((df_unique_counts['Cantidad de Negocios'] - df_unique_counts['Negocios_Anterior']) / df_unique_counts['Negocios_Anterior']) * 100

# Añadimos una columna que indica si se cumple el objetivo de crecimiento del 10%
df_unique_counts['Cumple_Objetivo'] = df_unique_counts['Tasa_Crecimiento_Industria'] >= 10

# Exportamos el DataFrame a un archivo Parquet 'KPI_5.parquet'
df_unique_counts.to_parquet('KPI_5.parquet')
