Importamos librerías necesarias para trabajar

In [1]:
import pandas as pd

import warnings

warnings.filterwarnings("ignore", category=FutureWarning)

In [17]:
df_restaurantes = pd.read_parquet('df_restaurantes.parquet')

### KPI 1: Tasa de conversión de reseñas positivas

Cargamos el dataset para realizar el calculo 

In [18]:
# Calculamos el número de reseñas con puntuación ≥ 4
df_restaurantes['reseñas_positivas'] = df_restaurantes['avg_rating'].apply(lambda x: x if x >= 4 else 0) * df_restaurantes['num_of_reviews']

# Calculamos la tasa de conversión de reseñas positivas
df_restaurantes['tasa_conversion'] = (df_restaurantes['reseñas_positivas'] / df_restaurantes['num_of_reviews']) * 100

# Reemplazamos posibles valores NaN o infinitos (que pueden aparecer si num_of_reviews es 0)
df_restaurantes['tasa_conversion'] = df_restaurantes['tasa_conversion'].fillna(0)

# Opcional: selecciona las columnas relevantes para un resumen
resultado = df_restaurantes[['name', 'reseñas_positivas', 'num_of_reviews', 'tasa_conversion']]



In [19]:
df_sorted = df_restaurantes.sort_values(by='tasa_conversion', ascending=False)
df_sorted.head(20)


Unnamed: 0,name,gmap_id,category,avg_rating,num_of_reviews,reseñas_positivas,tasa_conversion
3024647,Lvstronglife Protein Bar/Waffles/Shakes/Energy...,0x80c8db809e5b9ff1:0xec68ec066cbe4305,"['sports nutrition store', 'fitness center', '...",5.0,4,20.0,500.0
114,Cape Seafood Shack,0x88db4147b1d9e6f3:0x943dbd10a92ba1b1,['restaurant'],5.0,1,5.0,500.0
566,Studio 34 Nutrition,0x86fe6dd0642d44eb:0xeaceade94f24cc15,['health food restaurant'],5.0,14,70.0,500.0
3024262,To Laiko,0x89c25f48f19c5683:0x9ed6537d3957d06a,['restaurant'],5.0,6,30.0,500.0
2130686,Mc Kinney's Restaurant,0x884e536bc2fa9a5b:0x475548ee352d4c45,['restaurant'],5.0,1,5.0,500.0
435526,Local Kitchens,0x8085632f296f18cf:0xf106463b457857fa,['restaurant'],5.0,8,40.0,500.0
2130386,El Relajo Restaurant,0x8665af7285b3b8af:0xa4e86182c9769bac,['mexican restaurant'],5.0,6,30.0,500.0
2130118,Los Toritos East end,0x87d2ad2d58726caf:0x25c2586bcc43325e,['mexican restaurant'],5.0,1,5.0,500.0
2132170,The New Look Restaurant - THE NEXT LEVEL,0x880e29156b7cc5c7:0xd992a9200c808be3,['restaurant'],5.0,4,20.0,500.0
2131772,FUKUMI RAMEN - Citrus Heights,0x809adf809a11d6db:0xd380195713dc792a,['japanese restaurant'],5.0,25,125.0,500.0


### KPI 2: Índice de penetración en el mercado

Cargamos el dataset con restaurantes latinos que nos servirá para nuestro cálculo

In [20]:
df_latinos = pd.read_parquet('df_latino.parquet')

In [21]:
df_latinos.head() # chequeamos que se cargó correctamente

Unnamed: 0,name,gmap_id,category,avg_rating,num_of_reviews,restaurante_categoria
0,Paula's Kitchen,0x89e44fe1c2a2a2c3:0x5fc9f6751fb29737,['dominican restaurant'],4.7,18,restaurante dominicano
1,TACOS LA CABANA,0x808f879f35b5088b:0xe3541cec7a95bd88,['taco restaurant'],5.0,2,restaurante mexicano
2,Birrieria Utzil,0x87b21161b318d2a1:0xb6ac544caa003f58,['mexican restaurant'],5.0,8,restaurante mexicano
3,Taqueria El Patron,0x86249bbdbe4d888b:0xaffd4b84921e2561,"['mexican restaurant', 'restaurant']",4.2,48,restaurante mexicano
4,Casa Malinche,0x89c244427d3e2c19:0xc1dbf7d8e71d7201,['mexican restaurant'],4.4,7,restaurante mexicano


In [25]:
def calcular_indice_penetracion(df_restaurantes, df_latinos):
  """
  Calcula el índice de penetración de restaurantes latinos en un dataset.

  Args:
    df_restaurantes: DataFrame con todos los restaurantes.
    df_latinos: DataFrame con solo los restaurantes latinos.

  Returns:
    float: Índice de penetración en porcentaje.
  """

  # Obtener el total de restaurantes
  total_restaurantes = len(df_restaurantes)
  # Obtener el total de restaurantes latinos
  total_restaurantes_latinos = len(df_latinos)
  # Calcular el índice de penetración
  indice_penetracion = (total_restaurantes_latinos / total_restaurantes) * 100
  return indice_penetracion

# Ejemplo de uso:
indice = calcular_indice_penetracion(df_restaurantes, df_latinos)
print("El índice de penetración de restaurantes latinos es:", indice, "%")

El índice de penetración de restaurantes latinos es: 10.991735148433348 %


### KPI 3: 