# Calcular inversión por plataforma

Se calculan con las plataformas de **Meta** y **Google Ads**

### Paso a paso:
* **Lecutra y clasificación de la marca de cada anuncio**: Cada anuncio tiene en su estructura de nombre, a qué marca se invirtió. La idea es poder generar otra columna que permita clasificar cada una de las marcas que se encuentren en el archivo.

* **Inversión de cada marca según la semana de las plataformas**: Calculo de como se ha invertido el dinero en cada una de las marcas según la semana de cada una de las plataformas.

* **Distribución del costo de la Genérica con las marcas**: Cada semana se tiene una inversión entre marcas y genérica, de la genérica, se tiene que distribuir el costo entre cada una de las marcas que tenemos en la PLP, primera página.

* **Calcular los costos por RQLs**: Teniendo los costos de cada una de las plataformas, se calcula los costos por RQL, es decir, cuanto costó un RQL.

In [65]:
import sys
sys.path.append('../')
import pandas as pd
from utils.classify_ads import *
from utils.df_utils import set_week_and_year
from plataforms.utils.calculate import *
from datetime import datetime

# Procesamiento de datos
from plataforms.utils.process_data import get_value_counts_per_brand

# Obtener los datos generales de las publicaciones através de la BD de mongodb
from utils.mongodb_call import get_data_general

## Lectura y clasificación de la marca de cada anuncio

#### Meta

In [66]:
# Lectura del archivo de Meta
df_meta_ads = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\BD Ads\Abril\11042025\MX BD Ads saturación mensual - Meta.csv")

# Aplicar la función a la columna Ad name
df_meta_ads['Marca'] = df_meta_ads['Ad name'].apply(classify_ads)

# Agregar columnas con el número de semana y año
df_meta_ads = set_week_and_year(df_meta_ads)

#### Google Ads

In [67]:
# Lectura del archivo de Google Ads
df_google_ads = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\BD Ads\Abril\11042025\MX BD Ads saturación mensual - GAds.csv")

# Aplicar la función a la columna Ad name
df_google_ads['Marca'] = df_google_ads['Ad group name'].apply(classify_ads)

# Agregar columnas con el número de semana y año
df_google_ads = set_week_and_year(df_google_ads)

In [68]:
df_google_ads

Unnamed: 0,Date,Campaign ID,Campaign name,Ad group ID,Ad group name,Advertising channel type,Region,Impressions,Clicks,Cost,Cost (USD),Marca,Semana,Año
0,2025-01-01,21016103032,Search | DSA | Motos | Marcas RMK | CDMX-EDOME...,158035194479,DSA Moto Suzuki,Search,Jalisco,54,4,11.06,0.53,Suzuki,1,2025
1,2025-01-01,21016103032,Search | DSA | Motos | Marcas RMK | CDMX-EDOME...,158035194479,DSA Moto Suzuki,Search,Mexico City,196,10,21.78,1.04,Suzuki,1,2025
2,2025-01-01,21016103032,Search | DSA | Motos | Marcas RMK | CDMX-EDOME...,158035194479,DSA Moto Suzuki,Search,Nuevo Leon,32,2,2.53,0.12,Suzuki,1,2025
3,2025-01-01,21016103032,Search | DSA | Motos | Marcas RMK | CDMX-EDOME...,158035194479,DSA Moto Suzuki,Search,Oaxaca,22,0,0.00,0.00,Suzuki,1,2025
4,2025-01-01,21016103032,Search | DSA | Motos | Marcas RMK | CDMX-EDOME...,158035194479,DSA Moto Suzuki,Search,Puebla,49,3,3.81,0.18,Suzuki,1,2025
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10692,2025-04-11,22426889917,Televisa,176430435023,Televisa,Video,Quintana Roo,282,0,3.57,0.17,Generica,15,2025
10693,2025-04-11,22426889917,Televisa,176430435023,Televisa,Video,State of Mexico,4561,1,54.34,2.64,Generica,15,2025
10694,2025-04-11,22426889917,Televisa,176430435023,Televisa,Video,Tlaxcala,6,0,0.07,0.00,Generica,15,2025
10695,2025-04-11,22426889917,Televisa,176430435023,Televisa,Video,Veracruz,221,0,2.72,0.13,Generica,15,2025


## Inversión de cada marca por semana de cada plataforma

In [69]:
#
# todo: Agregar la inversión de TikTok

Calculo de la inversión que se realizó en la plataforma de Meta y Google Ads

In [70]:
# Calculo de inversión por semana y año de ambas plataformas
df_meta_ads = calculate_invest_per_week(df_meta_ads)
df_google_ads = calculate_invest_per_week(df_google_ads)

# Inversión total por semana y año de ambas plataformas
invest_total = calculate_invest_from_plataforms_per_brand(df_meta_ads, df_google_ads, show_result = True)

Unnamed: 0,Marca,Semana,Año,Cost
29,Generica,1,2025,97361.79
0,Bajaj,1,2025,58725.58
44,Honda,1,2025,30336.70
73,MB,1,2025,12291.64
109,Vento,1,2025,10027.66
...,...,...,...,...
72,Italika,15,2025,6872.41
106,TVS,15,2025,5653.86
123,Vento,15,2025,4459.37
28,Dinamo,15,2025,516.29


## Distribución del costo de la Genérica con las marcas

### Distribución PLP Desktop

Acá queremos saber como se distribuye el dinero invertido en cada una de las marcas. Para eso, se tiene que saber cuales son los modelos que tenemos listados en el marketplace (PLP - primera página) y distribuir los costos de la genérica entre cada una de las marcas

In [71]:
# Data con la información de los modelos en las primeras 18 posiciones
df_data_mx = get_data_general()

# Cantidad de modelos por marca listados en la primera página del marketplace
df_counts_per_brand, total_models = get_value_counts_per_brand(df_data_mx)
df_counts_per_brand

Unnamed: 0,brand,count
0,Bajaj,11
1,Vento,4
2,Honda,1
3,Italika,1
4,TVS,1


## Semana a consultar

In [72]:
week = 14
actual_year = datetime.now().year

In [73]:
# Inversión de la genérica en la semana 14
generic_invest = calculate_generic_invest(invest_total, week)

# Distribución del costo de la genérica entre las marcas
df_total_distribution = calculate_generic_invest_distribution(df_counts_per_brand, generic_invest, total_models, show_result = True)

Inversión genérica semana 14 es: 157999


Unnamed: 0,brand,count,Cost
0,Bajaj,11,96554.94
1,Vento,4,35110.89
2,Honda,1,8777.72
3,Italika,1,8777.72
4,TVS,1,8777.72
5,Total,18,157999.0


### Inversión de la genérica

In [74]:
print(f"Inversión total de la genérica: {generic_invest}")

Inversión total de la genérica: 157999


In [75]:
df_distribute_invest = distribute_generic_invest(invest_total, 
                                                 week, 
                                                 df_total_distribution)

# Se le agrega la semana y año a la distribución
df_distribute_invest['Semana'] = week
df_distribute_invest['Año'] = actual_year
df_distribute_invest

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['brand_categoria'] = df['brand'].apply(categorizar_marca)


Unnamed: 0,brand_categoria,original_cost,distribute_cost,total_cost,Semana,Año
0,Bajaj,141960.59,96554.94,238515.53,14,2025
1,Otros,54104.75,0.0,54104.75,14,2025
2,Honda,32090.55,8777.72,40868.27,14,2025
3,Vento,4460.49,35110.89,39571.38,14,2025
4,TVS,9753.55,8777.72,18531.27,14,2025
5,Italika,7392.34,8777.72,16170.06,14,2025
6,Total,249762.27,157998.99,407761.26,14,2025


## Calcular los costos por RQLs

Agrupar RQL por marca 

In [79]:
rqls_por_marca = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\invest_per_state\outputs\11042025-week14-rql_por_marca_semana_año.csv")

# Semana a consultar
rqls_por_marca_week = rqls_por_marca[rqls_por_marca["Semana"] == week]
rqls_por_marca_week.drop(columns=["state", "day"], inplace=True)
rqls_por_marca_week_grouped = rqls_por_marca_week.groupby(['brand', 'Semana', 'Año'])['rql'].sum().reset_index()

In [80]:
rqls_por_marca = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\invest_per_state\outputs\RQLs Amplitude\20250414-rql_resumen_per_brand.csv")

# Semana a consultar
rqls_por_marca_week = rqls_por_marca[rqls_por_marca["Semana"] == week]
rqls_por_marca_week_grouped = rqls_por_marca_week.groupby(['brand', 'Semana', 'Año'])['rql'].sum().reset_index()

In [81]:
rqls_por_marca_week_grouped.head()

Unnamed: 0,brand,Semana,Año,rql
0,Bajaj,14,2025,1903.0
1,Benelli,14,2025,78.0
2,CF Moto,14,2025,527.0
3,CFLITE,14,2025,129.0
4,Carabela,14,2025,2.0


Se selecciona la inversión de la semana

In [82]:
invest_total_week =  invest_total[invest_total["Semana"] == week]
invest_total_week

Unnamed: 0,Marca,Semana,Año,Cost
42,Generica,14,2025,157999.59
13,Bajaj,14,2025,141960.59
90,Suzuki,14,2025,40196.83
57,Honda,14,2025,32090.55
137,Yamaha,14,2025,13658.87
105,TVS,14,2025,9753.55
71,Italika,14,2025,7392.34
122,Vento,14,2025,4460.49
27,Dinamo,14,2025,215.07
107,Treck,14,2025,33.98


Para entender de donde viene cada data, se renombra

In [83]:
invest_total_week_copy = invest_total_week.copy()
invest_total_week_copy.rename(columns={"Marca": "brand_invest"}, inplace=True)

rqls_por_marca_week_grouped_copy = rqls_por_marca_week_grouped.copy()
rqls_por_marca_week_grouped_copy.rename(columns={"brand": "brand_rqls"}, inplace=True)

df_invest_rql_cost_per_brand = pd.merge(invest_total_week_copy, rqls_por_marca_week_grouped_copy, 
                                        left_on=['brand_invest', 'Semana', 'Año'], 
                                        right_on=['brand_rqls', 'Semana', 'Año'], 
                                        how='outer')
df_invest_rql_cost_per_brand

Unnamed: 0,brand_invest,Semana,Año,Cost,brand_rqls,rql
0,Bajaj,14,2025,141960.59,Bajaj,1903.0
1,,14,2025,,Benelli,78.0
2,,14,2025,,CF Moto,527.0
3,,14,2025,,CFLITE,129.0
4,,14,2025,,Carabela,2.0
5,Dinamo,14,2025,215.07,Dinamo,25.0
6,Generica,14,2025,157999.59,,
7,,14,2025,,Hero,52.0
8,Honda,14,2025,32090.55,Honda,386.0
9,,14,2025,,Husqvarna,7.0


### Marcas a las que se les invierte en anuncios

In [84]:
marcas_invertidas = df_invest_rql_cost_per_brand[df_invest_rql_cost_per_brand["brand_invest"].notna()]
total_rqls_marcas_invertidas = marcas_invertidas["rql"].sum()
print("Total de RQLs de las marcas invertidas: ", total_rqls_marcas_invertidas)
display(marcas_invertidas)

Total de RQLs de las marcas invertidas:  3806.0


Unnamed: 0,brand_invest,Semana,Año,Cost,brand_rqls,rql
0,Bajaj,14,2025,141960.59,Bajaj,1903.0
5,Dinamo,14,2025,215.07,Dinamo,25.0
6,Generica,14,2025,157999.59,,
8,Honda,14,2025,32090.55,Honda,386.0
10,Italika,14,2025,7392.34,Italika,351.0
17,Suzuki,14,2025,40196.83,Suzuki,255.0
18,TVS,14,2025,9753.55,TVS,130.0
19,Treck,14,2025,33.98,Treck,4.0
20,Vento,14,2025,4460.49,Vento,563.0
21,Yamaha,14,2025,13658.87,Yamaha,189.0


### Marcas a las que NO se les invierte en anuncios

In [85]:
marcas_no_invertidas = df_invest_rql_cost_per_brand[df_invest_rql_cost_per_brand["brand_invest"].isna()]
total_rqls_marcas_no_invertidas = marcas_no_invertidas["rql"].sum()
print("Total de RQLs de las marcas no invertidas: ", total_rqls_marcas_no_invertidas)
display(marcas_no_invertidas)

Total de RQLs de las marcas no invertidas:  1108.0


Unnamed: 0,brand_invest,Semana,Año,Cost,brand_rqls,rql
1,,14,2025,,Benelli,78.0
2,,14,2025,,CF Moto,527.0
3,,14,2025,,CFLITE,129.0
4,,14,2025,,Carabela,2.0
7,,14,2025,,Hero,52.0
9,,14,2025,,Husqvarna,7.0
11,,14,2025,,Jiajue,3.0
12,,14,2025,,KTM,141.0
13,,14,2025,,Kawasaki,84.0
14,,14,2025,,Kymco,1.0


Confirmar cantidad de RQLs entre las marcas que no se les invierte vs las que si se les invierte

In [86]:
total_rqls_entre_marcas_invertidas_y_no_invertidas = total_rqls_marcas_invertidas + total_rqls_marcas_no_invertidas
print("Total de RQLs entre las marcas invertidas y no invertidas: ", total_rqls_entre_marcas_invertidas_y_no_invertidas)

Total de RQLs entre las marcas invertidas y no invertidas:  4914.0


## Costo de RQLs por marca

#### Distribución de costos de la genérica

In [87]:
# Se copia el dataframe
df_total_distribution_copy = df_total_distribution.copy()


# Eliminar fila del "total"
df_total_distribution_copy = df_total_distribution_copy.iloc[:-1]

# Se unen las columnas de inversión de las marcas con la distribución de la genérica para realizar la suma
df_costo_distribuido_entre_marcas = pd.merge(marcas_invertidas, df_total_distribution_copy,  left_on="brand_invest", right_on="brand", how="outer")

# Se rellena con 0 los valores nulos para que la suma sea correcta
df_costo_distribuido_entre_marcas["Cost_y"].fillna(0, inplace=True)

# Se realiza la suma de las dos columnas de inversión
df_costo_distribuido_entre_marcas['costo_distribuido'] = df_costo_distribuido_entre_marcas['Cost_x'] + df_costo_distribuido_entre_marcas['Cost_y']

# Se eliminan las columnas que se utilizaron para la suma y mantenemos la del costo distribuido
df_costo_distribuido_entre_marcas.drop(columns=["Cost_x", "Cost_y", "brand", "count"], inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_costo_distribuido_entre_marcas["Cost_y"].fillna(0, inplace=True)


## Reporte

### Tabla inversión

In [92]:
df_distribute_invest_copy = df_distribute_invest.copy()

total_entre_marcas = df_distribute_invest_copy[["brand_categoria", "original_cost"]]
total_entre_marcas = total_entre_marcas.iloc[:-1]
total_entre_marcas

Unnamed: 0,brand_categoria,original_cost
0,Bajaj,141960.59
1,Otros,54104.75
2,Honda,32090.55
3,Vento,4460.49
4,TVS,9753.55
5,Italika,7392.34


In [105]:
costo_distribuido = df_distribute_invest_copy[["brand_categoria","distribute_cost", "total_cost"]]
costo_distribuido = costo_distribuido.iloc[:-1]
inversion_total = costo_distribuido["total_cost"].sum()
display(costo_distribuido)
print(f"Inversión total: {inversion_total:.0f}")
print(f"Inversión total de la genérica: {generic_invest}")

Unnamed: 0,brand_categoria,distribute_cost,total_cost
0,Bajaj,96554.94,238515.53
1,Otros,0.0,54104.75
2,Honda,8777.72,40868.27
3,Vento,35110.89,39571.38
4,TVS,8777.72,18531.27
5,Italika,8777.72,16170.06


Inversión total: 407761
Inversión total de la genérica: 157999


In [132]:
invest_total_copy = invest_total_week.copy()
# Obtener las marcas que están en total_entre_marcas
marcas_a_excluir = total_entre_marcas["brand_categoria"].tolist()
# Filtrar el dataframe para excluir esas marcas
invest_total_copy = invest_total_copy[~invest_total_copy["Marca"].isin(marcas_a_excluir)]
invest_total_copy = invest_total_copy[invest_total_copy["Marca"] != "Generica"]
invest_total_copy = invest_total_copy.drop(columns = ["Semana", "Año"])

In [171]:
costo_distribuido

Unnamed: 0,brand_categoria,distribute_cost,total_cost
0,Bajaj,96554.94,238515.53
1,Otros,0.0,54104.75
2,Honda,8777.72,40868.27
3,Vento,35110.89,39571.38
4,TVS,8777.72,18531.27
5,Italika,8777.72,16170.06


In [177]:
# Se elimina la columna de distribute_cost para sacar la tabla de Distribución PLP Desktop
costo_distribuido_copy = costo_distribuido.drop(columns = ["distribute_cost"])
# Se renombra para poder juntarlo con la tabla de las marcas que no tienen costos distribuidos
costo_distribuido_copy = costo_distribuido_copy.rename(columns={"brand_categoria": "Marca", "total_cost": "Cost"})

In [184]:
# Se concatenan junto con los costos distribuidos
tabla_inversion = pd.concat([costo_distribuido_copy, invest_total_copy])

Esta tabla sirve para poder sacar la inversión realizada, pero, se tienen que limpiar quitando la marca de "otros" y solamente mostrar las marcas principales

In [186]:
tabla_inversion

Unnamed: 0,Marca,Cost
0,Bajaj,238515.53
1,Otros,54104.75
2,Honda,40868.27
3,Vento,39571.38
4,TVS,18531.27
5,Italika,16170.06
90,Suzuki,40196.83
137,Yamaha,13658.87
27,Dinamo,215.07
107,Treck,33.98


In [207]:
def get_main_brands():
    return ["Bajaj", "Honda", "TVS", "Italika", "Suzuki", "Yamaha", "CF Moto"]

In [208]:
def validate_brands(df, main_brands):
    """
    Confirma que todas las marcas principales estén presentes en el DF, sino, crea el registro y lo deja en 0
    """
    
    for marca in main_brands:
        if marca not in df["Marca"].values:
            # Si la marca no existe, crear un registro con valor 0
            nuevo_registro = pd.DataFrame({"Marca": [marca], "Cost": [0]})
            df = pd.concat([df, nuevo_registro], ignore_index=True)

    return df

In [209]:
def group_other_brands(df, main_brands):
    """
    Agrupa las marcas que no son principales en "Otro"
    """
    marcas_no_principales = df[~df["Marca"].isin(main_brands)]
    if not marcas_no_principales.empty:
        costo_otros = marcas_no_principales["Cost"].sum()
        # Eliminar las marcas no principales
        df = df[df["Marca"].isin(main_brands)]

        # Agregar la fila "Otro" con la suma de los costos
        otro_registro = pd.DataFrame({"Marca": ["Otro"], "Cost": [costo_otros]})
        df = pd.concat([df, otro_registro], ignore_index=True)

    return df

In [211]:
def generar_tabla_final(df):

    main_brands = get_main_brands()

    # Se quita la marca de 'otros' ya que de acá se distribuyó los costos
    df_only_brands = df[df["Marca"] != "Otros"]

    df_brands_validated = validate_brands(df_only_brands, main_brands)

    df_validated = group_other_brands(df_brands_validated, main_brands)

    return df_validated

In [212]:
tabla_xd =  generar_tabla_final(tabla_inversion)

In [213]:
tabla_xd

Unnamed: 0,Marca,Cost
0,Bajaj,238515.53
1,Honda,40868.27
2,TVS,18531.27
3,Italika,16170.06
4,Suzuki,40196.83
5,Yamaha,13658.87
6,CF Moto,0.0
7,Otro,39820.43


In [183]:
# # Marcas principales que aparecerán en el reporte final
# marcas_principales = ["Bajaj", "Honda", "TVS", "Italika", "Suzuki", "Yamaha", "CF Moto"]

# # Se quita la marca de 'otros' ya que de acá se distribuyó los costos
# tabla_inversion = tabla_inversion[tabla_inversion["Marca"] != "Otros"]

# # Verificar si todas las marcas principales están en la tabla
# for marca in marcas_principales:
#     if marca not in tabla_inversion["Marca"].values:
#         # Si la marca no existe, crear un registro con valor 0
#         nuevo_registro = pd.DataFrame({"Marca": [marca], "Cost": [0]})
#         tabla_inversion = pd.concat([tabla_inversion, nuevo_registro], ignore_index=True)

# # Agrupar las marcas que no son principales en "Otro"
# marcas_no_principales = tabla_inversion[~tabla_inversion["Marca"].isin(marcas_principales)]
# if not marcas_no_principales.empty:
#     costo_otros = marcas_no_principales["Cost"].sum()
#     # Eliminar las marcas no principales
#     tabla_inversion = tabla_inversion[tabla_inversion["Marca"].isin(marcas_principales)]
#     # Agregar la fila "Otro" con la suma de los costos
#     otro_registro = pd.DataFrame({"Marca": ["Otro"], "Cost": [costo_otros]})
#     tabla_inversion = pd.concat([tabla_inversion, otro_registro], ignore_index=True)

### Tabla final

In [181]:
# Costo total

display(tabla_inversion)
costo_total = tabla_inversion["Cost"].sum()
print(f"Costo total = {costo_total}")

Unnamed: 0,Marca,Cost
0,Bajaj,238515.53
1,Honda,40868.27
2,TVS,18531.27
3,Italika,16170.06
4,Suzuki,40196.83
5,Yamaha,13658.87
6,CF Moto,0.0
7,Otro,93925.18


Costo total = 461866.01


#### CpRQL (Costo por RQL)

In [88]:
# Calcular el costo por RQL para cada marca
df_costo_distribuido_entre_marcas_copy = df_costo_distribuido_entre_marcas.copy()
# Evitar división por cero
df_costo_distribuido_entre_marcas_copy['costo_por_rql'] = df_costo_distribuido_entre_marcas_copy.apply(
    lambda row: row['costo_distribuido'] / row['rql'] if row['rql'] > 0 else 0, axis=1
)
# Mostrar el resultado
display(df_costo_distribuido_entre_marcas_copy[['brand_invest', 'Semana', 'Año', 'costo_distribuido', 'rql', 'costo_por_rql']].sort_values(by='costo_por_rql', ascending=False))

Unnamed: 0,brand_invest,Semana,Año,costo_distribuido,rql,costo_por_rql
5,Suzuki,14,2025,40196.83,255.0,157.634627
6,TVS,14,2025,18531.27,130.0,142.548231
0,Bajaj,14,2025,238515.53,1903.0,125.33659
3,Honda,14,2025,40868.27,386.0,105.876347
9,Yamaha,14,2025,13658.87,189.0,72.269153
8,Vento,14,2025,39571.38,563.0,70.286643
4,Italika,14,2025,16170.06,351.0,46.068547
1,Dinamo,14,2025,215.07,25.0,8.6028
7,Treck,14,2025,33.98,4.0,8.495
2,Generica,14,2025,157999.59,,0.0
