# Inversiones por estado


Este notebook tiene como finalidad poder sacar el total de las inversiones realizadas por estado

## Paso a paso

* **Clasificar los anuncios por marca**: Con esto obtendremos de igual manera, a qué marca pertenece el anuncio según la plataforma
* **Costos totales por plataformas**: Se busca tener el total de costos agrupando por Marca y Region. Este archivo se genera dentro del archivo **invest_per_state/rql_data.ipynb** según un rango de fechas dado
* RQLs generados: Esta parte busca poder 
* **Combinar datos de Geolocalización entre plataformas**: Con el fin de poder hacer cruces entre plataformas de manera mas sencilla, se usa una tabla que tiene información de nombres de regiones / estados con sus equivalentes
* **Costos totales entre Meta y GAds por estados**: Acá se saca el total de inversión por estados entre las plataformas

In [120]:
import pandas as pd
from utils.classify_ads import *
from utils.df_utils import set_week_and_year

## Clasificar los anuncios por marca

In [121]:
# Lectura del archivo de Meta
df_meta_ads = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\BD Ads\Abril\11042025\MX BD Ads saturación mensual - Meta.csv")

# Aplicar la función a la columna Ad name
df_meta_ads['Marca'] = df_meta_ads['Ad name'].apply(classify_ads)

# Agregar columnas con el número de semana y año
df_meta_ads = set_week_and_year(df_meta_ads)

In [122]:
# Lectura del archivo de Google Ads
df_google_ads = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\BD Ads\Abril\11042025\MX BD Ads saturación mensual - GAds.csv")

# Aplicar la función a la columna Ad name
df_google_ads['Marca'] = df_google_ads['Ad group name'].apply(classify_ads)

# Agregar columnas con el número de semana y año
df_google_ads = set_week_and_year(df_google_ads)

## Costo totales por plataformas

Acá se busca sacar el costo total por Marca, región y semana

#### Meta

In [123]:
df_meta_invest_per_state = df_meta_ads.groupby(['Marca', 'Region', 'Semana', 'Año'])['Cost'].sum().reset_index()

In [124]:
df_meta_invest_per_state

Unnamed: 0,Marca,Region,Semana,Año,Cost
0,Bajaj,Campeche,2,2025,0.01
1,Bajaj,Coahuila de Zaragoza,1,2025,44.35
2,Bajaj,Coahuila de Zaragoza,2,2025,45.66
3,Bajaj,Coahuila de Zaragoza,3,2025,34.06
4,Bajaj,Coahuila de Zaragoza,4,2025,176.06
...,...,...,...,...,...
1714,Yamaha,Yucatán,14,2025,485.35
1715,Yamaha,Yucatán,15,2025,225.97
1716,Yamaha,Zacatecas,13,2025,0.58
1717,Yamaha,Zacatecas,14,2025,0.40


### Google Ads

In [125]:
df_google_ads_invest_per_state = df_google_ads.groupby(['Marca', 'Region', 'Semana', 'Año'])['Cost'].sum().reset_index()

In [126]:
df_google_ads_invest_per_state

Unnamed: 0,Marca,Region,Semana,Año,Cost
0,Bajaj,Coahuila,1,2025,5.55
1,Bajaj,Coahuila,2,2025,0.00
2,Bajaj,Coahuila,3,2025,8.81
3,Bajaj,Coahuila,4,2025,4.68
4,Bajaj,Coahuila,5,2025,5.61
...,...,...,...,...,...
1427,Yamaha,Yucatan,11,2025,37.91
1428,Yamaha,Yucatan,12,2025,196.68
1429,Yamaha,Yucatan,13,2025,105.99
1430,Yamaha,Yucatan,14,2025,85.49


## RQLs generados

Costos totales, incluye PureBrand y referidos

In [127]:
rqls_por_marca = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\invest_per_state\11042025-rql_por_marca_semana_año.csv")

# Semana a consultar
# rqls_por_marca.drop(columns=["state", "day"], inplace=True)
# rqls_por_marca = rqls_por_marca.groupby(['brand', 'Semana', 'Año'])['rql'].sum().reset_index()
rqls_por_marca

Unnamed: 0,day,state,brand,Meta,GAds,TikTok,Semana,Año,rql
0,2025-03-31,Aguascalientes,Bajaj,Aguascalientes,Aguascalientes,Aguascalientes,14,2025,3.0
1,2025-03-31,Baja California,Bajaj,Baja California,Baja California,Baja California,14,2025,1.0
2,2025-03-31,Baja California,Dinamo,Baja California,Baja California,Baja California,14,2025,1.0
3,2025-03-31,Baja California,Honda,Baja California,Baja California,Baja California,14,2025,2.0
4,2025-03-31,Baja California,Vento,Baja California,Baja California,Baja California,14,2025,1.0
...,...,...,...,...,...,...,...,...,...
1083,2025-04-06,Yucatán,Royal Enfield,Yucatán,Yucatan,Yucatan,14,2025,1.0
1084,2025-04-06,Yucatán,Suzuki,Yucatán,Yucatan,Yucatan,14,2025,2.0
1085,2025-04-06,Yucatán,Yamaha,Yucatán,Yucatan,Yucatan,14,2025,2.0
1086,2025-04-06,Zacatecas,CF Moto,Zacatecas,Zacatecas,Zacatecas,14,2025,1.0


In [128]:
week = 14

Selección de semana a consultar en cada una de las plataformas y archivo de RQLs (aunque ya viene en la semana a consultar)

In [129]:
df_meta_invest_per_state_week = df_meta_invest_per_state[df_meta_invest_per_state["Semana"] == week]
df_google_ads_invest_per_state_week = df_google_ads_invest_per_state[df_google_ads_invest_per_state["Semana"] == week]
rqls_por_marca_week = rqls_por_marca[rqls_por_marca["Semana"] == week]

## Combinar datos de Geolocalización entre plataformas

Esto sirve para poder hacer la combinación de datos entre las plataformas ya que cada plataforma maneja nombres distintos entre regiones/estados. Este archivo tiene el "equivalente" de cada nombre entre plataforma con uno base "amplitude_ips"

In [130]:
df_state_per_media = pd.read_csv(r"C:\Users\JTRUJILLO\Documents\Galgo\Scripts\Análisis\rql_inversiones\Geolocalización\MX equivalencias geo regiones - Equivalencias_Medios.csv")

In [131]:
df_state_per_media.head(2)

Unnamed: 0,Amplitude_ips,Meta,GAds,TikTok
0,Mexico City,Distrito Federal,Mexico City,Mexico City
1,México,State of Mexico,State of Mexico,Mexico


### Combinar con plataformas

#### Meta

In [132]:
df_rql_per_state_and_brand_merged_meta = pd.merge(df_meta_invest_per_state_week, df_state_per_media[["Amplitude_ips", "Meta"]], 
                                             left_on="Region", 
                                             right_on="Meta", 
                                             how = "left")

#### GAds

In [133]:
df_rql_per_state_and_brand_merged_gads = pd.merge(df_google_ads_invest_per_state_week, df_state_per_media[["Amplitude_ips", "GAds"]], 
                                             left_on="Region", 
                                             right_on="GAds", 
                                             how = "left")

Para diferenciar los costos al hacer el merge

In [134]:
df_rql_per_state_and_brand_merged_meta.rename(columns={"Cost": "cost_meta"}, inplace=True)
df_rql_per_state_and_brand_merged_gads.rename(columns={"Cost": "cost_gads"}, inplace=True)

### Costos entre GAds y Meta

Se unen ambos DF para ver como han sido los costos por estados

In [135]:
df_merged = pd.merge(df_rql_per_state_and_brand_merged_meta[["Marca", "Amplitude_ips", "cost_meta"]], 
                     df_rql_per_state_and_brand_merged_gads[["Marca", "Amplitude_ips", "cost_gads"]], 
                     on = ["Marca", "Amplitude_ips"], 
                     how = "left")
df_merged["cost_meta"].fillna(0, inplace=True)
df_merged["cost_gads"].fillna(0, inplace=True)
df_merged

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_merged["cost_meta"].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_merged["cost_gads"].fillna(0, inplace=True)


Unnamed: 0,Marca,Amplitude_ips,cost_meta,cost_gads
0,Bajaj,Coahuila,243.21,11.97
1,Bajaj,Colima,1.43,0.00
2,Bajaj,Mexico City,26054.81,6137.76
3,Bajaj,Guerrero,163.82,0.00
4,Bajaj,Hidalgo,589.01,0.00
...,...,...,...,...
135,Yamaha,México,1530.62,1161.01
136,Yamaha,Tlaxcala,90.18,19.50
137,Yamaha,Veracruz,374.15,65.05
138,Yamaha,Yucatán,485.35,85.49


## Inversión total entre Meta y GAds por estados

In [136]:
per_state = df_merged.groupby(["Amplitude_ips"])[["cost_meta", "cost_gads"]].sum().reset_index()
costo_total_meta = df_merged["cost_meta"].sum()
costo_total_gads = df_merged["cost_gads"].sum()
total_cost = costo_total_meta + costo_total_gads
display(per_state)
print(f"Costo total Meta: {costo_total_meta:,.2f} MXN")
print(f"Costo total GAds: {costo_total_gads:,.2f} MXN")
print(f"Costo total Meta + GAds: {total_cost:,.2f} MXN")

Unnamed: 0,Amplitude_ips,cost_meta,cost_gads
0,Aguascalientes,15.47,0.0
1,Baja California,70.66,0.0
2,Baja California Sur,11.9,0.0
3,Campeche,84.63,76.8
4,Chiapas,22.73,0.0
5,Chihuahua,12.93,0.0
6,Coahuila,483.39,83.69
7,Colima,73.0,0.0
8,Durango,24.98,0.0
9,Guanajuato,207.54,0.15


Costo total Meta: 306,258.44 MXN
Costo total GAds: 99,549.13 MXN
Costo total Meta + GAds: 405,807.57 MXN


## RQLs obtenidos por estados

#### Meta

In [137]:
rqls_por_marca_week_copy = rqls_por_marca_week.copy()
rqls_por_marca_week = rqls_por_marca_week_copy.groupby(["brand", "state", "Meta", "GAds", "Semana", "Año"])["rql"].sum().reset_index()
rqls_por_marca_week

Unnamed: 0,brand,state,Meta,GAds,Semana,Año,rql
0,Bajaj,Aguascalientes,Aguascalientes,Aguascalientes,14,2025,12.0
1,Bajaj,Baja California,Baja California,Baja California,14,2025,4.0
2,Bajaj,Baja California Sur,Baja California Sur,Baja California Sur,14,2025,2.0
3,Bajaj,Campeche,Campeche,Campeche,14,2025,13.0
4,Bajaj,Chihuahua,Chihuahua,Chihuahua,14,2025,3.0
...,...,...,...,...,...,...,...
329,Zmoto,Veracruz,Veracruz,Veracruz,14,2025,2.0
330,Zmoto,Yucatán,Yucatán,Yucatan,14,2025,1.0
331,Zontes,México,State of Mexico,State of Mexico,14,2025,3.0
332,Zontes,Nuevo León,Nuevo León,Nuevo Leon,14,2025,1.0


In [140]:
rqls_por_marca_week_total = rqls_por_marca_week["rql"].sum()
print(rqls_por_marca_week_total)

4027.0


In [141]:
df_meta_cost_invest_rql_per_state = pd.merge(df_meta_invest_per_state_week, rqls_por_marca_week[["brand", "Meta", "rql"]],
                                            left_on = ["Region", "Marca"],
                                            right_on = ["Meta", "brand"],
                                            how="left")
df_meta_cost_invest_rql_per_state = df_meta_cost_invest_rql_per_state[["Semana", "Año", "Marca", "brand", "Region", "Cost", "Meta", "rql"]]

In [160]:
# df_meta_cost_invest_rql_per_state[df_meta_cost_invest_rql_per_state["Marca"] == "Generica"]

In [143]:
df_meta_cost_invest_rql_per_state.fillna({"rql": 0}, inplace=True)
df_meta_cost_invest_rql_per_state

Unnamed: 0,Semana,Año,Marca,brand,Region,Cost,Meta,rql
0,14,2025,Bajaj,,Coahuila de Zaragoza,243.21,,0.0
1,14,2025,Bajaj,Bajaj,Colima,1.43,Colima,16.0
2,14,2025,Bajaj,,Distrito Federal,26054.81,,0.0
3,14,2025,Bajaj,Bajaj,Guerrero,163.82,Guerrero,27.0
4,14,2025,Bajaj,Bajaj,Hidalgo,589.01,Hidalgo,28.0
...,...,...,...,...,...,...,...,...
135,14,2025,Yamaha,Yamaha,State of Mexico,1530.62,State of Mexico,35.0
136,14,2025,Yamaha,Yamaha,Tlaxcala,90.18,Tlaxcala,4.0
137,14,2025,Yamaha,Yamaha,Veracruz,374.15,Veracruz,10.0
138,14,2025,Yamaha,Yamaha,Yucatán,485.35,Yucatán,8.0


Estas marcas no han generado RQLs en estos estados

In [149]:
df_meta_marcas_no_generaron_rql = df_meta_cost_invest_rql_per_state.copy()
df_meta_marcas_no_generaron_rql = df_meta_marcas_no_generaron_rql[df_meta_marcas_no_generaron_rql["rql"] == 0]
df_meta_marcas_no_generaron_rql.fillna({"rql": 0}, inplace=True)
df_meta_marcas_no_generaron_rql.head(2)

Unnamed: 0,Semana,Año,Marca,brand,Region,Cost,Meta,rql
0,14,2025,Bajaj,,Coahuila de Zaragoza,243.21,,0.0
2,14,2025,Bajaj,,Distrito Federal,26054.81,,0.0


In [150]:
df_meta_cost_invest_rql_per_state_invertidos =  df_meta_cost_invest_rql_per_state[df_meta_cost_invest_rql_per_state["Meta"].notna()]
df_meta_cost_invest_rql_per_state_invertidos

Unnamed: 0,Semana,Año,Marca,brand,Region,Cost,Meta,rql
1,14,2025,Bajaj,Bajaj,Colima,1.43,Colima,16.0
3,14,2025,Bajaj,Bajaj,Guerrero,163.82,Guerrero,27.0
4,14,2025,Bajaj,Bajaj,Hidalgo,589.01,Hidalgo,28.0
5,14,2025,Bajaj,Bajaj,Jalisco,22741.31,Jalisco,216.0
6,14,2025,Bajaj,Bajaj,Michoacán de Ocampo,122.57,Michoacán de Ocampo,41.0
...,...,...,...,...,...,...,...,...
134,14,2025,Yamaha,Yamaha,Quintana Roo,446.59,Quintana Roo,17.0
135,14,2025,Yamaha,Yamaha,State of Mexico,1530.62,State of Mexico,35.0
136,14,2025,Yamaha,Yamaha,Tlaxcala,90.18,Tlaxcala,4.0
137,14,2025,Yamaha,Yamaha,Veracruz,374.15,Veracruz,10.0


In [152]:
rql_meta = df_meta_cost_invest_rql_per_state_invertidos["rql"].sum()
print(f"RQLs Meta: {rql_meta}")

RQLs Meta: 2632.0


### Google Ads

In [153]:
df_gads_cost_invest_rql_per_state = pd.merge(df_google_ads_invest_per_state_week, rqls_por_marca_week[["brand", "GAds", "rql"]],
                                            left_on = ["Region", "Marca"],
                                            right_on = ["GAds", "brand"],
                                            how="left")
df_gads_cost_invest_rql_per_state = df_gads_cost_invest_rql_per_state[["Semana", "Año", "Marca", "brand", "Region", "Cost", "GAds", "rql"]]

In [154]:
df_gads_cost_invest_rql_per_state_invertidos = df_gads_cost_invest_rql_per_state[df_gads_cost_invest_rql_per_state["GAds"].notna()]
df_gads_cost_invest_rql_per_state_invertidos.head(2)

Unnamed: 0,Semana,Año,Marca,brand,Region,Cost,GAds,rql
1,14,2025,Bajaj,Bajaj,Jalisco,3529.85,Jalisco,216.0
3,14,2025,Bajaj,Bajaj,Nuevo Leon,833.6,Nuevo Leon,80.0


In [155]:
asd = rqls_por_marca_week["rql"].sum()
print(f"asd: {asd}")

asd: 4027.0


In [156]:
df_gads_rqls_generados = df_gads_cost_invest_rql_per_state_invertidos["rql"].sum()
print(f"df_gads_rqls_generados: {df_gads_rqls_generados}")

df_gads_rqls_generados: 2482.0


In [157]:
df_meta_rqls_generados = df_meta_cost_invest_rql_per_state_invertidos["rql"].sum()
print(f"df_meta_rqls_generados: {df_meta_rqls_generados}")

df_meta_rqls_generados: 2632.0


In [158]:
total_rqls = df_meta_rqls_generados + df_gads_rqls_generados
print(f"Total de RQLs generados: {total_rqls}")

Total de RQLs generados: 5114.0


## RQLs obtenidos por marcas

In [165]:
rqls_por_marca_week_copy = rqls_por_marca_week.copy()
rqls_por_marca_week = rqls_por_marca_week_copy.groupby(["brand", "Semana", "Año"])["rql"].sum().reset_index()
rqls_por_marca_week.sort_values(by="rql", ascending=False, inplace=True)
rqls_por_marca_week

Unnamed: 0,brand,Semana,Año,rql
0,Bajaj,14,2025,1592.0
18,Vento,14,2025,469.0
2,CF Moto,14,2025,433.0
6,Honda,14,2025,291.0
8,Italika,14,2025,283.0
15,Suzuki,14,2025,210.0
19,Yamaha,14,2025,151.0
16,TVS,14,2025,108.0
3,CFLITE,14,2025,106.0
10,KTM,14,2025,103.0


In [166]:
rqls_por_marca_week["rql"].sum()
print(f"RQLs por marca: {rqls_por_marca_week['rql'].sum()}")

RQLs por marca: 4027.0
