In [None]:
import pandas as pd
from google.cloud import bigquery
def extract_history(project_id: str, dataset_id: str, table_id: str,fecha_columna: str = None, fecha_inicio: str = None, fecha_fin: str = None) -> pd.DataFrame:
    """
    Lee los datos de una tabla de BigQuery y los convierte en un DataFrame de Pandas,
    opcionalmente filtrando por un rango de fechas.

    Args:
        project_id: El ID del proyecto de Google Cloud.
        dataset_id: El ID del conjunto de datos de BigQuery.
        table_id: El ID de la tabla de BigQuery.
        fecha_inicio: Fecha de inicio en formato 'YYYY-MM-DD' (opcional).
        fecha_fin: Fecha de fin en formato 'YYYY-MM-DD' (opcional).

    Returns:
        Un DataFrame de Pandas con los datos de la tabla de BigQuery filtrados por las fechas.
        Devuelve None si ocurre un error.
    """
    try:
        # Inicializa el cliente de BigQuery
        client = bigquery.Client(project=project_id)

        # Construye la referencia a la tabla
        table_ref = client.dataset(dataset_id).table(table_id)

        # Crea la consulta base
        query = f"SELECT * FROM `{project_id}.{dataset_id}.{table_id}`"

        # Agregar filtros de fecha si se proporcionan
        if fecha_inicio and fecha_fin:
            query += f" WHERE {fecha_columna} BETWEEN '{fecha_inicio}' AND '{fecha_fin}'"
        elif fecha_inicio:
            query += f" WHERE {fecha_columna} >= '{fecha_inicio}'"
        elif fecha_fin:
            query += f" WHERE {fecha_columna} <= '{fecha_fin}'"

        # Ejecuta la consulta y convierte los resultados en un DataFrame de Pandas
        df = client.query(query).to_dataframe()

        return df

    except Exception as e:
        print(f"Error al leer la tabla de BigQuery: {e}")
        return None

In [None]:

project_id="ga4-advance-analytics-alk-ktr"
dataset_id="ZONE_STAGGING"
table_id="forecast_gads_consolidado"
fecha_columna="Date"

df = extract_history(project_id, dataset_id, table_id,fecha_columna)
print(df)

            Date                                           Campaign  \
0     2022-05-16  AK_COL_SMARTGSHP_PEF_CPC_AON_TLP_Apple_Feb20_E...   
1     2022-05-16     AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB   
2     2022-05-16     AK_COL_SEM_PEF_CPC_AON_ACC_Apple_Feb20_EXP_FEB   
3     2022-05-16    AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB   
4     2023-05-16  AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Falab...   
...          ...                                                ...   
9347  2024-10-21     AK_COL_YTB_AWN_CPC_EST_CEL_Apple_Sep24_EXP_SEP   
9348  2024-10-21     AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB   
9349  2024-10-21     AK_COL_MAX_PEF_CPC_AON_TLP_Apple_Feb20_EXP_FEB   
9350  2024-10-21    AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB   
9351  2024-10-21    AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE   

           Cost  impressions  clicks  
0     370928.00       343529    2826  
1     112017.00         7788     745  
2      47789.00         3366  

In [None]:
df.groupby(['Date','Campaign']).agg({
            'Cost': 'sum',
            'impressions': 'sum',
            'clicks': 'sum'
        }).reset_index()

Unnamed: 0,Date,Campaign,Cost,impressions,clicks
0,2021-01-25,AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE,1010.11,8815,207
1,2021-01-25,AK_COL_GDN_PEF_CPC_AON_COMP_Apple-Celulares-En...,3.55,20,3
2,2021-01-25,AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB,4665.00,258,30
3,2021-01-25,AK_COL_SMARTGSHP_PEF_CPC_AON_TLP_Apple_Feb20_E...,352285.90,163837,1026
4,2021-01-26,AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE,97269.35,263785,3221
...,...,...,...,...,...
9347,2024-12-31,AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Claro...,12295.00,416,36
9348,2024-12-31,AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Falab...,3098.00,100,7
9349,2024-12-31,AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB,42707.56,3292,346
9350,2024-12-31,AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB,31619.38,1681,246


In [None]:
print(df)

In [None]:
project_id="ga4-advance-analytics-alk-ktr"
dataset_id="ZONE_STAGGING"
table_id="forecast_analytics_consolidado"
fecha_columna="Date"

df = extract_history(project_id, dataset_id, table_id,fecha_columna)
df

Unnamed: 0,Date,fuente_medio_sesion,campana_sesion,marca_articulo,Cantidad,Ingreso_producto
0,2021-05-18,google / cpc,AK_COL_SMARTGDN_PEF_CPC_AON_CEL_Apple-Celulare...,NETFLIX,1,20000.0
1,2021-05-18,google / cpc,AK_COL_DSA_PEF_CPC_INTER_EST_TLP_Apple-Accesor...,SONY,1,59900.0
2,2021-05-18,google / cpc,AK_COL_DSA_PEF_CPC_INTER_EST_TLP_Apple-Accesor...,APPLE,1,1589000.0
3,2021-05-18,google / cpc,AK_COL_SMARTGSHP_PEF_CPC_INTER_EST_CEL_Apple-G...,NIHLO,1,0.0
4,2021-05-18,google / cpc,AK_COL_SMARTGSHP_PEF_CPC_INTER_EST_CEL_Apple-G...,SAMSUNG,1,1399900.0
...,...,...,...,...,...,...
13647,2023-08-31,google / cpc,AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB,PRACTIMAC,1,1399900.0
13648,2023-08-31,google / cpc,AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB,MADERKIT,1,1049900.0
13649,2023-08-31,google / cpc,AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB,SAMSUNG,1,1499900.0
13650,2023-08-31,google / cpc,AK_COL_SEM_PEF_CPC_AON_ACC_Apple_Feb20_EXP_FEB,SAMSUNG,2,894800.0


In [None]:
## Importar librerías
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from google.colab import auth
from google.cloud import bigquery

In [None]:
def cargar_datos(query):
    """Función para cargar datos desde BigQuery."""
    client = bigquery.Client()
    datos = client.query(query).to_dataframe()

    if 'Date' in datos.columns:
        datos['Date'] = pd.to_datetime(datos['Date'])
    elif 'fecha' in datos.columns:
        datos['fecha'] = pd.to_datetime(datos['fecha'])
    return datos

def agrupar_datos(datos):
    if 'marca_articulo' in datos.columns:
        datos.rename(columns={'marca_articulo': 'marca'}, inplace=True)
        return datos.groupby(['Date','campana_sesion','marca']).agg({
               'Cantidad': 'sum',
               'Ingreso_producto': 'sum'
        }).reset_index()

    elif 'Campaign' in datos.columns:
        return datos.groupby(['Date','Campaign']).agg({
            'Cost': 'sum',
            'impressions': 'sum',
            'clicks': 'sum'
        }).reset_index()

def unir_datos(gads, ganalytics):
    """Función para unir los datos de Google Ads y Google Analytics."""
    merged_data = pd.merge(gads, ganalytics, left_on=['Campaign', 'Date'], right_on=['campana_sesion', 'Date'], how='left')
    merged_data['Cantidad_Apple'] = np.where(merged_data['marca'].str.contains('apple', case=False, na=False),
                                              merged_data['Cantidad'],
                                              0)

    merged_data['Ingreso_Apple'] = np.where(merged_data['marca'].str.contains('apple', case=False, na=False),
                                             merged_data['Ingreso_producto'],
                                             0)

    # Calcular Cantidad y Ingreso para otras marcas
    merged_data['Cantidad_Otras'] = np.where(~merged_data['marca'].str.contains('apple', case=False, na=False),
                                              merged_data['Cantidad'],
                                              0)

    merged_data['Ingreso_Otras'] = np.where(~merged_data['marca'].str.contains('apple', case=False, na=False),
                                             merged_data['Ingreso_producto'],
                                             0)
    return merged_data

def agrupar_merged(merged_data):
    """Función para agrupar los datos finales."""
    df = merged_data.groupby(['Date', 'Campaign']).agg({
        'Cost': 'max',
        'impressions': 'max',
        'clicks': 'max',
        'Cantidad': 'sum',
        'Ingreso_producto': 'sum',
        'Cantidad_Apple': 'sum',
        'Ingreso_Apple': 'sum',
        'Cantidad_Otras': 'sum',
        'Ingreso_Otras': 'sum'
    }).reset_index()

    df.rename(columns={
        'Ingreso_producto': 'ingresos_totales'
    }, inplace=True)
    print(df.head())
    return df

#def guardar_en_bigquery(df, tabla_destino):
    """Función para guardar un DataFrame en una tabla de BigQuery."""
#    df.to_gbq(destination_table=tabla_destino, if_exists='replace')
#    print(f'DataFrame guardado en BigQuery en la tabla: {tabla_destino}')

def guardar_en_bigquery_incremental(df_new_data, tabla_destino):
    """
    Función para guardar un DataFrame en una tabla de BigQuery de forma incremental,
    evitando duplicados por fecha.
    """
    client = bigquery.Client()

    # 2. Identificar las fechas únicas en los nuevos datos
    new_dates = df_new_data['Date'].unique()

    # Convertir las fechas a un formato adecuado para la consulta
    new_dates_str = ', '.join([f"'{date}'" for date in new_dates]) # 20240101,20240102,
    try:
      if len(new_dates) > 0:
        # Consulta para eliminar las particiones existentes en BigQuery
        delete_query = f"""
        DELETE FROM `{tabla_destino}`
        WHERE Date IN ({new_dates_str})
        """
        print(f"Ejecutando la consulta de eliminación: {delete_query}")
        query_job = client.query(delete_query)
        query_job.result()

        print("Consulta de eliminación completada")
      else:
        print("No hay particiones por borrar")

    except Exception as e:
        print(f"Error al borrar las particiones en BigQuery: {e}")
        raise



    # 5. Guardar el DataFrame final en BigQuery usando 'replace'
    # Ahora 'replace' es seguro porque 'final_df' ya contiene los datos viejos
    # que queremos mantener, más los nuevos y actualizados.
    # Df new data
    df_new_data.to_gbq(destination_table=tabla_destino, if_exists='append')
    print(f'DataFrame actualizado y guardado en BigQuery en la tabla: {tabla_destino}. Total filas: {len(df_new_data)}')

In [None]:
if __name__ == "__main__":
    # Define tus consultas SQL para BigQuery
    # En estos dos select seria luego poner un where que solo traiga los ultimos 15 dias.
    query_gads = "SELECT * FROM `ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_gads_consolidado`"
    query_ganalytics = "SELECT * FROM `ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_analytics_consolidado`"
    tabla_destino = 'ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_tabla_final'

    # Cargar datos desde BigQuery
    gads = cargar_datos(query_gads)
    ganalytics = cargar_datos(query_ganalytics)

    # Agrupar datos
    gads_agrupados = agrupar_datos(gads)
    ganalytics_agrupados = agrupar_datos(ganalytics)

    # Unir datos
    merged_data = unir_datos(gads_agrupados, ganalytics_agrupados)

    # Agrupar datos finales
    df_final = agrupar_merged(merged_data)

    # Guardar el resultado en BigQuery
    #guardar_en_bigquery(df_final, 'ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_tabla_final')
    guardar_en_bigquery_incremental(df_final, tabla_destino)

        Date                                           Campaign       Cost  \
0 2021-01-25    AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE    1010.11   
1 2021-01-25  AK_COL_GDN_PEF_CPC_AON_COMP_Apple-Celulares-En...       3.55   
2 2021-01-25    AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB    4665.00   
3 2021-01-25  AK_COL_SMARTGSHP_PEF_CPC_AON_TLP_Apple_Feb20_E...  352285.90   
4 2021-01-26    AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE   97269.35   

   impressions  clicks  Cantidad  ingresos_totales  Cantidad_Apple  \
0         8815     207         0               0.0             0.0   
1           20       3         0               0.0             0.0   
2          258      30         0               0.0             0.0   
3       163837    1026         0               0.0             0.0   
4       263785    3221         0               0.0             0.0   

   Ingreso_Apple  Cantidad_Otras  Ingreso_Otras  
0            0.0             0.0            0.0  
1         

  df_new_data.to_gbq(destination_table=tabla_destino, if_exists='append')
100%|██████████| 1/1 [00:00<00:00, 5102.56it/s]

DataFrame actualizado y guardado en BigQuery en la tabla: ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_tabla_final. Total filas: 10216





In [None]:
print(    gads_agrupados)

           Date                                           Campaign       Cost  \
0    2021-01-25    AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE -324760.00   
1    2021-01-25  AK_COL_GDN_PEF_CPC_AON_COMP_Apple-Celulares-En...       3.55   
2    2021-01-25    AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB    4665.00   
3    2021-01-25  AK_COL_SMARTGSHP_PEF_CPC_AON_TLP_Apple_Feb20_E...  352285.90   
4    2021-01-26    AK_COL_GDN_AWN_CPC_AON_COMP_Apple_Ene21_EXP_ENE   97269.35   
...         ...                                                ...        ...   
9347 2024-12-31  AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Claro...   12295.00   
9348 2024-12-31  AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Falab...    3098.00   
9349 2024-12-31     AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB   42707.56   
9350 2024-12-31    AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB   31619.38   
9351 2024-12-31     AK_COL_YTB_AWN_CPC_EST_CEL_Apple_Sep24_EXP_SEP   24791.52   

      impressions  clicks  

In [None]:
print(ganalytics_agrupados)

           Date                                     campana_sesion  Cantidad  \
0    2021-01-01  AK_COL_DSA_PEF_CPC_INTER_EST_COMP_Apple-Comput...         1   
1    2021-01-01  AK_COL_SMARTGDN_PEF_CPC_INTER_EST_COMP_Apple-C...         1   
2    2021-01-02  AK_COL_SMARTGSHP_PEF_CPC_INTER_EST_CEL_Apple-G...         1   
3    2021-01-03  AK_COL_DSA_PEF_CPC_INTER_EST_CEL_Apple-Celular...         6   
4    2021-01-03  AK_COL_DSA_PEF_CPC_INTER_EST_TLP_Apple-Accesor...         1   
...         ...                                                ...       ...   
5706 2024-12-30     AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB         4   
5707 2024-12-30    AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB         1   
5708 2024-12-30  AK_COL_SEM_PEF_CPC_EST_CEL_Apple-iPhone-16_Sep...         1   
5709 2024-12-31     AK_COL_MAX_PEF_CPC_AON_TLP_Apple_Feb20_EXP_FEB         3   
5710 2024-12-31     AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB         1   

      Ingreso_producto  
0             

In [None]:
tabla_destino2 = "SELECT * FROM `ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_tabla_final` WHERE Date>='2025-01-01'"
print(tabla_destino2)
cargar_datos(tabla_destino2)

SELECT * FROM `ga4-advance-analytics-alk-ktr.ZONE_STAGGING.forecast_tabla_final` WHERE Date>='2025-01-01'


Unnamed: 0,Date,Campaign,Cost,impressions,clicks,Cantidad,ingresos_totales,Cantidad_Apple,Ingreso_Apple,Cantidad_Otras,Ingreso_Otras
0,2025-01-01,AK_COL_SEM_PEF_CPC_AON_ACC_Apple_Feb20_EXP_FEB,22749.38,1890,295,0,0.000000e+00,0.0,0.000000e+00,0.0,0.00
1,2025-01-01,AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Claro...,13227.58,363,42,0,0.000000e+00,0.0,0.000000e+00,0.0,0.00
2,2025-01-01,AK_COL_SEM_PEF_CPC_AON_CEL_Apple-Conquer-Falab...,5939.20,157,12,0,0.000000e+00,0.0,0.000000e+00,0.0,0.00
3,2025-01-01,AK_COL_SEM_PEF_CPC_AON_CEL_Apple_Feb20_EXP_FEB,47533.70,3432,381,0,0.000000e+00,0.0,0.000000e+00,0.0,0.00
4,2025-01-01,AK_COL_SEM_PEF_CPC_AON_COMP_Apple_Feb20_EXP_FEB,35001.08,1790,278,0,0.000000e+00,0.0,0.000000e+00,0.0,0.00
...,...,...,...,...,...,...,...,...,...,...,...
859,2025-04-07,AK_COL_MAX_PEF_CPC_AON_TLP_Apple_Feb20_EXP_FEB,519078.12,114383,1611,80,1.161592e+08,38.0,8.938030e+07,42.0,26778890.18
860,2025-03-10,AK_COL_MAX_PEF_CPC_AON_TLP_Apple_Feb20_EXP_FEB,606640.65,228880,3676,85,7.193247e+07,38.0,6.632644e+07,47.0,5606030.84
861,2025-02-06,AK_COL_MAX_PEF_CPC_AON_TLP_Apple_Feb20_EXP_FEB,601051.09,188375,2386,42,1.009071e+08,42.0,1.009071e+08,0.0,0.00
862,2025-04-02,AK_COL_MAX_PEF_CPC_AON_TLP_Apple_Feb20_EXP_FEB,276993.48,82582,1392,52,4.176811e+07,47.0,4.136899e+07,5.0,399114.49
