In [14]:
import pandas as pd
import pandas_gbq as pd_gbq
import jinja2
import os

import time

# function to get current date and time
def get_current_time():
    from datetime import datetime
    return "[" + datetime.now().strftime("%Y-%m-%d %H:%M:%S") + "]"

def read_gbq_(query):
  project_id = 'sfwthr2a4shdyuogrt3jjtygj160rs' # ri-nonprod
  print(f'{get_current_time()} Getting dataset from BQ...')
  return pd_gbq.read_gbq(query, progress_bar_type='tqdm',
                         use_bqstorage_api=True,
      project_id=project_id)

def read_gbq_from_template(template_query, dict_query):
  query = template_query
  if dict_query:
      from jinja2 import Template
      # Reads a query from a template and returns the query with the variables replaced
      # template_query: query as string, may use jinja2 templating
      # dict_query: dictionary of query parameters, to render from the template with jinja2
      query = Template(template_query).render(dict_query)
  return read_gbq_(query)


def read_text(file_name, encoding='utf-8'):
  with open(file_name, 'r', encoding=encoding) as f:
      return f.read()
    


def download_data(query_name,
                  queries_path,
                  data_path,
                  file_format='parquet',
                  update=False,
                  dict_query = {}, **kwargs):
  import os

  if not query_name.endswith('.sql'):
      query_name += '.sql'

  if file_format.startswith('.'):
      file_format = file_format[1:]

  from os.path import exists
  #file_path = fr"data\{query_name[:-4]}.{file_format}"
  #query_path = fr"queries\{query_name}"
  file_path = os.path.join(data_path, f'{query_name[:-4]}.{file_format}')
  query_path = os.path.join(queries_path, query_name)

  template_query = read_text(query_path)

  if update or not exists(file_path):
      df = read_gbq_from_template(template_query, dict_query)

      for c in df.dtypes[df.dtypes=='dbdate'].index:
          df[c] = df[c].astype('datetime64[ns]')

      z = 'index=False' if file_format=='csv' else ''
      file_format = 'excel' if file_format=='xlsx' else file_format
      print(file_format)
      if len(df)>0:
          eval(f'df.to_{file_format}(file_path,{z})')
          print(f'{get_current_time()} File successfully recorded on ', file_path)
      return df

#nome_projeto = '64. TAM/spinoffs/subs_exploratorio'
#queries_path = os.path.join(GDRIVE_PATH, nome_projeto, 'queries')
#data_path = os.path.join(GDRIVE_PATH, nome_projeto, 'data')
queries_path = 'queries'
data_path = 'data'


In [15]:
query = """
select distinct
cod_muni,
nome_master,
inicio,
from  `dataplatform-prd.master_contact.aux_tam_final_nomes` 
where 1=1
{{add_filter}}
and inicio<>'SYMPLA'
"""



dates = [ 
 '2024-06-30',
 '2024-05-31',
 '2024-04-30',
 '2024-03-31',
 '2024-02-29',
 '2024-01-31',
 '2023-12-31',
 '2023-11-30',
 '2023-10-31',
 '2023-09-30']

date = '2024-10-31'


In [16]:

from agrupamento_nomes import group_names_df_v2

def group_and_clean(df, LEVEL_GROUP):
    df = df.copy()
    
    #print('Tamanho do DataFrame:', df.shape)

    #df['qtd_por_inicio'] = df.groupby(['nome_muni', 'uf'])['nome_master'].transform('count')
    #df = df[df['qtd_por_inicio']>1]

    df = df.sort_values(by=LEVEL_GROUP + ['nome_master']).reset_index(drop=True)

    df = group_names_df_v2(df, group_cols=[
                                        'inicio',
                                        ] + LEVEL_GROUP, 
                           delete_aux_cols=False,
                        nome_col='nome_master')
    
    if LEVEL_GROUP:
        df['agrupamento_nome_1'] = df['res_aux'].apply(lambda x: ', '.join(x)) + df[LEVEL_GROUP].astype(str).apply(lambda x: '|'.join(x), axis=1)
    else:
        df['agrupamento_nome_1'] = df['res_aux'].apply(lambda x: ', '.join(x))
    
    df = df.drop(columns=['resultado_prefixes', 'res_aux', 'retirado_de_resultado'])
    
    return df


import pandas as pd
import os
from tqdm.notebook import tqdm

def process_in_chunks(df, LEVEL_GROUP, output_dir="temp_dir"):
    from tqdm import tqdm

    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Conta o número de grupos
    num_groups = df.groupby(LEVEL_GROUP).ngroups

    # Cria a barra de progresso
    progress_bar = tqdm(total=num_groups, desc="Processando grupos", unit="grupo")

    for group_values, group_df in df.groupby(LEVEL_GROUP):
        # Gera o nome do arquivo baseado nos valores do grupo
        filename = f"{output_dir}/processed_group_{group_values}.parquet"
        
        # Verifica se o arquivo já existe
        if os.path.exists(filename):
            progress_bar.update(1)  # Atualiza a barra de progresso
            continue  # Pula o processamento deste grupo

        # Processa e salva o resultado se o arquivo ainda não existir
        processed_df = group_and_clean(group_df, LEVEL_GROUP)
        processed_df.to_parquet(filename, index=False)
        
        # Atualiza a barra de progresso
        progress_bar.update(1)
    
    progress_bar.close()
    return None



In [17]:
def main_agrupamento_nomes(date):
    query = """
    select distinct
    cod_muni,
    nome_master,
    inicio,
    from  `dataplatform-prd.master_contact.aux_tam_final_nomes` 
    where 1=1
    {{add_filter}}
    and inicio<>'SYMPLA'
    """

    print(date)
    anomes = date[:7].replace('-', '')
    print('Tratando dados de ', date)
    df = read_gbq_from_template(query, {'add_filter': f'AND reference_month = "{date}"'})
    df = process_in_chunks(df, ['cod_muni'], output_dir=f"data/temp_dir_{anomes}")

In [18]:
def process_in_chunks_v2(df, LEVEL_GROUP, output_dir="temp_dir"):
    from tqdm import tqdm

    if not os.path.exists(output_dir):
        os.makedirs(output_dir)
    
    # Conta o número de grupos
    num_groups = df.groupby(LEVEL_GROUP).ngroups

    # Cria a barra de progresso
    progress_bar = tqdm(total=num_groups, desc="Processando grupos", unit="grupo")

    for group_values, group_df in df.groupby(LEVEL_GROUP):
        # Gera o nome do arquivo baseado nos valores do grupo
        filename = f"{output_dir}/processed_group_{group_values}.parquet"
        
        # Verifica se o arquivo já existe
        if os.path.exists(filename):
            progress_bar.update(1)  # Atualiza a barra de progresso
            continue  # Pula o processamento deste grupo

        # Processa e salva o resultado se o arquivo ainda não existir
        processed_df = group_df
        processed_df.to_parquet(filename, index=False)
        
        # Atualiza a barra de progresso
        progress_bar.update(1)
    
    progress_bar.close()
    return None



In [19]:
date

'2024-10-31'

In [20]:
main_agrupamento_nomes(date)

2024-10-31
Tratando dados de  2024-10-31
[2024-11-27 18:31:21] Getting dataset from BQ...
Downloading: 100%|[32m██████████[0m|


Processando grupos:   0%|          | 0/5571 [00:00<?, ?grupo/s]

Quantidade de nomes: 1061
Tempo de execução: 0.7266831398010254


Processando grupos:   2%|▏         | 112/5571 [01:36<43:09,  2.11grupo/s] 

Quantidade de nomes: 1255
Tempo de execução: 1.1482131481170654
Quantidade de nomes: 1035
Tempo de execução: 0.6793098449707031
Quantidade de nomes: 1886
Tempo de execução: 2.3894433975219727
Quantidade de nomes: 1963
Tempo de execução: 2.4661812782287598


Processando grupos:  11%|█▏        | 635/5571 [07:59<1:53:10,  1.38s/grupo] 

Quantidade de nomes: 1421
Tempo de execução: 1.3227040767669678
Quantidade de nomes: 1010
Tempo de execução: 0.6433353424072266


Processando grupos:  16%|█▌        | 883/5571 [09:27<09:56,  7.85grupo/s]   

Quantidade de nomes: 1331
Tempo de execução: 1.1374714374542236
Quantidade de nomes: 2316
Tempo de execução: 3.522357225418091


Processando grupos:  17%|█▋        | 935/5571 [10:27<43:36,  1.77grupo/s]  

Quantidade de nomes: 1770
Tempo de execução: 2.0851187705993652


Processando grupos:  17%|█▋        | 950/5571 [10:52<1:11:43,  1.07grupo/s]

Quantidade de nomes: 5979
Tempo de execução: 22.838327646255493
Quantidade de nomes: 1468
Tempo de execução: 1.4169650077819824
Quantidade de nomes: 1472
Tempo de execução: 1.3518424034118652
Quantidade de nomes: 11681
Tempo de execução: 93.09743428230286
Quantidade de nomes: 1007
Tempo de execução: 0.6378746032714844
Quantidade de nomes: 1598
Tempo de execução: 1.6446518898010254
Quantidade de nomes: 1187
Tempo de execução: 0.8891751766204834
Quantidade de nomes: 3089
Tempo de execução: 6.246036767959595
Quantidade de nomes: 1164
Tempo de execução: 0.9372313022613525
Quantidade de nomes: 1129
Tempo de execução: 0.827906608581543
Quantidade de nomes: 1163
Tempo de execução: 0.8957149982452393


Processando grupos:  18%|█▊        | 990/5571 [14:54<55:13,  1.38grupo/s]   

Quantidade de nomes: 1038
Tempo de execução: 0.6595015525817871


Processando grupos:  18%|█▊        | 995/5571 [15:07<1:56:44,  1.53s/grupo]

Quantidade de nomes: 1431
Tempo de execução: 1.297231674194336


Processando grupos:  19%|█▉        | 1058/5571 [15:58<33:25,  2.25grupo/s]  

Quantidade de nomes: 1081
Tempo de execução: 0.734574556350708


Processando grupos:  21%|██        | 1162/5571 [17:02<27:58,  2.63grupo/s]  

Quantidade de nomes: 1092
Tempo de execução: 0.7680745124816895


Processando grupos:  21%|██        | 1164/5571 [17:13<3:27:09,  2.82s/grupo]

Quantidade de nomes: 1645
Tempo de execução: 1.6829121112823486


Processando grupos:  39%|███▉      | 2163/5571 [31:19<27:02,  2.10grupo/s]   

Quantidade de nomes: 1085
Tempo de execução: 0.834542989730835
Quantidade de nomes: 1739
Tempo de execução: 1.9385781288146973
Quantidade de nomes: 1243
Tempo de execução: 1.0026805400848389
Quantidade de nomes: 1025
Tempo de execução: 0.667111873626709
Quantidade de nomes: 1331
Tempo de execução: 1.1217823028564453
Quantidade de nomes: 1167
Tempo de execução: 0.8826675415039062
Quantidade de nomes: 1789
Tempo de execução: 2.1009573936462402
Quantidade de nomes: 1042
Tempo de execução: 0.7014524936676025
Quantidade de nomes: 1066
Tempo de execução: 0.7003076076507568
Quantidade de nomes: 1355
Tempo de execução: 1.2248165607452393


Processando grupos:  41%|████▏     | 2309/5571 [34:30<34:48,  1.56grupo/s]   

Quantidade de nomes: 1069
Tempo de execução: 0.7305026054382324
Quantidade de nomes: 1611
Tempo de execução: 1.6184945106506348
Quantidade de nomes: 1272
Tempo de execução: 1.1721901893615723
Quantidade de nomes: 1439
Tempo de execução: 1.3537912368774414
Quantidade de nomes: 1242
Tempo de execução: 1.2549967765808105
Quantidade de nomes: 1071
Tempo de execução: 0.7254605293273926
Quantidade de nomes: 1159
Tempo de execução: 0.8575618267059326
Quantidade de nomes: 1246
Tempo de execução: 1.0913119316101074


Processando grupos:  58%|█████▊    | 3243/5571 [49:05<1:41:06,  2.61s/grupo] 

Quantidade de nomes: 2340
Tempo de execução: 3.492786169052124
Quantidade de nomes: 1247
Tempo de execução: 0.9850850105285645
Quantidade de nomes: 2212
Tempo de execução: 3.2252025604248047
Quantidade de nomes: 1343
Tempo de execução: 1.1619806289672852
Quantidade de nomes: 1138
Tempo de execução: 0.8642268180847168
Quantidade de nomes: 1654
Tempo de execução: 1.8222675323486328
Quantidade de nomes: 3059
Tempo de execução: 6.101880311965942
Quantidade de nomes: 1140
Tempo de execução: 0.8252177238464355
Quantidade de nomes: 1424
Tempo de execução: 1.2505426406860352
Quantidade de nomes: 1152
Tempo de execução: 0.8377399444580078
Quantidade de nomes: 3050
Tempo de execução: 5.946290731430054
Quantidade de nomes: 1304
Tempo de execução: 1.0909900665283203
Quantidade de nomes: 2532
Tempo de execução: 4.314506769180298
Quantidade de nomes: 2080
Tempo de execução: 2.881505012512207
Quantidade de nomes: 3558
Tempo de execução: 8.260718584060669
Quantidade de nomes: 1232
Tempo de execução: 0

Processando grupos:  61%|██████    | 3376/5571 [57:36<27:06,  1.35grupo/s]   

Quantidade de nomes: 1925
Tempo de execução: 2.191054344177246


Processando grupos:  66%|██████▌   | 3655/5571 [1:04:47<20:51,  1.53grupo/s]  

Quantidade de nomes: 1579
Tempo de execução: 1.500654935836792
Quantidade de nomes: 1209
Tempo de execução: 0.9634110927581787
Quantidade de nomes: 1345
Tempo de execução: 1.1517229080200195
Quantidade de nomes: 2139
Tempo de execução: 2.936772584915161
Quantidade de nomes: 2093
Tempo de execução: 2.710681676864624
Quantidade de nomes: 1417
Tempo de execução: 1.269777774810791
Quantidade de nomes: 1063
Tempo de execução: 0.7045190334320068
Quantidade de nomes: 1203
Tempo de execução: 0.9370620250701904
Quantidade de nomes: 2830
Tempo de execução: 5.171254634857178
Quantidade de nomes: 1075
Tempo de execução: 0.6899700164794922
Quantidade de nomes: 1603
Tempo de execução: 1.5701954364776611
Quantidade de nomes: 1887
Tempo de execução: 2.1176013946533203
Quantidade de nomes: 1816
Tempo de execução: 2.103429079055786
Quantidade de nomes: 2595
Tempo de execução: 4.747966766357422
Quantidade de nomes: 3345
Tempo de execução: 6.862194299697876
Quantidade de nomes: 1327
Tempo de execução: 1.1

Processando grupos:  69%|██████▊   | 3830/5571 [1:12:25<1:24:10,  2.90s/grupo] 

Quantidade de nomes: 1144
Tempo de execução: 0.8507938385009766
Quantidade de nomes: 5257
Tempo de execução: 17.42156481742859
Quantidade de nomes: 2013
Tempo de execução: 2.706827402114868
Quantidade de nomes: 4269
Tempo de execução: 12.002644777297974
Quantidade de nomes: 1485
Tempo de execução: 1.360691785812378
Quantidade de nomes: 2417
Tempo de execução: 3.9756131172180176
Quantidade de nomes: 1625
Tempo de execução: 1.7205469608306885
Quantidade de nomes: 4512
Tempo de execução: 12.97432279586792
Quantidade de nomes: 1482
Tempo de execução: 1.4090051651000977
Quantidade de nomes: 1410
Tempo de execução: 1.2319180965423584
Quantidade de nomes: 1305
Tempo de execução: 1.075131893157959
Quantidade de nomes: 1310
Tempo de execução: 1.1184163093566895
Quantidade de nomes: 8833
Tempo de execução: 51.52077341079712
Quantidade de nomes: 1674
Tempo de execução: 1.909106731414795
Quantidade de nomes: 2032
Tempo de execução: 2.5432796478271484
Quantidade de nomes: 1102
Tempo de execução: 0.

Processando grupos:  82%|████████▏ | 4560/5571 [1:43:32<09:51,  1.71grupo/s]     

Quantidade de nomes: 1755
Tempo de execução: 1.753190279006958


Processando grupos:  97%|█████████▋| 5418/5571 [1:52:28<02:20,  1.09grupo/s]  

Quantidade de nomes: 1179
Tempo de execução: 0.9369685649871826


Processando grupos: 100%|█████████▉| 5570/5571 [1:55:02<00:00,  1.80grupo/s]

Quantidade de nomes: 1910
Tempo de execução: 2.3714191913604736
Quantidade de nomes: 1041
Tempo de execução: 0.7026622295379639
Quantidade de nomes: 1488
Tempo de execução: 1.4664692878723145
Quantidade de nomes: 1048
Tempo de execução: 0.7142510414123535
Quantidade de nomes: 2378
Tempo de execução: 3.601930618286133
Quantidade de nomes: 1345
Tempo de execução: 1.2031714916229248
Quantidade de nomes: 1218
Tempo de execução: 0.9354658126831055
Quantidade de nomes: 1040
Tempo de execução: 0.7121572494506836
Quantidade de nomes: 1278
Tempo de execução: 1.0834836959838867


Processando grupos: 100%|██████████| 5571/5571 [1:56:33<00:00,  1.26s/grupo]


In [12]:
#anomes = '202310'
#df = pd.read_parquet(f'data/agrupamento_nomes_{anomes}.parquet')
#df = process_in_chunks_v2(df, ['cod_muni'], output_dir=f"data/temp_dir_{anomes}")

In [13]:
anomes

NameError: name 'anomes' is not defined