### Testing

In [None]:
import pandas as pd
import json
from pathlib import Path
import os
import pytz
from datetime import datetime

In [None]:
pd.set_option('display.max_columns', None)

In [None]:
# In a notebook, use cwd() (Current Working Directory) instead of __file__
BASE_DIR = Path.cwd().parent
RAW_DATA_PATH = os.path.join(BASE_DIR, 'data', 'raw')

# Verify the path
print(f"Reading from: {RAW_DATA_PATH}")

for file in os.listdir(RAW_DATA_PATH):
    with open(os.path.join(RAW_DATA_PATH, file), 'r') as f:
        data = json.load(f)
        df = pd.json_normalize(data)
        print(f'file: {file}')

In [None]:
df.head()

In [None]:
df.info()

### DEFs

In [None]:
#metadata silver
FULL_METADATA_MAP = {
    'cnpj': 'NRCNPJ',
    'razao_social': 'NMRAZSOC',
    'nome_fantasia': 'NMFANT',
    'capital_social': 'VLCPTSOC',
    'identificador_matriz_filial': 'IDMTZFIL',
    'descricao_identificador_matriz_filial': 'DSIDMTZFIL',
    'uf': 'SGUF',
    'cep': 'NRCEP',
    'pais': 'NMPAIS',
    'codigo_pais': 'CDPAIS',
    'municipio': 'NMMUN',
    'codigo_municipio': 'CDMUN',
    'codigo_municipio_ibge': 'CDMUNIBGE',
    'bairro': 'NMBRR',
    'logradouro': 'NMLGR',
    'numero': 'NREND',
    'complemento': 'DSCPL',
    'descricao_tipo_de_logradouro': 'DSTIPLGR',
    'nome_cidade_no_exterior': 'NMCDEXT',
    'email': 'DSEML',
    'ddd_fax': 'NRFAX',
    'ddd_telefone_1': 'NRTEL1',
    'ddd_telefone_2': 'NRTEL2',
    'cnae_fiscal': 'CDCNAEFISC',
    'cnae_fiscal_descricao': 'DSCNAEFISC',
    'natureza_juridica': 'DSNATJUR',
    'codigo_natureza_juridica': 'CDNATJUR',
    'porte': 'DSPORTE',
    'codigo_porte': 'CDPORTE',
    'qualificacao_do_responsavel': 'CDQUALRESP',
    'ente_federativo_responsavel': 'NMENTEFED',
    'situacao_cadastral': 'CDSITCAD',
    'descricao_situacao_cadastral': 'DSSITCAD',
    'data_situacao_cadastral': 'DTSITCAD',
    'motivo_situacao_cadastral': 'CDMOTSITCAD',
    'descricao_motivo_situacao_cadastral': 'DSMOTSITCAD',
    'situacao_especial': 'DSSITESPEC',
    'data_situacao_especial': 'DTSITESPEC',
    'data_inicio_atividade': 'DTINIATV',
    'opcao_pelo_simples': 'FLSIMPLES',
    'data_opcao_pelo_simples': 'DTOPTSIMPLES',
    'data_exclusao_do_simples': 'DTEXCSIMPLES',
    'opcao_pelo_mei': 'FLMEI',
    'data_opcao_pelo_mei': 'DTOPTMEI',
    'data_exclusao_do_mei': 'DTEXCMEI',
    'qsa_pais': 'QSANMPAIS',
    'qsa_nome_socio': 'QSANMSOC',
    'qsa_codigo_pais': 'QSACDPAIS',
    'qsa_faixa_etaria': 'QSADSFAIXETAR',
    'qsa_cnpj_cpf': 'QSANRDOC',
    'qsa_qualificacao_socio': 'QSADSQUAL',
    'qsa_codigo_faixa_etaria': 'QSACDFAIXETAR',
    'qsa_data_entrada_sociedade': 'QSADTENT',
    'qsa_identificador_de_socio': 'QSAIDSOC',
    'qsa_cpf_representante_legal': 'QSANRCPFREP',
    'qsa_nome_representante_legal': 'QSANMREP',
    'qsa_codigo_qualificacao_socio': 'QSACDQUAL',
    'qsa_qualificacao_representante_legal': 'QSADSQUALREP',
    'qsa_codigo_qualificacao_representante_legal': 'QSACDQUALREP',
    'cnaes_secundarios_codigo': 'CDCNAESEC',
    'cnaes_secundarios_descricao': 'DSCNAESEC',
    'regime_tributario_ano': 'TRIANO',
    'regime_tributario_cnpj_da_scp': 'TRICNJSCP',
    'regime_tributario_forma_de_tributacao': 'TRIFORMA',
    'regime_tributario_quantidade_de_escrituracoes': 'TRIQTDESCRIT'
}

RENAME_QSA = {
    'pais': 'qsa_pais', 'nome_socio': 'qsa_nome_socio', 'codigo_pais': 'qsa_codigo_pais',
    'faixa_etaria': 'qsa_faixa_etaria', 'cnpj_cpf_do_socio': 'qsa_cnpj_cpf',
    'qualificacao_socio': 'qsa_qualificacao_socio', 'codigo_faixa_etaria': 'qsa_codigo_faixa_etaria',
    'data_entrada_sociedade': 'qsa_data_entrada_sociedade', 'identificador_de_socio': 'qsa_identificador_de_socio',
    'cpf_representante_legal': 'qsa_cpf_representante_legal', 'nome_representante_legal': 'qsa_nome_representante_legal',
    'tipo_representante_legal': 'qsa_tipo_representante_legal', 'cnpj_cpf_representante_legal': 'qsa_cnpj_cpf_representante_legal',
    'codigo_qualificacao_socio': 'qsa_codigo_qualificacao_socio', 'qualificacao_representante_legal': 'qsa_qualificacao_representante_legal',
    'codigo_qualificacao_representante_legal': 'qsa_codigo_qualificacao_representante_legal'
}

RENAME_CNAE = {'codigo': 'cnaes_secundarios_codigo', 'descricao': 'cnaes_secundarios_descricao'}

RENAME_REGIME = {
    'ano': 'regime_tributario_ano', 'cnpj_da_scp': 'regime_tributario_cnpj_da_scp',
    'forma_de_tributacao': 'regime_tributario_forma_de_tributacao', 
    'quantidade_de_escrituracoes': 'regime_tributario_quantidade_de_escrituracoes'
}

In [None]:
BASE_DIR = Path.cwd().parent
RAW_DATA_PATH = os.path.join(BASE_DIR, 'data', 'raw')

def process_raw_to_dataframes(path_name: str) -> dict:
    all_data_frames = {}
    
    for file in os.listdir(path_name):
        if file.endswith('.json'):
            full_path = os.path.join(path_name, file)

            with open(full_path, 'r', encoding='utf-8') as f:
                data = json.load(f)
                df = pd.json_normalize(data)

                def expand_and_rename(df_orig: pd.DataFrame, col_name: str, rename_dict: dict) -> pd.DataFrame:
                    if col_name in df_orig.columns and not df_orig[col_name].dropna().empty:
                        extracted = df_orig[col_name].apply(lambda x: x[0] if isinstance(x, list) and len(x) > 0 else {})
                        df_norm = pd.json_normalize(extracted)
                        return df_norm.rename(columns=rename_dict)
                    return pd.DataFrame()

                df_qsa = expand_and_rename(df, 'qsa', RENAME_QSA)
                df_cnae = expand_and_rename(df, 'cnaes_secundarios', RENAME_CNAE)
                df_regime_trib = expand_and_rename(df, 'regime_tributario', RENAME_REGIME)

                df_final = pd.concat([df, df_qsa, df_cnae, df_regime_trib], axis=1)

                df_final = df_final.rename(columns=FULL_METADATA_MAP)
                
                df_final = df_final.drop(columns=['qsa', 'cnaes_secundarios', 'regime_tributario'], errors='ignore')

                all_data_frames[file] = df_final
    
    print(len(all_data_frames))

    return all_data_frames

In [None]:
my_dict = process_raw_to_dataframes(RAW_DATA_PATH)

In [None]:
for arquivo, df in my_dict.items():
    print(f"Arquivo: {arquivo} | Linhas: {df.shape[0]} | Colunas: {df.shape[1]}")

In [None]:
# Pega o primeiro valor (DataFrame) do dicionário
df_teste = next(iter(my_dict.values()))

# Agora você pode usar o .head()
display(df_teste.head())

In [None]:
df_teste.columns

#### f2

In [None]:
BASE_DIR = Path.cwd().parent
SILVER_DATA_PATH = os.path.join(BASE_DIR, 'data', 'silver')

def save_to_silver( dfs_dict : dict) -> None:
    os.makedirs(SILVER_DATA_PATH, exist_ok=True) #create silver directory if it doesn't exist

    fuso_br = pytz.timezone('America/Sao_Paulo') #timezone of Brazil
    today = datetime.now(fuso_br).strftime('%Y-%m-%d') #today's date

    for file_name, df in dfs_dict.items(): #iterate over the dictionary
        if df.empty:
            continue #error handling

        cnpj_prefix = file_name.split('_')[0] #extract cnpj prefix
        file_path = os.path.join(SILVER_DATA_PATH, f"{cnpj_prefix}_{today}.parquet") #parquet file path
        try:
            df.to_parquet(file_path, index=False) #save to parquet
            print(f"File saved successfully at: {file_path}")
        except Exception as e:
            print(f"Error saving file {file_path}: {e}")

In [None]:
save_to_silver(my_dict)