In [43]:
import pandas as pd

In [44]:
def carregar_e_mesclar_arquivos(url_imp_2024: str, url_ncm: str, 
                                chave_principal: str, chave_referencia: str, 
                                sep_principal: str = ',', sep_referencia: str = ';', 
                                encoding: str = 'latin1'):

    df_imp_2024 = pd.read_csv(url_imp_2024, sep=sep_principal, encoding=encoding)
    df_ncm = pd.read_csv(url_ncm, sep=sep_referencia, encoding=encoding)

    df_imp_2024[chave_principal] = df_imp_2024[chave_principal].astype(str)
    df_ncm[chave_referencia] = df_ncm[chave_referencia].astype(str)

    df_resultado = df_imp_2024.merge(df_ncm, left_on=chave_principal, right_on=chave_referencia, how='left')

    return df_resultado

df_1 = carregar_e_mesclar_arquivos(
    url_imp_2024='/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/landing/importacao_2024.csv',
    url_ncm='/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/raw_data/NCM.csv',
    chave_principal='cd_ncm',
    chave_referencia='CO_NCM')

In [45]:
df_1 = df_1.drop(columns=['cd_ncm', 'CO_NCM', 'CO_UNID', 'CO_SH6', 'CO_PPE', 'CO_PPI', 'CO_FAT_AGREG', 'CO_CUCI_ITEM', 'CO_CGCE_N3', 'CO_SIIT', 'CO_ISIC_CLASSE', 'CO_EXP_SUBSET', 'NO_NCM_ESP', 'NO_NCM_ING'])

In [46]:
url_urf = '/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/raw_data/URF.csv'
df_urf = pd.read_csv(url_urf, sep=';',  encoding='latin1')

In [47]:
def mesclar_dataframes(df_base: pd.DataFrame, df_referencia: pd.DataFrame, 
                       chave_base: str, chave_referencia: str) -> pd.DataFrame:
    
    df_base[chave_base] = df_base[chave_base].astype(str)
    df_referencia[chave_referencia] = df_referencia[chave_referencia].astype(str)

    df_resultante = df_base.merge(df_referencia, left_on=chave_base, right_on=chave_referencia, how='left')
    
    return df_resultante

df_1 = mesclar_dataframes(df_base=df_1, df_referencia=df_urf, chave_base='cd_urf', chave_referencia='CO_URF')

In [48]:
df_1['urf_codigo'] = df_1['NO_URF'].str.extract(r'^(\d+)\s*-\s*')

df_1['urf_info'] = df_1['NO_URF'].str.replace(r'^\d+\s*-\s*', '', regex=True)

def separar_info(valor):
    partes = valor.split(' - ')
    if len(partes) == 2:
        tipo, nome = partes
    else:
        tipo = None
        nome = valor
    return pd.Series([tipo, nome])

df_1[['urf_tipo', 'urf_nome']] = df_1['urf_info'].apply(separar_info)

df_1.drop(columns=['NO_URF', 'urf_info'], inplace=True)

In [49]:
df_1 = df_1.drop(['cd_urf', 'CO_URF', 'urf_codigo', 'urf_tipo'], axis=1)

In [50]:
url_via = '/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/raw_data/VIA.csv' 
df_via = pd.read_csv(url_via, sep=';',  encoding='latin1')

In [51]:
def mesclar_dataframes(df_base: pd.DataFrame, df_referencia: pd.DataFrame, 
                       chave_base: str, chave_referencia: str) -> pd.DataFrame:
 
    df_base[chave_base] = df_base[chave_base].astype(str)
    df_referencia[chave_referencia] = df_referencia[chave_referencia].astype(str)

    df_resultante = df_base.merge(df_referencia, left_on=chave_base, right_on=chave_referencia, how='left')
    
    return df_resultante

df_2 = mesclar_dataframes(df_base=df_1, df_referencia=df_via, chave_base='cd_via', chave_referencia='CO_VIA')

In [52]:
df_2 = df_2.drop(['cd_via', 'CO_VIA'], axis=1)

In [53]:
url_pais = '/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/raw_data/PAIS.csv'
df_pais = pd.read_csv(url_pais, sep=';',  encoding='latin1')

In [54]:
def mesclar_dataframes(df_base: pd.DataFrame, df_referencia: pd.DataFrame, 
                       chave_base: str, chave_referencia: str) -> pd.DataFrame:

    df_base[chave_base] = df_base[chave_base].astype(str)
    df_referencia[chave_referencia] = df_referencia[chave_referencia].astype(str)

    df_resultante = df_base.merge(df_referencia, left_on=chave_base, right_on=chave_referencia, how='left')
    
    return df_resultante

df_3 = mesclar_dataframes(df_base=df_2, df_referencia=df_pais, chave_base='cd_pais', chave_referencia='CO_PAIS')

In [55]:
df_3 = df_3.drop(columns=['cd_pais', 'CO_PAIS', 'CO_PAIS_ISON3',
       'CO_PAIS_ISOA3', 'NO_PAIS_ING', 'NO_PAIS_ESP'])

In [56]:
url_ncm_unidade = '/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/raw_data/NCM_UNIDADE.csv' 
df_ncm_unidade = pd.read_csv(url_ncm_unidade, sep=';',  encoding='latin1')  

In [57]:
def mesclar_dataframes(df_base: pd.DataFrame, df_referencia: pd.DataFrame, 
                       chave_base: str, chave_referencia: str) -> pd.DataFrame:

    df_base[chave_base] = df_base[chave_base].astype(str)
    df_referencia[chave_referencia] = df_referencia[chave_referencia].astype(str)

    df_resultante = df_base.merge(df_referencia, left_on=chave_base, right_on=chave_referencia, how='left')
    
    return df_resultante

df_4 = mesclar_dataframes(df_base=df_3, df_referencia=df_ncm_unidade, chave_base='cd_unidade', chave_referencia='CO_UNID')

In [58]:
df_4 = df_4.drop(columns=['cd_unidade', 'CO_UNID', 'SG_UNID'])

In [59]:
df_4 = df_4.rename(columns={  
     'sg_ufncm': 'sg_uf',
    'NO_NCM_POR': 'cd_ncm',
    'urf_nome': 'cd_urf',
    'NO_VIA': 'cd_via',
    'NO_PAIS': 'cd_pais',
    'NO_UNID': 'cd_unidade'
    })
df_4.columns = df_4.columns.str.strip().str.lower().str.replace(' ', '_')

In [61]:
def padronizar_colunas(df, colunas):

    df[colunas] = df[colunas].apply(lambda x: x.str.strip().str.lower())
    return df

df_4 = padronizar_colunas(df_4, ['cd_ncm', 'cd_urf', 'cd_via', 'cd_pais', 'cd_unidade'])

In [62]:
caminho = "/home/edcarlos/Data-Analytics-Comercio-Exterior/datalake/silver/importacao_2024_m.csv"
df_4.to_csv(caminho, index=False)