Importa√ß√µes e configura√ß√£o

In [15]:
import pandas as pd
from pathlib import Path

# Caminhos base dentro do container Jupyter
BASE_RAW = Path("/home/jovyan/data/raw")
BASE_PROC = Path("/home/jovyan/data/processed")

# Garante que a pasta processed existe
BASE_PROC.mkdir(parents=True, exist_ok=True)

BASE_RAW, BASE_PROC

(PosixPath('/home/jovyan/data/raw'), PosixPath('/home/jovyan/data/processed'))

Processamento

In [16]:
def processar_inmet(path: Path) -> pd.DataFrame:

    print(f"\nüìÑ Lendo arquivo: {path.name}")
    
    # 1) Ler CSV bruto
    df = pd.read_csv(
        path,
        sep=';',
        skiprows=8,           # pula bloco de metadados
        encoding='latin1',
        low_memory=False
    )
    
    # 2) Renomear colunas de interesse (s√≥ as que existirem)
    mapa_renome = {
        'Data': 'data',
        'Hora UTC': 'hora',
        'TEMPERATURA DO AR - BULBO SECO, HORARIA (¬∞C)': 'temp_ar',
        'UMIDADE RELATIVA DO AR, HORARIA (%)': 'umidade',
        'RADIACAO GLOBAL (Kj/m¬≤)': 'radiacao',
        'RADIACAO GLOBAL (kJ/m¬≤)': 'radiacao',
        'RADIACAO GLOBAL': 'radiacao',
        'PRECIPITA√á√ÉO TOTAL, HOR√ÅRIO (mm)': 'precipitacao',
        'VENTO, VELOCIDADE HORARIA (m/s)': 'vento_vel',
        'VENTO, DIRE√á√ÉO HORARIA (gr) (¬∞ (gr))': 'vento_dir',
        'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)': 'pressao'
    }
    df = df.rename(columns={orig: novo for orig, novo in mapa_renome.items() if orig in df.columns})

    # 3) Garante que data e hora existem
    if 'data' not in df.columns or 'hora' not in df.columns:
        raise ValueError("Colunas 'Data' e/ou 'Hora UTC' n√£o foram encontradas ap√≥s o rename.")

    # 4) Padronizar 'data' e 'hora' como string
    df['data'] = df['data'].astype(str).str.strip()
    df['hora'] = df['hora'].astype(str).str.strip()

    # 5) Remover ' UTC' da hora, se existir
    df['hora'] = df['hora'].str.replace(' UTC', '', regex=False)

    # 6) Se hora estiver como 0, 300, 1200 etc, padronizar para HH:MM
    mascara_numerica = df['hora'].str.fullmatch(r'\d{1,4}')
    df.loc[mascara_numerica, 'hora'] = (
        df.loc[mascara_numerica, 'hora']
          .str.zfill(4)
          .str[:2] + ':' + df.loc[mascara_numerica, 'hora'].str.zfill(4).str[2:]
    )

    # 7) Criar coluna datetime (deixa o pandas inferir formato)
    df['datetime'] = pd.to_datetime(
        df['data'] + ' ' + df['hora'],
        errors='coerce'
    )

    # Remover linhas onde datetime n√£o p√¥de ser montado
    df = df.dropna(subset=['datetime'])
    df = df.set_index('datetime')

    # 8) Selecionar colunas de interesse (as que existirem)
    colunas_desejadas = ['hora', 'temp_ar', 'umidade', 'radiacao',
                         'vento_vel', 'precipitacao', 'pressao']
    colunas_presentes = [c for c in colunas_desejadas if c in df.columns]
    df = df[colunas_presentes]

    # 9) Converter vari√°veis num√©ricas para float
    variaveis_numericas = [c for c in colunas_presentes if c != 'hora']

    for col in variaveis_numericas:
        df[col] = df[col].astype(str).str.replace(',', '.', regex=False).str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

    # 10) Remover colunas que est√£o 100% NaN (por exemplo, radiacao ausente o ano todo)
    colunas_todas_nan = [c for c in variaveis_numericas if df[c].isna().sum() == len(df)]
    if colunas_todas_nan:
        print("   ‚ö† Removendo colunas 100% NaN:", colunas_todas_nan)
        df = df.drop(columns=colunas_todas_nan)
        variaveis_numericas = [c for c in variaveis_numericas if c not in colunas_todas_nan]

    # 11) Interpolar valores faltantes ao longo do tempo
    if variaveis_numericas:
        df[variaveis_numericas] = df[variaveis_numericas].interpolate(
            method='time'
        )

        # Opcional: preencher pontas (in√≠cio/fim) com ffill/bfill
        df[variaveis_numericas] = df[variaveis_numericas].ffill().bfill()

    # 12) Remover apenas linhas em que TODAS as vari√°veis num√©ricas s√£o NaN (caso sobrem)
    if variaveis_numericas:
        mask_all_nan = df[variaveis_numericas].isna().all(axis=1)
        n_all_nan = mask_all_nan.sum()
        if n_all_nan > 0:
            print(f"   ‚ö† Removendo {n_all_nan} linhas 100% NaN nas vari√°veis num√©ricas.")
            df = df[~mask_all_nan]

    # 13) Criar features auxiliares
    df['hora_num'] = df.index.hour
    df['mes'] = df.index.month

    print(f"   ‚úÖ Registros ap√≥s tratamento: {len(df)}")
    return df

Loop para processar Petrolina e Garanhuns (2020 a 2024)

In [17]:
anos = ['2020', '2021', '2022', '2023', '2024']
cidades = ['PETROLINA', 'GARANHUNS']

for ano in anos:
    pasta_ano = BASE_RAW / ano
    
    for cidade in cidades:
        # procura arquivos do tipo *CIDADE*.CSV dentro do ano
        arquivos = list(pasta_ano.glob(f"*{cidade}*.CSV"))
        
        if not arquivos:
            print(f"\nüö´ Nenhum arquivo encontrado para {cidade} em {ano}")
            continue
        
        for arq in arquivos:
            df_tratado = processar_inmet(arq)
            
            # nome do arquivo de sa√≠da
            nome_saida = f"{cidade.lower()}_{ano}_tratado.csv"
            caminho_saida = BASE_PROC / nome_saida
            
            df_tratado.to_csv(caminho_saida)
            print(f"   üíæ Salvo em: {caminho_saida}")


üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2020_tratado.csv

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2020_tratado.csv

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2021_tratado.csv

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2021_tratado.csv

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2022_A_31-12-2022.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2022_tratado.csv

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2

Resumo

In [18]:
processed_path = BASE_PROC

arquivos_tratados = list(processed_path.glob("*_tratado.csv"))

print("Foram encontrados", len(arquivos_tratados), "arquivos tratados.\n")

for arquivo in arquivos_tratados:
    df = pd.read_csv(arquivo, index_col=0, parse_dates=True)
    
    print("üìÑ Arquivo:", arquivo.name)
    print("   ‚û§ Linhas:", len(df))
    print("   ‚û§ NaNs por coluna:")
    print(df.isna().sum().to_string())
    print("-" * 60)


Foram encontrados 10 arquivos tratados.

üìÑ Arquivo: petrolina_2020_tratado.csv
   ‚û§ Linhas: 8784
   ‚û§ NaNs por coluna:
hora            0
temp_ar         0
umidade         0
radiacao        0
vento_vel       0
precipitacao    0
pressao         0
hora_num        0
mes             0
------------------------------------------------------------
üìÑ Arquivo: petrolina_2022_tratado.csv
   ‚û§ Linhas: 8760
   ‚û§ NaNs por coluna:
hora            0
temp_ar         0
umidade         0
radiacao        0
vento_vel       0
precipitacao    0
pressao         0
hora_num        0
mes             0
------------------------------------------------------------
üìÑ Arquivo: garanhuns_2024_tratado.csv
   ‚û§ Linhas: 8784
   ‚û§ NaNs por coluna:
hora         0
temp_ar      0
umidade      0
radiacao     0
vento_vel    0
pressao      0
hora_num     0
mes          0
------------------------------------------------------------
üìÑ Arquivo: garanhuns_2023_tratado.csv
   ‚û§ Linhas: 8760
   ‚û§ NaNs por 

Nota:

Para lidar com valores clim√°ticos faltantes nos arquivos do INMET, utilizamos a t√©cnica de interpola√ß√£o temporal, que √© um m√©todo recomendado internacionalmente para reconstru√ß√£o de s√©ries meteorol√≥gicas. Em termos simples, a interpola√ß√£o preenche lacunas usando os valores anteriores e posteriores como refer√™ncia. Por exemplo: se √†s 10h a temperatura √© 22¬∞C e √†s 12h √© 24¬∞C, a interpola√ß√£o estima que √†s 11h ela seria aproximadamente 23¬∞C. Isso evita descartar horas inteiras ‚Äî o que reduziria drasticamente a qualidade do conjunto de dados ‚Äî e mant√©m a continuidade natural do clima, que muda de forma gradual ao longo do tempo. Esse procedimento foi aplicado usando df.interpolate(method='time'), que utiliza o √≠ndice de datas do pr√≥prio dataframe para estimar valores de forma coerente com a evolu√ß√£o temporal. O uso de interpola√ß√£o em dados clim√°ticos √© amplamente adotado por institui√ß√µes como o NOAA ‚Äì National Oceanic and Atmospheric Administration, que afirma que a interpola√ß√£o linear √© adequada para preenchimento de falhas curtas em s√©ries meteorol√≥gicas cont√≠nuas (NOAA, Climate Data Interpolation Guidelines, 2018).

Configura√ß√£o SnowFlake

In [None]:
import snowflake.connector
from snowflake.connector.pandas_tools import write_pandas
import os
import getpass

SNOWFLAKE_USER = "APP_USER_METEO"
SNOWFLAKE_PASSWORD = "B@tataQuente!2025" 
SNOWFLAKE_ACCOUNT = "gcifwsf-dz69699" 
SNOWFLAKE_WAREHOUSE = "WH_METEORO_BI"
SNOWFLAKE_DATABASE = "DB_INMET_PE"
SNOWFLAKE_SCHEMA = "DATA_ESTRUTURADA"
SNOWFLAKE_TABLE = "DADOS_INMET_HORARIO"

# Cria a string de conex√£o para uso em fun√ß√µes
SNOWFLAKE_CONN_PARAMS = {
    "user": SNOWFLAKE_USER,
    "password": SNOWFLAKE_PASSWORD,
    "account": SNOWFLAKE_ACCOUNT,
    "warehouse": SNOWFLAKE_WAREHOUSE,
    "database": SNOWFLAKE_DATABASE,
    "schema": SNOWFLAKE_SCHEMA
}

print("Configura√ß√µes do Snowflake definidas.")

Configura√ß√µes do Snowflake definidas.


Fun√ß√£o para carregar dados no SnowFlake

In [None]:
# ==============================================================================
# FUN√á√ÉO PARA CARREGAR DADOS NO SNOWFLAKE
# ==============================================================================

def carregar_para_snowflake(df: pd.DataFrame, nome_tabela: str):
    """
    Conecta ao Snowflake e carrega um DataFrame Pandas para a tabela especificada.
    """
    print(f"\n‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela {nome_tabela}...")
    
    try:
        # 1. Conex√£o
        conn = snowflake.connector.connect(**SNOWFLAKE_CONN_PARAMS)
        
        # 2. Executa a carga usando write_pandas
        success, n_chunks, n_rows, output = write_pandas(
            conn, 
            df, 
            table_name=nome_tabela,
            database=SNOWFLAKE_DATABASE,
            schema=SNOWFLAKE_SCHEMA,
            auto_create_table=False 
        )
        
        # 3. Confirma√ß√£o
        print(f"   ‚úÖ Carga conclu√≠da. Linhas carregadas: {n_rows}")
        print(f"   ‚úÖ Arquivos enviados: {n_chunks} chunk(s).")
        
    except Exception as e:
        print(f"   ‚ùå ERRO ao carregar para o Snowflake: {e}")
        print("   Primeiras linhas do DataFrame com erro:")
        print(df.head())
        
    finally:
        if 'conn' in locals() and conn:
            conn.close()

Loop para processar, salvar CSV localmente e carregar no SnowFlake

In [None]:
# ==============================================================================
# LOOP PARA PROCESSAR, SALVAR CSV LOCALMENTE E CARREGAR NO SNOWFLAKE
# ==============================================================================

try:
    with snowflake.connector.connect(**SNOWFLAKE_CONN_PARAMS) as conn:
        conn.cursor().execute(f"TRUNCATE TABLE {SNOWFLAKE_DATABASE}.{SNOWFLAKE_SCHEMA}.{SNOWFLAKE_TABLE}")
        print(f"\n‚ö†Ô∏è Tabela {SNOWFLAKE_TABLE} truncada com sucesso no Snowflake.")
except Exception as e:
    print(f"\n‚ùå ERRO ao tentar truncar a tabela no Snowflake: {e}")

for ano in anos:
    pasta_ano = BASE_RAW / ano
    
    for cidade in cidades:
        estacao_id = cidade.lower()
        
        arquivos = list(pasta_ano.glob(f"*{cidade}*.CSV"))
        
        if not arquivos:
            print(f"\nüö´ Nenhum arquivo encontrado para {cidade} em {ano}")
            continue
        
        for arq in arquivos:
            # 1. Processamento e Limpeza (Fun√ß√£o existente)
            df_tratado = processar_inmet(arq)
            
            # 2. Ajustes Finais para o Snowflake
            
            # 2a. Adiciona a coluna ESTACAO_ID
            df_tratado['ESTACAO_ID'] = estacao_id
            
            # 2b. Renomeia colunas para bater com o DDL final
            # Colunas no DDL: TEMP_AR, UMIDADE, PRESSAO, VENTO_VEL, RADIACAO, PRECIPITACAO
            mapa_cols_snowflake = {
                'pressao': 'PRESSAO',
                'radiacao': 'RADIACAO',
                'vento_vel': 'VENTO_VEL',
                'precipitacao': 'PRECIPITACAO',
                'temp_ar': 'TEMP_AR',
                'umidade': 'UMIDADE',
                'hora_num': 'HORA_NUM',
                'mes': 'MES',
                'hora': 'HORA'
            }

            df_final = df_tratado.reset_index().rename(columns=mapa_cols_snowflake)
        
            if 'index' in df_final.columns:
                df_final = df_final.drop(columns=['index'])

            df_final.rename(columns={'datetime': 'DATETIME'}, inplace=True)
            
            # Reorganiza as colunas na ordem do DDL do Snowflake
            colunas_ddl = [
                'DATETIME', 'ESTACAO_ID', 'TEMP_AR', 'UMIDADE', 'PRESSAO', 
                'VENTO_VEL', 'RADIACAO', 'PRECIPITACAO', 'HORA_NUM', 'MES', 'HORA'
            ]
            
            # Filtra colunas que realmente existem no DataFrame (ex: 'RADIACAO' pode ter sido removida)
            colunas_existentes = [c for c in colunas_ddl if c in df_final.columns]
            df_final = df_final[colunas_existentes]


            # 3. Salva CSV Localmente 
            nome_saida = f"{estacao_id}_{ano}_tratado.csv"
            caminho_saida = BASE_PROC / nome_saida
            df_tratado.to_csv(caminho_saida)
            print(f"   üíæ Salvo em: {caminho_saida}")
            
            # 4. Carga para o Snowflake
            carregar_para_snowflake(df_final, SNOWFLAKE_TABLE)


‚ö†Ô∏è Tabela DADOS_INMET_HORARIO truncada com sucesso no Snowflake.

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2020_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2020_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2021_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2021_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2022_A_31-12-2022.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2022_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2022_A_31-12-2022.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2022_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2023_A_31-12-2023.CSV
   ‚ö† Removendo colunas 100% NaN: ['radiacao']
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2023_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2023_A_31-12-2023.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2023_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2024_A_31-12-2024.CSV
   ‚ö† Removendo colunas 100% NaN: ['radiacao']
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2024_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2024_A_31-12-2024.CSV
   ‚ö† Removendo colunas 100% NaN: ['precipitacao']
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2024_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).
