Importa√ß√µes e configura√ß√£o

In [18]:
import pandas as pd
from pathlib import Path
# NOVAS IMPORTA√á√ïES NECESS√ÅRIAS PARA MINIO/S3
from minio import Minio
from minio.error import S3Error
import io # Para manipular streams de bytes lidos do MinIO

# --- CONFIGURA√á√ÉO DE AMBIENTE E CAMINHOS ---

# Caminho de sa√≠da (continua sendo local)
BASE_PROC = Path("/home/jovyan/data/processed")
BASE_PROC.mkdir(parents=True, exist_ok=True)


# --- CONFIGURA√á√ÉO DO MINIO (Data Lake) ---
# O endpoint 'minio:9000' √© o nome do servi√ßo na rede Docker Compose
MINIO_ENDPOINT = "minio:9000" 
MINIO_ACCESS_KEY = "admin"
MINIO_SECRET_KEY = "admin12345"
RAW_BUCKET = "inmet-raw"
# Prefixo que voc√™ usou no script de upload
RAW_PREFIX = "raw/" 

# Cria o cliente MinIO (executado dentro do cont√™iner Jupyter)
try:
    minio_client = Minio(
        MINIO_ENDPOINT,
        access_key=MINIO_ACCESS_KEY,
        secret_key=MINIO_SECRET_KEY,
        secure=False,
    )
    print("‚úÖ Conex√£o MinIO estabelecida.")
    if not minio_client.bucket_exists(RAW_BUCKET):
        print(f"‚ùå Erro: O bucket '{RAW_BUCKET}' n√£o existe. Verifique o servi√ßo MinIO.")
except Exception as e:
    print(f"‚ùå Erro ao conectar ao MinIO: {e}")

‚úÖ Conex√£o MinIO estabelecida.


Processamento

In [19]:
def processar_inmet(file_content: bytes, file_name: str) -> pd.DataFrame:
    """
    Processa o conte√∫do de um arquivo CSV bruto do INMET, lendo-o de um stream de bytes (MinIO/S3).
    Aplica limpeza de dados, convers√£o de tipos, tratamento de faltantes por interpola√ß√£o.
    """
    print(f"\nüìÑ Lendo arquivo: {file_name}")
    
    # 1) LER CSV DO STREAM DE BYTES
    df = pd.read_csv(
        io.BytesIO(file_content), # <--- MUDAN√áA AQUI: L√™ do stream de bytes
        sep=';',
        skiprows=8,           # pula bloco de metadados
        encoding='latin1',
        low_memory=False
    )
    
    # 2) Renomear colunas de interesse (s√≥ as que existirem)
    mapa_renome = {
        'Data': 'data',
        'Hora UTC': 'hora',
        'TEMPERATURA DO AR - BULBO SECO, HORARIA (¬∞C)': 'temp_ar',
        'UMIDADE RELATIVA DO AR, HORARIA (%)': 'umidade',
        'RADIACAO GLOBAL (Kj/m¬≤)': 'radiacao',
        'RADIACAO GLOBAL (kJ/m¬≤)': 'radiacao',
        'RADIACAO GLOBAL': 'radiacao',
        'PRECIPITA√á√ÉO TOTAL, HOR√ÅRIO (mm)': 'precipitacao',
        'VENTO, VELOCIDADE HORARIA (m/s)': 'vento_vel',
        'VENTO, DIRE√á√ÉO HORARIA (gr) (¬∞ (gr))': 'vento_dir',
        'PRESSAO ATMOSFERICA AO NIVEL DA ESTACAO, HORARIA (mB)': 'pressao'
    }
    df = df.rename(columns={orig: novo for orig, novo in mapa_renome.items() if orig in df.columns})

    # 3) Garante que data e hora existem
    if 'data' not in df.columns or 'hora' not in df.columns:
        raise ValueError("Colunas 'Data' e/ou 'Hora UTC' n√£o foram encontradas ap√≥s o rename.")

    # 4) Padronizar 'data' e 'hora' como string
    df['data'] = df['data'].astype(str).str.strip()
    df['hora'] = df['hora'].astype(str).str.strip()

    # 5) Remover ' UTC' da hora, se existir
    df['hora'] = df['hora'].str.replace(' UTC', '', regex=False)

    # 6) Se hora estiver como 0, 300, 1200 etc, padronizar para HH:MM
    mascara_numerica = df['hora'].str.fullmatch(r'\d{1,4}')
    df.loc[mascara_numerica, 'hora'] = (
        df.loc[mascara_numerica, 'hora']
          .str.zfill(4)
          .str[:2] + ':' + df.loc[mascara_numerica, 'hora'].str.zfill(4).str[2:]
    )

    # 7) Criar coluna datetime (deixa o pandas inferir formato)
    df['datetime'] = pd.to_datetime(
        df['data'] + ' ' + df['hora'],
        errors='coerce'
    )

    # Remover linhas onde datetime n√£o p√¥de ser montado
    df = df.dropna(subset=['datetime'])
    df = df.set_index('datetime')

    # 8) Selecionar colunas de interesse (as que existirem)
    colunas_desejadas = ['hora', 'temp_ar', 'umidade', 'radiacao',
                         'vento_vel', 'precipitacao', 'pressao']
    colunas_presentes = [c for c in colunas_desejadas if c in df.columns]
    df = df[colunas_presentes]

    # 9) Converter vari√°veis num√©ricas para float
    variaveis_numericas = [c for c in colunas_presentes if c != 'hora']

    for col in variaveis_numericas:
        df[col] = df[col].astype(str).str.replace(',', '.', regex=False).str.strip()
        df[col] = pd.to_numeric(df[col], errors='coerce')

    # 10) Remover colunas que est√£o 100% NaN 
    colunas_todas_nan = [c for c in variaveis_numericas if df[c].isna().sum() == len(df)]
    if colunas_todas_nan:
        print("   ‚ö† Removendo colunas 100% NaN:", colunas_todas_nan)
        df = df.drop(columns=colunas_todas_nan)
        variaveis_numericas = [c for c in variaveis_numericas if c not in colunas_todas_nan]

    # 11) Interpolar valores faltantes ao longo do tempo
    if variaveis_numericas:
        df[variaveis_numericas] = df[variaveis_numericas].interpolate(
            method='time'
        )

        # Opcional: preencher pontas (in√≠cio/fim) com ffill/bfill
        df[variaveis_numericas] = df[variaveis_numericas].ffill().bfill()

    # 12) Remover apenas linhas em que TODAS as vari√°veis num√©ricas s√£o NaN (caso sobrem)
    if variaveis_numericas:
        mask_all_nan = df[variaveis_numericas].isna().all(axis=1)
        n_all_nan = mask_all_nan.sum()
        if n_all_nan > 0:
            print(f"   ‚ö† Removendo {n_all_nan} linhas 100% NaN nas vari√°veis num√©ricas.")
            df = df[~mask_all_nan]

    # 13) Criar features auxiliares
    df['hora_num'] = df.index.hour
    df['mes'] = df.index.month

    print(f"   ‚úÖ Registros ap√≥s tratamento: {len(df)}")
    return df

Loop para processar Petrolina e Garanhuns (2020 a 2024)

In [20]:
# Defini√ß√£o dos anos e cidades para itera√ß√£o
anos = ['2020', '2021', '2022', '2023', '2024']
cidades = ['PETROLINA', 'GARANHUNS']
print(f"Anos a processar: {anos}")
print(f"Cidades a processar: {cidades}")

for ano in anos:
    for cidade in cidades:
        estacao_id = cidade.lower()
        
        # 1. Lista Objetos no MinIO
        # Busca por prefixo: raw/<ano>/
        search_prefix = f"{RAW_PREFIX}{ano}/"
        
        objetos_minio = minio_client.list_objects(
            RAW_BUCKET, 
            prefix=search_prefix, 
            recursive=True
        )

        # Filtra os objetos que cont√™m o nome da cidade e terminam com .CSV
        arquivos_encontrados = [obj for obj in objetos_minio 
                                if cidade.upper() in obj.object_name.upper() and obj.object_name.endswith(".CSV")]

        if not arquivos_encontrados:
            print(f"\nüö´ Nenhum arquivo encontrado para {cidade} em {ano} no MinIO com prefixo {search_prefix}")
            continue

        for obj in arquivos_encontrados:
            response = None 
            try:
                # 2. Baixa o conte√∫do do arquivo do MinIO (como bytes)
                print(f"\nüì• Baixando {obj.object_name}...")
                response = minio_client.get_object(RAW_BUCKET, obj.object_name)
                # L√™ o conte√∫do completo do stream
                file_content = response.read()
                
                # Pega apenas o nome do arquivo para usar no print de log
                file_name_short = obj.object_name.split('/')[-1]

                # 3. Processamento e Limpeza (Fun√ß√£o modificada recebe bytes)
                df_tratado = processar_inmet(file_content, file_name_short)
                
                # --- PREPARA√á√ÉO PARA O SNOWFLAKE (Mantida do seu original) ---
                
                # 3a. Adiciona a coluna ESTACAO_ID
                df_tratado['ESTACAO_ID'] = estacao_id
                
                # 3b. Renomeia colunas para bater com o DDL final
                mapa_cols_snowflake = {
                    'pressao': 'PRESSAO',
                    'radiacao': 'RADIACAO',
                    'vento_vel': 'VENTO_VEL',
                    'precipitacao': 'PRECIPITACAO',
                    'temp_ar': 'TEMP_AR',
                    'umidade': 'UMIDADE',
                    'hora_num': 'HORA_NUM',
                    'mes': 'MES',
                    'hora': 'HORA'
                }

                df_final = df_tratado.reset_index().rename(columns=mapa_cols_snowflake)
            
                if 'index' in df_final.columns:
                    df_final = df_final.drop(columns=['index'])

                df_final.rename(columns={'datetime': 'DATETIME'}, inplace=True)
                
                # 3c. Garante a ordem das colunas
                colunas_ddl = [
                    'DATETIME', 'ESTACAO_ID', 'TEMP_AR', 'UMIDADE', 'PRESSAO', 
                    'VENTO_VEL', 'RADIACAO', 'PRECIPITACAO', 'HORA_NUM', 'MES', 'HORA'
                ]
                
                colunas_existentes = [c for c in colunas_ddl if c in df_final.columns]
                df_final = df_final[colunas_existentes]


                # 4. Salva CSV Localmente (como arquivo processado)
                nome_saida = f"{estacao_id}_{ano}_tratado.csv"
                caminho_saida = BASE_PROC / nome_saida
                # Salva o dataframe tratado, usando o √≠ndice datetime
                df_tratado.to_csv(caminho_saida, index=True, index_label='DATETIME') 
                print(f"   üíæ Salvo em: {caminho_saida}")
                
                # 5. Carga para o Snowflake
                # carregar_para_snowflake(df_final, SNOWFLAKE_TABLE)
                print(f"   ‚û°Ô∏è DataFrame pronto para carga no Snowflake (Tabela: {SNOWFLAKE_TABLE}).")


            except S3Error as e:
                print(f"   ‚ùå Erro S3 ao processar {obj.object_name}: {e}")
            except Exception as e:
                print(f"   ‚ùå Erro ao processar {obj.object_name}: {e}")
            finally:
                # √â crucial fechar a conex√£o do stream do MinIO ap√≥s o uso
                if response:
                    response.close()
                    response.release_conn()

Anos a processar: ['2020', '2021', '2022', '2023', '2024']
Cidades a processar: ['PETROLINA', 'GARANHUNS']

üì• Baixando raw/2020/INMET_NE_PE_A307_PETROLINA_01-01-2020_A_31-12-2020.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2020_tratado.csv
   ‚û°Ô∏è DataFrame pronto para carga no Snowflake (Tabela: DADOS_INMET_HORARIO).

üì• Baixando raw/2020/INMET_NE_PE_A322_GARANHUNS_01-01-2020_A_31-12-2020.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2020_tratado.csv
   ‚û°Ô∏è DataFrame pronto para carga no Snowflake (Tabela: DADOS_INMET_HORARIO).

üì• Baixando raw/2021/INMET_NE_PE_A307_PETROLINA_01-01-2021_A_31-12-2021.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratam

Resumo

In [21]:
processed_path = BASE_PROC

arquivos_tratados = list(processed_path.glob("*_tratado.csv"))

print("Foram encontrados", len(arquivos_tratados), "arquivos tratados.\n")

for arquivo in arquivos_tratados:
    df = pd.read_csv(arquivo, index_col=0, parse_dates=True)
    
    print("üìÑ Arquivo:", arquivo.name)
    print("   ‚û§ Linhas:", len(df))
    print("   ‚û§ NaNs por coluna:")
    print(df.isna().sum().to_string())
    print("-" * 60)


Foram encontrados 10 arquivos tratados.

üìÑ Arquivo: petrolina_2020_tratado.csv
   ‚û§ Linhas: 8784
   ‚û§ NaNs por coluna:
hora            0
temp_ar         0
umidade         0
radiacao        0
vento_vel       0
precipitacao    0
pressao         0
hora_num        0
mes             0
ESTACAO_ID      0
------------------------------------------------------------
üìÑ Arquivo: petrolina_2022_tratado.csv
   ‚û§ Linhas: 8760
   ‚û§ NaNs por coluna:
hora            0
temp_ar         0
umidade         0
radiacao        0
vento_vel       0
precipitacao    0
pressao         0
hora_num        0
mes             0
ESTACAO_ID      0
------------------------------------------------------------
üìÑ Arquivo: garanhuns_2024_tratado.csv
   ‚û§ Linhas: 8784
   ‚û§ NaNs por coluna:
hora          0
temp_ar       0
umidade       0
radiacao      0
vento_vel     0
pressao       0
hora_num      0
mes           0
ESTACAO_ID    0
------------------------------------------------------------
üìÑ Arquivo: gar

Nota:

Para lidar com valores clim√°ticos faltantes nos arquivos do INMET, utilizamos a t√©cnica de interpola√ß√£o temporal, que √© um m√©todo recomendado internacionalmente para reconstru√ß√£o de s√©ries meteorol√≥gicas. Em termos simples, a interpola√ß√£o preenche lacunas usando os valores anteriores e posteriores como refer√™ncia. Por exemplo: se √†s 10h a temperatura √© 22¬∞C e √†s 12h √© 24¬∞C, a interpola√ß√£o estima que √†s 11h ela seria aproximadamente 23¬∞C. Isso evita descartar horas inteiras ‚Äî o que reduziria drasticamente a qualidade do conjunto de dados ‚Äî e mant√©m a continuidade natural do clima, que muda de forma gradual ao longo do tempo. Esse procedimento foi aplicado usando df.interpolate(method='time'), que utiliza o √≠ndice de datas do pr√≥prio dataframe para estimar valores de forma coerente com a evolu√ß√£o temporal. O uso de interpola√ß√£o em dados clim√°ticos √© amplamente adotado por institui√ß√µes como o NOAA ‚Äì National Oceanic and Atmospheric Administration, que afirma que a interpola√ß√£o linear √© adequada para preenchimento de falhas curtas em s√©ries meteorol√≥gicas cont√≠nuas (NOAA, Climate Data Interpolation Guidelines, 2018).

CONFIGURA√á√ÉO POSTGRESQL

In [None]:
from sqlalchemy import create_engine
import pandas as pd

# ============================
# CONFIGURA√á√ÉO POSTGRESQL
# ============================
DB_CONFIG = {
    'host': 'postgres',
    'port': 5432,
    'database': 'dados_clima',
    'user': 'inmet_user',
    'password': 'inmet123'
}

# Criar engine do SQLAlchemy
engine = create_engine(
    f"postgresql://{DB_CONFIG['user']}:{DB_CONFIG['password']}@"
    f"{DB_CONFIG['host']}:{DB_CONFIG['port']}/{DB_CONFIG['database']}"
)

print("‚úÖ Configura√ß√£o PostgreSQL definida.")

Configura√ß√µes do Snowflake definidas.


FUN√á√ÉO PARA CARREGAR DADOS NO POSTGRESQL

In [None]:
# ==============================================================================
# FUN√á√ÉO PARA CARREGAR DADOS NO POSTGRESQL
# ==============================================================================

def carregar_para_postgres(df: pd.DataFrame, nome_tabela: str):
    """
    Carrega um DataFrame Pandas para a tabela PostgreSQL especificada.
    """
    print(f"\nüêò Salvando dados na tabela {nome_tabela} do PostgreSQL...")
    
    try:
        # Salvar no PostgreSQL
        df.to_sql(
            name=nome_tabela,
            con=engine,
            if_exists='append',      # 'replace' para substituir, 'append' para adicionar
            index=False,             # salva o √≠ndice datetime
            index_label='datetime'
        )
        
        print(f"   ‚úÖ Carga conclu√≠da! {len(df)} linhas salvas.")
        
    except Exception as e:
        print(f"   ‚ùå ERRO ao carregar: {e}")
        print("   Primeiras linhas do DataFrame com erro:")
        print(df.head())

LOOP PARA PROCESSAR, SALVAR CSV LOCALMENTE E CARREGAR NO POSTGRESQL

In [None]:
# ==============================================================================
# LOOP PARA PROCESSAR, SALVAR CSV LOCALMENTE E CARREGAR NO POSTGRESQL
# ==============================================================================

for ano in anos:
    pasta_ano = BASE_RAW / ano
    
    for cidade in cidades:
        estacao_id = cidade.lower()
        
        arquivos = list(pasta_ano.glob(f"{cidade}.CSV"))
        
        if not arquivos:
            print(f"\nüö´ Nenhum arquivo encontrado para {cidade} em {ano}")
            continue
        
        for arq in arquivos:
            # 1. Processamento e Limpeza
            df_tratado = processar_inmet(arq)
            
            # 2. Ajustes finais
            df_tratado['estacao_id'] = estacao_id
            
            # 3. Resetar o √≠ndice para que datetime vire coluna
            df_final = df_tratado.reset_index()
            
            # 4. Salva CSV Localmente (opcional)
            nome_saida = f"{estacao_id}_{ano}_tratado.csv"
            caminho_saida = BASE_PROC / nome_saida
            df_tratado.to_csv(caminho_saida)
            print(f"   üíæ Salvo em: {caminho_saida}")
            
            # 5. Carga para o PostgreSQL
            carregar_para_postgres(df_final, 'dados_inmet_horario')

print("\nüéâ Processamento completo!")


‚ö†Ô∏è Tabela DADOS_INMET_HORARIO truncada com sucesso no Snowflake.

üì• Baixando raw/2020/INMET_NE_PE_A307_PETROLINA_01-01-2020_A_31-12-2020.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2020_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2020/INMET_NE_PE_A322_GARANHUNS_01-01-2020_A_31-12-2020.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2020_A_31-12-2020.CSV
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2020_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2021/INMET_NE_PE_A307_PETROLINA_01-01-2021_A_31-12-2021.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2021_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2021/INMET_NE_PE_A322_GARANHUNS_01-01-2021_A_31-12-2021.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2021_A_31-12-2021.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2021_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2022/INMET_NE_PE_A307_PETROLINA_01-01-2022_A_31-12-2022.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2022_A_31-12-2022.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2022_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2022/INMET_NE_PE_A322_GARANHUNS_01-01-2022_A_31-12-2022.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2022_A_31-12-2022.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2022_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2023/INMET_NE_PE_A307_PETROLINA_01-01-2023_A_31-12-2023.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2023_A_31-12-2023.CSV
   ‚ö† Removendo colunas 100% NaN: ['radiacao']
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2023_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2023/INMET_NE_PE_A322_GARANHUNS_01-01-2023_A_31-12-2023.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2023_A_31-12-2023.CSV
   ‚úÖ Registros ap√≥s tratamento: 8760
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2023_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8760
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2024/INMET_NE_PE_A307_PETROLINA_01-01-2024_A_31-12-2024.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A307_PETROLINA_01-01-2024_A_31-12-2024.CSV
   ‚ö† Removendo colunas 100% NaN: ['radiacao']
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/petrolina_2024_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).

üì• Baixando raw/2024/INMET_NE_PE_A322_GARANHUNS_01-01-2024_A_31-12-2024.CSV...

üìÑ Lendo arquivo: INMET_NE_PE_A322_GARANHUNS_01-01-2024_A_31-12-2024.CSV
   ‚ö† Removendo colunas 100% NaN: ['precipitacao']
   ‚úÖ Registros ap√≥s tratamento: 8784
   üíæ Salvo em: /home/jovyan/data/processed/garanhuns_2024_tratado.csv

‚ùÑÔ∏è Conectando ao Snowflake para carregar a tabela DADOS_INMET_HORARIO...


  [pandas.api.types.is_datetime64tz_dtype(df[c]) for c in df.columns]


   ‚úÖ Carga conclu√≠da. Linhas carregadas: 8784
   ‚úÖ Arquivos enviados: 1 chunk(s).
