# Pacote

In [1]:
import pandas as pd
import chardet
import glob
from unidecode import unidecode
import os
import re
pd.set_option('display.max_columns', None)

# Funções

In [2]:
def process_file(file_path):
    """
    Carrega e transforma dados meteorológicos de um arquivo CSV em uma estrutura de DataFrame requerida.
    
    O arquivo CSV é processado para incluir informações da estação e converter coordenadas e altitude para float.

    Parâmetros:
        file_path (str): Caminho completo para o arquivo CSV a ser processado.
    
    Retorna:
        DataFrame: Um DataFrame do pandas com os dados da estação meteorológica processados.
    """
    
    # Carregar os dados pulando as primeiras 8 linhas que contêm informações da estação
    df = pd.read_csv(file_path, delimiter=';', encoding='ISO-8859-1', skiprows=8)
    
    # Carregar as informações da estação
    station_info_df = pd.read_csv(file_path, delimiter=';', encoding='ISO-8859-1', nrows=8, header=None)
    station_info_df.columns = ['Variable', 'Value']
    station_info_dict = station_info_df.set_index('Variable')['Value'].to_dict()

     # Converter latitude, longitude e altitude para float, substituindo vírgula por ponto
    for key in ['LATITUDE:', 'LONGITUDE:', 'ALTITUDE:']:
        if key in station_info_dict and isinstance(station_info_dict[key], str):
            try:
                # Tentativa de converter o valor para float após substituir vírgula por ponto
                station_info_dict[key] = float(station_info_dict[key].replace(',', '.'))
            except ValueError:
                # Tratar o erro de conversão, por exemplo, definindo o valor como None ou um valor padrão
                station_info_dict[key] = None  # ou algum valor padrão, se apropriado

    # Adicionar informações da estação como novas colunas ao DataFrame
    for variable, value in station_info_dict.items():
        # Removendo os dois pontos do final do nome da variável, se houver
        df[variable.rstrip(':')] = value
    
    return df

def detect_encoding(file_pattern_or_path, num_bytes=10000):
    """
    Detecta a codificação do arquivo ou arquivos fornecidos.
    
    Parâmetros:
        file_pattern_or_path (str): Caminho ou padrão do arquivo para detecção.
        num_bytes (int, opcional): Número de bytes para ler para a detecção. Padrão é 10000.
    
    Retorna:
        dict: Dicionário com caminho do arquivo como chave e codificação detectada como valor.
    """
    
    # Encontrar arquivos que correspondem ao padrão ou caminho fornecido.
    files = glob.glob(file_pattern_or_path)
    encodings = {}

    # Iterar sobre cada arquivo encontrado.
    for file_path in files:
        # Abrir arquivo em modo binário e ler os primeiros 'num_bytes' bytes.
        with open(file_path, 'rb') as f:
            rawdata = f.read(num_bytes)
            # Detectar a codificação do fragmento lido e armazenar no dicionário.
            encodings[file_path] = chardet.detect(rawdata)["encoding"]
    
    return encodings


def padronizar_nome_coluna(coluna):
    """
    Padroniza o nome de uma coluna removendo acentos, transformando em minúsculas e substituindo espaços, hífens, 
    parênteses, pontos, vírgulas, porcentagens e barras por underscores ou removendo-os. Remove underscores duplicados.

    Parâmetros:
    coluna (str): Nome da coluna a ser padronizado.

    Retorna:
    str: Nome da coluna padronizado.
    """
    from unidecode import unidecode

    # Remover acentos do nome da coluna.
    coluna = unidecode(coluna)
    # Transformar todas as letras em minúsculas.
    coluna = coluna.lower()
    # Substituir espaços, hífens, parênteses, pontos, vírgulas, porcentagens, barras e barras invertidas por underscores ou removendo-os.
    coluna = coluna.replace(' ', '_').replace('-', '_').replace('(', '_').replace(')', '_').replace('.', '_').replace(',', '_').replace('%', 'pcnt').replace('/', '').replace('\\', '')
    # Substituir underscores duplicados por um único underscore.
    while '__' in coluna:
        coluna = coluna.replace('__', '_')

    return coluna

def dms_to_decimal(dms):
    """
    Converte coordenadas do formato DMS (graus, minutos, segundos) para graus decimais.
    
    Parâmetros:
        dms (str): Uma string representando as coordenadas em formato DMS.
    
    Retorna:
        float: O valor decimal das coordenadas fornecidas.
    
    Exemplos de formato DMS:
        - "05°56'00.0\"S" -> -5.933333
        - "040°17'51.0\"W" -> -40.297500
    """

    # Encontrar os números (graus, minutos, segundos) e a direção (N/S/E/W)
    numbers = re.findall(r'\d+', dms)
    direction = re.search(r'[NSEW]', dms).group()
    
    # Converter graus, minutos e segundos para float e calcular o valor decimal
    decimal = float(numbers[0]) + float(numbers[1])/60 + float(numbers[2])/3600
    
    # Se a direção for Sul ou Oeste, o valor deve ser negativo
    if direction in ['S', 'W']:
        decimal *= -1
    return decimal

def clean_name_aero(name):
    """
    Limpa e padroniza nomes de aeródromos removendo conteúdos entre parênteses,
    acentos, caracteres especiais e convertendo para maiúsculas.

    Args:
    name (str): Nome do aeródromo a ser limpo.

    Returns:
    Series: Nome do aeródromo limpo e padronizado.
    """

    # Remove o conteúdo dentro de parênteses.
    # Utiliza expressões regulares para identificar texto entre parênteses e substituir por string vazia.
    # A função strip() é usada para remover espaços em branco no início e no fim da string.
    name = pd.Series(name).replace(r'\(.*?\)', '', regex=True).str.strip()

    # Remove acentos e caracteres especiais.
    # Normaliza a string para a forma de decomposição NFKD, que separa letras de acentos.
    # Codifica a string em ASCII, ignorando erros (ignorando caracteres não ASCII).
    # Decodifica a string de volta para UTF-8.
    # Converte a string para letras maiúsculas.
    return name.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8').str.upper()

# Carregando dados

## Meteorologicos

In [11]:
# The base path where the CSV files are located
base_path = 'DADOS_METEROLOGIA/CLIMA_2023/*.CSV'

# Initialize an empty list to collect all dataframes
all_dataframes = []

# Get a list of all CSV file paths
file_paths = glob.glob(base_path)

# Process each file and append the result to the list
for file_path in file_paths:
    df_processed = process_file(file_path)
    all_dataframes.append(df_processed)

In [12]:
# Concatenate all dataframes into one
final_dataframe = pd.concat(all_dataframes, ignore_index=True)

# Renomear colunas do DataFrame
colunas_renomeadas = {
     list(final_dataframe)[0]: 'data',
    list(final_dataframe)[1]: 'hora_utc',
    'REGI?O': 'REGIAO',
    'ESTAC?O': 'ESTACAO',
    'DATA DE FUNDAC?O': 'DATA DE FUNDACAO'
}

final_dataframe.rename(columns=colunas_renomeadas, inplace=True)

In [13]:
# Aplicar a função a cada nome de coluna
final_dataframe.columns = [padronizar_nome_coluna(col) for col in final_dataframe.columns]

In [6]:
final_dataframe = final_dataframe[['data', 'hora_utc',
 'precipitacao_total_horario_mm_', 'pressao_atmosferica_ao_nivel_da_estacao_horaria_mb_',
 'pressao_atmosferica_max_na_hora_ant_aut_mb_', 'pressao_atmosferica_min_na_hora_ant_aut_mb_',
 'temperatura_do_ar_bulbo_seco_horaria_degc_', 'temperatura_do_ponto_de_orvalho_degc_',
 'temperatura_maxima_na_hora_ant_aut_degc_', 'temperatura_minima_na_hora_ant_aut_degc_',
 'temperatura_orvalho_max_na_hora_ant_aut_degc_', 'temperatura_orvalho_min_na_hora_ant_aut_degc_',
 'umidade_rel_max_na_hora_ant_aut_pcnt_', 'umidade_rel_min_na_hora_ant_aut_pcnt_',
 'umidade_relativa_do_ar_horaria_pcnt_', 'vento_direcao_horaria_gr_deg_gr_',
 'vento_rajada_maxima_ms_', 'vento_velocidade_horaria_ms_','regiao',
 'uf', 'estacao', 'altitude']]

final_dataframe[list(final_dataframe)[1]] = final_dataframe[list(final_dataframe)[1]].str[:2]

In [14]:
final_dataframe[final_dataframe.estacao == 'RECIFE']

Unnamed: 0,data,hora_utc,precipitacao_total_horario_mm_,pressao_atmosferica_ao_nivel_da_estacao_horaria_mb_,pressao_atmosferica_max_na_hora_ant_aut_mb_,pressao_atmosferica_min_na_hora_ant_aut_mb_,radiacao_global_kjm2_,temperatura_do_ar_bulbo_seco_horaria_degc_,temperatura_do_ponto_de_orvalho_degc_,temperatura_maxima_na_hora_ant_aut_degc_,temperatura_minima_na_hora_ant_aut_degc_,temperatura_orvalho_max_na_hora_ant_aut_degc_,temperatura_orvalho_min_na_hora_ant_aut_degc_,umidade_rel_max_na_hora_ant_aut_pcnt_,umidade_rel_min_na_hora_ant_aut_pcnt_,umidade_relativa_do_ar_horaria_pcnt_,vento_direcao_horaria_gr_deg_gr_,vento_rajada_maxima_ms_,vento_velocidade_horaria_ms_,unnamed:_19,regiao,uf,estacao,codigo_wmo_,latitude,longitude,altitude,data_de_fundacao
1664400,2023/01/01,0000 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1664401,2023/01/01,0100 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1664402,2023/01/01,0200 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1664403,2023/01/01,0300 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1664404,2023/01/01,0400 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1673155,2023/12/31,1900 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1673156,2023/12/31,2000 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1673157,2023/12/31,2100 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04
1673158,2023/12/31,2200 UTC,,,,,,,,,,,,,,,,,,,NE,PE,RECIFE,A301,-8.059167,-34.959167,11.3,22/12/04


In [9]:
# Function to remove accents and special characters, and to clean up names
def clean_name(name):
    # Remove content inside parentheses
    name = pd.Series(name).replace(r'\(.*?\)', '', regex=True).str.strip()
    # Remove content after a hyphen
    name = name.replace(r'\-.*', '', regex=True).str.strip()
    # Remove accents and special characters
    return name.str.normalize('NFKD').str.encode('ascii', errors='ignore').str.decode('utf-8')

# Applying the cleaning function to the 'ESTACAO' column
final_dataframe['estacao'] = clean_name(final_dataframe['estacao'])

In [10]:
# Definir o caminho do diretório e do arquivo CSV
diretorio = 'DADOS_METEROLOGIA/DADOS_METEOROLOGICOS_TRATADOS/'
nome_arquivo = 'dados_meteorologicos_2023.parquet'
caminho_completo = os.path.join(diretorio, nome_arquivo)

# Verificar se o diretório existe. Se não, criar o diretório
if not os.path.exists(diretorio):
    os.makedirs(diretorio)

# Lista das colunas que devem ser convertidas para float64
colunas_para_converter = [
 'precipitacao_total_horario_mm_',
 'pressao_atmosferica_ao_nivel_da_estacao_horaria_mb_',
 'pressao_atmosferica_max_na_hora_ant_aut_mb_',
 'pressao_atmosferica_min_na_hora_ant_aut_mb_',
 'temperatura_do_ar_bulbo_seco_horaria_degc_',
 'temperatura_do_ponto_de_orvalho_degc_',
 'temperatura_maxima_na_hora_ant_aut_degc_',
 'temperatura_minima_na_hora_ant_aut_degc_',
 'temperatura_orvalho_max_na_hora_ant_aut_degc_',
 'temperatura_orvalho_min_na_hora_ant_aut_degc_',
 'umidade_rel_max_na_hora_ant_aut_pcnt_',
 'umidade_rel_min_na_hora_ant_aut_pcnt_',
 'umidade_relativa_do_ar_horaria_pcnt_',
 'vento_direcao_horaria_gr_deg_gr_',
 'vento_rajada_maxima_ms_',
 'vento_velocidade_horaria_ms_']

# Converter cada coluna problemática para float64, substituindo vírgulas por pontos
for coluna in colunas_para_converter:
    if coluna in final_dataframe.columns:
        # Verifica se a coluna é do tipo 'object', o que geralmente indica strings em pandas
        if final_dataframe[coluna].dtype == 'object':
            final_dataframe[coluna] = final_dataframe[coluna].str.replace(',', '.')
        
        # Converte a coluna para numérico, tratando erros como 'coerce'
        final_dataframe[coluna] = pd.to_numeric(final_dataframe[coluna], errors='coerce')

In [11]:
final_dataframe[list(final_dataframe)[0]] = final_dataframe[list(final_dataframe)[0]].str.replace('/', '-')

In [16]:
final_dataframe[final_dataframe['estacao']=='BELO HORIZONTE']

Unnamed: 0,data,hora_utc,estacao,uf,regiao,precipitacao_total_horario_mm_,pressao_atmosferica_ao_nivel_da_estacao_horaria_mb_,pressao_atmosferica_max_na_hora_ant_aut_mb_,pressao_atmosferica_min_na_hora_ant_aut_mb_,temperatura_do_ar_bulbo_seco_horaria_degc_,temperatura_do_ponto_de_orvalho_degc_,temperatura_maxima_na_hora_ant_aut_degc_,temperatura_minima_na_hora_ant_aut_degc_,temperatura_orvalho_max_na_hora_ant_aut_degc_,temperatura_orvalho_min_na_hora_ant_aut_degc_,umidade_rel_max_na_hora_ant_aut_pcnt_,umidade_rel_min_na_hora_ant_aut_pcnt_,umidade_relativa_do_ar_horaria_pcnt_,vento_direcao_horaria_gr_deg_gr_,vento_rajada_maxima_ms_,vento_velocidade_horaria_ms_,altitude
64,2023-01-01,00,BELO HORIZONTE,MG,SE,0.3,901.75,901.75,900.85,19.30,16.90,19.75,19.20,16.95,16.35,86.5,81.0,86.5,137.5,7.35,4.70,1026.785
622,2023-01-01,01,BELO HORIZONTE,MG,SE,1.0,902.20,902.20,901.75,19.05,17.15,19.35,18.95,17.20,16.90,89.0,86.5,88.5,143.0,7.25,3.60,1026.785
1180,2023-01-01,02,BELO HORIZONTE,MG,SE,0.1,902.30,902.40,902.15,19.05,17.15,19.15,18.95,17.25,17.05,89.0,88.0,89.0,143.5,5.65,4.35,1026.785
1738,2023-01-01,03,BELO HORIZONTE,MG,SE,0.2,901.95,902.35,901.90,18.85,17.05,19.10,18.85,17.15,16.95,89.5,88.0,89.0,170.5,6.45,3.95,1026.785
2296,2023-01-01,04,BELO HORIZONTE,MG,SE,0.3,900.45,901.95,900.45,18.65,16.75,19.05,18.65,17.10,16.55,89.0,87.0,88.5,53.5,6.10,3.20,1026.785
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4885354,2023-12-31,19,BELO HORIZONTE,MG,SE,0.0,897.70,898.30,897.50,24.55,18.75,27.90,24.45,19.80,18.00,70.0,59.0,70.0,92.5,9.05,3.70,1026.785
4885912,2023-12-31,20,BELO HORIZONTE,MG,SE,0.1,897.45,897.70,897.40,23.00,18.55,24.70,22.95,18.90,18.00,77.0,68.0,76.5,110.0,8.20,4.80,1026.785
4886470,2023-12-31,21,BELO HORIZONTE,MG,SE,3.4,897.95,897.95,897.35,20.90,18.80,23.05,20.90,19.05,18.45,88.0,76.5,88.0,140.5,10.70,5.50,1026.785
4887028,2023-12-31,22,BELO HORIZONTE,MG,SE,10.5,898.30,898.40,897.90,20.30,18.75,20.90,20.15,18.95,18.45,90.5,88.0,90.5,131.5,9.90,4.65,1026.785


In [15]:
final_dataframe = final_dataframe.groupby(['data', 'hora_utc', 'estacao', 'uf', 'regiao']).mean()

final_dataframe.reset_index(inplace=True)

In [17]:
# Tente salvar o DataFrame como um arquivo Parquet novamente
try:
    final_dataframe.to_parquet(caminho_completo)
    print("Arquivo Parquet salvo com sucesso.")
except Exception as e:
    print(f"Erro ao salvar o arquivo Parquet: {e}")

Arquivo Parquet salvo com sucesso.


## Aeroportos

In [18]:
# --- Carregamento dos Dados dos Aeroportos ---
# Definindo o caminho para o arquivo CSV dos glossários de aeródromos.
file_path = "dados_complementares/aerodromos_brasil.csv"

# Detectando a codificação do arquivo de aeródromos para assegurar a leitura correta dos dados.
file_encodings = detect_encoding(file_path)

# Obtendo a codificação detectada para o arquivo específico.
encoding = file_encodings[file_path]

# Lendo o arquivo CSV com a codificação apropriada.
# A codificação detectada é usada para lidar com possíveis caracteres especiais nos dados.
df_aeroportos = pd.read_csv(file_path, sep=';', encoding=encoding, skiprows=1)  # A codificação pode variar (ex: 'iso-8859-1', 'cp1252'), dependendo do arquivo.

df_aeroportos = df_aeroportos[['Código OACI', 'CIAD', 'Nome', 'Município', 'UF', 
                               'Município Servido', 'UF Servido', 'LATGEOPOINT', 'LONGEOPOINT', 
                               'Latitude', 'Longitude', 'Altitude', 'Situação']]

# Converter as colunas Latitude e Longitude para graus decimais
df_aeroportos['LATITUDE_AERO'] = df_aeroportos['Latitude'].apply(dms_to_decimal)
df_aeroportos['LONGITUDE_AERO'] = df_aeroportos['Longitude'].apply(dms_to_decimal)

# Aplicar a função a cada nome de coluna
df_aeroportos.columns = [padronizar_nome_coluna(col) for col in df_aeroportos.columns]

# Applying the cleaning function to the 'municipio' column
df_aeroportos['municipio'] = clean_name_aero(df_aeroportos['municipio'])

# Applying the cleaning function to the 'nome' column
df_aeroportos['nome'] = clean_name_aero(df_aeroportos['nome'])

# Applying the cleaning function to the 'uf' column
df_aeroportos['uf'] = clean_name_aero(df_aeroportos['uf'])

In [19]:
df_aeroportos = df_aeroportos[['codigo_oaci','ciad','nome','municipio','uf','altitude','latgeopoint','longeopoint','latitude_aero','longitude_aero']]

In [20]:
# Definir o caminho do diretório e do arquivo CSV
diretorio = 'dados_tratados'
nome_arquivo = 'dados_aeroportos_tratado.csv'
caminho_completo = os.path.join(diretorio, nome_arquivo)

# Verificar se o diretório existe. Se não, criar o diretório
if not os.path.exists(diretorio):
    os.makedirs(diretorio)

# Salvar o DataFrame no arquivo CSV
df_aeroportos.to_csv(caminho_completo, index=False)

In [22]:
df_aeroportos

Unnamed: 0,codigo_oaci,ciad,nome,municipio,uf,altitude,latgeopoint,longeopoint,latitude_aero,longitude_aero
0,SDZG,CE0008,PEDRO TEIXEIRA CASTELO REGIONAL TAUA,TAUA,CEARA,4440,-5.933333,-40.297500,-5.933333,-40.297500
1,SDIG,SP0038,IBITINGA,IBITINGA,SAO PAULO,5420,-21.747222,-48.855833,-21.747222,-48.855833
2,SBVT,ES0001,EURICO DE AGUIAR SALLES,VITORIA,ESPIRITO SANTO,30,-20.258056,-40.286389,-20.258056,-40.286389
3,SNJK,BA0047,JEQUIE,JEQUIE,BAHIA,1970,-13.877778,-40.071389,-13.877778,-40.071389
4,SSKU,SC0016,LAURO ANTONIO DA COSTA,CURITIBANOS,SANTA CATARINA,9780,-27.287222,-50.603889,-27.287222,-50.603889
...,...,...,...,...,...,...,...,...,...,...
493,SNKF,MG0071,DAS BANDEIRINHAS,CONSELHEIRO LAFAIETE,MINAS GERAIS,10570,-20.738611,-43.797500,-20.738611,-43.797500
494,SSRS,MA0008,BARREIRINHAS,BARREIRINHAS,MARANHAO,120,-2.756667,-42.803333,-2.756667,-42.803333
495,SWWA,GO0012,PORANGATU,PORANGATU,GOIAS,3660,-13.404444,-49.157222,-13.404444,-49.157222
496,SWKT,GO0015,CATALAO,CATALAO,GOIAS,8020,-18.216944,-47.899444,-18.216944,-47.899444
