In [1]:
import json
import unicodedata
import re
import pandas as pd
from sqlalchemy import create_engine, types
import os

In [2]:
path = '../data/VRA/'

In [3]:
engine = create_engine('postgresql://data_engineer_test_user:8WBNsM8B^?eDpN$q@localhost:5432/data_engineer_test')

In [4]:
dtype={
    "icao_empresa_aerea": types.VARCHAR(length=3),
    "numero_voo": types.UnicodeText(),
    "codigo_autorizacao": types.Unicode(),
    "codigo_tipo_linha": types.Unicode(),
    "icao_aerodromo_origem": types.VARCHAR(length=4),
    "icao_aerodromo_destino": types.VARCHAR(length=4),
    "partida_prevista": types.DateTime(),
    "partida_real": types.DateTime(),
    "chegada_prevista": types.DateTime(),
    "chegada_real": types.DateTime(),
    "situacao_voo": types.VARCHAR(length=15),
    "codigo_justificativa": types.UnicodeText()
}

In [5]:
def get_json_files():
    files = os.listdir(path)
    # pega apenas os arquivos json, ignorando os arquivos de outras extensões
    json_files = [file for file in files if file.endswith(".json")]
    return json_files

In [6]:
def read_json_file(filename):
    with open(f"{path}{filename}", 'r', encoding='utf-8-sig') as json_file:
        data_json = json.load(json_file)
    return data_json

In [7]:
def to_snake_case(key):
    # eliminar os caracteres com acento
    key_snake = unicodedata.normalize('NFD', key).encode('ascii', 'ignore').decode("utf-8")
    # verifica se existe letra maiúscula e, se antes e depois dela possui numeros ou caracteres em minúsculo, colocando entre '_'
    key_snake = re.sub('([a-z0-9A-Z])([A-Z])([a-z0-9])', r'\1_\2\3', key_snake).lower()
    return key_snake

In [8]:
def execute(index_file, json_file):
    data_json = read_json_file(json_file)

    # normaliza a chave do json em snake_case, retornado json: chave (caracter original) e value (caracter normalizado: snake_case)
    data_keys_normalized = {key: to_snake_case(key) for (key) in data_json[0].keys()}

    data_json__normalized = []
    # normaliza as chaves do json lido para o snake_case
    for idx, data in enumerate (data_json):
        data_json__normalized.append({data_keys_normalized[key]: value for (key, value) in data.items()})

    # transforma o json para Dataframe, para utilizar a função do pandas para carregar os dados no banco
    df_data = pd.json_normalize(data_json__normalized)

    # caso seja o primeiro arquivo lido, apaga a tabela e cria um nova
    if_exists_type = 'replace' if index_file == 0 else 'append'

    with engine.connect() as conn:
        df_data.to_sql(
            name='vra',
            con=conn,
            schema='data_engineer',
            index=False,
            if_exists=if_exists_type,
            dtype=dtype
        )

In [9]:
json_files = get_json_files()

for idx, json_file in enumerate (json_files):
    execute(idx, json_file)