In [1]:
import json
import os
from pathlib import Path
from collections import Counter
import plotly.express as px
import pandas as pd


INPUT_DIR = Path('data/json/simplified')

In [2]:

contador = Counter()

for nome_arquivo in os.listdir(INPUT_DIR):
    if nome_arquivo.endswith(".json"):
        with open(os.path.join(INPUT_DIR, nome_arquivo), "r", encoding="utf-8") as f:
            dados = json.load(f)
            contador.update(dados["labels"])

print(f"Total de labels distintos: {len(contador)}\n")

for label, freq in contador.most_common(10):
    print(f"{label} {freq}")


# remove labels com <= 2 ocorrências
contador_filtrado = {k: v for k, v in contador.items() if v > 2}

print("\n", "=="*10, f"\nLabels restantes: {len(contador_filtrado)}")


fig = px.bar(
    x=list(contador_filtrado.keys()),
    y=list(contador_filtrado.values()),
    title="Ocorrencia dos labels (>2 ocorrências)"
)
fig.update_layout(
    xaxis_tickangle=45,
    xaxis={'categoryorder': 'total descending', 'showticklabels': False},
    height=600,
    bargap=0.1
)
fig.show()

Total de labels distintos: 146

julgamento pilotagem 617
aplicacao dos comandos 332
planejamento voo 328
supervisao gerencial 284
processo decisorio 245
atitude 237
manutencao aeronave 232
pouca experiencia piloto 190
percepcao 150
atencao 107

Labels restantes: 55


In [3]:
contador_filtrado

{'esquecimento piloto': 51,
 'julgamento pilotagem': 617,
 'planejamento voo': 328,
 'processos organizacionais': 67,
 'supervisao gerencial': 284,
 'outro falta aderencia normas regulamentos estabelecidos pela autoridade': 10,
 'aviacao civil brasileira': 10,
 'aplicacao dos comandos': 332,
 'atitude': 237,
 'percepcao': 150,
 'manutencao aeronave': 232,
 'alcool': 3,
 'aplicacao comandos': 88,
 'indisciplina voo': 89,
 'pouca experiencia piloto': 190,
 'processo decisorio': 245,
 'coordenacao cabine': 65,
 'memoria': 53,
 'indeterminado': 36,
 'atencao': 107,
 'aplicacao dos comandos voo': 3,
 'instrucao': 76,
 'infraestrutura aeroportuaria': 79,
 'presenca fauna nao ave': 8,
 'motivacao': 10,
 'relacoes interpessoais': 6,
 'cultura organizacional': 28,
 'sistemas apoio': 45,
 'planejamento gerencial': 39,
 'condicoes fisicas trabalho': 5,
 'caracteristicas tarefa': 6,
 'cultura grupo trabalho': 24,
 'estado emocional': 14,
 'capacitacao treinamento': 37,
 'sistema apoio': 13,
 'julg

In [4]:
df = pd.read_csv("../dados/json/_relatorio_processamento_v2.csv")

df

Unnamed: 0,arquivo,json_salvo,historico_chars,analise_chars,fatos_chars,fatores_count
0,PT-EAE_13_04_2016-ACID.pdf,PT-EAE_13_04_2016-ACID,1437,0,2641,0
1,PR-KKR_19_06_2017-IG.pdf,PR-KKR_19_06_2017-IG,2179,0,2405,0
2,PR-TOS_13_12_2019_AC..pdf,PR-TOS_13_12_2019_AC.,399,4219,802,3
3,PT-NQS_25_10_2016_-_AC.pdf,PT-NQS_25_10_2016_-_AC,4549,0,2406,0
4,pp_giv_01_12_2016.pdf,pp_giv_01_12_2016,404,3341,780,6
...,...,...,...,...,...,...
1562,pp_gbc_23_04_13.pdf,pp_gbc_23_04_13,402,647,875,0
1563,PU-LRR_14_05_2023_PUB..pdf,PU-LRR_14_05_2023_PUB.,339,5726,606,4
1564,SUMA_IG-018CENIPA2015_PT-OPO.pdf,SUMA_IG-018CENIPA2015_PT-OPO,598,1401,748,1
1565,PT-KDU_09_07_2019-AC..pdf,PT-KDU_09_07_2019-AC.,472,3136,589,1
