# Tratamento de Dados

In [1]:
# Importar bibliotecas necessárias para análise
import pandas as pd
import os

In [2]:
# Lista de diretório de dados
arquivos = os.listdir()
print(arquivos)

['.git', '.gitattributes', 'aeronave.csv', 'Analise.ipynb', 'ocorrencia.csv', 'ocorrencia_tipo.csv', 'README.md']


In [3]:
# Carregar o conjunto de dado de aeronave
aeronave = pd.read_csv('aeronave.csv',encoding='latin-1', sep=';')

# Exibir resumo do DataFrame de aeronave
print(aeronave.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9926 entries, 0 to 9925
Data columns (total 23 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   codigo_ocorrencia2           9926 non-null   int64  
 1   aeronave_matricula           9926 non-null   object 
 2   aeronave_operador_categoria  9926 non-null   object 
 3   aeronave_tipo_veiculo        9926 non-null   object 
 4   aeronave_fabricante          9925 non-null   object 
 5   aeronave_modelo              9924 non-null   object 
 6   aeronave_tipo_icao           9925 non-null   object 
 7   aeronave_motor_tipo          9813 non-null   object 
 8   aeronave_motor_quantidade    9926 non-null   object 
 9   aeronave_pmd                 9926 non-null   int64  
 10  aeronave_pmd_categoria       9926 non-null   int64  
 11  aeronave_assentos            9472 non-null   float64
 12  aeronave_ano_fabricacao      9623 non-null   float64
 13  aeronave_pais_fabr

In [4]:
# Tratar valores vazios do DataFrame
aeronave = aeronave.fillna('Não Informado')

# Retirar colunas desnecessárias para a análise 
aeronave = aeronave.drop(columns=['aeronave_matricula',
                                  'aeronave_pmd', 
                                  'aeronave_pmd_categoria',
                                  'aeronave_registro_categoria',
                                  'aeronave_pais_registro'], axis=1)

# Renomear coluna
aeronave = aeronave.rename(columns={'codigo_ocorrencia2': 'codigo_ocorrencia'})

# Exportar DataFrame de aeronave Tratado
aeronave.to_csv('aeronave_ETL.csv', index=False)


In [5]:
# Carregar o conjunto de dado de ocorrencia
ocorrencia = pd.read_csv('ocorrencia.csv',encoding='latin-1', sep=';')

# Exibir resumo do DataFrame de ocorrencia
print(ocorrencia.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 9821 entries, 0 to 9820
Data columns (total 22 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   codigo_ocorrencia               9821 non-null   int64 
 1   codigo_ocorrencia1              9821 non-null   int64 
 2   codigo_ocorrencia2              9821 non-null   int64 
 3   codigo_ocorrencia3              9821 non-null   int64 
 4   codigo_ocorrencia4              9821 non-null   int64 
 5   ocorrencia_classificacao        9821 non-null   object
 6   ocorrencia_latitude             7240 non-null   object
 7   ocorrencia_longitude            7240 non-null   object
 8   ocorrencia_cidade               9821 non-null   object
 9   ocorrencia_uf                   9821 non-null   object
 10  ocorrencia_pais                 9821 non-null   object
 11  ocorrencia_aerodromo            9821 non-null   object
 12  ocorrencia_dia                  9821 non-null   

In [6]:
# Tratar valores vazios do DataFrame
ocorrencia = ocorrencia.fillna(0)

# Retirar colunas desnecessárias para a análise
ocorrencia = ocorrencia.drop(columns=['codigo_ocorrencia1',	'codigo_ocorrencia2',	'codigo_ocorrencia3',	'codigo_ocorrencia4', 'ocorrencia_pais', 'ocorrencia_latitude', 'ocorrencia_longitude', 'ocorrencia_aerodromo',	'investigacao_aeronave_liberada',	'investigacao_status',	'divulgacao_relatorio_numero',	'divulgacao_relatorio_publicado','divulgacao_dia_publicacao',	'total_recomendacoes'], axis=1)

In [7]:
# Carregar o conjunto de dado de ocorrencia_tipo
ocorrencia_tipo = pd.read_csv('ocorrencia_tipo.csv',encoding='latin-1', sep=';')

# Exibir resumo do DataFrame de ocorrencia_tipo
print(ocorrencia_tipo.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10284 entries, 0 to 10283
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   codigo_ocorrencia1         10284 non-null  int64 
 1   ocorrencia_tipo            10284 non-null  object
 2   ocorrencia_tipo_categoria  10284 non-null  object
 3   taxonomia_tipo_icao        10284 non-null  object
dtypes: int64(1), object(3)
memory usage: 321.5+ KB
None


In [8]:
# Renomear coluna
ocorrencia_tipo = ocorrencia_tipo.rename(columns={'codigo_ocorrencia1': 'codigo_ocorrencia'})

# Selecionar apenas colunas necessárias
ocorrencia_tipo = ocorrencia_tipo[['codigo_ocorrencia', 'ocorrencia_tipo']]

# Agrupando tabelas
ocorrencia = ocorrencia.merge(ocorrencia_tipo)

# Exibir resumo do novo DataFrame de ocorrencia
print(ocorrencia.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10284 entries, 0 to 10283
Data columns (total 9 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   codigo_ocorrencia           10284 non-null  int64 
 1   ocorrencia_classificacao    10284 non-null  object
 2   ocorrencia_cidade           10284 non-null  object
 3   ocorrencia_uf               10284 non-null  object
 4   ocorrencia_dia              10284 non-null  object
 5   ocorrencia_hora             10284 non-null  object
 6   total_aeronaves_envolvidas  10284 non-null  int64 
 7   ocorrencia_saida_pista      10284 non-null  object
 8   ocorrencia_tipo             10284 non-null  object
dtypes: int64(2), object(7)
memory usage: 723.2+ KB
None


In [9]:
# Retirar valores duplicados no DataFrame
ocorrencia = ocorrencia.drop_duplicates(['codigo_ocorrencia'])

# Adicionar coluna para localização no DataFrame
ocorrencia['localizacao'] = ocorrencia['ocorrencia_cidade'] + ' - ' + ocorrencia['ocorrencia_uf'] 

# Exportar DataFrame de ocorrencia Tratado
ocorrencia.to_csv('ocorrencia_ETL.csv', index=False)

# Respostas

In [12]:
# Carregar o conjunto de dado de ocorrencia
ocorrencia = pd.read_csv('ocorrencia_ETL.csv', sep =',')

# Carregar o conjunto de dado de aeronave
aeronave = pd.read_csv('aeronave_ETL.csv', sep =',')

# Retirar colunas desnecessárias para a análise
aeronave = aeronave.drop(columns=['aeronave_operador_categoria','aeronave_assentos'	,'aeronave_voo_origem',	'aeronave_voo_destino',	'aeronave_nivel_dano'])

In [13]:
# Agrupando tabelas
tabela = aeronave.merge(ocorrencia)

# Criando dicionário para anos
anos = []
for ano in tabela['ocorrencia_dia']:
# Adicionando o valor ao dicionário
    anos.append(ano[-4:])
# Criando coluna de ano no Dataframe 
tabela['ano'] = anos

# Criando dicionário para horas
horas = []
for hora in tabela['ocorrencia_hora']:
# Adicionando o valor ao dicionário
    hora = hora[:3] + '00'
    horas.append(hora)
# Criando coluna de hora no Dataframe 
tabela['hora'] = horas

# Criando dicionário para mês
mes = []
for meses in tabela['ocorrencia_dia']:
# Adicionando o valor ao dicionário
    mes.append(meses[3:5])
# Criando coluna de mes no Dataframe 
tabela['mes'] = mes

# Criando dicionário para renomear valores da coluna de mês
meses_extenso = {'01': 'Janeiro', '02': 'Fevereiro', '03': 'Março', '04': 'Abril', '05': 'Maio', '06': 'Junho', '07': 'Julho', '08': 'Agosto', '09': 'Setembro', '10': 'Outubro', '11': 'Novembro', '12': 'Dezembro'}

# Alterando os valores da coluna mes
tabela['mes'] = tabela['mes'].replace(meses_extenso)


In [14]:
# Definindo Função para os extremos de ocorrência e fatalidade

def analise_extremos(tabela, coluna, metrica):
    contagem = coluna.value_counts()
    total_contagem = contagem.sum()
    id_maior = contagem.idxmax()
    maior_ocorrencia = contagem.max()
    print(f'{metrica} com maior ocorrencia foi: {id_maior} - {maior_ocorrencia} ({maior_ocorrencia/total_contagem:.2%})')

    if contagem.idxmin() != '***' and contagem.idxmin() != '000':
        id_menor = contagem.idxmin()
        menor_ocorrencia = contagem.min()
        print(f'{metrica} com menor ocorrencia foi: {id_menor} - {menor_ocorrencia} ({menor_ocorrencia/total_contagem:.2%})')
    else:
        menor_ocorrencia = contagem.nsmallest(2).iloc[-1]
        id_menor = contagem[contagem == menor_ocorrencia].index[0]
        print(f'{metrica} com menor ocorrencia foi: {id_menor} - {menor_ocorrencia}({menor_ocorrencia/total_contagem:.2%})')

    print('')

    agrupamento = tabela.groupby(coluna)['aeronave_fatalidades_total'].sum()
    total_agrupamento = agrupamento.sum()
    agrupamento = agrupamento.sort_values(ascending=False)
    maior_fatalidade = agrupamento.max()
    id_maior_fatalidade = agrupamento.idxmax()
    print(f'{metrica} com maior fatalidade foi: {id_maior_fatalidade} - {maior_fatalidade} ({maior_fatalidade/total_agrupamento:.2%})')

    if agrupamento.idxmin() != '***' and agrupamento.idxmin() != '000':
        id_menor_fatalidade = agrupamento.idxmin()
        menor_fatalidade = agrupamento.min()
        print(f'{metrica} com menor fatalidade foi: {id_menor_fatalidade} - {menor_fatalidade} ({menor_fatalidade/total_agrupamento:.2%})')
    else:
        menor_fatalidade = agrupamento.nsmallest(2).iloc[-1]
        id_menor_fatalidade = agrupamento[agrupamento == menor_fatalidade].index[0]
        print(f'{metrica} com menor fatalidade foi: {id_menor_fatalidade} - {menor_fatalidade} ({menor_fatalidade/total_agrupamento:.2%})')
    
    print(50*'-')


In [15]:
# Retirar valores duplicados para a análise
tabela = tabela.drop_duplicates(['codigo_ocorrencia'])
tabela = tabela.drop_duplicates()

In [16]:
# Aplicando valores na função
analise_extremos(tabela, tabela['ocorrencia_uf'], 'Estado')
analise_extremos(tabela, tabela['ocorrencia_cidade'], 'Cidade')
analise_extremos(tabela, tabela['aeronave_tipo_veiculo'], 'Aeronave')
analise_extremos(tabela, tabela['aeronave_motor_quantidade'], 'Motor')

Estado com maior ocorrencia foi: SP - 2386 (24.29%)
Estado com menor ocorrencia foi: AP - 25(0.25%)

Estado com maior fatalidade foi: SP - 423 (29.07%)
Estado com menor fatalidade foi: PB - 0 (0.00%)
--------------------------------------------------
Cidade com maior ocorrencia foi: RIO DE JANEIRO - 599 (6.10%)
Cidade com menor ocorrencia foi: COTRIGUAÇU - 1 (0.01%)

Cidade com maior fatalidade foi: SÃO PAULO - 231 (15.88%)
Cidade com menor fatalidade foi: RESTINGA SECA - 0 (0.00%)
--------------------------------------------------
Aeronave com maior ocorrencia foi: AVIÃO - 8253 (84.03%)
Aeronave com menor ocorrencia foi: GIROCÓPTERO - 1 (0.01%)

Aeronave com maior fatalidade foi: AVIÃO - 1062 (72.99%)
Aeronave com menor fatalidade foi: BALÃO - 0 (0.00%)
--------------------------------------------------
Motor com maior ocorrencia foi: BIMOTOR - 4852 (49.40%)
Motor com menor ocorrencia foi: QUADRIMOTOR - 17 (0.17%)

Motor com maior fatalidade foi: MONOMOTOR - 814 (55.95%)
Motor com men

In [17]:
analise_extremos(tabela, tabela['aeronave_motor_tipo'], 'Tipo de Motor')
analise_extremos(tabela, tabela['aeronave_modelo'], 'Modelo de Avião')
analise_extremos(tabela, tabela['ocorrencia_tipo'], 'Tipo de Ocorrencia')

Tipo de Motor com maior ocorrencia foi: PISTÃO - 4736 (48.22%)
Tipo de Motor com menor ocorrencia foi: SEM TRAÇÃO - 25 (0.25%)

Tipo de Motor com maior fatalidade foi: PISTÃO - 842 (57.87%)
Tipo de Motor com menor fatalidade foi: Não Informado - 0 (0.00%)
--------------------------------------------------
Modelo de Avião com maior ocorrencia foi: ATR-72-212A - 314 (3.20%)
Modelo de Avião com menor ocorrencia foi: B777 - 1 (0.01%)

Modelo de Avião com maior fatalidade foi: A320-233 - 199 (13.68%)
Modelo de Avião com menor fatalidade foi: FALCON 7X - 0 (0.00%)
--------------------------------------------------
Tipo de Ocorrencia com maior ocorrencia foi: FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPONENTE - 1187 (12.09%)
Tipo de Ocorrencia com menor ocorrencia foi: EXPLOSÃO - 1 (0.01%)

Tipo de Ocorrencia com maior fatalidade foi: PERDA DE CONTROLE EM VOO - 385 (26.46%)
Tipo de Ocorrencia com menor fatalidade foi: COLISÃO DE VEÍCULO COM AERONAVE - 0 (0.00%)
-------------------------------

In [18]:
analise_extremos(tabela, tabela['aeronave_fabricante'], 'Fabricante')
analise_extremos(tabela, tabela['hora'], 'Hora')
analise_extremos(tabela, tabela['ano'], 'Ano')
analise_extremos(tabela, tabela['mes'], 'Mês')

Fabricante com maior ocorrencia foi: CESSNA AIRCRAFT - 1343 (13.67%)
Fabricante com menor ocorrencia foi: CARLOS GILBERTO FRAGA MARQUES - 1 (0.01%)

Fabricante com maior fatalidade foi: AIRBUS INDUSTRIE - 199 (13.68%)
Fabricante com menor fatalidade foi: NILSON ROBERTO YAMAÃAKE - 0 (0.00%)
--------------------------------------------------
Hora com maior ocorrencia foi: 20:00 - 803 (8.18%)
Hora com menor ocorrencia foi: 05:00 - 38(0.39%)

Hora com maior fatalidade foi: 21:00 - 316 (21.72%)
Hora com menor fatalidade foi: 05:00 - 0 (0.00%)
--------------------------------------------------
Ano com maior ocorrencia foi: 2023 - 1386 (14.11%)
Ano com menor ocorrencia foi: 2016 - 403 (4.10%)

Ano com maior fatalidade foi: 2007 - 270 (18.56%)
Ano com menor fatalidade foi: 2022 - 49 (3.37%)
--------------------------------------------------
Mês com maior ocorrencia foi: Novembro - 893 (9.09%)
Mês com menor ocorrencia foi: Junho - 712 (7.25%)

Mês com maior fatalidade foi: Julho - 326 (22.41%)

In [19]:
analise_extremos(tabela, tabela['aeronave_pais_fabricante'], 'País do Fabricante')
analise_extremos(tabela, tabela['aeronave_fase_operacao'], 'Tipo de Operação')
analise_extremos(tabela, tabela['aeronave_ano_fabricacao'], 'Fabricação da Aeronave')
analise_extremos(tabela, tabela['aeronave_tipo_operacao'], 'Regulamentação da Aeronave')

País do Fabricante com maior ocorrencia foi: BRASIL - 9625 (98.00%)
País do Fabricante com menor ocorrencia foi: IRLANDA - 1 (0.01%)

País do Fabricante com maior fatalidade foi: BRASIL - 1448 (99.52%)
País do Fabricante com menor fatalidade foi: ALEMANHA - 0 (0.00%)
--------------------------------------------------
Tipo de Operação com maior ocorrencia foi: POUSO - 1802 (18.35%)
Tipo de Operação com menor ocorrencia foi: EMPREGO MILITAR - 1 (0.01%)

Tipo de Operação com maior fatalidade foi: CRUZEIRO - 309 (21.24%)
Tipo de Operação com menor fatalidade foi: PUSHBACK - 0 (0.00%)
--------------------------------------------------
Fabricação da Aeronave com maior ocorrencia foi: 0.0 - 665 (6.77%)
Fabricação da Aeronave com menor ocorrencia foi: 9999.0 - 1 (0.01%)

Fabricação da Aeronave com maior fatalidade foi: 1998.0 - 231 (15.88%)
Fabricação da Aeronave com menor fatalidade foi: 2022.0 - 0 (0.00%)
--------------------------------------------------
Regulamentação da Aeronave com maior

In [20]:
# Retirar valores duplicados e vazios para a análise
tabela = tabela.drop_duplicates()
tabela = tabela.dropna()
display(tabela)

Unnamed: 0,codigo_ocorrencia,aeronave_tipo_veiculo,aeronave_fabricante,aeronave_modelo,aeronave_tipo_icao,aeronave_motor_tipo,aeronave_motor_quantidade,aeronave_ano_fabricacao,aeronave_pais_fabricante,aeronave_registro_segmento,...,ocorrencia_uf,ocorrencia_dia,ocorrencia_hora,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_tipo,localizacao,ano,hora,mes
0,83097,HELICÓPTERO,ROBINSON HELICOPTER,R44,R44,PISTÃO,MONOMOTOR,2001.0,BRASIL,PARTICULAR,...,SP,31/12/2023,18:00:00,1,NÃO,INDETERMINADO,PARAIBUNA - SP,2023,18:00,Dezembro
1,83085,AVIÃO,EMBRAER,EMB-810C,PA34,PISTÃO,BIMOTOR,1976.0,BRASIL,TÁXI AÉREO,...,AC,13/12/2023,11:33:00,1,NÃO,FALHA OU MAU FUNCIONAMENTO DE SISTEMA / COMPON...,RIO BRANCO - AC,2023,11:00,Dezembro
2,83074,AVIÃO,EMBRAER,ERJ 190-400,E295,JATO,BIMOTOR,2022.0,BRASIL,REGULAR,...,MG,20/12/2023,20:00:00,1,NÃO,COLISÃO COM AVE,BELO HORIZONTE - MG,2023,20:00,Dezembro
3,83063,AVIÃO,BOEING COMPANY,737-86N,B738,Não Informado,BIMOTOR,2006.0,BRASIL,REGULAR,...,DF,29/12/2023,21:20:00,1,NÃO,COLISÃO COM AVE,BRASÍLIA - DF,2023,21:00,Dezembro
4,83051,***,ATR - GIE AVIONS DE TRANSPORT RÉGIONAL,ATR-42-500,AT45,TURBOÉLICE,BIMOTOR,1999.0,BRASIL,REGULAR,...,AM,09/12/2023,18:30:00,1,NÃO,COLISÃO COM AVE,CARAUARI - AM,2023,18:00,Dezembro
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9921,28377,AVIÃO,CESSNA AIRCRAFT,182N,C182,PISTÃO,MONOMOTOR,1970.0,BRASIL,PARTICULAR,...,MA,27/01/2007,11:18:00,1,NÃO,FALHA DO MOTOR EM VOO,IMPERATRIZ - MA,2007,11:00,Janeiro
9922,28375,AVIÃO,RAYTHEON AIRCRAFT,400A,BE40,JATO,BIMOTOR,2006.0,BRASIL,TÁXI AÉREO,...,PR,26/01/2007,18:15:00,1,NÃO,COLISÃO COM OBSTÁCULO DURANTE A DECOLAGEM E POUSO,APUCARANA - PR,2007,18:00,Janeiro
9923,28355,AVIÃO,BEECH AIRCRAFT,95-C55,BE55,PISTÃO,BIMOTOR,1966.0,BRASIL,TÁXI AÉREO,...,MG,18/01/2007,09:10:00,1,NÃO,FALHA ESTRUTURAL,BOCAIÚVA - MG,2007,09:00,Janeiro
9924,28335,AVIÃO,BEECH AIRCRAFT,A36,BE36,PISTÃO,MONOMOTOR,1986.0,BRASIL,PARTICULAR,...,PR,19/01/2007,12:30:00,1,NÃO,VOO CONTROLADO CONTRA O TERRENO,LONDRINA - PR,2007,12:00,Janeiro


In [25]:
anos = []
for ano in ocorrencia['ocorrencia_dia']:
    anos.append(ano[-4:])
ocorrencia['ano'] = anos

horas = []
for hora in ocorrencia['ocorrencia_hora']:
    hora = hora[:3] + '00'
    horas.append(hora)
ocorrencia['hora'] = horas

mes = []
for meses in ocorrencia['ocorrencia_dia']:
    mes.append(meses[3:5])
ocorrencia['mes'] = mes

meses_extenso = {'01': 'Janeiro', '02': 'Fevereiro', '03': 'Março', '04': 'Abril', '05': 'Maio', '06': 'Junho', '07': 'Julho', '08': 'Agosto', '09': 'Setembro', '10': 'Outubro', '11': 'Novembro', '12': 'Dezembro'}
ocorrencia['mes'] = ocorrencia['mes'].replace(meses_extenso)

tabela_classificacao = ocorrencia[['ano', 'ocorrencia_tipo']]
classificacao = tabela_classificacao.groupby(tabela_classificacao['ano']).count()
primeiro_oc = (classificacao.loc['2007',:]).values
ultimo_oc = (classificacao.loc['2023',:]).values

# Cálculo de porcentagem 
print((ultimo_oc - primeiro_oc)/primeiro_oc*100)

[149.28057554]


In [26]:
aeronave = aeronave.merge(ocorrencia, how='left')
tabela_classificacao_fat = aeronave[['ano', 'aeronave_fatalidades_total']]
classificacao_fat = tabela_classificacao_fat.groupby(tabela_classificacao_fat['ano']).sum()
primeiro = (classificacao_fat.loc['2007',:]).values
ultimo = (classificacao_fat.loc['2023',:]).values

print((ultimo - primeiro)/primeiro*100)

[-73.33333333]
