**Bibliotecas**

**Pandas**

Pandas é uma biblioteca Python de alto nível para análise de dados. A razão de eu chamá-lo de alto nível é porque ele é construído em cima da biblioteca NumPy de nível inferior (escrita em C), que é um grande aumento de desempenho. No ecossistema Python , o pandas é a biblioteca de ciência de dados mais avançada e de crescimento mais rápido. No meu trabalho, tenho que usá-lo quase todos os dias, por isso estou escrevendo esta pequena nota para me referir a ele no futuro, se de repente me esquecer de algo. Espero também que este post ajude os leitores do blog a resolver seus próprios problemas com pandas, e sirva como uma pequena introdução às possibilidades desta biblioteca.

**Matploitlib**

O Python Matplotlib é uma alternativa ao módulo de visualização do programa para cálculos técnicos no MatLab. O Matplotlib possui uma interface orientada a objetos, o que significa que o usuário interage diretamente com cada objeto. Usando o código, você pode definir qualquer elemento do gráfico, incluindo rótulos e marcas nos eixos.

**Collections counter**

Existe uma classe Counter na biblioteca padrão. É ótimo para contar o número de objetos de diferentes tipos . Mas e se houver bilhões de objetos e o contador simplesmente não couber na RAM?

O marcador ajudará - este é um contador que fornece uma interface semelhante, mas dentro dele é construído em estruturas de dados probabilísticas. Devido a isso, leva de 30 a 250 vezes menos memória, mas pode (um pouco) mentir.

**NumPy**
Focada em trabalhar com arrays e matrizes multidimensionais, além de fornecer uma grande coleção de funções com a implementação de diversos algoritmos relacionados ao uso de matrizes. NumPy é uma das bibliotecas mais populares usadas para computação científica. O código do projeto é escrito em Python com otimizações em C e distribuído sob a licença BSD

<h2>Coleta de Dados</h2>

Primeiramente vou começar importando as bibliotecas e os arquivos que serão utilizados!

In [2]:
# Importando as biblotecas

import pandas as pd
import warnings
warnings.filterwarnings("ignore", category=FutureWarning)

In [None]:
# Importando os três arquivos utilizando a função read_csv do tipo (parsing) para conversão dos arquivos em Dataframes

aeronaves = pd.read_csv('./Projeto/Dados_acidentes/aeronave.csv', sep=';', encoding='utf8')

ocorrencias = pd.read_csv('./Projeto/Dados_acidentes/ocorrencia.csv', sep=';', encoding='utf8')

fatores = pd.read_csv('./Projeto/Dados_acidentes/fator_contribuinte.csv', sep=';', encoding='utf8')

Arquivos e blibliotecas importados com sucesso!

Agora chegou a hora de fazer a leitura de cada um deles.

In [5]:
# Extraindo as colunas do Dataset aeronaves

aeronaves.columns

NameError: ignored

In [4]:
 Verificando a quantidade de linhas e colunas de cada Dataset

print(aeronaves.shape)
print(ocorrencias.shape)
print(fatores.shape)

SyntaxError: ignored

In [None]:
# Extraindo as colunas do Dataset ocorrencias

ocorrencias.columns

Index(['codigo_ocorrencia', 'codigo_ocorrencia1', 'codigo_ocorrencia2',
       'codigo_ocorrencia3', 'codigo_ocorrencia4', 'ocorrencia_classificacao',
       'ocorrencia_latitude', 'ocorrencia_longitude', 'ocorrencia_cidade',
       'ocorrencia_uf', 'ocorrencia_pais', 'ocorrencia_aerodromo',
       'ocorrencia_dia', 'ocorrencia_hora', 'investigacao_aeronave_liberada',
       'investigacao_status', 'divulgacao_relatorio_numero',
       'divulgacao_relatorio_publicado', 'divulgacao_dia_publicacao',
       'total_recomendacoes', 'total_aeronaves_envolvidas',
       'ocorrencia_saida_pista'],
      dtype='object')

In [None]:
# Extraindo as colunas do Dataset fatores

fatores.columns

<h2>Processamento dos Dados</h2>

Eliminando algumas colunas que são consideradas irrelevantes para o estudo.

In [None]:
# Eliminando as colunas

aeronaves.drop(['aeronave_tipo_icao', 'aeronave_pmd' ,'aeronave_pmd_categoria', 'aeronave_pais_fabricante',
               'aeronave_pais_registro','aeronave_registro_categoria','aeronave_registro_segmento',
               'aeronave_tipo_operacao', 'aeronave_voo_origem', 'aeronave_voo_destino'], axis = 1, inplace = True)

ocorrencias.drop(["codigo_ocorrencia1", "codigo_ocorrencia2", "codigo_ocorrencia3", "codigo_ocorrencia4", 'ocorrencia_latitude',
                  'ocorrencia_longitude', "ocorrencia_pais", "ocorrencia_aerodromo","investigacao_aeronave_liberada", "investigacao_status", 
                  "divulgacao_relatorio_numero", "divulgacao_relatorio_publicado","divulgacao_dia_publicacao"], axis = 1, inplace = True)

Renomeando as colunas restantes

In [None]:
# Renomeando as colunas restantes

aeronaves.columns = ['Ocorrencia','Matricula','Categoria','Aeronave','Fabricante','Modelo','Motor','Qnt_Motores',
                    'Assentos','Ano_Fabricacao','Fase_Operacao','Dano','Fatalidades']

ocorrencias.columns = ['Ocorrencia','Classificacao_ocorrencias', 'Cidade', 'UF', 'Dia', 'Hora',
                      'Total_Recomendacoes', 'Aeronaves_Envolvidas', 'Saida_Pista']

fatores.columns = ['Ocorrencia', 'Fator_Nome', 'Fator_Aspecto', 'Fator_Condicionante', 'Fator_Area']

Dando uma olhada no resultado!

In [None]:
# Imprimindo as primeiras linhas do Dataset aeronave

aeronaves.head()

Unnamed: 0,Ocorrencia,Matricula,Categoria,Aeronave,Fabricante,Modelo,Motor,Qnt_Motores,Assentos,Ano_Fabricacao,Fase_Operacao,Dano,Fatalidades
0,39115,PTNQX,PARTICULAR,AVIÃO,NEIVA INDUSTRIA AERONAUTICA,EMB-711A,PISTÃO,MONOMOTOR,4.0,1979.0,DECOLAGEM,SUBSTANCIAL,0
1,39155,PTLVI,PARTICULAR,AVIÃO,BEECH AIRCRAFT,C90,TURBOÉLICE,BIMOTOR,8.0,1979.0,DECOLAGEM,NENHUM,0
2,39156,PPPTO,REGULAR,AVIÃO,AEROSPATIALE AND ALENIA,ATR-72-212A,TURBOÉLICE,BIMOTOR,73.0,2008.0,ARREMETIDA NO AR,LEVE,0
3,39158,PRLGJ,REGULAR,AVIÃO,BOEING COMPANY,757-225,JATO,BIMOTOR,5.0,1984.0,SUBIDA,NENHUM,0
4,39176,PRMAA,REGULAR,AVIÃO,AIRBUS INDUSTRIE,A320-232,JATO,BIMOTOR,184.0,2001.0,SUBIDA,NENHUM,0


In [None]:
# Imprimindo as primeiras linhas do Dataset ocorrencias

ocorrencias.head()

Unnamed: 0,Ocorrencia,Classificacao_ocorrencias,Cidade,UF,Dia,Hora,Total_Recomendacoes,Aeronaves_Envolvidas,Saida_Pista
0,39115,ACIDENTE,CORRENTINA,BA,07/02/2010,17:40:00,2,1,NÃO
1,39155,INCIDENTE,BELO HORIZONTE,MG,05/02/2010,12:55:00,0,1,NÃO
2,39156,INCIDENTE GRAVE,CASCAVEL,PR,10/01/2010,23:15:00,2,1,NÃO
3,39158,INCIDENTE,BELÉM,PA,28/01/2010,16:00:00,0,1,NÃO
4,39176,INCIDENTE,SÃO LUÍS,MA,05/02/2010,09:30:00,0,1,NÃO


In [None]:
# Imprimindo as primeiras linhas do Dataset fatores

fatores.head()

Unnamed: 0,Ocorrencia,Fator_Nome,Fator_Aspecto,Fator_Condicionante,Fator_Area
0,39115,APLICAÇÃO DE COMANDOS,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL
1,39115,JULGAMENTO DE PILOTAGEM,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL
2,39115,PERCEPÇÃO,ASPECTO PSICOLÓGICO,INDIVIDUAL,FATOR HUMANO
3,39115,PLANEJAMENTO DE VOO,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL
4,39115,POUCA EXPERIÊNCIA DO PILOTO,DESEMPENHO DO SER HUMANO,OPERAÇÃO DA AERONAVE,FATOR OPERACIONAL


Alguns erros já foram identificados!

As colunas Assentos e Ano_Fabricacao do Dataset aeronaves estão no formato float64.

Vou resolver esse problema transformando a coluna Assentos para o formato int64 e depois a coluna Ano_Fabricacao para o formato de texto.

In [None]:
# Convertendo os tipos das colunas

aeronaves['Assentos'] = aeronaves.Assentos.astype('int64')

aeronaves['Ano_Fabricacao'] = aeronaves.Ano_Fabricacao.astype('object')

ValueError: Cannot convert non-finite values (NA or inf) to integer

Como visto, um erro acabou de acontecer!

Isso porque a coluna Assentos apresenta valores missing, ou seja nulos.

In [None]:
# Buscando por valores missing em todas as colunas da tabela aeronave

aeronaves.isnull().sum()

Ocorrencia          0
Matricula           0
Categoria           0
Aeronave            0
Fabricante          0
Modelo              0
Motor               0
Qnt_Motores         0
Assentos          125
Ano_Fabricacao    118
Fase_Operacao       0
Dano                0
Fatalidades         0
dtype: int64

In [None]:
# Retornando algumas linhas com esses valores

aeronaves[aeronaves.isnull().any(axis=1)].head(3)

Unnamed: 0,Ocorrencia,Matricula,Categoria,Aeronave,Fabricante,Modelo,Motor,Qnt_Motores,Assentos,Ano_Fabricacao,Fase_Operacao,Dano,Fatalidades
398,43008,HP1539,***,AVIÃO,BOEING COMPANY,737-700,PISTÃO,***,,2010.0,CRUZEIRO,NENHUM,0
1565,46626,PTXXX1,PARTICULAR,HELICÓPTERO,HELIBRAS,***,TURBOEIXO,***,,0.0,TÁXI,LEVE,0
2285,50389,PRBAB,PARTICULAR,AVIÃO,CIRRUS DESIGN,SR22,PISTÃO,MONOMOTOR,0.0,,DECOLAGEM,NENHUM,0


In [None]:
# Buscando por valores missing em todas as colunas da tabela ocorrencias

ocorrencias.isnull().sum()

Ocorrencia                   0
Classificacao_ocorrencias    0
Cidade                       0
UF                           0
Dia                          0
Hora                         9
Total_Recomendacoes          0
Aeronaves_Envolvidas         0
Saida_Pista                  0
dtype: int64

In [None]:
# Retornando algumas linhas com esses valores

ocorrencias[ocorrencias.isnull().any(axis=1)].head(3)

Unnamed: 0,Ocorrencia,Classificacao_ocorrencias,Cidade,UF,Dia,Hora,Total_Recomendacoes,Aeronaves_Envolvidas,Saida_Pista
4998,78818,ACIDENTE,PORTO BELO,SC,07/08/2013,,0,1,NÃO
4999,78819,INCIDENTE GRAVE,CAMPO GRANDE,MS,01/08/2014,,0,1,NÃO
5000,78820,INCIDENTE,CAMPINAS,SP,12/08/2017,,0,1,NÃO


In [None]:
# Buscando por valores missing em todas as colunas da tabela fatores

fatores.isnull().sum()

Ocorrencia             0
Fator_Nome             0
Fator_Aspecto          0
Fator_Condicionante    0
Fator_Area             0
dtype: int64

Como visto o Dataset fatores é o único dos três que já está devidamente tratado!<br>

A coluna Assentos e Ano_Fabricacao da tabela aeronaves e também a coluna Hora da tabela ocorrencias apresentam o mesmo problema.<br>

Uma coisa que eu sempre faço além de buscar valores missing é tentar identificar algum outro tipo de padrão no meio dos dados, principalmente aqueles que acontecem com mais frequência.<br>

Para isso vou buscar os dez valores que mais são frequentes nestas colunas!

In [None]:
# Os dez valores mais frequentes na coluna Assentos do dataset aeronaves

aeronaves.Assentos.value_counts().head(10)

6.0      888
2.0      811
4.0      626
1.0      491
7.0      301
0.0      206
8.0      168
10.0     153
125.0    134
11.0     124
Name: Assentos, dtype: int64

Como identificado temos os valores que são "0.0" zeros, isso está certo?

Lógicamente que não, pois não existe aeronave com uma quantidade de assentos igual a zero!

In [None]:
# Identificando algumas linhas que estão com os valores 0.0

aeronaves.loc[aeronaves['Assentos'] == 0.0,['Ocorrencia','Assentos']].head()

Unnamed: 0,Ocorrencia,Assentos
126,40330,0.0
166,40835,0.0
168,40839,0.0
177,41155,0.0
189,41274,0.0


Aqui farei o mesmo tipo de pesquisa para a coluna Ano_Fabricacao.

In [None]:
# Identificando algumas linhas que estão com os valores 0.0

aeronaves.loc[aeronaves['Ano_Fabricacao'] == 0.0, ['Ocorrencia', 'Ano_Fabricacao']].head()

Unnamed: 0,Ocorrencia,Ano_Fabricacao
153,40624,0.0
168,40839,0.0
177,41155,0.0
187,41252,0.0
189,41274,0.0


Como bem visto, a coluna Ano_Fabricacao também apresenta o mesmo problema...

Como vou resolver isso? Primeiramente vou começar convertando todos os valores nulos para "0.0" zero nas colunas Assentos e Ano_Fabricacao. Farei isso utilizando uma função que aplique este processos de uma vez só em todas as colunas.

In [None]:
# Converte valores nulos para "0.0" zero

def convert_na(dataframe, column):
    for i in column:
        dataframe[i].fillna(0.0, inplace = True)

convert_na(aeronaves,['Assentos','Ano_Fabricacao'])

In [None]:
aeronaves[aeronaves.isnull().any(axis=1)].head(3)

Unnamed: 0,Ocorrencia,Matricula,Categoria,Aeronave,Fabricante,Modelo,Motor,Qnt_Motores,Assentos,Ano_Fabricacao,Fase_Operacao,Dano,Fatalidades


Agora que os valores estão convertidos, chegou a hora de reaplicar o código que tentei acima. Ele vai alterar o tipo de cada uma das colunas!

In [None]:
# Convertendo os tipos das colunas

aeronaves['Assentos'] = aeronaves.Assentos.astype('int64')

aeronaves['Ano_Fabricacao'] = aeronaves.Ano_Fabricacao.astype('int64')

In [None]:
# Convertendo os tipos das colunas

aeronaves['Assentos'] = aeronaves.Assentos.astype('str')

aeronaves['Ano_Fabricacao'] = aeronaves.Ano_Fabricacao.astype('str')

In [None]:
aeronaves.dtypes

In [1]:
Ocorrencia         int64
Matricula         object
Categoria         object
Aeronave          object
Fabricante        object
Modelo            object
Motor             object
Qnt_Motores       object
Assentos          object
Ano_Fabricacao    object
Fase_Operacao     object
Dano              object
Fatalidades        int64
dtype: object

SyntaxError: ignored

Vou trocar os valores de 0.0 da coluna Assentos e Ano_Fabricacao por "NÃO INFORMADO"

In [None]:
# Trocando os valores 0 por NÃO INFORMADOS

aeronaves['Assentos'] = aeronaves['Assentos'].replace(['0'], 'NÃO INFORMADO')

aeronaves['Ano_Fabricacao'] = aeronaves['Ano_Fabricacao'].replace(['0'], 'NÃO INFORMADO')

Não posso esquecer também da coluna Hora do Dataset ocorrencias!

Vou fazer a alteração de valores nulos apenas por um espaço vazio, ' '.

In [None]:
# ocorrencias['Hora'].fillna(' ', inplace=True)

# Usando uma função para se aplicar em várias colunas se fosse o caso:

def convert_na(dataframe, column):
    for i in column:
        dataframe[i].fillna(' ', inplace = True)

convert_na(ocorrencias,['Hora'])

Com todas as alterações feitas, vou verififcar novamente a existência de valores missing nos dados!

In [None]:
# Verificando a quantidade de valores nulos após o processamento

print(aeronaves.isnull().sum().sum())
print(ocorrencias.isnull().sum().sum())

0
0


Ao que parece tudo está certo! Porém se eu puxar mais linhas dos datasets é fácil de se encontrar valores do tipo "***" nos campos de colunas.

Isso pode ser deixado ou transformado e irei fazer isso dentro do Power BI.

In [None]:
# Retornando algumas linhas com esses valores

aeronaves.head(20)

Unnamed: 0,Ocorrencia,Matricula,Categoria,Aeronave,Fabricante,Modelo,Motor,Qnt_Motores,Assentos,Ano_Fabricacao,Fase_Operacao,Dano,Fatalidades
0,39115,PTNQX,PARTICULAR,AVIÃO,NEIVA INDUSTRIA AERONAUTICA,EMB-711A,PISTÃO,MONOMOTOR,4,1979,DECOLAGEM,SUBSTANCIAL,0
1,39155,PTLVI,PARTICULAR,AVIÃO,BEECH AIRCRAFT,C90,TURBOÉLICE,BIMOTOR,8,1979,DECOLAGEM,NENHUM,0
2,39156,PPPTO,REGULAR,AVIÃO,AEROSPATIALE AND ALENIA,ATR-72-212A,TURBOÉLICE,BIMOTOR,73,2008,ARREMETIDA NO AR,LEVE,0
3,39158,PRLGJ,REGULAR,AVIÃO,BOEING COMPANY,757-225,JATO,BIMOTOR,5,1984,SUBIDA,NENHUM,0
4,39176,PRMAA,REGULAR,AVIÃO,AIRBUS INDUSTRIE,A320-232,JATO,BIMOTOR,184,2001,SUBIDA,NENHUM,0
5,39178,PTMZU,REGULAR,AVIÃO,AIRBUS INDUSTRIE,A320-232,JATO,BIMOTOR,184,2001,SUBIDA,NENHUM,0
6,39235,PTWKN,AGRÍCOLA,AVIÃO,CESSNA AIRCRAFT,A188B,PISTÃO,MONOMOTOR,1,1976,DECOLAGEM,DESTRUÍDA,1
7,39275,PTYRE,PARTICULAR,HELICÓPTERO,EUROCOPTER FRANCE,AS 350 BA,TURBOEIXO,MONOMOTOR,6,1994,CRUZEIRO,DESTRUÍDA,1
8,39295,PUFLK,EXPERIMENTAL,ULTRALEVE,***,RV-9,PISTÃO,MONOMOTOR,2,2004,APROXIMAÇÃO FINAL,SUBSTANCIAL,2
9,39315,PTHLE,TÁXI AÉREO,HELICÓPTERO,HELIBRAS,HB-350B,TURBOEIXO,MONOMOTOR,6,1981,CRUZEIRO,***,2


Agora chegou a hora de salvaros arquivos já processados e aplicá-los no Power BI.

Antes de fazer isso, vou adicionar uma coluna de contagem para cada um dos datasets. Isso vai me ajudar nas visualizações.

In [None]:
# Adicionando uma coluna contagem

aeronaves['Contagem'] = 1
ocorrencias['Contagem'] = 1
fatores['Contagem'] = 1

Em seguida também vou adicionar uma nova coluna no Dataset ocorrencias, essa coluna será referente a região brasileira onde a ocorrência aconteceu e irei fazer ela baseada na coluna UF.

In [None]:
norte = ['AC', 'AP', 'AM', 'PA', 'RO', 'RR', 'TO']

nordeste = ['AL', 'BA', 'CE', 'MA', 'PB', 'PE', 'PI', 'RN', 'SE']

centro_oeste = ['GO', 'MT', 'MS', 'DF']

sudeste = ['ES', 'MG', 'RJ', 'SP']

sul = ['PR', 'SC', 'RS']

regioes = []

for x in ocorrencias.UF:
    if x in norte:
        regioes.append('NORTE')
    
    if x in nordeste:
        regioes.append('NORDESTE')
        
    if x in centro_oeste:
        regioes.append('CENTRO-OESTE')
        
    if x in sudeste:
        regioes.append('SUDESTE')
        
    if x in sul:
        regioes.append('SUL')
        
    if x == '***':
        regioes.append('***')
        
print(regioes[0:10])
print(len(regioes))

['NORDESTE', 'SUDESTE', 'SUL', 'NORTE', 'NORDESTE', 'SUDESTE', 'CENTRO-OESTE', 'SUDESTE', 'SUDESTE', 'NORTE']
5245


In [None]:
# Adicionando a nova coluna ao Dataset ocorrencias

ocorrencias['REGIOES'] = regioes

ocorrencias.head(10)

Unnamed: 0,Ocorrencia,Classificacao_ocorrencias,Cidade,UF,Dia,Hora,Total_Recomendacoes,Aeronaves_Envolvidas,Saida_Pista,Contagem,REGIOES
0,39115,ACIDENTE,CORRENTINA,BA,07/02/2010,17:40:00,2,1,NÃO,1,NORDESTE
1,39155,INCIDENTE,BELO HORIZONTE,MG,05/02/2010,12:55:00,0,1,NÃO,1,SUDESTE
2,39156,INCIDENTE GRAVE,CASCAVEL,PR,10/01/2010,23:15:00,2,1,NÃO,1,SUL
3,39158,INCIDENTE,BELÉM,PA,28/01/2010,16:00:00,0,1,NÃO,1,NORTE
4,39176,INCIDENTE,SÃO LUÍS,MA,05/02/2010,09:30:00,0,1,NÃO,1,NORDESTE
5,39178,INCIDENTE,CAMPINAS,SP,08/02/2010,12:33:00,0,1,NÃO,1,SUDESTE
6,39235,ACIDENTE,ITUMBIARA,GO,06/02/2010,17:20:00,3,1,NÃO,1,CENTRO-OESTE
7,39275,ACIDENTE,SÃO PAULO,SP,10/02/2010,09:03:00,3,1,NÃO,1,SUDESTE
8,39295,ACIDENTE,RIO DE JANEIRO,RJ,06/02/2010,21:09:00,0,1,NÃO,1,SUDESTE
9,39315,ACIDENTE,CANUTAMA,AM,15/01/2010,21:22:00,0,1,NÃO,1,NORTE


In [None]:
# Salvando os arquivos

aeronaves.to_csv('./Projeto/Dados/aeronaves.csv')
ocorrencias.to_csv('./Projeto/Dados/ocorrencias.csv')
fatores.to_csv('./Projeto/Dados/fatores.csv')

<h2>Conclusão</h2>

Com base no que se viu na exploração dos dados, pode-se dizer que o número de ocorrências registradas teve seu pico no ano de 2013 e então a partir daí começou a cair até o ano de 2017. Posteriormente se iniciou uma tendência de maiores ocorrências de acidentes aéreos. As causas para esse aumento não puderam ser investigadas por falta de dados.

Os estados brasileiros que mais possuem registros são os estados de São Paulo, Minas Gerais e Rio de Janeiro.

As aeronaves mais envolvidas nestas ocorrências são os aviões e os helicópteros.

Foi comprovado que o fator humano é o principal influenciador para o acontecimento de acidentes aéreos e os principais erros cometidos são de julgamento de pilotagem, aplicação de comandos, supervisão gerencial, planejamento de voo e de manutenção das aeronaves!

Também foi possível identificar que a maioria destes erros acontecem nas fases de pouso, pós ao pouso e também na fase de decolagem.