# Pré-visualização dos Dados das Ocorrências Aeronáuticas na Aviação Civil Brasileira
Dados das ocorrências aeronáuticas da aviação civil brasileira no período de 2012 a 2021

Para esta visualização foi utilizada a biblioteca do pandas e o pandas-profiling.

O pandas-profiling é uma ferramenta de geração de relatórios, dentro do pandas, que permite a exploração rápida de dataframes.




---


# Importando as bibliotecas

---



Inicialmente importou-se as bibliotecas padrão utilizadas e procedeu-se a instalação do pandas-profiling

In [None]:
#importacao das principais bibliotecas
import pandas as pd
import numpy as np


### Instalação do pandas-profiling.
Pode ser necessário fazer um restart

In [None]:
#instalacao do pandas-profiling
!pip install -U pandas-profiling



In [None]:
#importacao do pandas-profiling
from pandas_profiling import ProfileReport



---


## Base de dados


---



A base de dados de Ocorrências Aeronauticas na Aviação Civil Brasileira é composta por 5 tabelas

### Tabelas disponíveis no banco de dados
* OCORRÊNCIA - Informações sobre as ocorrências.
* OCORRÊNCIA_TIPO - Informações sobre o tipo de ocorrência.
* AERONAVE - Informações sobre as aeronaves envolvidas nas ocorrências.
* FATOR_CONTRIBUINTE - Informações sobre os fatores contribuinte das ocorrências que tiveram investigações finalizadas.
* RECOMENDAÇÃO - Informações sobre as recomendações de segurança geradas nas ocorrências.

### Extração das tabelas


Cada tabela foi extraída e convertida em seu dataframe a partir da URL. 

Para facilitar a apresentação do código, apresentou-se uma única vez, devendo ser repetida para outras URLs

#### URL utilizadas

Para a extração dos dados foram utilizadas a URLs abaixo

oc0 = http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia.csv 

oc1 = http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia_tipo.csv


oc2 = http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/aeronave.csv


oc3 = http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/fator_contribuinte.csv

oc4 = http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/recomendacao.csv

#### Extração da tabela utilizando a URL

As tabelas foram extraídas uma a uma para um dataframe cada e processada a análise do pandas-profiling


In [None]:
#Extração das tabelas para um dataframe e visualização das 5 primneiras linhas
url = 'http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia.csv'
oc0 = pd.read_csv(url,delimiter=';')
oc0.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,52242,52242,52242,52242,52242,INCIDENTE,,,PORTO ALEGRE,RS,...,05/01/2012,20:27:00,***,FINALIZADA,***,NÃO,,0,1,NÃO
1,45331,45331,45331,45331,45331,ACIDENTE,-23.4355555556,-46.4730555556,GUARULHOS,SP,...,06/01/2012,13:44:00,SIM,FINALIZADA,A-582/CENIPA/2014,SIM,2016-09-01,3,1,NÃO
2,45333,45333,45333,45333,45333,ACIDENTE,***,***,VIAMÃO,RS,...,06/01/2012,13:00:00,,FINALIZADA,A-070/CENIPA/2013,SIM,2013-11-27,0,1,NÃO
3,45401,45401,45401,45401,45401,ACIDENTE,***,***,SÃO SEBASTIÃO,SP,...,06/01/2012,17:00:00,***,,,NÃO,,0,1,NÃO
4,45407,45407,45407,45407,45407,ACIDENTE,***,***,SÃO SEPÉ,RS,...,06/01/2012,16:30:00,SIM,FINALIZADA,A-071/CENIPA/2013,SIM,2013-11-27,0,1,NÃO


Verificando o tamanho das tabelas e informações sobre as variáveis

In [None]:
#Informações da tabela de ocorrencias
oc0.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5167 entries, 0 to 5166
Data columns (total 22 columns):
 #   Column                          Non-Null Count  Dtype 
---  ------                          --------------  ----- 
 0   codigo_ocorrencia               5167 non-null   int64 
 1   codigo_ocorrencia1              5167 non-null   int64 
 2   codigo_ocorrencia2              5167 non-null   int64 
 3   codigo_ocorrencia3              5167 non-null   int64 
 4   codigo_ocorrencia4              5167 non-null   int64 
 5   ocorrencia_classificacao        5167 non-null   object
 6   ocorrencia_latitude             4192 non-null   object
 7   ocorrencia_longitude            4192 non-null   object
 8   ocorrencia_cidade               5167 non-null   object
 9   ocorrencia_uf                   5167 non-null   object
 10  ocorrencia_pais                 5167 non-null   object
 11  ocorrencia_aerodromo            5167 non-null   object
 12  ocorrencia_dia                  5167 non-null   

In [None]:
#Informações da tabela de tipos de ocorrencias
oc1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5347 entries, 0 to 5346
Data columns (total 4 columns):
 #   Column                     Non-Null Count  Dtype 
---  ------                     --------------  ----- 
 0   codigo_ocorrencia1         5347 non-null   int64 
 1   ocorrencia_tipo            5346 non-null   object
 2   ocorrencia_tipo_categoria  5346 non-null   object
 3   taxonomia_tipo_icao        5346 non-null   object
dtypes: int64(1), object(3)
memory usage: 167.2+ KB


In [None]:
#Informações da tabela de aeronave
oc2.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5235 entries, 0 to 5234
Data columns (total 23 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   codigo_ocorrencia2           5235 non-null   int64  
 1   aeronave_matricula           5235 non-null   object 
 2   aeronave_operador_categoria  5235 non-null   object 
 3   aeronave_tipo_veiculo        5235 non-null   object 
 4   aeronave_fabricante          5235 non-null   object 
 5   aeronave_modelo              5235 non-null   object 
 6   aeronave_tipo_icao           5235 non-null   object 
 7   aeronave_motor_tipo          5230 non-null   object 
 8   aeronave_motor_quantidade    5235 non-null   object 
 9   aeronave_pmd                 5235 non-null   int64  
 10  aeronave_pmd_categoria       5235 non-null   int64  
 11  aeronave_assentos            5041 non-null   float64
 12  aeronave_ano_fabricacao      5035 non-null   float64
 13  aeronave_pais_fabr

In [None]:
#Informações da tabela de fator contribuinte
oc3.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3464 entries, 0 to 3463
Data columns (total 5 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   codigo_ocorrencia3   3464 non-null   int64 
 1   fator_nome           3464 non-null   object
 2   fator_aspecto        3464 non-null   object
 3   fator_condicionante  3464 non-null   object
 4   fator_area           3464 non-null   object
dtypes: int64(1), object(4)
memory usage: 135.4+ KB


In [None]:
#Informações da tabela de recomendação
oc4.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1197 entries, 0 to 1196
Data columns (total 9 columns):
 #   Column                           Non-Null Count  Dtype 
---  ------                           --------------  ----- 
 0   codigo_ocorrencia4               1197 non-null   int64 
 1   recomendacao_numero              1197 non-null   object
 2   recomendacao_dia_assinatura      1197 non-null   object
 3   recomendacao_dia_encaminhamento  1197 non-null   object
 4   recomendacao_dia_feedback        765 non-null    object
 5   recomendacao_conteudo            1195 non-null   object
 6   recomendacao_status              1197 non-null   object
 7   recomendacao_destinatario_sigla  1197 non-null   object
 8   recomendacao_destinatario        1197 non-null   object
dtypes: int64(1), object(8)
memory usage: 84.3+ KB




---



#Gerando o relatório



---



O relatório foi gerado separadamente para cada tabela e salvo em formato html para visualização posterior. Como as bases eram pequenas, foi realizado o relatório completo.


###### Exemplo: Gerar, exibir e salvar o relatório pandas-profilling



```python

#Gera o relatório no formato normal
profile = ProfileReport(dataframe)

#Gera o relatório no formato reduzido (bases grandes)
profile = ProfileReport(dataframe, minimal=True)


#Exibir o arquivo com todo o relatório
profile.to_notebook_iframe()

#Salva o relatório em html para exibição
profile.to_file("visualizacao.html")


```

Após exibição, todos os relatórios foram salvos em html

In [None]:
#Gera o relatório no formato normal
profilesr = ProfileReport(oc0)

In [None]:
#Exibir o arquivo com todo o relatório
profilesr.to_notebook_iframe()

Summarize dataset:   0%|          | 0/5 [00:00<?, ?it/s]

Generate report structure:   0%|          | 0/1 [00:00<?, ?it/s]

Render HTML:   0%|          | 0/1 [00:00<?, ?it/s]

Salvando em HTML

In [None]:
#Salva o relatório em html para exibição
profilesr.to_file("visualizacao_ocorrencias.html")

Export report to file:   0%|          | 0/1 [00:00<?, ?it/s]