# Ocorrências aeronáuticas

Este notebook tem como objetivo apresentar a análise dos dados de ocorrências aeronáuticas no Brasil. Na análise, será possível indentificarmos as ocorrências mais frenquentes e o tipo; quantificá-las e descobrir a média por ano, estado, município e região; 
quantificá-las por operador, operação e fase de operacao, classificar por modelo, danos e fabricante das aeronaves e se faz parte do Plano de Supervisão da Segurança Operacional(PSSO). Com isso, será posível auxiliar os orgãos envolvidos e elaborarem e planejarem medidas de segurança de prevenção, como por exemplo, o PSSO. Os dados das ocorrências aeronáuticas são enviadas pela Força Aérea Brasileira por meio do CENIPA para a ANAC acrescido de informações enriquecidas pela própria ANAC.

## Importação das bibliotecas

In [2]:
from pandas import read_csv as rc

## Função de requisição e chamada

In [189]:
def search_occurrences():
    try:
        return rc(
            'https://sistemas.anac.gov.br/dadosabertos/Seguranca%20Operacional/Ocorrencia/V_OCORRENCIA_AMPLA.csv',
            sep=';',
            skiprows=[0],
            index_col=[0],
        )
    except Exception as e: 
        print(e)
        return None

In [190]:
df_occurrences = search_occurrences()

## Limpeza e prepração dos dados

Verificando dados duplicados:

In [191]:
# Quantidade de dados duplicados
print('Dados duplicados: %s' % df_occurrences.duplicated().sum())

# Remove dados duplicados
df_occurrences.drop_duplicates(inplace=True)

# Verificando
print('Após a limpeza: %s' % df_occurrences.duplicated().sum())

Dados duplicados: 10
Após a limpeza: 0


Para a realização da análise será necessário eliminar os dados desnecessários, renomear as colunas e formatar os dados.
Serão utilizadas as colunas:
<ul>
    <li>Numero_da_Ocorrencia</li>
    <li>Classificacao_da_Ocorrencia</li>
    <li>Data_da_Ocorrencia</li>
    <li>Municipio</li>
    <li>Regiao</li>
    <li>Tipo_de_Ocorrencia</li>
    <li>Fase_da_Operacao</li>
    <li>Operacao</li>
    <li>Danos_a_Aeronave</li>
    <li>Modelo</li>
    <li>Nome_do_Fabricante</li>
    <li>PSSO</li>
</ul>

Removendo as colunas desnecessárias:

In [192]:
# Colunas que serão usadas
columns_used = [
    'Numero_da_Ocorrencia', 
    'Classificacao_da_Ocorrencia', 
    'Data_da_Ocorrencia', 
    'Municipio', 
    'Regiao',
    'Operador',
    'Tipo_de_Ocorrencia',
    'Fase_da_Operacao',
    'Operacao',
    'Danos_a_Aeronave',
    'Modelo',
    'Nome_do_Fabricante',
    'PSSO'
]

# Obtendo todas as colunas
all_columns = df_occurrences.columns

# Obtendo a diferença de colunas, que serão removidas
removed_columns = set(all_columns).difference(set(columns_used))

# Removendo colunas desnecessárias
df_occurrences.drop(columns=removed_columns, inplace=True)

Renomeando colunas:

In [193]:
# Função para renomear colunas
rename_column = lambda column: column.lower()

# Renomeando colunas
df_occurrences.rename(columns=rename_column, inplace=True)

# Renomeando index
df_occurrences.index.rename('numero_da_ocorrencia', inplace=True)

Verificando o tipo dos dados de cada coluna:

In [200]:
df_occurrences.dtypes

classificacao_da_ocorrencia    object
data_da_ocorrencia             object
municipio                      object
regiao                         object
operador                       object
tipo_de_ocorrencia             object
fase_da_operacao               object
operacao                       object
danos_a_aeronave               object
modelo                         object
nome_do_fabricante             object
psso                           object
dtype: object

Verificando e substituindo valores ausentes:

In [203]:
# Verificando a quantidade de valores ausentes
df_occurrences.isnull().sum()

classificacao_da_ocorrencia       2
data_da_ocorrencia                0
municipio                      3698
regiao                          753
operador                        109
tipo_de_ocorrencia             3019
fase_da_operacao               3391
operacao                        124
danos_a_aeronave               3747
modelo                          402
nome_do_fabricante              549
psso                             53
dtype: int64