<img src="https://www2.fab.mil.br/cenipa/images/cenipa.png" width="100" alt="logo Cenipa"/> 

**Dados** CENIPA

**Origem**: http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia.csv

**Autor**: Gabriela Sígolo

**Instituição**: Fatec Itu

**Última Atualiazação**: 24/09/22

# Pacotes Necessários

## Instalando o Pandera

In [7]:
!pip install pandera

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


## Importando os pacotes necessários

In [8]:
import pandas as pd
import pandera as pa #Novo import

# Iniciando o ETL (Extract)

## Lendo os Dados

In [9]:
dataframe = pd.read_csv("http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia.csv", 
                        sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True)
dataframe.head()
dataframe.tail()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
5524,45333,45333,45333,45333,45333,ACIDENTE,***,***,VIAMÃO,RS,...,2012-01-06,13:00:00,,FINALIZADA,A-070/CENIPA/2013,SIM,2013-11-27,0,1,NÃO
5525,45401,45401,45401,45401,45401,ACIDENTE,***,***,SÃO SEBASTIÃO,SP,...,2012-01-06,17:00:00,***,,,NÃO,,0,1,NÃO
5526,45407,45407,45407,45407,45407,ACIDENTE,***,***,SÃO SEPÉ,RS,...,2012-01-06,16:30:00,SIM,FINALIZADA,A-071/CENIPA/2013,SIM,2013-11-27,0,1,NÃO
5527,52243,52243,52243,52243,52243,INCIDENTE,,,UBATUBA,SP,...,2012-01-06,14:30:00,***,FINALIZADA,***,NÃO,,0,1,NÃO
5528,52242,52242,52242,52242,52242,INCIDENTE,,,PORTO ALEGRE,RS,...,2012-01-05,20:27:00,***,FINALIZADA,***,NÃO,,0,1,NÃO


## Validando o Schema com o Pandera

In [10]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_aerodromo": pa.Column(pa.String, pa.Check.str_length(4,5)),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,3)),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_saida_pista": pa.Column(pa.String, required=False)
    }
)
schema.validate(dataframe)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,80898,80898,80898,80898,80898,INCIDENTE GRAVE,-23.330278,-51.136667,LONDRINA,PR,...,2022-08-04,21:10:00,SIM,FINALIZADA,***,NÃO,,0,1,SIM
1,80895,80895,80895,80895,80895,INCIDENTE GRAVE,-16.70611111111,-43.82194444444,MONTES CLAROS,MG,...,2022-08-02,15:05:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
2,80894,80894,80894,80894,80894,INCIDENTE,-15.438611,-51.598333,JUSSARA,GO,...,2022-07-31,13:30:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
3,80887,80887,80887,80887,80887,INCIDENTE,-22.810000,-43.250556,RIO DE JANEIRO,RJ,...,2022-07-30,01:23:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
4,80886,80886,80886,80886,80886,INCIDENTE,-7.27888,-64.76944,LÁBREA,AM,...,2022-07-29,17:12:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5524,45333,45333,45333,45333,45333,ACIDENTE,***,***,VIAMÃO,RS,...,2012-01-06,13:00:00,,FINALIZADA,A-070/CENIPA/2013,SIM,2013-11-27,0,1,NÃO
5525,45401,45401,45401,45401,45401,ACIDENTE,***,***,SÃO SEBASTIÃO,SP,...,2012-01-06,17:00:00,***,,,NÃO,,0,1,NÃO
5526,45407,45407,45407,45407,45407,ACIDENTE,***,***,SÃO SEPÉ,RS,...,2012-01-06,16:30:00,SIM,FINALIZADA,A-071/CENIPA/2013,SIM,2013-11-27,0,1,NÃO
5527,52243,52243,52243,52243,52243,INCIDENTE,,,UBATUBA,SP,...,2012-01-06,14:30:00,***,FINALIZADA,***,NÃO,,0,1,NÃO


### Visualizando os dados

In [25]:
dataframe.loc[dataframe.ocorrencia_uf == 'SP']

Unnamed: 0_level_0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
80891,80891,80891,80891,80891,INCIDENTE,-23.626111,-46.656389,SÃO PAULO,SP,BRASIL,...,2022-07-29,20:50:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
80896,80896,80896,80896,80896,INCIDENTE,-23.006944,-47.134444,CAMPINAS,SP,BRASIL,...,2022-07-29,23:40:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
80882,80882,80882,80882,80882,INCIDENTE,-22.3436,-49.0538,BAURU,SP,BRASIL,...,2022-07-27,17:30:00,SIM,FINALIZADA,***,NÃO,,0,2,NÃO
80874,80874,80874,80874,80874,INCIDENTE,-22.983333,-47.483333,CAPIVARI,SP,BRASIL,...,2022-07-25,16:40:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
80862,80862,80862,80862,80862,INCIDENTE,-23.626111,-46.656389,SÃO PAULO,SP,BRASIL,...,2022-07-18,12:54:00,SIM,FINALIZADA,***,NÃO,,0,2,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
45408,45408,45408,45408,45408,ACIDENTE,-24.5888888889,-48.2113888889,ELDORADO,SP,BRASIL,...,2012-01-11,13:45:00,SIM,FINALIZADA,A-509/CENIPA/2021,SIM,2021-07-08,1,1,NÃO
50713,50713,50713,50713,50713,INCIDENTE GRAVE,***,***,CAMPINAS,SP,BRASIL,...,2012-01-07,18:15:00,SIM,FINALIZADA,IG-184/CENIPA/2013,SIM,2014-01-08,0,1,NÃO
45331,45331,45331,45331,45331,ACIDENTE,-23.4355555556,-46.4730555556,GUARULHOS,SP,BRASIL,...,2012-01-06,13:44:00,SIM,FINALIZADA,A-582/CENIPA/2014,SIM,2016-09-01,3,1,NÃO
45401,45401,45401,45401,45401,ACIDENTE,***,***,SÃO SEBASTIÃO,SP,BRASIL,...,2012-01-06,17:00:00,***,,,NÃO,,0,1,NÃO


In [18]:
dataframe.head()
dataframe.loc[4] #Visualizando toda a linha
dataframe.loc[3:5] #Visualizando um intervalo de registro
dataframe.loc[4, 'ocorrencia_cidade'] #Ver coluna de uma linha
dataframe.loc[:, 'ocorrencia_cidade'] #Mostra a coluna de todas linhas
dataframe.ocorrencia_cidade
dataframe.head(4)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,80898,80898,80898,80898,80898,INCIDENTE GRAVE,-23.330278,-51.136667,LONDRINA,PR,...,2022-08-04,21:10:00,SIM,FINALIZADA,***,NÃO,,0,1,SIM
1,80895,80895,80895,80895,80895,INCIDENTE GRAVE,-16.70611111111,-43.82194444444,MONTES CLAROS,MG,...,2022-08-02,15:05:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
2,80894,80894,80894,80894,80894,INCIDENTE,-15.438611,-51.598333,JUSSARA,GO,...,2022-07-31,13:30:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
3,80887,80887,80887,80887,80887,INCIDENTE,-22.81,-43.250556,RIO DE JANEIRO,RJ,...,2022-07-30,01:23:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


## Modificano o índice do DataFrame

In [24]:
#Verifica se o conteúdo da coluna é único
dataframe.codigo_ocorrencia.is_unique
dataframe.head()
dataframe.set_index('codigo_ocorrencia', inplace=True)
dataframe.head()

AttributeError: ignored