### Dados obtidos em: <https://dados.gov.br/dataset/ocorrencias-aeronauticas-da-aviacao-civil-brasileira>

In [60]:
%%bash
wget http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia_2010_2020.csv

--2021-08-02 01:29:31--  http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia_2010_2020.csv
Resolvendo sistema.cenipa.aer.mil.br (sistema.cenipa.aer.mil.br)... 189.9.13.91
Conectando-se a sistema.cenipa.aer.mil.br (sistema.cenipa.aer.mil.br)|189.9.13.91|:80... conectado.
A requisição HTTP foi enviada, aguardando resposta... 200 OK
Tamanho: 858233 (838K) [text/csv]
Salvando em: “ocorrencia_2010_2020.csv”

     0K .......... .......... .......... .......... ..........  5%  292K 3s
    50K .......... .......... .......... .......... .......... 11%  384K 2s
   100K .......... .......... .......... .......... .......... 17%  371K 2s
   150K .......... .......... .......... .......... .......... 23%  408K 2s
   200K .......... .......... .......... .......... .......... 29%  492K 2s
   250K .......... .......... .......... .......... .......... 35%  489K 1s
   300K .......... .......... .......... .......... .......... 41%  453K 1s
   350K .......... .......... .......... ......

In [61]:
import pandas as pd
import pandera as pa

### Define esquema para validacao dos dados

In [62]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia':pa.Column(pa.Int),
        'ocorrencia_dia':pa.Column(pa.DateTime),#data
        'ocorrencia_hora':pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),#pode sernulo
        'ocorrencia_uf':pa.Column(pa.String,pa.Check.str_length(2,3))
    
    }
)

### Importa dados em csv

In [63]:
df = pd.read_csv('ocorrencia_2010_2020.csv',sep=";"
                ,parse_dates=["ocorrencia_dia"],dayfirst=True
                ,usecols=["ocorrencia_dia"
                          ,"codigo_ocorrencia"
                          ,"codigo_ocorrencia2"
                          ,"ocorrencia_classificacao"
                          ,"ocorrencia_cidade"
                          ,"ocorrencia_uf"
                          ,"ocorrencia_aerodromo"
                          ,"ocorrencia_hora"
                          ,"total_recomendacoes"])
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


### Valida os dados


In [64]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


### Limpando dados o para padronização

ex.1:

df.fillna(value={"column_name":'replace_value'},inplace=True ) **#replace em colunas especificas**

df.dropna(subset=["colunas_a_procurar"]) **#deleta NA values em colunas especificas**

In [65]:
df.replace(['**', '###!', '####', '****', '*****', 'NULL'],pd.NA, inplace=True)

### Filtro recomendacao

In [67]:
filtro = df.total_recomendacoes > 10
filtro_uf = df.ocorrencia_uf == "SP"
df.loc[filtro & filtro_uf,['ocorrencia_cidade','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
530,SÃO PAULO,11
727,ITÁPOLIS,11
2795,SANTOS,13
