### Dados obtidos em: <https://dados.gov.br/dataset/ocorrencias-aeronauticas-da-aviacao-civil-brasileira>

In [2]:
%%bash
wget http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia_2010_2020.csv

--2021-08-02 14:16:39--  http://sistema.cenipa.aer.mil.br/cenipa/media/opendata/ocorrencia_2010_2020.csv
Resolvendo sistema.cenipa.aer.mil.br (sistema.cenipa.aer.mil.br)... 189.9.13.91
Conectando-se a sistema.cenipa.aer.mil.br (sistema.cenipa.aer.mil.br)|189.9.13.91|:80... conectado.
A requisição HTTP foi enviada, aguardando resposta... 200 OK
Tamanho: 858233 (838K) [text/csv]
Salvando em: “ocorrencia_2010_2020.csv.1”

     0K .......... .......... .......... .......... ..........  5%  580K 1s
    50K .......... .......... .......... .......... .......... 11% 1,27M 1s
   100K .......... .......... .......... .......... .......... 17% 2,96M 1s
   150K .......... .......... .......... .......... .......... 23% 1,97M 1s
   200K .......... .......... .......... .......... .......... 29% 4,35M 0s
   250K .......... .......... .......... .......... .......... 35% 2,49M 0s
   300K .......... .......... .......... .......... .......... 41% 8,64M 0s
   350K .......... .......... .......... ....

In [3]:
import pandas as pd
import pandera as pa

### Define esquema para validacao dos dados

In [4]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia':pa.Column(pa.Int),
        'ocorrencia_dia':pa.Column(pa.DateTime),#data
        'ocorrencia_hora':pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),#pode sernulo
        'ocorrencia_uf':pa.Column(pa.String,pa.Check.str_length(2,3))
    
    }
)

### Importa dados em csv

In [5]:
df = pd.read_csv('ocorrencia_2010_2020.csv',sep=";"
                ,parse_dates=["ocorrencia_dia"],dayfirst=True
                ,usecols=["ocorrencia_dia"
                          ,"codigo_ocorrencia"
                          ,"codigo_ocorrencia2"
                          ,"ocorrencia_classificacao"
                          ,"ocorrencia_cidade"
                          ,"ocorrencia_uf"
                          ,"ocorrencia_aerodromo"
                          ,"ocorrencia_hora"
                          ,"total_recomendacoes"])
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


### Valida os dados


In [6]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,****,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,****,2020-12-31,09:00:00,0


### Limpando dados o para padronização

ex.1:

df.fillna(value={"column_name":'replace_value'},inplace=True ) **#replace em colunas especificas**

df.dropna(subset=["colunas_a_procurar"]) **#deleta NA values em colunas especificas**

In [7]:
df.replace(['**', '###!', '####', '****', '*****', 'NULL'],pd.NA, inplace=True)

In [17]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + " " + df.ocorrencia_hora )

### Filtro recomendacao

In [32]:
filtro = df.total_recomendacoes > 10
filtro_contains = df.ocorrencia_cidade.str.contains("MA | AM")
filtro_uf = df.ocorrencia_uf == "SP"
filtro_ano = df.ocorrencia_dia.dt.year == 2015

df.loc[filtro & filtro_uf,['ocorrencia_cidade','total_recomendacoes']]

df.loc[filtro_contains]

df.loc[filtro_ano]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2996,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3,2015-01-01 11:40:00
2997,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0,2015-01-02 14:50:00
2998,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0,2015-01-02 16:28:00
2999,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0,2015-01-02 20:34:00
3000,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6,2015-01-04 22:04:00
...,...,...,...,...,...,...,...,...,...,...
3462,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0,2015-12-24 14:00:00
3463,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0,2015-12-25 19:00:00
3464,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0,2015-12-26 16:00:00
3465,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2,2015-12-28 19:00:00


### Agrupamento por incidente

In [30]:
df.loc[filtro_ano].groupby(['ocorrencia_uf',"ocorrencia_cidade"]).ocorrencia_classificacao.sum()

ocorrencia_uf  ocorrencia_cidade   
AC             MANOEL URBANO                          ACIDENTE
               MARECHAL THAUMATURGO            INCIDENTE GRAVE
AM             ANAMÃ                                  ACIDENTE
               APUÍ                                   ACIDENTE
               COARI                                 INCIDENTE
                                                ...           
SP             VOTUPORANGA                            ACIDENTE
               ÁLVARES MACHADO                        ACIDENTE
TO             ARAGUAÍNA                             INCIDENTE
               CRISTALÂNDIA                           ACIDENTE
               LAGOA DA CONFUSÃO       ACIDENTEINCIDENTE GRAVE
Name: ocorrencia_classificacao, Length: 213, dtype: object

In [35]:
df.loc[filtro_ano].groupby(['ocorrencia_uf',"ocorrencia_cidade",df.ocorrencia_dia.dt.date]).ocorrencia_classificacao.sum()

ocorrencia_uf  ocorrencia_cidade     ocorrencia_dia
AL             IBATEGUARA            2015-05-20        INCIDENTE GRAVE
               MACEIÓ                2015-09-23               ACIDENTE
AM             ATALAIA DO NORTE      2015-05-29               ACIDENTE
               CARAUARI              2015-06-02              INCIDENTE
                                     2015-09-20              INCIDENTE
                                                            ...       
TO             ARAGUAÍNA             2015-12-15        INCIDENTE GRAVE
               COLINAS DO TOCANTINS  2015-07-28               ACIDENTE
               PALMAS                2015-04-15        INCIDENTE GRAVE
                                     2015-12-01              INCIDENTE
                                     2015-12-02              INCIDENTE
Name: ocorrencia_classificacao, Length: 466, dtype: object