In [1]:
import pandas as pd
import pandera as pa

In [2]:
valores_ausentes = ['**','###!','####','****','*****','NULL']
df = pd.read_csv("ocorrencia.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
df = df[['codigo_ocorrencia','codigo_ocorrencia2','ocorrencia_classificacao','ocorrencia_cidade','ocorrencia_uf',
         'ocorrencia_aerodromo','ocorrencia_dia','ocorrencia_hora','total_recomendacoes']]
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,80898,80898,INCIDENTE GRAVE,LONDRINA,PR,SBLO,2022-08-04,21:10:00,0
1,80895,80895,INCIDENTE GRAVE,MONTES CLAROS,MG,SBMK,2022-08-02,15:05:00,0
2,80894,80894,INCIDENTE,JUSSARA,GO,SWGW,2022-07-31,13:30:00,0
3,80887,80887,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2022-07-30,01:23:00,0
4,80886,80886,INCIDENTE,LÁBREA,AM,SWLB,2022-07-29,17:12:00,0
5,80891,80891,INCIDENTE,SÃO PAULO,SP,SBSP,2022-07-29,20:50:00,0
6,80896,80896,INCIDENTE,CAMPINAS,SP,SBKP,2022-07-29,23:40:00,0
7,80882,80882,INCIDENTE,BAURU,SP,SBBU,2022-07-27,17:30:00,0
8,80883,80883,INCIDENTE,BELÉM,PA,SBBE,2022-07-27,19:18:00,0
9,80884,80884,INCIDENTE,MACAPÁ,AP,SBMQ,2022-07-27,18:20:00,0


In [3]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable = True),
        "ocorrencia_aerodromo": pa.Column(pa.String,nullable=True),
        "ocorrencia_dia":  pa.Column(pa.DateTime),
        "ocorrencia_hora":  pa.Column(pa.String,pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$') ,nullable = True),
        "total_recomendacoes":  pa.Column(pa.Int)
    
    }
)

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,80898,80898,INCIDENTE GRAVE,LONDRINA,PR,SBLO,2022-08-04,21:10:00,0
1,80895,80895,INCIDENTE GRAVE,MONTES CLAROS,MG,SBMK,2022-08-02,15:05:00,0
2,80894,80894,INCIDENTE,JUSSARA,GO,SWGW,2022-07-31,13:30:00,0
3,80887,80887,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2022-07-30,01:23:00,0
4,80886,80886,INCIDENTE,LÁBREA,AM,SWLB,2022-07-29,17:12:00,0
...,...,...,...,...,...,...,...,...,...
5524,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
5525,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
5526,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
5527,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0


In [5]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [6]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  4
ocorrencia_aerodromo        2018
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [7]:
filtro = df.ocorrencia_aerodromo.isna()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
11,80879,80879,ACIDENTE,CAMPO GRANDE,MS,,2022-07-26,20:02:00,0
12,80874,80874,INCIDENTE,CAPIVARI,SP,,2022-07-25,16:40:00,0
14,80881,80881,INCIDENTE,ARAPONGAS,PR,,2022-07-25,12:38:00,0
23,80871,80871,ACIDENTE,LOANDA,PR,,2022-07-19,17:00:00,0
27,80861,80861,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,,2022-07-16,18:25:00,0
...,...,...,...,...,...,...,...,...,...
5520,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0
5524,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
5525,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
5526,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0


In [8]:
df.count()

codigo_ocorrencia           5529
codigo_ocorrencia2          5529
ocorrencia_classificacao    5529
ocorrencia_cidade           5529
ocorrencia_uf               5525
ocorrencia_aerodromo        3511
ocorrencia_dia              5529
ocorrencia_hora             5528
total_recomendacoes         5529
dtype: int64

In [9]:
#ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
2724,VITÓRIA,12
3858,SANTOS,13
4684,BRASÍLIA,11


In [10]:
#ocorrências cuja classificação == INCIDENTE GRAVE e o estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
90,80785,80785,INCIDENTE GRAVE,IBITINGA,SP,SDIG,2022-06-11,11:00:00,0
120,80763,80763,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2022-05-25,18:59:00,0
283,80546,80546,INCIDENTE GRAVE,BAURU,SP,SBBU,2022-02-17,14:39:00,0
296,80530,80530,INCIDENTE GRAVE,PIRACICABA,SP,,2022-02-06,12:20:00,0
300,80514,80514,INCIDENTE GRAVE,MARÍLIA,SP,SBML,2022-02-03,12:20:00,0
...,...,...,...,...,...,...,...,...,...
5387,45651,45651,INCIDENTE GRAVE,ITU,SP,,2012-03-24,20:45:00,1
5438,45599,45599,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-27,19:15:00,0
5444,45653,45653,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2012-02-24,20:04:00,0
5449,45598,45598,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-20,14:10:00,0


In [11]:
#ocorrências cuja cidade comecem com a letra C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,80896,80896,INCIDENTE,CAMPINAS,SP,SBKP,2022-07-29,23:40:00,0
10,80885,80885,ACIDENTE,CONDEÚBA,BA,SIPO,2022-07-27,13:40:00,0
11,80879,80879,ACIDENTE,CAMPO GRANDE,MS,,2022-07-26,20:02:00,0
12,80874,80874,INCIDENTE,CAPIVARI,SP,,2022-07-25,16:40:00,0
18,80875,80875,INCIDENTE,CURITIBA,PR,SBBI,2022-07-22,21:44:00,0
...,...,...,...,...,...,...,...,...,...
5505,45405,45405,INCIDENTE,CUIABÁ,MT,,2012-01-20,08:00:00,0
5510,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,SNWC,2012-01-17,18:25:00,0
5512,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0
5520,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0


In [12]:
#ocorrências do ano de 2015 e mês 12 e dias entre 3 e 8
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
filtro_dia_inicio = df.ocorrencia_dia.dt.day > 2 
filtro_dia_fim = df.ocorrencia_dia.dt.day < 9
df.loc[filtro_ano & filtro_mes & filtro_dia_inicio & filtro_dia_fim]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3215,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3216,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
3217,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
3218,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0
3219,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
3220,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
3221,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
3222,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0


In [13]:
#ocorrências do ano de 2015 e mês 03
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3532,53211,53211,INCIDENTE,BAURU,SP,SBBU,2015-03-30,19:40:00,0
3533,53181,53181,ACIDENTE,COLÍDER,MT,,2015-03-29,20:17:00,0
3534,53187,53187,INCIDENTE,JOINVILLE,SC,SBJV,2015-03-29,18:36:00,0
3535,53179,53179,ACIDENTE,CAIAPÔNIA,GO,,2015-03-28,10:30:00,0
3536,53180,53180,ACIDENTE,ARAGUARI,MG,,2015-03-28,18:52:00,0
3537,53190,53190,INCIDENTE,CAMPINAS,SP,SBKP,2015-03-28,16:26:00,0
3538,53212,53212,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-03-28,17:32:00,0
3539,53213,53213,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-03-28,15:51:00,0
3540,53186,53186,INCIDENTE,BRASÍLIA,DF,,2015-03-27,14:55:00,0
3541,53194,53194,ACIDENTE,GUARACIABA DO NORTE,CE,SWBE,2015-03-26,20:30:00,0


In [14]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64