In [2]:
import pandas as pd
import pandera as pa

In [3]:
valores_ausentes = ['**', '****', '*****', 'NULL', '####', '###!']
df = pd.read_csv('ocorrencia.csv', na_values=valores_ausentes, parse_dates=['ocorrencia_dia'])
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-05-01,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-06-01,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-06-01,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-06-01,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-06-01,16:30:00,0
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-06-01,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-07-01,18:15:00,0
7,45334,45334,INCIDENTE,BELÉM,PA,SBBE,2012-08-01,19:12:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-08-01,16:00:00,0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-08-01,22:13:00,0


In [4]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        'ocorrencia_aerodromo':pa.Column(pa.String, nullable=True),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        'total_recomendacoes':pa.Column(pa.Int),
    }
)

In [5]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-05-01,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-06-01,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-06-01,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-06-01,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-06-01,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5145,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5146,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5147,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5148,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [6]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [8]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1897
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [10]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-02-09,02:54:00,0
4718,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


In [11]:
filtro = df.ocorrencia_aerodromo.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-06-01,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-06-01,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-06-01,16:30:00,0
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-06-01,14:30:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-08-01,16:00:00,0
...,...,...,...,...,...,...,...,...,...
5134,80446,80446,ACIDENTE,JACAREACANGA,PA,,2021-12-20,17:10:00,0
5138,80450,80450,ACIDENTE,DOURADOS,MS,,2021-12-28,10:30:00,0
5142,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0
5145,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0


In [12]:
filtro = df.ocorrencia_hora.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2972,78823,78823,INCIDENTE,CORUMBÁ,MS,,2017-09-07,,0


In [21]:
#ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
844,BRASÍLIA,11
1669,SANTOS,13
2802,VITÓRIA,12


In [24]:
#ocorrências cuja classificação == INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
6,CAMPINAS,0
12,MARABÁ,0
18,CAMOCIM,0
19,MUANÁ,0
24,RONDONÓPOLIS,0
...,...,...
5122,NOVA BANDEIRANTES,0
5129,FORMOSO DO ARAGUAIA,0
5141,ARAÇATUBA,0
5142,SANTA RITA,0


In [27]:
#ocorrências cuja classificação == INCIDENTE GRAVE e estado == SP
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
6,CAMPINAS,0
78,BRAGANÇA PAULISTA,0
86,GUARULHOS,0
91,BRAGANÇA PAULISTA,0
140,ITU,1
...,...,...
4939,BRAGANÇA PAULISTA,0
4965,VOTUPORANGA,0
4988,SÃO PAULO,0
5081,PIRACICABA,0


In [29]:
#ocorrências cuja classificação == INCIDENTE GRAVE | classificação == INCIDENTE e estado == SP
filtro = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
5,UBATUBA,0
6,CAMPINAS,0
28,SÃO PAULO,0
35,SÃO PAULO,0
36,RIBEIRÃO PRETO,0
...,...,...
5117,SÃO PAULO,0
5126,SANTOS,0
5140,CAMPINAS,0
5141,ARAÇATUBA,0


In [31]:
#ocorrências cuja classificação == INCIDENTE GRAVE | classificação == INCIDENTE e estado == SP
filtro = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
5,UBATUBA,0
6,CAMPINAS,0
28,SÃO PAULO,0
35,SÃO PAULO,0
36,RIBEIRÃO PRETO,0
...,...,...
5117,SÃO PAULO,0
5126,SANTOS,0
5140,CAMPINAS,0
5141,ARAÇATUBA,0


In [35]:
#ocorrências cuja cidade comecem com a letra C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-07-01,18:15:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-08-01,16:00:00,0
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0
18,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,SNWC,2012-01-17,18:25:00,0
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5125,80434,80434,ACIDENTE,CARACOL,MS,,2021-12-14,21:35:00,0
5127,80447,80447,INCIDENTE,CONFINS,MG,SBCF,2021-12-15,17:10:00,0
5133,80445,80445,ACIDENTE,CHUPINGUAIA,RO,,2021-12-20,12:05:00,0
5140,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0


In [37]:
#ocorrências cuja cidade terminem com a letra A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-06-01,14:30:00,0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-08-01,22:13:00,0
17,52246,52246,INCIDENTE,BRASÍLIA,DF,SBBR,2012-01-16,16:47:00,0
21,45392,45392,ACIDENTE,BRASÍLIA,DF,,2012-01-19,21:30:00,2
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5135,80465,80465,INCIDENTE,VITÓRIA,ES,SBVT,2021-12-21,22:25:00,0
5141,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5142,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0
5148,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [39]:
#ocorrências cuja cidade contenham as letras MA
filtro = df.ocorrencia_cidade.str.contains('MA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-11-01,11:21:00,0
16,45693,45693,INCIDENTE,MACAÉ,RJ,,2012-01-14,10:30:00,0
45,45682,45682,INCIDENTE,MACAÉ,RJ,,2012-01-02,13:50:00,0
59,45580,45580,INCIDENTE GRAVE,MACAÉ,RJ,,2012-07-02,14:50:00,4
79,45715,45715,INCIDENTE,MANAUS,AM,SWFN,2012-02-20,09:10:00,0
...,...,...,...,...,...,...,...,...,...
5121,80428,80428,ACIDENTE,SANTA VITÓRIA DO PALMAR,RS,,2021-11-12,19:40:00,0
5136,80461,80461,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-24,03:30:00,0
5139,80463,80463,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-28,16:11:00,0
5143,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0


In [46]:
#ocorrencias que aconteceram no ano de 2015, no mês 12
filtro = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
df.loc[filtro & filtro2, ['codigo_ocorrencia', 'ocorrencia_classificacao', 'ocorrencia_uf', 'ocorrencia_dia']]

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_uf,ocorrencia_dia
1884,53063,INCIDENTE,PR,2015-12-01
1935,53129,INCIDENTE,SC,2015-12-02
1966,53148,ACIDENTE,SP,2015-12-03
2021,53342,ACIDENTE,PR,2015-12-04
2054,53273,INCIDENTE,SP,2015-12-05
2134,53410,INCIDENTE,MS,2015-12-07
2312,53627,INCIDENTE,PI,2015-12-12
2313,60604,INCIDENTE,GO,2015-12-12
2314,60611,INCIDENTE,SP,2015-12-12
2315,60613,ACIDENTE,MT,2015-12-12


In [54]:

#ocorrencias que aconteceram no ano de 2015, no mês 12 e entre os dias 11 e 25
filtro = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = (df.ocorrencia_dia.dt.day >= 12) & (df.ocorrencia_dia.dt.day < 25)
df.loc[filtro & filtro2 & filtro3, ['codigo_ocorrencia', 'ocorrencia_classificacao', 'ocorrencia_uf', 'ocorrencia_dia']]

Unnamed: 0,codigo_ocorrencia,ocorrencia_classificacao,ocorrencia_uf,ocorrencia_dia
2312,53627,INCIDENTE,PI,2015-12-12
2313,60604,INCIDENTE,GO,2015-12-12
2314,60611,INCIDENTE,SP,2015-12-12
2315,60613,ACIDENTE,MT,2015-12-12
2316,60629,ACIDENTE,RS,2015-12-12
2317,53630,INCIDENTE,SP,2015-12-13
2318,60603,INCIDENTE,PR,2015-12-13
2319,60612,ACIDENTE,RS,2015-12-13
2320,60783,ACIDENTE,SC,2015-12-13
2321,53639,INCIDENTE,SP,2015-12-15


In [60]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
df['ocorrencia_dia_hora ']

0      2012-05-01 20:27:00
1      2012-06-01 13:44:00
2      2012-06-01 13:00:00
3      2012-06-01 17:00:00
4      2012-06-01 16:30:00
               ...        
5145   2021-12-30 20:30:00
5146   2021-12-31 09:30:00
5147   2021-12-31 11:59:00
5148   2021-12-31 15:12:00
5149   2021-12-31 20:30:00
Name: ocorrencia_dia_hora, Length: 5150, dtype: datetime64[ns]

In [61]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
ocorrencia_dia_hora         datetime64[ns]
dtype: object

In [65]:
# ocorrências no ano de 2015 e no mês 3
filtro = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df2040 = df.loc[filtro & filtro2]
df2040

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1916,52988,52988,ACIDENTE,JOINVILLE,SC,SBJV,2015-03-02,17:45:00,1,2015-03-02 17:45:00
1917,52999,52999,INCIDENTE,ILHÉUS,BA,SBIL,2015-03-02,14:55:00,0,2015-03-02 14:55:00
1918,53105,53105,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,PR,,2015-03-02,20:00:00,0,2015-03-02 20:00:00
1967,53153,53153,INCIDENTE,PORTO ALEGRE,RS,SBPA,2015-03-13,15:45:00,0,2015-03-13 15:45:00
1968,53154,53154,INCIDENTE,SOROCABA,SP,SDCO,2015-03-13,14:40:00,0,2015-03-13 14:40:00
1969,53238,53238,INCIDENTE,SERRA,ES,,2015-03-13,11:30:00,0,2015-03-13 11:30:00
1970,53189,53189,INCIDENTE,CONFINS,MG,SBCF,2015-03-14,07:20:00,0,2015-03-14 07:20:00
1971,53193,53193,ACIDENTE,CANARANA,MT,,2015-03-14,18:00:00,0,2015-03-14 18:00:00
1972,53164,53164,ACIDENTE,PRINCESA ISABEL,PB,,2015-03-15,18:30:00,0,2015-03-15 18:30:00
1973,53151,53151,INCIDENTE GRAVE,MAUÉS,AM,SWMW,2015-03-16,18:07:00,1,2015-03-16 18:07:00


In [66]:
df2040.count()

codigo_ocorrencia           39
codigo_ocorrencia2          39
ocorrencia_classificacao    39
ocorrencia_cidade           39
ocorrencia_uf               39
ocorrencia_aerodromo        25
ocorrencia_dia              39
ocorrencia_hora             39
total_recomendacoes         39
ocorrencia_dia_hora         39
dtype: int64

In [69]:
df2040.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           11
INCIDENTE          22
INCIDENTE GRAVE     6
Name: codigo_ocorrencia, dtype: int64

In [71]:
df2040.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          22
ACIDENTE           11
INCIDENTE GRAVE     6
dtype: int64

In [73]:
df2040.groupby(['ocorrencia_uf']).size().sort_values(ascending=False)

ocorrencia_uf
SP    6
MG    5
BA    3
MT    3
RJ    3
SC    3
AM    2
CE    2
DF    2
MA    2
PA    2
PR    2
ES    1
GO    1
PB    1
RS    1
dtype: int64