In [1]:
import pandas as pd
import pandera as pa

In [2]:
valores_ausentes = ['###!', '**', '####', '****', '*****', 'NULL']
df = pd.read_csv("ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,NÃO,NaT,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,NÃO,NaT,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,NÃO,NaT,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,SIM,2019-10-28,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,NÃO,NaT,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,NÃO,NaT,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,NÃO,NaT,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,SIM,2011-07-21,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,SIM,2011-06-30,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,NÃO,NaT,0


In [3]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia1":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "divulgacao_relatorio_publicado":pa.Column(pa.String),
        "divulgacao_dia_publicacao":pa.Column(pa.DateTime, nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,NÃO,NaT,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,NÃO,NaT,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,NÃO,NaT,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,SIM,2019-10-28,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,NÃO,NaT,0
...,...,...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,NÃO,NaT,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,NÃO,NaT,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,NÃO,NaT,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,NÃO,NaT,0


In [5]:
df.dtypes

codigo_ocorrencia                          int64
codigo_ocorrencia1                         int64
ocorrencia_classificacao                  object
ocorrencia_cidade                         object
ocorrencia_uf                             object
ocorrencia_aerodromo                      object
ocorrencia_dia                    datetime64[ns]
ocorrencia_hora                           object
divulgacao_relatorio_publicado            object
divulgacao_dia_publicacao         datetime64[ns]
total_recomendacoes                        int64
dtype: object

In [6]:
df.iloc[-1]

codigo_ocorrencia                               79844
codigo_ocorrencia1                              79844
ocorrencia_classificacao                    INCIDENTE
ocorrencia_cidade                      RIO DE JANEIRO
ocorrencia_uf                                      RJ
ocorrencia_aerodromo                             SBJR
ocorrencia_dia                    2020-12-31 00:00:00
ocorrencia_hora                              13:24:00
divulgacao_relatorio_publicado                    NÃO
divulgacao_dia_publicacao                         NaT
total_recomendacoes                                 0
Name: 5751, dtype: object

In [7]:
df.isna().sum()

codigo_ocorrencia                    0
codigo_ocorrencia1                   0
ocorrencia_classificacao             0
ocorrencia_cidade                    0
ocorrencia_uf                        1
ocorrencia_aerodromo              2349
ocorrencia_dia                       0
ocorrencia_hora                      1
divulgacao_relatorio_publicado       0
divulgacao_dia_publicacao         4258
total_recomendacoes                  0
dtype: int64

In [8]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,SIM,2018-05-10,0


In [9]:
#Ocorrências com mais de 20 recomendações
filtro = df.total_recomendacoes >20
df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_dia
872,RECIFE,2011-07-13


In [10]:
#Ocorrências cuja classificação == INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_dia
7,CANUTAMA,2010-01-09
8,CASCAVEL,2010-01-10
9,PARÁ DE MINAS,2010-01-10
29,CURITIBA,2010-01-23
35,PALMAS,2010-01-26
...,...,...
5741,NOVA MARINGÁ,2020-12-28
5744,GOIATUBA,2020-12-29
5746,MANOEL URBANO,2020-12-29
5748,LAGOA DA CONFUSÃO,2020-12-30


In [11]:
#Ocorrências cuja classificação == INCIDENTE GRAVE e o Estado == MG
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'MG'
df.loc[filtro1 & filtro2, ['ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_dia
9,PARÁ DE MINAS,2010-01-10
75,TIMÓTEO,2010-02-26
168,POÇOS DE CALDAS,2010-05-05
255,IPATINGA,2010-06-28
537,BELO HORIZONTE,2010-12-20
...,...,...
5448,VARGINHA,2020-05-18
5694,BELO HORIZONTE,2020-11-26
5718,PERDIZES,2020-12-12
5720,BELO HORIZONTE,2020-12-13


In [12]:
#Ocorrências cuja (classificação == INCIDENTE GRAVE) ou (Classificacao == INCIDENTE) e o Estado == MG
filtro1 = ((df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE'))
filtro2 = df.ocorrencia_uf == 'MG'
df.loc[filtro1 & filtro2, ['ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_dia
9,PARÁ DE MINAS,2010-01-10
25,UBERLÂNDIA,2010-01-20
46,BELO HORIZONTE,2010-02-05
56,POÇOS DE CALDAS,2010-02-08
68,JUIZ DE FORA,2010-02-22
...,...,...
5720,BELO HORIZONTE,2020-12-13
5723,BELO HORIZONTE,2020-12-17
5725,BELO HORIZONTE,2020-12-18
5728,BELO HORIZONTE,2020-12-18


In [13]:
#Ocorrências cuja (classificação == INCIDENTE GRAVE) ou (Classificacao == INCIDENTE) e o Estado == MG
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'MG'
df.loc[filtro1 & filtro2, ['ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_dia
9,PARÁ DE MINAS,2010-01-10
25,UBERLÂNDIA,2010-01-20
46,BELO HORIZONTE,2010-02-05
56,POÇOS DE CALDAS,2010-02-08
68,JUIZ DE FORA,2010-02-22
...,...,...
5720,BELO HORIZONTE,2020-12-13
5723,BELO HORIZONTE,2020-12-17
5725,BELO HORIZONTE,2020-12-18
5728,BELO HORIZONTE,2020-12-18


In [14]:
#Ocorrências cuja cidade comecem com a letra "C"
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,NÃO,NaT,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,SIM,2011-07-21,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,SIM,2011-06-30,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,SIM,2017-02-08,0
20,40310,40310,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2010-01-18,19:32:00,NÃO,NaT,0
...,...,...,...,...,...,...,...,...,...,...,...
5661,79649,79649,INCIDENTE,CAMPINAS,SP,SBKP,2020-11-04,22:39:00,NÃO,NaT,0
5663,79652,79652,INCIDENTE,CONFINS,MG,SBCF,2020-11-06,14:20:00,NÃO,NaT,0
5680,79683,79683,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2020-11-16,22:00:00,NÃO,NaT,0
5696,79692,79692,ACIDENTE,CATANDUVA,SP,SDCD,2020-11-28,12:50:00,NÃO,NaT,0


In [15]:
#Ocorrências cuja cidade terminem com a letra "E"
filtro = df.ocorrencia_cidade.str[-1] == 'E'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,SIM,2019-10-28,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,SIM,2011-06-30,2
45,39316,39316,ACIDENTE,RIO DO OESTE,SC,,2010-02-04,17:55:00,SIM,2011-05-18,2
46,39155,39155,INCIDENTE,BELO HORIZONTE,MG,,2010-02-05,12:55:00,NÃO,NaT,0
69,39727,39727,INCIDENTE GRAVE,VÁRZEA GRANDE,MT,SBCY,2010-02-23,19:42:00,SIM,2018-12-04,0
...,...,...,...,...,...,...,...,...,...,...,...
5720,79726,79726,INCIDENTE GRAVE,BELO HORIZONTE,MG,SBPR,2020-12-13,13:41:00,NÃO,NaT,0
5723,79737,79737,INCIDENTE,BELO HORIZONTE,MG,SBBH,2020-12-17,17:13:00,NÃO,NaT,0
5725,79741,79741,INCIDENTE,BELO HORIZONTE,MG,SBBH,2020-12-18,22:57:00,NÃO,NaT,0
5728,79744,79744,INCIDENTE,BELO HORIZONTE,MG,SBCF,2020-12-18,02:34:00,NÃO,NaT,0


In [16]:
#Ocorrências cuja cidade terminem com os caracteres "BE"
filtro = df.ocorrencia_cidade.str[-2:] == 'BE'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
616,44549,44549,ACIDENTE,CORIBE,BA,SDKE,2011-02-04,14:00:00,SIM,2012-03-22,4
1201,45684,45684,INCIDENTE,PERUÍBE,SP,,2012-02-17,14:45:00,NÃO,NaT,0
2400,50431,50431,INCIDENTE,MATRIZ DE CAMARAGIBE,AL,,2013-12-16,18:14:00,NÃO,NaT,0
3575,60894,60894,ACIDENTE,BEBERIBE,CE,,2016-03-19,13:30:00,SIM,2017-10-27,0
3794,65892,65892,ACIDENTE,CORIBE,BA,,2016-10-26,17:50:00,SIM,2017-05-26,0
4785,78493,78493,ACIDENTE,PERUÍBE,SP,SSMW,2019-01-28,18:10:00,NÃO,NaT,0
4987,78754,78754,ACIDENTE,CAROEBE,RR,,2019-07-07,14:00:00,NÃO,NaT,0
5491,79415,79415,INCIDENTE,CAMARAGIBE,PE,,2020-06-23,16:00:00,NÃO,NaT,0


In [17]:
#Ocorrências cuja cidade contem (em qualquer parte do conteúdo) os caracteres "BE"
filtro = df.ocorrencia_cidade.str.contains('BE')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,NÃO,NaT,0
25,39772,39772,INCIDENTE,UBERLÂNDIA,MG,,2010-01-20,18:58:00,NÃO,NaT,0
34,39322,39322,ACIDENTE,SÃO BERNARDO DO CAMPO,SP,,2010-01-26,13:50:00,SIM,2011-07-21,2
36,39850,39850,INCIDENTE,BELÉM,PA,SBJC,2010-01-26,14:30:00,NÃO,NaT,0
40,39158,39158,INCIDENTE,BELÉM,PA,,2010-01-28,16:00:00,NÃO,NaT,0
...,...,...,...,...,...,...,...,...,...,...,...
5720,79726,79726,INCIDENTE GRAVE,BELO HORIZONTE,MG,SBPR,2020-12-13,13:41:00,NÃO,NaT,0
5723,79737,79737,INCIDENTE,BELO HORIZONTE,MG,SBBH,2020-12-17,17:13:00,NÃO,NaT,0
5725,79741,79741,INCIDENTE,BELO HORIZONTE,MG,SBBH,2020-12-18,22:57:00,NÃO,NaT,0
5728,79744,79744,INCIDENTE,BELO HORIZONTE,MG,SBCF,2020-12-18,02:34:00,NÃO,NaT,0


In [18]:
#Ocorrências do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
2996,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,SIM,2018-11-07,3
2997,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,SIM,2018-06-25,0
2998,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,NÃO,NaT,0
2999,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,NÃO,NaT,0
3000,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,SIM,2016-06-16,6
...,...,...,...,...,...,...,...,...,...,...,...
3462,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,SIM,2017-08-01,0
3463,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,NÃO,NaT,0
3464,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,NÃO,NaT,0
3465,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,SIM,2018-07-27,2


In [19]:
#Ocorrências do ano de 2015 e mês 02
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 2
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
3040,52984,52984,ACIDENTE,NOVA LIMA,MG,SJLY,2015-02-01,15:10:00,SIM,2016-04-22,0
3041,53082,53082,INCIDENTE,SÃO PAULO,SP,,2015-02-01,12:15:00,NÃO,NaT,0
3042,52974,52974,ACIDENTE,PRESIDENTE OLEGÁRIO,MG,,2015-02-02,19:50:00,NÃO,NaT,0
3043,53006,53006,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2015-02-02,10:30:00,NÃO,NaT,0
3044,52988,52988,ACIDENTE,JOINVILLE,SC,SBJV,2015-02-03,17:45:00,SIM,2015-10-13,1
3045,52999,52999,INCIDENTE,ILHÉUS,BA,SBIL,2015-02-03,14:55:00,NÃO,NaT,0
3046,53105,53105,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,PR,,2015-02-03,20:00:00,NÃO,NaT,0
3047,53309,53309,INCIDENTE GRAVE,ASSIS CHATEAUBRIAND,PR,,2015-02-04,19:50:00,SIM,2015-10-19,0
3048,53111,53111,ACIDENTE,TAPIRA,PR,,2015-02-05,10:40:00,SIM,2015-11-16,1
3049,53226,53226,INCIDENTE,MARABÁ,PA,SBMA,2015-02-05,17:55:00,NÃO,NaT,0


In [20]:
#Ocorrências do ano de 2015 e mês 02 e dia entre 2 e 6
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 2
filtro3 = (df.ocorrencia_dia.dt.day >=2) & (df.ocorrencia_dia.dt.day <=6)
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes
3042,52974,52974,ACIDENTE,PRESIDENTE OLEGÁRIO,MG,,2015-02-02,19:50:00,NÃO,NaT,0
3043,53006,53006,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2015-02-02,10:30:00,NÃO,NaT,0
3044,52988,52988,ACIDENTE,JOINVILLE,SC,SBJV,2015-02-03,17:45:00,SIM,2015-10-13,1
3045,52999,52999,INCIDENTE,ILHÉUS,BA,SBIL,2015-02-03,14:55:00,NÃO,NaT,0
3046,53105,53105,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,PR,,2015-02-03,20:00:00,NÃO,NaT,0
3047,53309,53309,INCIDENTE GRAVE,ASSIS CHATEAUBRIAND,PR,,2015-02-04,19:50:00,SIM,2015-10-19,0
3048,53111,53111,ACIDENTE,TAPIRA,PR,,2015-02-05,10:40:00,SIM,2015-11-16,1
3049,53226,53226,INCIDENTE,MARABÁ,PA,SBMA,2015-02-05,17:55:00,NÃO,NaT,0
3050,53003,53003,INCIDENTE,CUIABÁ,MT,SBCY,2015-02-06,11:50:00,NÃO,NaT,0
3051,53004,53004,INCIDENTE,VITÓRIA DA CONQUISTA,BA,SBQV,2015-02-06,18:24:00,NÃO,NaT,0


In [21]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + " " + df.ocorrencia_hora)

In [22]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,NÃO,NaT,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,NÃO,NaT,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,NÃO,NaT,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,SIM,2019-10-28,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,NÃO,NaT,0,2010-01-05 19:25:00


In [23]:
df.dtypes

codigo_ocorrencia                          int64
codigo_ocorrencia1                         int64
ocorrencia_classificacao                  object
ocorrencia_cidade                         object
ocorrencia_uf                             object
ocorrencia_aerodromo                      object
ocorrencia_dia                    datetime64[ns]
ocorrencia_hora                           object
divulgacao_relatorio_publicado            object
divulgacao_dia_publicacao         datetime64[ns]
total_recomendacoes                        int64
ocorrencia_dia_hora               datetime64[ns]
dtype: object

In [24]:
#Ocorrências do ano de 2015 e mês 02 e dia entre 2 e 6
filtro1 = df.ocorrencia_dia_hora.dt.year == 2015
filtro2 = df.ocorrencia_dia_hora.dt.month == 2
filtro3 = (df.ocorrencia_dia_hora.dt.day >=2) & (df.ocorrencia_dia.dt.day <=6)
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,ocorrencia_dia_hora
3042,52974,52974,ACIDENTE,PRESIDENTE OLEGÁRIO,MG,,2015-02-02,19:50:00,NÃO,NaT,0,2015-02-02 19:50:00
3043,53006,53006,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2015-02-02,10:30:00,NÃO,NaT,0,2015-02-02 10:30:00
3044,52988,52988,ACIDENTE,JOINVILLE,SC,SBJV,2015-02-03,17:45:00,SIM,2015-10-13,1,2015-02-03 17:45:00
3045,52999,52999,INCIDENTE,ILHÉUS,BA,SBIL,2015-02-03,14:55:00,NÃO,NaT,0,2015-02-03 14:55:00
3046,53105,53105,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,PR,,2015-02-03,20:00:00,NÃO,NaT,0,2015-02-03 20:00:00
3047,53309,53309,INCIDENTE GRAVE,ASSIS CHATEAUBRIAND,PR,,2015-02-04,19:50:00,SIM,2015-10-19,0,2015-02-04 19:50:00
3048,53111,53111,ACIDENTE,TAPIRA,PR,,2015-02-05,10:40:00,SIM,2015-11-16,1,2015-02-05 10:40:00
3049,53226,53226,INCIDENTE,MARABÁ,PA,SBMA,2015-02-05,17:55:00,NÃO,NaT,0,2015-02-05 17:55:00
3050,53003,53003,INCIDENTE,CUIABÁ,MT,SBCY,2015-02-06,11:50:00,NÃO,NaT,0,2015-02-06 11:50:00
3051,53004,53004,INCIDENTE,VITÓRIA DA CONQUISTA,BA,SBQV,2015-02-06,18:24:00,NÃO,NaT,0,2015-02-06 18:24:00


In [25]:
#Ocorrências do ano de 2015 e mês 02
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 2
df201502 = df.loc[filtro1 & filtro2]
df201502

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,ocorrencia_dia_hora
3040,52984,52984,ACIDENTE,NOVA LIMA,MG,SJLY,2015-02-01,15:10:00,SIM,2016-04-22,0,2015-02-01 15:10:00
3041,53082,53082,INCIDENTE,SÃO PAULO,SP,,2015-02-01,12:15:00,NÃO,NaT,0,2015-02-01 12:15:00
3042,52974,52974,ACIDENTE,PRESIDENTE OLEGÁRIO,MG,,2015-02-02,19:50:00,NÃO,NaT,0,2015-02-02 19:50:00
3043,53006,53006,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2015-02-02,10:30:00,NÃO,NaT,0,2015-02-02 10:30:00
3044,52988,52988,ACIDENTE,JOINVILLE,SC,SBJV,2015-02-03,17:45:00,SIM,2015-10-13,1,2015-02-03 17:45:00
3045,52999,52999,INCIDENTE,ILHÉUS,BA,SBIL,2015-02-03,14:55:00,NÃO,NaT,0,2015-02-03 14:55:00
3046,53105,53105,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,PR,,2015-02-03,20:00:00,NÃO,NaT,0,2015-02-03 20:00:00
3047,53309,53309,INCIDENTE GRAVE,ASSIS CHATEAUBRIAND,PR,,2015-02-04,19:50:00,SIM,2015-10-19,0,2015-02-04 19:50:00
3048,53111,53111,ACIDENTE,TAPIRA,PR,,2015-02-05,10:40:00,SIM,2015-11-16,1,2015-02-05 10:40:00
3049,53226,53226,INCIDENTE,MARABÁ,PA,SBMA,2015-02-05,17:55:00,NÃO,NaT,0,2015-02-05 17:55:00


In [26]:
df201502.count()

codigo_ocorrencia                 46
codigo_ocorrencia1                46
ocorrencia_classificacao          46
ocorrencia_cidade                 46
ocorrencia_uf                     46
ocorrencia_aerodromo              28
ocorrencia_dia                    46
ocorrencia_hora                   46
divulgacao_relatorio_publicado    46
divulgacao_dia_publicacao         15
total_recomendacoes               46
ocorrencia_dia_hora               46
dtype: int64

In [27]:
df201502.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           14
INCIDENTE          27
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [28]:
df201502.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           14
INCIDENTE          27
INCIDENTE GRAVE     5
dtype: int64

In [29]:
df201502.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           14
INCIDENTE          27
dtype: int64

In [30]:
filtro1 = df.ocorrencia_dia.dt.year == 2012
filtro2 = df.ocorrencia_uf.isin(['MG', 'ES', 'SP', 'RJ'])
dfsudeste2012 = df.loc[filtro1 & filtro2]
dfsudeste2012

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,ocorrencia_dia_hora
1129,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,SIM,2016-09-01,3,2012-01-06 13:44:00
1131,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,NÃO,NaT,0,2012-01-06 17:00:00
1133,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,NÃO,NaT,0,2012-01-06 14:30:00
1134,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,SIM,2014-01-08,0,2012-01-07 18:15:00
1136,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,NÃO,NaT,0,2012-01-08 16:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...
1768,46793,46793,INCIDENTE,SÃO PAULO,SP,,2012-12-28,16:30:00,NÃO,NaT,0,2012-12-28 16:30:00
1769,46780,46780,ACIDENTE,SANTA FÉ DO SUL,SP,,2012-12-29,21:00:00,NÃO,NaT,0,2012-12-29 21:00:00
1770,46814,46814,INCIDENTE,BELO HORIZONTE,MG,SBBH,2012-12-29,15:10:00,NÃO,NaT,0,2012-12-29 15:10:00
1771,46839,46839,ACIDENTE,RIO DE JANEIRO,RJ,,2012-12-29,19:00:00,NÃO,NaT,0,2012-12-29 19:00:00


In [31]:
dfsudeste2012.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            86
INCIDENTE          188
INCIDENTE GRAVE     30
dtype: int64

In [32]:
dfsudeste2012.count()

codigo_ocorrencia                 304
codigo_ocorrencia1                304
ocorrencia_classificacao          304
ocorrencia_cidade                 304
ocorrencia_uf                     304
ocorrencia_aerodromo              178
ocorrencia_dia                    304
ocorrencia_hora                   304
divulgacao_relatorio_publicado    304
divulgacao_dia_publicacao          78
total_recomendacoes               304
ocorrencia_dia_hora               304
dtype: int64

In [33]:
dfsudeste2012.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  ES                1
                          MG               21
                          RJ               14
                          SP               50
INCIDENTE                 ES               11
                          MG               37
                          RJ               53
                          SP               87
INCIDENTE GRAVE           MG                9
                          RJ                5
                          SP               16
dtype: int64

In [34]:
dfsudeste2012.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO          36
SÃO PAULO               31
BELO HORIZONTE          25
MACAÉ                   17
CAMPINAS                17
                        ..
GURINHATÃ                1
GUARUJÁ                  1
GUARATINGUETÁ            1
GOVERNADOR VALADARES     1
ITUIUTABA                1
Length: 90, dtype: int64

In [35]:
filtro = dfsudeste2012.ocorrencia_cidade == 'BELO HORIZONTE'
dfsudeste2012.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,ocorrencia_dia_hora
1148,52247,52247,INCIDENTE,BELO HORIZONTE,MG,SBPR,2012-01-18,13:10:00,NÃO,NaT,0,2012-01-18 13:10:00
1165,45802,45802,INCIDENTE,BELO HORIZONTE,MG,SBBH,2012-01-26,17:00:00,NÃO,NaT,0,2012-01-26 17:00:00
1194,45678,45678,INCIDENTE,BELO HORIZONTE,MG,SBPR,2012-02-10,22:05:00,NÃO,NaT,0,2012-02-10 22:05:00
1210,45714,45714,INCIDENTE,BELO HORIZONTE,MG,SBBH,2012-02-22,19:35:00,NÃO,NaT,0,2012-02-22 19:35:00
1270,45784,45784,INCIDENTE,BELO HORIZONTE,MG,,2012-03-26,17:45:00,NÃO,NaT,0,2012-03-26 17:45:00
1282,45774,45774,INCIDENTE,BELO HORIZONTE,MG,SBBH,2012-03-30,13:31:00,NÃO,NaT,0,2012-03-30 13:31:00
1291,45733,45733,ACIDENTE,BELO HORIZONTE,MG,,2012-04-05,17:00:00,NÃO,NaT,0,2012-04-05 17:00:00
1297,45803,45803,INCIDENTE,BELO HORIZONTE,MG,SBBH,2012-04-12,10:30:00,NÃO,NaT,0,2012-04-12 10:30:00
1317,46055,46055,INCIDENTE,BELO HORIZONTE,MG,,2012-04-25,20:24:00,NÃO,NaT,0,2012-04-25 20:24:00
1373,45929,45929,ACIDENTE,BELO HORIZONTE,MG,SBPR,2012-05-26,11:00:00,SIM,2015-11-30,0,2012-05-26 11:00:00


In [36]:
filtro = dfsudeste2012.total_recomendacoes >0
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

ocorrencia_cidade
ANGRA DOS REIS        1
JUIZ DE FORA          1
DRACENA               1
CAMPINAS              1
TARUMIRIM             1
ITÁPOLIS              2
CAMPO FLORIDO         2
LENÇÓIS PAULISTA      2
ESPINOSA              2
JUNDIAÍ               2
BEBEDOURO             2
ITANHAÉM              2
JUQUIÁ                3
GUARUJÁ               3
BELO HORIZONTE        3
CATANDUVA             3
GUARULHOS             4
MACAÉ                 4
BRAGANÇA PAULISTA     4
BOITUVA               7
SÃO PAULO             8
RIO DE JANEIRO       11
Name: total_recomendacoes, dtype: int64

In [37]:
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2012.ocorrencia_dia.dt.month]).total_recomendacoes.sum().sort_values()

ocorrencia_cidade  ocorrencia_dia
ANGRA DOS REIS     7                 1
SÃO PAULO          6                 1
                   5                 1
RIO DE JANEIRO     12                1
                   7                 1
GUARULHOS          4                 1
DRACENA            5                 1
JUIZ DE FORA       7                 1
TARUMIRIM          8                 1
CAMPINAS           8                 1
SÃO PAULO          11                2
                   7                 2
BEBEDOURO          7                 2
RIO DE JANEIRO     1                 2
LENÇÓIS PAULISTA   5                 2
JUNDIAÍ            4                 2
CAMPO FLORIDO      2                 2
ITÁPOLIS           12                2
ITANHAÉM           4                 2
ESPINOSA           7                 2
SÃO PAULO          12                2
JUQUIÁ             10                3
CATANDUVA          10                3
RIO DE JANEIRO     8                 3
BELO HORIZONTE     8          