In [1]:
import pandas as pd
import pandera as pa

In [2]:
# relação de valores que serão substituídos por Dados Não Disponíveis
valores_ausentes = ['**', '###!', '####', '****', '*****', 'NULL']

df = pd.read_csv("ocorrencia.csv", parse_dates=['ocorrencia_dia'], dayfirst=True, infer_datetime_format=True, na_values=valores_ausentes)
df.head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0


In [3]:
schema = pa.DataFrameSchema(
    columns={        
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5145,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5146,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5147,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5148,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [5]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [6]:
df.loc[1]

codigo_ocorrencia                         45331
codigo_ocorrencia2                        45331
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                     GUARULHOS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBGR
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:44:00
total_recomendacoes                           3
Name: 1, dtype: object

In [7]:
df.iloc[1]

codigo_ocorrencia                         45331
codigo_ocorrencia2                        45331
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                     GUARULHOS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBGR
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:44:00
total_recomendacoes                           3
Name: 1, dtype: object

In [8]:
# como 'iloc' é uma localização baseada em índice, o valor negativo é aceito
df.iloc[-1]

codigo_ocorrencia                         80467
codigo_ocorrencia2                        80467
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                     PETROLINA
ocorrencia_uf                                PE
ocorrencia_aerodromo                       SBPL
ocorrencia_dia              2021-12-31 00:00:00
ocorrencia_hora                        20:30:00
total_recomendacoes                           0
Name: 5149, dtype: object

In [9]:
df.tail()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5145,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5146,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5147,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5148,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0
5149,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0


In [10]:
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0


In [11]:
df.loc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0


In [12]:
# retorna todas as linhas da coluna
df.loc[:, 'ocorrencia_uf']

0       RS
1       SP
2       RS
3       SP
4       RS
        ..
5145    GO
5146    SP
5147    RS
5148    PR
5149    PE
Name: ocorrencia_uf, Length: 5150, dtype: object

In [13]:
# retorna todas as linhas da coluna
df['ocorrencia_uf']

0       RS
1       SP
2       RS
3       SP
4       RS
        ..
5145    GO
5146    SP
5147    RS
5148    PR
5149    PE
Name: ocorrencia_uf, Length: 5150, dtype: object

In [14]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1897
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [15]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1897
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [16]:
df.ocorrencia_uf.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
5145    False
5146    False
5147    False
5148    False
5149    False
Name: ocorrencia_uf, Length: 5150, dtype: bool

In [17]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0
4718,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


In [18]:
df.count()

codigo_ocorrencia           5150
codigo_ocorrencia2          5150
ocorrencia_classificacao    5150
ocorrencia_cidade           5150
ocorrencia_uf               5148
ocorrencia_aerodromo        3253
ocorrencia_dia              5150
ocorrencia_hora             5149
total_recomendacoes         5150
dtype: int64

In [19]:
# ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11
1669,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13
2802,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12


In [20]:
# exibe as cidades com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, 'ocorrencia_cidade']

844     BRASÍLIA
1669      SANTOS
2802     VITÓRIA
Name: ocorrencia_cidade, dtype: object

In [21]:
# exibe colunas com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
844,BRASÍLIA,11
1669,SANTOS,13
2802,VITÓRIA,12


In [22]:
# exibe colunas cuja classificação == 'INCIDENTE GRAVE'
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
6,CAMPINAS,0
12,MARABÁ,0
18,CAMOCIM,0
19,MUANÁ,0
24,RONDONÓPOLIS,0
...,...,...
5122,NOVA BANDEIRANTES,0
5129,FORMOSO DO ARAGUAIA,0
5141,ARAÇATUBA,0
5142,SANTA RITA,0


In [23]:
# exibe colunas cuja classificação == 'INCIDENTE GRAVE' e o Estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
78,45598,45598,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-20,14:10:00,0
86,45653,45653,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2012-02-24,20:04:00,0
91,45599,45599,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-27,19:15:00,0
140,45651,45651,INCIDENTE GRAVE,ITU,SP,,2012-03-24,20:45:00,1
...,...,...,...,...,...,...,...,...,...
4939,80200,80200,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-07-25,12:25:00,0
4965,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11,19:09:00,0
4988,80265,80265,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2021-08-31,16:50:00,0
5081,80382,80382,INCIDENTE GRAVE,PIRACICABA,SP,SDPW,2021-11-16,20:50:00,0


In [24]:
# exibe colunas cuja classificação == 'INCIDENTE GRAVE' ou o Estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
...,...,...,...,...,...,...,...,...,...
5141,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5142,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0
5144,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0
5146,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0


In [25]:
# exibe colunas cuja (classificação == 'INCIDENTE GRAVE' ou classificação == 'INCIDENTE') e
#  o Estado == 'SP'
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,09:30:00,0
...,...,...,...,...,...,...,...,...,...
5117,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0
5126,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0
5140,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0
5141,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0


In [26]:
# ocorrências cuja cidade comece com a letra C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0
18,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,SNWC,2012-01-17,18:25:00,0
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5125,80434,80434,ACIDENTE,CARACOL,MS,,2021-12-14,21:35:00,0
5127,80447,80447,INCIDENTE,CONFINS,MG,SBCF,2021-12-15,17:10:00,0
5133,80445,80445,ACIDENTE,CHUPINGUAIA,RO,,2021-12-20,12:05:00,0
5140,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0


In [27]:
# ocorrências cuja cidade comece com os caracteres NA
filtro = df.ocorrencia_cidade.str[-2:] == 'NA'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
51,45587,45587,ACIDENTE,CORRENTINA,BA,,2012-02-05,20:27:00,0
52,52056,52056,INCIDENTE,LONDRINA,PR,SBLO,2012-02-05,17:34:00,0
54,45572,45572,ACIDENTE,PALESTINA,SP,,2012-02-06,19:30:00,0
113,45612,45612,INCIDENTE,LONDRINA,PR,SBLO,2012-03-10,16:35:00,0
172,45750,45750,ACIDENTE,ITIRAPINA,SP,,2012-04-13,15:45:00,0
...,...,...,...,...,...,...,...,...,...
5025,80311,80311,ACIDENTE,VILHENA,RO,,2021-09-29,15:10:00,0
5030,80323,80323,INCIDENTE,TERESINA,PI,SBTE,2021-10-08,16:20:00,0
5052,80348,80348,ACIDENTE,VILHENA,RO,,2021-10-24,18:40:00,0
5083,80394,80394,INCIDENTE,TERESINA,PI,SBTE,2021-11-17,14:40:00,0


In [28]:
# ocorrências cuja cidade comece com os caracteres NA
filtro = df.ocorrencia_cidade.str.contains('NA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
51,45587,45587,ACIDENTE,CORRENTINA,BA,,2012-02-05,20:27:00,0
52,52056,52056,INCIDENTE,LONDRINA,PR,SBLO,2012-02-05,17:34:00,0
54,45572,45572,ACIDENTE,PALESTINA,SP,,2012-02-06,19:30:00,0
68,45466,45466,ACIDENTE,CAMPINAS,SP,SDAM,2012-02-12,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5112,80433,80433,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-07,22:00:00,0
5120,80426,80426,ACIDENTE,ANAURILÂNDIA,MS,,2021-12-11,20:00:00,0
5140,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0
5143,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0


In [29]:
# ocorrências cuja cidade comece com os caracteres MA ou AL
filtro = df.ocorrencia_cidade.str.contains('MA|AL')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
16,45693,45693,INCIDENTE,MACAÉ,RJ,,2012-01-14,10:30:00,0
...,...,...,...,...,...,...,...,...,...
5136,80461,80461,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-24,03:30:00,0
5137,80468,80468,INCIDENTE,SALVADOR,BA,SBSV,2021-12-26,16:56:00,0
5139,80463,80463,INCIDENTE,MARINGÁ,PR,SBMG,2021-12-28,16:11:00,0
5143,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0


In [30]:
# ocorrências do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1868,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3
1869,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0
1870,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0
1871,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0
1872,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6
...,...,...,...,...,...,...,...,...,...
2334,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0
2335,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0
2336,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0
2337,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2


In [31]:
# ocorrências do ano de 2015, mês 12 e dia 8
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = df.ocorrencia_dia.dt.day == 8
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2308,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
2309,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
2310,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
2311,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [32]:
# ocorrências do ano de 2015, mês 12 e dia > 2 e < 9
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
filtro_dia_inicio = df.ocorrencia_dia.dt.day > 2
filtro_dia_fim = df.ocorrencia_dia.dt.day < 9
df.loc[filtro1 & filtro2 & filtro_dia_inicio & filtro_dia_fim]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2304,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
2305,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
2306,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
2307,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
2308,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
2309,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
2310,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
2311,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [33]:
# constroi uma nova coluna concatenando duas colunas existentes
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
df.ocorrencia_dia_hora

0      2012-01-05 20:27:00
1      2012-01-06 13:44:00
2      2012-01-06 13:00:00
3      2012-01-06 17:00:00
4      2012-01-06 16:30:00
               ...        
5145   2021-12-30 20:30:00
5146   2021-12-31 09:30:00
5147   2021-12-31 11:59:00
5148   2021-12-31 15:12:00
5149   2021-12-31 20:30:00
Name: ocorrencia_dia_hora, Length: 5150, dtype: datetime64[ns]

In [34]:
# ocorrências do ano de 2015, mês 12 e dia > 2 e < 9
filtro_ano = df.ocorrencia_dia_hora.dt.year == 2015
filtro_mes = df.ocorrencia_dia_hora.dt.month == 12
filtro_dia_inicio = df.ocorrencia_dia_hora.dt.day > 2
filtro_dia_fim = df.ocorrencia_dia_hora.dt.day < 9
df.loc[filtro1 & filtro2 & filtro_dia_inicio & filtro_dia_fim]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2304,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0,2015-12-03 10:50:00
2305,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2306,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2307,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2308,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2309,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2310,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0,2015-12-08 16:19:00
2311,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [35]:
filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2305,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2306,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2307,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2309,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2311,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [36]:
# ocorrências do ano de 2015 e mês 03
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1958,53183,53183,ACIDENTE,AMAPORÃ,PR,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
1959,53120,53120,ACIDENTE,CHAVES,PA,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
1960,53109,53109,ACIDENTE,CAMPO GRANDE,MS,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00
1961,53112,53112,ACIDENTE,MOGI GUAÇU,SP,,2015-03-06,21:00:00,1,2015-03-06 21:00:00
1962,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
1963,53167,53167,INCIDENTE,MARABÁ,PA,SBMA,2015-03-10,17:33:00,0,2015-03-10 17:33:00
1964,53596,53596,INCIDENTE,ITAPEMA,SC,,2015-03-10,21:35:00,0,2015-03-10 21:35:00
1965,53149,53149,ACIDENTE,TABATINGA,AM,SBTT,2015-03-11,23:25:00,0,2015-03-11 23:25:00
1966,53148,53148,ACIDENTE,ARARAS,SP,SDEH,2015-03-12,12:40:00,0,2015-03-12 12:40:00
1967,53153,53153,INCIDENTE,PORTO ALEGRE,RS,SBPA,2015-03-13,15:45:00,0,2015-03-13 15:45:00


In [37]:
df.count()

codigo_ocorrencia           5150
codigo_ocorrencia2          5150
ocorrencia_classificacao    5150
ocorrencia_cidade           5150
ocorrencia_uf               5148
ocorrencia_aerodromo        3253
ocorrencia_dia              5150
ocorrencia_hora             5149
total_recomendacoes         5150
ocorrencia_dia_hora         5149
dtype: int64

In [38]:
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [39]:
df201503.groupby(['codigo_ocorrencia']).count()

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
53109,1,1,1,1,1,1,1,1,1
53112,1,1,1,1,0,1,1,1,1
53120,1,1,1,1,1,1,1,1,1
53148,1,1,1,1,1,1,1,1,1
53149,1,1,1,1,1,1,1,1,1
53151,1,1,1,1,1,1,1,1,1
53152,1,1,1,1,1,1,1,1,1
53153,1,1,1,1,1,1,1,1,1
53154,1,1,1,1,1,1,1,1,1
53164,1,1,1,1,0,1,1,1,1


In [40]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [41]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [42]:
# Return an int representing the number of elements in this object.
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [43]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [44]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [45]:
filtro1 = df.ocorrencia_dia.dt.year == 2012
filtro2 = df.ocorrencia_uf.isin(['SP1', 'MG', 'ES', 'RJ'])
dfsudeste2012 = df.loc[filtro1 & filtro2]
dfsudeste2012

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0,2012-01-08 16:00:00
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0,2012-01-08 22:13:00
16,45693,45693,INCIDENTE,MACAÉ,RJ,,2012-01-14,10:30:00,0,2012-01-14 10:30:00
20,52247,52247,INCIDENTE,BELO HORIZONTE,MG,SBPR,2012-01-18,13:10:00,0,2012-01-18 13:10:00
27,52241,52241,INCIDENTE GRAVE,UBERLÂNDIA,MG,SBUL,2012-01-21,20:45:00,0,2012-01-21 20:45:00
...,...,...,...,...,...,...,...,...,...,...
631,46842,46842,ACIDENTE,ITUIUTABA,MG,,2012-12-22,21:30:00,0,2012-12-22 21:30:00
636,46840,46840,ACIDENTE,PARÁ DE MINAS,MG,,2012-12-26,21:50:00,2,2012-12-26 21:50:00
638,46841,46841,ACIDENTE,ANGRA DOS REIS,RJ,SDMC,2012-12-27,16:03:00,0,2012-12-27 16:03:00
642,46814,46814,INCIDENTE,BELO HORIZONTE,MG,SBBH,2012-12-29,15:10:00,0,2012-12-29 15:10:00


In [46]:
dfsudeste2012.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            36
INCIDENTE          101
INCIDENTE GRAVE     14
dtype: int64

In [47]:
dfsudeste2012.count()

codigo_ocorrencia           151
codigo_ocorrencia2          151
ocorrencia_classificacao    151
ocorrencia_cidade           151
ocorrencia_uf               151
ocorrencia_aerodromo         85
ocorrencia_dia              151
ocorrencia_hora             151
total_recomendacoes         151
ocorrencia_dia_hora         151
dtype: int64

In [48]:
dfsudeste2012.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  ES                1
                          MG               21
                          RJ               14
INCIDENTE                 ES               11
                          MG               37
                          RJ               53
INCIDENTE GRAVE           MG                9
                          RJ                5
dtype: int64

In [49]:
dfsudeste2012.groupby(['ocorrencia_classificacao', 'ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_classificacao  ocorrencia_cidade    
INCIDENTE                 RIO DE JANEIRO           27
                          BELO HORIZONTE           21
                          MACAÉ                    15
                          VITÓRIA                  10
                          CONFINS                   7
ACIDENTE                  RIO DE JANEIRO            7
INCIDENTE                 CABO FRIO                 5
                          CAMPOS DOS GOYTACAZES     5
ACIDENTE                  MARICÁ                    3
                          BELO HORIZONTE            3
INCIDENTE                 UBERLÂNDIA                3
ACIDENTE                  ANGRA DOS REIS            3
INCIDENTE GRAVE           RIO DE JANEIRO            2
                          MARICÁ                    2
                          UBERLÂNDIA                2
ACIDENTE                  OLIVEIRA                  1
                          PARÁ DE MINAS             1
INCIDENTE                 SERRA   

In [50]:
dfsudeste2012.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           36
BELO HORIZONTE           25
MACAÉ                    17
VITÓRIA                  10
CONFINS                   7
UBERLÂNDIA                6
MARICÁ                    6
CAMPOS DOS GOYTACAZES     5
CABO FRIO                 5
ANGRA DOS REIS            3
UBERABA                   2
JUIZ DE FORA              2
VARGINHA                  1
TIROS                     1
OLIVEIRA                  1
SERRA                     1
VILA VELHA                1
QUELUZITO                 1
PRATA                     1
POÇOS DE CALDAS           1
PARÁ DE MINAS             1
OURO FINO                 1
TARUMIRIM                 1
ALFENAS                   1
MONTES CLAROS             1
ITAJUBÁ                   1
IPATINGA                  1
IBIÁ                      1
GURINHATÃ                 1
GOVERNADOR VALADARES      1
FELIXLÂNDIA               1
ESPINOSA                  1
DELTA                     1
COROMANDEL                1
CONCEIÇÃO DAS ALAGOAS     1
CA

In [51]:
filtro = dfsudeste2012.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2012.loc[filtro].total_recomendacoes.sum()

11

In [52]:
filtro1 = dfsudeste2012.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
30,45397,45397,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,,2012-01-22,19:05:00,2,2012-01-22 19:05:00
60,45588,45588,ACIDENTE,RIO DE JANEIRO,RJ,,2012-02-07,20:56:00,4,2012-02-07 20:56:00
339,46172,46172,ACIDENTE,RIO DE JANEIRO,RJ,,2012-07-24,19:10:00,1,2012-07-24 19:10:00
381,46263,46263,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBJR,2012-08-17,15:15:00,3,2012-08-17 15:15:00
595,46706,46706,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2012-12-05,17:40:00,1,2012-12-05 17:40:00


In [53]:
filtro = dfsudeste2012.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2012.loc[filtro].total_recomendacoes.sum()

11

In [54]:
dfsudeste2012.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           11
MACAÉ                     4
BELO HORIZONTE            3
CAMPO FLORIDO             2
PARÁ DE MINAS             2
ESPINOSA                  2
TARUMIRIM                 1
ANGRA DOS REIS            1
JUIZ DE FORA              1
UBERLÂNDIA                0
UBERABA                   0
TIROS                     0
SERRA                     0
MONTES CLAROS             0
VILA VELHA                0
QUELUZITO                 0
PRATA                     0
POÇOS DE CALDAS           0
VARGINHA                  0
OURO FINO                 0
OLIVEIRA                  0
ALFENAS                   0
ITUIUTABA                 0
MARICÁ                    0
ITAJUBÁ                   0
IPATINGA                  0
IBIÁ                      0
GURINHATÃ                 0
GOVERNADOR VALADARES      0
FELIXLÂNDIA               0
DELTA                     0
COROMANDEL                0
CONFINS                   0
CONCEIÇÃO DAS ALAGOAS     0
CARLOS CHAGAS             0
CA

In [55]:
# agrupa os valores NaN
dfsudeste2012.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()

ocorrencia_aerodromo
SBBH     0
SBBZ     0
SBCB     0
SBCF     0
SBCP     0
SBGL     0
SBIP     0
SBJF     0
SBJR     4
SBME     0
SBPC     0
SBPR     3
SBRJ     0
SBUL     0
SBUR     0
SBVT     0
SDMC     0
SJPT     0
SNHH     0
SNOF     0
NaN     20
Name: total_recomendacoes, dtype: int64

In [56]:
# retorna os registros que tenham recomendações
filtro = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade'], dropna=False).total_recomendacoes.sum()

ocorrencia_cidade
ANGRA DOS REIS     1
BELO HORIZONTE     3
CAMPO FLORIDO      2
ESPINOSA           2
JUIZ DE FORA       1
MACAÉ              4
PARÁ DE MINAS      2
RIO DE JANEIRO    11
TARUMIRIM          1
Name: total_recomendacoes, dtype: int64

In [57]:
# ordena pelas cidades
filtro = dfsudeste2012.total_recomendacoes > 0
dfsudeste2012.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2012.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade  ocorrencia_dia
ANGRA DOS REIS     7                 1
BELO HORIZONTE     8                 3
CAMPO FLORIDO      2                 2
ESPINOSA           7                 2
JUIZ DE FORA       7                 1
MACAÉ              2                 4
PARÁ DE MINAS      12                2
RIO DE JANEIRO     1                 2
                   2                 4
                   7                 1
                   8                 3
                   12                1
TARUMIRIM          8                 1
Name: total_recomendacoes, dtype: int64

In [59]:
filtro1 = dfsudeste2012.total_recomendacoes > 0
filtro2 = dfsudeste2012.ocorrencia_cidade == 'PARÁ DE MINAS'
dfsudeste2012.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
636,46840,46840,ACIDENTE,PARÁ DE MINAS,MG,,2012-12-26,21:50:00,2,2012-12-26 21:50:00
