In [1]:
#Biblioteca pandera utilizada para criar um schema do df
import pandas as pd
import pandera as pa 

In [2]:
valores_ausentes = ['**','***','###!','####','****','*****','NULL']
df = pd.read_csv('dados_brutos\ocorrencia.csv', sep = ';', parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes, encoding='latin-1')
df.head(3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,52242,52242,52242,52242,52242,INCIDENTE,,,PORTO ALEGRE,RS,...,2012-01-05,20:27:00,,FINALIZADA,,NÃO,,0,1,NÃO
1,45331,45331,45331,45331,45331,ACIDENTE,-23.4355555556,-46.4730555556,GUARULHOS,SP,...,2012-01-06,13:44:00,SIM,FINALIZADA,A-582/CENIPA/2014,SIM,2016-09-01,3,1,NÃO
2,45333,45333,45333,45333,45333,ACIDENTE,,,VIAMÃO,RS,...,2012-01-06,13:00:00,,FINALIZADA,A-070/CENIPA/2013,SIM,2013-11-27,0,1,NÃO


In [3]:
#Excluir colunas que não serão utilizadas no projeto
df.drop(['codigo_ocorrencia1','codigo_ocorrencia3','codigo_ocorrencia4','ocorrencia_latitude','ocorrencia_longitude','ocorrencia_pais','investigacao_aeronave_liberada','investigacao_status','divulgacao_relatorio_numero','divulgacao_relatorio_publicado','divulgacao_dia_publicacao','total_aeronaves_envolvidas','ocorrencia_saida_pista'], axis=1, inplace=True)
df.head(3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0


In [4]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String, pa.Check.str_length(2,2),nullable=True),
        'ocorrencia_aerodromo':pa.Column(pa.String,nullable=True),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        'total_recomendacoes':pa.Column(pa.Int)
})

In [5]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,09:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [6]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [7]:
df.loc[1]

codigo_ocorrencia                         45331
codigo_ocorrencia2                        45331
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                     GUARULHOS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBGR
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:44:00
total_recomendacoes                           3
Name: 1, dtype: object

In [8]:
#iloc utiliza o index (label)
df.iloc[1]

codigo_ocorrencia                         45331
codigo_ocorrencia2                        45331
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                     GUARULHOS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBGR
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:44:00
total_recomendacoes                           3
Name: 1, dtype: object

In [9]:
#Criar um filtro para verificar os valores nulos de uma coluna 
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0
4728,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


In [10]:
#Conta os valores por coluna do dataframe
df.count()

codigo_ocorrencia           5167
codigo_ocorrencia2          5167
ocorrencia_classificacao    5167
ocorrencia_cidade           5167
ocorrencia_uf               5165
ocorrencia_aerodromo        3262
ocorrencia_dia              5167
ocorrencia_hora             5166
total_recomendacoes         5167
dtype: int64

In [11]:
#Criar um filtro para verificar as ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11
1669,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13
2804,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12


In [12]:
#Criar um filtro para verificar as ocorrências com mais de 10 recomendações
#e retornar apenas algumas colunas
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
844,BRASÍLIA,11
1669,SANTOS,13
2804,VITÓRIA,12


In [13]:
#Criar um filtro para verificar as ocorrências em estado = SP e INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2, ['ocorrencia_uf', 'ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
6,SP,INCIDENTE GRAVE
78,SP,INCIDENTE GRAVE
86,SP,INCIDENTE GRAVE
91,SP,INCIDENTE GRAVE
140,SP,INCIDENTE GRAVE
...,...,...
4954,SP,INCIDENTE GRAVE
4980,SP,INCIDENTE GRAVE
5003,SP,INCIDENTE GRAVE
5098,SP,INCIDENTE GRAVE


In [14]:
#Criar um filtro para verificar as ocorrências em estado = SP ou INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro | filtro2, ['ocorrencia_uf', 'ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
1,SP,ACIDENTE
3,SP,ACIDENTE
5,SP,INCIDENTE
6,SP,INCIDENTE GRAVE
12,PA,INCIDENTE GRAVE
...,...,...
5158,SP,INCIDENTE GRAVE
5159,PB,INCIDENTE GRAVE
5161,SP,INCIDENTE
5163,SP,ACIDENTE


In [15]:
#Criar um filtro para verificar as ocorrências em estado = SP ou INCIDENTE GRAVE
filtro = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2, ['ocorrencia_uf', 'ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
5,SP,INCIDENTE
6,SP,INCIDENTE GRAVE
28,SP,INCIDENTE
35,SP,INCIDENTE
36,SP,INCIDENTE
...,...,...
5134,SP,INCIDENTE
5143,SP,INCIDENTE
5157,SP,INCIDENTE
5158,SP,INCIDENTE GRAVE


In [16]:
#Criar um filtro para verificar as ocorrências em estado = SP ou INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE','INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2, ['ocorrencia_uf', 'ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
5,SP,INCIDENTE
6,SP,INCIDENTE GRAVE
28,SP,INCIDENTE
35,SP,INCIDENTE
36,SP,INCIDENTE
...,...,...
5134,SP,INCIDENTE
5143,SP,INCIDENTE
5157,SP,INCIDENTE
5158,SP,INCIDENTE GRAVE


In [17]:
#Criar um filtro para verificar as ocorrências com as cidades que começam com a letra C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0
18,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,SNWC,2012-01-17,18:25:00,0
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5142,80434,80434,ACIDENTE,CARACOL,MS,,2021-12-14,21:35:00,0
5144,80447,80447,INCIDENTE,CONFINS,MG,SBCF,2021-12-15,17:10:00,0
5150,80445,80445,ACIDENTE,CHUPINGUAIA,RO,,2021-12-20,12:05:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0


In [18]:
#Criar um filtro para verificar as ocorrências com as cidades que terminam com a letra A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0
17,52246,52246,INCIDENTE,BRASÍLIA,DF,SBBR,2012-01-16,16:47:00,0
21,45392,45392,ACIDENTE,BRASÍLIA,DF,,2012-01-19,21:30:00,2
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0
...,...,...,...,...,...,...,...,...,...
5152,80465,80465,INCIDENTE,VITÓRIA,ES,SBVT,2021-12-21,22:25:00,0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [19]:
#Criar um filtro para verificar as ocorrências com as cidades que terminam com NA
filtro = df.ocorrencia_cidade.str[-2:] == 'NA'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
51,45587,45587,ACIDENTE,CORRENTINA,BA,,2012-02-05,20:27:00,0
52,52056,52056,INCIDENTE,LONDRINA,PR,SBLO,2012-02-05,17:34:00,0
54,45572,45572,ACIDENTE,PALESTINA,SP,,2012-02-06,19:30:00,0
113,45612,45612,INCIDENTE,LONDRINA,PR,SBLO,2012-03-10,16:35:00,0
172,45750,45750,ACIDENTE,ITIRAPINA,SP,,2012-04-13,15:45:00,0
...,...,...,...,...,...,...,...,...,...
5040,80311,80311,ACIDENTE,VILHENA,RO,,2021-09-29,15:10:00,0
5045,80323,80323,INCIDENTE,TERESINA,PI,SBTE,2021-10-08,16:20:00,0
5068,80348,80348,ACIDENTE,VILHENA,RO,,2021-10-24,18:40:00,0
5100,80394,80394,INCIDENTE,TERESINA,PI,SBTE,2021-11-17,14:40:00,0


In [20]:
#Criar um filtro para verificar as ocorrências com as cidades que contêm com NA
filtro = df.ocorrencia_cidade.str.contains('NA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
51,45587,45587,ACIDENTE,CORRENTINA,BA,,2012-02-05,20:27:00,0
52,52056,52056,INCIDENTE,LONDRINA,PR,SBLO,2012-02-05,17:34:00,0
54,45572,45572,ACIDENTE,PALESTINA,SP,,2012-02-06,19:30:00,0
68,45466,45466,ACIDENTE,CAMPINAS,SP,SDAM,2012-02-12,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5129,80433,80433,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-07,22:00:00,0
5137,80426,80426,ACIDENTE,ANAURILÂNDIA,MS,,2021-12-11,20:00:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,09:00:00,0
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0


In [21]:
#Criar um filtro para verificar as ocorrências do ano 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1870,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3
1871,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0
1872,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0
1873,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0
1874,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6
...,...,...,...,...,...,...,...,...,...
2336,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0
2337,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0
2338,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0
2339,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2


In [22]:
#Criar um filtro para verificar as ocorrências de dezembro de 2015
filtro1 = df.ocorrencia_dia.dt.month == 12
filtro2 = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2302,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,02:48:00,0
2303,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0
2304,53634,53634,INCIDENTE,PALMAS,TO,SBPJ,2015-12-02,17:45:00,0
2305,53636,53636,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-12-02,17:42:00,0
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0


In [23]:
#Criar um filtro para verificar as ocorrências de 08 dezembro de 2015
filtro1 = df.ocorrencia_dia.dt.day == 8
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [24]:
#Criar um filtro para verificar as ocorrências de 03 a 08 dezembro de 2015
filtro1 = (df.ocorrencia_dia.dt.day >= 3) & (df.ocorrencia_dia.dt.day <= 8)
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro1 & filtro2 & filtro3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [25]:
#Criar uma coluna dia e hora mantendo o tipo datetime
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
df.head(3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0,2012-01-05 20:27:00
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3,2012-01-06 13:44:00
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0,2012-01-06 13:00:00


In [26]:
#Criar um filtro para verificar as ocorrências de 11h de 03/12/15 a 14h30 de 08/12/15
filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 14:30:00'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [27]:
#Criar novo df filtrando as ocorrências de março 2015
filtro1 = df.ocorrencia_dia.dt.month == 3
filtro2 = df.ocorrencia_dia.dt.year == 2015
df032015 = df.loc[filtro1 & filtro2]
df032015.head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1960,53183,53183,ACIDENTE,AMAPORÃ,PR,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
1961,53120,53120,ACIDENTE,CHAVES,PA,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
1962,53109,53109,ACIDENTE,CAMPO GRANDE,MS,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00
1963,53112,53112,ACIDENTE,MOGI GUAÇU,SP,,2015-03-06,21:00:00,1,2015-03-06 21:00:00
1964,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00


In [28]:
df032015.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [29]:
#Contar as ocorrências agrupadas pelo tipo de classificação retornando todas as colunas
df032015.groupby(['ocorrencia_classificacao']).count()

Unnamed: 0_level_0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
ocorrencia_classificacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ACIDENTE,15,15,15,15,5,15,15,15,15
INCIDENTE,17,17,17,17,14,17,17,17,17
INCIDENTE GRAVE,5,5,5,5,2,5,5,5,5


In [30]:
#Contar as ocorrências agrupadas pelo tipo de classificação
df032015.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [31]:
#Contar as ocorrências agrupadas pelo tipo de classificação ordenando em ordem crescente
df032015.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [32]:
#Contar as ocorrências agrupadas pelo tipo de classificação ordenando em ordem decrescente
df032015.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [33]:
#Criar novo df filtrando as ocorrências do sudeste em 2015
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2015 = df.loc[filtro1 & filtro2]
dfsudeste2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1873,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0,2015-01-02 20:34:00
1875,53075,53075,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-01-05,10:19:00,0,2015-01-05 10:19:00
1876,53076,53076,INCIDENTE,BRAGANÇA PAULISTA,SP,,2015-01-06,11:30:00,0,2015-01-06 11:30:00
1879,53072,53072,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-08,21:13:00,0,2015-01-08 21:13:00
1880,52994,52994,INCIDENTE,SÃO PAULO,SP,SBMT,2015-01-09,23:25:00,0,2015-01-09 23:25:00
...,...,...,...,...,...,...,...,...,...,...
2332,60602,60602,INCIDENTE,RIBEIRÃO PRETO,SP,SBRP,2015-12-22,06:27:00,0,2015-12-22 06:27:00
2333,60615,60615,INCIDENTE,SÃO PAULO,SP,SBMT,2015-12-22,13:07:00,0,2015-12-22 13:07:00
2335,60641,60641,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-23,15:53:00,0,2015-12-23 15:53:00
2336,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0,2015-12-24 14:00:00


In [34]:
#Verificar a quantidade de ocorrencias agrupada pela classificação
dfsudeste2015.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            60
INCIDENTE          128
INCIDENTE GRAVE     19
dtype: int64

In [35]:
#Verificar a quantidade de ocorrencias agrupada pela uf e pela classificação 
dfsudeste2015.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             ACIDENTE                     1
               INCIDENTE                    2
               INCIDENTE GRAVE              1
MG             ACIDENTE                    18
               INCIDENTE                   31
               INCIDENTE GRAVE              2
RJ             ACIDENTE                     6
               INCIDENTE                   17
               INCIDENTE GRAVE              7
SP             ACIDENTE                    35
               INCIDENTE                   78
               INCIDENTE GRAVE              9
dtype: int64

In [36]:
#Verificar as cidades com mais ocorrencias
dfsudeste2015.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO          25
RIO DE JANEIRO     19
BELO HORIZONTE     18
JUNDIAÍ            14
GUARULHOS          10
                   ..
ITARIRI             1
ITAPIRA             1
ITABERÁ             1
IBATÉ               1
ÁLVARES MACHADO     1
Length: 86, dtype: int64

In [37]:
#Filtrar ocorrencias pela cidade Rio de Janeiro que tiveram alguma recomendação
filtro1 = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2015.total_recomendacoes > 0
dfsudeste2015.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
1964,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
2326,60620,60620,ACIDENTE,RIO DE JANEIRO,RJ,SBJR,2015-12-15,16:50:00,4,2015-12-15 16:50:00


In [38]:
#Somar as recomendações das ocorrencias da cidade do Rio de Janeiro
filtro1 = dfsudeste2015.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2015.loc[filtro1].total_recomendacoes.sum()

6

In [39]:
#Somar as recomendações das ocorrencias por cidade
dfsudeste2015.groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

ocorrencia_cidade
AFONSO CLÁUDIO     0
AGUAÍ              1
AMERICANA          1
ANGRA DOS REIS     0
ARAGUARI           0
                  ..
VARGEM BONITA      0
VERA CRUZ          0
VITÓRIA            0
VIÇOSA             1
ÁLVARES MACHADO    0
Name: total_recomendacoes, Length: 86, dtype: int64

In [40]:
#Somar as recomendações das ocorrencias por aerodromo
#dropna=False -> Soma os valores nulos
dfsudeste2015.groupby(['ocorrencia_aerodromo'],dropna=False).total_recomendacoes.sum()

ocorrencia_aerodromo
SBBH     0
SBBP     1
SBBU     0
SBCB     0
SBCF     0
SBFS     0
SBGL     0
SBGR     0
SBGV     0
SBGW     1
SBJD     0
SBJR     4
SBKP     0
SBME     2
SBML     0
SBMT     0
SBPC     0
SBPR     4
SBRJ     2
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBST     0
SBUL     0
SBUR     0
SBVT     0
SDAI     1
SDAM     0
SDCO     0
SDEH     0
SDEM     0
SDET     1
SDIO     1
SDJC     0
SDJL     0
SDJO     0
SDMH     0
SDPW     2
SDRK     0
SDTF     0
SDVE     0
SDVH     0
SIBH     0
SIVU     0
SJLY     0
SNBR     0
SNDV     0
SNHB     0
SNKF     0
SNPA     0
SNVC     1
SSOL     0
NaN     16
Name: total_recomendacoes, dtype: int64

In [41]:
#Somar as recomendações das ocorrencias por cidade
dfsudeste2015.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

ocorrencia_cidade
AFONSO CLÁUDIO         0
RIBEIRÃO PRETO         0
PRESIDENTE OLEGÁRIO    0
POÇOS DE CALDAS        0
PINDORAMA              0
                      ..
PIRACICABA             2
ITARIRI                2
BELO HORIZONTE         4
CARAPICUÍBA            5
RIO DE JANEIRO         6
Name: total_recomendacoes, Length: 86, dtype: int64

In [42]:
#Somar as recomendações das ocorrencias por cidade, quando total_recomendacao > 0
filtro = dfsudeste2015.total_recomendacoes > 0
dfsudeste2015.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

ocorrencia_cidade
AGUAÍ                1
MOGI GUAÇU           1
MIRACATU             1
JUNDIAÍ              1
ITÁPOLIS             1
TIETÊ                1
ITAPIRA              1
VIÇOSA               1
CATANDUVA            1
CABECEIRA GRANDE     1
BRAGANÇA PAULISTA    1
AMERICANA            1
GUARATINGUETÁ        1
MACAÉ                2
OURO PRETO           2
PIRACICABA           2
ITARIRI              2
BELO HORIZONTE       4
CARAPICUÍBA          5
RIO DE JANEIRO       6
Name: total_recomendacoes, dtype: int64