In [1]:
import pandas as pd
import pandera as pa

In [2]:
valores_indesejados = ['***','###!','####','****','*****','NULL']
df = pd.read_csv("Arquivos_CENIPA/ocorrencia_2010_2020.csv", sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_indesejados)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [3]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia': pa.Column(pa.Int),
        'codigo_ocorrencia2': pa.Column(pa.Int),
        'ocorrencia_classificacao': pa.Column(pa.String),
        'ocorrencia_cidade': pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        'ocorrencia_aerodromo': pa.Column(pa.String, nullable=True),
        'ocorrencia_dia': pa.Column(pa.DateTime),
        'ocorrencia_hora': pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        'total_recomendacoes': pa.Column(pa.Int)
    }
)

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0


In [5]:
df.iloc[-1]
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0


In [6]:
df.loc[:, 'ocorrencia_uf'].value_counts() #exemplo 1
df.loc[:, 'ocorrencia_uf']  #exemplo 2

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
5747    SP
5748    TO
5749    RJ
5750    MS
5751    RJ
Name: ocorrencia_uf, Length: 5752, dtype: object

## Manipula valores nulos

In [7]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [8]:
df.loc[:, 'ocorrencia_uf'].isnull()  #exemplo 1
df.loc[:, 'ocorrencia_uf'].isnull().value_counts() #exemplo 2

False    5751
True        1
Name: ocorrencia_uf, dtype: int64

In [9]:
filtro = df.ocorrencia_classificacao.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes


In [10]:
#ocorrencias com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro] #exemplo 1
df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_uf']] #exemplo 2

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
63,SÃO PAULO,SP
326,RIO DE JANEIRO,RJ
530,SÃO PAULO,SP
727,ITÁPOLIS,SP
872,RECIFE,PE
884,SÃO JOSÉ DOS PINHAIS,PR
1062,UBERLÂNDIA,MG
1972,BRASÍLIA,DF
2795,SANTOS,SP
3930,VITÓRIA,ES


In [11]:
#ocorrencias cuja classificação == 'INCIDENTE GRAVE'
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro].head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
29,39709,39709,INCIDENTE GRAVE,CURITIBA,PR,SBBI,2010-01-23,16:36:00,2
35,39487,39487,INCIDENTE GRAVE,PALMAS,TO,SBPJ,2010-01-26,16:50:00,0


In [12]:
#combina filtros exemplo 1 operador E
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro & filtro2].head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
136,40270,40270,INCIDENTE GRAVE,PIRASSUNUNGA,SP,SDPY,2010-04-15,20:15:00,0
171,40620,40620,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2010-05-06,15:50:00,0
219,41411,41411,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-06-08,19:30:00,2
297,42289,42289,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-07-29,20:06:00,0
314,42323,42323,INCIDENTE GRAVE,SÃO JOSÉ DO RIO PRETO,SP,SBSR,2010-08-05,12:01:00,0


In [13]:
#combina filtros exemplo 2 operador OU
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro | filtro2].head(5) 

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0


In [14]:
#combina filtros exemplo 3 operadores E/OU
filtro = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf.isin (['SP', 'MS'])
df.loc[filtro & filtro2].head(5) 

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0


In [15]:
#combina filtros exemplo 4 cidades que inican com as letras CA
filtro = df.ocorrencia_cidade.str[0:2] == 'CA'
df.loc[filtro].head(5)                 

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
31,39323,39323,ACIDENTE,CASIMIRO DE ABREU,RJ,,2010-01-24,16:15:00,0


In [16]:
#combina filtros exemplo 4 cidades que terminam com as letras VA
filtro = df.ocorrencia_cidade.str[-2 :] == 'VA'
df.loc[filtro].head(5)                 

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
128,40227,40227,INCIDENTE,AREALVA,SP,,2010-04-12,14:03:00,0
291,42001,42001,ACIDENTE,BOITUVA,SP,SDOI,2010-07-24,18:00:00,1
340,42485,42485,INCIDENTE,AREALVA,SP,,2010-08-23,15:15:00,0
628,43875,43875,INCIDENTE,MARIALVA,PR,,2011-02-10,21:25:00,0
765,44463,44463,ACIDENTE,BALSA NOVA,PR,SSTH,2011-04-30,20:50:00,1


In [17]:
#combina filtros exemplo 4 cidades que contenha as letras VA
filtro = df.ocorrencia_cidade.str.contains('VA|CAMP')
df.loc[filtro].head(5)                 

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
17,39810,39810,INCIDENTE,SALVADOR,BA,,2010-01-15,18:23:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
34,39322,39322,ACIDENTE,SÃO BERNARDO DO CAMPO,SP,,2010-01-26,13:50:00,2
55,39178,39178,INCIDENTE,CAMPINAS,SP,,2010-02-08,12:33:00,0


In [18]:
#ocorrencias por ano, mes e dia 
filtro = (df.ocorrencia_dia.dt.year == 2015) 
filtro2 = (df.ocorrencia_dia.dt.month == 12)  
filtro3 = (df.ocorrencia_dia.dt.day == 1)  
df.loc[filtro & filtro2 & filtro3].head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3428,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,02:48:00,0
3429,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0


In [19]:
#ocorrencias por data = 12-01-2015
filtro = (df.ocorrencia_dia == '2015-01-12') 
df.loc[filtro].head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3012,53063,53063,INCIDENTE,LONDRINA,PR,SBLO,2015-01-12,09:15:00,0


In [20]:
#ocorrencias faixa de datas = 12-01-2015 30-03-2015
filtro = (df.ocorrencia_dia >= '2015-01-12') & (df.ocorrencia_dia <= '2015-03-30')
df.loc[filtro].head(5)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3012,53063,53063,INCIDENTE,LONDRINA,PR,SBLO,2015-01-12,09:15:00,0
3013,52978,52978,ACIDENTE,BAIXA GRANDE DO RIBEIRO,PI,,2015-01-14,10:50:00,1
3014,53070,53070,INCIDENTE,FLORIANÓPOLIS,SC,SBFL,2015-01-15,21:00:00,0
3015,53071,53071,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-15,18:52:00,0
3016,53061,53061,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-01-17,18:40:00,0


## Concatena colunas Date e time

In [28]:
df['data_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' '  + df.ocorrencia_hora)

In [34]:
#ocorrencias faixa de datas e hora = 12-01-2015 30-03-2015
filtro = (df.ocorrencia_dia >= '2015-12-03 11:00:00') & (df.ocorrencia_dia <= '2015-12-08 13:00:00')
df.loc[filtro].head(3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,data_hora
3434,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
3435,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
3436,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00


## Subconjunto e agrupamentos

In [36]:
#ocorrências do ano de 2015 e mês 03
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]     #cria novo dataframe
df201503.head(3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,data_hora
3086,53183,53183,ACIDENTE,AMAPORÃ,PR,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
3087,53120,53120,ACIDENTE,CHAVES,PA,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
3088,53109,53109,ACIDENTE,CAMPO GRANDE,MS,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00


In [None]:
df201503.count()

In [37]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [40]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count() #tomar cuidado ao contar por colunas nullable

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [46]:
df201503.groupby(['ocorrencia_classificacao']).size() #conta genericamente sem informar coluna

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [47]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values() #conta genericamente sem informar coluna e ordena pelos valores

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [48]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False) # = ordena de forma decrescente

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [51]:
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df.loc[filtro1 & filtro2]              #cria novo dataframe
dfsudeste2010.head(3)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,data_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0,2010-01-10 20:00:00


In [None]:
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

In [None]:
dfsudeste2010.count()

In [None]:
dfsudeste2010.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

In [None]:

dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

In [52]:
filtro1 = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,data_hora
119,40190,40190,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2010-04-06,02:35:00,3,2010-04-06 02:35:00
274,41750,41750,ACIDENTE,RIO DE JANEIRO,RJ,SBJR,2010-07-12,19:53:00,3,2010-07-12 19:53:00
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19,2010-08-12 12:26:00


In [55]:
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro].total_recomendacoes.sum()

25

In [None]:
dfsudeste2010.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()

In [None]:
dfsudeste2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

In [None]:
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

In [56]:
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade  ocorrencia_dia
RIO DE JANEIRO     1                  0
                   2                  0
                   3                  0
                   4                  3
                   5                  0
                   6                  0
                   7                  3
                   8                 19
                   9                  0
                   10                 0
                   11                 0
                   12                 0
Name: total_recomendacoes, dtype: int64

In [None]:
filtro1 = dfsudeste2010.total_recomendacoes > 0
filtro2 = dfsudeste2010.ocorrencia_cidade == 'SÃO PAULO'
dfsudeste2010.loc[filtro1 & filtro2]