In [2]:
import pandas as pd
import pandera as pa

In [10]:
valores_ausentes = ['**', '###!', '####', '****', '*****', 'NULL']
df = pd.read_csv('ocorrencia_2010_2020.csv', sep = ';', parse_dates = ['ocorrencia_dia'], dayfirst = True,
                na_values = valores_ausentes)

In [11]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [15]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.Object,
                                    pa.Check.str_matches(r'^([0-1]?[0-9]?)|[2][0-3]:([0-5][0-9]):([0-5][0-9])?$'),
                                    nullable=True)     
    }
)

In [16]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0


In [17]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [18]:
# trabalhando com o indice(iloc) e nao o label(loc)
df.iloc[-1]

codigo_ocorrencia                         79844
codigo_ocorrencia2                        79844
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                RIO DE JANEIRO
ocorrencia_uf                                RJ
ocorrencia_aerodromo                       SBJR
ocorrencia_dia              2020-12-31 00:00:00
ocorrencia_hora                        13:24:00
total_recomendacoes                           0
Name: 5751, dtype: object

In [19]:
df.iloc[1:2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0


In [20]:
df.loc[1:2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0


In [22]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [26]:
df.ocorrencia_uf.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
5747    False
5748    False
5749    False
5750    False
5751    False
Name: ocorrencia_uf, Length: 5752, dtype: bool

## UTILIZANDO FILTROS

In [31]:
# facilitar a leitura do codigo depois
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0


In [34]:
df.count()

codigo_ocorrencia           5752
codigo_ocorrencia2          5752
ocorrencia_classificacao    5752
ocorrencia_cidade           5752
ocorrencia_uf               5751
ocorrencia_aerodromo        3403
ocorrencia_dia              5752
ocorrencia_hora             5751
total_recomendacoes         5752
dtype: int64

In [37]:
# filtrando ocorrencia com mais de 10 recomendacoes
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_uf', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,total_recomendacoes
63,SÃO PAULO,SP,11
326,RIO DE JANEIRO,RJ,19
530,SÃO PAULO,SP,11
727,ITÁPOLIS,SP,11
872,RECIFE,PE,23
884,SÃO JOSÉ DOS PINHAIS,PR,11
1062,UBERLÂNDIA,MG,20
1972,BRASÍLIA,DF,11
2795,SANTOS,SP,13
3930,VITÓRIA,ES,12


In [42]:
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_classificacao', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade
7,INCIDENTE GRAVE,CANUTAMA
8,INCIDENTE GRAVE,CASCAVEL
9,INCIDENTE GRAVE,PARÁ DE MINAS
29,INCIDENTE GRAVE,CURITIBA
35,INCIDENTE GRAVE,PALMAS
...,...,...
5741,INCIDENTE GRAVE,NOVA MARINGÁ
5744,INCIDENTE GRAVE,GOIATUBA
5746,INCIDENTE GRAVE,MANOEL URBANO
5748,INCIDENTE GRAVE,LAGOA DA CONFUSÃO


In [47]:
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2, ['ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_uf']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf
136,INCIDENTE GRAVE,PIRASSUNUNGA,SP
171,INCIDENTE GRAVE,GUARULHOS,SP
219,INCIDENTE GRAVE,SÃO PAULO,SP
297,INCIDENTE GRAVE,SÃO PAULO,SP
314,INCIDENTE GRAVE,SÃO JOSÉ DO RIO PRETO,SP
...,...,...,...
5591,INCIDENTE GRAVE,SÃO PAULO,SP
5610,INCIDENTE GRAVE,REGENTE FEIJÓ,SP
5704,INCIDENTE GRAVE,SÃO PAULO,SP
5705,INCIDENTE GRAVE,SOROCABA,SP


In [48]:
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2, ['ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_uf']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf
16,INCIDENTE,SÃO PAULO,SP
18,INCIDENTE,SANTOS,SP
26,INCIDENTE,SOROCABA,SP
27,INCIDENTE,CAMPINAS,SP
33,INCIDENTE,GUARULHOS,SP
...,...,...,...
5704,INCIDENTE GRAVE,SÃO PAULO,SP
5705,INCIDENTE GRAVE,SOROCABA,SP
5715,INCIDENTE GRAVE,SÃO PAULO,SP
5742,INCIDENTE,SÃO PAULO,SP


In [49]:
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE', 'INCIDENTE GRAVE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2, ['ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_uf']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf
16,INCIDENTE,SÃO PAULO,SP
18,INCIDENTE,SANTOS,SP
26,INCIDENTE,SOROCABA,SP
27,INCIDENTE,CAMPINAS,SP
33,INCIDENTE,GUARULHOS,SP
...,...,...,...
5704,INCIDENTE GRAVE,SÃO PAULO,SP
5705,INCIDENTE GRAVE,SOROCABA,SP
5715,INCIDENTE GRAVE,SÃO PAULO,SP
5742,INCIDENTE,SÃO PAULO,SP


In [51]:
# ocorrencias cuja cidade comecem com C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro, ['ocorrencia_classificacao', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade
6,INCIDENTE,COARI
7,INCIDENTE GRAVE,CANUTAMA
8,INCIDENTE GRAVE,CASCAVEL
15,ACIDENTE,CANUTAMA
20,INCIDENTE,CRUZEIRO DO SUL
...,...,...
5661,INCIDENTE,CAMPINAS
5663,INCIDENTE,CONFINS
5680,INCIDENTE,CRUZEIRO DO SUL
5696,ACIDENTE,CATANDUVA


In [52]:
# ocorrencias cuja cidade terminam com A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro, ['ocorrencia_classificacao', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade
7,INCIDENTE GRAVE,CANUTAMA
12,INCIDENTE,BRASÍLIA
15,ACIDENTE,CANUTAMA
25,INCIDENTE,UBERLÂNDIA
26,INCIDENTE,SOROCABA
...,...,...
5738,INCIDENTE,FORTALEZA
5739,ACIDENTE,MARITUBA
5743,ACIDENTE,RIO PARANAÍBA
5744,INCIDENTE GRAVE,GOIATUBA


In [54]:
# ocorrencias cuja cidade terminam com IMA
filtro = df.ocorrencia_cidade.str[-3:] == 'IMA'
df.loc[filtro, ['ocorrencia_classificacao', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade
2099,INCIDENTE GRAVE,NOVA LIMA
3040,ACIDENTE,NOVA LIMA
3171,ACIDENTE,PACARAIMA
3682,INCIDENTE GRAVE,NOVA LIMA
3725,INCIDENTE GRAVE,NOVA LIMA


In [66]:
# ocorrencias cuja cidade contem IMA ou BE
filtro = df.ocorrencia_cidade.str.contains('IMA|BE')
df.loc[filtro, ['ocorrencia_classificacao', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade
1,INCIDENTE,BELÉM
13,ACIDENTE,PRIMAVERA DO LESTE
25,INCIDENTE,UBERLÂNDIA
34,ACIDENTE,SÃO BERNARDO DO CAMPO
36,INCIDENTE,BELÉM
...,...,...
5720,INCIDENTE GRAVE,BELO HORIZONTE
5723,INCIDENTE,BELO HORIZONTE
5725,INCIDENTE,BELO HORIZONTE
5728,INCIDENTE,BELO HORIZONTE


In [68]:
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro, ['ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_dia
2996,INCIDENTE GRAVE,SALVADOR,2015-01-01
2997,ACIDENTE,IVINHEMA,2015-01-02
2998,INCIDENTE,TEFÉ,2015-01-02
2999,INCIDENTE,BELO HORIZONTE,2015-01-02
3000,ACIDENTE,TOLEDO,2015-01-04
...,...,...,...
3462,INCIDENTE GRAVE,ITABERÁ,2015-12-24
3463,INCIDENTE,GUARULHOS,2015-12-25
3464,INCIDENTE,SÃO FRANCISCO DO SUL,2015-12-26
3465,ACIDENTE,MAÇAMBARÁ,2015-12-28


In [70]:
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 2
filtro3 = df.ocorrencia_dia.dt.day > 2
filtro4 = df.ocorrencia_dia.dt.day < 9
df.loc[filtro1 & filtro2 & filtro3 & filtro4, ['ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_dia
3044,ACIDENTE,JOINVILLE,2015-02-03
3045,INCIDENTE,ILHÉUS,2015-02-03
3046,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,2015-02-03
3047,INCIDENTE GRAVE,ASSIS CHATEAUBRIAND,2015-02-04
3048,ACIDENTE,TAPIRA,2015-02-05
3049,INCIDENTE,MARABÁ,2015-02-05
3050,INCIDENTE,CUIABÁ,2015-02-06
3051,INCIDENTE,VITÓRIA DA CONQUISTA,2015-02-06
3052,INCIDENTE,SÃO PAULO,2015-02-06
3053,ACIDENTE,TAPES,2015-02-07


In [72]:
df['ocorrencia_dia_hora'] = (df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [73]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00
...,...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0,2020-12-29 19:00:00
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0,2020-12-30 18:30:00
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0,2020-12-30 00:54:00
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0,2020-12-31 09:00:00


In [77]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
ocorrencia_dia_hora                 object
dtype: object

In [81]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia_hora)

In [82]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
ocorrencia_dia_hora         datetime64[ns]
dtype: object

In [84]:
filtro1 = df.ocorrencia_dia_hora >= '2010-01-03 12:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2010-01-08 10:00:00'
df.loc[filtro1 & filtro2, ['ocorrencia_dia_hora']]

Unnamed: 0,ocorrencia_dia_hora
0,2010-01-03 12:00:00
3,2010-01-04 17:30:00
4,2010-01-05 19:25:00
5,2010-01-06 17:53:00
6,2010-01-07 18:40:00


## AGRUPAMENTO DE DADOS

In [85]:
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3086,53183,53183,ACIDENTE,AMAPORÃ,PR,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
3087,53120,53120,ACIDENTE,CHAVES,PA,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
3088,53109,53109,ACIDENTE,CAMPO GRANDE,MS,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00
3089,53112,53112,ACIDENTE,MOGI GUAÇU,SP,,2015-03-06,21:00:00,0,2015-03-06 21:00:00
3090,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
3091,53167,53167,INCIDENTE,MARABÁ,PA,SBMA,2015-03-10,17:33:00,0,2015-03-10 17:33:00
3092,53596,53596,INCIDENTE,ITAPEMA,SC,,2015-03-10,21:35:00,0,2015-03-10 21:35:00
3093,53149,53149,ACIDENTE,TABATINGA,AM,SBTT,2015-03-11,23:25:00,0,2015-03-11 23:25:00
3094,53148,53148,ACIDENTE,ARARAS,SP,SDEH,2015-03-12,12:40:00,0,2015-03-12 12:40:00
3095,53153,53153,INCIDENTE,PORTO ALEGRE,RS,SBPA,2015-03-13,15:45:00,0,2015-03-13 15:45:00


In [86]:
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [87]:
df201503.groupby(['codigo_ocorrencia']).count()

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
53109,1,1,1,1,1,1,1,1,1
53112,1,1,1,1,0,1,1,1,1
53120,1,1,1,1,1,1,1,1,1
53148,1,1,1,1,1,1,1,1,1
53149,1,1,1,1,1,1,1,1,1
53151,1,1,1,1,1,1,1,1,1
53152,1,1,1,1,1,1,1,1,1
53153,1,1,1,1,1,1,1,1,1
53154,1,1,1,1,1,1,1,1,1
53164,1,1,1,1,0,1,1,1,1


In [92]:
df201503.groupby(['ocorrencia_uf']).codigo_ocorrencia.count()

ocorrencia_uf
AM    2
BA    2
CE    1
DF    1
ES    1
GO    1
MA    1
MG    4
MS    1
MT    3
PA    3
PB    1
PR    2
RJ    3
RS    1
SC    3
SP    7
Name: codigo_ocorrencia, dtype: int64

In [93]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [95]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_uf.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: ocorrencia_uf, dtype: int64

In [96]:
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [97]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [99]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending = False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [126]:
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP', 'MG', 'ES', 'RJ'])
dfsudeste2010 = df.loc[filtro1 & filtro2]
dfsudeste2010

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0,2010-01-10 20:00:00
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8,2010-01-10 14:50:00
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0,2010-01-15 15:00:00
...,...,...,...,...,...,...,...,...,...,...
541,43722,43722,ACIDENTE,CAJOBI,SP,,2010-12-23,11:00:00,0,2010-12-23 11:00:00
544,43548,43548,INCIDENTE,SÃO PAULO,SP,SBSP,2010-12-26,22:10:00,0,2010-12-26 22:10:00
548,43724,43724,ACIDENTE,COSMÓPOLIS,SP,,2010-12-29,12:00:00,0,2010-12-29 12:00:00
550,43730,43730,INCIDENTE,VITÓRIA,ES,,2010-12-30,18:10:00,0,2010-12-30 18:10:00


In [101]:
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [102]:
dfsudeste2010.count()

codigo_ocorrencia           228
codigo_ocorrencia2          228
ocorrencia_classificacao    228
ocorrencia_cidade           228
ocorrencia_uf               228
ocorrencia_aerodromo        127
ocorrencia_dia              228
ocorrencia_hora             228
total_recomendacoes         228
ocorrencia_dia_hora         228
dtype: int64

In [103]:
dfsudeste2010.groupby(['ocorrencia_uf']).size()

ocorrencia_uf
ES      5
MG     51
RJ     65
SP    107
dtype: int64

In [105]:
dfsudeste2010.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size()

ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  MG                7
                          RJ                9
                          SP               24
INCIDENTE                 ES                5
                          MG               39
                          RJ               52
                          SP               74
INCIDENTE GRAVE           MG                5
                          RJ                4
                          SP                9
dtype: int64

In [106]:
dfsudeste2010.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             INCIDENTE                    5
MG             ACIDENTE                     7
               INCIDENTE                   39
               INCIDENTE GRAVE              5
RJ             ACIDENTE                     9
               INCIDENTE                   52
               INCIDENTE GRAVE              4
SP             ACIDENTE                    24
               INCIDENTE                   74
               INCIDENTE GRAVE              9
dtype: int64

In [109]:
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending = False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
JUIZ DE FORA              4
VITÓRIA                   4
MARÍLIA                   3
SÃO JOSÉ DOS CAMPOS       3
SÃO JOSÉ DO RIO PRETO     3
SOROCABA                  2
ITANHAÉM                  2
RIBEIRÃO PRETO            2
IPATINGA                  2
POÇOS DE CALDAS           2
DIVINÓPOLIS               2
BAURU                     2
JUNDIAÍ                   2
ARARAQUARA                2
CAMPOS DOS GOYTACAZES     2
AREALVA                   2
MONTES CLAROS             2
UBERABA                   2
POUSO ALEGRE              1
PIRACICABA                1
PIRASSUNUNGA              1
ARRAIAL DO CABO           1
RESENDE                   1
PENÁPOLIS                 1
SANTOS                    1
SERRA NEGRA               1
SÃO BERNARDO DO CAMPO     1
TI

In [110]:
filtro1 = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
119,40190,40190,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2010-04-06,02:35:00,3,2010-04-06 02:35:00
274,41750,41750,ACIDENTE,RIO DE JANEIRO,RJ,SBJR,2010-07-12,19:53:00,3,2010-07-12 19:53:00
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19,2010-08-12 12:26:00


In [111]:
filtro1 = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro1 & filtro2].total_recomendacoes.sum()

25

In [119]:
dfsudeste2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

ocorrencia_cidade
AMERICANA                 0
ARARAQUARA                0
ARAÇATUBA                 0
AREALVA                   0
ARRAIAL DO CABO           0
BAURU                     0
BEBEDOURO                 0
BELO HORIZONTE            2
BOCAINA                   0
BOITUVA                   1
BOM JESUS DO AMPARO       0
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         9
BROTAS                    0
CAJOBI                    0
CAMANDUCAIA               9
CAMPINAS                  0
CAMPOS DOS GOYTACAZES     0
CASIMIRO DE ABREU         0
CONFINS                   0
COROMANDEL                0
COSMÓPOLIS                0
DIAMANTINA                0
DIVINÓPOLIS               0
GUARULHOS                 0
IPATINGA                  0
IPERÓ                     3
ITANHAÉM                  1
ITÁPOLIS                  0
JUIZ DE FORA              0
JUNDIAÍ                   7
LINHARES                  0
MACAÉ                     0
MANGARATIBA               0
MARÍLIA                   0
MO

In [117]:
dfsudeste2010.groupby(['ocorrencia_aerodromo'], dropna = False).total_recomendacoes.sum()

ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
NaN     45
Name: total_recomendacoes, dtype: int64

In [121]:
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values()

ocorrencia_cidade
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
BELO HORIZONTE            2
SÃO BERNARDO DO CAMPO     2
IPERÓ                     3
NOVO HORIZONTE            3
TIMÓTEO                   3
JUNDIAÍ                   7
RESENDE                   8
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RIO DE JANEIRO           25
SÃO PAULO                41
Name: total_recomendacoes, dtype: int64

In [127]:
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade',dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum().sort_values()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
ITANHAÉM               9                  1
SÃO PAULO              6                  2
SÃO BERNARDO DO CAMPO  1                  2
JUNDIAÍ                6                  2
RIO DE JANEIRO         7                  3
                       4                  3
NOVO HORIZONTE         7                  3
IPERÓ                  1                  3
TIMÓTEO                2                  3
JUNDIAÍ                5                  5
SÃO PAULO              11                 6
RESENDE                4                  8
SÃO PAULO              1                  8
CAMANDUCAIA            7                  9
BRAGANÇA PAULISTA      11                 9
SÃO PAULO              12                11
                       2                 14
RIO DE JANEIRO         8              