# Importando as Bibliotecas

In [1]:
import pandas as pd
import pandera as pa

# Extraindo e Limpando os dados

In [2]:
# Informando os valores ausentes
valores_ausentes = ['**','****','*****','###!','####','NULL']

# não esquecer de colocar o separador, se não o sistema não reconhece / parse_date é para converter o tipo de dados de object para datetime
df = pd.read_csv("ocorrencia_2010_2020.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)

# Selecionando somente as colunas que quero manipular
df = df[['codigo_ocorrencia','codigo_ocorrencia2','ocorrencia_classificacao','ocorrencia_cidade','ocorrencia_uf','ocorrencia_aerodromo','ocorrencia_dia','ocorrencia_hora','total_recomendacoes']]

df.head(10)


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0


# Validando os Dados

In [3]:
# O Pandera serve para validar os tipos de dados nas colunas

schema = pa.DataFrameSchema(
    columns ={
        "codigo": pa.Column(pa.Int, required= False), #Informando que esta coluna não é requirida, evitando erro caso ela não esteja no dataset 
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True), # validar o tamanho da coluna
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True), # validando a hora
        "total_recomendacoes": pa.Column(pa.Int)
    }
)

In [4]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0


In [5]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [6]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [7]:
# O loc busca pelo indice ou nome da coluna
df.loc[1]


codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [8]:
# o iloc busca pelo indice da linha ou coluna

df.iloc[1,3]


'BELÉM'

In [9]:
# Exibe A ÚLTIMA LINHA DO DATASET, SÓ FUNCIONAR COM O ILOC, NÃO FUNCIONA USAR INDICE -1 COM O LOC
df.iloc[-1]

codigo_ocorrencia                         79844
codigo_ocorrencia2                        79844
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                RIO DE JANEIRO
ocorrencia_uf                                RJ
ocorrencia_aerodromo                       SBJR
ocorrencia_dia              2020-12-31 00:00:00
ocorrencia_hora                        13:24:00
total_recomendacoes                           0
Name: 5751, dtype: object

In [10]:
# EXIBE ATÉ O 15 PORQUE TRABALHA COM OS VALORES Do LABEL

df.loc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0


In [11]:
# EXIBE ATÉ O 14 PORQUE TRABALHA COM ÍNDICE

df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0


In [12]:
df.loc[:, 'ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
5747    SP
5748    TO
5749    RJ
5750    MS
5751    RJ
Name: ocorrencia_uf, Length: 5752, dtype: object

In [13]:
df['ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
5747    SP
5748    TO
5749    RJ
5750    MS
5751    RJ
Name: ocorrencia_uf, Length: 5752, dtype: object

In [14]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [15]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [16]:
# Localizando valores nulos em uma determinada coluna
# Sintaxe1: df.loc[df.ocorrencia_ud.isnull()]
# Sintaxe2: abaixo

filtro_uf = df.ocorrencia_uf.isnull()

df.loc[filtro_uf]


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0


In [17]:
filtro_aerodromo = df.ocorrencia_aerodromo.isnull()

df.loc[filtro_aerodromo]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...
5741,79754,79754,INCIDENTE GRAVE,NOVA MARINGÁ,MT,,2020-12-28,13:00:00,0
5744,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0
5745,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,,2020-12-30,18:30:00,0


In [18]:
filtro_hora = df.ocorrencia_hora.isnull()

df.loc[filtro_hora]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
4100,78823,78823,INCIDENTE,CORUMBÁ,MS,,2017-07-09,,0


In [19]:
# O que não tiver igual o valor cheio, é porque é um valor nulo
df.count()

codigo_ocorrencia           5752
codigo_ocorrencia2          5752
ocorrencia_classificacao    5752
ocorrencia_cidade           5752
ocorrencia_uf               5751
ocorrencia_aerodromo        3403
ocorrencia_dia              5752
ocorrencia_hora             5751
total_recomendacoes         5752
dtype: int64

In [20]:
# Ocorrências com mais de 10 recomendações

filtro_ocorrencia_10 = df.total_recomendacoes > 10

df.loc[filtro_ocorrencia_10]


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,2010-02-17,20:07:00,11
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19
530,43471,43471,ACIDENTE,SÃO PAULO,SP,,2010-12-14,20:15:00,11
727,44377,44377,ACIDENTE,ITÁPOLIS,SP,SDIO,2011-04-09,14:50:00,11
872,44796,44796,ACIDENTE,RECIFE,PE,SBRF,2011-07-13,09:54:00,23
884,44888,44888,INCIDENTE GRAVE,SÃO JOSÉ DOS PINHAIS,PR,SBCT,2011-07-15,17:05:00,11
1062,45554,45554,INCIDENTE GRAVE,UBERLÂNDIA,MG,SBUL,2011-11-15,02:15:00,20
1972,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11
2795,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13
3930,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12


In [21]:
# Ocorrências com mais de 10 recomendações
# Selecionado colunas

filtro_ocorrencia_10 = df.total_recomendacoes > 10

df.loc[filtro_ocorrencia_10, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2795,SANTOS,13
3930,VITÓRIA,12


In [22]:
# Filtrando Classificaçao =  INCIDENTE GRAVE
# Sintaxe1: df.loc[df.ocorrencia_classificacao == 'INCIDENTE GRAVE']

filtro_classificacao = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'

df.loc[filtro_classificacao, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
7,CANUTAMA,3
8,CASCAVEL,2
9,PARÁ DE MINAS,0
29,CURITIBA,2
35,PALMAS,0
...,...,...
5741,NOVA MARINGÁ,0
5744,GOIATUBA,0
5746,MANOEL URBANO,0
5748,LAGOA DA CONFUSÃO,0


In [23]:
# Filtrando UF = AM
# Sintaxe1: df.loc[df.ocorrencia_classificacao == 'INCIDENTE GRAVE']

filtro_uf = df.ocorrencia_uf == 'AM'

df.loc[filtro_uf, ['ocorrencia_cidade', 'ocorrencia_uf', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,total_recomendacoes
6,COARI,AM,0
7,CANUTAMA,AM,3
15,CANUTAMA,AM,0
78,MANAUS,AM,2
100,MANAUS,AM,0
...,...,...,...
5642,LÁBREA,AM,0
5647,TABATINGA,AM,0
5691,MANAUS,AM,0
5730,MANAUS,AM,0


In [24]:
# Filtro composto com a CLASSIFICAÇÃO = 'INCIDENTE GRAVE' e UF = 'AM'
# Sintaxe Padrão: df.loc[filtro_classificacao & filtro_uf]

filtro_classificacao = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro_uf = df.ocorrencia_uf == 'AM'

df.loc[filtro_classificacao & filtro_uf, ['ocorrencia_cidade', 'ocorrencia_uf', 'total_recomendacoes']]

#df.loc[filtro_classificacao, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,total_recomendacoes
7,CANUTAMA,AM,3
78,MANAUS,AM,2
598,PAUINI,AM,1
819,COARI,AM,1
1081,CARAUARI,AM,1
1345,PRESIDENTE FIGUEIREDO,AM,0
1364,ITAPIRANGA,AM,1
1498,MANAUS,AM,1
1499,COARI,AM,0
1581,NOVO ARIPUANÃ,AM,0


In [25]:
# Sintaxe Padrão: df.loc[filtro_classificacao & filtro_uf]

df.loc[filtro_classificacao & filtro_uf]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
78,39916,39916,INCIDENTE GRAVE,MANAUS,AM,SBEG,2010-03-07,19:35:00,2
598,43732,43732,INCIDENTE GRAVE,PAUINI,AM,SWUI,2011-01-27,21:30:00,1
819,44597,44597,INCIDENTE GRAVE,COARI,AM,,2011-06-03,19:00:00,1
1081,45235,45235,INCIDENTE GRAVE,CARAUARI,AM,,2011-11-27,13:40:00,1
1345,45856,45856,INCIDENTE GRAVE,PRESIDENTE FIGUEIREDO,AM,,2012-05-16,19:30:00,0
1364,46049,46049,INCIDENTE GRAVE,ITAPIRANGA,AM,,2012-05-23,20:20:00,1
1498,46281,46281,INCIDENTE GRAVE,MANAUS,AM,SWFN,2012-08-10,12:20:00,1
1499,46282,46282,INCIDENTE GRAVE,COARI,AM,SWKO,2012-08-12,12:20:00,0
1581,46450,46450,INCIDENTE GRAVE,NOVO ARIPUANÃ,AM,,2012-09-24,13:30:00,0


In [26]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [27]:
# App para buscar a Classificação do Incidente E a Unidade Federativa

classificacao = input('Informe a Classificação do Incidente: ')
uf = input('Informe a Unidade Federativa do Incidente: ')

filtro_classificacao = df.ocorrencia_classificacao == classificacao
filtro_uf = df.ocorrencia_uf == uf

df.loc[filtro_classificacao & filtro_uf, ['ocorrencia_cidade', 'ocorrencia_uf', 'total_recomendacoes']]


Informe a Classificação do Incidente: ACIDENTE
Informe a Unidade Federativa do Incidente: AM


Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,total_recomendacoes
15,CANUTAMA,AM,0
184,MANAUS,AM,4
583,ENVIRA,AM,7
754,MANAUS,AM,1
802,COARI,AM,2
...,...,...,...
5192,MANAUS,AM,0
5370,TEFÉ,AM,0
5426,MANAUS,AM,0
5445,LÁBREA,AM,0


In [28]:
# App para buscar a Classificação do Incidente OU a Unidade Federativa

classificacao = input('Informe a Classificação do Incidente: ')
uf = input('Informe a Unidade Federativa do Incidente: ')

filtro_classificacao = df.ocorrencia_classificacao == classificacao
filtro_uf = df.ocorrencia_uf == uf

df.loc[filtro_classificacao | filtro_uf, ['ocorrencia_cidade', 'ocorrencia_uf', 'total_recomendacoes']]


Informe a Classificação do Incidente: ACIDENTE
Informe a Unidade Federativa do Incidente: SP


Unnamed: 0,ocorrencia_cidade,ocorrencia_uf,total_recomendacoes
3,LUCAS DO RIO VERDE,MT,0
11,SÃO PAULO,SP,8
13,PRIMAVERA DO LESTE,MT,2
14,GURUPÁ,PA,0
15,CANUTAMA,AM,0
...,...,...,...
5740,PRESIDENTE CASTELO BRANCO,PR,0
5742,SÃO PAULO,SP,0
5743,RIO PARANAÍBA,MG,0
5745,MATO RICO,PR,0


In [29]:
# App para buscar a (Classificação do Incidente = INCIDENTE GRAVE OU INCIDENTE) E Unidade Federativa = SP

# tem que indicar a prioridade no filtro OU utilizando parênteses

filtro_classificacao = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro_uf = df.ocorrencia_uf == 'SP'

df.loc[filtro_classificacao & filtro_uf]


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0
...,...,...,...,...,...,...,...,...,...
5704,79739,79739,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2020-12-03,14:42:00,0
5705,79705,79705,INCIDENTE GRAVE,SOROCABA,SP,SDCO,2020-12-04,15:30:00,0
5715,79718,79718,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2020-12-11,13:50:00,0
5742,79800,79800,INCIDENTE,SÃO PAULO,SP,SBMT,2020-12-28,10:15:00,0


In [30]:
# Outra forma de realizar o mesmo filtro anterior é usando a função ISIN
# Com esta opção é possível inserir vários filtros

filtro_classificacao = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro_uf = df.ocorrencia_uf.isin(['SP', 'AM'])

df.loc[filtro_classificacao & filtro_uf]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
...,...,...,...,...,...,...,...,...,...
5715,79718,79718,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2020-12-11,13:50:00,0
5730,79785,79785,INCIDENTE,MANAUS,AM,SBEG,2020-12-19,12:37:00,0
5731,79746,79746,INCIDENTE,MANAUS,AM,SWFN,2020-12-20,20:40:00,0
5742,79800,79800,INCIDENTE,SÃO PAULO,SP,SBMT,2020-12-28,10:15:00,0


In [31]:
# Ocorrências cuja cidade iniciem com a letra C

filtro_c = df.ocorrencia_cidade.str[0] == 'C'

df.loc[filtro_c]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
20,40310,40310,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2010-01-18,19:32:00,0
...,...,...,...,...,...,...,...,...,...
5661,79649,79649,INCIDENTE,CAMPINAS,SP,SBKP,2020-11-04,22:39:00,0
5663,79652,79652,INCIDENTE,CONFINS,MG,SBCF,2020-11-06,14:20:00,0
5680,79683,79683,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2020-11-16,22:00:00,0
5696,79692,79692,ACIDENTE,CATANDUVA,SP,SDCD,2020-11-28,12:50:00,0


In [32]:
# Ocorrências cuja cidade terminam com a letra A

filtro_a = df.ocorrencia_cidade.str[-1] == 'A'

df.loc[filtro_a]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
25,39772,39772,INCIDENTE,UBERLÂNDIA,MG,,2010-01-20,18:58:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
...,...,...,...,...,...,...,...,...,...
5738,79787,79787,INCIDENTE,FORTALEZA,CE,SBFZ,2020-12-23,18:30:00,0
5739,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5743,79824,79824,ACIDENTE,RIO PARANAÍBA,MG,SNRP,2020-12-28,17:00:00,0
5744,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0


In [33]:
# Ocorrências cuja cidade terminam com 'MA'
# Fatiando do penúltimo até o final

filtro_ma = df.ocorrencia_cidade.str[-2:] == 'MA'

df.loc[filtro_ma]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
408,43062,43062,ACIDENTE,NOVO GAMA,GO,,2010-09-25,16:30:00,1
688,44198,44198,ACIDENTE,BURITAMA,SP,,2011-03-19,11:18:00,0
1035,51785,51785,INCIDENTE,BURITAMA,SP,SIBX,2011-10-25,19:15:00,0
1377,45939,45939,ACIDENTE,UMUARAMA,PR,,2012-05-30,19:00:00,0
1401,46180,46180,ACIDENTE,AURIFLAMA,SP,,2012-06-16,19:30:00,0
2099,49113,49113,INCIDENTE GRAVE,NOVA LIMA,MG,,2013-06-15,12:00:00,4
2102,48799,48799,ACIDENTE,CANUTAMA,AM,,2013-06-18,21:30:00,0
2655,51347,51347,INCIDENTE,DIADEMA,SP,,2014-05-04,16:00:00,0


In [34]:
# FILTRA TODAS PALAVRAS QUE CONTÉM 'MA' INDEPENDENTE DA LOCALIZAÇÃO

filtro_ma_contains = df.ocorrencia_cidade.str.contains('MA')

df.loc[filtro_ma_contains]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
35,39487,39487,INCIDENTE GRAVE,PALMAS,TO,SBPJ,2010-01-26,16:50:00,0
78,39916,39916,INCIDENTE GRAVE,MANAUS,AM,SBEG,2010-03-07,19:35:00,2
...,...,...,...,...,...,...,...,...,...
5732,79745,79745,INCIDENTE,MARABÁ,PA,SBMA,2020-12-21,08:47:00,0
5739,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5741,79754,79754,INCIDENTE GRAVE,NOVA MARINGÁ,MT,,2020-12-28,13:00:00,0
5745,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0


In [35]:
#FILTRA TODAS PALAVRAS QUE CONTÉM 'MA' OU 'US' INDEPENDENTE DA LOCALIZAÇÃO

filtro_ma_us_contains = df.ocorrencia_cidade.str.contains('MA|US')

df.loc[filtro_ma_contains]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
35,39487,39487,INCIDENTE GRAVE,PALMAS,TO,SBPJ,2010-01-26,16:50:00,0
78,39916,39916,INCIDENTE GRAVE,MANAUS,AM,SBEG,2010-03-07,19:35:00,2
...,...,...,...,...,...,...,...,...,...
5732,79745,79745,INCIDENTE,MARABÁ,PA,SBMA,2020-12-21,08:47:00,0
5739,79749,79749,ACIDENTE,MARITUBA,PA,,2020-12-26,12:05:00,0
5741,79754,79754,INCIDENTE GRAVE,NOVA MARINGÁ,MT,,2020-12-28,13:00:00,0
5745,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0


In [36]:
# Ocorrência do Ano 2015

filtro_ano = df.ocorrencia_dia.dt.year == 2015

df.loc[filtro_ano]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2996,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3
2997,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0
2998,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0
2999,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0
3000,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6
...,...,...,...,...,...,...,...,...,...
3462,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0
3463,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0
3464,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0
3465,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2


In [37]:
# Ocorrência do Ano 2015 e mês 5

filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 5

df.loc[filtro_ano & filtro_mes]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3165,53232,53232,ACIDENTE,TIETÊ,SP,SDET,2015-05-01,20:30:00,1
3166,53264,53264,ACIDENTE,CABECEIRA GRANDE,MG,,2015-05-01,17:00:00,1
3167,53241,53241,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-05-02,14:25:00,0
3168,53259,53259,ACIDENTE,VARGEM BONITA,MG,,2015-05-02,10:43:00,0
3169,53248,53248,INCIDENTE,FORTALEZA,CE,SBFZ,2015-05-03,15:00:00,0
3170,53247,53247,INCIDENTE,FORTALEZA,CE,SBFZ,2015-05-04,18:48:00,0
3171,53265,53265,ACIDENTE,PACARAIMA,RR,SDMM,2015-05-05,16:05:00,2
3172,53269,53269,INCIDENTE GRAVE,TERRA ROXA,PR,,2015-05-05,11:30:00,0
3173,53274,53274,INCIDENTE,SANTOS,SP,SBST,2015-05-07,11:30:00,0
3174,53286,53286,INCIDENTE,SÃO PAULO,SP,,2015-05-07,13:40:00,0


In [38]:
# Ocorrência do Ano 2015 e mês 5, SOMENTE EM UMA LINHA, NÃO ESQUECER DE INSERIR A PRIORIDADE COM ()

filtro_ano_mes = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 5)

df.loc[filtro_ano_mes]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3165,53232,53232,ACIDENTE,TIETÊ,SP,SDET,2015-05-01,20:30:00,1
3166,53264,53264,ACIDENTE,CABECEIRA GRANDE,MG,,2015-05-01,17:00:00,1
3167,53241,53241,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-05-02,14:25:00,0
3168,53259,53259,ACIDENTE,VARGEM BONITA,MG,,2015-05-02,10:43:00,0
3169,53248,53248,INCIDENTE,FORTALEZA,CE,SBFZ,2015-05-03,15:00:00,0
3170,53247,53247,INCIDENTE,FORTALEZA,CE,SBFZ,2015-05-04,18:48:00,0
3171,53265,53265,ACIDENTE,PACARAIMA,RR,SDMM,2015-05-05,16:05:00,2
3172,53269,53269,INCIDENTE GRAVE,TERRA ROXA,PR,,2015-05-05,11:30:00,0
3173,53274,53274,INCIDENTE,SANTOS,SP,SBST,2015-05-07,11:30:00,0
3174,53286,53286,INCIDENTE,SÃO PAULO,SP,,2015-05-07,13:40:00,0


In [39]:
# Ocorrência do Ano 2015, mês 5 e dia 20

filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 5
filtro_ano_mes_dia = df.ocorrencia_dia.dt.day == 20

df.loc[filtro_ano & filtro_mes & filtro_ano_mes_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3191,53254,53254,ACIDENTE,CAMBARÁ,PR,,2015-05-20,14:00:00,1
3192,53262,53262,INCIDENTE GRAVE,IBATEGUARA,AL,,2015-05-20,15:10:00,3
3193,53270,53270,INCIDENTE GRAVE,SANTO ANTÔNIO DE GOIÁS,GO,,2015-05-20,14:40:00,1
3194,53275,53275,INCIDENTE,SÃO LUÍS,MA,SBSL,2015-05-20,16:20:00,0
3195,53278,53278,INCIDENTE,SÃO PAULO,SP,SBMT,2015-05-20,16:40:00,0
3196,53283,53283,INCIDENTE,COARI,AM,SWKO,2015-05-20,17:00:00,0


In [40]:
# Ocorrência do Ano 2015, mês 5 e dia 20 até dia 30

filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 5
filtro_ano_mes_dia = (df.ocorrencia_dia.dt.day >= 20) & (df.ocorrencia_dia.dt.day <= 30)

df.loc[filtro_ano & filtro_mes & filtro_ano_mes_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3191,53254,53254,ACIDENTE,CAMBARÁ,PR,,2015-05-20,14:00:00,1
3192,53262,53262,INCIDENTE GRAVE,IBATEGUARA,AL,,2015-05-20,15:10:00,3
3193,53270,53270,INCIDENTE GRAVE,SANTO ANTÔNIO DE GOIÁS,GO,,2015-05-20,14:40:00,1
3194,53275,53275,INCIDENTE,SÃO LUÍS,MA,SBSL,2015-05-20,16:20:00,0
3195,53278,53278,INCIDENTE,SÃO PAULO,SP,SBMT,2015-05-20,16:40:00,0
3196,53283,53283,INCIDENTE,COARI,AM,SWKO,2015-05-20,17:00:00,0
3197,53267,53267,ACIDENTE,SÃO FÉLIX DO XINGU,PA,SNFX,2015-05-21,13:00:00,0
3198,53279,53279,INCIDENTE,GOVERNADOR VALADARES,MG,SBGV,2015-05-21,20:46:00,0
3199,53316,53316,INCIDENTE,SÃO ROQUE,SP,,2015-05-21,17:15:00,0
3200,53317,53317,INCIDENTE,SÃO JOSÉ DOS CAMPOS,SP,,2015-05-21,11:50:00,0


In [41]:
# Criando uma nova coluna e concatenando o dia e a hora da ocorrência
# É necessário converter a data para string
# Por último converte o valor novamente para uma data usando o pd.to_datetime

df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [42]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00


In [43]:
filtro1 = df.ocorrencia_dia_hora >= '2010-01-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2010-01-08 13:00:00'

df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0,2010-01-06 17:53:00
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0,2010-01-07 18:40:00


In [44]:
# Ocorrências do ano 2015 e mês 03
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_dia = df.ocorrencia_dia.dt.day == 3

df_2015_03 = df.loc[filtro_ano & filtro_dia]
df_2015_03

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3044,52988,52988,ACIDENTE,JOINVILLE,SC,SBJV,2015-02-03,17:45:00,1,2015-02-03 17:45:00
3045,52999,52999,INCIDENTE,ILHÉUS,BA,SBIL,2015-02-03,14:55:00,0,2015-02-03 14:55:00
3046,53105,53105,INCIDENTE GRAVE,SÃO MIGUEL DO IGUAÇU,PR,,2015-02-03,20:00:00,0,2015-02-03 20:00:00
3126,53192,53192,ACIDENTE,BRAGANÇA PAULISTA,SP,SDVH,2015-04-03,14:30:00,0,2015-04-03 14:30:00
3169,53248,53248,INCIDENTE,FORTALEZA,CE,SBFZ,2015-05-03,15:00:00,0,2015-05-03 15:00:00
3243,53357,53357,INCIDENTE GRAVE,BELÉM,PA,SBJC,2015-07-03,13:35:00,0,2015-07-03 13:35:00
3361,53511,53511,INCIDENTE,MANAUS,AM,SWFN,2015-10-03,16:02:00,0,2015-10-03 16:02:00
3362,53512,53512,INCIDENTE,BRASÍLIA,DF,SBBR,2015-10-03,14:10:00,0,2015-10-03 14:10:00
3395,53587,53587,INCIDENTE,SÃO LUÍS,MA,SBSL,2015-11-03,17:20:00,0,2015-11-03 17:20:00
3432,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0,2015-12-03 10:50:00


In [46]:
df_2015_03.count()

codigo_ocorrencia           11
codigo_ocorrencia2          11
ocorrencia_classificacao    11
ocorrencia_cidade           11
ocorrencia_uf               11
ocorrencia_aerodromo        10
ocorrencia_dia              11
ocorrencia_hora             11
total_recomendacoes         11
ocorrencia_dia_hora         11
dtype: int64

In [47]:
# Agrupando do uma determinada categoria

df_2015_03.groupby(['codigo_ocorrencia']).count()


Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
52988,1,1,1,1,1,1,1,1,1
52999,1,1,1,1,1,1,1,1,1
53105,1,1,1,1,0,1,1,1,1
53192,1,1,1,1,1,1,1,1,1
53248,1,1,1,1,1,1,1,1,1
53357,1,1,1,1,1,1,1,1,1
53511,1,1,1,1,1,1,1,1,1
53512,1,1,1,1,1,1,1,1,1
53575,1,1,1,1,1,1,1,1,1
53587,1,1,1,1,1,1,1,1,1


In [48]:
# Contando por código de ocorrência

df_2015_03.groupby(['codigo_ocorrencia']).codigo_ocorrencia.count()

codigo_ocorrencia
52988    1
52999    1
53105    1
53192    1
53248    1
53357    1
53511    1
53512    1
53575    1
53587    1
60637    1
Name: codigo_ocorrencia, dtype: int64

In [50]:
# Contando por ocorrencia_classificacao

df_2015_03.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           2
INCIDENTE          7
INCIDENTE GRAVE    2
Name: codigo_ocorrencia, dtype: int64

In [51]:
df_2015_03.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE           2
INCIDENTE          7
INCIDENTE GRAVE    1
Name: ocorrencia_aerodromo, dtype: int64

In [53]:
# É MELHOR CONTAR PELO SIZE, POIS ELE CONTA O NUMERO DE LINHAS EM UMA COLUNA

df_2015_03.groupby(['ocorrencia_classificacao']).size()


ocorrencia_classificacao
ACIDENTE           2
INCIDENTE          7
INCIDENTE GRAVE    2
dtype: int64

In [54]:
# Ordenando do menor para o maior

df_2015_03.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
ACIDENTE           2
INCIDENTE GRAVE    2
INCIDENTE          7
dtype: int64

In [55]:
# Ordenando do maior para o menor

df_2015_03.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          7
ACIDENTE           2
INCIDENTE GRAVE    2
dtype: int64

In [58]:
# Agrupando por região Sudeste
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP', 'MG', 'ES', 'RJ'])

df_sudeste_2010 = df.loc[filtro1 & filtro2]
df_sudeste_2010

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0,2010-01-10 20:00:00
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8,2010-01-10 14:50:00
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0,2010-01-15 15:00:00
...,...,...,...,...,...,...,...,...,...,...
541,43722,43722,ACIDENTE,CAJOBI,SP,,2010-12-23,11:00:00,0,2010-12-23 11:00:00
544,43548,43548,INCIDENTE,SÃO PAULO,SP,SBSP,2010-12-26,22:10:00,0,2010-12-26 22:10:00
548,43724,43724,ACIDENTE,COSMÓPOLIS,SP,,2010-12-29,12:00:00,0,2010-12-29 12:00:00
550,43730,43730,INCIDENTE,VITÓRIA,ES,,2010-12-30,18:10:00,0,2010-12-30 18:10:00


In [61]:
# Para poder realizar a contagem de algum valor, é necessário agrupar

df_sudeste_2010.groupby('ocorrencia_classificacao').count()


Unnamed: 0_level_0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
ocorrencia_classificacao,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ACIDENTE,40,40,40,40,13,40,40,40,40
INCIDENTE,170,170,170,170,101,170,170,170,170
INCIDENTE GRAVE,18,18,18,18,13,18,18,18,18


In [67]:
# É MELHOR USAR O SIZE!!

df_sudeste_2010.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size()


ocorrencia_classificacao  ocorrencia_uf
ACIDENTE                  MG                7
                          RJ                9
                          SP               24
INCIDENTE                 ES                5
                          MG               39
                          RJ               52
                          SP               74
INCIDENTE GRAVE           MG                5
                          RJ                4
                          SP                9
dtype: int64

In [68]:
df_sudeste_2010.groupby(['ocorrencia_classificacao', 'ocorrencia_uf']).size().sum()

228

In [69]:
# É MELHOR USAR O SIZE!!

df_sudeste_2010.groupby(['ocorrencia_cidade', 'ocorrencia_uf', 'ocorrencia_classificacao']).size()


ocorrencia_cidade  ocorrencia_uf  ocorrencia_classificacao
AMERICANA          SP             INCIDENTE                   1
ARARAQUARA         SP             ACIDENTE                    1
                                  INCIDENTE                   1
ARAÇATUBA          SP             ACIDENTE                    1
AREALVA            SP             INCIDENTE                   2
                                                             ..
SÃO PAULO          SP             INCIDENTE GRAVE             4
TIMÓTEO            MG             INCIDENTE GRAVE             1
UBERABA            MG             INCIDENTE                   2
UBERLÂNDIA         MG             INCIDENTE                   5
VITÓRIA            ES             INCIDENTE                   4
Length: 73, dtype: int64

In [71]:
# É MELHOR USAR O SIZE!!

df_sudeste_2010.groupby(['ocorrencia_cidade', 'ocorrencia_uf', 'ocorrencia_classificacao']).size().sort_values(ascending=False)


ocorrencia_cidade  ocorrencia_uf  ocorrencia_classificacao
RIO DE JANEIRO     RJ             INCIDENTE                   38
SÃO PAULO          SP             INCIDENTE                   22
GUARULHOS          SP             INCIDENTE                   17
BELO HORIZONTE     MG             INCIDENTE                   14
CAMPINAS           SP             INCIDENTE                   13
                                                              ..
LINHARES           ES             INCIDENTE                    1
MACAÉ              RJ             ACIDENTE                     1
BELO HORIZONTE     MG             INCIDENTE GRAVE              1
MANGARATIBA        RJ             ACIDENTE                     1
AMERICANA          SP             INCIDENTE                    1
Length: 73, dtype: int64

In [72]:
# Contando Ocorrência por Cidades

df_sudeste_2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)


ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
JUIZ DE FORA              4
VITÓRIA                   4
MARÍLIA                   3
SÃO JOSÉ DOS CAMPOS       3
SÃO JOSÉ DO RIO PRETO     3
SOROCABA                  2
ITANHAÉM                  2
RIBEIRÃO PRETO            2
IPATINGA                  2
POÇOS DE CALDAS           2
DIVINÓPOLIS               2
BAURU                     2
JUNDIAÍ                   2
ARARAQUARA                2
CAMPOS DOS GOYTACAZES     2
AREALVA                   2
MONTES CLAROS             2
UBERABA                   2
POUSO ALEGRE              1
PIRACICABA                1
PIRASSUNUNGA              1
ARRAIAL DO CABO           1
RESENDE                   1
PENÁPOLIS                 1
SANTOS                    1
SERRA NEGRA               1
SÃO BERNARDO DO CAMPO     1
TI

In [75]:
filtro_rio = df_sudeste_2010.ocorrencia_cidade == 'RIO DE JANEIRO'

df_sudeste_2010.loc[filtro_rio].total_recomendacoes.sum()

25

In [78]:
# contage de ocrrencia por cidade

df_sudeste_2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RESENDE                   8
JUNDIAÍ                   7
NOVO HORIZONTE            3
TIMÓTEO                   3
IPERÓ                     3
SÃO BERNARDO DO CAMPO     2
BELO HORIZONTE            2
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
PENÁPOLIS                 0
PIACATU                   0
AMERICANA                 0
PIRASSUNUNGA              0
PARÁ DE MINAS             0
OLÍMPIA                   0
PIRACICABA                0
SANTOS                    0
POUSO ALEGRE              0
POÇOS DE CALDAS           0
RIBEIRÃO PRETO            0
MARÍLIA                   0
SERRA NEGRA               0
SOROCABA                  0
SÃO JOSÉ DO RIO PRETO     0
SÃO JOSÉ DOS CAMPOS       0
UBERABA                   0
UBERLÂNDIA                0
MONTES CLAROS             0
JUIZ DE FORA              0
MANGARATIBA               0
CA

In [80]:
# contagem do total de recomendações por aerodromo

df_sudeste_2010.groupby(['ocorrencia_aerodromo']).total_recomendacoes.sum().sort_values(ascending=False)


ocorrencia_aerodromo
SBMT    27
SBRJ    19
SBBP     9
SBJD     7
SBJR     3
SBGL     3
SBPR     1
SDOI     1
SBVT     0
SBSR     0
SBUL     0
SBUR     0
SBAE     0
SDAM     0
SBSJ     0
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SBSP     0
SBPC     0
SBRP     0
SBAQ     0
SBML     0
SBMK     0
SBME     0
SBKP     0
SBIP     0
SBGR     0
SBCF     0
SBBU     0
SBBH     0
SNXT     0
Name: total_recomendacoes, dtype: int64

In [81]:
# contagem do total de recomendações por aerodromo
# SEM EXCLUIR OS NAs

df_sudeste_2010.groupby(['ocorrencia_aerodromo'], dropna = False).total_recomendacoes.sum().sort_values(ascending=False)


ocorrencia_aerodromo
NaN     45
SBMT    27
SBRJ    19
SBBP     9
SBJD     7
SBGL     3
SBJR     3
SDOI     1
SBPR     1
SBIP     0
SBSR     0
SNXT     0
SNDV     0
SNDT     0
SDPY     0
SDPW     0
SBBH     0
SDAM     0
SBVT     0
SBUR     0
SBUL     0
SBSP     0
SBGR     0
SBSJ     0
SBRP     0
SBBU     0
SBAQ     0
SBPC     0
SBCF     0
SBML     0
SBMK     0
SBME     0
SBKP     0
SBAE     0
Name: total_recomendacoes, dtype: int64

In [85]:
# selecionando dados da região sudeste que tenham recomendações

filtro_sudeste_2010 = df_sudeste_2010.total_recomendacoes > 0

df_sudeste_2010.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)


ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RESENDE                   8
JUNDIAÍ                   7
NOVO HORIZONTE            3
TIMÓTEO                   3
IPERÓ                     3
SÃO BERNARDO DO CAMPO     2
BELO HORIZONTE            2
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
PENÁPOLIS                 0
PIACATU                   0
AMERICANA                 0
PIRASSUNUNGA              0
PARÁ DE MINAS             0
OLÍMPIA                   0
PIRACICABA                0
SANTOS                    0
POUSO ALEGRE              0
POÇOS DE CALDAS           0
RIBEIRÃO PRETO            0
MARÍLIA                   0
SERRA NEGRA               0
SOROCABA                  0
SÃO JOSÉ DO RIO PRETO     0
SÃO JOSÉ DOS CAMPOS       0
UBERABA                   0
UBERLÂNDIA                0
MONTES CLAROS             0
JUIZ DE FORA              0
MANGARATIBA               0
CA

In [86]:
# selecionando dados da região sudeste que tenham recomendações

filtro_sudeste_2010 = df_sudeste_2010.total_recomendacoes > 0

df_sudeste_2010.loc[filtro_sudeste_2010].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)


ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RESENDE                   8
JUNDIAÍ                   7
IPERÓ                     3
NOVO HORIZONTE            3
TIMÓTEO                   3
BELO HORIZONTE            2
SÃO BERNARDO DO CAMPO     2
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
Name: total_recomendacoes, dtype: int64

In [89]:
# Agrupanfo o total de recomendaçoes por meses

df_sudeste_2010.loc[filtro_sudeste_2010].groupby(['ocorrencia_cidade', df_sudeste_2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum().sort_values(ascending=False)


ocorrencia_cidade      ocorrencia_dia
RIO DE JANEIRO         8                 19
SÃO PAULO              2                 14
                       12                11
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
RESENDE                4                  8
SÃO PAULO              1                  8
                       11                 6
JUNDIAÍ                5                  5
RIO DE JANEIRO         4                  3
                       7                  3
TIMÓTEO                2                  3
NOVO HORIZONTE         7                  3
IPERÓ                  1                  3
JUNDIAÍ                6                  2
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              6                  2
BELO HORIZONTE         3                  1
ITANHAÉM               9                  1
BOM JESUS DO GALHO     12                 1
BOITUVA                7                  1
BELO HORIZONTE         2              