In [None]:
#!pip install pandera

## Extração de Dados

In [None]:
import pandas as pd
import pandera as pa

## A variavel 'valores_ausentes' é utilizada para a limpeza dos dados!

In [98]:
valores_ausentes = ['**', '****', '*****', '###!', '####', 'NULL']
df = pd.read_csv("/content/drive/MyDrive/Dio_ETL_projeto/ocorrencia.csv", sep=";", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0


## Define a validação dos Dados


In [99]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|2[0-3]):([0-5][0-9]):([0-5][0-9])?$'), nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

## Validação dos Dados

In [100]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0


### Verificando os tipos de dados!

In [None]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

### Localizando dados por lable func = loc e por indice func = iloc

In [None]:
df.loc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0


In [None]:
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0


In [None]:
df.tail()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0
6113,80259,80259,INCIDENTE,CAMPINAS,SP,SBKP,2021-08-18,12:45:00,0


### Busca por coluna

In [None]:
df.loc[:, 'ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
6109    PE
6110    RO
6111    PA
6112    MT
6113    SP
Name: ocorrencia_uf, Length: 6114, dtype: object

In [None]:
df['ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
6109    PE
6110    RO
6111    PA
6112    MT
6113    SP
Name: ocorrencia_uf, Length: 6114, dtype: object

### Consultando colunas com valores não informados.

In [None]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [None]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

### Filtrando resultados por coluna.

In [None]:
# df.ocorrencia_uf.isnull()
# df.loc[df.ocorrencia_uf.isnull()]
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0
5855,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


In [None]:
filtro = df.ocorrencia_aerodromo.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...
6092,80236,80236,ACIDENTE,POCONÉ,MT,,2021-08-01,22:00:00,0
6093,80227,80227,ACIDENTE,UMUARAMA,PR,,2021-08-02,14:30:00,0
6096,80229,80229,INCIDENTE,ITAGUAÍ,RJ,,2021-08-05,15:30:00,0
6099,80233,80233,ACIDENTE,POCONÉ,MT,,2021-08-08,12:30:00,0


In [None]:
filtro = df.ocorrencia_hora.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
4102,78823,78823,INCIDENTE,CORUMBÁ,MS,,2017-07-09,,0


### Visualisando valores totais.

In [None]:
df.count()

codigo_ocorrencia           6114
codigo_ocorrencia2          6114
ocorrencia_classificacao    6114
ocorrencia_cidade           6114
ocorrencia_uf               6112
ocorrencia_aerodromo        3658
ocorrencia_dia              6114
ocorrencia_hora             6113
total_recomendacoes         6114
dtype: int64

In [None]:
# Ocorrencias com mais de 10 recomendações
filtro = df.total_recomendacoes >= 10
df.loc[filtro]


Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,2010-02-17,20:07:00,11
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19
530,43471,43471,ACIDENTE,SÃO PAULO,SP,,2010-12-14,20:15:00,11
552,43633,43633,INCIDENTE GRAVE,RIBEIRÃO PRETO,SP,SBRP,2011-01-01,19:35:00,10
727,44377,44377,ACIDENTE,ITÁPOLIS,SP,SDIO,2011-04-09,14:50:00,11
834,44661,44661,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,,2011-06-17,11:59:00,10
872,44796,44796,ACIDENTE,RECIFE,PE,SBRF,2011-07-13,09:54:00,23
884,44888,44888,INCIDENTE GRAVE,SÃO JOSÉ DOS PINHAIS,PR,SBCT,2011-07-15,17:05:00,11
1062,45554,45554,INCIDENTE GRAVE,UBERLÂNDIA,MG,SBUL,2011-11-15,02:15:00,20
1972,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11


In [None]:
filtro = df.total_recomendacoes >= 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
552,RIBEIRÃO PRETO,10
727,ITÁPOLIS,11
834,RIO DE JANEIRO,10
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11


In [None]:
# Ocorrencias cuja classificação == INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_dia', 'ocorrencia_uf', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_dia,ocorrencia_uf,ocorrencia_cidade
7,2010-01-09,AM,CANUTAMA
8,2010-01-10,PR,CASCAVEL
9,2010-01-10,MG,PARÁ DE MINAS
29,2010-01-23,PR,CURITIBA
35,2010-01-26,TO,PALMAS
...,...,...,...
6090,2021-07-31,BA,MARAÚ
6095,2021-08-05,RS,ELDORADO DO SUL
6097,2021-08-06,RS,CAXIAS DO SUL
6098,2021-08-06,MS,CHAPADÃO DO SUL


### Combinação de Filtros

In [None]:
# Ocorrencias cuja classificação == INCIDENTE GRAVE e UF == 'SP'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2, ['ocorrencia_dia', 'ocorrencia_cidade']]

Unnamed: 0,ocorrencia_dia,ocorrencia_cidade
136,2010-04-15,PIRASSUNUNGA
171,2010-05-06,GUARULHOS
219,2010-06-08,SÃO PAULO
297,2010-07-29,SÃO PAULO
314,2010-08-05,SÃO JOSÉ DO RIO PRETO
...,...,...
5949,2021-04-28,FERNANDÓPOLIS
6000,2021-06-05,LINS
6007,2021-06-10,SÃO PAULO
6081,2021-07-25,BRAGANÇA PAULISTA


In [None]:
# Ocorrencias cuja classificação == INCIDENTE GRAVE ou UF == 'SP'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2, ['ocorrencia_dia', 'ocorrencia_uf', 'ocorrencia_cidade', 'ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_dia,ocorrencia_uf,ocorrencia_cidade,ocorrencia_classificacao
7,2010-01-09,AM,CANUTAMA,INCIDENTE GRAVE
8,2010-01-10,PR,CASCAVEL,INCIDENTE GRAVE
9,2010-01-10,MG,PARÁ DE MINAS,INCIDENTE GRAVE
11,2010-01-10,SP,SÃO PAULO,ACIDENTE
16,2010-01-15,SP,SÃO PAULO,INCIDENTE
...,...,...,...,...
6097,2021-08-06,RS,CAXIAS DO SUL,INCIDENTE GRAVE
6098,2021-08-06,MS,CHAPADÃO DO SUL,INCIDENTE GRAVE
6104,2021-08-11,SP,VOTUPORANGA,INCIDENTE GRAVE
6108,2021-08-15,SP,BRAGANÇA PAULISTA,INCIDENTE


In [None]:
# Ocorrencias cuja (classificação == INCIDENTE GRAVE ou classificação == INCIDENTE) e UF == 'SP'
#filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2, ['ocorrencia_dia', 'ocorrencia_cidade', 'ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_dia,ocorrencia_cidade,ocorrencia_classificacao
16,2010-01-15,SÃO PAULO,INCIDENTE
18,2010-01-15,SANTOS,INCIDENTE
26,2010-01-20,SOROCABA,INCIDENTE
27,2010-01-21,CAMPINAS,INCIDENTE
33,2010-01-25,GUARULHOS,INCIDENTE
...,...,...,...
6084,2021-07-26,SÃO PAULO,INCIDENTE
6085,2021-07-27,SÃO PAULO,INCIDENTE
6104,2021-08-11,VOTUPORANGA,INCIDENTE GRAVE
6108,2021-08-15,BRAGANÇA PAULISTA,INCIDENTE


In [None]:
# Ocorrencias cuja cidades começam com a letra c
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
20,40310,40310,INCIDENTE,CRUZEIRO DO SUL,AC,SBCZ,2010-01-18,19:32:00,0
...,...,...,...,...,...,...,...,...,...
6094,80225,80225,INCIDENTE,CURITIBA,PR,SBBI,2021-08-04,13:45:00,0
6097,80231,80231,INCIDENTE GRAVE,CAXIAS DO SUL,RS,SBCX,2021-08-06,16:59:00,0
6098,80248,80248,INCIDENTE GRAVE,CHAPADÃO DO SUL,MS,SSCD,2021-08-06,20:00:00,0
6100,80235,80235,INCIDENTE,CORUMBÁ,MS,SBCR,2021-08-09,20:55:00,0


In [None]:
# Ocorrencias cuja cidades começam com a letra 'C' e terminam com a letra "A"
filtro1 = df.ocorrencia_cidade.str[0] == 'C'
filtro2 = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
29,39709,39709,INCIDENTE GRAVE,CURITIBA,PR,SBBI,2010-01-23,16:36:00,2
51,39115,39115,ACIDENTE,CORRENTINA,BA,SNTY,2010-02-07,17:40:00,2
62,39930,39930,INCIDENTE GRAVE,CURITIBA,PR,SBCT,2010-02-16,16:25:00,2
...,...,...,...,...,...,...,...,...,...
6053,80181,80181,INCIDENTE GRAVE,CASSILÂNDIA,MS,SSCL,2021-07-08,22:30:00,0
6058,80177,80177,ACIDENTE,CASTANHEIRA,MT,,2021-07-10,17:00:00,0
6082,80201,80201,INCIDENTE,CAÇAPAVA,SP,SDIP,2021-07-25,17:21:00,0
6088,80220,80220,INCIDENTE,CURITIBA,PR,SBBI,2021-07-29,10:26:00,0


In [None]:
# Ocorrencias cuja cidades terminam com os caracteres "MA"
filtro = df.ocorrencia_cidade.str[-2:] == 'MA'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0
408,43062,43062,ACIDENTE,NOVO GAMA,GO,,2010-09-25,16:30:00,1
688,44198,44198,ACIDENTE,BURITAMA,SP,,2011-03-19,11:18:00,0
1035,51785,51785,INCIDENTE,BURITAMA,SP,SIBX,2011-10-25,19:15:00,0
1377,45939,45939,ACIDENTE,UMUARAMA,PR,,2012-05-30,19:00:00,0
1401,46180,46180,ACIDENTE,AURIFLAMA,SP,,2012-06-16,19:30:00,0
2099,49113,49113,INCIDENTE GRAVE,NOVA LIMA,MG,,2013-06-15,12:00:00,4
2102,48799,48799,ACIDENTE,CANUTAMA,AM,,2013-06-18,21:30:00,0
2646,80059,80059,INCIDENTE,IVINHEMA,MS,,2014-04-27,11:30:00,0


In [None]:
# Ocorrencias cuja cidades contém(em qualquer parte do conteúdo) com os caracteres "MA"
filtro = df.ocorrencia_cidade.str.contains('DO|CA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
...,...,...,...,...,...,...,...,...,...
6095,80228,80228,INCIDENTE GRAVE,ELDORADO DO SUL,RS,SIXE,2021-08-05,15:55:00,0
6097,80231,80231,INCIDENTE GRAVE,CAXIAS DO SUL,RS,SBCX,2021-08-06,16:59:00,0
6098,80248,80248,INCIDENTE GRAVE,CHAPADÃO DO SUL,MS,SSCD,2021-08-06,20:00:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0


In [67]:
# Ocorrencias do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2998,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3
2999,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0
3000,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0
3001,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0
3002,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6
...,...,...,...,...,...,...,...,...,...
3464,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0
3465,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0
3466,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0
3467,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2


In [73]:
# Ocorrencias do ano de 2015 e mes 12 e dia 8
#filtro_ano = df.ocorrencia_dia.dt.year == 2015
#filtro_mes = df.ocorrencia_dia.dt.month == 12
#filtro_dia = df.ocorrencia_dia.dt.day == 8
#df.loc[filtro_ano & filtro_mes & filtro_dia]
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12) & (df.ocorrencia_dia.dt.day == 8)
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3438,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3439,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
3440,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
3441,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


In [76]:
# Ocorrencias do ano de 2015 e mes 12 e dias entre 3 e 8
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
filtro_dia = (df.ocorrencia_dia.dt.day > 2) & (df.ocorrencia_dia.dt.day < 9)
df.loc[filtro_ano & filtro_mes & filtro_dia]
#filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12) & ((df.ocorrencia_dia.dt.day > 2 ) & (df.ocorrencia_dia.dt.day < 9))
#df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
3434,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0
3435,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0
3436,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3
3437,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1
3438,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1
3439,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0
3440,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0
3441,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0


### Criando uma nova coluna e transformando o typo de dados.

In [79]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [78]:
df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora

0       2010-01-03 12:00:00
1       2010-01-03 11:05:00
2       2010-01-03 03:00:00
3       2010-01-04 17:30:00
4       2010-01-05 19:25:00
               ...         
6109    2021-08-15 15:05:00
6110    2021-08-16 02:30:00
6111    2021-08-17 15:45:00
6112    2021-08-18 16:00:00
6113    2021-08-18 12:45:00
Length: 6114, dtype: object

In [80]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,c,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00
...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0,2021-08-15 15:05:00
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0,2021-08-16 02:30:00
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0,2021-08-17 15:45:00
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0,2021-08-18 16:00:00


In [82]:
# Ocorrencias do ano de 2015 e mes 12 e dias entre 3 e 8
filtro_ano = df.ocorrencia_dia_hora.dt.year == 2015
filtro_mes = df.ocorrencia_dia_hora.dt.month == 12
filtro_dia = (df.ocorrencia_dia_hora.dt.day > 2) & (df.ocorrencia_dia_hora.dt.day < 9)
df.loc[filtro_ano & filtro_mes & filtro_dia]
#filtro = (df.ocorrencia_dia_hora.dt.year == 2015) & (df.ocorrencia_dia_hora.dt.month == 12) & ((df.ocorrencia_dia_hora.dt.day > 2 ) & (df.ocorrencia_dia_hora.dt.day < 9))
#df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3434,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0,2015-12-03 10:50:00
3435,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
3436,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
3437,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
3438,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1,2015-12-08 14:30:00
3439,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
3440,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0,2015-12-08 16:19:00
3441,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


In [84]:
# Ocorrencias do ano de 2015 e mes 12 e dias entre 3 e 8 e as horas
filtro_inicio = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro_fim = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'
df.loc[filtro_inicio & filtro_fim]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3435,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0,2015-12-03 16:47:00
3436,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3,2015-12-06 13:10:00
3437,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1,2015-12-06 15:00:00
3439,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0,2015-12-08 10:20:00
3441,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0,2015-12-08 13:00:00


## Agrupamento de dados para gerar novos dataframes

In [87]:
# Ocorrencias do ano de 2015 e mes 3
filtro1 = df.ocorrencia_dia_hora.dt.year == 2015
filtro2 = df.ocorrencia_dia_hora.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
3088,53183,53183,ACIDENTE,AMAPORÃ,PR,,2015-03-02,23:00:00,0,2015-03-02 23:00:00
3089,53120,53120,ACIDENTE,CHAVES,PA,SNXW,2015-03-04,13:30:00,0,2015-03-04 13:30:00
3090,53109,53109,ACIDENTE,CAMPO GRANDE,MS,SSIE,2015-03-05,13:50:00,0,2015-03-05 13:50:00
3091,53112,53112,ACIDENTE,MOGI GUAÇU,SP,,2015-03-06,21:00:00,0,2015-03-06 21:00:00
3092,53152,53152,INCIDENTE GRAVE,RIO DE JANEIRO,RJ,SBRJ,2015-03-10,11:30:00,2,2015-03-10 11:30:00
3093,53167,53167,INCIDENTE,MARABÁ,PA,SBMA,2015-03-10,17:33:00,0,2015-03-10 17:33:00
3094,53596,53596,INCIDENTE,ITAPEMA,SC,,2015-03-10,21:35:00,0,2015-03-10 21:35:00
3095,53149,53149,ACIDENTE,TABATINGA,AM,SBTT,2015-03-11,23:25:00,0,2015-03-11 23:25:00
3096,53148,53148,ACIDENTE,ARARAS,SP,SDEH,2015-03-12,12:40:00,0,2015-03-12 12:40:00
3097,53153,53153,INCIDENTE,PORTO ALEGRE,RS,SBPA,2015-03-13,15:45:00,0,2015-03-13 15:45:00


In [88]:
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [91]:
# Agrupando valores
#df201503.groupby(['codigo_ocorrencia']).count()
#df201503.groupby(['codigo_ocorrencia']).codigo_ocorrencia.count()
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [92]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [93]:
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [94]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

In [95]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [101]:
# Agrupar dados da regiao Suldeste no ano de 2010
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP', 'MG', 'ES', 'RJ'])
df2010SD = df.loc[filtro1 & filtro2]
df2010SD

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
...,...,...,...,...,...,...,...,...,...
541,43722,43722,ACIDENTE,CAJOBI,SP,,2010-12-23,11:00:00,0
544,43548,43548,INCIDENTE,SÃO PAULO,SP,SBSP,2010-12-26,22:10:00,0
548,43724,43724,ACIDENTE,COSMÓPOLIS,SP,,2010-12-29,12:00:00,0
550,43730,43730,INCIDENTE,VITÓRIA,ES,,2010-12-30,18:10:00,0


In [102]:
df2010SD.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [107]:
df2010SD.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
VITÓRIA                   4
JUIZ DE FORA              4
SÃO JOSÉ DO RIO PRETO     3
SÃO JOSÉ DOS CAMPOS       3
MARÍLIA                   3
ARARAQUARA                2
MONTES CLAROS             2
CAMPOS DOS GOYTACAZES     2
DIVINÓPOLIS               2
IPATINGA                  2
ITANHAÉM                  2
JUNDIAÍ                   2
POÇOS DE CALDAS           2
RIBEIRÃO PRETO            2
SOROCABA                  2
UBERABA                   2
BAURU                     2
AREALVA                   2
BOITUVA                   1
BOCAINA                   1
BOM JESUS DO AMPARO       1
BOM JESUS DO GALHO        1
BEBEDOURO                 1
BRAGANÇA PAULISTA         1
BROTAS                    1
CAJOBI                    1
ARRAIAL DO CABO           1
CA

In [104]:
df2010SD.groupby(['ocorrencia_uf']).size()

ocorrencia_uf
ES      5
MG     51
RJ     65
SP    107
dtype: int64

In [106]:
df2010SD.groupby(['ocorrencia_uf','ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             INCIDENTE                    5
MG             ACIDENTE                     7
               INCIDENTE                   39
               INCIDENTE GRAVE              5
RJ             ACIDENTE                     9
               INCIDENTE                   52
               INCIDENTE GRAVE              4
SP             ACIDENTE                    24
               INCIDENTE                   74
               INCIDENTE GRAVE              9
dtype: int64

In [109]:
# Rio de Janeiro
filtro1 = df2010SD.ocorrencia_cidade == 'RIO DE JANEIRO'
filtro2 = df2010SD.total_recomendacoes > 0
df2010SD.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
119,40190,40190,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2010-04-06,02:35:00,3
274,41750,41750,ACIDENTE,RIO DE JANEIRO,RJ,SBJR,2010-07-12,19:53:00,3
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19


In [111]:
filtro = df2010SD.ocorrencia_cidade == 'RIO DE JANEIRO'
df2010SD.loc[filtro].total_recomendacoes.sum()

25

In [113]:
df2010SD.groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
RESENDE                   8
JUNDIAÍ                   7
NOVO HORIZONTE            3
IPERÓ                     3
TIMÓTEO                   3
BELO HORIZONTE            2
SÃO BERNARDO DO CAMPO     2
BOITUVA                   1
BOM JESUS DO GALHO        1
ITANHAÉM                  1
COSMÓPOLIS                0
CONFINS                   0
DIAMANTINA                0
CASIMIRO DE ABREU         0
CAMPOS DOS GOYTACAZES     0
CAMPINAS                  0
COROMANDEL                0
VITÓRIA                   0
CAJOBI                    0
BROTAS                    0
GUARULHOS                 0
BOM JESUS DO AMPARO       0
BOCAINA                   0
BEBEDOURO                 0
BAURU                     0
ARRAIAL DO CABO           0
AREALVA                   0
ARAÇATUBA                 0
ARARAQUARA                0
DIVINÓPOLIS               0
JUIZ DE FORA              0
IP

In [116]:
df2010SD.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_aerodromo
NaN     45
SBMT    27
SBRJ    19
SBBP     9
SBJD     7
SBGL     3
SBJR     3
SDOI     1
SBPR     1
SBAQ     0
SBKP     0
SBMK     0
SBME     0
SBIP     0
SBBH     0
SBML     0
SBCF     0
SBBU     0
SBGR     0
SBPC     0
SNXT     0
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SBAE     0
Name: total_recomendacoes, dtype: int64

In [118]:
filtro = df2010SD.total_recomendacoes > 0
df2010SD.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum().sort_values(ascending=False)

ocorrencia_cidade
SÃO PAULO                41
RIO DE JANEIRO           25
CAMANDUCAIA               9
BRAGANÇA PAULISTA         9
RESENDE                   8
JUNDIAÍ                   7
TIMÓTEO                   3
NOVO HORIZONTE            3
IPERÓ                     3
SÃO BERNARDO DO CAMPO     2
BELO HORIZONTE            2
ITANHAÉM                  1
BOM JESUS DO GALHO        1
BOITUVA                   1
Name: total_recomendacoes, dtype: int64

In [119]:
df2010SD.loc[filtro].groupby(['ocorrencia_cidade', df2010SD.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              

In [121]:
filtro1 = df2010SD.total_recomendacoes > 0
filtro2 = df2010SD.ocorrencia_cidade == 'SÃO PAULO'
df2010SD.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
58,39275,39275,ACIDENTE,SÃO PAULO,SP,,2010-02-10,09:03:00,3
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,2010-02-17,20:07:00,11
219,41411,41411,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-06-08,19:30:00,2
469,43450,43450,ACIDENTE,SÃO PAULO,SP,SBMT,2010-11-04,10:55:00,6
530,43471,43471,ACIDENTE,SÃO PAULO,SP,,2010-12-14,20:15:00,11
