# Instruções de Extração, Validação e Limpeza

## Carregando as Bibliotecas:

In [122]:
import pandas as pd
import pandera as pa

## 1 - Extração:

In [123]:
valores_ausentes = ["***", "****", "###!", "####", "*****", "NULL", "NÃO IDENTIFICADA", ""]
df = pd.read_csv("ocorrencia.csv", sep=",", parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)
# valores_ausentes - cria um array com todos os possíveis valores ausentes nos dados a serem carregados
# na_values=valores_ausentes - identifica pelo array criado os possíveis valores ausentes e os substitui por NaN ou NaT já no carregamento

## 2 - Validação:

### Esquema de Validação:

In [124]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo": pa.Column(pa.Int, required=False),
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String, nullable=True),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime, nullable=True),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9]):([0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Float, nullable=True)
    }
)

### Validação dos Dados:

In [125]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0.0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0


### Conferir os Tipos de Dados:

In [126]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                float64
dtype: object

## 3 - Localização de Dados - ***Filtros***

### Localizando e exibindo itens do dataframe por seus indices com a função .iloc[]:

In [127]:
df.iloc[0] # imprime o primeiro item do dataframe

codigo_ocorrencia                         52242
codigo_ocorrencia2                        52242
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                  PORTO ALEGRE
ocorrencia_uf                                RS
ocorrencia_aerodromo                       SBPA
ocorrencia_dia              2012-01-05 00:00:00
ocorrencia_hora                        20:27:00
total_recomendacoes                         0.0
Name: 0, dtype: object

In [128]:
df.iloc[-1] # imprime o último item do dataframe

codigo_ocorrencia                         80467
codigo_ocorrencia2                        80467
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                     PETROLINA
ocorrencia_uf                                PE
ocorrencia_aerodromo                       SBPL
ocorrencia_dia              2021-12-31 00:00:00
ocorrencia_hora                        20:30:00
total_recomendacoes                         0.0
Name: 5166, dtype: object

In [129]:
df.iloc[10:15] # imprime os itens de indice 10 a 14 do dataframe - o indice 15 não consta no range

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0.0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0.0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0.0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1.0
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0.0


In [130]:
df.iloc[-3:] # imprime do antepenúltimo ao último item do dataframe - o indice do primeiro indice a ser exibido vem primeiro

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


### Buscando Dados de uma Coluna Específica - funciona com uma coluna por vez:

In [131]:
df['ocorrencia_uf']

0       RS
1       SP
2       RS
3       SP
4       RS
        ..
5162    GO
5163    SP
5164    RS
5165    PR
5166    PE
Name: ocorrencia_uf, Length: 5167, dtype: object

### Manipulação de Valores Nulos:

In [132]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade             23
ocorrencia_uf                 19
ocorrencia_aerodromo        1914
ocorrencia_dia                17
ocorrencia_hora               18
total_recomendacoes           17
dtype: int64

In [133]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade             23
ocorrencia_uf                 19
ocorrencia_aerodromo        1914
ocorrencia_dia                17
ocorrencia_hora               18
total_recomendacoes           17
dtype: int64

### Identificando os Valores Ausentes no Dataframe:

In [134]:
df.ocorrencia_uf.isnull()
# df - dataframe
# .ocorrencia_uf - coluna que será pesquisada
# .isnull() - função que localiza os valores ausentes
# valores presentes - aparecerão como False
# valores ausentes - aparecerão como True

0       False
1       False
2       False
3       False
4       False
        ...  
5162    False
5163    False
5164    False
5165    False
5166    False
Name: ocorrencia_uf, Length: 5167, dtype: bool

### Exibindo apenas os registros com Valores Ausentes:

In [135]:
df.loc[df.ocorrencia_uf.isnull()]
# df - dataframe
# .loc - função que exibirá os dados filtrados
# df.ocorrencia_uf - indica a coluna com os dados a serem filtrados
# .isnull() - função que localiza os valores ausentes
# serão exibidos as linhas completas onde houver valores nulos na coluna indicada

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,2:54:00,0.0
1794,52697,52697,INCIDENTE GRAVE,,,,NaT,,
1861,52948,52948,INCIDENTE GRAVE,,,,NaT,,
3334,79567,79567,ACIDENTE,,,,NaT,,
3366,78035,78035,INCIDENTE GRAVE,,,,NaT,,
4346,79385,79385,INCIDENTE GRAVE,,,,NaT,,
4387,79445,79445,ACIDENTE,,,,NaT,,
4417,79481,79481,INCIDENTE,,,,NaT,,
4538,79663,79663,INCIDENTE GRAVE,,,,NaT,,
4625,79844,79844,INCIDENTE,,,,NaT,,


In [136]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]
# df.ocorrencia_uf.isnull() é atribuída à variável filtro
# a variável filtro é indicada na função df.loc[]
# executa o mesmo filtro que a função anterior, mas fica mais compreensível

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,2:54:00,0.0
1794,52697,52697,INCIDENTE GRAVE,,,,NaT,,
1861,52948,52948,INCIDENTE GRAVE,,,,NaT,,
3334,79567,79567,ACIDENTE,,,,NaT,,
3366,78035,78035,INCIDENTE GRAVE,,,,NaT,,
4346,79385,79385,INCIDENTE GRAVE,,,,NaT,,
4387,79445,79445,ACIDENTE,,,,NaT,,
4417,79481,79481,INCIDENTE,,,,NaT,,
4538,79663,79663,INCIDENTE GRAVE,,,,NaT,,
4625,79844,79844,INCIDENTE,,,,NaT,,


### Identificar Colunas com Valores Ausentes com a função .count():

In [137]:
df.count()
# count() - por padrão, não conseidera os valores ausentes na contagem dos valores das colunas
# será exibido um resumo com as quantidades de registros de cada coluna do dataframe
# as colunas que exibirem menos registros que o total do dataframe são as que possuem valores nulos

codigo_ocorrencia           5167
codigo_ocorrencia2          5167
ocorrencia_classificacao    5167
ocorrencia_cidade           5144
ocorrencia_uf               5148
ocorrencia_aerodromo        3253
ocorrencia_dia              5150
ocorrencia_hora             5149
total_recomendacoes         5150
dtype: int64

### Filtros que podemos utilizar para retornar valores do Dataframe - ***incluindo condições com operadores de comparação:***

#### Obter ocorrências com mais de 10 recomendações:

In [138]:
filtro = df.total_recomendacoes > 10 # adiciona à variável a condição para retornar os valores da coluna total_recomendacoes - valores > 10
df.loc[filtro] # recebe a variável filtro e executa o filtro baseado na condição contida nela
# serão exibidos as linhas completas dos registros cuja a coluna total de recomendações possui valor maior que 10

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11.0
1669,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13.0
2804,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12.0


#### Realizar o filtro e exibir apenas colunas específicas dos registros:

In [139]:
filtro = df.total_recomendacoes >10 # condição para retornar os valores
df.loc[filtro, 'ocorrencia_cidade']
# filtro - filtro que será executado - contém o número das linhas a serem exibidas
# 'ocorrencia_cidade' - nome da coluna da qual os registros que atenderem à condição serão exibidos
# Serão exibidas as cidades dos registros que receberam mais de 10 recomendações

844     BRASÍLIA
1669      SANTOS
2804     VITÓRIA
Name: ocorrencia_cidade, dtype: object

#### Realizar o Filtro retornando mais de 1 coluna específica:

In [140]:
filtro = df.total_recomendacoes >10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]
# ['ocorrencia_cidade', 'total_recomendacoes'] - lista/array com os nomes das colunas a serem exibidas
# Serão exibidos a cidade e o total de recomendações dos registros que receberam mais de 10 recomendações

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
844,BRASÍLIA,11.0
1669,SANTOS,13.0
2804,VITÓRIA,12.0


#### Filtrando registros com uma ***classificação específica*** em uma coluna:

In [141]:
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE' # condição com a classificação a ser buscada na coluna 'ocorrencia_classificacao
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]
# Serão exibidos a cidade e o total de recomendações para os registros com a classificação de INCIDENTE GRAVE

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
6,CAMPINAS,0.0
12,MARABÁ,0.0
18,CAMOCIM,0.0
19,MUANÁ,0.0
24,RONDONÓPOLIS,0.0
...,...,...
5139,NOVA BANDEIRANTES,0.0
5146,FORMOSO DO ARAGUAIA,0.0
5158,ARAÇATUBA,0.0
5159,SANTA RITA,0.0


#### Executando Filtros com ***mais de 1 condição***:

In [142]:
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2] # utiliza o operador & (and) para combinar as duas condições dos filtros
# Retornará os registros que receberão a classificação de INCIDENTE GRAVE e ocorreram no estado de SP

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
78,45598,45598,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-20,14:10:00,0.0
86,45653,45653,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2012-02-24,20:04:00,0.0
91,45599,45599,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-27,19:15:00,0.0
140,45651,45651,INCIDENTE GRAVE,ITU,SP,,2012-03-24,20:45:00,1.0
...,...,...,...,...,...,...,...,...,...
4954,80200,80200,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-07-25,12:25:00,0.0
4980,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11,19:09:00,0.0
5003,80265,80265,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2021-08-31,16:50:00,0.0
5098,80382,80382,INCIDENTE GRAVE,PIRACICABA,SP,SDPW,2021-11-16,20:50:00,0.0


In [143]:
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2] # utiliza o operador | (or) para combinar as duas condições dos filtros
# Retornará os registros que receberão a classificação de INCIDENTE GRAVE ou que ocorreram no estado de SP

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0.0
...,...,...,...,...,...,...,...,...,...
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0.0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0.0
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0.0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0


#### Combinação de ***mais de 1 condição no mesmo filtro***:

In [144]:
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2] # combinação dos filtros 1 e 2 para execução do filtro
# no filtro1 são verificadas 2 condições a serem verificadas na coluna ocorrencia_classificacao - INCIDENTE GRAVE e INCIDENTE
# uma das duas condições deve ser atendida para performar o filtro
# as condições devem ser colocadas entre parênteses para os operadores de comparação serem executados antes do operador lógico | (or)
# o filtro retornará todas as ocorrências na uf SP que tenham recebido classificação de INCIDENTE GRAVE e INCIDENTE

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0.0
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0.0
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,9:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5134,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0.0
5143,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0.0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0.0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0.0


In [145]:
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]
# com o método .isin(['INCIDENTE GRAVE', 'INCIDENTE']), incluímos a lista/array com as condições a serem verificadas na coluna, simplificando o filtro em apenas uma condição

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0.0
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0.0
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,9:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5134,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0.0
5143,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0.0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0.0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0.0


#### Filtrar a partir de parte dos valores de uma coluna (apenas algum ou alguns caracteres):

In [146]:
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]
# com o método .str[0] selecionamos uma caracter na primeira posição da string do valor na coluna e com =='C' comparamos esse caracter selecionado com a letra C para executar o filtro
# com esse filtro retornamos todos os registros cujas cidades começam com a letra C

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
8,45391,45391,ACIDENTE,CONCEIÇÃO DAS ALAGOAS,MG,,2012-01-08,16:00:00,0.0
15,45409,45409,ACIDENTE,CÁCERES,MT,,2012-01-14,10:00:00,0.0
18,50714,50714,INCIDENTE GRAVE,CAMOCIM,CE,SNWC,2012-01-17,18:25:00,0.0
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0.0
...,...,...,...,...,...,...,...,...,...
5142,80434,80434,ACIDENTE,CARACOL,MS,,2021-12-14,21:35:00,0.0
5144,80447,80447,INCIDENTE,CONFINS,MG,SBCF,2021-12-15,17:10:00,0.0
5150,80445,80445,ACIDENTE,CHUPINGUAIA,RO,,2021-12-20,12:05:00,0.0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0.0


In [147]:
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]
# selecionamos o último caracter da cidade incluindo o índice -1 no método .str[]
# com esse filtro retornamos todos os registros cujas cidades terminam com a letra A

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0.0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0.0
17,52246,52246,INCIDENTE,BRASÍLIA,DF,SBBR,2012-01-16,16:47:00,0.0
21,45392,45392,ACIDENTE,BRASÍLIA,DF,,2012-01-19,21:30:00,2.0
22,45390,45390,ACIDENTE,CACHOEIRA DOURADA,GO,,2012-01-20,21:00:00,0.0
...,...,...,...,...,...,...,...,...,...
5152,80465,80465,INCIDENTE,VITÓRIA,ES,SBVT,2021-12-21,22:25:00,0.0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0.0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0


In [148]:
filtro = df.ocorrencia_cidade.str[-2:] == 'MA'
df.loc[filtro]
# .str[-2:] - buscará os caracteres a partir do penúltimo caracter da string - posição -2 (representa o início do intervalo) - o valor inverso da quantidade de caracteres a serem buscados: 2 => -2
# o filtro retornará os registros com as cidades terminadas em 'MA'

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
249,45939,45939,ACIDENTE,UMUARAMA,PR,,2012-05-30,19:00:00,0.0
273,46180,46180,ACIDENTE,AURIFLAMA,SP,,2012-06-16,19:30:00,0.0
971,49113,49113,INCIDENTE GRAVE,NOVA LIMA,MG,,2013-06-15,12:00:00,4.0
974,48799,48799,ACIDENTE,CANUTAMA,AM,,2013-06-18,21:30:00,0.0
1518,80059,80059,INCIDENTE,IVINHEMA,MS,,2014-04-27,11:30:00,0.0
1529,51347,51347,INCIDENTE,DIADEMA,SP,,2014-05-04,16:00:00,0.0
1729,52340,52340,ACIDENTE,FAMA,MG,,2014-09-20,15:00:00,1.0
1840,52832,52832,ACIDENTE,BURITAMA,SP,,2014-12-14,23:40:00,0.0
1871,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0.0
1914,52984,52984,ACIDENTE,NOVA LIMA,MG,SJLY,2015-02-01,15:10:00,0.0


#### Verificar se um Conjunto de caracteres aparece em alguma posição em uma string - ***método .str.contains('MA')***

In [149]:
filtro = df.ocorrencia_cidade.str.contains('MA')
df.loc[filtro]
# .str.contains('MA') - busca se um conjunto de caracteres está contido em alguma posição da string
# o filtro retornará as cidades que possuem os caracteres MA em alguma posição em seus nomes
# esse método não funciona em colunas que contenham valores ausentes - no dataframe atual não funciona, pois há dados ausentes na coluna ocorrencia_cidade

ValueError: Cannot mask with non-boolean array containing NA / NaN values

### Fazer ***Filtros em Datas***:

In [150]:
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]
# .dt.year - método operador do tipo de dados datetime que busca o ano na data
# == 2015 - especifica o ano de 2015 como ano a ser buscado nas datas para fazer o filtro
# o filtro retornará todos os registros com datas do ano de 2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1870,52992,52992,INCIDENTE GRAVE,SALVADOR,BA,SBSV,2015-01-01,11:40:00,3.0
1871,52979,52979,ACIDENTE,IVINHEMA,MS,,2015-01-02,14:50:00,0.0
1872,53073,53073,INCIDENTE,TEFÉ,AM,SBTF,2015-01-02,16:28:00,0.0
1873,53074,53074,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-01-02,20:34:00,0.0
1874,52976,52976,ACIDENTE,TOLEDO,PR,SBTD,2015-01-04,22:04:00,6.0
...,...,...,...,...,...,...,...,...,...
2336,60632,60632,INCIDENTE GRAVE,ITABERÁ,SP,,2015-12-24,14:00:00,0.0
2337,60600,60600,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-25,19:00:00,0.0
2338,60642,60642,INCIDENTE,SÃO FRANCISCO DO SUL,SC,SSSS,2015-12-26,16:00:00,0.0
2339,60631,60631,ACIDENTE,MAÇAMBARÁ,RS,,2015-12-28,19:00:00,2.0


In [151]:
# Filtrar por Mês e Ano
# 1ª forma - 2 filtros:
filtro1 = df.ocorrencia_dia.dt.month == 12
filtro2 = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro1 & filtro2]
# .dt.month - método que busca o mês na data
# .dt.year - método que busca o ano na data
# == 12 - especifica o mês a ser buscado
# == 2015 - especifica o ano a ser buscado
# retornará os registros cujas datas são do mês 12 (dezembro) do ano de 2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2302,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,2:48:00,0.0
2303,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0.0
2304,53634,53634,INCIDENTE,PALMAS,TO,SBPJ,2015-12-02,17:45:00,0.0
2305,53636,53636,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-12-02,17:42:00,0.0
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0.0
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0.0
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3.0
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1.0
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1.0
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0.0


In [152]:
# Filtrar por Mês e Ano
# 2ª forma - filtro em 1 linha:
filtro = (df.ocorrencia_dia.dt.month == 12) & (df.ocorrencia_dia.dt.year == 2015)
df.loc[filtro]
# .dt.month - método que busca o mês na data
# .dt.year - método que busca o ano na data
# == 12 - especifica o mês a ser buscado
# == 2015 - especifica o ano a ser buscado
# os filtros são colocados na mesma linha entre () para que os operadores de comparação '==' sejam executados antes do operador lógico '&'
# retornará os registros cujas datas são do mês 12 (dezembro) do ano de 2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2302,53573,53573,INCIDENTE,GUARULHOS,SP,SBGR,2015-12-01,2:48:00,0.0
2303,60601,60601,INCIDENTE,PALMAS,TO,SBPJ,2015-12-01,16:05:00,0.0
2304,53634,53634,INCIDENTE,PALMAS,TO,SBPJ,2015-12-02,17:45:00,0.0
2305,53636,53636,INCIDENTE,JUNDIAÍ,SP,SBJD,2015-12-02,17:42:00,0.0
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0.0
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0.0
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3.0
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1.0
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1.0
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0.0


In [153]:
# Filtrar por Dia, Mês e Ano

filtro1 = df.ocorrencia_dia.dt.day == 8
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro1 & filtro2 & filtro3] # a ordem entre os filtros não interfere no resultado
# .dt.day - método que busca o dia na data
# .dt.month - método que busca o mês na data
# .dt.year - método que busca o ano na data
# == 8 - especifica o dia a ser buscado
# == 12 - especifica o mês a ser buscado
# == 2015 - especifica o ano a ser buscado
# retornará os registros cujas datas são do mês 12 (dezembro) do ano de 2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1.0
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0.0
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0.0
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0.0


#### Filtrar um ***Intervalo de Datas***:

In [154]:
filtro1 = (df.ocorrencia_dia.dt.day >= 3) & (df.ocorrencia_dia.dt.day <= 8) # especifica o intervalo de datas
filtro2 = df.ocorrencia_dia.dt.month == 12
filtro3 = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro1 & filtro2 & filtro3] 
# (df.ocorrencia_dia.dt.day >= 3) - espeficica o início do intervalo de datas
# (df.ocorrencia_dia.dt.day <= 8) - espeficica o final do intervalo de datas
# retorna os registros com datas entre 3 e 8/12/2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2306,53575,53575,INCIDENTE,CAMPOS DOS GOYTACAZES,RJ,SBFS,2015-12-03,10:50:00,0.0
2307,60637,60637,INCIDENTE,BELO HORIZONTE,MG,SBBH,2015-12-03,16:47:00,0.0
2308,53625,53625,ACIDENTE,TRINDADE,GO,,2015-12-06,13:10:00,3.0
2309,53626,53626,ACIDENTE,AMERICANA,SP,SDAI,2015-12-06,15:00:00,1.0
2310,53628,53628,ACIDENTE,AGUAÍ,SP,,2015-12-08,14:30:00,1.0
2311,53629,53629,INCIDENTE GRAVE,JALES,SP,SDJL,2015-12-08,10:20:00,0.0
2312,53631,53631,INCIDENTE,CAMPINAS,SP,SBKP,2015-12-08,16:19:00,0.0
2313,60636,60636,INCIDENTE,CAXIAS DO SUL,RS,SBCX,2015-12-08,13:00:00,0.0


## 4 - Geração de Novos Dados

### Converter a coluna ocorrencia_dia para o tipo string:

In [155]:
df.ocorrencia_dia.astype(str) + " " + df.ocorrencia_hora
# .astype(str) - método que converte a coluna ocorrencia_dia para o tipo de dados string
# essa conversão viabilisa a concatenação com a coluna ocorrencia_hora, que já é do formato string
# será exibido a concatenação das colunas como resultado da instrução

0       2012-01-05 20:27:00
1       2012-01-06 13:44:00
2       2012-01-06 13:00:00
3       2012-01-06 17:00:00
4       2012-01-06 16:30:00
               ...         
5162    2021-12-30 20:30:00
5163     2021-12-31 9:30:00
5164    2021-12-31 11:59:00
5165    2021-12-31 15:12:00
5166    2021-12-31 20:30:00
Length: 5167, dtype: object

### Converter a string da concatenação para o tipo de dados datetime e atribuir à uma nova coluna no dataframe:

In [156]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + " " + df.ocorrencia_hora)
# df['ocorrencia_dia_hora'] - criação da nova coluna
# pd.to_datetime() - função do Pandas que converte strings para o tipo de dados datetime

In [157]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0,2012-01-05 20:27:00
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0,2012-01-06 13:44:00
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0,2012-01-06 13:00:00
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0,2012-01-06 17:00:00
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0,2012-01-06 16:30:00
...,...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0.0,2021-12-30 20:30:00
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0,2021-12-31 09:30:00
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0,2021-12-31 11:59:00
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0,2021-12-31 15:12:00


In [158]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                float64
ocorrencia_dia_hora         datetime64[ns]
dtype: object

### Filtrar por Data e Hora:

In [159]:
filtrox = df.ocorrencia_dia_hora >= "2015-12-03 11:00:00"
filtroy = df.ocorrencia_dia_hora <= "2015-12-08 13:00:00"
df.loc[filtrox | filtroy]
# '2015-12-03 11:00:00' - valor exato da data e hora inicial
# '2015-12-08 13:00:00' - valor exato da data e hora final
# retornará os registros entre as 11h do dia 3/12/2015 e as 13h do dia 8/12/2015

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0,2012-01-05 20:27:00
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0,2012-01-06 13:44:00
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0,2012-01-06 13:00:00
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0,2012-01-06 17:00:00
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0,2012-01-06 16:30:00
...,...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0.0,2021-12-30 20:30:00
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0,2021-12-31 09:30:00
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0,2021-12-31 11:59:00
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0,2021-12-31 15:12:00


## 5 - Agrupamento de Dados

### Criando um Novo Dataframe:

In [160]:
filtroa = df.ocorrencia_dia.dt.month == 3
filtrob = df.ocorrencia_dia.dt.year == 2015
df201503 = df.loc[filtroa & filtrob]
# agrupamento das ocorrencias no mês 3 do ano de 2015
# df201503 - novo dataframe a ser criado
# df.loc[filtro1 & filtro2] - o resultado do filtro é atribuído ao novo dataframe

In [162]:
df201503.count()

codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

### Fazer Agrupamento por Colunas:

In [163]:
df201503.groupby(['codigo_ocorrencia']).count()
# .groupby - função que faz o agrupamento dos dados
# ['codigo_ocorrencia'] - array pelo qual são passadas as colunas pelas quais será realizado o agrupamento
# .count() - sumariza os registros pela quantidade de vezes que os dados da coluna se repetem nos registros do dataframe
# exibirá o grid com todas as colunas do dataframe exibindo o valor que os dados se repetem no registro
# nas células com dados ausentes, será exibido o valor 0, pois elas não contam
# no exemplo acima, os valores exibidos nas células será 1, pois os dados da coluna codigo_ocorrencia não se repetem no dataframe

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
53109,1,1,1,1,1,1,1,1,1
53112,1,1,1,1,0,1,1,1,1
53120,1,1,1,1,1,1,1,1,1
53148,1,1,1,1,1,1,1,1,1
53149,1,1,1,1,1,1,1,1,1
53151,1,1,1,1,1,1,1,1,1
53152,1,1,1,1,1,1,1,1,1
53153,1,1,1,1,1,1,1,1,1
53154,1,1,1,1,1,1,1,1,1
53164,1,1,1,1,0,1,1,1,1


### Exibindo apenas uma Coluna no agrupamento:

In [164]:
df201503.groupby(['codigo_ocorrencia']).codigo_ocorrencia.count()
# .codigo_ocorrencia - faz exibir apenas a coluna codigo_ocorrencia no resultado do agrupamento

codigo_ocorrencia
53109    1
53112    1
53120    1
53148    1
53149    1
53151    1
53152    1
53153    1
53154    1
53164    1
53165    1
53166    1
53167    1
53168    1
53169    1
53170    1
53178    1
53179    1
53180    1
53181    1
53182    1
53183    1
53184    1
53185    1
53186    1
53187    1
53188    1
53189    1
53190    1
53193    1
53194    1
53211    1
53212    1
53213    1
53238    1
53412    1
53596    1
Name: codigo_ocorrencia, dtype: int64

### Agrupando por uma coluna com Dados que se Repetem:

In [166]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()
# sumariza os dados pela quantidade de vezes que a classificação se repete nos registros com os dados da coluna codigo_ocorrencia

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

### Agrupamento por uma coluna com Dados que se Repetem e contados com uma Coluna com Dados Ausentes:

In [None]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()
# agrupará os dados pela coluna ocorrencia_classificacao
# contará os registros pela coluna ocorrencia_aerodromo - que possui dados ausentes
# gerará um agrupamento com resultado inconsistente - mesmo existindo, os registros com dados ausentes na coluna indicada para contagem não são considerados

### Agrupando por Coluna com Dados que se Repetem independente das Demais Colunas:

In [167]:
df201503.groupby(['ocorrencia_classificacao']).size()
# .size() - função que faz a contagem dos registros independente das demais colunas

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

### Ordenando os Valores do Agrupamento:

#### Ordenando em Ordem Crescente

In [168]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()
# .sort_values() - função que ordena os valores do agrupamento em ordem crescente

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

#### Ordenando em Ordem Decrescente:

In [169]:
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)
# .sort_values(ascending=False) - função que ordena os valores do agrupamento em ordem decrescente

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64