In [7]:
import pandas as pd
import pandera as pa

In [74]:
#PROCESSO DE LIMPEZA
valores_ausentes = ['**', '****',  '*****', '###!', '####', 'NULL']

#PROCESSO DE EXTRAÇÃO
#Carregar o arquivo .csv que está separado por ";" excutar um parse na data e colocar o dia na primeira posição
df = pd.read_csv("ocorrencia_2010_2020.csv", encoding = "ISO-8859-1", sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=valores_ausentes)

#Traz os primeiros 5 registros
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [22]:
#PROCESSO DE VALIDAÇÃO
#Cria um Schema
schema = pa.DataFrameSchema(
    columns = {
        "codigo":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [23]:
#Faz a validação do schema
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BEL�M,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUS�O,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0


In [26]:
# Conferir os tipos de dados
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [33]:
# localizar pela label 5751, ele retorna o último registro
df.loc[5751]

codigo_ocorrencia                         79844
codigo_ocorrencia2                        79844
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                RIO DE JANEIRO
ocorrencia_uf                                RJ
ocorrencia_aerodromo                       SBJR
ocorrencia_dia              2020-12-31 00:00:00
ocorrencia_hora                        13:24:00
total_recomendacoes                           0
Name: 5751, dtype: object

In [34]:
#o 'iloc, localiza pelo 'índice', ele retorna o último registro. O 'loc' localiza pelo 'label' 
df.iloc[-1]

codigo_ocorrencia                         79844
codigo_ocorrencia2                        79844
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                RIO DE JANEIRO
ocorrencia_uf                                RJ
ocorrencia_aerodromo                       SBJR
ocorrencia_dia              2020-12-31 00:00:00
ocorrencia_hora                        13:24:00
total_recomendacoes                           0
Name: 5751, dtype: object

In [35]:
#Traz os últimos 5 registros. É o inverso de df.head() que traz os 5 primeiros registros
df.tail()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5747,79804,79804,INCIDENTE,CAMPINAS,SP,SBKP,2020-12-29,19:00:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUS�O,TO,,2020-12-30,18:30:00,0
5749,79802,79802,INCIDENTE,RIO DE JANEIRO,RJ,SBGL,2020-12-30,00:54:00,0
5750,79756,79756,INCIDENTE GRAVE,VICENTINA,MS,,2020-12-31,09:00:00,0
5751,79844,79844,INCIDENTE,RIO DE JANEIRO,RJ,SBJR,2020-12-31,13:24:00,0


In [36]:
#Com o 'iloc' pode fatiar a consulta 
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,S�O PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,S�O PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRAS�LIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUP�,PA,SNGU,2010-01-12,14:30:00,0


In [40]:
# Traz todos as linhas da coluna 'ocorrencia_uf'
#df.loc[:, 'ocorrencia_uf']

# Posso fazer a mesma consulta dessa forma: 
df['ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
5747    SP
5748    TO
5749    RJ
5750    MS
5751    RJ
Name: ocorrencia_uf, Length: 5752, dtype: object

In [46]:
# Informa quais colunas possui valores não informados
df.isna().sum()


codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  1
ocorrencia_aerodromo        2349
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [51]:
#Localizando o dados que tem valor 'null' na coluna 'ocorrencia_uf'
filtro = df.ocorrencia_uf.isnull() 
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,�GUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0


In [52]:
#Localizando o dados que tem valor 'null' na coluna 'ocorrencia_aerodromo'
filtro = df.ocorrencia_aerodromo.isnull() 
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
9,39711,39711,INCIDENTE GRAVE,PAR� DE MINAS,MG,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...
5741,79754,79754,INCIDENTE GRAVE,NOVA MARING�,MT,,2020-12-28,13:00:00,0
5744,79753,79753,INCIDENTE GRAVE,GOIATUBA,GO,,2020-12-29,12:00:00,0
5745,79755,79755,ACIDENTE,MATO RICO,PR,,2020-12-29,10:30:00,0
5748,79757,79757,INCIDENTE GRAVE,LAGOA DA CONFUS�O,TO,,2020-12-30,18:30:00,0


In [53]:
#Localizando o dados que tem valor 'null' na coluna 'ocorrencia_hora'
filtro = df.ocorrencia_hora.isnull() 
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
4100,78823,78823,INCIDENTE,CORUMB�,MS,,2017-07-09,,0


In [54]:
# A função 'count' não conta os valores 'null' das colunas
df.count()

codigo_ocorrencia           5752
codigo_ocorrencia2          5752
ocorrencia_classificacao    5752
ocorrencia_cidade           5752
ocorrencia_uf               5751
ocorrencia_aerodromo        3403
ocorrencia_dia              5752
ocorrencia_hora             5751
total_recomendacoes         5752
dtype: int64

In [57]:
#Listar as ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro]

codigo_ocorrencia                                                      471963
codigo_ocorrencia2                                                     471963
ocorrencia_classificacao    ACIDENTEACIDENTEACIDENTEACIDENTEACIDENTEINCIDE...
ocorrencia_cidade           S�O PAULORIO DE JANEIROS�O PAULOIT�POLISRECIFE...
ocorrencia_uf                                            SPRJSPSPPEPRMGDFSPES
ocorrencia_hora             20:07:0012:26:0020:15:0014:50:0009:54:0017:05:...
total_recomendacoes                                                       142
dtype: object

In [61]:
#Listar quais dados quero retornar mediante o filtro 
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,S�O PAULO,11
326,RIO DE JANEIRO,19
530,S�O PAULO,11
727,IT�POLIS,11
872,RECIFE,23
884,S�O JOS� DOS PINHAIS,11
1062,UBERL�NDIA,20
1972,BRAS�LIA,11
2795,SANTOS,13
3930,VIT�RIA,12


In [67]:
#Filtar as ocorrências cuja a classificação é igual a 'INCIDENTE GRAVE'
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
0,RIO DE JANEIRO,INCIDENTE GRAVE,0
1,BEL�M,INCIDENTE GRAVE,0
2,RIO DE JANEIRO,INCIDENTE GRAVE,0
3,LUCAS DO RIO VERDE,INCIDENTE GRAVE,0
4,PELOTAS,INCIDENTE GRAVE,0
...,...,...,...
5747,CAMPINAS,INCIDENTE GRAVE,0
5748,LAGOA DA CONFUS�O,INCIDENTE GRAVE,0
5749,RIO DE JANEIRO,INCIDENTE GRAVE,0
5750,VICENTINA,INCIDENTE GRAVE,0


In [94]:
#Filtar as ocorrências cuja a classificação é igual a 'incidente grave' e o estado seja igual a 'SP'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro , ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
7,CANUTAMA,INCIDENTE GRAVE,3
8,CASCAVEL,INCIDENTE GRAVE,2
9,PARÁ DE MINAS,INCIDENTE GRAVE,0
29,CURITIBA,INCIDENTE GRAVE,2
35,PALMAS,INCIDENTE GRAVE,0
...,...,...,...
5741,NOVA MARINGÁ,INCIDENTE GRAVE,0
5744,GOIATUBA,INCIDENTE GRAVE,0
5746,MANOEL URBANO,INCIDENTE GRAVE,0
5748,LAGOA DA CONFUSÃO,INCIDENTE GRAVE,0


In [103]:
#Filtar as ocorrências cuja a classificação é igual a 'INCIDENTE GRAVE' ou a classificação == INCIDENTE e o estado seja igual a 'SP'
filtro1 = ((df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE'))
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2 , ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
16,SÃO PAULO,INCIDENTE,0
18,SANTOS,INCIDENTE,0
26,SOROCABA,INCIDENTE,0
27,CAMPINAS,INCIDENTE,0
33,GUARULHOS,INCIDENTE,0
...,...,...,...
5704,SÃO PAULO,INCIDENTE GRAVE,0
5705,SOROCABA,INCIDENTE GRAVE,0
5715,SÃO PAULO,INCIDENTE GRAVE,0
5742,SÃO PAULO,INCIDENTE,0


In [110]:
#Filtar as ocorrências cuja a classificação é igual a 'INCIDENTE GRAVE' ou a classificação == INCIDENTE e o estado seja igual a 'SP'
#Utilizando o isin(substitui o operador ou '|') e combinando as colunas em uma lista
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2 , ['ocorrencia_cidade', 'ocorrencia_classificacao', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_classificacao,total_recomendacoes
16,SÃO PAULO,INCIDENTE,0
18,SANTOS,INCIDENTE,0
26,SOROCABA,INCIDENTE,0
27,CAMPINAS,INCIDENTE,0
33,GUARULHOS,INCIDENTE,0
...,...,...,...
5704,SÃO PAULO,INCIDENTE GRAVE,0
5705,SOROCABA,INCIDENTE GRAVE,0
5715,SÃO PAULO,INCIDENTE GRAVE,0
5742,SÃO PAULO,INCIDENTE,0


In [99]:
#Filtar as ocorrências cuja a classificação é igual a 'INCIDENTE GRAVE' ou estado seja igual a 'SP'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2, ['ocorrencia_classificacao', 'ocorrencia_cidade', 'ocorrencia_uf', 'ocorrencia_dia']]

Unnamed: 0,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_dia
7,INCIDENTE GRAVE,CANUTAMA,AM,2010-01-09
8,INCIDENTE GRAVE,CASCAVEL,PR,2010-01-10
9,INCIDENTE GRAVE,PARÁ DE MINAS,MG,2010-01-10
11,ACIDENTE,SÃO PAULO,SP,2010-01-10
16,INCIDENTE,SÃO PAULO,SP,2010-01-15
...,...,...,...,...
5744,INCIDENTE GRAVE,GOIATUBA,GO,2020-12-29
5746,INCIDENTE GRAVE,MANOEL URBANO,AC,2020-12-29
5747,INCIDENTE,CAMPINAS,SP,2020-12-29
5748,INCIDENTE GRAVE,LAGOA DA CONFUSÃO,TO,2020-12-30
