Install
Install with pip:
<code>
pip install pandera
<code>

In [22]:
pip install pandera



In [23]:
import pandas as pd
import pandera as pa

In [24]:
# Lista de missing_values na variavel:
remove = ['****','***','###!','####','*****','NULL']
# Lendo a base e passando a lista com os missing values:
df = pd.read_csv('/content/drive/MyDrive/Datasets/ocorrencia.csv', sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True, na_values=remove)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [25]:
#checando os tipos de dados
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [26]:
# validando o tipo/comprimento do dado pelo schema 
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia": pa.Column(pa.Int),
        "codigo_ocorrencia2": pa.Column(pa.Int),
        "ocorrencia_classificacao": pa.Column(pa.String),
        "ocorrencia_cidade": pa.Column(pa.String),
        "ocorrencia_uf": pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo": pa.Column(pa.String, nullable=True),
        "ocorrencia_dia": pa.Column(pa.DateTime),
        "ocorrencia_hora": pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes": pa.Column(pa.Int)   
    }
)

In [27]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0


In [28]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

##Transformação de dados

In [29]:
#busca pela localizacao do label ou seja por coluna
df.loc[:,'ocorrencia_classificacao']

0       INCIDENTE
1       INCIDENTE
2       INCIDENTE
3        ACIDENTE
4       INCIDENTE
          ...    
6109    INCIDENTE
6110    INCIDENTE
6111    INCIDENTE
6112     ACIDENTE
6113    INCIDENTE
Name: ocorrencia_classificacao, Length: 6114, dtype: object

In [30]:
#busca pela localizacao do índice ou seja por linha
df.iloc[1]

codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [31]:
df.iloc[-1]

codigo_ocorrencia                         80259
codigo_ocorrencia2                        80259
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                      CAMPINAS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBKP
ocorrencia_dia              2021-08-18 00:00:00
ocorrencia_hora                        12:45:00
total_recomendacoes                           0
Name: 6113, dtype: object

In [32]:
df.loc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0


In [33]:
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0


In [34]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [35]:
data = df.loc[df.ocorrencia_aerodromo == 'isnull()']


In [36]:
df.ocorrencia_aerodromo.isnull()

0        True
1       False
2       False
3        True
4       False
        ...  
6109    False
6110    False
6111    False
6112     True
6113    False
Name: ocorrencia_aerodromo, Length: 6114, dtype: bool

In [37]:
df.loc[df.ocorrencia_aerodromo.isnull()]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...
6092,80236,80236,ACIDENTE,POCONÉ,MT,,2021-08-01,22:00:00,0
6093,80227,80227,ACIDENTE,UMUARAMA,PR,,2021-08-02,14:30:00,0
6096,80229,80229,INCIDENTE,ITAGUAÍ,RJ,,2021-08-05,15:30:00,0
6099,80233,80233,ACIDENTE,POCONÉ,MT,,2021-08-08,12:30:00,0


In [38]:
#filtro de isnull por coluna
filtro = df['ocorrencia_aerodromo'].isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
...,...,...,...,...,...,...,...,...,...
6092,80236,80236,ACIDENTE,POCONÉ,MT,,2021-08-01,22:00:00,0
6093,80227,80227,ACIDENTE,UMUARAMA,PR,,2021-08-02,14:30:00,0
6096,80229,80229,INCIDENTE,ITAGUAÍ,RJ,,2021-08-05,15:30:00,0
6099,80233,80233,ACIDENTE,POCONÉ,MT,,2021-08-08,12:30:00,0


In [39]:
df.count()

codigo_ocorrencia           6114
codigo_ocorrencia2          6114
ocorrencia_classificacao    6114
ocorrencia_cidade           6114
ocorrencia_uf               6112
ocorrencia_aerodromo        3658
ocorrencia_dia              6114
ocorrencia_hora             6113
total_recomendacoes         6114
dtype: int64

In [40]:
#Realizando a transformação de dados - Parte 6
df.total_recomendacoes > 0

0       False
1       False
2       False
3       False
4       False
        ...  
6109    False
6110    False
6111    False
6112    False
6113    False
Name: total_recomendacoes, Length: 6114, dtype: bool

In [41]:
filtro = df.total_recomendacoes > 10
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,2010-02-17,20:07:00,11
326,42250,42250,ACIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-08-12,12:26:00,19
530,43471,43471,ACIDENTE,SÃO PAULO,SP,,2010-12-14,20:15:00,11
727,44377,44377,ACIDENTE,ITÁPOLIS,SP,SDIO,2011-04-09,14:50:00,11
872,44796,44796,ACIDENTE,RECIFE,PE,SBRF,2011-07-13,09:54:00,23
884,44888,44888,INCIDENTE GRAVE,SÃO JOSÉ DOS PINHAIS,PR,SBCT,2011-07-15,17:05:00,11
1062,45554,45554,INCIDENTE GRAVE,UBERLÂNDIA,MG,SBUL,2011-11-15,02:15:00,20
1972,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11
2797,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13
3932,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12


In [42]:
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade','total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2797,SANTOS,13
3932,VITÓRIA,12


In [43]:
df.ocorrencia_classificacao == 'INCIDENTE GRAVE'

0       False
1       False
2       False
3       False
4       False
        ...  
6109    False
6110    False
6111    False
6112    False
6113    False
Name: ocorrencia_classificacao, Length: 6114, dtype: bool

In [44]:
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro,['ocorrencia_uf','ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
7,AM,INCIDENTE GRAVE
8,PR,INCIDENTE GRAVE
9,MG,INCIDENTE GRAVE
29,PR,INCIDENTE GRAVE
35,TO,INCIDENTE GRAVE
...,...,...
6090,BA,INCIDENTE GRAVE
6095,RS,INCIDENTE GRAVE
6097,RS,INCIDENTE GRAVE
6098,MS,INCIDENTE GRAVE


In [45]:
#Condicional "E"
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2,['ocorrencia_uf','ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
136,SP,INCIDENTE GRAVE
171,SP,INCIDENTE GRAVE
219,SP,INCIDENTE GRAVE
297,SP,INCIDENTE GRAVE
314,SP,INCIDENTE GRAVE
...,...,...
5949,SP,INCIDENTE GRAVE
6000,SP,INCIDENTE GRAVE
6007,SP,INCIDENTE GRAVE
6081,SP,INCIDENTE GRAVE


In [46]:
#Condicional "OU"
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2,['ocorrencia_uf','ocorrencia_classificacao']]

Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
7,AM,INCIDENTE GRAVE
8,PR,INCIDENTE GRAVE
9,MG,INCIDENTE GRAVE
11,SP,ACIDENTE
16,SP,INCIDENTE
...,...,...
6097,RS,INCIDENTE GRAVE
6098,MS,INCIDENTE GRAVE
6104,SP,INCIDENTE GRAVE
6108,SP,INCIDENTE


In [47]:
#Condicional "OU" e 'E'
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_classificacao == 'INCIDENTE'
filtro3 = df.ocorrencia_uf == 'SP'
df.loc[(filtro1 | filtro2) & filtro3,['ocorrencia_uf','ocorrencia_classificacao']]


Unnamed: 0,ocorrencia_uf,ocorrencia_classificacao
16,SP,INCIDENTE
18,SP,INCIDENTE
26,SP,INCIDENTE
27,SP,INCIDENTE
33,SP,INCIDENTE
...,...,...
6084,SP,INCIDENTE
6085,SP,INCIDENTE
6104,SP,INCIDENTE GRAVE
6108,SP,INCIDENTE


In [48]:
#Ocorrencias cuja cidades comecem com a letra C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro,['ocorrencia_cidade','ocorrencia_uf']]


Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
6,COARI,AM
7,CANUTAMA,AM
8,CASCAVEL,PR
15,CANUTAMA,AM
20,CRUZEIRO DO SUL,AC
...,...,...
6094,CURITIBA,PR
6097,CAXIAS DO SUL,RS
6098,CHAPADÃO DO SUL,MS
6100,CORUMBÁ,MS


In [49]:
#Ocorrencias cuja cidades terminem com a letra A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro,['ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
7,CANUTAMA,AM
12,BRASÍLIA,DF
15,CANUTAMA,AM
25,UBERLÂNDIA,MG
26,SOROCABA,SP
...,...,...
6093,UMUARAMA,PR
6094,CURITIBA,PR
6102,GOIÂNIA,GO
6104,VOTUPORANGA,SP


In [50]:
#Ocorrencias cuja cidades terminem com a letra MA
filtro = df.ocorrencia_cidade.str[-2:] == 'MA'
df.loc[filtro,['ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
7,CANUTAMA,AM
15,CANUTAMA,AM
408,NOVO GAMA,GO
688,BURITAMA,SP
1035,BURITAMA,SP
1377,UMUARAMA,PR
1401,AURIFLAMA,SP
2099,NOVA LIMA,MG
2102,CANUTAMA,AM
2646,IVINHEMA,MS


In [51]:
#Ocorrencias cuja cidades contem em qualquer parte do conteudo a letra MA
filtro = df.ocorrencia_cidade.str.contains('MA')
df.loc[filtro,['ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
7,CANUTAMA,AM
13,PRIMAVERA DO LESTE,MT
15,CANUTAMA,AM
35,PALMAS,TO
78,MANAUS,AM
...,...,...
6075,MANAUS,AM
6086,AMAPÁ,AP
6090,MARAÚ,BA
6093,UMUARAMA,PR


#Realizando a transformação de dados - Parte 9


In [52]:
#Ocorrencias cuja cidades contem em qualquer parte do conteudo a letra MA OU AL
filtro = df.ocorrencia_cidade.str.contains('MA | AL')
#df.loc[filtro,['ocorrencia_cidade','ocorrencia_uf']]
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
110,40089,40089,ACIDENTE,VILA BELA DA SANTÍSSIMA TRINDADE,MT,,2010-03-28,15:10:00,0
130,40258,40258,INCIDENTE,MONTE ALEGRE,PA,,2010-04-12,18:10:00,0
131,40327,40327,INCIDENTE,PORTO ALEGRE,RS,,2010-04-12,13:13:00,0
133,40248,40248,INCIDENTE,PORTO ALEGRE,RS,SBPA,2010-04-13,18:47:00,0
156,40572,40572,ACIDENTE,PORTO ALEGRE,RS,SBPA,2010-04-28,14:10:00,0
...,...,...,...,...,...,...,...,...,...
5849,79912,79912,INCIDENTE,PORTO ALEGRE,RS,SBPA,2021-02-23,16:12:00,0
5851,79920,79920,INCIDENTE,PORTO ALEGRE,RS,SBPA,2021-02-24,02:57:00,0
5906,80023,80023,INCIDENTE,PORTO ALEGRE,RS,SBPA,2021-03-29,18:24:00,0
5916,80027,80027,INCIDENTE,PORTO ALEGRE,RS,SBPA,2021-04-07,19:47:00,0


In [53]:
#Ocorrencias cuja ano foram 2010
filtro = df.ocorrencia_dia.dt.year == 2010
df.loc[filtro,['ocorrencia_dia','ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_dia,ocorrencia_cidade,ocorrencia_uf
0,2010-01-03,RIO DE JANEIRO,RJ
1,2010-01-03,BELÉM,PA
2,2010-01-03,RIO DE JANEIRO,RJ
3,2010-01-04,LUCAS DO RIO VERDE,MT
4,2010-01-05,PELOTAS,RS
...,...,...,...
547,2010-12-28,SÃO JOSÉ DOS PINHAIS,PR
548,2010-12-29,COSMÓPOLIS,SP
549,2010-12-29,ALEGRETE,RS
550,2010-12-30,VITÓRIA,ES


In [54]:
#Ocorrencias cuja ano foram 2010 e mes 12
filtro = df.ocorrencia_dia.dt.year == 2010
filtro1 = df.ocorrencia_dia.dt.month == 12
df.loc[(filtro & filtro1),['ocorrencia_dia','ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_dia,ocorrencia_cidade,ocorrencia_uf
504,2010-12-01,BELÉM,PA
505,2010-12-01,LAGES,SC
506,2010-12-01,JOINVILLE,SC
507,2010-12-01,SÃO PAULO,SP
508,2010-12-02,SÃO JOSÉ DOS PINHAIS,PR
509,2010-12-02,UBERLÂNDIA,MG
510,2010-12-03,BELO HORIZONTE,MG
511,2010-12-03,OLÍMPIA,SP
512,2010-12-03,ALAGOINHAS,BA
513,2010-12-04,MACAÉ,RJ


In [55]:
#Ocorrencias cuja ano foram 2010 e mes 12 num filtro somente.
filtro = (df.ocorrencia_dia.dt.year == 2010) & (df.ocorrencia_dia.dt.month == 12)
df.loc[filtro,['ocorrencia_dia','ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_dia,ocorrencia_cidade,ocorrencia_uf
504,2010-12-01,BELÉM,PA
505,2010-12-01,LAGES,SC
506,2010-12-01,JOINVILLE,SC
507,2010-12-01,SÃO PAULO,SP
508,2010-12-02,SÃO JOSÉ DOS PINHAIS,PR
509,2010-12-02,UBERLÂNDIA,MG
510,2010-12-03,BELO HORIZONTE,MG
511,2010-12-03,OLÍMPIA,SP
512,2010-12-03,ALAGOINHAS,BA
513,2010-12-04,MACAÉ,RJ


#Realizando a transformação de dados - Parte 10

In [56]:
#Ocorrencias cuja ano foram 2010 e mes 12 e do dia 3 ao dia 8
filtro = (df.ocorrencia_dia.dt.year == 2010) & (df.ocorrencia_dia.dt.month == 12) & (df.ocorrencia_dia.dt.day >= 3) & (df.ocorrencia_dia.dt.day <= 8)
df.loc[filtro,['ocorrencia_dia','ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_dia,ocorrencia_cidade,ocorrencia_uf
510,2010-12-03,BELO HORIZONTE,MG
511,2010-12-03,OLÍMPIA,SP
512,2010-12-03,ALAGOINHAS,BA
513,2010-12-04,MACAÉ,RJ
514,2010-12-05,MANAUS,AM
515,2010-12-05,ARARAQUARA,SP
516,2010-12-08,BRASÍLIA,DF
517,2010-12-08,ELDORADO DO SUL,RS


In [57]:
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)

In [58]:
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0,2010-01-03 12:00:00
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,2010-01-03 11:05:00
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,2010-01-03 03:00:00
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0,2010-01-04 17:30:00
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,2010-01-05 19:25:00


In [59]:
filtro = (df.ocorrencia_dia_hora >= '2010-01-03 03:00:00') & (df.ocorrencia_dia_hora <= '2010-01-05 19:25:00') 
df.loc[filtro,['ocorrencia_dia_hora','ocorrencia_cidade','ocorrencia_uf']]

Unnamed: 0,ocorrencia_dia_hora,ocorrencia_cidade,ocorrencia_uf
0,2010-01-03 12:00:00,RIO DE JANEIRO,RJ
1,2010-01-03 11:05:00,BELÉM,PA
2,2010-01-03 03:00:00,RIO DE JANEIRO,RJ
3,2010-01-04 17:30:00,LUCAS DO RIO VERDE,MT
4,2010-01-05 19:25:00,PELOTAS,RS


#Realizando a transformação de dados - Parte 11

In [60]:
#Ocorrencias do ano de 2015 e mes 03 
filtro = (df.ocorrencia_dia_hora.dt.year == 2015) & (df.ocorrencia_dia_hora.dt.month == 3)
df201503 = df.loc[filtro]

In [61]:
df201503.count()


codigo_ocorrencia           37
codigo_ocorrencia2          37
ocorrencia_classificacao    37
ocorrencia_cidade           37
ocorrencia_uf               37
ocorrencia_aerodromo        21
ocorrencia_dia              37
ocorrencia_hora             37
total_recomendacoes         37
ocorrencia_dia_hora         37
dtype: int64

In [62]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64

In [63]:
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [64]:
#não conta valores nulos
df201503.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64

In [65]:
#Agrupamento em ordem crescente
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()

ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64

#Realizando a transformação de dados - Parte 12

In [66]:
#Agrupamento dos estados da regiao sudeste do ano de 2010

filtro = (df.ocorrencia_dia_hora.dt.year == 2010 ) & ( df.ocorrencia_uf.isin(['SP', 'MG', 'ES', 'RJ']))
dfsudeste2010 = df.loc[filtro]

In [67]:
dfsudeste2010.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          170
ACIDENTE            40
INCIDENTE GRAVE     18
dtype: int64

In [68]:
dfsudeste2010['ocorrencia_classificacao'].count()

228

In [69]:
dfsudeste2010.groupby(['ocorrencia_uf','ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_uf  ocorrencia_classificacao
SP             INCIDENTE                   74
RJ             INCIDENTE                   52
MG             INCIDENTE                   39
SP             ACIDENTE                    24
               INCIDENTE GRAVE              9
RJ             ACIDENTE                     9
MG             ACIDENTE                     7
               INCIDENTE GRAVE              5
ES             INCIDENTE                    5
RJ             INCIDENTE GRAVE              4
dtype: int64

In [70]:
dfsudeste2010.count()

codigo_ocorrencia           228
codigo_ocorrencia2          228
ocorrencia_classificacao    228
ocorrencia_cidade           228
ocorrencia_uf               228
ocorrencia_aerodromo        127
ocorrencia_dia              228
ocorrencia_hora             228
total_recomendacoes         228
ocorrencia_dia_hora         228
dtype: int64

In [71]:
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
VITÓRIA                   4
JUIZ DE FORA              4
SÃO JOSÉ DO RIO PRETO     3
SÃO JOSÉ DOS CAMPOS       3
MARÍLIA                   3
ARARAQUARA                2
MONTES CLAROS             2
CAMPOS DOS GOYTACAZES     2
DIVINÓPOLIS               2
IPATINGA                  2
ITANHAÉM                  2
JUNDIAÍ                   2
POÇOS DE CALDAS           2
RIBEIRÃO PRETO            2
SOROCABA                  2
UBERABA                   2
BAURU                     2
AREALVA                   2
BOITUVA                   1
BOCAINA                   1
BOM JESUS DO AMPARO       1
BOM JESUS DO GALHO        1
BEBEDOURO                 1
BRAGANÇA PAULISTA         1
BROTAS                    1
CAJOBI                    1
ARRAIAL DO CABO           1
CA

In [72]:

filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro, ['ocorrencia_cidade','ocorrencia_dia']]


Unnamed: 0,ocorrencia_cidade,ocorrencia_dia
0,RIO DE JANEIRO,2010-01-03
2,RIO DE JANEIRO,2010-01-03
19,RIO DE JANEIRO,2010-01-17
23,RIO DE JANEIRO,2010-01-19
24,RIO DE JANEIRO,2010-01-19
30,RIO DE JANEIRO,2010-01-23
39,RIO DE JANEIRO,2010-01-27
49,RIO DE JANEIRO,2010-02-06
71,RIO DE JANEIRO,2010-02-24
101,RIO DE JANEIRO,2010-03-20


In [73]:
#soma total recomendação cidade do RJ
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro, ['total_recomendacoes']].sum()

total_recomendacoes    25
dtype: int64

In [74]:
dfsudeste2010.groupby(['ocorrencia_cidade','ocorrencia_uf']).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_uf
AMERICANA              SP                0
ARARAQUARA             SP                0
ARAÇATUBA              SP                0
AREALVA                SP                0
ARRAIAL DO CABO        RJ                0
BAURU                  SP                0
BEBEDOURO              SP                0
BELO HORIZONTE         MG                2
BOCAINA                SP                0
BOITUVA                SP                1
BOM JESUS DO AMPARO    MG                0
BOM JESUS DO GALHO     MG                1
BRAGANÇA PAULISTA      SP                9
BROTAS                 SP                0
CAJOBI                 SP                0
CAMANDUCAIA            MG                9
CAMPINAS               SP                0
CAMPOS DOS GOYTACAZES  RJ                0
CASIMIRO DE ABREU      RJ                0
CONFINS                MG                0
COROMANDEL             MG                0
COSMÓPOLIS             SP                0
DIAMANTINA       

In [75]:
dfsudeste2010.groupby(['ocorrencia_aerodromo'], dropna=False).total_recomendacoes.sum()


ocorrencia_aerodromo
SBAE     0
SBAQ     0
SBBH     0
SBBP     9
SBBU     0
SBCF     0
SBGL     3
SBGR     0
SBIP     0
SBJD     7
SBJR     3
SBKP     0
SBME     0
SBMK     0
SBML     0
SBMT    27
SBPC     0
SBPR     1
SBRJ    19
SBRP     0
SBSJ     0
SBSP     0
SBSR     0
SBUL     0
SBUR     0
SBVT     0
SDAM     0
SDOI     1
SDPW     0
SDPY     0
SNDT     0
SNDV     0
SNXT     0
NaN     45
Name: total_recomendacoes, dtype: int64

In [76]:
#Removendo do filtro cidades que não possuem recomendações
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_uf'], dropna=False).total_recomendacoes.sum()

ocorrencia_uf
MG    15
RJ    33
SP    67
Name: total_recomendacoes, dtype: int64

In [77]:
#soma total recomendação cidade por cidade da Região Centro Oeste
dfsudeste2010.groupby(['ocorrencia_uf']).count()

Unnamed: 0_level_0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
ocorrencia_uf,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
ES,5,5,5,5,2,5,5,5,5
MG,51,51,51,51,30,51,51,51,51
RJ,65,65,65,65,33,65,65,65,65
SP,107,107,107,107,62,107,107,107,107


In [78]:
#Realizando a transformação de dados - Parte 13
#soma total recomendação cidade por cidade e por mes
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()



ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              

In [79]:
filtro1 = dfsudeste2010.total_recomendacoes > 0
filtro2 = dfsudeste2010.ocorrencia_cidade == 'SÃO PAULO'
dfsudeste2010.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_dia_hora
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8,2010-01-10 14:50:00
58,39275,39275,ACIDENTE,SÃO PAULO,SP,,2010-02-10,09:03:00,3,2010-02-10 09:03:00
63,39992,39992,ACIDENTE,SÃO PAULO,SP,SBMT,2010-02-17,20:07:00,11,2010-02-17 20:07:00
219,41411,41411,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-06-08,19:30:00,2,2010-06-08 19:30:00
469,43450,43450,ACIDENTE,SÃO PAULO,SP,SBMT,2010-11-04,10:55:00,6,2010-11-04 10:55:00
530,43471,43471,ACIDENTE,SÃO PAULO,SP,,2010-12-14,20:15:00,11,2010-12-14 20:15:00
