In [1]:
import pandas as pd
import pandera as pa

In [2]:
valores_ausentes = ['**', '##!', '###', '****', '*****', 'NULL']
df = pd.read_csv("ocorrencia.csv", parse_dates = ["ocorrencia_dia"], dayfirst=True, na_values=valores_ausentes)
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0


In [4]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int, required=False),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        "total_recomendacoes":pa.Column(pa.Int),
    }
)

In [5]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6088,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6089,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6090,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6091,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0


In [8]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [9]:
df.loc[1]

codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [10]:
df.iloc[1]

codigo_ocorrencia                         40349
codigo_ocorrencia2                        40349
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                         BELÉM
ocorrencia_uf                                PA
ocorrencia_aerodromo                       SBBE
ocorrencia_dia              2010-01-03 00:00:00
ocorrencia_hora                        11:05:00
total_recomendacoes                           0
Name: 1, dtype: object

In [14]:
df.iloc[-1]

codigo_ocorrencia                         80259
codigo_ocorrencia2                        80259
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                      CAMPINAS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBKP
ocorrencia_dia              2021-08-18 00:00:00
ocorrencia_hora                        12:45:00
total_recomendacoes                           0
Name: 6092, dtype: object

In [12]:
df.tail()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6088,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6089,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6090,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6091,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0
6092,80259,80259,INCIDENTE,CAMPINAS,SP,SBKP,2021-08-18,12:45:00,0


In [15]:
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0


In [16]:
df.loc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,,2010-01-10,21:30:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
12,40414,40414,INCIDENTE,BRASÍLIA,DF,SBBR,2010-01-10,03:00:00,0
13,39507,39507,ACIDENTE,PRIMAVERA DO LESTE,MT,,2010-01-11,17:00:00,2
14,40107,40107,ACIDENTE,GURUPÁ,PA,SNGU,2010-01-12,14:30:00,0
15,39315,39315,ACIDENTE,CANUTAMA,AM,,2010-01-15,21:22:00,0


In [20]:
df.loc[:, 'ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
6088    PE
6089    RO
6090    PA
6091    MT
6092    SP
Name: ocorrencia_uf, Length: 6093, dtype: object

In [21]:
df['ocorrencia_uf']

0       RJ
1       PA
2       RJ
3       MT
4       RS
        ..
6088    PE
6089    RO
6090    PA
6091    MT
6092    SP
Name: ocorrencia_uf, Length: 6093, dtype: object

In [22]:
df.isna().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2426
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [23]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2426
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [24]:
df.ocorrencia_uf.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
6088    False
6089    False
6090    False
6091    False
6092    False
Name: ocorrencia_uf, Length: 6093, dtype: bool

In [28]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2227,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,02:54:00,0
5842,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


In [30]:
filtro = df.ocorrencia_hora.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
4100,78823,78823,INCIDENTE,CORUMBÁ,MS,,2017-07-09,,0


In [31]:
df.count()

codigo_ocorrencia           6093
codigo_ocorrencia2          6093
ocorrencia_classificacao    6093
ocorrencia_cidade           6093
ocorrencia_uf               6091
ocorrencia_aerodromo        3667
ocorrencia_dia              6093
ocorrencia_hora             6092
total_recomendacoes         6093
dtype: int64

In [34]:
#ocorrencia com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2797,SANTOS,13
3930,VITÓRIA,12


In [36]:
#ocorrências cuja classificação == INCIDENTE GRAVE
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
7,CANUTAMA,3
8,CASCAVEL,2
9,PARÁ DE MINAS,0
29,CURITIBA,2
35,PALMAS,0
...,...,...
6069,MARAÚ,0
6074,ELDORADO DO SUL,0
6076,CAXIAS DO SUL,0
6077,CHAPADÃO DO SUL,0


In [37]:
#ocorrências cuja classificação == INCIDENTE GRAVE 
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
29,39709,39709,INCIDENTE GRAVE,CURITIBA,PR,SBBI,2010-01-23,16:36:00,2
35,39487,39487,INCIDENTE GRAVE,PALMAS,TO,SBPJ,2010-01-26,16:50:00,0
...,...,...,...,...,...,...,...,...,...
6069,80221,80221,INCIDENTE GRAVE,MARAÚ,BA,SIRI,2021-07-31,13:15:00,0
6074,80228,80228,INCIDENTE GRAVE,ELDORADO DO SUL,RS,SIXE,2021-08-05,15:55:00,0
6076,80231,80231,INCIDENTE GRAVE,CAXIAS DO SUL,RS,SBCX,2021-08-06,16:59:00,0
6077,80248,80248,INCIDENTE GRAVE,CHAPADÃO DO SUL,MS,SSCD,2021-08-06,20:00:00,0


In [38]:
#ocorrências cuja classificação == INCIDENTE GRAVE e o estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
136,40270,40270,INCIDENTE GRAVE,PIRASSUNUNGA,SP,SDPY,2010-04-15,20:15:00,0
171,40620,40620,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2010-05-06,15:50:00,0
219,41411,41411,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-06-08,19:30:00,2
297,42289,42289,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2010-07-29,20:06:00,0
314,42323,42323,INCIDENTE GRAVE,SÃO JOSÉ DO RIO PRETO,SP,SBSR,2010-08-05,12:01:00,0
...,...,...,...,...,...,...,...,...,...
5930,80056,80056,INCIDENTE GRAVE,FERNANDÓPOLIS,SP,,2021-04-28,11:20:00,0
5981,80114,80114,INCIDENTE GRAVE,LINS,SP,SWXQ,2021-06-05,19:43:00,0
5988,80124,80124,INCIDENTE GRAVE,SÃO PAULO,SP,SBSP,2021-06-10,20:30:00,0
6060,80200,80200,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-07-25,12:25:00,0


In [41]:
#ocorrências cuja classificação == INCIDENTE GRAVE ou estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,,2010-01-10,20:00:00,0
11,40069,40069,ACIDENTE,SÃO PAULO,SP,SBMT,2010-01-10,14:50:00,8
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
...,...,...,...,...,...,...,...,...,...
6076,80231,80231,INCIDENTE GRAVE,CAXIAS DO SUL,RS,SBCX,2021-08-06,16:59:00,0
6077,80248,80248,INCIDENTE GRAVE,CHAPADÃO DO SUL,MS,SSCD,2021-08-06,20:00:00,0
6083,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11,19:09:00,0
6087,80244,80244,INCIDENTE,BRAGANÇA PAULISTA,SP,SBBP,2021-08-15,15:20:00,0


In [44]:
#ocorrências cuja classificação == INCIDENTE GRAVE ou estado == SP
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE') 
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
16,39809,39809,INCIDENTE,SÃO PAULO,SP,,2010-01-15,15:00:00,0
18,39828,39828,INCIDENTE,SANTOS,SP,,2010-01-15,17:45:00,0
26,39847,39847,INCIDENTE,SOROCABA,SP,,2010-01-20,13:10:00,0
27,39768,39768,INCIDENTE,CAMPINAS,SP,,2010-01-21,20:45:00,0
33,39848,39848,INCIDENTE,GUARULHOS,SP,SBGR,2010-01-25,17:05:00,0
...,...,...,...,...,...,...,...,...,...
6063,80234,80234,INCIDENTE,SÃO PAULO,SP,SBSP,2021-07-26,13:20:00,0
6064,80208,80208,INCIDENTE,SÃO PAULO,SP,SBMT,2021-07-27,19:45:00,0
6083,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11,19:09:00,0
6087,80244,80244,INCIDENTE,BRAGANÇA PAULISTA,SP,SBBP,2021-08-15,15:20:00,0
