In [5]:
import pandas as pd
import pandera as pa

In [6]:
valores_ausentes = ['####','**','###!','*****','****','NULL']
df = pd.read_csv("ocorrencia.csv",sep=";",parse_dates=["ocorrencia_dia"],dayfirst=True, na_values=valores_ausentes)
df.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0


In [12]:
schema = pa.DataFrameSchema(
    columns = {
        "codigo_ocorrencia":pa.Column(pa.Int),
        "codigo_ocorrencia2":pa.Column(pa.Int),
        "ocorrencia_classificacao":pa.Column(pa.String),
        "ocorrencia_cidade":pa.Column(pa.String),
        "ocorrencia_uf":pa.Column(pa.String, pa.Check.str_length(2,2), nullable=True),
        "ocorrencia_aerodromo":pa.Column(pa.String, nullable=True),
        "ocorrencia_dia":pa.Column(pa.DateTime),
        "ocorrencia_hora":pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'),nullable=True), 
        "total_recomendacoes":pa.Column(pa.Int)
    }
)

In [13]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0
...,...,...,...,...,...,...,...,...,...
5162,80458,80458,ACIDENTE,JATAÍ,GO,,2021-12-30,20:30:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0


In [15]:
df.dtypes

codigo_ocorrencia                    int64
codigo_ocorrencia2                   int64
ocorrencia_classificacao            object
ocorrencia_cidade                   object
ocorrencia_uf                       object
ocorrencia_aerodromo                object
ocorrencia_dia              datetime64[ns]
ocorrencia_hora                     object
total_recomendacoes                  int64
dtype: object

In [16]:
df.loc[1]

codigo_ocorrencia                         45331
codigo_ocorrencia2                        45331
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                     GUARULHOS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBGR
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:44:00
total_recomendacoes                           3
Name: 1, dtype: object

In [17]:
df.iloc[1] #buscar dados pelo índice

codigo_ocorrencia                         45331
codigo_ocorrencia2                        45331
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                     GUARULHOS
ocorrencia_uf                                SP
ocorrencia_aerodromo                       SBGR
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:44:00
total_recomendacoes                           3
Name: 1, dtype: object

In [18]:
df.iloc[-1] #pega o último item do dataframe

codigo_ocorrencia                         80467
codigo_ocorrencia2                        80467
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                     PETROLINA
ocorrencia_uf                                PE
ocorrencia_aerodromo                       SBPL
ocorrencia_dia              2021-12-31 00:00:00
ocorrencia_hora                        20:30:00
total_recomendacoes                           0
Name: 5166, dtype: object

In [19]:
df.iloc[10:15] #não inclui o 15, diferente de quando se trabalha com label

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,,2012-01-09,13:30:00,0
11,52245,52245,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-09,13:36:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
13,45408,45408,ACIDENTE,ELDORADO,SP,,2012-01-11,13:45:00,1
14,45447,45447,INCIDENTE,RIO BRANCO,AC,,2012-01-13,18:15:00,0


In [22]:
df['ocorrencia_uf'] #busca de dados de uma coluna

0       RS
1       SP
2       RS
3       SP
4       RS
        ..
5162    GO
5163    SP
5164    RS
5165    PR
5166    PE
Name: ocorrencia_uf, Length: 5167, dtype: object

In [24]:
df.isna().sum() #informa os valores nulos

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        1905
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [26]:
filtro=df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1099,49474,49474,ACIDENTE,ÁGUAS INTERNACIONAIS,,,2013-09-02,2:54:00,0
4728,79956,79956,ACIDENTE,NÃO IDENTIFICADA,,,2021-02-26,11:00:00,0


In [27]:
filtro=df.ocorrencia_hora.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
2974,78823,78823,INCIDENTE,CORUMBÁ,MS,,2017-07-09,,0


In [28]:
df.count() #descarta os valores nulos

codigo_ocorrencia           5167
codigo_ocorrencia2          5167
ocorrencia_classificacao    5167
ocorrencia_cidade           5167
ocorrencia_uf               5165
ocorrencia_aerodromo        3262
ocorrencia_dia              5167
ocorrencia_hora             5166
total_recomendacoes         5167
dtype: int64

In [30]:
#ocorrências com mais de 10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
844,47938,47938,INCIDENTE,BRASÍLIA,DF,SBBR,2013-04-13,18:00:00,11
1669,52265,52265,ACIDENTE,SANTOS,SP,,2014-08-13,13:03:00,13
2804,66432,66432,INCIDENTE GRAVE,VITÓRIA,ES,,2017-02-21,11:47:00,12


In [35]:
filtro = df.total_recomendacoes > 5
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
80,MARITUBA,9
316,BOITUVA,7
541,ALMIRANTE TAMANDARÉ,9
844,BRASÍLIA,11
1102,RIO DE JANEIRO,6
1168,COTEGIPE,7
1187,MUCUGÊ,7
1269,TERESINA,6
1494,GOIÂNIA,6
1525,LUZIÂNIA,6


In [37]:
#ocorrencias cuja classificação == incidente grave
filtro = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']]

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
6,CAMPINAS,0
12,MARABÁ,0
18,CAMOCIM,0
19,MUANÁ,0
24,RONDONÓPOLIS,0
...,...,...
5139,NOVA BANDEIRANTES,0
5146,FORMOSO DO ARAGUAIA,0
5158,ARAÇATUBA,0
5159,SANTA RITA,0


In [38]:
#ocorrencias cuja classificação == incidente grave e o estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
78,45598,45598,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-20,14:10:00,0
86,45653,45653,INCIDENTE GRAVE,GUARULHOS,SP,SBGR,2012-02-24,20:04:00,0
91,45599,45599,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2012-02-27,19:15:00,0
140,45651,45651,INCIDENTE GRAVE,ITU,SP,,2012-03-24,20:45:00,1
...,...,...,...,...,...,...,...,...,...
4954,80200,80200,INCIDENTE GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-07-25,12:25:00,0
4980,80238,80238,INCIDENTE GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11,19:09:00,0
5003,80265,80265,INCIDENTE GRAVE,SÃO PAULO,SP,SBMT,2021-08-31,16:50:00,0
5098,80382,80382,INCIDENTE GRAVE,PIRACICABA,SP,SDPW,2021-11-16,20:50:00,0


In [39]:
#ocorrencias cuja classificação == incidente grave OU o estado == SP
filtro1 = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 | filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
12,45396,45396,INCIDENTE GRAVE,MARABÁ,PA,SBMA,2012-01-11,11:21:00,0
...,...,...,...,...,...,...,...,...,...
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
5159,80455,80455,INCIDENTE GRAVE,SANTA RITA,PB,,2021-12-29,18:50:00,0
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0


In [40]:
#ocorrencias cuja classificação == incidente grave OU == incidente E o estado == SP
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,9:30:00,0
...,...,...,...,...,...,...,...,...,...
5134,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0
5143,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0


In [43]:
#ocorrencias cuja classificação == incidente grave OU == incidente E o estado == SP - outra forma de escrever
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE','INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
5,52243,52243,INCIDENTE,UBATUBA,SP,,2012-01-06,14:30:00,0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0
28,52248,52248,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-21,11:15:00,0
35,52054,52054,INCIDENTE,SÃO PAULO,SP,SBMT,2012-01-25,23:00:00,0
36,52055,52055,INCIDENTE,RIBEIRÃO PRETO,SP,,2012-01-25,9:30:00,0
...,...,...,...,...,...,...,...,...,...
5134,80425,80425,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-09,20:30:00,0
5143,80431,80431,INCIDENTE,SANTOS,SP,SBST,2021-12-15,12:30:00,0
5157,80453,80453,INCIDENTE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0
5158,80454,80454,INCIDENTE GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0
