In [1]:
import pandas as pd
import pandera as pa

In [89]:
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True)
# df.head(10)

In [90]:
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia1':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'codigo_ocorrencia3':pa.Column(pa.Int),
        'codigo_ocorrencia4':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_latitude':pa.Column(pa.String, nullable=True),
        'ocorrencia_longitude':pa.Column(pa.String, nullable=True),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String, pa.Check.str_length(2,2)),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        'investigacao_aeronave_liberada':pa.Column(pa.String, nullable=True),
        'investigacao_status':pa.Column(pa.String, nullable=True),
        'divulgacao_relatorio_numero':pa.Column(pa.String, nullable=True),
        'divulgacao_relatorio_publicado':pa.Column(pa.String, nullable=True),
        'divulgacao_dia_publicacao':pa.Column(pa.DateTime, nullable=True),
        'total_recomendacoes':pa.Column(pa.Int, nullable=True),
        'total_aeronaves_envolvidas':pa.Column(pa.Int, nullable=True),
        'ocorrencia_saida_pista':pa.Column(pa.String, nullable=True),
    }
)

In [91]:
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO


## Limpeza dos Dados

In [5]:
## obter um dado de uma linha e coluna
# df.loc[1, 'ocorrencia_cidade']
## Obter os dados de toda uma linha
# df.loc[3]
## Obter os dados de uma sequencia de linhas
# df.loc[1:3]
## Obter os dados de linhas específicas
# df.loc[[10,40]]
## Dados de toda a coluna sem informar as linhas
# df.loc[:,'ocorrencia_cidade']

In [6]:
## verificar se uma coluna tem valores únicos para linhas diferentes
# df.codigo_ocorrencia.is_unique ## True
# df.codigo_uf.is_unique ## False
## alterar a label/índice da linha do dataframe
# df.set_index('codigo_ocorrencia')
# df.set_index('codigo_ocorrencia', inplace=True) #altera o dataframe
## Reseta o index
# df.reset_index(drop=True, inplace=True)

In [7]:
## Alteração de dados
# df.loc[0,'ocorrencia_aerodromo'] = ''
# df.loc[:,'ocorrencia_aerodromo']
## Alterar dados de uma linha
# df.loc[1] = 20
# df.head(2)
## Alterar os dados de toda a coluna
# df.loc[:, 'total_aeronaves_envolvidas'] = 10
## Backup da coluna
# df['ocorrencia_uf_bkp'] = df.ocorrencia_uf
## Alterar a coluna onde existe um valor especifico ex:
## alterar para grave todas as ocorrencias de são paulo
# df.loc[df.ocorrencia_uf == "SP", ['ocorrencia_classificacao']] = 'GRAVE' # Filtro dentro do loc
# df.loc[df.ocorrencia_uf  == 'SP']

In [13]:
## ocorrencia_aerodromo
# df.loc[df.ocorrencia_aerodromo == '****', ['ocorrencia_aerodromo']] = pd.NA
# df.loc[:,'ocorrencia_aerodromo']
# permite que faça alterações num dataset como um todo
##### df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)
valores_ausentes = ['**','***','###', '####', '****', '******', 'NULL']
df.replace(valores_ausentes, pd.NA, inplace=True)
## Quantos dados não estao disponíveis
# df.isna().sum()
# df.isnull().sum()
## Alterar todos os dados NA para 0
# df.fillna(0, inplace=True)
## Alterar algumas colunas com dados NA
# df.fillna(value={'total_recomendacoes':10}, inplace=True)

In [9]:
## Excluir uma coluna
# df['total_recomendacoes_bkp'] = df.total_recomendacoes # criando um backup
# df.drop(['total_recomendacoes_bkp'])  # tenta apagar a linha
# df.drop(['total_recomendacoes_bkp'], axis=1, inplace=True)  # tenta apagar a coluna
## Exclui as linhas com valores não informados
# df.dropna() # todas as linhas
# df.dropna(subset=['ocorrencia_uf']) #linha por coluna
## Excluir valores duplicados
# df.drop_duplicates()

# Transformação

In [19]:
# df.dtypes
## Buscar pelo indice
# df.iloc[-1]
# df.iloc[10:15]
# df['ocorrencia_uf']
## Buscar 
# df.ocorrencia_uf.isnull()
# filtro = df.ocorrencia_uf.isnull()
# df.loc[filtro]
# df.count() # conta valores não nulos

codigo_ocorrencia                 6114
codigo_ocorrencia1                6114
codigo_ocorrencia2                6114
codigo_ocorrencia3                6114
codigo_ocorrencia4                6114
ocorrencia_classificacao          6114
ocorrencia_latitude               3826
ocorrencia_longitude              3825
ocorrencia_cidade                 6114
ocorrencia_uf                     6112
ocorrencia_pais                   6114
ocorrencia_aerodromo              3829
ocorrencia_dia                    6114
ocorrencia_hora                   6113
investigacao_aeronave_liberada    3715
investigacao_status               5773
divulgacao_relatorio_numero       2194
divulgacao_relatorio_publicado    6114
divulgacao_dia_publicacao         1577
total_recomendacoes               6114
total_aeronaves_envolvidas        6114
ocorrencia_saida_pista            6114
dtype: int64

In [43]:
## Ocorrencias com mais de  10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']] # cidades com essse filtro
## Ocorrencias cujo classificacao == INCIDENTE GRAVE
filtro_class = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro_class, ['ocorrencia_cidade']]
## Ocorrencias cujo classificacao == INCIDENTE GRAVE e o Estado == SÃO PAULO
filtro_class = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro_uf = df.ocorrencia_uf == 'SP'
df.loc[filtro_class & filtro_uf, ['ocorrencia_cidade']]
#####
# filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
# filtro2 = df.ocorrencia_uf == 'SP'
# df.loc[filtro1 & filtro2]
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]
### Strings
## Ocorrencias em cidades que a cidade começa com C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]
## Ocorrencias em cidades que a cidade termina com A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]
##
filtro = df.ocorrencia_cidade.str.contains('MA')
df.loc[filtro]
##
filtro = df.ocorrencia_cidade.str.contains('MA|AL')
df.loc[filtro, 'ocorrencia_cidade']

5                 SALVADOR
7                 CANUTAMA
13      PRIMAVERA DO LESTE
15                CANUTAMA
17                SALVADOR
               ...        
6075                MANAUS
6086                 AMAPÁ
6090                 MARAÚ
6093              UMUARAMA
6106                MANAUS
Name: ocorrencia_cidade, Length: 954, dtype: object

In [48]:
## Ocorrencias do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]
## Ocorrencias de 12/2015
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
##
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12)
df.loc[filtro_ano & filtro_mes]
## Ocorrencias de 12/2015 do dia 3 ao dia 8
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
filtro_dia = (df.ocorrencia_dia.dt.day >= 3) &  (df.ocorrencia_dia.dt.day <=8)
df.loc[filtro_ano & filtro_mes & filtro_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
3434,53575,53575,53575,53575,53575,INCIDENTE,-22.0366666667,-41.0708333333,CAMPOS DOS GOYTACAZES,SP,...,2015-12-03,10:50:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3435,60637,60637,60637,60637,60637,INCIDENTE,-19.91,-43.9902777778,BELO HORIZONTE,SP,...,2015-12-03,16:47:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3436,53625,53625,53625,53625,53625,ACIDENTE,-16.6533333333,-49.6094444444,TRINDADE,SP,...,2015-12-06,13:10:00,,FINALIZADA,A-159/CENIPA/2015,SIM,2019-04-08,3,1,NÃO
3437,53626,53626,53626,53626,53626,ACIDENTE,-22.7555555556,-47.2672222222,AMERICANA,SP,...,2015-12-06,15:00:00,,FINALIZADA,A-160/CENIPA/2015,SIM,2019-10-28,1,1,SIM
3438,53628,53628,53628,53628,53628,ACIDENTE,-22.0327777778,-47.0258333333,AGUAÍ,SP,...,2015-12-08,14:30:00,,FINALIZADA,A-161/CENIPA/2015,SIM,2018-05-17,1,1,NÃO
3439,53629,53629,53629,53629,53629,INCIDENTE GRAVE,-20.2991666667,-50.5469444444,JALES,SP,...,2015-12-08,10:20:00,,FINALIZADA,A-162/CENIPA/2015,NÃO,NaT,0,1,NÃO
3440,53631,53631,53631,53631,53631,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,SP,...,2015-12-08,16:19:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3441,60636,60636,60636,60636,60636,INCIDENTE,-29.1955555556,-51.1897222222,CAXIAS DO SUL,SP,...,2015-12-08,13:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [60]:
## Criar uma coluna no dataframe com dia e horas juntos
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
filtro_ano = df.ocorrencia_dia_hora.dt.year == 2015
filtro_mes = df.ocorrencia_dia_hora.dt.month == 12
filtro_dia = (df.ocorrencia_dia_hora.dt.day >= 3) &  (df.ocorrencia_dia.dt.day <=8)
#######

filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'

df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
3435,60637,60637,60637,60637,60637,INCIDENTE,-19.91,-43.9902777778,BELO HORIZONTE,SP,...,16:47:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-03 16:47:00
3436,53625,53625,53625,53625,53625,ACIDENTE,-16.6533333333,-49.6094444444,TRINDADE,SP,...,13:10:00,,FINALIZADA,A-159/CENIPA/2015,SIM,2019-04-08,3,1,NÃO,2015-12-06 13:10:00
3437,53626,53626,53626,53626,53626,ACIDENTE,-22.7555555556,-47.2672222222,AMERICANA,SP,...,15:00:00,,FINALIZADA,A-160/CENIPA/2015,SIM,2019-10-28,1,1,SIM,2015-12-06 15:00:00
3439,53629,53629,53629,53629,53629,INCIDENTE GRAVE,-20.2991666667,-50.5469444444,JALES,SP,...,10:20:00,,FINALIZADA,A-162/CENIPA/2015,NÃO,NaT,0,1,NÃO,2015-12-08 10:20:00
3441,60636,60636,60636,60636,60636,INCIDENTE,-29.1955555556,-51.1897222222,CAXIAS DO SUL,SP,...,13:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-08 13:00:00


In [61]:
# Agrupamento de dados

In [71]:
## Ocorrências de 03/2015
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]

In [72]:
df201503.count()

codigo_ocorrencia                 37
codigo_ocorrencia1                37
codigo_ocorrencia2                37
codigo_ocorrencia3                37
codigo_ocorrencia4                37
ocorrencia_classificacao          37
ocorrencia_latitude               23
ocorrencia_longitude              23
ocorrencia_cidade                 37
ocorrencia_uf                     37
ocorrencia_pais                   37
ocorrencia_aerodromo              21
ocorrencia_dia                    37
ocorrencia_hora                   37
investigacao_aeronave_liberada    12
investigacao_status               35
divulgacao_relatorio_numero       18
divulgacao_relatorio_publicado    37
divulgacao_dia_publicacao         15
total_recomendacoes               37
total_aeronaves_envolvidas        37
ocorrencia_saida_pista            37
ocorrencia_dia_hora               37
dtype: int64

In [77]:
df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count()
df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count()

ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64

In [80]:
df201503.groupby(['ocorrencia_classificacao']).size()
df201503.groupby(['ocorrencia_classificacao']).size().sort_values()
df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False)

ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64

In [94]:
## Agrupamentos 
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df.loc[filtro1 & filtro2]
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()
## por estado
dfsudeste2010.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()
## Cidades
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)


ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
JUIZ DE FORA              4
VITÓRIA                   4
MARÍLIA                   3
SÃO JOSÉ DOS CAMPOS       3
SÃO JOSÉ DO RIO PRETO     3
SOROCABA                  2
ITANHAÉM                  2
RIBEIRÃO PRETO            2
IPATINGA                  2
POÇOS DE CALDAS           2
DIVINÓPOLIS               2
BAURU                     2
JUNDIAÍ                   2
ARARAQUARA                2
CAMPOS DOS GOYTACAZES     2
AREALVA                   2
MONTES CLAROS             2
UBERABA                   2
POUSO ALEGRE              1
PIRACICABA                1
PIRASSUNUNGA              1
ARRAIAL DO CABO           1
RESENDE                   1
PENÁPOLIS                 1
SANTOS                    1
SERRA NEGRA               1
SÃO BERNARDO DO CAMPO     1
TI

In [100]:
## RJ
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro].total_recomendacoes.sum()
## total de recomendacoes por cidade
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

ocorrencia_cidade
BELO HORIZONTE            2
BOITUVA                   1
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
IPERÓ                     3
ITANHAÉM                  1
JUNDIAÍ                   7
NOVO HORIZONTE            3
RESENDE                   8
RIO DE JANEIRO           25
SÃO BERNARDO DO CAMPO     2
SÃO PAULO                41
TIMÓTEO                   3
Name: total_recomendacoes, dtype: int64

In [102]:
# Agrupar dentro das cidades por mes
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              