In [1]:
import pandas as pd
import pandera as pa

In [2]:
# le csv, colunas 'ocorrencia_dia' e 'divulgacao_dia_publicacao' são DateTIme, dayfirst para formato YYYY-MM-DD
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True)

In [3]:
# Define um schema e valida os campos
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia':pa.Column(pa.Int),
        'codigo_ocorrencia1':pa.Column(pa.Int),
        'codigo_ocorrencia2':pa.Column(pa.Int),
        'codigo_ocorrencia3':pa.Column(pa.Int),
        'codigo_ocorrencia4':pa.Column(pa.Int),
        'ocorrencia_classificacao':pa.Column(pa.String),
        'ocorrencia_latitude':pa.Column(pa.String, nullable=True),
        'ocorrencia_longitude':pa.Column(pa.String, nullable=True),
        'ocorrencia_cidade':pa.Column(pa.String),
        'ocorrencia_uf':pa.Column(pa.String, pa.Check.str_length(2,2)),
        'ocorrencia_dia':pa.Column(pa.DateTime),
        'ocorrencia_hora':pa.Column(pa.String, pa.Check.str_matches(r'^([0-1]?[0-9]|[2][0-3]):([0-5][0-9])(:[0-5][0-9])?$'), nullable=True),
        'investigacao_aeronave_liberada':pa.Column(pa.String, nullable=True),
        'investigacao_status':pa.Column(pa.String, nullable=True),
        'divulgacao_relatorio_numero':pa.Column(pa.String, nullable=True),
        'divulgacao_relatorio_publicado':pa.Column(pa.String, nullable=True),
        'divulgacao_dia_publicacao':pa.Column(pa.DateTime, nullable=True),
        'total_recomendacoes':pa.Column(pa.Int, nullable=True),
        'total_aeronaves_envolvidas':pa.Column(pa.Int, nullable=True),
        'ocorrencia_saida_pista':pa.Column(pa.String, nullable=True),
    }
)

In [4]:
# Valida os campos do dataframe
schema.validate(df)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO


## Limpeza de dados

In [5]:
# obter um dado de uma linha e coluna
df.loc[1, 'ocorrencia_cidade']

'BELÉM'

In [6]:
## Obter todos os dados de uma linha
df.loc[3]

codigo_ocorrencia                               39527
codigo_ocorrencia1                              39527
codigo_ocorrencia2                              39527
codigo_ocorrencia3                              39527
codigo_ocorrencia4                              39527
ocorrencia_classificacao                     ACIDENTE
ocorrencia_latitude                    -13.1066666667
ocorrencia_longitude                   -55.9930555556
ocorrencia_cidade                  LUCAS DO RIO VERDE
ocorrencia_uf                                      MT
ocorrencia_pais                                BRASIL
ocorrencia_aerodromo                             ****
ocorrencia_dia                    2010-01-04 00:00:00
ocorrencia_hora                              17:30:00
investigacao_aeronave_liberada                    SIM
investigacao_status                        FINALIZADA
divulgacao_relatorio_numero         A-539/CENIPA/2018
divulgacao_relatorio_publicado                    SIM
divulgacao_dia_publicacao   

In [7]:
## Obter os dados de uma sequencia de linhas
df.loc[1:3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO


In [8]:
## Obter os dados de linhas específicas
df.loc[[10,40]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
10,39789,39789,39789,39789,39789,INCIDENTE,,,SÃO PEDRO DO SUL,RS,...,2010-01-10,21:30:00,***,,,NÃO,NaT,0,1,NÃO
40,39158,39158,39158,39158,39158,INCIDENTE,***,***,BELÉM,PA,...,2010-01-28,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [9]:
## Dados de toda a coluna sem informar as linhas
df.loc[:,'ocorrencia_cidade']

0           RIO DE JANEIRO
1                    BELÉM
2           RIO DE JANEIRO
3       LUCAS DO RIO VERDE
4                  PELOTAS
               ...        
6109                RECIFE
6110           PORTO VELHO
6111                 BELÉM
6112            DOM AQUINO
6113              CAMPINAS
Name: ocorrencia_cidade, Length: 6114, dtype: object

In [10]:
# verificar se uma coluna tem valores únicos para linhas diferentes
df.codigo_ocorrencia.is_unique ## True
df.ocorrencia_uf.is_unique ## False

False

In [12]:
# Alterar a label/índice da linha do dataframe
# df.set_index('codigo_ocorrencia')
df.set_index('codigo_ocorrencia', inplace=True) #altera o dataframe

In [13]:
df

Unnamed: 0_level_0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO


In [14]:
# Reseta o index
df.reset_index(drop=True, inplace=True)

In [15]:
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO


In [17]:
## Alteração de dados
df.loc[0,'ocorrencia_aerodromo'] = ''
df.loc[:,'ocorrencia_aerodromo']

0           
1       SBBE
2       SBRJ
3       ****
4       SBPK
        ... 
6109    SBRF
6110    SBPV
6111    SBBE
6112    ****
6113    SBKP
Name: ocorrencia_aerodromo, Length: 6114, dtype: object

In [18]:
# Alterar dados de uma linha
df.loc[1] = 20
df.head(2)

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03 00:00:00,12:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,1,NÃO
1,20,20,20,20,20,20,20,20,20,20,...,20,20,20,20,20,20,20,20,20,20


In [23]:
# Alterar os dados de toda a coluna
df.loc[:, 'total_aeronaves_envolvidas'] = 10
df['total_aeronaves_envolvidas']

0       10
1       10
2       10
3       10
4       10
        ..
6109    10
6110    10
6111    10
6112    10
6113    10
Name: total_aeronaves_envolvidas, Length: 6114, dtype: int64

In [25]:
# Backup da coluna
df['ocorrencia_uf_bkp'] = df.ocorrencia_uf
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_uf_bkp
0,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,...,12:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,RJ
1,20,20,20,20,20,20,20,20,20,20,...,20,20,20,20,20,20,20,10,20,20
2,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,RJ
3,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,...,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28 00:00:00,0,10,NÃO,MT
4,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,...,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,RS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,...,15:05:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,PE
6110,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,...,02:30:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,RO
6111,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,...,15:45:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,PA
6112,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,...,16:00:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,MT


In [26]:
## Alterar a coluna onde existe um valor especifico ex:
# alterar para grave todas as ocorrencias de são paulo
df.loc[df.ocorrencia_uf == "SP", ['ocorrencia_classificacao']] = 'GRAVE' # Filtro dentro do loc
df.loc[df.ocorrencia_uf  == 'SP']

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_uf_bkp
11,40069,40069,40069,40069,GRAVE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,BRASIL,...,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19 00:00:00,8,10,NÃO,SP
16,39809,39809,39809,39809,GRAVE,,,SÃO PAULO,SP,BRASIL,...,15:00:00,***,,,NÃO,NaT,0,10,NÃO,SP
18,39828,39828,39828,39828,GRAVE,***,***,SANTOS,SP,BRASIL,...,17:45:00,***,,,NÃO,NaT,0,10,NÃO,SP
26,39847,39847,39847,39847,GRAVE,,,SOROCABA,SP,BRASIL,...,13:10:00,***,,,NÃO,NaT,0,10,NÃO,SP
27,39768,39768,39768,39768,GRAVE,,,CAMPINAS,SP,BRASIL,...,20:45:00,***,,,NÃO,NaT,0,10,NÃO,SP
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6084,80234,80234,80234,80234,GRAVE,-23.626111,-46.656389,SÃO PAULO,SP,BRASIL,...,13:20:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,SP
6085,80208,80208,80208,80208,GRAVE,-23.506667,-46.633889,SÃO PAULO,SP,BRASIL,...,19:45:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,SP
6104,80238,80238,80238,80238,GRAVE,-20.457222,-50.002500,VOTUPORANGA,SP,BRASIL,...,19:09:00,SIM,ATIVA,***,NÃO,NaT,0,10,NÃO,SP
6108,80244,80244,80244,80244,GRAVE,-22.978841,-46.537076°,BRAGANÇA PAULISTA,SP,BRASIL,...,15:20:00,SIM,FINALIZADA,***,NÃO,NaT,0,10,NÃO,SP


In [29]:
## ocorrencia_aerodromo
df.loc[df.ocorrencia_aerodromo == '****', ['ocorrencia_aerodromo']] = pd.NA
df['ocorrencia_aerodromo']

0           
1         20
2       SBRJ
3       <NA>
4       SBPK
        ... 
6109    SBRF
6110    SBPV
6111    SBBE
6112    <NA>
6113    SBKP
Name: ocorrencia_aerodromo, Length: 6114, dtype: object

In [31]:
# permite que faça alterações num dataset como um todo
valores_ausentes = ['**','***','###', '####', '****', '******', 'NULL']
df.replace(valores_ausentes, pd.NA, inplace=True)
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_uf_bkp
0,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,12:00:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,RJ
1,20,20,20,20,20,20,20,20,20,20,...,20,20,20,20,20,20,20,10,20,20
2,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,RJ
3,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,...,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28 00:00:00,0,10,NÃO,MT
4,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,...,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,RS
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,...,15:05:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,PE
6110,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,...,02:30:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,RO
6111,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,...,15:45:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,PA
6112,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,...,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,10,NÃO,MT


In [33]:
# alterar valores por NA diretamente na leitura do arquivo csv
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [35]:
# Quantos dados não estao disponíveis
df.isna().sum()
# ou
df.isnull().sum()

codigo_ocorrencia                    0
codigo_ocorrencia1                   0
codigo_ocorrencia2                   0
codigo_ocorrencia3                   0
codigo_ocorrencia4                   0
ocorrencia_classificacao             0
ocorrencia_latitude               2288
ocorrencia_longitude              2289
ocorrencia_cidade                    0
ocorrencia_uf                        2
ocorrencia_pais                      0
ocorrencia_aerodromo              2285
ocorrencia_dia                       0
ocorrencia_hora                      1
investigacao_aeronave_liberada    2399
investigacao_status                341
divulgacao_relatorio_numero       3920
divulgacao_relatorio_publicado       0
divulgacao_dia_publicacao         4537
total_recomendacoes                  0
total_aeronaves_envolvidas           0
ocorrencia_saida_pista               0
dtype: int64

In [37]:
# Alterar todos os dados NA para 0
df.fillna(0, inplace=True)
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,0,0,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,0,0,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,0,0,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28 00:00:00,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,0,0,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,0,NÃO,0,0,1,NÃO


In [47]:
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)
# Alterar algumas colunas com dados NA
df.fillna(value={'total_recomendacoes':10}, inplace=True)
df['total_recomendacoes']

0       0
1       0
2       0
3       0
4       0
       ..
6109    0
6110    0
6111    0
6112    0
6113    0
Name: total_recomendacoes, Length: 6114, dtype: int64

In [48]:
# Excluir uma coluna
df['total_recomendacoes_bkp'] = df.total_recomendacoes # criando um backup
# df.drop(['total_recomendacoes_bkp'])  # tenta apagar a linha
df.drop(['total_recomendacoes_bkp'], axis=1, inplace=True)  # tenta apagar a coluna
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [54]:
# Exclui as linhas com valores não informados
df.dropna() # todas as linhas

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [52]:
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)

In [55]:
df.dropna(subset=['ocorrencia_uf']) #linha por coluna

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [56]:
# Excluir valores duplicados
df.drop_duplicates()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


##

In [57]:
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)

In [58]:
# Buscar pelo indice
df.iloc[-1]

codigo_ocorrencia                               80259
codigo_ocorrencia1                              80259
codigo_ocorrencia2                              80259
codigo_ocorrencia3                              80259
codigo_ocorrencia4                              80259
ocorrencia_classificacao                    INCIDENTE
ocorrencia_latitude                   -23.00694444444
ocorrencia_longitude                  -47.13444444444
ocorrencia_cidade                            CAMPINAS
ocorrencia_uf                                      SP
ocorrencia_pais                                BRASIL
ocorrencia_aerodromo                             SBKP
ocorrencia_dia                    2021-08-18 00:00:00
ocorrencia_hora                              12:45:00
investigacao_aeronave_liberada                    SIM
investigacao_status                        FINALIZADA
divulgacao_relatorio_numero                       NaN
divulgacao_relatorio_publicado                    NÃO
divulgacao_dia_publicacao   

In [59]:
# Buscar pelo indice
df.iloc[10:15]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
10,39789,39789,39789,39789,39789,INCIDENTE,,,SÃO PEDRO DO SUL,RS,...,2010-01-10,21:30:00,,,,NÃO,NaT,0,1,NÃO
11,40069,40069,40069,40069,40069,ACIDENTE,-23.5069444444,-46.6341666667,SÃO PAULO,SP,...,2010-01-10,14:50:00,SIM,FINALIZADA,A-121/CENIPA/2012,SIM,2012-11-19,8,1,NÃO
12,40414,40414,40414,40414,40414,INCIDENTE,,,BRASÍLIA,DF,...,2010-01-10,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
13,39507,39507,39507,39507,39507,ACIDENTE,-15.5588888889,-54.3047222222,PRIMAVERA DO LESTE,MT,...,2010-01-11,17:00:00,SIM,FINALIZADA,A-016/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
14,40107,40107,40107,40107,40107,ACIDENTE,-1.4169444444,-51.6338888889,GURUPÁ,PA,...,2010-01-12,14:30:00,SIM,FINALIZADA,A-505/CENIPA/2016,SIM,2016-03-18,0,1,NÃO


In [61]:
# Checa se os valores são nulos em uma coluna
df.ocorrencia_uf.isnull()

0       False
1       False
2       False
3       False
4       False
        ...  
6109    False
6110    False
6111    False
6112    False
6113    False
Name: ocorrencia_uf, Length: 6114, dtype: bool

In [62]:
filtro = df.ocorrencia_uf.isnull()
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
2227,49474,49474,49474,49474,49474,ACIDENTE,-6.7119444444,-32.9919444444,ÁGUAS INTERNACIONAIS,,...,2013-09-02,02:54:00,SIM,FINALIZADA,A-158/CENIPA/2013,SIM,2018-05-10,0,1,NÃO
5855,79956,79956,79956,79956,79956,ACIDENTE,0.0,0.0,NÃO IDENTIFICADA,,...,2021-02-26,11:00:00,NÃO,ATIVA,A-030/CENIPA/2021,NÃO,NaT,0,1,NÃO


In [63]:
# conta valores não nulos
df.count() 

codigo_ocorrencia                 6114
codigo_ocorrencia1                6114
codigo_ocorrencia2                6114
codigo_ocorrencia3                6114
codigo_ocorrencia4                6114
ocorrencia_classificacao          6114
ocorrencia_latitude               3826
ocorrencia_longitude              3825
ocorrencia_cidade                 6114
ocorrencia_uf                     6112
ocorrencia_pais                   6114
ocorrencia_aerodromo              3829
ocorrencia_dia                    6114
ocorrencia_hora                   6113
investigacao_aeronave_liberada    3715
investigacao_status               5773
divulgacao_relatorio_numero       2194
divulgacao_relatorio_publicado    6114
divulgacao_dia_publicacao         1577
total_recomendacoes               6114
total_aeronaves_envolvidas        6114
ocorrencia_saida_pista            6114
dtype: int64

## Filtro

In [64]:
## Ocorrencias com mais de  10 recomendações
filtro = df.total_recomendacoes > 10
df.loc[filtro, ['ocorrencia_cidade', 'total_recomendacoes']] # cidades com essse filtro

Unnamed: 0,ocorrencia_cidade,total_recomendacoes
63,SÃO PAULO,11
326,RIO DE JANEIRO,19
530,SÃO PAULO,11
727,ITÁPOLIS,11
872,RECIFE,23
884,SÃO JOSÉ DOS PINHAIS,11
1062,UBERLÂNDIA,20
1972,BRASÍLIA,11
2797,SANTOS,13
3932,VITÓRIA,12


In [65]:
## Ocorrencias cujo classificacao == INCIDENTE GRAVE
filtro_class = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
df.loc[filtro_class, ['ocorrencia_cidade']]

Unnamed: 0,ocorrencia_cidade
7,CANUTAMA
8,CASCAVEL
9,PARÁ DE MINAS
29,CURITIBA
35,PALMAS
...,...
6090,MARAÚ
6095,ELDORADO DO SUL
6097,CAXIAS DO SUL
6098,CHAPADÃO DO SUL


In [66]:
## Ocorrencias cujo classificacao == INCIDENTE GRAVE e o Estado == SÃO PAULO
filtro_class = df.ocorrencia_classificacao == 'INCIDENTE GRAVE'
filtro_uf = df.ocorrencia_uf == 'SP'
df.loc[filtro_class & filtro_uf, ['ocorrencia_cidade']]

Unnamed: 0,ocorrencia_cidade
136,PIRASSUNUNGA
171,GUARULHOS
219,SÃO PAULO
297,SÃO PAULO
314,SÃO JOSÉ DO RIO PRETO
...,...
5949,FERNANDÓPOLIS
6000,LINS
6007,SÃO PAULO
6081,BRAGANÇA PAULISTA


In [69]:
## Ocorrencias cujo classificacao == INCIDENTE GRAVE ou INCIDENTE no Estado == SÃO PAULO
filtro1 = (df.ocorrencia_classificacao == 'INCIDENTE GRAVE') | (df.ocorrencia_classificacao == 'INCIDENTE')
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
16,39809,39809,39809,39809,39809,INCIDENTE,,,SÃO PAULO,SP,...,2010-01-15,15:00:00,,,,NÃO,NaT,0,1,NÃO
18,39828,39828,39828,39828,39828,INCIDENTE,,,SANTOS,SP,...,2010-01-15,17:45:00,,,,NÃO,NaT,0,1,NÃO
26,39847,39847,39847,39847,39847,INCIDENTE,,,SOROCABA,SP,...,2010-01-20,13:10:00,,,,NÃO,NaT,0,1,NÃO
27,39768,39768,39768,39768,39768,INCIDENTE,,,CAMPINAS,SP,...,2010-01-21,20:45:00,,,,NÃO,NaT,0,1,NÃO
33,39848,39848,39848,39848,39848,INCIDENTE,,,GUARULHOS,SP,...,2010-01-25,17:05:00,,,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6084,80234,80234,80234,80234,80234,INCIDENTE,-23.626111,-46.656389,SÃO PAULO,SP,...,2021-07-26,13:20:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6085,80208,80208,80208,80208,80208,INCIDENTE,-23.506667,-46.633889,SÃO PAULO,SP,...,2021-07-27,19:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6104,80238,80238,80238,80238,80238,INCIDENTE GRAVE,-20.457222,-50.002500,VOTUPORANGA,SP,...,2021-08-11,19:09:00,SIM,ATIVA,,NÃO,NaT,0,1,NÃO
6108,80244,80244,80244,80244,80244,INCIDENTE,-22.978841,-46.537076°,BRAGANÇA PAULISTA,SP,...,2021-08-15,15:20:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [68]:
## Ocorrencias cujo classificacao == INCIDENTE GRAVE ou INCIDENTE no Estado == SÃO PAULO utilizando o método isin()
filtro1 = df.ocorrencia_classificacao.isin(['INCIDENTE GRAVE', 'INCIDENTE'])
filtro2 = df.ocorrencia_uf == 'SP'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
16,39809,39809,39809,39809,39809,INCIDENTE,,,SÃO PAULO,SP,...,2010-01-15,15:00:00,,,,NÃO,NaT,0,1,NÃO
18,39828,39828,39828,39828,39828,INCIDENTE,,,SANTOS,SP,...,2010-01-15,17:45:00,,,,NÃO,NaT,0,1,NÃO
26,39847,39847,39847,39847,39847,INCIDENTE,,,SOROCABA,SP,...,2010-01-20,13:10:00,,,,NÃO,NaT,0,1,NÃO
27,39768,39768,39768,39768,39768,INCIDENTE,,,CAMPINAS,SP,...,2010-01-21,20:45:00,,,,NÃO,NaT,0,1,NÃO
33,39848,39848,39848,39848,39848,INCIDENTE,,,GUARULHOS,SP,...,2010-01-25,17:05:00,,,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6084,80234,80234,80234,80234,80234,INCIDENTE,-23.626111,-46.656389,SÃO PAULO,SP,...,2021-07-26,13:20:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6085,80208,80208,80208,80208,80208,INCIDENTE,-23.506667,-46.633889,SÃO PAULO,SP,...,2021-07-27,19:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6104,80238,80238,80238,80238,80238,INCIDENTE GRAVE,-20.457222,-50.002500,VOTUPORANGA,SP,...,2021-08-11,19:09:00,SIM,ATIVA,,NÃO,NaT,0,1,NÃO
6108,80244,80244,80244,80244,80244,INCIDENTE,-22.978841,-46.537076°,BRAGANÇA PAULISTA,SP,...,2021-08-15,15:20:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [70]:
### Strings
## Ocorrencias em cidades que a cidade começa com C
filtro = df.ocorrencia_cidade.str[0] == 'C'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
6,40215,40215,40215,40215,40215,INCIDENTE,,,COARI,AM,...,2010-01-07,18:40:00,SIM,FINALIZADA,,NÃO,NaT,0,1,SIM
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
8,39156,39156,39156,39156,39156,INCIDENTE GRAVE,-15.2402777778,-59.3541666667,CASCAVEL,PR,...,2010-01-10,23:15:00,SIM,FINALIZADA,I-004/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
15,39315,39315,39315,39315,39315,ACIDENTE,-6.615,-64.1116666667,CANUTAMA,AM,...,2010-01-15,21:22:00,SIM,FINALIZADA,A-519/CENIPA/2016,SIM,2017-02-08,0,1,NÃO
20,40310,40310,40310,40310,40310,INCIDENTE,,,CRUZEIRO DO SUL,AC,...,2010-01-18,19:32:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6094,80225,80225,80225,80225,80225,INCIDENTE,-25.403333,-49.233611,CURITIBA,PR,...,2021-08-04,13:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6097,80231,80231,80231,80231,80231,INCIDENTE GRAVE,-29.19555555555,-51.18972222222,CAXIAS DO SUL,RS,...,2021-08-06,16:59:00,SIM,ATIVA,,NÃO,NaT,0,1,NÃO
6098,80248,80248,80248,80248,80248,INCIDENTE GRAVE,-52.48805,-18.83916,CHAPADÃO DO SUL,MS,...,2021-08-06,20:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,SIM
6100,80235,80235,80235,80235,80235,INCIDENTE,-19.011944,-57.671389,CORUMBÁ,MS,...,2021-08-09,20:55:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [71]:
## Ocorrencias em cidades que a cidade termina com A
filtro = df.ocorrencia_cidade.str[-1] == 'A'
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
12,40414,40414,40414,40414,40414,INCIDENTE,,,BRASÍLIA,DF,...,2010-01-10,03:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
15,39315,39315,39315,39315,39315,ACIDENTE,-6.615,-64.1116666667,CANUTAMA,AM,...,2010-01-15,21:22:00,SIM,FINALIZADA,A-519/CENIPA/2016,SIM,2017-02-08,0,1,NÃO
25,39772,39772,39772,39772,39772,INCIDENTE,,,UBERLÂNDIA,MG,...,2010-01-20,18:58:00,,,,NÃO,NaT,0,1,NÃO
26,39847,39847,39847,39847,39847,INCIDENTE,,,SOROCABA,SP,...,2010-01-20,13:10:00,,,,NÃO,NaT,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6093,80227,80227,80227,80227,80227,ACIDENTE,-23.638333,-53.555278,UMUARAMA,PR,...,2021-08-02,14:30:00,SIM,ATIVA,A DEFINIR,NÃO,NaT,0,1,NÃO
6094,80225,80225,80225,80225,80225,INCIDENTE,-25.403333,-49.233611,CURITIBA,PR,...,2021-08-04,13:45:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6102,80240,80240,80240,80240,80240,INCIDENTE,-16.625556,-49.349444,GOIÂNIA,GO,...,2021-08-10,14:15:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6104,80238,80238,80238,80238,80238,INCIDENTE GRAVE,-20.457222,-50.002500,VOTUPORANGA,SP,...,2021-08-11,19:09:00,SIM,ATIVA,,NÃO,NaT,0,1,NÃO


In [72]:
## Ocorrencias em cidades que a cidade contém MA
filtro = df.ocorrencia_cidade.str.contains('MA')
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
13,39507,39507,39507,39507,39507,ACIDENTE,-15.5588888889,-54.3047222222,PRIMAVERA DO LESTE,MT,...,2010-01-11,17:00:00,SIM,FINALIZADA,A-016/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
15,39315,39315,39315,39315,39315,ACIDENTE,-6.615,-64.1116666667,CANUTAMA,AM,...,2010-01-15,21:22:00,SIM,FINALIZADA,A-519/CENIPA/2016,SIM,2017-02-08,0,1,NÃO
35,39487,39487,39487,39487,39487,INCIDENTE GRAVE,-10.290000,-48.357778,PALMAS,TO,...,2010-01-26,16:50:00,SIM,FINALIZADA,IG-575/CENIPA/2014,SIM,2014-10-13,0,1,NÃO
78,39916,39916,39916,39916,39916,INCIDENTE GRAVE,-3.0505555556,-60.0508333333,MANAUS,AM,...,2010-03-07,19:35:00,SIM,FINALIZADA,IG-171/CENIPA/2013,SIM,2013-12-30,2,1,SIM
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6075,80205,80205,80205,80205,80205,INCIDENTE,-3.041111111111,-60.05055555555,MANAUS,AM,...,2021-07-23,11:15:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6086,80212,80212,80212,80212,80212,INCIDENTE,2.15,-50.89472,AMAPÁ,AP,...,2021-07-28,18:00:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
6090,80221,80221,80221,80221,80221,INCIDENTE GRAVE,-13.90611,-38.94000,MARAÚ,BA,...,2021-07-31,13:15:00,SIM,ATIVA,A DEFINIR,NÃO,NaT,0,1,SIM
6093,80227,80227,80227,80227,80227,ACIDENTE,-23.638333,-53.555278,UMUARAMA,PR,...,2021-08-02,14:30:00,SIM,ATIVA,A DEFINIR,NÃO,NaT,0,1,NÃO


In [73]:
## Ocorrencias em cidades que a cidade contém MA ou  AL
filtro = df.ocorrencia_cidade.str.contains('MA|AL')
df.loc[filtro, 'ocorrencia_cidade']

5                 SALVADOR
7                 CANUTAMA
13      PRIMAVERA DO LESTE
15                CANUTAMA
17                SALVADOR
               ...        
6075                MANAUS
6086                 AMAPÁ
6090                 MARAÚ
6093              UMUARAMA
6106                MANAUS
Name: ocorrencia_cidade, Length: 954, dtype: object

In [74]:
## Ocorrencias do ano de 2015
filtro = df.ocorrencia_dia.dt.year == 2015
df.loc[filtro]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
2998,52992,52992,52992,52992,52992,INCIDENTE GRAVE,,,SALVADOR,BA,...,2015-01-01,11:40:00,,FINALIZADA,IG-001/CENIPA/2015,SIM,2018-11-07,3,2,NÃO
2999,52979,52979,52979,52979,52979,ACIDENTE,-22.3855555556,-53.8763888889,IVINHEMA,MS,...,2015-01-02,14:50:00,,FINALIZADA,A-002/CENIPA/2015,SIM,2018-06-25,0,1,NÃO
3000,53073,53073,53073,53073,53073,INCIDENTE,,,TEFÉ,AM,...,2015-01-02,16:28:00,SIM,FINALIZADA,,NÃO,NaT,0,1,NÃO
3001,53074,53074,53074,53074,53074,INCIDENTE,,,BELO HORIZONTE,MG,...,2015-01-02,20:34:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3002,52976,52976,52976,52976,52976,ACIDENTE,-24.7533333333,-53.635,TOLEDO,PR,...,2015-01-04,22:04:00,SIM,FINALIZADA,A-003/CENIPA/2015,SIM,2016-06-16,6,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3464,60632,60632,60632,60632,60632,INCIDENTE GRAVE,-23.8441666667,-49.0569444444,ITABERÁ,SP,...,2015-12-24,14:00:00,,FINALIZADA,IG-171/CENIPA/2015,SIM,2017-08-01,0,1,NÃO
3465,60600,60600,60600,60600,60600,INCIDENTE,-5.7688888889,-35.3663888889,GUARULHOS,SP,...,2015-12-25,19:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3466,60642,60642,60642,60642,60642,INCIDENTE,-26.2191666667,-48.5002777778,SÃO FRANCISCO DO SUL,SC,...,2015-12-26,16:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3467,60631,60631,60631,60631,60631,ACIDENTE,-29.1625,-55.9388888889,MAÇAMBARÁ,RS,...,2015-12-28,19:00:00,,FINALIZADA,A-172/CENIPA/2015,SIM,2018-07-27,2,1,NÃO


In [75]:
## Ocorrencias de 12/2015
## Separado
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
df.loc[filtro_ano & filtro_mes]
## Junto
filtro = (df.ocorrencia_dia.dt.year == 2015) & (df.ocorrencia_dia.dt.month == 12)
df.loc[filtro_ano & filtro_mes]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
3430,53573,53573,53573,53573,53573,INCIDENTE,-23.4355555556,-46.4730555556,GUARULHOS,SP,...,2015-12-01,02:48:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3431,60601,60601,60601,60601,60601,INCIDENTE,-10.29,-48.3577777778,PALMAS,TO,...,2015-12-01,16:05:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3432,53634,53634,53634,53634,53634,INCIDENTE,-10.29,-48.3577777778,PALMAS,TO,...,2015-12-02,17:45:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3433,53636,53636,53636,53636,53636,INCIDENTE,-23.1747222222,-46.9455555556,JUNDIAÍ,SP,...,2015-12-02,17:42:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3434,53575,53575,53575,53575,53575,INCIDENTE,-22.0366666667,-41.0708333333,CAMPOS DOS GOYTACAZES,RJ,...,2015-12-03,10:50:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3435,60637,60637,60637,60637,60637,INCIDENTE,-19.91,-43.9902777778,BELO HORIZONTE,MG,...,2015-12-03,16:47:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3436,53625,53625,53625,53625,53625,ACIDENTE,-16.6533333333,-49.6094444444,TRINDADE,GO,...,2015-12-06,13:10:00,,FINALIZADA,A-159/CENIPA/2015,SIM,2019-04-08,3,1,NÃO
3437,53626,53626,53626,53626,53626,ACIDENTE,-22.7555555556,-47.2672222222,AMERICANA,SP,...,2015-12-06,15:00:00,,FINALIZADA,A-160/CENIPA/2015,SIM,2019-10-28,1,1,SIM
3438,53628,53628,53628,53628,53628,ACIDENTE,-22.0327777778,-47.0258333333,AGUAÍ,SP,...,2015-12-08,14:30:00,,FINALIZADA,A-161/CENIPA/2015,SIM,2018-05-17,1,1,NÃO
3439,53629,53629,53629,53629,53629,INCIDENTE GRAVE,-20.2991666667,-50.5469444444,JALES,SP,...,2015-12-08,10:20:00,,FINALIZADA,A-162/CENIPA/2015,NÃO,NaT,0,1,NÃO


In [76]:
## Ocorrencias de 12/2015 do dia 3 ao dia 8
filtro_ano = df.ocorrencia_dia.dt.year == 2015
filtro_mes = df.ocorrencia_dia.dt.month == 12
filtro_dia = (df.ocorrencia_dia.dt.day >= 3) &  (df.ocorrencia_dia.dt.day <=8)
df.loc[filtro_ano & filtro_mes & filtro_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
3434,53575,53575,53575,53575,53575,INCIDENTE,-22.0366666667,-41.0708333333,CAMPOS DOS GOYTACAZES,RJ,...,2015-12-03,10:50:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3435,60637,60637,60637,60637,60637,INCIDENTE,-19.91,-43.9902777778,BELO HORIZONTE,MG,...,2015-12-03,16:47:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3436,53625,53625,53625,53625,53625,ACIDENTE,-16.6533333333,-49.6094444444,TRINDADE,GO,...,2015-12-06,13:10:00,,FINALIZADA,A-159/CENIPA/2015,SIM,2019-04-08,3,1,NÃO
3437,53626,53626,53626,53626,53626,ACIDENTE,-22.7555555556,-47.2672222222,AMERICANA,SP,...,2015-12-06,15:00:00,,FINALIZADA,A-160/CENIPA/2015,SIM,2019-10-28,1,1,SIM
3438,53628,53628,53628,53628,53628,ACIDENTE,-22.0327777778,-47.0258333333,AGUAÍ,SP,...,2015-12-08,14:30:00,,FINALIZADA,A-161/CENIPA/2015,SIM,2018-05-17,1,1,NÃO
3439,53629,53629,53629,53629,53629,INCIDENTE GRAVE,-20.2991666667,-50.5469444444,JALES,SP,...,2015-12-08,10:20:00,,FINALIZADA,A-162/CENIPA/2015,NÃO,NaT,0,1,NÃO
3440,53631,53631,53631,53631,53631,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,SP,...,2015-12-08,16:19:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3441,60636,60636,60636,60636,60636,INCIDENTE,-29.1955555556,-51.1897222222,CAXIAS DO SUL,RS,...,2015-12-08,13:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [78]:
## Criar uma coluna no dataframe com dia e horas juntos
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
filtro_ano = df.ocorrencia_dia_hora.dt.year == 2015
filtro_mes = df.ocorrencia_dia_hora.dt.month == 12
filtro_dia = (df.ocorrencia_dia_hora.dt.day >= 3) &  (df.ocorrencia_dia.dt.day <=8)
df.loc[filtro_ano & filtro_mes & filtro_dia]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
3434,53575,53575,53575,53575,53575,INCIDENTE,-22.0366666667,-41.0708333333,CAMPOS DOS GOYTACAZES,RJ,...,10:50:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-03 10:50:00
3435,60637,60637,60637,60637,60637,INCIDENTE,-19.91,-43.9902777778,BELO HORIZONTE,MG,...,16:47:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-03 16:47:00
3436,53625,53625,53625,53625,53625,ACIDENTE,-16.6533333333,-49.6094444444,TRINDADE,GO,...,13:10:00,,FINALIZADA,A-159/CENIPA/2015,SIM,2019-04-08,3,1,NÃO,2015-12-06 13:10:00
3437,53626,53626,53626,53626,53626,ACIDENTE,-22.7555555556,-47.2672222222,AMERICANA,SP,...,15:00:00,,FINALIZADA,A-160/CENIPA/2015,SIM,2019-10-28,1,1,SIM,2015-12-06 15:00:00
3438,53628,53628,53628,53628,53628,ACIDENTE,-22.0327777778,-47.0258333333,AGUAÍ,SP,...,14:30:00,,FINALIZADA,A-161/CENIPA/2015,SIM,2018-05-17,1,1,NÃO,2015-12-08 14:30:00
3439,53629,53629,53629,53629,53629,INCIDENTE GRAVE,-20.2991666667,-50.5469444444,JALES,SP,...,10:20:00,,FINALIZADA,A-162/CENIPA/2015,NÃO,NaT,0,1,NÃO,2015-12-08 10:20:00
3440,53631,53631,53631,53631,53631,INCIDENTE,-23.0069444444,-47.1344444444,CAMPINAS,SP,...,16:19:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-08 16:19:00
3441,60636,60636,60636,60636,60636,INCIDENTE,-29.1955555556,-51.1897222222,CAXIAS DO SUL,RS,...,13:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-08 13:00:00


In [80]:
## Criar uma coluna no dataframe com dia e horas juntos
## Ocorrencias de 12/2015 do dia 3 às 11h ao dia 8 às 13h
df['ocorrencia_dia_hora'] = pd.to_datetime(df.ocorrencia_dia.astype(str) + ' ' + df.ocorrencia_hora)
filtro1 = df.ocorrencia_dia_hora >= '2015-12-03 11:00:00'
filtro2 = df.ocorrencia_dia_hora <= '2015-12-08 13:00:00'
df.loc[filtro1 & filtro2]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista,ocorrencia_dia_hora
3435,60637,60637,60637,60637,60637,INCIDENTE,-19.91,-43.9902777778,BELO HORIZONTE,MG,...,16:47:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-03 16:47:00
3436,53625,53625,53625,53625,53625,ACIDENTE,-16.6533333333,-49.6094444444,TRINDADE,GO,...,13:10:00,,FINALIZADA,A-159/CENIPA/2015,SIM,2019-04-08,3,1,NÃO,2015-12-06 13:10:00
3437,53626,53626,53626,53626,53626,ACIDENTE,-22.7555555556,-47.2672222222,AMERICANA,SP,...,15:00:00,,FINALIZADA,A-160/CENIPA/2015,SIM,2019-10-28,1,1,SIM,2015-12-06 15:00:00
3439,53629,53629,53629,53629,53629,INCIDENTE GRAVE,-20.2991666667,-50.5469444444,JALES,SP,...,10:20:00,,FINALIZADA,A-162/CENIPA/2015,NÃO,NaT,0,1,NÃO,2015-12-08 10:20:00
3441,60636,60636,60636,60636,60636,INCIDENTE,-29.1955555556,-51.1897222222,CAXIAS DO SUL,RS,...,13:00:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO,2015-12-08 13:00:00


### Agrupamento de dados

In [83]:
df = pd.read_csv('ocorrencia.csv', sep=";", parse_dates=['ocorrencia_dia', 'divulgacao_dia_publicacao'], dayfirst=True, na_values=valores_ausentes)

In [85]:
# Ocorrências de 03/2015
filtro1 = df.ocorrencia_dia.dt.year == 2015
filtro2 = df.ocorrencia_dia.dt.month == 3
df201503 = df.loc[filtro1 & filtro2]
df201503

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
3088,53183,53183,53183,53183,53183,ACIDENTE,-23.0819444444,-52.7652777778,AMAPORÃ,PR,...,2015-03-02,23:00:00,,FINALIZADA,A-031/CENIPA/2015,NÃO,NaT,0,1,NÃO
3089,53120,53120,53120,53120,53120,ACIDENTE,-0.2002777778,-49.9672222222,CHAVES,PA,...,2015-03-04,13:30:00,,FINALIZADA,A-032/CENIPA/2015,SIM,2015-10-19,0,1,NÃO
3090,53109,53109,53109,53109,53109,ACIDENTE,-20.5994444444,-54.6025,CAMPO GRANDE,MS,...,2015-03-05,13:50:00,SIM,FINALIZADA,A-033/CENIPA/2015,SIM,2018-09-24,0,1,NÃO
3091,53112,53112,53112,53112,53112,ACIDENTE,-22.2036111111,-47.1966666667,MOGI GUAÇU,SP,...,2015-03-06,21:00:00,,ATIVA,A-034/CENIPA/2015,NÃO,NaT,0,1,NÃO
3092,53152,53152,53152,53152,53152,INCIDENTE GRAVE,-22.9938888889,-43.3752777778,RIO DE JANEIRO,RJ,...,2015-03-10,11:30:00,,FINALIZADA,IG-035/CENIPA/2015,SIM,2016-08-26,2,1,NÃO
3093,53167,53167,53167,53167,53167,INCIDENTE,,,MARABÁ,PA,...,2015-03-10,17:33:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3094,53596,53596,53596,53596,53596,INCIDENTE,-27.1363888889,-48.6816666667,ITAPEMA,SC,...,2015-03-10,21:35:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO
3095,53149,53149,53149,53149,53149,ACIDENTE,-4.2597222222,-69.9169444444,TABATINGA,AM,...,2015-03-11,23:25:00,SIM,FINALIZADA,A-036/CENIPA/2015,SIM,2016-10-14,0,1,NÃO
3096,53148,53148,53148,53148,53148,ACIDENTE,-22.3388888889,-47.3580555556,ARARAS,SP,...,2015-03-12,12:40:00,,FINALIZADA,A-037/CENIPA/2015,SIM,2015-10-19,0,1,NÃO
3097,53153,53153,53153,53153,53153,INCIDENTE,,,PORTO ALEGRE,RS,...,2015-03-13,15:45:00,,FINALIZADA,,NÃO,NaT,0,1,NÃO


In [86]:
df201503.count()

codigo_ocorrencia                 37
codigo_ocorrencia1                37
codigo_ocorrencia2                37
codigo_ocorrencia3                37
codigo_ocorrencia4                37
ocorrencia_classificacao          37
ocorrencia_latitude               23
ocorrencia_longitude              23
ocorrencia_cidade                 37
ocorrencia_uf                     37
ocorrencia_pais                   37
ocorrencia_aerodromo              21
ocorrencia_dia                    37
ocorrencia_hora                   37
investigacao_aeronave_liberada    12
investigacao_status               35
divulgacao_relatorio_numero       18
divulgacao_relatorio_publicado    37
divulgacao_dia_publicacao         15
total_recomendacoes               37
total_aeronaves_envolvidas        37
ocorrencia_saida_pista            37
dtype: int64

In [90]:
# Agrupamento de ocorrencia_classificacao e soma de codigo_ocorrencia/ocorrencia_aerodromo
print(df201503.groupby(['ocorrencia_classificacao']).codigo_ocorrencia.count())
print('\n')
print(df201503.groupby(['ocorrencia_classificacao']).ocorrencia_aerodromo.count())

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
Name: codigo_ocorrencia, dtype: int64


ocorrencia_classificacao
ACIDENTE            5
INCIDENTE          14
INCIDENTE GRAVE     2
Name: ocorrencia_aerodromo, dtype: int64


In [91]:
# Tamanho 
print(df201503.groupby(['ocorrencia_classificacao']).size())
print('\n')
print(df201503.groupby(['ocorrencia_classificacao']).size().sort_values())
print('\n')
print(df201503.groupby(['ocorrencia_classificacao']).size().sort_values(ascending=False))

ocorrencia_classificacao
ACIDENTE           15
INCIDENTE          17
INCIDENTE GRAVE     5
dtype: int64


ocorrencia_classificacao
INCIDENTE GRAVE     5
ACIDENTE           15
INCIDENTE          17
dtype: int64


ocorrencia_classificacao
INCIDENTE          17
ACIDENTE           15
INCIDENTE GRAVE     5
dtype: int64


In [92]:
## Agrupamentos no sudeste
filtro1 = df.ocorrencia_dia.dt.year == 2010
filtro2 = df.ocorrencia_uf.isin(['SP','MG','ES','RJ'])
dfsudeste2010 = df.loc[filtro1 & filtro2]
dfsudeste2010.groupby(['ocorrencia_classificacao']).size()

ocorrencia_classificacao
ACIDENTE            40
INCIDENTE          170
INCIDENTE GRAVE     18
dtype: int64

In [93]:
## por estado
dfsudeste2010.groupby(['ocorrencia_uf', 'ocorrencia_classificacao']).size()

ocorrencia_uf  ocorrencia_classificacao
ES             INCIDENTE                    5
MG             ACIDENTE                     7
               INCIDENTE                   39
               INCIDENTE GRAVE              5
RJ             ACIDENTE                     9
               INCIDENTE                   52
               INCIDENTE GRAVE              4
SP             ACIDENTE                    24
               INCIDENTE                   74
               INCIDENTE GRAVE              9
dtype: int64

In [94]:
## Por cidades
dfsudeste2010.groupby(['ocorrencia_cidade']).size().sort_values(ascending=False)

ocorrencia_cidade
RIO DE JANEIRO           47
SÃO PAULO                33
GUARULHOS                18
BELO HORIZONTE           17
CAMPINAS                 13
MACAÉ                    12
CONFINS                   7
UBERLÂNDIA                5
JUIZ DE FORA              4
VITÓRIA                   4
MARÍLIA                   3
SÃO JOSÉ DOS CAMPOS       3
SÃO JOSÉ DO RIO PRETO     3
SOROCABA                  2
ITANHAÉM                  2
RIBEIRÃO PRETO            2
IPATINGA                  2
POÇOS DE CALDAS           2
DIVINÓPOLIS               2
BAURU                     2
JUNDIAÍ                   2
ARARAQUARA                2
CAMPOS DOS GOYTACAZES     2
AREALVA                   2
MONTES CLAROS             2
UBERABA                   2
POUSO ALEGRE              1
PIRACICABA                1
PIRASSUNUNGA              1
ARRAIAL DO CABO           1
RESENDE                   1
PENÁPOLIS                 1
SANTOS                    1
SERRA NEGRA               1
SÃO BERNARDO DO CAMPO     1
TI

In [95]:
## No RJ
filtro = dfsudeste2010.ocorrencia_cidade == 'RIO DE JANEIRO'
dfsudeste2010.loc[filtro].total_recomendacoes.sum()

25

In [96]:
## total de recomendacoes por cidade
filtro = dfsudeste2010.total_recomendacoes > 0
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade']).total_recomendacoes.sum()

ocorrencia_cidade
BELO HORIZONTE            2
BOITUVA                   1
BOM JESUS DO GALHO        1
BRAGANÇA PAULISTA         9
CAMANDUCAIA               9
IPERÓ                     3
ITANHAÉM                  1
JUNDIAÍ                   7
NOVO HORIZONTE            3
RESENDE                   8
RIO DE JANEIRO           25
SÃO BERNARDO DO CAMPO     2
SÃO PAULO                41
TIMÓTEO                   3
Name: total_recomendacoes, dtype: int64

In [97]:
# Agrupar dentro das cidades por mes
dfsudeste2010.loc[filtro].groupby(['ocorrencia_cidade', dfsudeste2010.ocorrencia_dia.dt.month]).total_recomendacoes.sum()

ocorrencia_cidade      ocorrencia_dia
BELO HORIZONTE         2                  1
                       3                  1
BOITUVA                7                  1
BOM JESUS DO GALHO     12                 1
BRAGANÇA PAULISTA      11                 9
CAMANDUCAIA            7                  9
IPERÓ                  1                  3
ITANHAÉM               9                  1
JUNDIAÍ                5                  5
                       6                  2
NOVO HORIZONTE         7                  3
RESENDE                4                  8
RIO DE JANEIRO         4                  3
                       7                  3
                       8                 19
SÃO BERNARDO DO CAMPO  1                  2
SÃO PAULO              1                  8
                       2                 14
                       6                  2
                       11                 6
                       12                11
TIMÓTEO                2              