# Extração e Limpeza em um projeto de ETL usando Python

## Importando os dados do csv

In [2]:
# Importando as bibliotecas
import pandas as pd
import pandera as pa # Biblioteca de validação estatística para pandas

In [3]:
# Importando o dataframe e já realizando alguns tratamentos, como parse dos campos com datas
df = pd.read_csv("ocorrencia.csv", sep = ";", parse_dates = ['ocorrencia_dia'], dayfirst = True)
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


In [4]:
# Tipos dos dados
df.dtypes

codigo_ocorrencia                          int64
codigo_ocorrencia1                         int64
codigo_ocorrencia2                         int64
codigo_ocorrencia3                         int64
codigo_ocorrencia4                         int64
ocorrencia_classificacao                  object
ocorrencia_latitude                       object
ocorrencia_longitude                      object
ocorrencia_cidade                         object
ocorrencia_uf                             object
ocorrencia_pais                           object
ocorrencia_aerodromo                      object
ocorrencia_dia                    datetime64[ns]
ocorrencia_hora                           object
investigacao_aeronave_liberada            object
investigacao_status                       object
divulgacao_relatorio_numero               object
divulgacao_relatorio_publicado            object
divulgacao_dia_publicacao                 object
total_recomendacoes                        int64
total_aeronaves_envo

In [5]:
# Vendo as 10 primeiras linhas
df.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
5,39807,39807,39807,39807,39807,INCIDENTE,***,***,SALVADOR,BA,...,2010-01-06,17:53:00,***,,,NÃO,,0,1,NÃO
6,40215,40215,40215,40215,40215,INCIDENTE,***,***,COARI,AM,...,2010-01-07,18:40:00,SIM,FINALIZADA,,NÃO,,0,1,SIM
7,39707,39707,39707,39707,39707,INCIDENTE GRAVE,-6.5319444444,-64.3805555556,CANUTAMA,AM,...,2010-01-09,12:30:00,SIM,FINALIZADA,IG-028/CENIPA/2011,SIM,2011-07-21,3,1,NÃO
8,39156,39156,39156,39156,39156,INCIDENTE GRAVE,-15.2402777778,-59.3541666667,CASCAVEL,PR,...,2010-01-10,23:15:00,SIM,FINALIZADA,I-004/CENIPA/2011,SIM,2011-06-30,2,1,NÃO
9,39711,39711,39711,39711,39711,INCIDENTE GRAVE,***,***,PARÁ DE MINAS,MG,...,2010-01-10,20:00:00,***,,,NÃO,,0,1,NÃO


## Validação dos dados usando pandera

In [6]:
# Vamos criar um schema que com regras para realizar validação dos valores do nosso dataframe
# Para isso vamos usar a biblioteca pandera 
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'codigo_ocorrencia2' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_cidade' : pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String),
        'ocorrencia_aerodromo' : pa.Column(pa.String),
        'ocorrencia_dia' : pa.Column(pa.DateTime),
        'ocorrencia_hora' : pa.Column(pa.String),
        'total_recomendacoes' : pa.Column(pa.Int)
    }
)

In [7]:
# Definido o schema acima vamos validar nosso dataframe
# Caso a função não lance um erro significa que a validação deu certo
try:
    schema.validate(df)
    print("Deu certo!!!")
except Exception:
    print("Deu errado!!!")

Deu errado!!!


In [8]:
# Acima obtivemos um erro na validação da hora, pois ela contém valores nulos
# Para resolver isso basta fazer uma pequena mudança em nosso schema
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'codigo_ocorrencia2' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_cidade' : pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String),
        'ocorrencia_aerodromo' : pa.Column(pa.String),
        'ocorrencia_dia' : pa.Column(pa.DateTime),
        'ocorrencia_hora' : pa.Column(pa.String, nullable = True),
        'total_recomendacoes' : pa.Column(pa.Int)
    }
)

In [9]:
# Agora, vamos tentar rodar nossa validação de novo
try:
    schema.validate(df)
    print("Deu certo!!!")
except Exception:
    print("Deu errado!!!")

Deu certo!!!


In [10]:
# Na hora de realizarmos a validação também podemos usar regex para verificar se os campos estão preenchidos de determinada maneira
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'codigo_ocorrencia2' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_cidade' : pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String),
        'ocorrencia_aerodromo' : pa.Column(pa.String),
        'ocorrencia_dia' : pa.Column(pa.DateTime),
        'ocorrencia_hora' : pa.Column(pa.String, pa.Check.str_matches(r"^(?:(?:([01]?\d|2[0-3]):)?([0-5]?\d):)?([0-5]?\d)$"), nullable = True),
        'total_recomendacoes' : pa.Column(pa.Int)
    }
)

In [11]:
# Testando
try:
    schema.validate(df)
    print("Deu certo!!!")
except Exception:
    print("Deu errado!!!")

Deu certo!!!


In [12]:
# Outra possibilidade na criação de validações por schema é o tamanho do dado
schema = pa.DataFrameSchema(
    columns = {
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'codigo_ocorrencia2' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_cidade' : pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String, pa.Check.str_length(2,3)), # Considerar águas internacionais
        'ocorrencia_aerodromo' : pa.Column(pa.String),
        'ocorrencia_dia' : pa.Column(pa.DateTime),
        'ocorrencia_hora' : pa.Column(pa.String, pa.Check.str_matches(r"^(?:(?:([01]?\d|2[0-3]):)?([0-5]?\d):)?([0-5]?\d)$"), nullable = True),
        'total_recomendacoes' : pa.Column(pa.Int)
    }
)

In [13]:
# Testando
try:
    schema.validate(df)
    print("Deu certo!!!")
except Exception:
    print("Deu errado!!!")

Deu certo!!!


In [14]:
# Podemos ainda colocar uma coluna como não obrigatória usando required
schema = pa.DataFrameSchema(
    columns = {
        'codigo' : pa.Column(pa.Int, required = False),
        'codigo_ocorrencia' : pa.Column(pa.Int),
        'codigo_ocorrencia2' : pa.Column(pa.Int),
        'ocorrencia_classificacao' : pa.Column(pa.String),
        'ocorrencia_cidade' : pa.Column(pa.String),
        'ocorrencia_uf' : pa.Column(pa.String, pa.Check.str_length(2,3)), # Considerar águas internacionais
        'ocorrencia_aerodromo' : pa.Column(pa.String),
        'ocorrencia_dia' : pa.Column(pa.DateTime),
        'ocorrencia_hora' : pa.Column(pa.String, pa.Check.str_matches(r"^(?:(?:([01]?\d|2[0-3]):)?([0-5]?\d):)?([0-5]?\d)$"), nullable = True),
        'total_recomendacoes' : pa.Column(pa.Int)
    }
)

In [15]:
# Testando
try:
    schema.validate(df)
    print("Deu certo!!!")
except Exception:
    print("Deu errado!!!")

Deu certo!!!


## Limpeza dos dados

In [16]:
# Dando uma olhada nos dados
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6110,80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6111,80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6112,80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


In [17]:
# Verificando se todos os valores de uma coluna são únicos
df["codigo_ocorrencia"].is_unique

True

In [18]:
# Setando coluna com valores únicos como index do dataframe
df.set_index('codigo_ocorrencia', inplace = True)
df

Unnamed: 0_level_0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
40211,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
40349,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
40351,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
39527,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
40324,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
80245,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
80247,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
80251,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
80257,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


In [19]:
# Desfazendo a alteração de index
df.reset_index(drop = True, inplace= True)
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,...,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,INCIDENTE,***,***,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,12:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,...,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,...,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,...,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,...,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,...,2021-08-15,15:05:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6110,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,...,2021-08-16,02:30:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6111,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,...,2021-08-17,15:45:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO
6112,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,...,2021-08-18,16:00:00,SIM,FINALIZADA,***,NÃO,,0,1,NÃO


In [20]:
# Fazendo alteração para remover *** de uma coluna e substituir por string vazia
df.loc[df['ocorrencia_uf'] == '***', 'ocorrencia_uf'] = ''  

In [21]:
# Deslimitando a quantidade máxima de colunas mostradas
pd.options.display.max_columns = None

In [22]:
# Podemos alterar as strings indesejadas em todo o dataframe através da função replace, ao invés de digitarmos um por um
df.replace(['**', '###!', '####', '***', '****', '*****', 'NULL', None], pd.NA, inplace = True)
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,codigo_ocorrencia3,codigo_ocorrencia4,ocorrencia_classificacao,ocorrencia_latitude,ocorrencia_longitude,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,investigacao_aeronave_liberada,investigacao_status,divulgacao_relatorio_numero,divulgacao_relatorio_publicado,divulgacao_dia_publicacao,total_recomendacoes,total_aeronaves_envolvidas,ocorrencia_saida_pista
0,40211,40211,40211,40211,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
1,40349,40349,40349,40349,INCIDENTE,,,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
2,40351,40351,40351,40351,INCIDENTE,,,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
3,39527,39527,39527,39527,ACIDENTE,-13.1066666667,-55.9930555556,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,SIM,FINALIZADA,A-539/CENIPA/2018,SIM,2019-10-28,0,1,NÃO
4,40324,40324,40324,40324,INCIDENTE,,,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,80245,80245,INCIDENTE,-8.12638,-34.92277,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6110,80247,80247,80247,80247,INCIDENTE,-8.713611111111,-63.90277777777,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6111,80251,80251,80251,80251,INCIDENTE,-1.384722222222,-48.47888888888,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO
6112,80257,80257,80257,80257,ACIDENTE,-15.430833,-54.699722,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,SIM,FINALIZADA,,NÃO,,0,1,NÃO


In [23]:
# Vamos dropar algumas colunas
df.drop(columns= ['codigo_ocorrencia3', 'codigo_ocorrencia4', 'ocorrencia_latitude', 'ocorrencia_longitude', 'investigacao_aeronave_liberada',
'investigacao_status', 'divulgacao_relatorio_numero', 'divulgacao_relatorio_publicado', 'divulgacao_dia_publicacao', 'total_aeronaves_envolvidas',
'ocorrencia_saida_pista'], inplace = True)
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0


In [24]:
# Vamos contar quantas informações não foram informadas no dataframe através da função isna em conjunto com a função sum
df.isna().sum()

codigo_ocorrencia1             0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  0
ocorrencia_pais                0
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [25]:
# Uma alternativa pode ser preencher os dados vazios com um valor através da função fillna
# Abaixo temos um exemplo sem usar inplace
df.fillna(0).isna().sum()

codigo_ocorrencia1          0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_pais             0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

In [26]:
# Vamos substituir pontualmente o NA presente na coluna ocorrencia_hora
df.fillna(value = {'ocorrencia_hora' : '24:00:00'}, inplace = True)
df.isna().sum()

codigo_ocorrencia1             0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  0
ocorrencia_pais                0
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                0
total_recomendacoes            0
dtype: int64

In [27]:
# Uma outra possibilidade é excluir todas as linhas que possuam valores nulos, para fazer isso usamos a função dropna
# Segue exemplo sem inplace
df.dropna()

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
6,40215,40215,INCIDENTE,COARI,AM,BRASIL,SBUY,2010-01-07,18:40:00,0
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,BRASIL,SBCA,2010-01-10,23:15:00,2
...,...,...,...,...,...,...,...,...,...,...
6108,80244,80244,INCIDENTE,BRAGANÇA PAULISTA,SP,BRASIL,SBBP,2021-08-15,15:20:00,0
6109,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0


In [28]:
# Segue exemplo de dropna que só exclui as linhas onde ocorrencia_aerodromo é NA
df.dropna(subset = {'ocorrencia_aerodromo'})

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
6,40215,40215,INCIDENTE,COARI,AM,BRASIL,SBUY,2010-01-07,18:40:00,0
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,BRASIL,SBCA,2010-01-10,23:15:00,2
...,...,...,...,...,...,...,...,...,...,...
6108,80244,80244,INCIDENTE,BRAGANÇA PAULISTA,SP,BRASIL,SBBP,2021-08-15,15:20:00,0
6109,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0


In [29]:
# Também podemos remover duplicatas no dataframe
df.drop_duplicates(inplace = True)
df

Unnamed: 0,codigo_ocorrencia1,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_pais,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,BRASIL,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,BRASIL,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,BRASIL,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,BRASIL,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,BRASIL,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,BRASIL,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,BRASIL,,2021-08-18,16:00:00,0
