# Processo de Limpeza dos dados
##### Sempre perguntar para a pessoa que tem domínio do negócio, quais são os dados que podem ser classificados como não informados.


In [1]:
import pandas as pd

In [24]:
dataframe = pd.read_csv('ocorrencia_filtrados.csv', sep=';', parse_dates=['ocorrencia_dia'], dayfirst=True)
dataframe.head(10)

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


In [4]:
# Método loc extrai com parâmetros a linha e o nome da coluna que deseja extrair a informação
dataframe.loc[1,'ocorrencia_cidade']

'BELÉM'

In [5]:
# Pegar os dados de uma linha inteira
dataframe.loc[3]

codigo_ocorrencia                         39527
codigo_ocorrencia2                        39527
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade            LUCAS DO RIO VERDE
ocorrencia_uf                                MT
ocorrencia_aerodromo                       ****
ocorrencia_dia              2010-01-04 00:00:00
ocorrencia_hora                        17:30:00
total_recomendacoes                           0
Name: 3, dtype: object

In [6]:
# Trazer os dados de um rótulos de linhas
dataframe.loc[1:3]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0


In [7]:
# Trazer exatamente linhas específicas que estão separadas
dataframe.loc[[10,40]]

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,39789,39789,INCIDENTE,SÃO PEDRO DO SUL,RS,****,2010-01-10,21:30:00,0
40,39158,39158,INCIDENTE,BELÉM,PA,****,2010-01-28,16:00:00,0


In [8]:
# Trazer todos os dados de uma coluna
dataframe.loc[:,'ocorrencia_cidade']

0           RIO DE JANEIRO
1                    BELÉM
2           RIO DE JANEIRO
3       LUCAS DO RIO VERDE
4                  PELOTAS
               ...        
6109                RECIFE
6110           PORTO VELHO
6111                 BELÉM
6112            DOM AQUINO
6113              CAMPINAS
Name: ocorrencia_cidade, Length: 6114, dtype: object

In [9]:
# Saber se uma coluna tem valores únicos para cada linhas diferentes, ou seja se os dados não se repetem
dataframe.codigo_ocorrencia.is_unique

True

In [10]:
dataframe.ocorrencia_uf.is_unique

False

In [11]:
# Verificar uma coluna como índice do dataframe
# Isso não altera o dataframe
dataframe.set_index('codigo_ocorrencia')

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...
80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
80257,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18,16:00:00,0


In [12]:
# O método inplace, define a coluna informada como indice do dataframe
dataframe.set_index('codigo_ocorrencia', inplace=True)

In [13]:
dataframe.head(10)

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
39807,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
40215,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
39707,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
39156,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
39711,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


In [14]:
# Agora é possível utilizar o índico para obter mais performance nas pesquisas como padrão de busca no dataframe
dataframe.loc[40324]

codigo_ocorrencia2                        40324
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                       PELOTAS
ocorrencia_uf                                RS
ocorrencia_aerodromo                       SBPK
ocorrencia_dia              2010-01-05 00:00:00
ocorrencia_hora                        19:25:00
total_recomendacoes                           0
Name: 40324, dtype: object

In [15]:
# Retirar o indice do dataframe e retirá-lo da estrutura
dataframe.reset_index(drop=True, inplace=True)

In [16]:
dataframe.head(10)

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
5,39807,INCIDENTE,SALVADOR,BA,****,2010-01-06,17:53:00,0
6,40215,INCIDENTE,COARI,AM,SBUY,2010-01-07,18:40:00,0
7,39707,INCIDENTE GRAVE,CANUTAMA,AM,****,2010-01-09,12:30:00,3
8,39156,INCIDENTE GRAVE,CASCAVEL,PR,SBCA,2010-01-10,23:15:00,2
9,39711,INCIDENTE GRAVE,PARÁ DE MINAS,MG,****,2010-01-10,20:00:00,0


## Alterar os dados

In [17]:
dataframe.loc[0, 'ocorrencia_aerodromo'] = ''
dataframe.head(1)

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0


In [18]:
# CUIDADO. Como alterar os dados de uma linha inteira
dataframe.loc[1] = 20
dataframe.head(2)

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,0
1,20,20,20,20,20.0,20,20,20


In [19]:
# CUIDADO. ALterar dados de uma coluna inteira
dataframe.loc[:,'total_recomendacoes'] = 10
dataframe

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10
1,20,20,20,20,20,20,20,10
2,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10
...,...,...,...,...,...,...,...,...
6109,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15 00:00:00,15:05:00,10
6110,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16 00:00:00,02:30:00,10
6111,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17 00:00:00,15:45:00,10
6112,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18 00:00:00,16:00:00,10


In [21]:
# Fazer um backup da coluna antes de alterar criando uma nova coluna no dataframe
dataframe['ocorrencia_uf_bkp'] = dataframe.ocorrencia_uf
dataframe

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10,RJ
1,20,20,20,20,20,20,20,10,20
2,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10,RJ
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10,MT
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10,RS
...,...,...,...,...,...,...,...,...,...
6109,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15 00:00:00,15:05:00,10,PE
6110,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16 00:00:00,02:30:00,10,RO
6111,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17 00:00:00,15:45:00,10,PA
6112,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18 00:00:00,16:00:00,10,MT


In [22]:
# Alterar a classificacao de dados de acordo com algum resultado de outra coluna 
dataframe.loc[dataframe.ocorrencia_uf=='SP', ['ocorrencia_classificacao']] = 'GRAVE'
dataframe

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03 00:00:00,12:00:00,10,RJ
1,20,20,20,20,20,20,20,10,20
2,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03 00:00:00,03:00:00,10,RJ
3,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04 00:00:00,17:30:00,10,MT
4,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05 00:00:00,19:25:00,10,RS
...,...,...,...,...,...,...,...,...,...
6109,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15 00:00:00,15:05:00,10,PE
6110,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16 00:00:00,02:30:00,10,RO
6111,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17 00:00:00,15:45:00,10,PA
6112,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18 00:00:00,16:00:00,10,MT


In [23]:
dataframe.loc[dataframe.ocorrencia_uf=='SP']

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
11,40069,GRAVE,SÃO PAULO,SP,SBMT,2010-01-10 00:00:00,14:50:00,10,SP
16,39809,GRAVE,SÃO PAULO,SP,****,2010-01-15 00:00:00,15:00:00,10,SP
18,39828,GRAVE,SANTOS,SP,****,2010-01-15 00:00:00,17:45:00,10,SP
26,39847,GRAVE,SOROCABA,SP,****,2010-01-20 00:00:00,13:10:00,10,SP
27,39768,GRAVE,CAMPINAS,SP,****,2010-01-21 00:00:00,20:45:00,10,SP
...,...,...,...,...,...,...,...,...,...
6084,80234,GRAVE,SÃO PAULO,SP,SBSP,2021-07-26 00:00:00,13:20:00,10,SP
6085,80208,GRAVE,SÃO PAULO,SP,SBMT,2021-07-27 00:00:00,19:45:00,10,SP
6104,80238,GRAVE,VOTUPORANGA,SP,SDVG,2021-08-11 00:00:00,19:09:00,10,SP
6108,80244,GRAVE,BRAGANÇA PAULISTA,SP,SBBP,2021-08-15 00:00:00,15:20:00,10,SP


# Limpeza dos dados

## Dados a serem filtrados
    # Ocorrencia_uf
        #1. ***
    # ocorrencia_aerodromo
        #1. ###!
        #2. ####
        #3. ****
        #4. *****
    # ocorrencia_hora
        #1. NULL

In [26]:
# Antes de iniciar, execute o dataframe original da linha 2 e execute o comando para visualizar o dataframe original
dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,****,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,****,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,****,2021-08-18,16:00:00,0


In [27]:
# Definindo que uma coluna com aqueles tipos de caracteres receberá um valor não informado pela função nativa do pandas pd.NA
dataframe.loc[dataframe.ocorrencia_aerodromo == '****',['ocorrencia_aerodromo']] = pd.NA

In [28]:
dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0


In [30]:
# Utilizando a função replace para fazer alteração no dataframe inteiro
dataframe.replace(['***','###!','####','****','*****','NULL'], pd.NA, inplace=True)

In [31]:
dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,,2021-08-18,16:00:00,0


In [34]:
# Saber quantos dados não informados tem dentro do dataframe
dataframe.isna() # Entende de pd.NA é um dado padrão como dado não informado

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [35]:
dataframe.isna().sum() #Soma todos os dados não informados

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [36]:
dataframe.isnull().sum() #Soma todos os dados nulos/não informados

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade              0
ocorrencia_uf                  2
ocorrencia_aerodromo        2456
ocorrencia_dia                 0
ocorrencia_hora                1
total_recomendacoes            0
dtype: int64

In [40]:
# O método fillna insere um valor padrão para todos os dados não encontrados/nulos
# dataframe.fillna(0) # Altera apenas em tempo de visualização. Para alterar os dados na estrutura, incluir o parâmetro inplace
dataframe.fillna(0, inplace=True) 

In [41]:
dataframe.isna().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

In [42]:
dataframe.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,0,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [46]:
# Alterar o valor padrão para ALGUNS dados não encontrados/nulos
dataframe.replace([10], pd.NA, inplace=True)

In [47]:
dataframe.isna().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         2
dtype: int64

In [48]:
# Note que no retorno acima, a coluna total_recomendacoes havia dados com valor 10 que não deveria ter sido alterado.
# Como retornar com os valores originais apenas para essa coluna
dataframe.fillna(value={'total_recomendacoes':10}, inplace=True)

In [49]:
dataframe.isna().sum()

codigo_ocorrencia           0
codigo_ocorrencia2          0
ocorrencia_classificacao    0
ocorrencia_cidade           0
ocorrencia_uf               0
ocorrencia_aerodromo        0
ocorrencia_dia              0
ocorrencia_hora             0
total_recomendacoes         0
dtype: int64

In [50]:
# Criar um backup na coluna total_recomendacoes para fazer alterações
dataframe['total_recomendacoes_bkp'] = dataframe.total_recomendacoes

In [51]:
dataframe.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,total_recomendacoes_bkp
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,0,2010-01-03,12:00:00,0,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04,17:30:00,0,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0,0


In [52]:
# Como excluir coluna 
# Para expecificar a coluna, deve especificar o eixo com o método axis, por padrão o primeiro eixo é 0
dataframe.drop(['total_recomendacoes_bkp'], axis=1, inplace=True)

In [53]:
dataframe.head()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,0,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0


In [54]:
# Além de alterar os valores NA, também é possível excluir os valores NA. Ele exlcui a linha inteira
dataframe.dropna()

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,0,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,0,2021-08-18,16:00:00,0


In [55]:
# Excluir uma linha indicando a coluna que contém o valor NA
dataframe.dropna(subset=['ocorrencia_uf'])

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,0,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,0,2021-08-18,16:00:00,0


In [58]:
# Exluir os valores de linhas duplicadas
dataframe.drop_duplicates(inplace=True)

In [59]:
dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,40211,40211,INCIDENTE,RIO DE JANEIRO,RJ,0,2010-01-03,12:00:00,0
1,40349,40349,INCIDENTE,BELÉM,PA,SBBE,2010-01-03,11:05:00,0
2,40351,40351,INCIDENTE,RIO DE JANEIRO,RJ,SBRJ,2010-01-03,03:00:00,0
3,39527,39527,ACIDENTE,LUCAS DO RIO VERDE,MT,0,2010-01-04,17:30:00,0
4,40324,40324,INCIDENTE,PELOTAS,RS,SBPK,2010-01-05,19:25:00,0
...,...,...,...,...,...,...,...,...,...
6109,80245,80245,INCIDENTE,RECIFE,PE,SBRF,2021-08-15,15:05:00,0
6110,80247,80247,INCIDENTE,PORTO VELHO,RO,SBPV,2021-08-16,02:30:00,0
6111,80251,80251,INCIDENTE,BELÉM,PA,SBBE,2021-08-17,15:45:00,0
6112,80257,80257,ACIDENTE,DOM AQUINO,MT,0,2021-08-18,16:00:00,0


In [None]:
# No mundo dos dados, dados inválidos são conhecidos como: Nine In Values ou NaN(Not a Numeric)