# FUNDAMENTOS DE ETL COM PYTHON - FERNANDO TIOSSO - DIO

## 3 - Limpeza dos Dados

#### Carregar os Dados:

In [45]:
import pandas as pd
df = pd.read_csv("ocorrencia.csv", sep=",", parse_dates=['ocorrencia_dia'], dayfirst=True)

### 3.1 - Manipulação de Células, Colunas e Linhas do Dataframe

#### Manipular uma ***Célula Específica*** do Dataframe:

In [46]:
df.loc[1, 'ocorrencia_cidade']
# df - dataframe
# .loc - função que obtém o dado da célula a ser manipulada
# 1 - índice da linha onde está o dado
# 'ocorrencia_cidade' - título da coluna onde está o dado

'GUARULHOS'

#### Retornar todos os Dados de uma ***Linha Específica***:

In [47]:
df.loc[3]
# df - dataframe
# .loc - função que obtém e retorna os dados da linha
# 3 - índice da linha no dataframe

codigo_ocorrencia                         45401
codigo_ocorrencia2                        45401
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                 SÃO SEBASTIÃO
ocorrencia_uf                                SP
ocorrencia_aerodromo                       ****
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        17:00:00
total_recomendacoes                         0.0
Name: 3, dtype: object

#### Retornando Dados de um ***Intervalo de Linhas***:

In [48]:
df.loc[1:3]
# df - dataframe
# .loc - função que retornará os dados das linhas
# 1:3 - intervalo de linhas a terem seus dados retornados

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0


#### Obter Dados de ***Linhas Específicas Não Subsequêntes***:

In [49]:
df.loc[[10,40]]
# df - dataframe
# .loc - função que retornará os dados das linhas
# [10,40] - array com os números das linhas a terem seus dados retornados

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
10,45332,45332,ACIDENTE,VIAMÃO,RS,****,2012-01-09,13:30:00,0.0
40,45415,45415,ACIDENTE,RIO DE JANEIRO,RJ,****,2012-01-30,13:55:00,0.0


#### Obter Dados de uma ***Coluna Específica***:

In [50]:
df.loc[:,'ocorrencia_cidade']
# df -dataframe
# .loc - função que retornará os dados da coluna
# :, - indica todas as linhas do dataframe
# 'ocorrencia_cidade' - indica a coluna a ser buscada

0        PORTO ALEGRE
1           GUARULHOS
2              VIAMÃO
3       SÃO SEBASTIÃO
4            SÃO SEPÉ
            ...      
5163          MARACAÍ
5164    NOVO HAMBURGO
5165         CURITIBA
5166        PETROLINA
5167        PETROLINA
Name: ocorrencia_cidade, Length: 5168, dtype: object

#### Retornar os Dados de ***Linhas Específicas de uma Coluna Específica***:

In [51]:
df.loc[1:5, 'ocorrencia_cidade']
# df - dataframe
# .loc - função que retornará os dados do intervalo
# 1:5 - intervalo de linhas a ser buscado
# 'ocorrencia_cidade' - coluna a ser buscada

1        GUARULHOS
2           VIAMÃO
3    SÃO SEBASTIÃO
4         SÃO SEPÉ
5          UBATUBA
Name: ocorrencia_cidade, dtype: object

#### Retornar os Dados de ***Mais de uma Coluna Específica***:

In [52]:
df.loc[:,['ocorrencia_cidade', 'ocorrencia_uf']]
# df - dataframe
# .loc - função que retornará os dados
# :, - indica todas as linhas
# ['ocorrencia_cidade', 'ocorrencia_uf] - especifica as colunas a serem buscadas

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
0,PORTO ALEGRE,RS
1,GUARULHOS,SP
2,VIAMÃO,RS
3,SÃO SEBASTIÃO,SP
4,SÃO SEPÉ,RS
...,...,...
5163,MARACAÍ,SP
5164,NOVO HAMBURGO,RS
5165,CURITIBA,PR
5166,PETROLINA,PE


### Retornar dados de ***Linhas Específicas de Colunas Específicas***:

In [53]:
df.loc[[10,15,20], ['ocorrencia_cidade','ocorrencia_uf']]
# df - dataframe
# .loc - função que retornará os dados
# [10,15,20] - lista de linhas a serem buscadas
# ['ocorrencia_cidade','ocorrencia_uf'] - lista de colunas a serem retornadas

Unnamed: 0,ocorrencia_cidade,ocorrencia_uf
10,VIAMÃO,RS
15,CÁCERES,MT
20,BELO HORIZONTE,MG


### 3.2 - Alterar os Labels das Linhas

#### Verificar se uma Coluna tem Valores Únicos para ser utilizada como Label:

In [54]:
df.codigo_ocorrencia.is_unique
# df - dataframe
# .codigo_ocorrencia - coluna a ser verificada
# .is_unique - função que verifica os valores únicos na coluna
# se a função retornar o valor "True" é porque a coluna possui valores únicos para cada linha

False

#### Definor uma Coluna como Label para as Linhas:

In [55]:
df.set_index('codigo_ocorrencia')
# df - dataframe
# .set_index - função que tornará a coluna em label para as linhas
# 'codigo_ocorrencia' - coluna que se tornará label das linhas
# Para a coluna se tornar Label para as linhas ela precisa ter valores únicos para cada linha - conforme verificado na instrução anterior

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0
45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0
...,...,...,...,...,...,...,...,...
80452,80452,ACIDENTE,MARACAÍ,SP,*****,2021-12-31,9:30:00,0.0
80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


In [56]:
df.head()
# os labels numéricos irão aparecer porque a alteração não foi efetivada

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0


#### Efitivar a Alteração dos Labels com o ***Parâmetro inplace=True***:

In [57]:
df.set_index('codigo_ocorrencia', inplace=True)
# incluindo o parâmetro inplace=True na instrução fará com que a alteração dos Labels seja efetivada

In [58]:
df.head()
# agora que a alteração foi efetivada, a coluna codigo_ocorrencia aparecerá como label das linhas

Unnamed: 0_level_0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
codigo_ocorrencia,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
45333,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0
45407,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0


#### Localizar Dados com os ***Valores da Coluna Convertida em Labels***:

In [59]:
df.loc[52242]
# 52242 - valor da coluna convertiva como label da linha a ser verificada

codigo_ocorrencia2                        52242
ocorrencia_classificacao              INCIDENTE
ocorrencia_cidade                  PORTO ALEGRE
ocorrencia_uf                                RS
ocorrencia_aerodromo                       SBPA
ocorrencia_dia              2012-01-05 00:00:00
ocorrencia_hora                        20:27:00
total_recomendacoes                         0.0
Name: 52242, dtype: object

#### Remover a ***Coluna como Label*** e retornar para os ***Labels Originais***:

In [60]:
df.reset_index(drop=True, inplace=True)
# df - dataframe
# .reset_index - função que retorna o dataframe para os labels iniciais
# drop=True - remove os labels atuais
# inplace=True - efetiva a alteração no dataframe

In [61]:
df.head()
# exibirá o dataframe com seus labels de linha originais

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,ACIDENTE,VIAMÃO,RS,****,2012-01-06,13:00:00,0.0
3,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0
4,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0


### 3.3 - Fazer Alterações nos Dados

#### Substituir o ***Valor de uma Célula*** por um ***Valor Vazio***:

In [62]:
df.loc[2,'ocorrencia_aerodromo'] = ''
# df - dataframe
# .loc - função que localiza os dados
# 2 - linha do dado
# 'ocorrencia_aerodromo' - coluna do dado
# '' - valor vazio

In [63]:
df.loc[2]
# carregando os dados dessa linha, o campo 'ocorrencia_aerodromo' deverá estar vazio

codigo_ocorrencia2                        45333
ocorrencia_classificacao               ACIDENTE
ocorrencia_cidade                        VIAMÃO
ocorrencia_uf                                RS
ocorrencia_aerodromo                           
ocorrencia_dia              2012-01-06 00:00:00
ocorrencia_hora                        13:00:00
total_recomendacoes                         0.0
Name: 2, dtype: object

#### Fazer ***Backup de uma Coluna*** antes de alterá-la:

In [64]:
df['ocorrencia_uf_bkp'] = df.ocorrencia_uf
# df - dataframe
# 'ocorrencia_ud_bkp' - nome da coluna backup a ser criada - gera uma nova coluna no dataframe
# df.ocorrencia_uf - dados da coluna da qual será feito o backup

In [65]:
df.head()
# deverá aparecer a coluna bakcup no dataframe

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0,RS
1,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0,SP
2,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0,RS
3,45401,ACIDENTE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0,SP
4,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0,RS


#### ***Alterar Dados de uma Coluna*** mediante uma ***Condição***:

In [66]:
df.loc[df.ocorrencia_uf == 'SP', ['ocorrencia_classificacao']] = 'GRAVE'
# df - dataframe
# .loc - função que localiza os dados
# df.ocorrencia_uf == 'SP' - condição para os dados das linhas serem alterados - corresponde a referência da linha - busca a condição em outra coluna
# ['ocorrencia_classificacao'] - coluna onde os dados das linhas serão alterados
# 'GRAVE' - valor que será alterado nas linhas que atenderem à condição

In [67]:
df.head()
# A linhas onde o campo ocorrencia_uf forem iguais a SP deverão ter o valor GRAVE na coluna ocorrencia_classificacao

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
0,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0,RS
1,45331,GRAVE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0,SP
2,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0,RS
3,45401,GRAVE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0,SP
4,45407,ACIDENTE,SÃO SEPÉ,RS,****,2012-01-06,16:30:00,0.0,RS


#### ***Filtrar os Dados*** mediante uma ***Condição***:

In [68]:
df.loc[df.ocorrencia_uf == 'SP']
# df - dataframe
# .loc - função que busca os dados
# df.ocorrencia_uf - campo da linha onde os dados deverão atender à condição do filtro
# == 'SP' - condição a ser atendida
# após a alteração acima, todas as linhas desse filtro deverão ter o valor GRAVE na coluna ocorrencia_classificacao

Unnamed: 0,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,ocorrencia_uf_bkp
1,45331,GRAVE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0,SP
3,45401,GRAVE,SÃO SEBASTIÃO,SP,****,2012-01-06,17:00:00,0.0,SP
5,52243,GRAVE,UBATUBA,SP,****,2012-01-06,14:30:00,0.0,SP
6,50713,GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0,SP
13,45408,GRAVE,ELDORADO,SP,****,2012-01-11,13:45:00,1.0,SP
...,...,...,...,...,...,...,...,...,...
5148,80441,GRAVE,BRAGANÇA PAULISTA,SP,SDVH,2021-12-20,18:15:00,0.0,SP
5157,80453,GRAVE,CAMPINAS,SP,SBKP,2021-12-29,9:00:00,0.0,SP
5158,80454,GRAVE,ARAÇATUBA,SP,SBAU,2021-12-29,21:35:00,0.0,SP
5161,80456,GRAVE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0.0,SP


### 3.4 - Limpeza dos Dados

In [69]:
df = pd.read_csv("ocorrencia.csv", sep=",", parse_dates=['ocorrencia_dia'], dayfirst=True)

Dados que verão ser limpos:
- ocorrencia_uf - **
- ocorrencia_aerodromo - ###!, ####, ****, *****
- ocorrencia_hora - NULL(escrito)

> Todos esses dados significam dados que não foram informados.

#### Limpar ***todas as linhas*** com um ***mesmo valor inválido***:

In [70]:
df.loc[df.ocorrencia_aerodromo == '****', ['ocorrencia_aerodromo']] = pd.NA
# df - dataframe
# .loc - função que busca os dados
# df.ocorrencia_aerodromo - campo onde serão buscadas as linhas com a condição especificada - linhas com os valores inválidos as serem substituídos
# === '****' - condição a ser atendida pelas linhas para serem filtradas - o valor inválido a ser alterado
# [ocorrencia_aerodromo] - coluna onde os dados serão alterados - coluna com os valores inválidos
# pd.NA - atributo do Pandas a ser atribuído nas linhas com valores inválidos - significa 'valor ausente'

In [71]:
df.head()
#deverá mostrar as celulas com os valores substituídos por <NA>

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0


#### Limpar ***todas as células com valores inválidos*** no ***dataframe como um todo***:

In [72]:
df.replace(["**", "###!", "####", "*****", "NULL", "NÃO IDENTIFICADA", ""], pd.NA, inplace=True)
# df - dataframe
# .replace - função que faz a alteração dos valores em todo o dataframe
# ["**", "", "###!", "####", "*****", "NULL"] - lista/array com os valores inválidos a serem substituídos
# pd.NA - valor que substituirá os valores inválidos nas células localizadas
# inplace=True - efetiva as alterações no dataframe

In [73]:
df
# exibirá o dataframe com os valores substituídos

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


#### Verificar os ***Dados não Informados*** no dataframe - ***NA***:

##### Exibe no Dataframe os Dados não Informados como "True":

In [74]:
df.isna()
# df - dataframe
# .isna - função que busca os dados não informados

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,False,False,False,False,False,False,False,False,False
1,False,False,False,False,False,False,False,False,False
2,False,False,False,False,False,True,False,False,False
3,False,False,False,False,False,True,False,False,False
4,False,False,False,False,False,True,False,False,False
...,...,...,...,...,...,...,...,...,...
5163,False,False,False,False,False,True,False,False,False
5164,False,False,False,False,False,False,False,False,False
5165,False,False,False,False,False,False,False,False,False
5166,False,False,False,False,False,False,False,False,False


##### Sumariza o Total de Dados não Informados por Coluna:

In [75]:
df.isna().sum()
# df - dataframe
# .isna() - busca os dados não informados no dataframe
# .sum() - soma os dados não informados em cada coluna

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade             23
ocorrencia_uf                 19
ocorrencia_aerodromo        1914
ocorrencia_dia                17
ocorrencia_hora               18
total_recomendacoes           17
dtype: int64

##### Sumariza o Total de Dados Não Informados (NA) e Em branco (NULL) no Dataframe:

In [76]:
df.isnull().sum()
# df - dataframe
# .isnull() - identifica os dados ausentes (NA) e em branco (NULL) no dataframe
# .sum() - totaliza o total de dados ausentes e em banco de cada coluna

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade             23
ocorrencia_uf                 19
ocorrencia_aerodromo        1914
ocorrencia_dia                17
ocorrencia_hora               18
total_recomendacoes           17
dtype: int64

##### substituir os Valores não informados (NA) em uma Coluna Específica:

In [77]:
df.fillna(value={'total_recomendacoes': 0}, inplace=True)
# df - dataframe
# .fillna - função que executa as alterações nas células com valor NA
# value= parâmetro que especifica onde as alterações serão feitas
# 'total_recomendacoes' - coluna onde os valores NA serão alterados
# 0 - valor que substituirá os valores NA
# inplace=True - efetiva as alterações no dataframe

In [78]:
df.loc[:,'total_recomendacoes']
# verifica os valores da coluna

0       0.0
1       3.0
2       0.0
3       0.0
4       0.0
       ... 
5163    0.0
5164    0.0
5165    0.0
5166    0.0
5167    0.0
Name: total_recomendacoes, Length: 5168, dtype: float64

In [79]:
df.isnull().sum()
# verifica se as alterações dos valores NA foram efetivadas - a coluna total_recomendacoes deverá vir com valor 0

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade             23
ocorrencia_uf                 19
ocorrencia_aerodromo        1914
ocorrencia_dia                17
ocorrencia_hora               18
total_recomendacoes            0
dtype: int64

#### Manipulação de Colunas:

##### Criar uma Nova Coluna:

In [80]:
df['total_recomendacoes_bkp'] = df.total_recomendacoes
# df - dataframe
# 'total_recomendacoes_bkp' - nome da nova coluna
# df.total_recomendacoes - origem dos dados da nova coluna  

In [81]:
df.head()
# a nova coluna aparecerá na última posição horizontal do dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes,total_recomendacoes_bkp
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0,0.0


##### Excluir uma Coluna:

In [82]:
df.drop(['total_recomendacoes_bkp'], axis=1, inplace=True)
# df - dataframe
# .drop - função exclui as colunas especificadas
# ['total_recomendacoes_bkp'] - lista com o nome das colunas a serem excluídas
# axis=1 - altera para o eixo horizontal - colunas
# inplace=True - efetiva a exclusão da coluna no dataframe

In [83]:
df.head()
# a coluna já não será exibida no dataframe

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0


#### Excluir Linhas com Valores NA:

##### Verificar quais colunas tem valores NA:

In [84]:
df.isnull().sum()

codigo_ocorrencia              0
codigo_ocorrencia2             0
ocorrencia_classificacao       0
ocorrencia_cidade             23
ocorrencia_uf                 19
ocorrencia_aerodromo        1914
ocorrencia_dia                17
ocorrencia_hora               18
total_recomendacoes            0
dtype: int64

##### Excluir as Linhas verificando Valores NA em 1 Coluna:

In [85]:
df.dropna(subset=['ocorrencia_dia'], inplace=True)
# df - dataframe
# .dropna - função que exclui as linhas/registros com valores NA
# subset=['ocorrencia_dia'] - especifica em quais linhas serão verificados os valores Na
# inplace=True - efetiva a exclusão das linhas no dataframe

In [86]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
2,45333,45333,ACIDENTE,VIAMÃO,RS,,2012-01-06,13:00:00,0.0
3,45401,45401,ACIDENTE,SÃO SEBASTIÃO,SP,,2012-01-06,17:00:00,0.0
4,45407,45407,ACIDENTE,SÃO SEPÉ,RS,,2012-01-06,16:30:00,0.0
...,...,...,...,...,...,...,...,...,...
5163,80452,80452,ACIDENTE,MARACAÍ,SP,,2021-12-31,9:30:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


##### Excluir Todas as Linhas com Valores NA no Dataframe:

In [87]:
df.dropna(inplace=True)
# df - dataframe
# .dropna - função que localizará os valores NA e excluirá as linhas
# inplace=True - efetivas a exclusão das linhas no dataframe

In [88]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
7,45334,45334,INCIDENTE,BELÉM,PA,SBBE,2012-01-08,19:12:00,0.0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0.0
...,...,...,...,...,...,...,...,...,...
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
5166,80467,80467,INCIDENTE,PETROLINA,PE,SBPL,2021-12-31,20:30:00,0.0


#### Remoção de Linhas Duplicadas no Dataframe:

In [89]:
df.drop_duplicates(inplace=True)
# df - dataframe
# .drop_duplicates - função que localiza e exclui as linhas duplicadas no dataframe
# inplace=True - efetiva a exclusão das linhas no dataframe

In [90]:
df

Unnamed: 0,codigo_ocorrencia,codigo_ocorrencia2,ocorrencia_classificacao,ocorrencia_cidade,ocorrencia_uf,ocorrencia_aerodromo,ocorrencia_dia,ocorrencia_hora,total_recomendacoes
0,52242,52242,INCIDENTE,PORTO ALEGRE,RS,SBPA,2012-01-05,20:27:00,0.0
1,45331,45331,ACIDENTE,GUARULHOS,SP,SBGR,2012-01-06,13:44:00,3.0
6,50713,50713,INCIDENTE GRAVE,CAMPINAS,SP,SDAI,2012-01-07,18:15:00,0.0
7,45334,45334,INCIDENTE,BELÉM,PA,SBBE,2012-01-08,19:12:00,0.0
9,52244,52244,INCIDENTE,UBERLÂNDIA,MG,SBUL,2012-01-08,22:13:00,0.0
...,...,...,...,...,...,...,...,...,...
5160,80451,80451,INCIDENTE,MANAUS,AM,SBEG,2021-12-30,14:41:00,0.0
5161,80456,80456,INCIDENTE,SÃO PAULO,SP,SBSP,2021-12-30,13:15:00,0.0
5164,80457,80457,INCIDENTE GRAVE,NOVO HAMBURGO,RS,SSNH,2021-12-31,11:59:00,0.0
5165,80460,80460,INCIDENTE,CURITIBA,PR,SBBI,2021-12-31,15:12:00,0.0
