# Manipulação e correção de dados
***

A manipulação e correção de dados são tarefas fundamentais em análise de dados. Em muitos casos, é comum termos dados incompletos ou corrompidos em um conjunto de dados. Para lidar com esses problemas, o pandas oferece diversas funções, como isna, where, mask, dropna, fillna, drop_duplicates, e replace, que permitem limpar, transformar e corrigir os dados.

### Importação das bibliotecas


In [1]:
import numpy as np
import pandas as pd

### Criando  dataframe a partir de uma lista em Python

In [13]:
dados_vendas = [['Leandro', 32, 'Masculino', 'Arroz', 2, 10.50],
                ['Daniele', 26, 'Feminino', 'Carne', 3, 28.00],
                ['Pedro', 41, 'Masculino', 'Carne', np.nan, 25.00],
                ['Ana', 29, 'Feminino', 'Frango', 2, np.nan],
                ['Luiza', 23, 'Feminino', 'Leite', 4, 5.00],
                ['Paulo', np.nan, 'Masculino', 'Arroz', 1, 9.50],
                ['Fernanda', 36, 'Feminino', 'Feijão', 2, 8.00],
                ['Ricardo', 48, 'Masculino', 'Carne', 3, np.nan],
                ['Carlos', np.nan, 'Masculino', np.nan, 1, 15.00],
                ['João', 30, 'Feminino', 'Carne', 2, 25.00],
                ['Leandro', 32, 'Masculino', 'Arroz', 2, 10.50],
                ['Luiza', 23, 'Feminino', 'Frango', 4, 5.00],
               ] 

df = pd.DataFrame(dados_vendas, columns=['Cliente', 'Idade', 'Gênero', 'Produto', 'Quantidade', 'Valor_Unitário'])

In [14]:
df

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,Masculino,Carne,,25.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,
8,Carlos,,Masculino,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0


### Método isna
***
É utilizada para identificar valores faltantes em um dataframe. Ela retorna uma matriz booleana do mesmo tamanho do dataframe, em que cada elemento é True se o valor correspondente no dataframe for nulo (NaN) e False caso contrário.


In [16]:
df.isna()

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,True,False
3,False,False,False,False,False,True
4,False,False,False,False,False,False
5,False,True,False,False,False,False
6,False,False,False,False,False,False
7,False,False,False,False,False,True
8,False,True,False,True,False,False
9,False,False,False,False,False,False


#### Identificando as colunas que possuem dados ausentes

In [18]:
df.isna().sum()

Cliente           0
Idade             2
Gênero            0
Produto           1
Quantidade        1
Valor_Unitário    2
dtype: int64

### Método where
***
É uma forma de condicional do Pandas, similar ao if/else em outras linguagens de programação. Ela permite aplicar uma condição a um dataframe e, caso a condição seja verdadeira, retorna os valores do dataframe; caso contrário, retorna um valor específico (geralmente NaN). Essa função pode ser utilizada para filtrar dados, substituir valores ou criar novas colunas no dataframe.


In [23]:
df.where(df['Idade'] >= 10)

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,Masculino,Carne,,25.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,,,,,,
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,
8,,,,,,
9,João,30.0,Feminino,Carne,2.0,25.0


### Método mask
***
È um método similar ao where(), mas a lógica é invertida: ela retorna os valores do dataframe caso a condição seja falsa e NaN caso contrário. Ou seja, essa função pode ser utilizada para filtrar dados que não atendem a uma determinada condição.

In [27]:
df.mask(df['Idade'] >= 10)

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,,,,,,
1,,,,,,
2,,,,,,
3,,,,,,
4,,,,,,
5,Paulo,,Masculino,Arroz,1.0,9.5
6,,,,,,
7,,,,,,
8,Carlos,,Masculino,,1.0,15.0
9,,,,,,


O método mask e where do pandas são usados para aplicar uma máscara condicional em um DataFrame. Eles permitem substituir os valores do DataFrame com base em uma determinada condição booleana.

In [37]:
media_idade = np.mean(df['Idade'])
df['Idade'].where(df['Idade'] >= 10, media_idade)

0     32.0
1     26.0
2     41.0
3     29.0
4     23.0
5     32.0
6     36.0
7     48.0
8     32.0
9     30.0
10    32.0
11    23.0
Name: Idade, dtype: float64

In [55]:
df['Quantidade'].where(df['Quantidade'] >= 3, 'MENOR QUE 3')

0     MENOR QUE 3
1             3.0
2     MENOR QUE 3
3     MENOR QUE 3
4             4.0
5     MENOR QUE 3
6     MENOR QUE 3
7             3.0
8     MENOR QUE 3
9     MENOR QUE 3
10    MENOR QUE 3
11            4.0
Name: Quantidade, dtype: object

### Método dropna
***
O método dropna é uma das funções mais importantes do pandas quando se trata de lidar com dados faltantes em um conjunto de dados. Como o próprio nome sugere, ele permite que você elimine (drop) as linhas ou colunas que contêm valores ausentes ou nulos. É uma função muito útil para limpar e preparar dados para análise, pois dados faltantes podem comprometer a integridade das análises e modelos preditivos.

#### Eliminando todos os registros ausentes no dataframe

In [57]:
df_sem_faltantes = df.dropna()
df_sem_faltantes

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
4,Luiza,23.0,Feminino,Leite,4.0,5.0
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
9,João,30.0,Feminino,Carne,2.0,25.0
10,Leandro,32.0,Masculino,Arroz,2.0,10.5
11,Luiza,23.0,Feminino,Frango,4.0,5.0


#### Eliminando todos os registros ausentes da coluna específica

In [63]:
# Eliminando dados ausentes da coluna "Quantidade"
df.dropna(subset='Quantidade')

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,
8,Carlos,,Masculino,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0
10,Leandro,32.0,Masculino,Arroz,2.0,10.5


#### Eliminando todos os registros ausentes través de uma lista

In [64]:
# Eliminando dados ausentes das colunas "Quantidade" e "Valor_Unitário"
df.dropna(subset=['Quantidade','Valor_Unitário'])

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
8,Carlos,,Masculino,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0
10,Leandro,32.0,Masculino,Arroz,2.0,10.5
11,Luiza,23.0,Feminino,Frango,4.0,5.0


In [66]:
df

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,Masculino,Carne,,25.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,
8,Carlos,,Masculino,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0


### Método drop_duplicates
***
É utilizado para remover as linhas duplicadas em um DataFrame. Quando trabalhamos com grandes conjuntos de dados, é comum termos linhas duplicadas, o que pode levar a análises e resultados imprecisos. Com o drop_duplicates(), é possível remover essas duplicações e ter um DataFrame mais limpo e confiável para análise.

Ao utilizar o método drop_duplicates(), o Pandas irá verificar todas as colunas do DataFrame e remover as linhas que são completamente iguais em todas elas. É possível, também, especificar em quais colunas a verificação deve ser feita, utilizando o parâmetro subset.

In [80]:
duplicados = df.duplicated()
df[duplicados]

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
10,Leandro,32.0,Masculino,Arroz,2.0,10.5


In [81]:
df.query('Cliente == "Leandro"')

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
10,Leandro,32.0,Masculino,Arroz,2.0,10.5


In [67]:
df.drop_duplicates()

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,Masculino,Carne,,25.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,
8,Carlos,,Masculino,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0


### Método fillna
***
É utilizado para preencher valores ausentes ou faltantes em um dataframe. Esses valores faltantes podem ser gerados por diversas razões, como erros de registro, perda de informações ou mesmo falta de preenchimento. Esses valores ausentes podem atrapalhar a análise dos dados, pois podem distorcer as estatísticas descritivas e até mesmo prejudicar a validade das conclusões.

Ao utilizar o fillna, é possível substituir esses valores faltantes por outros valores, como a média dos valores da coluna, o valor anterior ou posterior, ou mesmo um valor arbitrário. Além disso, também é possível escolher entre preencher os valores faltantes apenas para uma coluna específica ou para todo o dataframe.

O fillna é uma ferramenta importante para garantir a qualidade dos dados e tornar a análise mais precisa e confiável.

In [83]:
df.fillna(9999)

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,Masculino,Carne,9999.0,25.0
3,Ana,29.0,Feminino,Frango,2.0,9999.0
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,9999.0,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,9999.0
8,Carlos,9999.0,Masculino,9999,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0


In [86]:
df['Quantidade'].fillna(value=999999, inplace=True)

In [87]:
df

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,Masculino,Arroz,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,Masculino,Carne,999999.0,25.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,Masculino,Arroz,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,Masculino,Carne,3.0,
8,Carlos,,Masculino,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0


### Método replace
***
É uma das principais ferramentas do Pandas para manipulação e correção de dados em dataframes. Ele permite substituir valores de uma ou mais colunas por novos valores de forma fácil e eficiente.

A função replace pode ser utilizada para corrigir valores incorretos, converter valores em tipos de dados diferentes, substituir valores nulos (NaN) ou para transformar uma string em outra.

In [89]:
df.replace({'Produto': {'Arroz': 'Macarrão'},
            'Gênero': {'Masculino' : 'M'}
           })

Unnamed: 0,Cliente,Idade,Gênero,Produto,Quantidade,Valor_Unitário
0,Leandro,32.0,M,Macarrão,2.0,10.5
1,Daniele,26.0,Feminino,Carne,3.0,28.0
2,Pedro,41.0,M,Carne,999999.0,25.0
3,Ana,29.0,Feminino,Frango,2.0,
4,Luiza,23.0,Feminino,Leite,4.0,5.0
5,Paulo,,M,Macarrão,1.0,9.5
6,Fernanda,36.0,Feminino,Feijão,2.0,8.0
7,Ricardo,48.0,M,Carne,3.0,
8,Carlos,,M,,1.0,15.0
9,João,30.0,Feminino,Carne,2.0,25.0
