# Limpeza de Dados

## Remoção de Dados Ausentes (Missing Data)

In [None]:
import pandas as pd
import numpy as np

# Criando um DataFrame de exemplo
data = {'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela'],
        'Idade': [25, np.nan, 30, np.nan],
        'Peso': [70, 82, 65, 55]}

df = pd.DataFrame(data)
print("Dados originais:\n", df)

# Substituição de valores ausentes pela média
df.fillna(df['Idade'].mean(), inplace=True)

# Arredondando a coluna Idade para duas casas decimais
df['Idade'] = df['Idade'].round(2)
print("\nApós substituição da média (com 2 casas decimais) na coluna Idade:\n", df)


Dados originais:
       Nome  Idade  Peso
0      Ana   25.0    70
1    Bruno    NaN    82
2   Carlos   30.0    65
3  Daniela    NaN    55

Após substituição da média (com 2 casas decimais) na coluna Idade:
       Nome  Idade  Peso
0      Ana   25.0    70
1    Bruno   27.5    82
2   Carlos   30.0    65
3  Daniela   27.5    55


## Tratamento de Dados Duplicados

In [None]:
# Criando um DataFrame com valores duplicados
data_dup = {'Nome': ['Ana', 'Bruno', 'Carlos', 'Bruno'],
            'Idade': [25, 22, 30, 22],
            'Peso': [70, 82, 65, 82]}

df_dup = pd.DataFrame(data_dup)
print("\nDados com duplicatas:\n", df_dup)

# Removendo duplicados
df_clean = df_dup.drop_duplicates()
print("\nApós remoção de duplicatas:\n", df_clean)


Dados com duplicatas:
      Nome  Idade  Peso
0     Ana     25    70
1   Bruno     22    82
2  Carlos     30    65
3   Bruno     22    82

Após remoção de duplicatas:
      Nome  Idade  Peso
0     Ana     25    70
1   Bruno     22    82
2  Carlos     30    65


## Correção de Erros



In [None]:
# Criando um DataFrame com possíveis erros
data_err = {'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela'],
            'Idade': [25, 22, 150, -5],
            'Peso': [70, 82, 65, 55]}

df_err = pd.DataFrame(data_err)
print("\nDados com possíveis erros:\n", df_err)

# Corrigindo valores fora do intervalo esperado
df_err.loc[df_err['Idade'] > 120, 'Idade'] = np.nan  # Substituindo por NaN idades > 120
df_err.loc[df_err['Idade'] < 0, 'Idade'] = np.nan    # Substituindo por NaN idades < 0
print("\nApós correção de erros na coluna Idade:\n", df_err)


Dados com possíveis erros:
       Nome  Idade  Peso
0      Ana     25    70
1    Bruno     22    82
2   Carlos    150    65
3  Daniela     -5    55

Após correção de erros na coluna Idade:
       Nome  Idade  Peso
0      Ana   25.0    70
1    Bruno   22.0    82
2   Carlos    NaN    65
3  Daniela    NaN    55


# Normalização e Padronização

## Min-Max Scaling

In [None]:
from sklearn.preprocessing import MinMaxScaler
import pandas as pd

data = {'Salario': [50000, 62000, 70000, 56000, 10000, 25000, 16000, 18000, 90000, 45000]}
df = pd.DataFrame(data)

scaler = MinMaxScaler()
df['Salario_normalizado'] = scaler.fit_transform(df[['Salario']])
print(df)

   Salario  Salario_normalizado
0    50000               0.5000
1    62000               0.6500
2    70000               0.7500
3    56000               0.5750
4    10000               0.0000
5    25000               0.1875
6    16000               0.0750
7    18000               0.1000
8    90000               1.0000
9    45000               0.4375


## Z-score Normalization (Padronização)

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
df['Salario_padronizado'] = scaler.fit_transform(df[['Salario']])
print(df)

   Salario  Salario_normalizado  Salario_padronizado
0    50000               0.5000             0.231563
1    62000               0.6500             0.710660
2    70000               0.7500             1.030057
3    56000               0.5750             0.471111
4    10000               0.0000            -1.365425
5    25000               0.1875            -0.766554
6    16000               0.0750            -1.125876
7    18000               0.1000            -1.046027
8    90000               1.0000             1.828551
9    45000               0.4375             0.031940


# Tratamentode outliers

In [None]:
import pandas as pd
import numpy as np
from scipy import stats

# Criando um DataFrame de exemplo
data_outliers = {'Nome': ['Ana', 'Bruno', 'Carlos', 'Daniela', 'Eduardo'],
                 'Idade': [25, 22, 30, 27, 100],
                 'Peso': [70, 82, 65, 55, 85]}

df_outliers = pd.DataFrame(data_outliers)

# Calculando o Z-score para a coluna 'Idade'
df_outliers['Z_score_Idade'] = stats.zscore(df_outliers['Idade'])

print("Dados originais com Z-Score")
print(df_outliers)

# Filtrando os outliers com base no Z-score (> 1.5 ou < -1.5)
outliers = df_outliers[(df_outliers['Z_score_Idade'] > 1.5) | (df_outliers['Z_score_Idade'] < -1.5)]
print("\nOutliers detectados\n", outliers)

Dados originais com Z-Score
      Nome  Idade  Peso  Z_score_Idade
0      Ana     25    70      -0.531724
1    Bruno     22    82      -0.632685
2   Carlos     30    65      -0.363457
3  Daniela     27    55      -0.464417
4  Eduardo    100    85       1.992284

Outliers detectados
       Nome  Idade  Peso  Z_score_Idade
4  Eduardo    100    85       1.992284


# Exercício: Limpeza de Dados

In [None]:
import pandas as pd
import numpy as np

# Dados de exemplo com problemas
data = {
    'Nome': ['Alice', 'Bruno', 'Carlos', 'Daniela', 'Eduardo', 'Fernanda', 'Bruno', 'Gustavo', 'Heloisa', 'Igor',
             'Joana', 'Karina', 'Laura', 'Marcelo', 'Nina', 'Bruno', 'Otavio', 'Paula', 'Quintino', 'Rafaela'],
    'Idade': [25, np.nan, 45, -2, 30, 31, 45, 28, np.nan, 26, 40, -1, 23, 36, np.nan, 33, 50, 29, 24, 32],
    'Salario': [50000, 62000, 70000, np.nan, 52000, 51000, 62000, 45000, 48000, np.nan, 55000, 57000, 49000,
                60000, np.nan, 62000, 73000, 51000, np.nan, 61000],
    'Cidade': ['São Paulo', 'Rio de Janeiro', 'São Paulo', 'Rio de Janeiro', 'São Paulo', 'São Paulo',
               'Rio de Janeiro', 'Brasília', 'São Paulo', 'São Paulo', 'Rio de Janeiro', 'São Paulo',
               'São Paulo', 'Brasília', 'Rio de Janeiro', 'Rio de Janeiro', 'Brasília', 'São Paulo',
               'São Paulo', 'Rio de Janeiro']
}

df = pd.DataFrame(data)
print("Dados originais:")
print(df)


Dados originais:
        Nome  Idade  Salario          Cidade
0      Alice   25.0  50000.0       São Paulo
1      Bruno    NaN  62000.0  Rio de Janeiro
2     Carlos   45.0  70000.0       São Paulo
3    Daniela   -2.0      NaN  Rio de Janeiro
4    Eduardo   30.0  52000.0       São Paulo
5   Fernanda   31.0  51000.0       São Paulo
6      Bruno   45.0  62000.0  Rio de Janeiro
7    Gustavo   28.0  45000.0        Brasília
8    Heloisa    NaN  48000.0       São Paulo
9       Igor   26.0      NaN       São Paulo
10     Joana   40.0  55000.0  Rio de Janeiro
11    Karina   -1.0  57000.0       São Paulo
12     Laura   23.0  49000.0       São Paulo
13   Marcelo   36.0  60000.0        Brasília
14      Nina    NaN      NaN  Rio de Janeiro
15     Bruno   33.0  62000.0  Rio de Janeiro
16    Otavio   50.0  73000.0        Brasília
17     Paula   29.0  51000.0       São Paulo
18  Quintino   24.0      NaN       São Paulo
19   Rafaela   32.0  61000.0  Rio de Janeiro


## Tratar valores ausentes


*  Substituir os valores ausentes na coluna Idade pela média das idades válidas.

* Substituir os valores ausentes na coluna Salario pela mediana dos salários.



In [None]:
# Criando um df separado para não alterar o original
df_tratado = df.copy()

# A PARTE ABAIXO FOI COMENTADA POIS INTERFERE NA MÉDIA QUE É NECESSÁRIA NO FINAL
# Substituir os valores ausentes na coluna Idade pela média das idades válidas.
#df_tratado['Idade'] = df_tratado['Idade'].fillna(df_tratado['Idade'].mean())
# Arredondando a coluna Idade para duas casas decimais
#df_tratado['Idade'] = df_tratado['Idade'].round(2)

# Substituir os valores ausentes na coluna Salario pela mediana dos salários.
df_tratado['Salario'] = df_tratado['Salario'].fillna(df_tratado['Salario'].median())

# Arredondando a coluna Salario para duas casas decimais
df_tratado['Salario'] = df_tratado['Salario'].round(2)

## Corrigir valores incorretos
* A coluna Idade contém valores negativos, o que é incorreto. Substitua esses valores pela média das idades válidas.

In [None]:
# Iremos considerar a idade os valores entre 0 e 100
df_tratado.loc[df_tratado['Idade'] > 100, 'Idade'] = np.nan  # Substituindo por NaN idades > 100
df_tratado.loc[df_tratado['Idade'] < 0, 'Idade'] = np.nan  # Substituindo por NaN idades < 0

# Calculando a média das idades válidas

# Agora iremos refazer a parte de substituir valores ausentes da Idade
# Substituir os valores ausentes na coluna Idade pela média das idades válidas.
df_tratado['Idade'] = df_tratado['Idade'].fillna(df_tratado['Idade'].mean())

# Arredondando a coluna Idade para duas casas decimais
df_tratado['Idade'] = df_tratado['Idade'].round(1)


Dados tratados:
        Nome  Idade  Salario          Cidade
0      Alice   25.0  50000.0       São Paulo
1      Bruno   33.1  62000.0  Rio de Janeiro
2     Carlos   45.0  70000.0       São Paulo
3    Daniela   33.1  56000.0  Rio de Janeiro
4    Eduardo   30.0  52000.0       São Paulo
5   Fernanda   31.0  51000.0       São Paulo
6      Bruno   45.0  62000.0  Rio de Janeiro
7    Gustavo   28.0  45000.0        Brasília
8    Heloisa   33.1  48000.0       São Paulo
9       Igor   26.0  56000.0       São Paulo
10     Joana   40.0  55000.0  Rio de Janeiro
11    Karina   33.1  57000.0       São Paulo
12     Laura   23.0  49000.0       São Paulo
13   Marcelo   36.0  60000.0        Brasília
14      Nina   33.1  56000.0  Rio de Janeiro
15     Bruno   33.0  62000.0  Rio de Janeiro
16    Otavio   50.0  73000.0        Brasília
17     Paula   29.0  51000.0       São Paulo
18  Quintino   24.0  56000.0       São Paulo
19   Rafaela   32.0  61000.0  Rio de Janeiro


## Remover duplicatas
* Verifique se há funcionários duplicados com base no nome e remova os registros duplicados, mantendo apenas o primeiro.

In [None]:
# Removendo as duplicadas com base apenas na coluna Nome
df_tratado = df_tratado.drop_duplicates(subset=['Nome'])


Dados tratados:
        Nome  Idade  Salario          Cidade
0      Alice   25.0  50000.0       São Paulo
1      Bruno   33.1  62000.0  Rio de Janeiro
2     Carlos   45.0  70000.0       São Paulo
3    Daniela   33.1  56000.0  Rio de Janeiro
4    Eduardo   30.0  52000.0       São Paulo
5   Fernanda   31.0  51000.0       São Paulo
7    Gustavo   28.0  45000.0        Brasília
8    Heloisa   33.1  48000.0       São Paulo
9       Igor   26.0  56000.0       São Paulo
10     Joana   40.0  55000.0  Rio de Janeiro
11    Karina   33.1  57000.0       São Paulo
12     Laura   23.0  49000.0       São Paulo
13   Marcelo   36.0  60000.0        Brasília
14      Nina   33.1  56000.0  Rio de Janeiro
16    Otavio   50.0  73000.0        Brasília
17     Paula   29.0  51000.0       São Paulo
18  Quintino   24.0  56000.0       São Paulo
19   Rafaela   32.0  61000.0  Rio de Janeiro


## Comparando os dados

In [None]:
print("Dados originais:\n", df)
print("\nDados tratados:\n", df_tratado)

Dados originais:
         Nome  Idade  Salario          Cidade
0      Alice   25.0  50000.0       São Paulo
1      Bruno    NaN  62000.0  Rio de Janeiro
2     Carlos   45.0  70000.0       São Paulo
3    Daniela   -2.0      NaN  Rio de Janeiro
4    Eduardo   30.0  52000.0       São Paulo
5   Fernanda   31.0  51000.0       São Paulo
6      Bruno   45.0  62000.0  Rio de Janeiro
7    Gustavo   28.0  45000.0        Brasília
8    Heloisa    NaN  48000.0       São Paulo
9       Igor   26.0      NaN       São Paulo
10     Joana   40.0  55000.0  Rio de Janeiro
11    Karina   -1.0  57000.0       São Paulo
12     Laura   23.0  49000.0       São Paulo
13   Marcelo   36.0  60000.0        Brasília
14      Nina    NaN      NaN  Rio de Janeiro
15     Bruno   33.0  62000.0  Rio de Janeiro
16    Otavio   50.0  73000.0        Brasília
17     Paula   29.0  51000.0       São Paulo
18  Quintino   24.0      NaN       São Paulo
19   Rafaela   32.0  61000.0  Rio de Janeiro

Dados tratados:
         Nome  Idade