In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import MinMaxScaler, StandardScaler

In [None]:
# Simulando um DataFrame com problemas
df = pd.DataFrame({
    'nome': ['Ana', 'João', 'ana', 'Maroa', 'JOÃO'],
    'idade': [25, 30, np.nan, 22, np.nan],
    'salario': [3000, 4000, np.nan, 2800, 999999],
    'cidade': ['São Paulo', 'sao paulo', 'São Paulo', np.nan, 'RIO']
})

print('Original: ')
print(df)

Original: 
    nome  idade   salario     cidade
0    Ana   25.0    3000.0  São Paulo
1   João   30.0    4000.0  sao paulo
2    ana    NaN       NaN  São Paulo
3  Maroa   22.0    2800.0        NaN
4   JOÃO    NaN  999999.0        RIO


In [None]:
# Limpeza de Dados

# Padronizar
df['nome'] = df['nome'].str.strip().str.lower()
df['cidade'] = df['cidade'].str.strip().str.lower()

# Remover Duplicados
df = df.drop_duplicates()
print('Limpeza de Dados: ')
print(df)

Limpeza de Dados: 
    nome  idade   salario     cidade
0    ana   25.0    3000.0  são paulo
1   joão   30.0    4000.0  sao paulo
2    ana    NaN       NaN  são paulo
3  maroa   22.0    2800.0        NaN
4   joão    NaN  999999.0        rio


In [None]:
# Preencher valores nulos
df['idade'] = df['idade'].fillna(df['idade'].mean())
df['cidade'] = df['cidade'].fillna('desconhecido')


Após limpeza:
    nome      idade   salario        cidade
0    ana  25.000000    3000.0     são paulo
1   joão  30.000000    4000.0     sao paulo
2    ana  25.666667       NaN     são paulo
3  maroa  22.000000    2800.0  desconhecido
4   joão  25.666667  999999.0           rio


In [None]:
# Normalização e Padronização

# Normalização (0 a 1)
scaler_norm = MinMaxScaler()
df['salario_normalizado'] = scaler_norm.fit_transform(df[['salario']])

In [None]:
# Padronização (z-score)
scaler_std = StandardScaler()
df['salario_padronizado'] = scaler_std.fit_transform(df[['salario']])

In [None]:
print("\nCom colunas normalizadas e padronizadas:")
print(df[['salario', 'salario_normalizado', 'salario_padronizado']])


Com colunas normalizadas e padronizadas:
    salario  salario_normalizado  salario_padronizado
0    3000.0             0.000201            -0.577968
1    4000.0             0.001203            -0.575651
2       NaN                  NaN                  NaN
3    2800.0             0.000000            -0.578431
4  999999.0             1.000000             1.732050


In [None]:
# Visualiza valores ausentes
print(df.isnull())

    nome  idade  salario  cidade  salario_normalizado  salario_padronizado
0  False  False    False   False                False                False
1  False  False    False   False                False                False
2  False  False     True   False                 True                 True
3  False  False    False   False                False                False
4  False  False    False   False                False                False


In [None]:
# Total por coluna
print(df.isnull().sum())

nome                   0
idade                  0
salario                1
cidade                 0
salario_normalizado    1
salario_padronizado    1
dtype: int64


In [None]:
# Percentual
print(df.isnull().sum() / len(df) * 100)

nome                    0.0
idade                   0.0
salario                20.0
cidade                  0.0
salario_normalizado    20.0
salario_padronizado    20.0
dtype: float64


In [None]:
# Preencher com média
df['idade'] = df['idade'].fillna(df['idade'].mean())
print(df['idade'])

0    25.000000
1    30.000000
2    25.666667
3    22.000000
4    25.666667
Name: idade, dtype: float64


In [None]:
# Preencher com mediana
df['salario'] = df['salario'].fillna(df['salario'].median())
print(df['salario'])

0      3000.0
1      4000.0
2      3500.0
3      2800.0
4    999999.0
Name: salario, dtype: float64


In [None]:
# Preencher com valor fixo em coluna categórica
df['cidade'] = df['cidade'].fillna('desconhecido')
print(df['cidade'])

0       são paulo
1       sao paulo
2       são paulo
3    desconhecido
4             rio
Name: cidade, dtype: object


In [None]:
# Remove linhas com qualquer NaN