In [None]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# Caminho do arquivo CSV
caminho_arquivo_csv = 'DataSet.csv'

# Carregamento dos dados
df = pd.read_csv(caminho_arquivo_csv)

print("Carregamento dos dados:")
print()
print(df.to_string(index=False, max_rows=10, max_cols=7))
print()
print()

# Limpeza dos Dados:

# 1. Tratamento de Valores Ausentes
df['Nome'].fillna('Desconhecido', inplace=True)
df['Idade'].fillna(df['Idade'].mean(), inplace=True)
df['Email'].fillna('email_desconhecido@example.com', inplace=True)
df['Categoria'].fillna('Desconhecido', inplace=True)

# 2. Remoção de Duplicatas
df.drop_duplicates(inplace=True)

# 3. Normalização de Strings (emails para minúsculas)
df['Email'] = df['Email'].str.lower()

# 4. Codificação One-Hot para Variáveis Categóricas
df_one_hot = pd.get_dummies(df, columns=['Categoria'], prefix='Cat', drop_first=True)

# 5. Normalização dos Valores Numéricos (MinMaxScaler para a coluna 'Idade')
scaler = MinMaxScaler()
df_one_hot['Idade_Normalizada'] = scaler.fit_transform(df_one_hot[['Idade']])

# O DataFrame limpo e preparado está pronto para ser usado

print("Limpeza dos dados com coluna da idade original:")
print()
print(df_one_hot.to_string(index=False, max_rows=10, max_cols=7))
print()
print()

# O DataFrame limpo e preparado está pronto para ser usado sem a coluna da idade
df_one_hot.drop('Idade', axis=1, inplace=True)

print("Limpeza dos dados sem a coluna da idade original:")
print()
print(df_one_hot.to_string(index=False, max_rows=10, max_cols=7))
print()
print()


Carregamento dos dados:

  Nome  Idade              Email Categoria
   Ana   25.0                NaN         A
 Bruno   30.0  bruno@example.com         B
Carlos    NaN carlos@example.net         A
   NaN   45.0  diana@example.org         C
   Eva   35.0    eva@example.com         B
 Fábio   40.0  fabio@example.net         C
  Gina    NaN                NaN       NaN
  Hugo   50.0   hugo@example.org         B
  Inês   45.0   ines@example.com       NaN
 Bruno   30.0  bruno@example.com         B


Limpeza dos dados com coluna da idade original:

        Nome  Idade                          Email  Cat_B  Cat_C  Cat_Desconhecido  Idade_Normalizada
         Ana   25.0 email_desconhecido@example.com      0      0                 0                0.0
       Bruno   30.0              bruno@example.com      1      0                 0                0.2
      Carlos   37.5             carlos@example.net      0      0                 0                0.5
Desconhecido   45.0              diana@exam