# 🧰 Notebook Utilitário – Canivete Suíço para Pré-processamento de Dados
Este notebook contém exemplos e utilitários para aplicar todas as etapas de pré-processamento necessárias nos projetos da disciplina de Mineração de Dados.

## 📁 Importação de Bibliotecas Essenciais

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import MinMaxScaler, StandardScaler, KBinsDiscretizer, LabelEncoder

pd.set_option('display.max_columns', None)
sns.set(style='whitegrid')
print("Bibliotecas carregadas com sucesso.")

## 📂 Leitura de Dataset (.csv)

In [None]:
from google.colab import files

uploaded = files.upload()
for fn in uploaded.keys():
    df = pd.read_csv(fn)

df.head()

## 🧼 Limpeza de Dados

In [None]:
# Ver valores ausentes
print("Valores ausentes:")
print(df.isnull().sum())

# Eliminar valores ausentes
# df = df.dropna()

# Preencher com média, mediana ou moda
# df['coluna'] = df['coluna'].fillna(df['coluna'].mean())

In [None]:
# Verificar duplicatas
print("Duplicatas:", df.duplicated().sum())

# Remover duplicatas
# df = df.drop_duplicates()

## 🔗 Integração de Dados (Join)

In [None]:
# df_outro = pd.read_csv("outro_dataset.csv")
# df = pd.merge(df, df_outro, how='left', on='id_comum')

## 🧹 Redução de Dados

In [None]:
# Remoção de atributos irrelevantes
# df = df.drop(columns=['coluna1', 'coluna2'])

# Amostragem
# df_sample = df.sample(frac=0.1, random_state=42)
# df_sample.head()

## 🔄 Transformação de Dados

In [None]:
# Padronização de texto
# df['coluna_texto'] = df['coluna_texto'].str.lower().str.strip()

In [None]:
# Normalização Min-Max
# scaler = MinMaxScaler()
# df[['coluna_numerica']] = scaler.fit_transform(df[['coluna_numerica']])

In [None]:
# Normalização Z-Score
# scaler = StandardScaler()
# df[['coluna_numerica']] = scaler.fit_transform(df[['coluna_numerica']])

## 🔢 Discretização de Dados Contínuos

In [None]:
# Discretização por faixa (binning)
# discretizer = KBinsDiscretizer(n_bins=4, encode='ordinal', strategy='uniform')
# df['coluna_discretizada'] = discretizer.fit_transform(df[['coluna_numerica']])
# df['coluna_discretizada'] = df['coluna_discretizada'].astype(int)

## 🔠 Codificação de Variáveis Categóricas

In [None]:
# Label Encoding
# le = LabelEncoder()
# df['coluna_label'] = le.fit_transform(df['coluna_categorica'])

# One-Hot Encoding
# df = pd.get_dummies(df, columns=['coluna_categorica'])

## 📊 Visualização Exploratória

In [None]:
# df['coluna_categorica'].value_counts().plot(kind='bar')
# sns.boxplot(x='coluna_categorica', y='coluna_numerica', data=df)
# sns.heatmap(df.corr(numeric_only=True), annot=True, cmap='coolwarm')

## ✅ Checklist Final

In [None]:
print("""Checklist:
[ ] Dados carregados
[ ] Limpeza realizada
[ ] Dados normalizados/discretizados
[ ] Variáveis categóricas codificadas
[ ] Pronto para mineração de dados!""")