
# 📊 Reproduzindo o Experimento do Capítulo 2.8 - Mineração de Dados

**Base:** Mammographic Mass Dataset  
**Fonte:** [UCI Machine Learning Repository](https://archive.ics.uci.edu/dataset/161/mammographic+mass)

Neste notebook, vamos reproduzir **todos os passos** do Capítulo 2.8 do livro "Introdução à Mineração de Dados", incluindo:  
✅ Carregamento dos dados  
✅ Análise de valores ausentes  
✅ Tratamento de inconsistências  
✅ Discretização  
✅ Transformação  
✅ Redução  
✅ Dataset final pronto para mineração


In [None]:

# Instalar bibliotecas se necessário
# !pip install pandas numpy matplotlib seaborn scikit-learn

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.impute import SimpleImputer
from sklearn.preprocessing import KBinsDiscretizer, MinMaxScaler


In [None]:

# 📥 Carregar o dataset

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/mammographic-masses/mammographic_masses.data"
columns = ["BI-RADS", "Age", "Shape", "Margin", "Density", "Severity"]

df = pd.read_csv(url, names=columns, na_values='?')

# Visualizar primeiras linhas
df.head()


In [None]:

# 🔍 Analisar valores ausentes

df.info()
df.isnull().sum()


In [None]:

# 🛠️ Imputar valores ausentes

imputer = SimpleImputer(strategy='most_frequent')
df_imputed = pd.DataFrame(imputer.fit_transform(df), columns=columns)

# Converter colunas numéricas de volta
for col in ["BI-RADS", "Age", "Shape", "Margin", "Density", "Severity"]:
    df_imputed[col] = pd.to_numeric(df_imputed[col])

df_imputed.isnull().sum()


In [None]:

# 📊 Estatísticas descritivas

df_imputed.describe()


In [None]:

# 🧩 Discretizar a idade em 3 faixas

kbd = KBinsDiscretizer(n_bins=3, encode='ordinal', strategy='uniform')
df_imputed['Age_binned'] = kbd.fit_transform(df_imputed[['Age']])

df_imputed[['Age', 'Age_binned']].head()


In [None]:

# 🔧 Normalizar os atributos numéricos

scaler = MinMaxScaler()
df_normalized = df_imputed.copy()
df_normalized[["Age", "BI-RADS"]] = scaler.fit_transform(df_normalized[["Age", "BI-RADS"]])

df_normalized.head()


In [None]:

# ✂️ Redução: Remover atributo não preditivo

df_reduced = df_normalized.drop(columns=['BI-RADS'])

df_reduced.head()


In [None]:

# ✅ Dataset final pronto para mineração

df_reduced.to_csv("mammographic_mass_preprocessed.csv", index=False)
print("Arquivo salvo como mammographic_mass_preprocessed.csv")

df_reduced.head()



## ✅ Conclusão

Reproduzimos com sucesso todas as etapas do Capítulo 2.8:  
- Carregamento e análise dos dados  
- Tratamento de valores ausentes  
- Discretização e transformação  
- Redução de atributos

O dataset final está pronto para ser utilizado em técnicas de **Mineração de Dados** como: classificação, clustering ou regras de associação.
