
# Inteligência Artificial: Model LifeCycle TP2 - Breast Cancer Wisconsin


In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LinearRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, r2_score, mean_squared_error


## Carregamento e Pré-processamento dos Dados

In [None]:

data = load_breast_cancer()
X = pd.DataFrame(data.data, columns=data.feature_names)
y = data.target

X.head()


## Separação de dados para Classificação

In [None]:

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)


## Treinamento e Avaliação do Modelo KNN

In [None]:

knn = KNeighborsClassifier(n_neighbors=5)
knn.fit(X_train_scaled, y_train)

y_pred = knn.predict(X_test_scaled)

acc = accuracy_score(y_test, y_pred)
print(f"Acurácia: {acc:.4f}")

cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues')
plt.xlabel('Predito')
plt.ylabel('Real')
plt.title('Matriz de Confusão')
plt.show()


## Análise da Performance com Variação de K

In [None]:

k_values = range(1, 21)
accuracies = []

for k in k_values:
    knn = KNeighborsClassifier(n_neighbors=k)
    knn.fit(X_train_scaled, y_train)
    y_pred = knn.predict(X_test_scaled)
    accuracies.append(accuracy_score(y_test, y_pred))

plt.plot(k_values, accuracies, marker='o')
plt.xlabel('K')
plt.ylabel('Acurácia')
plt.title('Acurácia vs K')
plt.show()


## Geração de Dados Sintéticos com Ruído

In [None]:

noise = np.random.normal(0, 0.1, X.shape)
X_synthetic = X + noise

X_augmented = pd.concat([X, pd.DataFrame(X_synthetic, columns=X.columns)])
y_augmented = np.concatenate([y, y])

print("Dados aumentados:")
print(X_augmented.shape)


## Separação de dados para Regressão

In [None]:

y_reg = X['mean area']

X_reg = X.drop(columns=['mean area'])

X_train_reg, X_test_reg, y_train_reg, y_test_reg = train_test_split(X_reg, y_reg, test_size=0.2, random_state=42)

X_train_reg_scaled = scaler.fit_transform(X_train_reg)
X_test_reg_scaled = scaler.transform(X_test_reg)


## Treinamento e Avaliação do Modelo de Regressão Linear

In [None]:

lr = LinearRegression()
lr.fit(X_train_reg_scaled, y_train_reg)

y_pred_reg = lr.predict(X_test_reg_scaled)

r2 = r2_score(y_test_reg, y_pred_reg)
print(f"R²: {r2:.4f}")

plt.scatter(y_test_reg, y_pred_reg, alpha=0.7)
plt.xlabel('Valor Real')
plt.ylabel('Valor Predito')
plt.title('Dispersão: Real vs Predito')
plt.show()

residuos = y_test_reg - y_pred_reg
sns.histplot(residuos, kde=True)
plt.xlabel('Resíduo')
plt.title('Histograma dos Resíduos')
plt.show()


## Conclusão


- O modelo KNN apresentou boa acurácia, mas sua performance varia conforme o valor de K.
- A geração de dados sintéticos permite aumentar a base de dados, porém com certeza deve se ter cuidado.
- A regressão linear foi avaliada através do R² e análise dos resíduos.
