In [None]:
"""Importar bibliotecas e carregar o dataset"""
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregar o dataset
df = pd.read_csv('data.csv')

# Exibir as primeiras linhas e informações gerais para inspeção
print("Primeiras 5 linhas do dataset:")
print(df.head().to_markdown(index=False, numalign="left", stralign="left"))
print("\nInformações do dataset:")
df.info()

In [None]:
"""Pré-processamento dos dados"""

# Remover colunas desnecessárias
# 'id' é um identificador e 'Unnamed: 32' está vazia
df = df.drop(columns=['id', 'Unnamed: 32'])

# Codificar a coluna 'diagnosis' (variável alvo)
# 'M' (Maligno) será 1 e 'B' (Benigno) será 0
df['diagnosis'] = df['diagnosis'].map({'M': 1, 'B': 0})

# Separar features (X) e a variável alvo (y)
X = df.drop('diagnosis', axis=1)
y = df['diagnosis']

print("\nDataset após remoção de colunas e codificação da variável alvo:")
print(df.head().to_markdown(index=False, numalign="left", stralign="left"))
print(f"\nFormato de X (features): {X.shape}")
print(f"Formato de y (alvo): {y.shape}")

In [None]:
"""Dividir dados em treino e teste e escalar features"""

# Dividir o dataset em conjuntos de treino e teste (70% treino, 30% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Inicializar o StandardScaler para normalizar as features
# A normalização é importante para algoritmos baseados em distância como o KNN
scaler = StandardScaler()

# Ajustar o scaler aos dados de treino e transformar os dados de treino e teste
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.fit_transform(X_test)

print("\nDados de treino e teste após escalonamento:")
print(f"Formato de X_train_scaled: {X_train_scaled.shape}")
print(f"Formato de X_test_scaled: {X_test_scaled.shape}")

In [None]:
"""Treinar o modelo KNN"""

# Inicializar o classificador K-Nearest Neighbors
# n_neighbors = 5
knn = KNeighborsClassifier(n_neighbors=5)

# Treinar o modelo com os dados de treino escalonados
knn.fit(X_train_scaled, y_train)

print(f"\nModelo KNN treinado com n_neighbors={knn.n_neighbors}.")

In [None]:
"""Fazer previsões e avaliar o modelo"""

# Fazer previsões no conjunto de teste escalonado
y_pred = knn.predict(X_test_scaled)

# Calcular a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)

# Gerar a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)

# Gerar o relatório de classificação
class_report = classification_report(y_test, y_pred)

print(f"Acurácia do modelo KNN: {accuracy:.4f}")
print("\nMatriz de Confusão:")
print(conf_matrix)
print("\nRelatório de Classificação:")
print(class_report)