In [1]:
# Instalação e importação de Bibliotecas
# pip install pandas scikit-learn

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# Carregar os dados e renomear as colunas
data = pd.read_csv("C:/Users/ana_v/OneDrive/Área de Trabalho/GitHub/breastcancer-classification/Wisconsin Repository/wdbc.csv", header=None)
col_names = ["ID", "Diagnosis", "radius1", "texture1", "perimeter1", "area1",
             "smoothness1", "compactness1", "concavity1", "concave_points1",
             "symmetry1", "fractal_dimension1", "radius2", "texture2",
             "perimeter2", "area2", "smoothness2", "compactness2", "concavity2",
             "concave_points2", "symmetry2", "fractal_dimension2", "radius3",
             "texture3", "perimeter3", "area3", "smoothness3", "compactness3",
             "concavity3", "concave_points3", "symmetry3", "fractal_dimension3"]
data.columns = col_names

# Selecionar dados para o modelo
data_model = data.drop(columns=["ID"])
data_model['Diagnosis'] = data_model['Diagnosis'].map({'M': 1, 'B': 0}) 

# Dividir os dados em treino e teste
train_data, test_data = train_test_split(data_model, test_size=0.2, random_state=123)
X_train = train_data.drop(columns=["Diagnosis"])
y_train = train_data["Diagnosis"]
X_test = test_data.drop(columns=["Diagnosis"])
y_test = test_data["Diagnosis"]

# Treinar o modelo SVM com parâmetros padrão
model_svm = SVC(random_state=123)
model_svm.fit(X_train, y_train)

# Fazer previsões usando o modelo SVM no conjunto de teste
predictions_svm = model_svm.predict(X_test)

# Avaliar o desempenho do modelo SVM
print("\nResultados do SVM:")
print("Matriz de Confusão:\n", confusion_matrix(y_test, predictions_svm))
print("Acurácia:", accuracy_score(y_test, predictions_svm))
print("Precisão:", precision_score(y_test, predictions_svm))
print("Recall:", recall_score(y_test, predictions_svm))
print("F1 Score:", f1_score(y_test, predictions_svm))

# Treinar e avaliar o modelo Random Forest
model_rf = RandomForestClassifier(random_state=123)
model_rf.fit(X_train, y_train)

# Fazer previsões usando o modelo Random Forest no conjunto de teste
predictions_rf = model_rf.predict(X_test)

# Avaliar o desempenho do modelo Random Forest
print("\nResultados do Random Forest:")
print("Matriz de Confusão:\n", confusion_matrix(y_test, predictions_rf))
print("Acurácia:", accuracy_score(y_test, predictions_rf))
print("Precisão:", precision_score(y_test, predictions_rf))
print("Recall:", recall_score(y_test, predictions_rf))
print("F1 Score:", f1_score(y_test, predictions_rf))

# Treinar e avaliar o modelo de Regressão Logística
model_lr = LogisticRegression(max_iter=10000, random_state=123)
model_lr.fit(X_train, y_train)

# Fazer previsões usando o modelo de Regressão Logística no conjunto de teste
predictions_lr = model_lr.predict(X_test)

# Avaliar o desempenho do modelo de Regressão Logística
print("\nResultados da Regressão Logística:")
print("Matriz de Confusão:\n", confusion_matrix(y_test, predictions_lr))
print("Acurácia:", accuracy_score(y_test, predictions_lr))
print("Precisão:", precision_score(y_test, predictions_lr))
print("Recall:", recall_score(y_test, predictions_lr))
print("F1 Score:", f1_score(y_test, predictions_lr))



Resultados do SVM:
Matriz de Confusão:
 [[73  0]
 [ 8 33]]
Acurácia: 0.9298245614035088
Precisão: 1.0
Recall: 0.8048780487804879
F1 Score: 0.8918918918918919

Resultados do Random Forest:
Matriz de Confusão:
 [[73  0]
 [ 1 40]]
Acurácia: 0.9912280701754386
Precisão: 1.0
Recall: 0.975609756097561
F1 Score: 0.9876543209876543

Resultados da Regressão Logística:
Matriz de Confusão:
 [[73  0]
 [ 2 39]]
Acurácia: 0.9824561403508771
Precisão: 1.0
Recall: 0.9512195121951219
F1 Score: 0.975
