In [None]:
# CARREGANDO OS DADOS
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# Carregar o dataset
data = load_breast_cancer()
X = data.data  # Features
y = data.target  # Labels (0 = benigno, 1 = maligno)
feature_names = data.feature_names  # Nomes das features

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Padronizar as features (importante para regressão logística)
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
# TREINANDO E VERIFICANDO ACURÁCIA
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# Treinar o modelo
model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Avaliar a acurácia
y_pred = model.predict(X_test)
acuracia = accuracy_score(y_test, y_pred)
print(f"Acurácia do modelo: {acuracia:.4f}")

Acurácia do modelo: 0.9825


In [4]:
#VERIFICando as features importantes
import pandas as pd
import numpy as np

# Coeficientes do modelo
coeficientes = model.coef_[0]

# Criar um DataFrame para visualização
importancias = pd.DataFrame({
    "Feature": feature_names,
    "Coeficiente": coeficientes,
    "Importância Absoluta": np.abs(coeficientes)
})

# Ordenar por importância absoluta
importancias = importancias.sort_values(by="Importância Absoluta", ascending=False)
print(importancias)

                    Feature  Coeficiente  Importância Absoluta
21            worst texture    -1.291134              1.291134
10             radius error    -1.244185              1.244185
28           worst symmetry    -1.202497              1.202497
7       mean concave points    -1.103646              1.103646
26          worst concavity    -0.974874              0.974874
13               area error    -0.868623              0.868623
20             worst radius    -0.814530              0.814530
27     worst concave points    -0.808050              0.808050
23               worst area    -0.774047              0.774047
6            mean concavity    -0.747674              0.747674
19  fractal dimension error     0.694861              0.694861
5          mean compactness     0.622023              0.622023
12          perimeter error    -0.611111              0.611111
15        compactness error     0.600753              0.600753
22          worst perimeter    -0.537369              0

In [None]:
#ENCONTRANDO PROTOTIPOS - INSTÂNCIAS SEMELHANTES NO DATASET
from sklearn.neighbors import NearestNeighbors

# Encontrar protótipos para uma instância de teste
knn = NearestNeighbors(n_neighbors=5)
knn.fit(X_train)

# Escolher uma instância de teste para explicar
instancia_teste = X_test[0].reshape(1, -1)

# Encontrar os 5 vizinhos mais próximos no conjunto de treino
distancias, indices = knn.kneighbors(instancia_teste)

# Exibir as instâncias semelhantes
print("Instância de teste:")
print(pd.DataFrame(instancia_teste, columns=feature_names))

print("\nInstâncias semelhantes no treino:")
for i in indices[0]:
    print(pd.DataFrame(X_train[i].reshape(1, -1), columns=feature_names))

Instância de teste:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0    -0.483132     -0.132858       -0.460297  -0.496272         0.268255   

   mean compactness  mean concavity  mean concave points  mean symmetry  \
0          0.048819       -0.103177            -0.271603       0.454285   

   mean fractal dimension  ...  worst radius  worst texture  worst perimeter  \
0                0.147266  ...     -0.274805      -0.144019        -0.342412   

   worst area  worst smoothness  worst compactness  worst concavity  \
0   -0.357781          0.470899          -0.076033        -0.007133   

   worst concave points  worst symmetry  worst fractal dimension  
0             -0.193383         0.21048                 0.226487  

[1 rows x 30 columns]

Instâncias semelhantes no treino:
   mean radius  mean texture  mean perimeter  mean area  mean smoothness  \
0    -0.131985      -0.11385       -0.145362  -0.247677         0.232616   

   mean compactness  mean c

In [6]:
# Explicação para a instância de teste
print(f"Explicação para a instância de teste (classe prevista: {model.predict(instancia_teste)[0]}):")

# Features mais importantes
print("\nFeatures mais importantes para a decisão:")
print(importancias.head(10))

# Instâncias semelhantes
print("\nInstâncias semelhantes no treino:")
for i in indices[0]:
    print(f"Classe: {y_train[i]}, Distância: {distancias[0][i]:.4f}")
    print(pd.DataFrame(X_train[i].reshape(1, -1), columns=feature_names))

Explicação para a instância de teste (classe prevista: 1):

Features mais importantes para a decisão:
                 Feature  Coeficiente  Importância Absoluta
21         worst texture    -1.291134              1.291134
10          radius error    -1.244185              1.244185
28        worst symmetry    -1.202497              1.202497
7    mean concave points    -1.103646              1.103646
26       worst concavity    -0.974874              0.974874
13            area error    -0.868623              0.868623
20          worst radius    -0.814530              0.814530
27  worst concave points    -0.808050              0.808050
23            worst area    -0.774047              0.774047
6         mean concavity    -0.747674              0.747674

Instâncias semelhantes no treino:


IndexError: index 9 is out of bounds for axis 0 with size 5