In [4]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix
from matplotlib.colors import ListedColormap

# Charger les données depuis le fichier "data.csv"
data = pd.read_csv("data.csv")

# Prétraitement des données
data.drop(['Unnamed: 32', 'id'], axis=1, inplace=True)
data['diagnosis'] = [1 if each == "M" else 0 for each in data['diagnosis']]
y = data['diagnosis'].values
X = data.drop(['diagnosis'], axis=1)

# Séparation des données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, random_state=42)

# Mise à l'échelle des caractéristiques
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Entraînement du modèle de régression logistique
clf = LogisticRegression(random_state=42)
clf.fit(X_train_scaled, y_train)

# Prédiction sur les données de test
y_pred = clf.predict(X_test_scaled)

# Matrice de confusion
cm = confusion_matrix(y_test, y_pred)
print("Matrice de confusion :\n", cm)

# Affichage de la frontière de décision
h = .02  # Pas de la grille
X1, X2 = np.meshgrid(np.arange(X_test_scaled[:, 0].min() - 1, X_test_scaled[:, 0].max() + 1, h),
                     np.arange(X_test_scaled[:, 1].min() - 1, X_test_scaled[:, 1].max() + 1, h))
Z = clf.predict(np.c_[X1.ravel(), X2.ravel()])
Z = Z.reshape(X1.shape)
plt.contourf(X1, X2, Z, alpha=0.75, cmap=ListedColormap(('red', 'green')))
for i, j in enumerate(np.unique(y_test)):
    plt.scatter(X_test_scaled[y_test == j, 0], X_test_scaled[y_test == j, 1],
                c=ListedColormap(('red', 'green'))(i), label=j, edgecolor='black')
plt.xlim(X1.min(), X1.max())
plt.ylim(X2.min(), X2.max())
plt.legend()
plt.title('Régression logistique')
plt.xlabel('Caractéristique 1')
plt.ylabel('Caractéristique 2')
plt.show()

# Score du modèle sur les données de test
accuracy = clf.score(X_test_scaled, y_test)
print("Précision du modèle :", accuracy)


Matrice de confusion :
 [[87  2]
 [ 1 53]]


ValueError: X has 2 features, but LogisticRegression is expecting 30 features as input.