In [10]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score


Chargement des données

In [None]:
train_data = pd.read_csv('mnist27_train.csv')
test_data = pd.read_csv('mnist27_test.csv')
print(train_data.shape)
print(test_data.shape)
train_data.info()


Séparation des variables

In [5]:
X_train = train_data[['x_1', 'x_2']]
y_train = train_data['y']

X_test = test_data[['x_1', 'x_2']]
y_test = test_data['y']


Régression Logistique (Binomiale)

In [6]:
# Création et entraînement du modèle
logistic_model = LogisticRegression()
logistic_model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred_logistic = logistic_model.predict(X_test)
accuracy_logistic = accuracy_score(y_test, y_pred_logistic)
print(f"Accuracy Logistic Regression: {accuracy_logistic}")


Accuracy Logistic Regression: 0.74


Gradient Boosting

In [7]:
# Création et entraînement du modèle
gradient_boosting_model = GradientBoostingClassifier()
gradient_boosting_model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred_gb = gradient_boosting_model.predict(X_test)
accuracy_gb = accuracy_score(y_test, y_pred_gb)
print(f"Accuracy Gradient Boosting: {accuracy_gb}")


Accuracy Gradient Boosting: 0.815


SVM (Dégré 2 et 3)

In [8]:
# SVM de dégré 2
svm_model_degree_2 = SVC(kernel='poly', degree=2)
svm_model_degree_2.fit(X_train, y_train)
y_pred_svm_degree_2 = svm_model_degree_2.predict(X_test)
accuracy_svm_degree_2 = accuracy_score(y_test, y_pred_svm_degree_2)
print(f"Accuracy SVM (Degree 2): {accuracy_svm_degree_2}")

# SVM de dégré 3
svm_model_degree_3 = SVC(kernel='poly', degree=3)
svm_model_degree_3.fit(X_train, y_train)
y_pred_svm_degree_3 = svm_model_degree_3.predict(X_test)
accuracy_svm_degree_3 = accuracy_score(y_test, y_pred_svm_degree_3)
print(f"Accuracy SVM (Degree 3): {accuracy_svm_degree_3}")


Accuracy SVM (Degree 2): 0.755
Accuracy SVM (Degree 3): 0.785


Arbre de Décision

In [11]:
# Création et entraînement du modèle
decision_tree_model = DecisionTreeClassifier()
decision_tree_model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred_dt = decision_tree_model.predict(X_test)
accuracy_dt = accuracy_score(y_test, y_pred_dt)
print(f"Accuracy Decision Tree: {accuracy_dt}")


Accuracy Decision Tree: 0.74


Forêt Aléatoire

In [12]:
# Création et entraînement du modèle
random_forest_model = RandomForestClassifier()
random_forest_model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred_rf = random_forest_model.predict(X_test)
accuracy_rf = accuracy_score(y_test, y_pred_rf)
print(f"Accuracy Random Forest: {accuracy_rf}")


Accuracy Random Forest: 0.795


K-Plus Proches Voisins (K-NN)

In [13]:
# Création et entraînement du modèle
knn_model = KNeighborsClassifier()
knn_model.fit(X_train, y_train)

# Prédiction et évaluation
y_pred_knn = knn_model.predict(X_test)
accuracy_knn = accuracy_score(y_test, y_pred_knn)
print(f"Accuracy K-NN: {accuracy_knn}")


Accuracy K-NN: 0.815


DEEP LEARNING : réseau de neurones profond (DNN) en utilisant Keras

In [14]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam
from sklearn.metrics import accuracy_score


In [15]:
train_data = pd.read_csv('mnist27_train.csv')
test_data = pd.read_csv('mnist27_test.csv')


Transformation des Valeurs de la Variable Cible

In [63]:
# Transformation des valeurs 2 en 0 et 7 en 1
train_data['y'] = train_data['y'].apply(lambda x: 0 if x == 2 else 1)
test_data['y'] = test_data['y'].apply(lambda x: 0 if x == 2 else 1)


In [64]:
X_train = train_data[['x_1', 'x_2']].values
y_train = train_data['y'].values

X_test = test_data[['x_1', 'x_2']].values
y_test = test_data['y'].values


Prétraitement des Données

In [65]:
# Normalisation des données
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)


Création et Entraînement du Modèle de Deep Learning

In [None]:
# Création du modèle
model = Sequential([
    Dense(32, activation='relu', input_shape=(2,)),
    Dense(16, activation='relu'),
    Dense(1, activation='sigmoid')
])

# Compilation du modèle
model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])

# Entraînement du modèle
model.fit(X_train, y_train, epochs=50, batch_size=32, verbose=1)

# Évaluation du modèle sur les données de test
y_pred = model.predict(X_test)
y_pred = (y_pred > 0.5).astype(int)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy Deep Learning Model: {accuracy}")


Autre architecture CNN simple avec une couche de convolution suivie d'une couche de pooling, puis une couche dense avec une couche de dropout pour éviter le surajustement. Vous pouvez ajuster les hyperparamètres, ajouter/supprimer des couches, ou expérimenter avec d'autres architectures CNN pour améliorer les performances du modèle selon vos besoins spécifiques

In [43]:
from tensorflow.keras.layers import Dense, Flatten, Conv1D, MaxPooling1D, Dropout


Transformation des Valeurs de la Variable Cible

In [51]:
train_data['y'] = train_data['y'].apply(lambda x: 0 if x == 2 else 1)
test_data['y'] = test_data['y'].apply(lambda x: 0 if x == 2 else 1)


Séparation des Variables Indépendantes et Dépendante

In [56]:
X_train = train_data[['x_1', 'x_2']].values
y_train = train_data['y'].values

X_test = test_data[['x_1', 'x_2']].values
y_test = test_data['y'].values


Prétraitement des Données

In [57]:
# Normalisation des données
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Reshape des données pour CNN (ajout d'une dimension pour les canaux)
X_train = X_train.reshape(X_train.shape[0], X_train.shape[1], 1)
X_test = X_test.reshape(X_test.shape[0], X_test.shape[1], 1)


Création et Entraînement du Modèle CNN

In [None]:
# Création du modèle CNN
model = Sequential([
    Conv1D(filters=64, kernel_size=1, activation='relu', input_shape=(X_train.shape[1], 1)),
    MaxPooling1D(pool_size=2),
    Flatten(),
    Dense(32, activation='relu'),
    Dropout(0.5),
    Dense(1, activation='sigmoid')
])

# Compilation du modèle
model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])

# Entraînement du modèle
model.fit(X_train, y_train, epochs=50, batch_size=32, verbose=1)

# Évaluation du modèle sur les données de test
y_pred = model.predict(X_test)
y_pred = (y_pred > 0.5).astype(int)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy CNN Model: {accuracy}")



In [None]:
from tensorflow.keras.layers import Dropout

# Création du modèle CNN avec Dropout
model = Sequential([
    Conv1D(filters=64, kernel_size=1, activation='relu', input_shape=(X_train.shape[1], 1)),
    MaxPooling1D(pool_size=2),
    Dropout(0.5),  # Ajout de la couche de Dropout avec un taux de 50%
    Flatten(),
    Dense(32, activation='relu'),
    Dropout(0.5),  # Ajout de la couche de Dropout avec un taux de 50%
    Dense(1, activation='sigmoid')
])

# Compilation du modèle
model.compile(optimizer=Adam(learning_rate=0.001), loss='binary_crossentropy', metrics=['accuracy'])

# Entraînement du modèle
model.fit(X_train, y_train, epochs=50, batch_size=32, verbose=1, validation_split=0.2)  # Utilisation d'un ensemble de validation
# Évaluation du modèle sur les données de test
y_pred = model.predict(X_test)
y_pred = (y_pred > 0.5).astype(int)
accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy CNN Model: {accuracy}")