In [31]:
# Importation des bibliothèques nécessaires
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import SGDClassifier

#Avec SGDClassifier
df = pd.read_csv("gym_members_exercise_tracking.csv")
# Définir X et y
X = df[[col for col in df.columns if col != 'Gender']]
y = df['Gender']

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Identifier les colonnes quantitatives et qualitatives
quantitative_cols = X.select_dtypes(include=['float64', 'int64']).columns
qualitative_cols = X.select_dtypes(include=['object', 'category']).columns

# Prétraitement : Normalisation et One-hot encoding
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), quantitative_cols),
        ('cat', OneHotEncoder(drop='first'), qualitative_cols)
    ]
)

# Appliquer les transformations
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

# Entraîner le modèle avec SGDClassifier (simulation de votre package R)
sgd_model = SGDClassifier(
    loss='log_loss',  # Régression logistique
    max_iter=10000,   # Nombre maximum d'itérations
    learning_rate='constant',  # Type de schedule pour le learning rate
    eta0=0.001,     # Valeur initiale du learning rate
    random_state=42,
    alpha=0,
    penalty=None
)
sgd_model.fit(X_train_processed, y_train)

# Faire des prédictions
y_pred_sgd = sgd_model.predict(X_test_processed)

# Évaluer les performances
accuracy_sgd = accuracy_score(y_test, y_pred_sgd)
conf_matrix_sgd = confusion_matrix(y_test, y_pred_sgd, labels=sgd_model.classes_)

# Afficher les résultats
print("Performance de SGDClassifier :")
print("Accuracy :", accuracy_sgd)
print("\nClassification Report :\n", classification_report(y_test, y_pred_sgd, target_names=sgd_model.classes_))

# Afficher la matrice de confusion avec les noms des classes
conf_matrix_df = pd.DataFrame(conf_matrix_sgd, index=sgd_model.classes_, columns=sgd_model.classes_)
print("\nConfusion Matrix :\n", conf_matrix_df)



# Récupérer les coefficients
feature_names = preprocessor.get_feature_names_out()
class_names = sgd_model.classes_

# Vérifier le nombre de classes
if len(sgd_model.classes_) == 2:  # Problème binaire
    coefficients_df = pd.DataFrame(
        sgd_model.coef_.T,  # Transposer pour avoir les variables en ligne
        index=feature_names,  # Noms des variables
        columns=[f"{sgd_model.classes_[1]}"]  # Une seule colonne avec une annotation
    )
else:  # Problème multiclasses
    coefficients_df = pd.DataFrame(
        sgd_model.coef_.T,  # Transposer pour avoir les variables en ligne
        index=feature_names,  # Noms des variables
        columns=sgd_model.classes_  # Noms des classes cibles
    )

# Afficher les coefficients
print("\nCoefficients par modalité et variable (SGDClassifier) :")
print(coefficients_df)


Performance de SGDClassifier :
Accuracy : 0.9435897435897436

Classification Report :
               precision    recall  f1-score   support

      Female       0.90      0.99      0.94        93
        Male       0.99      0.90      0.94       102

    accuracy                           0.94       195
   macro avg       0.95      0.95      0.94       195
weighted avg       0.95      0.94      0.94       195


Confusion Matrix :
         Female  Male
Female      92     1
Male        10    92

Coefficients par modalité et variable (SGDClassifier) :
                                        Male
num__Age                            0.063412
num__Weight (kg)                    0.954508
num__Height (m)                     1.386804
num__Max_BPM                       -0.050470
num__Avg_BPM                       -0.081061
num__Resting_BPM                    0.106180
num__Session_Duration (hours)      -0.534192
num__Calories_Burned                0.301185
num__Fat_Percentage                -0.81

In [35]:
# Importation des bibliothèques nécessaires
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.pipeline import Pipeline
from sklearn.linear_model import SGDClassifier

#Avec SGDClassifier
df = pd.read_csv("gym_members_exercise_tracking.csv")
# Définir X et y
X = df[[col for col in df.columns if col != 'Workout_Type']]
y = df['Workout_Type']

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Identifier les colonnes quantitatives et qualitatives
quantitative_cols = X.select_dtypes(include=['float64', 'int64']).columns
qualitative_cols = X.select_dtypes(include=['object', 'category']).columns

# Prétraitement : Normalisation et One-hot encoding
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), quantitative_cols),
        ('cat', OneHotEncoder(drop='first'), qualitative_cols)
    ]
)

# Appliquer les transformations
X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

# Entraîner le modèle avec SGDClassifier (simulation de votre package R)
sgd_model = SGDClassifier(
    loss='log_loss',  # Régression logistique
    max_iter=10000,   # Nombre maximum d'itérations
    learning_rate='constant',  # Type de schedule pour le learning rate
    eta0=0.001,     # Valeur initiale du learning rate
    random_state=42,
    alpha=0,
    penalty=None
)
sgd_model.fit(X_train_processed, y_train)

# Faire des prédictions
y_pred_sgd = sgd_model.predict(X_test_processed)

# Évaluer les performances
accuracy_sgd = accuracy_score(y_test, y_pred_sgd)
conf_matrix_sgd = confusion_matrix(y_test, y_pred_sgd, labels=sgd_model.classes_)

# Afficher les résultats
print("Performance de SGDClassifier :")
print("Accuracy :", accuracy_sgd)
print("\nClassification Report :\n", classification_report(y_test, y_pred_sgd, target_names=sgd_model.classes_))

# Afficher la matrice de confusion avec les noms des classes
conf_matrix_df = pd.DataFrame(conf_matrix_sgd, index=sgd_model.classes_, columns=sgd_model.classes_)
print("\nConfusion Matrix :\n", conf_matrix_df)



# Récupérer les coefficients
feature_names = preprocessor.get_feature_names_out()
class_names = sgd_model.classes_

# Vérifier le nombre de classes
if len(sgd_model.classes_) == 2:  # Problème binaire
    coefficients_df = pd.DataFrame(
        sgd_model.coef_.T,  # Transposer pour avoir les variables en ligne
        index=feature_names,  # Noms des variables
        columns=[f"{sgd_model.classes_[1]}"]  # Une seule colonne avec une annotation
    )
else:  # Problème multiclasses
    coefficients_df = pd.DataFrame(
        sgd_model.coef_.T,  # Transposer pour avoir les variables en ligne
        index=feature_names,  # Noms des variables
        columns=sgd_model.classes_  # Noms des classes cibles
    )

# Afficher les coefficients
print("\nCoefficients par modalité et variable (SGDClassifier) :")
print(coefficients_df)


Performance de SGDClassifier :
Accuracy : 0.24102564102564103

Classification Report :
               precision    recall  f1-score   support

      Cardio       0.21      0.27      0.24        51
        HIIT       0.27      0.09      0.14        44
    Strength       0.27      0.31      0.29        52
        Yoga       0.24      0.27      0.25        48

    accuracy                           0.24       195
   macro avg       0.25      0.24      0.23       195
weighted avg       0.25      0.24      0.23       195


Confusion Matrix :
           Cardio  HIIT  Strength  Yoga
Cardio        14     1        17    19
HIIT          16     4        10    14
Strength      21     7        16     8
Yoga          16     3        16    13

Coefficients par modalité et variable (SGDClassifier) :
                                      Cardio      HIIT  Strength      Yoga
num__Age                           -0.094047  0.023281  0.047473  0.050601
num__Weight (kg)                    0.096439  0.061341

In [33]:
# Importer les bibliothèques nécessaires
from sklearn.datasets import load_iris

# Charger le jeu de données Iris
iris = load_iris(as_frame=True)
df = iris.frame

# Définir X (colonnes quantitatives) et y (colonne qualitative)
X = df[iris.feature_names]  # Toutes les colonnes quantitatives
y = df['target']  # Colonne qualitative représentant les espèces

# Remplacer les valeurs numériques de la cible par leurs noms
y = iris.target_names[y]

# Diviser les données en ensembles d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)

# Normalisation (StandardScaler) pour les colonnes quantitatives
preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), X.columns)
    ]
)

X_train_processed = preprocessor.fit_transform(X_train)
X_test_processed = preprocessor.transform(X_test)

# Créer et entraîner le modèle
sgd_model = SGDClassifier(
    loss='log_loss',  # Régression logistique
    max_iter=10000,   # Nombre maximum d'itérations
    learning_rate='constant',  # Type de schedule pour le learning rate
    eta0=0.001,       # Valeur initiale du learning rate
    random_state=42
)
sgd_model.fit(X_train_processed, y_train)

# Faire des prédictions
y_pred = sgd_model.predict(X_test_processed)

# Évaluer les performances
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred, labels=sgd_model.classes_)

print("Accuracy :", accuracy)
print("\nClassification Report :\n", classification_report(y_test, y_pred, target_names=sgd_model.classes_))

# Afficher la matrice de confusion
conf_matrix_df = pd.DataFrame(conf_matrix, index=sgd_model.classes_, columns=sgd_model.classes_)
print("\nConfusion Matrix :\n", conf_matrix_df)

# Afficher les coefficients
feature_names = preprocessor.get_feature_names_out()
coefficients_df = pd.DataFrame(sgd_model.coef_.T, index=feature_names, columns=sgd_model.classes_)
print("\nCoefficients par modalité et variable :")
print(coefficients_df)


Accuracy : 0.7666666666666667

Classification Report :
               precision    recall  f1-score   support

      setosa       1.00      1.00      1.00        10
  versicolor       0.80      0.40      0.53        10
   virginica       0.60      0.90      0.72        10

    accuracy                           0.77        30
   macro avg       0.80      0.77      0.75        30
weighted avg       0.80      0.77      0.75        30


Confusion Matrix :
             setosa  versicolor  virginica
setosa          10           0          0
versicolor       0           4          6
virginica        0           1          9

Coefficients par modalité et variable :
                          setosa  versicolor  virginica
num__sepal length (cm) -0.663294   -0.001081   0.547449
num__sepal width (cm)   0.830645   -0.729121   0.146771
num__petal length (cm) -1.021693    0.164750   0.764189
num__petal width (cm)  -0.957795   -0.046310   0.998825
