In [1]:
import mysql.connector
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.preprocessing import LabelEncoder

def collecter():
    # Se connecter à la base de données et extraire les données
    connection = mysql.connector.connect(
        host="localhost",
        user="root",
        password="",
        database="dw_bike_store"
    )

    query = """
    SELECT 
        c.customer_id, 
        CASE 
            WHEN c.customer_id IN (
                SELECT DISTINCT customer_id 
                FROM orders 
                WHERE order_date_year < 2022
            ) THEN 'Fidèle'
            ELSE 'Nouveau'
        END AS segment,
        CASE 
            WHEN (SELECT SUM(discount) FROM order_items WHERE order_id IN (SELECT order_id FROM orders WHERE customer_id = c.customer_id)) > 0 THEN 1
            ELSE 0
        END AS promotion
    FROM customers c
    """

    data = pd.read_sql_query(query, connection)
    connection.close()

    # Encodage de la colonne "segment"
    label_encoder = LabelEncoder()
    data['segment'] = label_encoder.fit_transform(data['segment'])

    return data, label_encoder

def analyser(data):
    # Diviser les données en ensembles d'entraînement et de test
    X = data.drop(columns=['customer_id', 'promotion'])
    y = data['promotion']
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Entraîner un modèle de classification (par exemple, un classificateur RandomForest)
    model = RandomForestClassifier(random_state=42)
    model.fit(X_train, y_train)

    return model, X_test, y_test

def agir(model, X_test, y_test, label_encoder):
    # Faire des prédictions sur l'ensemble de test
    y_pred = model.predict(X_test)

    # Récupérer les segments prédits
    segments_predits = label_encoder.inverse_transform(X_test['segment'])

    # Créer un DataFrame pour afficher les résultats
    resultats = pd.DataFrame({'Segment': segments_predits, 'Promotion Prédite': y_pred, 'Promotion Réelle': y_test})

    resultats_fidèles = resultats[resultats['Segment'] == 'Fidèle']

    # Évaluer les performances du modèle
    accuracy = accuracy_score(y_test, y_pred)
    report = classification_report(y_test, y_pred)

    print("Résultats des prédictions :\n", resultats)
    print("Résultats des prédictions pour les segments 'Fidèle' :\n", resultats_fidèles)

    print("Précision du modèle : {:.2f}".format(accuracy))
    print("Rapport de classification :\n", report)

if __name__ == "__main__":
    data, label_encoder = collecter()
    model, X_test, y_test = analyser(data)
    agir(model, X_test, y_test, label_encoder)


Résultats des prédictions :
       Promotion Prédite  Promotion Réelle  Segment
413                   1                 1  Nouveau
316                   1                 1  Nouveau
1034                  1                 1  Nouveau
65                    1                 1  Nouveau
1024                  1                 1  Nouveau
...                 ...               ...      ...
1107                  1                 1  Nouveau
86                    1                 1  Nouveau
1372                  1                 1  Nouveau
265                   1                 1  Nouveau
1222                  1                 1  Nouveau

[289 rows x 3 columns]
Résultats des prédictions pour les segments 'Fidèle' :
 Empty DataFrame
Columns: [Promotion Prédite, Promotion Réelle, Segment]
Index: []
Précision du modèle : 1.00
Rapport de classification :
               precision    recall  f1-score   support

           1       1.00      1.00      1.00       289

    accuracy                   