In [8]:
import pyodbc
import pandas as pd

# Paramètres de connexion
server = 'DESKTOP-7H57DPS'  # Remplace par le nom de ton serveur SQL
database = 'DW_PI'  # Remplace par le nom de ta base de données
username = ''  # Ton nom d'utilisateur
password = ''  # Ton mot de passe

# Connexion à la base de données
conn = pyodbc.connect(f'DRIVER={{SQL Server}};'
                      f'SERVER={server};'
                      f'DATABASE={database};'
                      f'UID={username};'
                      f'PWD={password}')

In [10]:
query_test = "SELECT TOP 5 * FROM fact_achat"
df_test = pd.read_sql(query_test, conn)

# Afficher le résultat
print(df_test.head())

   id_factAchat  fk_client  fk_date  fk_produit  fk_region  fk_source  \
0             1        861     1007      964449         51          1   
1             2        862     1091      972707         22          1   
2             3        862      760      973950         22          3   
3             4        863        4      961912         18          3   
4             5        864     1056      970849         49          1   

   Quantité Achetée  Prix Unitaire  Prix Total  
0               1.0           8590      8590.0  
1               2.0          37900     75800.0  
2               3.0           3530     10590.0  
3               1.0           4950      4950.0  
4               3.0          10490     31470.0  


  df_test = pd.read_sql(query_test, conn)


In [11]:
query_aggregation = """
SELECT 
    MONTH(dd.[Date d'Achat]) AS mois,
    YEAR(dd.[Date d'Achat]) AS annee,
    ds.source,
    dc.categorie,
    SUM(fa.[Quantité Achetée]) AS quantite_achetee
FROM fact_achat fa
JOIN dim_source ds ON fa.fk_source = ds.id_source
JOIN dim_produits dp ON fa.fk_produit = dp.id_produit
JOIN dim_categorie dc ON dp.id_categorie = dc.id_categorie
JOIN dim_date dd ON fa.fk_date = dd.id_date
GROUP BY MONTH(dd.[Date d'Achat]), YEAR(dd.[Date d'Achat]), ds.source, dc.categorie
ORDER BY annee, mois, ds.source, dc.categorie
"""


In [12]:
df_model = pd.read_sql(query_aggregation, conn)
print(df_model)


  df_model = pd.read_sql(query_aggregation, conn)


     mois  annee     source categorie  quantite_achetee
0       1   2023  carrefour  Boissons             118.0
1       1   2023  carrefour  cremerie             255.0
2       1   2023  carrefour  epicerie             884.0
3       1   2023  carrefour    marché             192.0
4       1   2023      geant  Boissons             356.0
..    ...    ...        ...       ...               ...
211    12   2024      geant  Boissons             391.0
212    12   2024      geant  cremerie             349.0
213    12   2024      geant  epicerie            1272.0
214    12   2024      geant   Hygiene            2004.0
215    12   2024      geant    marché             213.0

[216 rows x 5 columns]


In [13]:
from sklearn.preprocessing import OneHotEncoder
from sklearn.model_selection import train_test_split

# Variables explicatives
X = df_model[['mois', 'annee', 'source', 'categorie']]

# Variable cible
y = df_model['quantite_achetee']

# Encodage One-Hot sur les colonnes catégorielles
X_encoded = pd.get_dummies(X, columns=['source', 'categorie'])

# Séparer les données pour entraînement et test
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

print(X_train.head())


     mois  annee  source_carrefour  source_geant  categorie_Boissons  \
84     10   2023              True         False               False   
95     11   2023             False          True               False   
137     4   2024              True         False               False   
211    12   2024             False          True                True   
86     10   2023             False          True               False   

     categorie_Hygiene  categorie_cremerie  categorie_epicerie  \
84               False               False               False   
95               False                True               False   
137              False               False                True   
211              False               False               False   
86               False                True               False   

     categorie_marché  
84               True  
95              False  
137             False  
211             False  
86              False  


In [14]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, r2_score

# Initialisation du modèle
model = RandomForestRegressor(n_estimators=100, random_state=42)

# Entraînement du modèle
model.fit(X_train, y_train)

# Prédiction sur les données de test
y_pred = model.predict(X_test)

# Évaluation
mae = mean_absolute_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"MAE (Erreur absolue moyenne) : {mae:.2f}")
print(f"R² (Score de prédiction) : {r2:.2f}")


MAE (Erreur absolue moyenne) : 68.48
R² (Score de prédiction) : 0.97


In [15]:
input_data = pd.DataFrame([{
    'mois': 3,
    'annee': 2025,  # année jamais vue
    'source_carrefour': False,
    'source_geant': True,
    'categorie_Boissons': False,
    'categorie_Hygiene': False,
    'categorie_cremerie': False,
    'categorie_epicerie': True,
    'categorie_marché': False
}])

prediction = model.predict(input_data)[0]
print(f"Quantité achetée prédite en mars 2025 : {prediction:.2f}")


Quantité achetée prédite en mars 2025 : 1540.34


In [16]:
for mois in range(1, 13):
    input_data = pd.DataFrame([{
        'mois': mois,
        'annee': 2025,
        'source_carrefour': False,
        'source_geant': True,
        'categorie_Boissons': False,
        'categorie_Hygiene': False,
        'categorie_cremerie': False,
        'categorie_epicerie': True,
        'categorie_marché': False
    }])
    
    prediction = model.predict(input_data)[0]
    print(f"Mois {mois} - Quantité prédite : {prediction:.2f}")


Mois 1 - Quantité prédite : 1342.65
Mois 2 - Quantité prédite : 1288.70
Mois 3 - Quantité prédite : 1540.34
Mois 4 - Quantité prédite : 1319.71
Mois 5 - Quantité prédite : 1231.08
Mois 6 - Quantité prédite : 1302.44
Mois 7 - Quantité prédite : 1592.65
Mois 8 - Quantité prédite : 1560.87
Mois 9 - Quantité prédite : 1500.64
Mois 10 - Quantité prédite : 1377.12
Mois 11 - Quantité prédite : 1377.84
Mois 12 - Quantité prédite : 1304.59


In [17]:
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor, GradientBoostingRegressor
from sklearn.neighbors import KNeighborsRegressor
from sklearn.svm import SVR
from sklearn.metrics import r2_score
import pandas as pd

# Variables explicatives
X = df_model[['mois', 'annee', 'source', 'categorie']]

# Variable cible
y = df_model['quantite_achetee']

# Encodage One-Hot sur les colonnes catégorielles
X_encoded = pd.get_dummies(X, columns=['source', 'categorie'])

# Séparer les données pour entraînement et test
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X_encoded, y, test_size=0.2, random_state=42)

# Liste des modèles à tester
models = {
    'Linear Regression': LinearRegression(),
    'Random Forest': RandomForestRegressor(n_estimators=100, random_state=42),
    'KNN': KNeighborsRegressor(n_neighbors=5),
    'SVR': SVR(kernel='rbf')
}

# Dictionnaire pour stocker les résultats
results = []

# Entraîner et évaluer chaque modèle
for name, model in models.items():
    model.fit(X_train, y_train)  # Entraîner le modèle
    y_pred = model.predict(X_test)  # Prédiction sur l'ensemble de test
    r2 = r2_score(y_test, y_pred)  # Calcul du score R²
    results.append({'Modèle': name, 'R²': r2})

# Convertir les résultats en DataFrame et trier par R²
results_df = pd.DataFrame(results).sort_values(by='R²', ascending=False)

# Affichage des résultats
print(results_df)


              Modèle        R²
1      Random Forest  0.968897
0  Linear Regression  0.949826
2                KNN  0.826211
3                SVR -0.286337


In [18]:
import joblib
joblib.dump(model, 'model1.pkl')
joblib.dump(X_encoded.columns.tolist(), 'columns1.pkl')

['columns1.pkl']