# **Analyse Prédictive des Coûts**


# Étape 1 : Charger et Explorer les Données


In [1]:
import pandas as pd

# Charger le fichier de données nettoyées
data_cleaned = pd.read_csv('data_cleaned.csv')

# Afficher les premières lignes du dataset pour comprendre sa structure
print(data_cleaned.head())

         DATE                                       PRESTATIONS      MT   \
0  2020-08-13         Tirage plans  architecturale ( 3 copies )     24.0   
1  2020-09-03           Gagoil  pour ouverture chantier  2 fois    520.0   
2  2020-09-22                                  Gasoil berlingo     350.0   
3  2020-09-30                                  Gasoil berlingo     340.0   
4  2020-10-06  ACHAT 28 SACS DE CPJ 45 ET 4 mangan pour pioches   2200.0   

     MODE DE REGLEMENT  
0                  ESP  
1                  ESP  
2                  ESP  
3                  ESP  
4  CHQ  N° AAY 6208916  


# Étape 2 : Sélection des Variables et Création de Caractéristiques

In [2]:
# Extraire le mois et l'année de la colonne 'DATE'
data_cleaned['Month'] = pd.to_datetime(data_cleaned['DATE']).dt.month
data_cleaned['Year'] = pd.to_datetime(data_cleaned['DATE']).dt.year

# Afficher les nouvelles colonnes pour vérifier
print(data_cleaned.head())

         DATE                                       PRESTATIONS      MT   \
0  2020-08-13         Tirage plans  architecturale ( 3 copies )     24.0   
1  2020-09-03           Gagoil  pour ouverture chantier  2 fois    520.0   
2  2020-09-22                                  Gasoil berlingo     350.0   
3  2020-09-30                                  Gasoil berlingo     340.0   
4  2020-10-06  ACHAT 28 SACS DE CPJ 45 ET 4 mangan pour pioches   2200.0   

     MODE DE REGLEMENT  Month  Year  
0                  ESP      8  2020  
1                  ESP      9  2020  
2                  ESP      9  2020  
3                  ESP      9  2020  
4  CHQ  N° AAY 6208916     10  2020  


# Étape 3 : Division des Données en Ensembles d'Entraînement et de Test

In [4]:
from sklearn.model_selection import train_test_split

# Sélectionner les variables d'entrée (features) et la cible (target)
X = data_cleaned[['Month', 'Year']]  # Nous utilisons le mois et l'année comme caractéristiques
y = data_cleaned['MT ']  # Le montant est notre cible à prédire

# Diviser les données en ensemble d'entraînement et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Afficher la forme des ensembles d'entraînement et de test pour vérification
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)


(10, 2) (3, 2) (10,) (3,)


# Étape 4 : Entraînement du Modèle de Régression Linéaire

In [5]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

# Créer et entraîner le modèle de régression linéaire
model = LinearRegression()
model.fit(X_train, y_train)

# Faire des prédictions sur l'ensemble de test
y_pred = model.predict(X_test)

# Évaluer le modèle
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Erreur quadratique moyenne (MSE) : {mse}")
print(f"Coefficient de détermination R² : {r2}")


Erreur quadratique moyenne (MSE) : 39123305.94863451
Coefficient de détermination R² : -1168.6677237046667


# ***`Interprétation :`***
Performance du modèle : Les résultats montrent que le modèle de régression linéaire simple basé uniquement sur le mois et l'année ne parvient pas à bien prédire les coûts. Cela peut être dû à plusieurs raisons :
Les caractéristiques (variables explicatives) utilisées ne sont pas suffisantes pour capturer la complexité des coûts.
Il est possible que les coûts ne suivent pas une relation linéaire simple par rapport au mois et à l'année.
Le nombre limité de données rend difficile l'entraînement d'un modèle performant.
On peut Si possible, enrichir le modèle avec d'autres variables explicatives qui pourraient mieux capturer les variations des coûts. Par exemple, inclure des informations supplémentaires sur les types de prestations ou d'autres indicateurs temporels comme les trimestres ou les saisons. Ou bien essayer un autre modèle comme les forêts aléatoires (Random Forest) ou K-Nearest Neighbors (KNN) pourraient mieux capturer les relations non linéaires entre les variables.

# Etape 5 : Entraînement du Modèle de Forêt Aléatoire

In [6]:
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, r2_score

# Créer et entraîner le modèle de forêt aléatoire
rf_model = RandomForestRegressor(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)

# Faire des prédictions sur l'ensemble de test
y_pred_rf = rf_model.predict(X_test)

# Évaluer le modèle
mse_rf = mean_squared_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"Erreur quadratique moyenne (Random Forest): {mse_rf}")
print(f"Coefficient de détermination R² (Random Forest): {r2_rf}")


Erreur quadratique moyenne (Random Forest): 49534846.44349592
Coefficient de détermination R² (Random Forest): -1479.9410830386712


# ***`Interprétation :`***
Les performances du modèle indiquent que, avec les données actuelles, les relations entre les variables ne sont pas suffisamment bien capturées pour faire des prédictions préc
ises des coûts. Cela peut signifier que les données actuelles sont trop limitées en volume ou en information pour permettre une analyse prédictive fiable.