<a href="https://colab.research.google.com/github/kamgachristelle/SN-GROUPE-5/blob/main/pr%C3%A9diction_du_mis_par_un_pipeline.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Code de G√©n√©ration de Donn√©es

In [None]:
import pandas as pd
import numpy as np

# --------------------------------------------------------------------------------------
# TITRE : D√©finition des param√®tres de taille et de taux d'√©chec pour le jeu de donn√©es.
# --------------------------------------------------------------------------------------
NB_LIGNES = 2057  # Nombre total de lignes (2000 + 57 erreurs suppl√©mentaires)
NB_FAILURES_TARGET = 357 # Nous garantissons ce nombre exact d'√©checs (300 initial + 57)
NB_SUCCESSES_TARGET = NB_LIGNES - NB_FAILURES_TARGET # 1700 r√©ussites


# --------------------------------------------------------------------------------------
# TITRE : G√©n√©ration des lignes simulant les ex√©cutions r√©ussies (83% du total).
# --------------------------------------------------------------------------------------
# Donn√©es de SUCC√àS (Status = success)
data_success = pd.DataFrame({
    'status': ['success'] * NB_SUCCESSES_TARGET,
    'code_lines_changed': np.random.randint(10, 800, size=NB_SUCCESSES_TARGET)
})
data_success['pred_risk_fail'] = np.random.uniform(0.01, 0.15, size=NB_SUCCESSES_TARGET)
data_success['error_tag'] = 'None'


# --------------------------------------------------------------------------------------
# TITRE : G√©n√©ration des lignes simulant les √©checs (17% du total) pour enrichir l'analyse d'erreur.
# --------------------------------------------------------------------------------------
# Donn√©es d'√âCHECS (Status = failure)
data_failure = pd.DataFrame({
    'status': ['failure'] * NB_FAILURES_TARGET,
    'code_lines_changed': np.random.randint(50, 900, size=NB_FAILURES_TARGET) # Les √©checs peuvent avoir des changements plus grands
})
data_failure['pred_risk_fail'] = np.random.uniform(0.65, 0.95, size=NB_FAILURES_TARGET)
# R√©partition des types d'erreurs
data_failure['error_tag'] = np.random.choice(['TestFail', 'DependencyError', 'Timeout', 'AuthIssue'], size=NB_FAILURES_TARGET)


# --------------------------------------------------------------------------------------
# TITRE : Consolidation des donn√©es Succ√®s/√âchec en un seul jeu de donn√©es m√©lang√©.
# --------------------------------------------------------------------------------------
# COMBINER et m√©langer les jeux de donn√©es
data = pd.concat([data_success, data_failure]).reset_index(drop=True)
np.random.shuffle(data.values)


# --------------------------------------------------------------------------------------
# TITRE : Attribution d'un ID unique, d'un horodatage et des variables cat√©gorielles (branches, d√©p√¥ts).
# --------------------------------------------------------------------------------------
# Ajout des colonnes temporelles et IDs (pour 2057 lignes)
data['workflow_id'] = [f'W-{i:04d}' for i in range(1, NB_LIGNES + 1)]
start_time_base = pd.to_datetime('2025-10-20')
# √âtalement temporel
data['start_time'] = start_time_base + pd.to_timedelta(np.arange(NB_LIGNES) * 500 + np.random.randint(0, 100, NB_LIGNES), unit='s')

# Ajout des autres colonnes
data['branch_name'] = np.random.choice(['main', 'develop', 'feature-auth', 'feature-payment', 'hotfix'], size=NB_LIGNES, p=[0.3, 0.3, 0.2, 0.1, 0.1])
data['repo_name'] = np.random.choice(['repo-api', 'repo-front', 'repo-mobile'], size=NB_LIGNES, p=[0.5, 0.3, 0.2])
data['env_type'] = np.random.choice(['prod', 'staging', 'dev'], size=NB_LIGNES, p=[0.2, 0.3, 0.5])


# --------------------------------------------------------------------------------------
# TITRE : Calcul de la dur√©e r√©elle et simulation de la pr√©diction du mod√®le ML.
# --------------------------------------------------------------------------------------
# Dur√©e r√©elle (proportionnelle aux lignes de code + bruit)
data['duration_s'] = (data['code_lines_changed'] * 0.8) + np.random.randint(60, 180, size=NB_LIGNES)
data['duration_s'] = data['duration_s'].astype(int)

# Pr√©diction de Dur√©e
data['pred_duration_s'] = data['duration_s'] * np.random.uniform(0.95, 1.05, size=NB_LIGNES)
data['pred_duration_s'] = data['pred_duration_s'].astype(int)


# --------------------------------------------------------------------------------------
# TITRE : Sauvegarde finale des donn√©es pr√©par√©es au format CSV pour l'import dans Grafana.
# --------------------------------------------------------------------------------------
nom_fichier = 'ci_cd_prediction_mock_2057_errors.csv'
data = data[['workflow_id', 'start_time', 'duration_s', 'status', 'pred_duration_s', 'pred_risk_fail', 'branch_name', 'repo_name', 'code_lines_changed', 'env_type', 'error_tag']]
data.to_csv(nom_fichier, index=False, date_format='%Y-%m-%d %H:%M:%S')

print(f"‚úÖ Fichier '{nom_fichier}' de {NB_LIGNES} lignes g√©n√©r√© avec 357 √©checs garantis.")

# TITRE : Bilan de Sant√© Initial du Jeu de Donn√©es
Ce bloc charge le fichier CSV et v√©rifie que les types de donn√©es sont corrects pour l'analyse et le Machine Learning.

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Charger le jeu de donn√©es (2057 lignes)
df = pd.read_csv('ci_cd_prediction_mock_2057_errors.csv')

# Convertir la colonne start_time au format datetime
df['start_time'] = pd.to_datetime(df['start_time'])

print("--- Bilan de Sant√© des Donn√©es (2057 lignes) ---")
print(f"Nombre total de lignes : {len(df)}")
print(f"Aper√ßu des types de donn√©es :")
print(df.dtypes)

# Proportion Succ√®s/√âchec (Validation du D√©s√©quilibre)
Ce bloc calcule et visualise le taux de d√©s√©quilibre de la variable cible (status )pr√®s l'ajout des 57 erreurs.

In [None]:
# Diagramme : Analyse du D√©s√©quilibre Succ√®s/√âchec
status_counts = df['status'].value_counts()
status_percentages = df['status'].value_counts(normalize=True) * 100

print("\n--- Fr√©quence des Statuts de Pipeline ---")
print(status_counts)
print("\n--- Pourcentage ---")
print(status_percentages)

# Visualisation des pourcentages (Camembert)
plt.figure(figsize=(7, 7))
plt.pie(
    status_counts,
    labels=status_counts.index,
    # Afficher le pourcentage avec une d√©cimale
    autopct='%1.1f%%',
    startangle=90,
    colors=['#4CAF50', '#FF5722']
)
plt.title('Proportion Succ√®s vs √âchec (Validation du D√©s√©quilibre)')
plt.show()
#

# importation de ydata-profilingest la premi√®re √©tape pour  analyse exploratoire

In [None]:
import sys

# Installer la biblioth√®que ydata-profiling
!{sys.executable} -m pip install ydata-profiling

# G√©n√©ration du Rapport de Profilage Interactif (Contr√¥le Qualit√© IA)
Ce bloc importe la librairie YData-Profiling pour cr√©er un rapport HTML complet du jeu de donn√©es ( df). Ce rapport est utilis√© pour l' analyse exploratoire (EDA) , le contr√¥le de la qualit√©, la d√©tection des valeurs manquantes et l'identification des corr√©lations, garantissant la fiabilit√© des donn√©es avant l'entra√Ænement du mod√®le de Machine Learning.

In [None]:
from ydata_profiling import ProfileReport

# G√©n√©rer le rapport de profilage
profile = ProfileReport(df, title="Rapport de Profilage des Donn√©es CI/CD", html={
    'style': {'full_width': True},
    'minify': True,
    'inline': True,
    'use_local_assets': True
}, explorative=True, lazy=False)

# Sauvegarder le rapport dans un fichier HTML
output_file = "ci_cd_data_profiling_report_fr.html"
profile.to_file(output_file)

# Afficher le rapport directement dans le notebook
profile.to_notebook_iframe()

print(f"‚úÖ Rapport de profilage g√©n√©r√© et sauvegard√© sous : '{output_file}'")

# Entra√Ænement et √âvaluation du Mod√®le For√™t Al√©atoire üå≥

 Initialisation des Modules de Machine Learning et de Mesure
Ce bloc importe les outils n√©cessaires √† la mod√©lisation et √† l'√©valuation, y compris les mod√®les de R√©gression Lin√©aire et For√™t Al√©atoire, ainsi que les m√©triques d'erreur (MAE, R2).

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, r2_score
import pandas as pd

 Pr√©paration des Donn√©es et Encodage des Variables Cat√©gorielles
Ce bloc pr√©pare le jeu de donn√©es (df ) en :

Excluant les colonnes non pr√©dictives ou cibles ( workflow_id, pred_duration_s, start_time).

Encodant les variables textuelles ( branch_name, repo_name, etc.) en colonnes num√©riques binaires (One-Hot Encoding), car les mod√®les ML ne peuvent traiter que des nombres.

In [None]:
# D√©finition des variables cibles (y) et des variables explicatives (X)
colonnes_a_exclure = ['workflow_id', 'pred_duration_s', 'pred_risk_fail', 'start_time']
X = df.drop(columns=['duration_s'] + colonnes_a_exclure)
y = df['duration_s']

# Encodage des Variables Cat√©gorielles
colonnes_categoriques = ['status', 'branch_name', 'repo_name', 'env_type', 'error_tag']
X_encoded = pd.get_dummies(X, columns=colonnes_categoriques, drop_first=True)

S√©paration du Jeu de Donn√©es (Train/Test Split) et Entra√Ænement du Mod√®le For√™t Al√©atoire
Ce bloc divise les donn√©es encod√©es en deux parties (80% pour l'entra√Ænement et 20% pour le test) et entra√Æne le mod√®le Random Forest Regressor , qui utilise une collection d'arbres de d√©cision pour pr√©dire la dur√©e.

In [None]:
# S√©paration en ensembles d'entra√Ænement et de test
X_train, X_test, y_train, y_test = train_test_split(
    X_encoded, y, test_size=0.2, random_state=42
)
# Entra√Ænement du mod√®le
model_rf = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
model_rf.fit(X_train, y_train)

√âvaluation de la Performance du Mod√®le de R√©gression
Ce bloc utilise les donn√©es de test (que le mod√®le n'a jamais vues) pour v√©rifier sa pr√©cision en calculant deux m√©triques cl√©s :

MAE (Erreur Absolue Moyenne) : L'erreur moyenne de la pr√©diction, exprim√©e en secondes.

R¬≤ (Coefficient R-carr√©) : La qualit√© de l'ajustement (plus la valeur est proche de 1.0000, mieux c'est).

In [None]:
# √âvaluation (pour confirmer la performance)
y_pred_rf = model_rf.predict(X_test)
mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print("\n--- Nouvelle Performance For√™t Al√©atoire ---")
print(f"Erreur Absolue Moyenne (MAE): {mae_rf:.2f}")
print(f"Coefficient R-carr√© (R2): {r2_rf:.4f}")

# Mod√®le de R√©gression Lin√©aire

Initialisation et Entra√Ænement du Mod√®le de R√©gression Lin√©aire
Ce bloc importe la classe LinearRegressionet lance le processus d'apprentissage. Le mod√®le est entra√Æn√© sur l'ensemble X_train(caract√©ristiques encod√©es) pour pr√©dire la cible variable y_train(dur√©e r√©elle en secondes)

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_absolute_error, r2_score

# 1. Initialisation et entra√Ænement du mod√®le Lin√©aire
model_linear = LinearRegression()
model_linear.fit(X_train, y_train)

Pr√©diction et √âvaluation de la Performance (Baseline)
Ce bloc utilise le mod√®le entra√Æn√© pour pr√©dire la dur√©e sur les donn√©es de test ( X_test) que le mod√®le n'a jamais vues, puis calculer les m√©triques pour √©valuer sa pr√©cision.

In [None]:
# 2. Pr√©diction sur l'ensemble de test
y_pred_linear = model_linear.predict(X_test)

# 3. √âvaluation de la performance
mae = mean_absolute_error(y_test, y_pred_linear)
r2 = r2_score(y_test, y_pred_linear)

print("\n--- Performance du Mod√®le de R√©gression Lin√©aire (Baseline) ---")
print(f"Erreur Absolue Moyenne (MAE): {mae:.2f}")
print(f"Coefficient R-carr√© (R2): {r2:.4f}")

# TITRE : Extraction et Interpr√©tation des Coefficients d'Influence
Ce bloc de code importe la librairie Pandas pour structurer les r√©sultats. Il extrait les coefficients ($\beta$) calcul√©s par la R√©gression Lin√©aire ( model_linear.coef_) et les associ√©s aux noms des colonnes encod√©es ( X_train.columns). Il trie les r√©sultats pour identifier les 10 facteurs qui ont le plus grand impact direct (positif ou n√©gatif) sur la dur√©e du pipeline.

In [None]:
import pandas as pd

# Cr√©er un DataFrame pour les coefficients
coefficients = pd.Series(
    model_linear.coef_,
    index=X_train.columns
).sort_values(ascending=False)

print("\n--- Top 10 des Coefficients d'Influence (R√©gression Lin√©aire) ---")
print(coefficients.head(10))

# TITRE : Sauvegarde et S√©rialisation du Mod√®le Final (Persistance MLOps)
Ce bloc de code utilise la librairie joblibpour enregistrer l'objet Python entra√Æn√© ( model_linear) sur le disque local dans un format binaire ( .joblib). Cette √©tape est fondamentale car elle permet de conserver l'√©tat math√©matique du mod√®le (les coefficients calcul√©s) apr√®s la fermeture du Notebook, et de le rendre portable pour un futur d√©ploiement (par exemple, sur Amazon SageMaker).

In [None]:
import joblib
import os
import numpy as np

# 1. D√©finir le nom du fichier de sauvegarde
model_filename = 'linear_regression_final_model.joblib'

# 2. Sauvegarder l'objet Python 'model_linear' sur le disque
# Le mod√®le entra√Æn√© est maintenant un fichier binaire
joblib.dump(model_linear, model_filename)

print(f"‚úÖ Mod√®le sauvegard√© avec succ√®s sous : '{model_filename}'")

# Pr√©diction de la Dur√©e d'un Nouveau Pipeline (Inf√©rence ML)
Ce bloc de code ex√©cute l'inf√©rence (la pr√©diction) en temps r√©el en utilisant le mod√®le de R√©gression Lin√©aire sauvegard√©. Le processus garantit que la nouvelle donn√©e de pipeline est encod√©e et align√©e (One-Hot Encoding, m√™me ordre de colonnes) pour correspondre parfaitement au format attendu par le mod√®le adopt√©, simulant ainsi un appel API vers un point final SageMaker.

In [None]:
import joblib
import pandas as pd
import numpy as np

# 1. Charger le mod√®le sauvegard√©
model_loaded = joblib.load('linear_regression_final_model.joblib')

# R√©cup√©rer les colonnes de X_train pour s'assurer de l'ordre et des colonnes pr√©sentes
feature_columns = X_train.columns

# D√©finir les variables cat√©gorielles (doit correspondre √† la liste utilis√©e pour l'entra√Ænement)
colonnes_categoriques = ['status', 'branch_name', 'repo_name', 'env_type', 'error_tag']

# --- Pr√©paration de la nouvelle donn√©e pour la pr√©diction ---

# 2. Cr√©er un DataFrame pour le nouveau point de donn√©e avec les colonnes originales
new_observation_raw = pd.DataFrame({
    'code_lines_changed': [500],
    'status': ['success'], # Valeur r√©elle pour 'status'
    'branch_name': ['develop'], # Valeur r√©elle pour 'branch_name'
    'repo_name': ['repo-api'], # Valeur r√©elle pour 'repo-api'
    'env_type': ['dev'], # Valeur r√©elle pour 'env_type'
    'error_tag': ['None'] # Valeur r√©elle pour 'error_tag'
})

# 3. Appliquer le One-Hot Encoding au nouveau point de donn√©e, avec drop_first=True
new_observation_encoded = pd.get_dummies(new_observation_raw, columns=colonnes_categoriques, drop_first=True)

# 4. Aligner les colonnes du nouveau point de donn√©e encod√© avec les colonnes utilis√©es pour l'entra√Ænement (X_train)
# Les colonnes manquantes seront remplies avec 0, et les colonnes suppl√©mentaires (si elles apparaissent en raison de get_dummies)
# qui n'√©taient pas dans X_train seront supprim√©es.
new_data_point = new_observation_encoded.reindex(columns=feature_columns, fill_value=0)

# Assurez-vous que toutes les colonnes num√©riques sont du bon type pour correspondre √† X_train
for col in feature_columns:
    if col in new_data_point.columns:
        new_data_point[col] = new_data_point[col].astype(X_train[col].dtype)

# 5. Ex√©cuter la pr√©diction sur la nouvelle ligne de donn√©es
predicted_duration = model_loaded.predict(new_data_point)

# 6. Afficher le r√©sultat
print("\n--- R√©sultat de la Pr√©diction ---")
print(f"Dur√©e pr√©dite du pipeline avec 500 lignes de changement : {predicted_duration[0]:.2f} secondes")
print(f"Soit environ {predicted_duration[0] / 60:.2f} minutes.")