In [26]:
import pandas as pd
import numpy as np

In [27]:
# Charger ton mini dataset
file_path = "final_dataset.xlsx"  # Mets le bon chemin vers ton fichier
df_base = pd.read_excel(file_path, sheet_name=0)

In [28]:
# Nombre d'exemples à générer
n_positive = 14000  # Label = 1
n_negative = 6000   # Label = 0
total_samples = n_positive + n_negative

In [29]:
# Générer les timestamps en partant du dernier timestamp existant
start_time = pd.to_datetime("2025-02-19 10:00:00")
timestamps = [start_time + pd.Timedelta(minutes=i) for i in range(total_samples)]

In [30]:
# Génération des valeurs réalistes en respectant la structure de ton mini dataset
cpu_usage = np.random.normal(loc=50, scale=20, size=total_samples).clip(0, 100)
ram_usage = np.random.normal(loc=50, scale=25, size=total_samples).clip(0, 100)
disk_usage = np.random.normal(loc=60, scale=15, size=total_samples).clip(0, 100)
network_sent = np.random.randint(0, 1000, size=total_samples)
network_received = np.random.randint(0, 1000, size=total_samples)
temperature = np.random.normal(loc=45, scale=10, size=total_samples).clip(20, 100)
reallocated_sectors = np.random.poisson(lam=2, size=total_samples)
event_id = np.random.randint(1, 10, size=total_samples)

In [31]:
# Génération des labels équilibrés
labels = np.concatenate([np.ones(n_positive), np.zeros(n_negative)])
np.random.shuffle(labels)

In [32]:
# Génération des messages et niveaux de logs
messages = np.random.choice(
    [
        "Erreur disque détectée",
        "Surchauffe CPU",
        "Mémoire insuffisante",
        "Problème réseau",
        "Service arrêté inopinément",
        "Journal système OK"
    ],
    size=total_samples
)

levels = np.where(labels == 1, "Error, Warning", "Information")


In [33]:
# Fonction pour générer une description détaillée en fonction des valeurs réelles
def generate_description(row):
    issues = []
    if row["cpu_usage"] > 85 and row["ram_usage"] > 85:
        issues.append("Surcharge critique du CPU et de la mémoire vive.")
    elif row["cpu_usage"] > 85:
        issues.append("Utilisation CPU anormalement élevée.")
    elif row["ram_usage"] > 90:
        issues.append("Mémoire vive saturée.")
    if row["temperature"] > 60:
        issues.append("Surchauffe détectée du matériel.")
    if row["reallocated_sectors"] > 5:
        issues.append("Secteurs réalloués sur le disque indiquant une possible défaillance.")
    if "Error" in row["level"]:
        issues.append("Présence d'erreurs système dans les logs.")
    return " | ".join(issues) if issues else "Système stable, aucun problème détecté."



In [22]:
# Fonction pour générer une recommandation précise
def generate_recommendation(row):
    actions = []
    if "Surcharge critique du CPU" in row["description"] or "Utilisation CPU anormalement élevée" in row["description"]:
        actions.append("Fermez les applications inutiles et optimisez les processus.")
    if "Mémoire vive saturée" in row["description"]:
        actions.append("Augmentez la mémoire RAM ou réduisez la charge des applications.")
    if "Surchauffe détectée du matériel" in row["description"]:
        actions.append("Vérifiez le refroidissement du système et nettoyez les ventilateurs.")
    if "Secteurs réalloués" in row["description"]:
        actions.append("Effectuez un test SMART du disque et envisagez un remplacement.")
    if "Présence d'erreurs système" in row["description"]:
        actions.append("Analysez les logs système pour identifier la cause des erreurs.")
    return " | ".join(actions) if actions else "Aucune action requise."

In [23]:

# Création du dataset final
df_large = pd.DataFrame({
    "timestamp": timestamps,
    "cpu_usage": cpu_usage,
    "ram_usage": ram_usage,
    "disk_usage": disk_usage,
    "network_sent": network_sent,
    "network_received": network_received,
    "temperature": temperature,
    "reallocated_sectors": reallocated_sectors,
    "event_id": event_id,
    "message": messages,
    "level": levels,
    "label": labels
})

In [34]:

# Appliquer les descriptions et recommandations précises
df_large["description"] = df_large.apply(generate_description, axis=1)
df_large["recommendation"] = df_large.apply(generate_recommendation, axis=1)

In [35]:
# Sauvegarde du fichier final
output_file = "final_dataset_20000_updated.xlsx"
df_large.to_excel(output_file, index=False)

print(f"✅ Dataset généré avec succès et enregistré sous {output_file}")

✅ Dataset généré avec succès et enregistré sous final_dataset_20000_updated.xlsx
