In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split, RandomizedSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, accuracy_score
from scipy.stats import randint

# Charger le dataset
data = pd.read_csv("../OLD_SCRIPT/DatasetmalwareExtrait.csv")

# Séparer les caractéristiques (X) et la cible (y)
X = data.drop(columns=["legitimate"])
y = data["legitimate"]

# Diviser les données en ensembles d'entraîment et de test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Définir le modèle et les distributions des hyperparamètres pour la recherche
model = RandomForestClassifier(random_state=42)
param_dist_random_forest = {
    'n_estimators': randint(50, 150),
    'max_depth': [10, 20],
    'min_samples_split': randint(2, 6),
    'min_samples_leaf': randint(1, 3)
}

# Effectuer la recherche aléatoire avec validation croisée
random_search_random_forest = RandomizedSearchCV(
    estimator=model,
    param_distributions=param_dist_random_forest,
    n_iter=50,  # Nombre d'évaluations
    cv=5,
    scoring='accuracy',
    random_state=42,
    n_jobs=-1
)
random_search_random_forest.fit(X_train, y_train)

# Meilleurs hyperparamètres trouvés
print("Meilleurs hyperparamètres :", random_search_random_forest.best_params_)

# Prédictions sur l'ensemble de test
y_pred = random_search_random_forest.best_estimator_.predict(X_test)

# Rapport de classification
print("\nRapport de classification :\n")
print(classification_report(y_test, y_pred))

# Méthode pour évaluer le modèle
def evaluate_model(model, X_test, y_test):
    accuracy = accuracy_score(y_test, model.predict(X_test))
    print(f"\nPrécision du modèle : {accuracy:.2f}")
    return accuracy

# Évaluer le modèle
evaluate_model(random_search_random_forest.best_estimator_, X_test, y_test)

Meilleurs hyperparamètres : {'max_depth': 20, 'min_samples_leaf': 1, 'min_samples_split': 3, 'n_estimators': 133}

Rapport de classification :

              precision    recall  f1-score   support

           0       0.99      0.99      0.99     19186
           1       0.98      0.99      0.99      8303

    accuracy                           0.99     27489
   macro avg       0.99      0.99      0.99     27489
weighted avg       0.99      0.99      0.99     27489


Précision du modèle : 0.99


0.99137836952963