<a href="https://colab.research.google.com/github/enasshalolh/my_coulb_project/blob/main/AI_Detective_CyberSecurity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

📌 Step 1: Understanding the Dataset



In [30]:

import pandas as pd

# تحميل ملف البيانات
df = pd.read_csv("cyber_data.csv")
print("First 5 rows of the dataset:")
print(df.head())


First 5 rows of the dataset:
             timestamp  user_id  network_speed  files_accessed  \
0  2024-01-01 00:00:00     1102             19              22   
1  2024-01-01 01:00:00     1435             25              18   
2  2024-01-01 02:00:00     1860             80              30   
3  2024-01-01 03:00:00     1270             26               4   
4  2024-01-01 04:00:00     1106             32              18   

   suspicious_score  attack_flag  device_type_Laptop  device_type_Mobile  \
0          0.142137            0                   1                   0   
1          0.011707            0                   1                   0   
2          0.422034            0                   0                   1   
3          0.295041            0                   0                   0   
4          0.486000            0                   1                   0   

   device_type_Tablet  
0                   0  
1                   0  
2                   0  
3                   1

📌 Step 2: Data Preprocessing

In [31]:
# التحقق من القيم المفقودة في البيانات
missing_values = df.isnull().sum()
print("Missing values in each column:")
print(missing_values)

# حذف الأعمدة غير الضرورية
df_cleaned = df.drop(columns=["timestamp", "user_id"])  # إزالة الأعمدة التي لا تؤثر على التصنيف

print("First 5 rows after preprocessing:")
print(df_cleaned.head())


Missing values in each column:
timestamp             0
user_id               0
network_speed         0
files_accessed        0
suspicious_score      0
attack_flag           0
device_type_Laptop    0
device_type_Mobile    0
device_type_Tablet    0
dtype: int64
First 5 rows after preprocessing:
   network_speed  files_accessed  suspicious_score  attack_flag  \
0             19              22          0.142137            0   
1             25              18          0.011707            0   
2             80              30          0.422034            0   
3             26               4          0.295041            0   
4             32              18          0.486000            0   

   device_type_Laptop  device_type_Mobile  device_type_Tablet  
0                   1                   0                   0  
1                   1                   0                   0  
2                   0                   1                   0  
3                   0                   0      

 📌 Step 3:Splitting Data into Training and Testing Sets

In [32]:

from sklearn.model_selection import train_test_split
df = pd.read_csv("cyber_data.csv")

# إزالة الأعمدة غير الضرورية
df_cleaned = df.drop(columns=["timestamp", "user_id"])  # إزالة الأعمدة التي لا تؤثر على التصنيف

# تحديد الميزات (X) والمتغير المستهدف (y)
X = df_cleaned.drop(columns=["attack_flag"])  # جميع الأعمدة باستثناء "attack_flag"
y = df_cleaned["attack_flag"]  # العمود المستهدف

# تقسيم البيانات إلى 80% تدريب و 20% اختبار
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# طباعة حجم بيانات التدريب والاختبار
print("Training set size:", X_train.shape)
print("Testing set size:", X_test.shape)


Training set size: (800, 6)
Testing set size: (200, 6)


Step 4: Training the Machine Learning Model

In [33]:

from sklearn.ensemble import RandomForestClassifier

# إنشاء نموذج Random Forest
rf_model = RandomForestClassifier(n_estimators=100, max_depth=5, random_state=42)

# تدريب النموذج على بيانات التدريب
rf_model.fit(X_train, y_train)

# تأكيد نجاح التدريب
print("Model Training Completed! ✅")


Model Training Completed! ✅


Step 5: Evaluating the Model


In [34]:

from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# التنبؤ على بيانات الاختبار
y_pred = rf_model.predict(X_test)

# حساب دقة النموذج
accuracy = accuracy_score(y_test, y_pred)

# عرض تقرير التصنيف
classification_rep = classification_report(y_test, y_pred)

# عرض مصفوفة  (Confusion Matrix)
conf_matrix = confusion_matrix(y_test, y_pred)
print("Model Accuracy:", accuracy)
print("\nClassification Report:\n", classification_rep)
print("\nConfusion Matrix:\n", conf_matrix)


Model Accuracy: 0.88

Classification Report:
               precision    recall  f1-score   support

           0       0.88      1.00      0.94       176
           1       0.00      0.00      0.00        24

    accuracy                           0.88       200
   macro avg       0.44      0.50      0.47       200
weighted avg       0.77      0.88      0.82       200


Confusion Matrix:
 [[176   0]
 [ 24   0]]


  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Step 6: Improving the Model


In [35]:
# تجربة تحسين النموذج باستخدام زيادة عدد الأشجار وتغيير العمق الأقصى
from sklearn.ensemble import RandomForestClassifier

rf_improved = RandomForestClassifier(n_estimators=200, max_depth=10, random_state=42)

# إعادة تدريب النموذج
rf_improved.fit(X_train, y_train)

# التنبؤ باستخدام النموذج المحسن
y_pred_improved = rf_improved.predict(X_test)

# إعادة حساب دقة النموذج الجديد
accuracy_improved = accuracy_score(y_test, y_pred_improved)

# إعادة حساب تقرير التصنيف
classification_rep_improved = classification_report(y_test, y_pred_improved)

# إعادة حساب مصفوفة الارتباك
conf_matrix_improved = confusion_matrix(y_test, y_pred_improved)

print("Improved Model Accuracy:", accuracy_improved)
print("\nImproved Classification Report:\n", classification_rep_improved)
print("\nImproved Confusion Matrix:\n", conf_matrix_improved)


Improved Model Accuracy: 0.875

Improved Classification Report:
               precision    recall  f1-score   support

           0       0.88      0.99      0.93       176
           1       0.00      0.00      0.00        24

    accuracy                           0.88       200
   macro avg       0.44      0.50      0.47       200
weighted avg       0.77      0.88      0.82       200


Improved Confusion Matrix:
 [[175   1]
 [ 24   0]]


 Step 7: Using XGBoost Model

In [36]:

from xgboost import XGBClassifier
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# تقليل عدد الأشجار إلى 20 وتحسين المعايير لتسريع التدريب
xgb_model = XGBClassifier(n_estimators=20, learning_rate=0.1, max_depth=3, random_state=42, use_label_encoder=False, eval_metric='logloss')

# تقليل حجم بيانات التدريب إلى 30% لتسريع العملية
X_train_sample = X_train.sample(frac=0.3, random_state=42)
y_train_sample = y_train.loc[X_train_sample.index]

# تدريب النموذج
xgb_model.fit(X_train_sample, y_train_sample)

# التنبؤ على بيانات الاختبار باستخدام XGBoost
y_pred_xgb = xgb_model.predict(X_test)

# حساب دقة النموذج
accuracy_xgb = accuracy_score(y_test, y_pred_xgb)

# تقرير التصنيف
classification_rep_xgb = classification_report(y_test, y_pred_xgb)

conf_matrix_xgb = confusion_matrix(y_test, y_pred_xgb)
print("XGBoost Model Accuracy:", accuracy_xgb)
print("\nClassification Report:\n", classification_rep_xgb)
print("\nConfusion Matrix:\n", conf_matrix_xgb)


XGBoost Model Accuracy: 0.88

Classification Report:
               precision    recall  f1-score   support

           0       0.88      1.00      0.94       176
           1       0.00      0.00      0.00        24

    accuracy                           0.88       200
   macro avg       0.44      0.50      0.47       200
weighted avg       0.77      0.88      0.82       200


Confusion Matrix:
 [[176   0]
 [ 24   0]]


Parameters: { "use_label_encoder" } are not used.

  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Step 8: Finalizing and Saving the Model


In [37]:

import joblib

# حفظ نموذج XGBoost النهائي
joblib.dump(xgb_model, "xgboost_cybercrime_model.pkl")

df_cleaned.to_csv("cleaned_cyber_data.csv", index=False)

print("Model and cleaned dataset saved successfully! ✅")


Model and cleaned dataset saved successfully! ✅
