In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# تحميل مجموعة البيانات
df_ad = pd.read_csv('Advertising.csv')

# إزالة العمود 'Unnamed: 0' لأنه عمود فهرس غير ذي صلة
df_ad = df_ad.drop('Unnamed: 0', axis=1)

# تعريف الميزات (X) والهدف (y)
X = df_ad[['TV', 'Radio', 'Newspaper']] # المتغيرات المستقلة
y = df_ad['Sales'] # المتغير التابع

# تقسيم مجموعة البيانات إلى مجموعات تدريب (80%) واختبار (20%)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

print(f"Training set shape: X_train: {X_train.shape}, y_train: {y_train.shape}")
print(f"Testing set shape: X_test: {X_test.shape}, y_test: {y_test.shape}")

Training set shape: X_train: (160, 3), y_train: (160,)
Testing set shape: X_test: (40, 3), y_test: (40,)


In [2]:
# بناء وتدريب نموذج الانحدار العشوائي
# باستخدام المعلمات الافتراضية للتبسيط، ولكن يمكن ضبط هذه المعلمات لتحسين الأداء.
rf_model = RandomForestRegressor(random_state=42)
rf_model.fit(X_train, y_train)

# إجراء التنبؤات على مجموعة الاختبار
y_pred_rf = rf_model.predict(X_test)

# تقييم أداء نموذج الانحدار العشوائي
mse_rf = mean_squared_error(y_test, y_pred_rf)
mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print(f"\nRandom Forest Model Evaluation Metrics:")
print(f"Mean Squared Error (MSE): {mse_rf:.4f}")
print(f"Mean Absolute Error (MAE): {mae_rf:.4f}")
print(f"R-squared Score (R2): {r2_rf:.4f}")


Random Forest Model Evaluation Metrics:
Mean Squared Error (MSE): 0.5907
Mean Absolute Error (MAE): 0.6201
R-squared Score (R2): 0.9813


من المقارنة، يتضح أن نموذج الانحدار العشوائي يتفوق بشكل كبير على نموذج الانحدار الخطي في هذه الحالة:

MSE و MAE: قيم
MSE و MAE لنموذج الانحدار العشوائي أقل بكثير من الانحدار الخطي، مما يشير إلى أن متوسط الأخطاء في تنبؤات الانحدار العشوائي أقل بشكل ملحوظ.
R2 Score: قيمة
 لنموذج الانحدار العشوائي (0.9813) أعلى بكثير من الانحدار الخطي (0.8994). هذا يعني أن نموذج الانحدار العشوائي يفسر حوالي 98.13% من التباين في مبيعات الإعلانات، مقارنة بـ 89.94% للانحدار الخطي. يشير هذا إلى أن نموذج الانحدار العشوائي يتناسب بشكل أفضل مع البيانات ولديه قدرة تنبؤية أعلى.
بشكل عام، يعتبر الانحدار العشوائي خيارًا ممتازًا لهذه المشكلة نظرًا لقدرته على التعامل مع العلاقات غير الخطية وتعزيز الأداء من خلال تجميع أشجار القرار.