# 📊 סיכום: הערכת מודלים (Model Assessment)

## מבוא
בעת ביצוע למידת מכונה, קיימות שיטות רבות לאימון מודלים, אך אין שיטה אחת שתעבוד בצורה הטובה ביותר על כל מערך נתונים.  
לכן, יש צורך **להעריך ולהשוות את ביצועי המודלים** כדי לבחור את המתאים ביותר לבעיה הנתונה.

### מטרות הערכת מודלים:
1. **מדידת איכות המודל** – עד כמה המודל מתאים לנתונים.
2. **השוואת מודלים שונים** – כדי לבחור את המודל הטוב ביותר.
3. **הימנעות מהטיות** – להימנע מלמידת יתר ($Overfitting$) או למידת חסר ($Underfitting$).י


## שגיאה ממוצעת ריבועית ($Mean Squared Error - MSE$). י
בבעיות **רגרסיה**, המדד המרכזי להערכת איכות המודל הוא **$MSE$**, המחושב לפי הנוסחה:

$$[ MSE = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{f}(x_i))^2 ]$$

ככל שה-$MSE$ נמוך יותר, כך החיזוי טוב יותר.


In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# יצירת נתונים
X = np.random.rand(100, 1) * 10
y = 3 * X.squeeze() + np.random.randn(100) * 2

# חלוקת הנתונים לסט אימון וסט מבחן
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# אימון מודל רגרסיה ליניארית
model = LinearRegression()
model.fit(X_train, y_train)

# חיזוי ובדיקת MSE
y_pred_train = model.predict(X_train)
y_pred_test = model.predict(X_test)

mse_train = mean_squared_error(y_train, y_pred_train)
mse_test = mean_squared_error(y_test, y_pred_test)

print(f'MSE באימון: {mse_train:.2f}')
print(f'MSE במבחן: {mse_test:.2f}')

MSE באימון: 4.71
MSE במבחן: 3.10


## יש $Trade-Off$ בין הטיה לשונות ($Bias-Variance Trade-Off$) י
$$[ MSE = \text{Bias}^2 + \text{Variance} + \text{Irreducible Error} ]$$

- **הטיה ($Bias$)** – עד כמה המודל רחוק מהאמת.
- **שונות ($Variance$)** – עד כמה המודל משתנה בהתאם לנתונים.

🔄 **האיזון הנכון בין הטיה לשונות חיוני להשגת מודל טוב.**


In [2]:
from sklearn.model_selection import cross_val_score

# חישוב MSE באמצעות 5-Fold Cross Validation
mse_cv = -cross_val_score(model, X, y, cv=5, scoring='neg_mean_squared_error').mean()
print(f'MSE באמצעות 5-Fold Cross Validation: {mse_cv:.2f}')

MSE באמצעות 5-Fold Cross Validation: 4.79


## רגולריזציה (Regularization) למניעת למידת יתר
רגולריזציה מוסיפה ענישה לפרמטרים כדי להפחית שונות ולמנוע למידת יתר.

-  י $Lasso Regression$  (מבוסס $L1$) – מאפס משתנים לא חשובים.
-  י $Ridge Regression$  (מבוסס $L2$) – מקטין משקל של משתנים בלי לאפס אותם.


In [None]:
from sklearn.linear_model import Ridge

ridge_model = Ridge(alpha=1.0)
ridge_model.fit(X_train, y_train)

y_pred_ridge = ridge_model.predict(X_test)
mse_ridge = mean_squared_error(y_test, y_pred_ridge)

print(f'MSE עם Ridge: {mse_ridge:.2f}')

## סיכום
- **הערכת מודלים היא שלב קריטי בבחירת המודל הטוב ביותר.**
- **שגיאת מבחן ($Test Error$) היא המדד החשוב ביותר להערכת ביצועי המודל.**
- **שיטות כמו $CrossValidation$ ו-$Regularization$ מסייעות לשיפור הערכת ביצועים.**

📌 **שימוש נכון בשיטות אלו משפר משמעותית את המודלים שלך! 🚀**
