# 📊 סיכום: רגרסיה ליניארית פשוטה (Simple Linear Regression)

## מבוא
רגרסיה ליניארית פשוטה מניחה כי קיים קשר **ליניארי** בין משתנה תלוי $ Y $ לבין משתנה בלתי תלוי אחד $ X $.  
המודל מתואר על ידי המשוואה:

\[ Y = \beta_0 + \beta_1 X + \varepsilon \]

כאשר:
- $ \beta_0 $ – חותך (intercept)
- $ \beta_1 $ – מקדם הרגרסיה (slope)
- $ \varepsilon $ – שגיאה מקרית עם תוחלת 0

**מטרת הרגרסיה** היא למצוא את הערכים המוערכים $ \hat{\beta}_0, \hat{\beta}_1 $ כך שנוכל לחזות את $ Y $ עבור ערך נתון של $ X $.



## אמידת המקדמים – שיטת הריבועים הפחותים (Least Squares Estimation)
כדי לאמוד את הפרמטרים $ \beta_0 $ ו-$ \beta_1 $, אנו מחפשים ערכים הממזערים את סכום ריבועי השגיאות (RSS):

\[ RSS = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2 \]

בהתאם לנוסחה:

\[
\hat{\beta}_1 = \frac{\sum_{i=1}^{n} (x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n} (x_i - \bar{x})^2}
\]

\[
\hat{\beta}_0 = \bar{y} - \hat{\beta}_1 \bar{x}
\]

💡 **יתרון מרכזי:** חישוב פשוט, קל להבנה ולפרשנות.



In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import statsmodels.api as sm

# יצירת נתונים לדוגמה
np.random.seed(42)
X = np.random.rand(100, 1) * 10  # משתנה בלתי תלוי
y = 2 + 3 * X.squeeze() + np.random.randn(100) * 2  # משתנה תלוי עם רעש

# התאמת מודל רגרסיה ליניארית
X_with_const = sm.add_constant(X)  # הוספת חותך
model = sm.OLS(y, X_with_const).fit()

# הצגת תוצאות הרגרסיה
print(model.summary())

# חיזוי ערכים
y_pred = model.predict(X_with_const)

# גרף הרגרסיה
plt.scatter(X, y, label="נתוני אמת")
plt.plot(X, y_pred, color='red', label="רגרסיה ליניארית")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.show()


## שיפורי מודל – טרנספורמציות משתנים
אם הקשר בין המשתנים אינו ליניארי, ניתן לשפר את המודל על ידי טרנספורמציות:
1. **לוגריתם של המשתנה הבלתי תלוי**: $ X' = \log(X) $
2. **משתנה בריבוע**: $ X' = X^2 $



In [None]:
X_squared = X ** 2
X_with_const_squared = sm.add_constant(X_squared)

# התאמת מודל רגרסיה ליניארית עם משתנה בריבוע
model_squared = sm.OLS(y, X_with_const_squared).fit()
print(model_squared.summary())

# חיזוי וגרף
y_pred_squared = model_squared.predict(X_with_const_squared)
plt.scatter(X, y, label="נתוני אמת")
plt.plot(X, y_pred_squared, color='green', label="רגרסיה פולינומית")
plt.xlabel("X")
plt.ylabel("Y")
plt.legend()
plt.show()


## סיכום
✔ **רגרסיה ליניארית פשוטה** היא כלי בסיסי לניבוי והבנת קשרים בין משתנים.  
✔ ניתן להעריך את **איכות המודל** באמצעות $ R^2 $, סטיות תקן ומבחן $ t $.  
✔ כאשר הקשר **אינו ליניארי**, ניתן להשתמש **בטרנספורמציות** לשיפור הדיוק.  

📌 **למידת מכונה מתחילה מרגרסיה ליניארית – וזה הצעד הראשון שלך! 🚀**
