### **שיעור: למידה מפוקחת ולמידה בלתי מפוקחת (Supervised & Unsupervised Learning)**

---

## **1. מבוא ללמידת מכונה (Machine Learning)**

**למידת מכונה** היא תחום במדעי הנתונים העוסק בפיתוח אלגוריתמים שמאפשרים למחשבים ללמוד דפוסים מנתונים ללא תכנות מפורש.

**שני סוגים עיקריים של למידת מכונה:**
1. **למידה מפוקחת (Supervised Learning)** – הנתונים כוללים משתנה מטרה (תוצאה רצויה).
2. **למידה בלתי מפוקחת (Unsupervised Learning)** – אין משתנה מטרה, והמטרה היא למצוא דפוסים או מבנים בנתונים.

## **2. למידה מפוקחת (Supervised Learning)**

### **הגדרת הבעיה:**
נתונים כוללים **משתנה מטרה** \( Y \) ותכונות **\( X_1, X_2, \dots, X_p \)**.

הנחת המודל היא:

\[
Y = f(X) + \varepsilon
\]

- \( f(X) \) מייצגת את ההשפעה השיטתית של המשתנים הבלתי-תלויים על \( Y \).
- \( \varepsilon \) הוא משתנה שגיאה אקראי.

**המטרה:** למצוא אומדן ל-\( f \) כדי שנוכל לבצע **חיזוי (Prediction)** או **הסקה (Inference)**.

### **3. חיזוי (Prediction)**
במצבים שבהם ערכי \( X \) ידועים אך \( Y \) אינו נצפה, אנו משתמשים בפונקציה \( \hat{f}(X) \) לחיזוי \( Y \):

\[
\hat{Y} = \hat{f}(X)
\]

הדיוק של \( \hat{Y} \) תלוי ב:
1. **שגיאה שניתן לצמצם (Reducible Error)** – ניתן לשפר עם בחירת מודל טוב יותר.
2. **שגיאה שלא ניתן לצמצם (Irreducible Error)** – קיימת עקב רעש אקראי במערכת.

In [None]:
from sklearn.linear_model import LinearRegression
import numpy as np
import matplotlib.pyplot as plt

# יצירת נתונים מדומים
np.random.seed(0)
X = np.random.rand(100, 1) * 10  # 100 דגימות של משתנה מסביר X
Y = 2.5 * X + np.random.randn(100, 1) * 2  # משתנה מטרה Y עם רעש

# התאמת מודל רגרסיה לינארית
model = LinearRegression()
model.fit(X, Y)

# חיזוי ערכים חדשים
X_new = np.linspace(0, 10, 100).reshape(-1, 1)
Y_pred = model.predict(X_new)

# הצגת התוצאות
plt.figure(figsize=(10, 6))
plt.scatter(X, Y, alpha=0.7, label="Observed Data", color="blue", edgecolors="black")
plt.plot(X_new, Y_pred, label="Linear Regression Fit", color="red", linewidth=2)
plt.xlabel("X")
plt.ylabel("Y")
plt.title("Supervised Learning: Linear Regression Example")
plt.legend()
plt.grid(True)
plt.show()

# הצגת השיפוע והחיתוך עם הציר
model.coef_[0][0], model.intercept_[0]

## **4. למידה בלתי מפוקחת (Unsupervised Learning)**

### **הגדרת הבעיה:**
במידע נתון רק הווקטורים \( X_i \), ללא משתנה מטרה \( Y \).

המטרה: למצוא **דפוסים** או **קבוצות** בתוך הנתונים.

### **שיטות נפוצות:**
1. **ניתוח רכיבים ראשיים (PCA - Principal Component Analysis)** – מצמצם את הממד של הנתונים תוך שמירה על המידע העיקרי.
2. **ניתוח אשכולות (Clustering Analysis)** – מזהה קבוצות טבעיות בתוך הנתונים.

In [None]:
from sklearn.cluster import KMeans

# יצירת נתונים מדומים
np.random.seed(1)
X_cluster = np.random.rand(200, 2) * 10

# התאמת מודל K-Means עם 3 אשכולות
kmeans = KMeans(n_clusters=3, random_state=1, n_init=10)
clusters = kmeans.fit_predict(X_cluster)

# הצגת התוצאות
plt.figure(figsize=(10, 6))
plt.scatter(X_cluster[:, 0], X_cluster[:, 1], c=clusters, cmap='viridis', alpha=0.7, edgecolors="black")
plt.scatter(kmeans.cluster_centers_[:, 0], kmeans.cluster_centers_[:, 1], color="red", marker="X", s=200, label="Cluster Centers")
plt.xlabel("Feature 1")
plt.ylabel("Feature 2")
plt.title("Unsupervised Learning: K-Means Clustering Example")
plt.legend()
plt.grid(True)
plt.show()

# הצגת המרכזים של האשכולות
kmeans.cluster_centers_