## י הגדרה של $Cross-Validation$ י  
י קרוס-ולידציה היא טכניקה להערכת הביצועים של מודלים חישוביים (בעיקר בתחום למידת מכונה וסטטיסטיקה) באמצעות חלוקה של הנתונים לקבוצות נפרדות של **אימון** ו**בדיקה**. המטרה היא להעריך כיצד המודל יתפקד על נתונים חדשים שלא ראה בעבר ולמנוע **למידת יתר ($Overfitting$)**. י  

---

## י הרחבה: למה משתמשים בקרוס-ולידציה? י  
י כאשר מאמנים מודל למידת מכונה, נהוג לחלק את הנתונים לשתי קבוצות: י  
1. **קבוצת אימון ($Training Set$)** – משמשת ללמידת הפרמטרים של המודל.  
2. **קבוצת בדיקה ($Test Set$)** – משמשת לבחינת הביצועים של המודל.  

י הבעיה היא שאם נחלק את הנתונים באופן חד-פעמי, התוצאה תלויה באופן שבו בוצעה החלוקה, ועלולה להיות מוטה. כאן נכנסת הקרוס-ולידציה: היא מאפשרת לבדוק את המודל על קבוצות שונות מתוך הנתונים וכך לקבל הערכה אמינה יותר של הביצועים. י  

---

## י סוגים של קרוס-ולידציה י  

### י 1. **$K-Fold$ Cross-Validation** י  
י זוהי השיטה הנפוצה ביותר. הנתונים מחולקים ל- **$K$ קבוצות ($Folds$)** שוות בגודלן. התהליך מתבצע כך: י  
- בכל איטרציה, אחת הקבוצות משמשת כקבוצת בדיקה, והשאר משמשות לאימון.  
- התהליך חוזר **$K$ פעמים**, כאשר כל קבוצה משמשת פעם אחת לבדיקה.  
- בסוף התהליך, ממוצע המדדים מחושב כדי להעריך את ביצועי המודל.  

#### י יתרונות וחסרונות: י  
- ✅ שימוש טוב בכל הנתונים, הקטנת ההטיה מהחלוקה הראשונית.  
- ❌ דורש זמן חישוב רב אם $K$ גדול.  

### י 2. **Leave-One-Out Cross-Validation ($LOO-CV$)** י  
י במקרה הזה, בכל איטרציה **דוגמה אחת בלבד** משמשת לבדיקה, וכל שאר הדוגמאות משמשות לאימון.  
כלומר, אם יש **$N$ דוגמאות**, מבצעים **$N$ איטרציות**. י  

#### י יתרונות וחסרונות: י  
- ✅ מנצל את כל הנתונים לאימון.  
- ❌ זמן חישוב ארוך מאוד אם יש הרבה דוגמאות, רגיש לרעש.  

### י 3. **Stratified $K-Fold$ Cross-Validation** י  
י שיטה דומה ל-$K-Fold$, אבל עם שמירה על **התפלגות הקטגוריות** בקבוצות. י  

#### י יתרונות וחסרונות: י  
- ✅ מתאים במיוחד לנתונים לא מאוזנים.  
- ❌ דורש יותר עיבוד מאשר $K-Fold$ רגיל.  

### י 4. **Repeated $K-Fold$ Cross-Validation** י  
י כמו $K-Fold$, אבל מבוצע **מספר פעמים עם חלוקה שונה של הנתונים בכל פעם**. י  

#### י יתרונות וחסרונות: י  
- ✅ מייצר הערכה יציבה יותר של ביצועי המודל.  
- ❌ זמן חישוב ממושך.  

### י 5. **Time Series Cross-Validation ($Rolling Window$)** י  
י כאשר יש סדר זמן בנתונים (למשל, מחירי מניות או נתוני חיזוי מזג אוויר), אסור לבצע חלוקה רנדומלית כי הנתונים מהעבר משפיעים על העתיד. י  

#### י יתרונות וחסרונות: י  
- ✅ מתאים לבעיות סדרות-זמן.  
- ❌ לא ניתן להשתמש בכל הנתונים בו-זמנית.  

---

## י איך קרוס-ולידציה עוזרת למנוע $Overfitting$? י  
- י אם נאמן מודל על אותם נתונים שאחר כך נבדוק אותו עליהם – התוצאה תהיה אופטימית ולא תשקף את היכולת האמיתית של המודל. י  
- י קרוס-ולידציה בודקת את המודל על **נתונים חדשים** בכל איטרציה, מה שמדמה את המציאות שבה נתונים עתידיים שונים מהנתונים שעליהם המודל אומן. י  
- י בכך, אנו מקבלים הערכת ביצועים אמינה יותר וגם מזהים אם המודל **מתאים מדי לנתונים הספציפיים ($Overfitting$)**. י  

---

## י דוגמא לקוד ב-$Python$ עם $K-Fold$ Cross-Validation י  
י להלן דוגמא לשימוש ב-$K-Fold$ קרוס-ולידציה עם **מודל למידת מכונה בספריית $scikit-learn$**: י  

---

## י סיכום י  
✅ **קרוס-ולידציה** היא שיטה להערכת ביצועי מודל על ידי חלוקת הנתונים למקטעים שונים.  
✅ **$K-Fold$ Cross-Validation** היא השיטה הפופולרית ביותר, אך קיימות וריאציות כמו $LOO$, $Stratified K-Fold$, ו-$Time Series CV$.  
✅ היא מונעת **הערכת יתר של המודל** ($Overfitting$) ומשפרת את אמינות המדדים.  
✅ זמן הריצה של הקרוס-ולידציה תלוי בגודל הנתונים ובערך $K$ הנבחר.  

י אם יש לך שאלות נוספות או שאתה רוצה שאדגים שיטה אחרת עם קוד, אני כאן! 😊 י  