### **שיעור: ($(Hypothesis Testing)$)**

---

### **1. מבוא לבדיקת השערות**

**בדיקת השערות** היא תהליך סטטיסטי שבוחן טענות על פרמטרים באוכלוסייה על בסיס נתוני מדגם.

- **השערת אפס (Null Hypothesis - \( $H_0$ \)):**  
  מייצגת את המצב הקיים או את ההנחה שאין שינוי.  
  *למשל:* \( $H_0$: $\mu$ = $\mu_0$ \)

- **השערה חלופית (Alternative Hypothesis - \( $H_1$ \) או \( $H_a$ \)):**  
  מייצגת את מה שאנו מנסים להוכיח או לבדוק אם יש שינוי.  
  *למשל:* \( $H_1$: $\mu$ > $\mu_0$ \)


### **2. סוגי טעויות בבדיקת השערות**

1. **שגיאה מסוג I (Type I Error):**  
   דחיית \( $H_0$ \) כאשר היא נכונה.  
   *ההסתברות לטעות זו מסומנת ב-\( $\alpha$ \), לרוב 0.05.*

2. **שגיאה מסוג II (Type II Error):**  
   קבלת \( $H_0$ \) כאשר \( $H_1$ \) נכונה.  
   *ההסתברות לטעות זו מסומנת ב-\( $\beta$ \).*


### **3. סוגי בדיקות השערות**

1. **בדיקה חד-צדדית מימין (Right-sided Test):**  
   $$[ H_0 : \mu = \mu_0 \quad \text{ו} \quad H_1 : \mu > \mu_0 ]$$

2. **בדיקה חד-צדדית משמאל (Left-sided Test):**  
   
   $$[ H_0 : \mu = \mu_0 \quad \text{ו} \quad H_1 : \mu < \mu_0] $$
   

3. **בדיקה דו-צדדית (Two-sided Test):**  
   
    $$ [H_0 : \mu = \mu_0 \quad \text{ו} \quad H_1 : \mu \neq \mu_0] $$
   


### **4. ביצוע בדיקת השערות**

#### **שיטה 1: שימוש בערך סף (Critical Value)**

1. קובעים ערך קריטי \( $c$ \) לפי רמת מובהקות \( $\alpha$ \).
2. דוחים את \( $H_0$ \) אם ממוצע המדגם \( $\bar{x}$ \) חורג מהערך הקריטי.

#### **שיטה 2: שימוש בערך p (p-value)**

1. מחשבים את ערך ה-\( $p$ \), שהוא ההסתברות לקבל תוצאה קיצונית לפחות כמו זו שנמצאה, בהנחה ש-\( $H_0$ \) נכונה.
2. דוחים את \( $H_0$ \) אם \( $p$ < $\alpha$ \).


### **5. דוגמה: בדיקה חד-צדדית עבור התפלגות בינומיאלית**

נבצע בדיקה חד-צדדית עבור מדגם מהתפלגות בינומיאלית \( $\text{Binomial}(10, 0.2)$ \).

- **השערות לבדיקה:**
 $$ H_0 : \mu = 2 \quad \text{ו} \quad H_1 : \mu > 2 $$


## **ייבוא ספריות דרושות**

נייבא את הספריות הדרושות לעבודה:
- **NumPy**: לחישובים מספריים וליצירת מדגמים אקראיים.
- **Matplotlib**: להצגת גרפים.
- **SciPy.stats**: לחישובים סטטיסטיים כמו ערכי Z ו-p-values.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

## **הגדרת פרמטרים תאורטיים**

אנו בודקים מדגם מהתפלגות בינומיאלית \( $\text{Binomial}(10, 0.2)$ \):
- **\(n = 10\)**: מספר הניסיונות בכל ניסוי.
- **\(p = 0.2\)**: ההסתברות להצלחה בכל ניסוי.
- **\($\mu$ = $n$ $\cdot p = 2$ \)**: תוחלת ההתפלגות.

נגדיר גם את גודל המדגם ומספר האיטרציות לבדיקה חוזרת.

In [None]:
n_trials = 10  # מספר ניסיונות בכל ניסוי
p_success = 0.2  # הסתברות להצלחה בכל ניסוי
sample_size = 100  # גודל המדגם
num_iterations = 1000  # מספר החזרות של הבדיקה

theoretical_mean = n_trials * p_success  # תוחלת תאורטית
theoretical_std = np.sqrt(n_trials * p_success * (1 - p_success))  # סטיית תקן תאורטית
standard_error = theoretical_std / np.sqrt(sample_size)  # שגיאת תקן של ממוצע המדגם

## **חישוב ערך קריטי (c) לבדיקה חד-צדדית**

נבצע בדיקה חד-צדדית עם ההשערות הבאות:
- **\($H_0$: $\mu$ = 2\)** (אין שינוי בממוצע).
- **\($H_1$: $\mu$ > 2\)** (הממוצע גדל).

נחשב את ערך ה-**$Z$** הקריטי ברמת מובהקות \($\alpha$ = 0.05\), ונמצא את ערך הסף \($c$\) שמעליו נדחה את \($H_0$\) י
.

In [None]:
alpha = 0.05  # רמת מובהקות לבדיקה חד-צדדית
z_critical = norm.ppf(1 - alpha)  # ערך z קריטי לבדיקה חד-צדדית
c = theoretical_mean + z_critical * standard_error  # חישוב ערך סף c

print(f"ערך קריטי (c): {c:.3f}")

## **ביצוע בדיקת השערות באמצעות ערך קריטי**

נבצע בדיקה על 1000 דגימות אקראיות מהתפלגות בינומיאלית, ונבדוק בכל פעם האם ממוצע הדגימה חורג מהערך הקריטי \($c$ \). אם כן, נדחה את \($H_0$\) י .

In [None]:
rejections_critical = 0  # ספירת דחיות של H0

for _ in range(num_iterations):
    sample = np.random.binomial(n=n_trials, p=p_success, size=sample_size)
    sample_mean = np.mean(sample)
    if sample_mean > c:
        rejections_critical += 1

print(f"מספר דחיות של H0 מתוך {num_iterations} איטרציות: {rejections_critical}")
print(f"אחוז דחיות: {(rejections_critical / num_iterations) * 100:.2f}%")

## **ביצוע בדיקת השערות באמצעות p-value**

בבדיקה זו, נחשב עבור כל דגימה את **סטטיסטי הבדיקה ($Z$)** ואת **$p-value$** המתאים. אם ה-$p-value$ קטן מרמת המובהקות \($\alpha$\), נדחה את \($H_0$\) י.

In [None]:
rejections_p_value = 0  # ספירת דחיות של H0

for _ in range(num_iterations):
    sample = np.random.binomial(n=n_trials, p=p_success, size=sample_size)
    sample_mean = np.mean(sample)
    z_score = (sample_mean - theoretical_mean) / standard_error
    p_value = 1 - norm.cdf(z_score)
    if p_value < alpha:
        rejections_p_value += 1

print(f"מספר דחיות של H0 באמצעות p-value מתוך {num_iterations} איטרציות: {rejections_p_value}")
print(f"אחוז דחיות באמצעות p-value: {(rejections_p_value / num_iterations) * 100:.2f}%")

## **השוואת התוצאות**

כעת נשווה את מספר הדחיות בשתי השיטות:
1. **באמצעות ערך קריטי**.
2. **באמצעות $p-value$**.

אם התוצאות דומות, זה מאשש את עקביות השיטות.

In [None]:
print(f"\nהשוואת תוצאות:")
print(f"בדיקה באמצעות ערך קריטי: {rejections_critical} דחיות ({(rejections_critical / num_iterations) * 100:.2f}%)")
print(f"בדיקה באמצעות p-value: {rejections_p_value} דחיות ({(rejections_p_value / num_iterations) * 100:.2f}%)")