<a href="https://colab.research.google.com/github/toche7/DataAnalytic/blob/main/Lab9_Hypothesis_testing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Lab 9: Hypothesis Test

การทดสอบสมมติฐาน (Hypothesis Testing) เป็นแนวคิดพื้นฐานในสถิติที่ใช้ในการทำนายและวิเคราะห์ข้อมูลโดยใช้ข้อมูลตัวอย่าง กระบวนการนี้เป็นกระบวนการที่ใช้กันอย่างแพร่หลายในหลายสาขาเช่น วิทยาศาสตร์ ธุรกิจ แพทย์ และสังคมศาสตร์

ขั้นตอนสำคัญในการทดสอบสมมติฐานประกอบด้วย

1. **ระบุสมมติฐานศูนย์ (Null Hypothesis, H0) และสมมติฐานทางเลือก(Alternative Hypothesis, H1 หรือ Ha)**
   - **สมมติฐานศูนย์ (H0):** เป็นสมมติฐานเริ่มต้นหรือสมมติฐานที่ยังไม่มีผลส่งผลมาใด ๆ หรือไม่มีความแตกต่างหรือความสัมพันธ์ใด ๆ ในประชากร มันแทนสถานะปกติ
   - **สมมติฐานทางเลือก (H1 หรือ Ha):** เป็นสมมติฐานที่คุณต้องการทดสอบ ซึ่งแสดงให้เห็นถึงผลกระทบที่มีนัยสำคัญหรือความแตกต่างในประชากร

2. **เลือกระดับความสำคัญ (Significance Level, α):** ระดับความสำคัญ (significance level) บ่งบอกความน่าจะเป็นของการทำข้อผิดพลาดประเภท I (Type I error) ซึ่งคือการปฏิเสธสมมติฐานศูนย์ที่เป็นความจริง ระดับความหมายที่พบบ่อยมีค่าเท่ากับ 0.05 (5%) และ 0.01 (1%) แต่อาจถูกปรับแต่งตามบริบทและระดับความเสี่ยงที่คุณพร้อมรับ

3. **เก็บและวิเคราะห์ข้อมูล:** เก็บตัวอย่างจากประชากรและวิเคราะห์ข้อมูลเพื่อคำนวณสถิติการทดสอบที่บ่งชี้ถึงผลกระทบหรือความแตกต่างที่สัมพันธ์กับสมมติฐานที่เราต้องการทดสอบ

4. **กำหนดการกระจายของสถิติการทดสอบ:** เลือกสถิติการทดสอบที่เหมาะสม (เช่น t-test, chi-squared test, ANOVA) ขึ้นอยู่กับประเภทข้อมูลและคำถามวิจัย กำหนดการกระจายของสถิติการทดสอบภายใต้สมมติฐานศูนย์ (เช่น การกระจายปกติ, การกระจาย t-distribution)

5. **คำนวณสถิติการทดสอบ:** คำนวณค่าสถิติการทดสอบโดยใช้ข้อมูลตัวอย่างและการทดสอบที่เลือก

6. **กำหนดพื้นที่ว่างหรือค่า p-value:**
   - **วิธีการพื้นที่ว่าง (Critical Region Approach):** กำหนดพื้นที่ว่างหรือพื้นที่ปฏิเสธในการกระจายของสถิติการทดสอบ หากค่าสถิติที่คำนวณตกอยู่ในพื้นที่ว่างนี้ คุณจะปฏิเสธสมมติฐานศูนย์
   - **วิธีการค่า p-value (P-value Approach):** คำนวณค่า p-value ซึ่งแทนความน่าจะเป็นในการสังเกตสถิติการทดสอบที่มีค่าสถิติสัมพันธ์กับสถิติที่ได้ หากค่า p-value

In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm

def plot_normal_distribution_and_p_value(mean, std_dev, sample_mean, sample_size, al=0.01, TwoTail = True):
    # Generate data for the normal distribution
    x = np.linspace(mean - 3 * std_dev/np.sqrt(sample_size), mean + 3 * std_dev/np.sqrt(sample_size), 1000)
    y = norm.pdf(x, mean, std_dev/np.sqrt(sample_size))


    criVal = mean + norm.ppf(1- al)*std_dev/np.sqrt(sample_size)
    criVal_ng = mean - norm.ppf(1- al)*std_dev/np.sqrt(sample_size)
    # Create a figure and axes
    fig, ax = plt.subplots()

    # Plot the normal distribution
    ax.plot(x, y, label='Normal Distribution')

    # Calculate the z-score
    z = (sample_mean - mean) / (std_dev / np.sqrt(sample_size))

    # Calculate the p-value for H1 (Alternative Hypothesis)
    p_value = 1 * norm.cdf(-np.abs(z))

    # Calculate the p-value for H0 (Null Hypothesis)

    # Highlight the area under the curve for H1
    if TwoTail == True:
        ax.fill_between(x, 0, y, where=((criVal_ng < x) & (x < criVal)), alpha=0.5, label='P(H1)')
    else:
        ax.fill_between(x, 0, y, where=(x < criVal), alpha=0.5, label='P(H1)')

    # Highlight the area under the curve for H0
    ax.fill_between(x, 0, y,  color='gray',  where=(x >= criVal), alpha=0.5, label='P(H0)')

    if TwoTail == True:
        ax.fill_between(x, 0, y,  color='gray', where=(x <= criVal_ng), alpha=0.5, label='P(H0)')

    # Set labels and legend
    ax.set_xlabel('X')
    ax.set_ylabel('Probability Density')
    ax.set_title('Normal Distribution and Hypothesis Testing')
    ax.axvline(sample_mean, color='green', linestyle='--', label='Sample Mean')
    ax.axvline(criVal, color='red', linestyle='--', label='Critical Value')
    if TwoTail == True:
        ax.axvline(criVal_ng, color='red', linestyle='--', label='Critical Value')

    ax.legend()

    # Show the plot
    plt.show()

    # Return the p-values for H1 and H0
    return p_value



In [None]:
# One-tailed Test
mean_population = 100
std_dev_population = 15
sample_mean = 102
sample_size = 100
alpha = 0.05
P_value = plot_normal_distribution_and_p_value(mean_population, std_dev_population, sample_mean, sample_size, al = alpha, TwoTail = False )

print(f'P-Value: {P_value}')

In [None]:
# Two-tailed Test
mean_population = 100
std_dev_population = 15
sample_mean = 102
sample_size = 100
alpha = 0.025

P_value = plot_normal_distribution_and_p_value(mean_population, std_dev_population, sample_mean, sample_size, al = alpha)

print(f'P-Value: {P_value}')

## Hypothesis Test of Brain Size Dataset

In [None]:
import pandas as pd
url = (
"https://gist.githubusercontent.com/miguelpinia/3d589ad7c4365d2686a79bb7962bba04/raw/5fd04ffe66ef3c762deb81fe689b0730ea84e603/brain_size.csv"
)

df = pd.read_csv(url, sep = ';',na_values ='.')

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.info()

ข้อมูล FSIQ (Full Scale IQ), VIQ (Verbal IQ), และ PIQ (Performance IQ) เป็นคะแนน IQ ที่วัดระดับความสมบูรณ์ของความชาญฉลาดหรือความสามารถทางปัญญาของบุคคลในสามด้านหลักต่าง ๆ:

1. **FSIQ (Full Scale IQ)**: คะแนน IQ ระดับความสมบูรณ์ที่บรรจุทั้งความสามารถทางภาษาและความสามารถทางคณิตศาสตร์ มักใช้ในการวัดความสมบูรณ์ของปัญญาทั่วไป.

2. **VIQ (Verbal IQ)**: คะแนน IQ ที่เกี่ยวข้องกับความสามารถทางภาษา มักเกี่ยวข้องกับการสื่อสารทางภาษาพูดและการอ่าน.

3. **PIQ (Performance IQ)**: คะแนน IQ ที่เกี่ยวข้องกับความสามารถทางการปฏิบัติและการแก้ปัญหาทางคณิตศาสตร์และทักษะทางสมาธิ.

ข้อมูลเหล่านี้อาจถูกใช้ในการศึกษาและวิจัยทางสังคมศาสตร์และจิตวิทยาเพื่อให้ความเข้าใจเกี่ยวกับความสามารถทางปัญญาและสมบรูณ์ของบุคคลในสถานการณ์ต่าง ๆ และอาจมีการวิเคราะห์ความสัมพันธ์ระหว่างคะแนน IQ ในแต่ละด้านกับปัจจัยต่าง ๆ อื่น ๆ ที่อาจมีผลต่อความสมบูรณ์ของความสามารถทางปัญญาของบุคคล.

### Hypothesis testing: comparing two groups

#### Student’s t-test: the simplest statistical test

ฟังก์ชัน `ttest_1samp` เป็นฟังก์ชันที่ใช้ในการทดสอบสมมติฐานเพื่อหาค่า t-statistic และ p-value สำหรับการทดสอบว่าค่าเฉลี่ยของตัวแปรสุ่มหนึ่งตัวมีค่าเท่ากับค่าที่กำหนดหรือไม่ โดยใช้ข้อมูลตัวอย่างจากตัวแปรนั้น ๆ และค่าเฉลี่ยที่กำหนด (null hypothesis) เป็นตัวแปรที่ต้องทดสอบ

โดยทั่วไป `ttest_1samp` ใช้งานได้ดังนี้:

```python
scipy.stats.ttest_1samp(sample_data, popmean)
```

- `sample_data`: ข้อมูลตัวอย่างที่คุณต้องการทดสอบ เป็นลิสต์หรืออาร์เรย์ของข้อมูลตัวอย่าง
- `popmean`: ค่าเฉลี่ยที่คุณกำหนดให้เป็นสมมติฐานศูนย์ (null hypothesis) ว่าค่าเฉลี่ยของตัวแปรสุ่มเท่ากับค่านี้

ผลลัพธ์ที่คืนมาจาก `ttest_1samp` มีสองส่วนหลัก:

1. `t-statistic`: ค่า t-statistic คือค่าที่เกิดจากการคำนวณและแสดงถึงความแตกต่างระหว่างค่าเฉลี่ยของข้อมูลตัวอย่างและค่าเฉลี่ยที่กำหนดในสมมติฐานศูนย์ (null hypothesis) โดยถ้าค่า t-statistic มีค่ามากกว่า 0 แสดงว่าค่าเฉลี่ยของข้อมูลตัวอย่างมีความแตกต่างจากค่าเฉลี่ยที่กำหนด

2. `p-value`: ค่า p-value คือค่าที่แสดงความน่าจะเป็นในการสังเกตค่า t-statistic ที่คำนวณได้ โดยต่อไปนี้:
   - ถ้า p-value มีค่าน้อยกว่าระดับความน่าจะเป็น (significance level) ที่คุณกำหนด (โดยทั่วไปใช้ 0.05) คุณจะปฏิเสธสมมติฐานศูนย์ (null hypothesis) และสรุปว่ามีความแตกต่างค่าเฉลี่ย
   - ถ้า p-value มีค่ามากกว่าระดับความน่าจะเป็นที่กำหนด คุณจะไม่ปฏิเสธสมมติฐานศูนย์ และไม่สรุปว่ามีความแตกต่างค่าเฉลี่ย

การใช้ `ttest_1samp` ช่วยให้คุณสามารถทดสอบความสอดคล้องของค่าเฉลี่ยของข้อมูลตัวอย่างกับค่าที่คุณมีสมมติฐานเป็นอย่างไรบ้าง ซึ่งเป็นกระบวนการสำคัญในการวิเคราะห์และการตัดสินใจทางสถิติ

In [None]:
from scipy import stats

###### 1-sample t-test: testing the value of a population mean

In [None]:
stats.ttest_1samp(df['VIQ'], 0)

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Given values
t_statistic = 30.08809997084933
p_value = 1.3289196468727879e-28
dgf = 39

# Generate x values for the t-distribution
x = np.linspace(-5, 5, 1000)

# Calculate the t-distribution probability density function (PDF)
pdf = stats.t.pdf(x, dgf)

# Create a figure and axis
fig, ax = plt.subplots(figsize=(10, 6))

# Plot the t-distribution
ax.plot(x, pdf, label='t-distribution (df=39)', color='blue')

# Highlight the t-statistic with a vertical line
ax.axvline(t_statistic, color='red', linestyle='--', label=f't-statistic = {t_statistic:.2f}')

# Shade the area corresponding to the p-value
x_shaded = np.linspace(-5, t_statistic, 1000)
pdf_shaded = stats.t.pdf(x_shaded, dgf)
ax.fill_between(x_shaded, pdf_shaded, color='gray', alpha=0.5, label=f'p-value = {p_value:.2e}')

# Add labels and legend
ax.set_xlabel('t-statistic')
ax.set_ylabel('Probability Density')
ax.set_title('t-Distribution with t-statistic and p-value')
ax.legend()

# Show the plot
plt.grid(True)
plt.show()


ผลลัพธ์จากการทดสอบสมมติฐาน (hypothesis test) ด้วยฟังก์ชัน ttest_1samp ที่ได้มามีรายละเอียดดังนี้:

- `statistic`: ค่า t-statistic มีค่าเท่ากับ 30.08809997084933
- `pvalue`: ค่า p-value มีค่าเท่ากับ 1.3289196468727879e-28 (หรือเขียนเป็นรูปแบบทางวิทยาศาสตร์เป็น 1.3289196468727879 x 10^(-28))
- `df`: ค่าตรงกลาง (degrees of freedom) มีค่าเท่ากับ 39

ดังนั้นการทดสอบสมมติฐานนี้มีผลสรุปดังนี้:

- ค่า t-statistic มีค่ามากกว่า 0 (30.08809997084933) ซึ่งแสดงให้เห็นว่าค่าเฉลี่ยของข้อมูลตัวอย่างมีความแตกต่างจากค่าเฉลี่ยที่กำหนดในสมมติฐานศูนย์

- ค่า p-value มีค่าน้อยกว่าระดับความน่าจะเป็นที่กำหนด (1.3289196468727879e-28 < 0.05) ซึ่งแสดงให้เห็นว่ามีความเป็นไปได้น้อยมากที่จะพบค่า t-statistic แบบนี้ หากสมมติฐานศูนย์เป็นความจริง

ดังนั้น ผลการทดสอบสมมติฐานระบุว่าค่าเฉลี่ยของข้อมูลตัวอย่างแตกต่างจากค่าเฉลี่ยที่กำหนดในสมมติฐานศูนย์ และความแตกต่างนี้มีความน่าจะเป็นที่สูงมาก (p-value มีค่าน้อยมาก) ดังนั้นคุณสามารถปฏิเสธสมมติฐานศูนย์และสรุปว่ามีความแตกต่างค่าเฉลี่ยของข้อมูลตัวอย่างนี้ได้

###### 2-sample t-test: testing for difference across populations

 ฟังก์ชัน `stats.ttest_ind` ใช้ในการทดสอบสมมติฐานเพื่อหาค่า t-statistic และ p-value สำหรับการทดสอบความแตกต่างระหว่างค่าเฉลี่ยของสองกลุ่มข้อมูลตัวอย่าง (Independent Samples T-Test) โดยใช้ข้อมูลจากสองกลุ่มต่าง ๆ ซึ่งอยู่ในรูปแบบของตัวแปรตามมาตรฐาน (continuous variables)

การใช้งาน `stats.ttest_ind` มีรูปแบบดังนี้:

```python
from scipy import stats

t_statistic, p_value = stats.ttest_ind(group1, group2)
```

- `group1` และ `group2`: คือข้อมูลตัวอย่างจากกลุ่มที่คุณต้องการเปรียบเทียบ โดย `group1` และ `group2` ต้องเป็นลิสต์หรืออาร์เรย์ของข้อมูลตัวอย่างจากกลุ่มที่คุณต้องการเปรียบเทียบ

ผลลัพธ์ที่คืนมาจาก `stats.ttest_ind` มีสองส่วนหลัก:

- `t_statistic`: ค่า t-statistic ที่คำนวณจากข้อมูลตัวอย่างของกลุ่มทั้งสอง มันบ่งชี้ถึงความแตกต่างระหว่างค่าเฉลี่ยของกลุ่มต่าง ๆ

- `p_value`: ค่า p-value คือความน่าจะเป็นในการสังเกตค่า t-statistic ที่คำนวณได้ ถ้า p-value มีค่าน้อยกว่าระดับความน่าจะเป็นที่กำหนด (โดยทั่วไปใช้ 0.05) คุณจะสามารถปฏิเสธสมมติฐานศูนย์ (null hypothesis) และสรุปว่ามีความแตกต่างระหว่างกลุ่ม

การใช้ `stats.ttest_ind` ช่วยให้คุณสามารถทดสอบว่ามีความแตกต่างในค่าเฉลี่ยระหว่างสองกลุ่มข้อมูลตัวอย่างหรือไม่ โดยใช้การทดสอบ t-statistic และ p-value เป็นเครื่องมือสถิติที่มีประโยชน์ในการตัดสินใจทางสถิติในการวิเคราะห์ข้อมูล

In [None]:
df

In [None]:
female_viq = df[df['Gender'] == 'Female']['VIQ']
male_viq = df[df['Gender'] == 'Male']['VIQ']
stats.ttest_ind(female_viq, male_viq)


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Given values
t_statistic = -0.7726161723275012
p_value = 0.44452876778583217

# Degrees of freedom (you may need to specify this)
dgf = 39  # You can change this value if you have a specific df

# Generate x values for the t-distribution
x = np.linspace(-5, 5, 1000)

# Calculate the t-distribution probability density function (PDF)
pdf = stats.t.pdf(x, dgf)

# Create a figure and axis
fig, ax = plt.subplots(figsize=(10, 6))

# Plot the t-distribution
ax.plot(x, pdf, label=f't-distribution (df={df})', color='blue')

# Highlight the t-statistic with a vertical line
ax.axvline(t_statistic, color='red', linestyle='--', label=f't-statistic = {t_statistic:.2f}')

# Shade the area corresponding to the p-value
if t_statistic < 0:
    x_shaded = np.linspace(-5, t_statistic, 1000)
else:
    x_shaded = np.linspace(t_statistic, 5, 1000)


pdf_shaded = stats.t.pdf(x_shaded, dgf)
ax.fill_between(x_shaded, pdf_shaded, color='gray', alpha=0.5, label=f'p-value = {p_value:.2f}')

# Add labels and legend
ax.set_xlabel('t-statistic')
ax.set_ylabel('Probability Density')
ax.set_title('t-Distribution with t-statistic and p-value')
#ax.legend();

# Show the plot
plt.grid(True)
plt.show()


In [None]:
stats.t.cdf(t_statistic,dgf)*2

ผลลัพธ์จากการทดสอบสมมติฐาน (hypothesis test) ด้วยฟังก์ชัน `stats.ttest_ind` ที่มีรายละเอียดดังนี้:

- `statistic`: ค่า t-statistic มีค่าเท่ากับ -0.7726161723275012
- `pvalue`: ค่า p-value มีค่าเท่ากับ 0.44452876778583217

ดังนั้น ผลการทดสอบสมมติฐานระบุว่า:

- ค่า t-statistic มีค่าน้อยกว่า 0 (-0.7726161723275012) แสดงให้เห็นว่าค่าเฉลี่ยของกลุ่มตัวอย่างสองกลุ่มนั้นมีความแตกต่างระหว่างกันทางสถิติที่ไม่มีนัยสำคัญ

- ค่า p-value มีค่ามากกว่าระดับความน่าจะเป็นที่กำหนด (0.44452876778583217 > 0.05) ซึ่งแสดงให้เห็นว่ามีความน่าจะเป็นสูงมากที่จะไม่พบความแตกต่างค่าเฉลี่ยระหว่างกลุ่มตัวอย่างนี้ ดังนั้นคุณไม่สามารถปฏิเสธสมมติฐานศูนย์ (null hypothesis) และสรุปว่าไม่มีความแตกต่างระหว่างกลุ่ม

ในที่นี้ค่า p-value มากกว่าระดับความน่าจะเป็นที่มักใช้ (0.05) ซึ่งหมายความว่าไม่มีหลักฐานทางสถิติที่มีนัยสำคัญที่จะรองรับการปฏิเสธสมมติฐานศูนย์ ดังนั้นคุณไม่สามารถสรุปได้ว่ามีความแตกต่างค่าเฉลี่ยระหว่างกลุ่ม

#### Paired tests: repeated measurements on the same individuals

การทดสอบแบบจับคู่ (paired tests) เป็นการทดสอบทางสถิติที่ใช้ในการเปรียบเทียบข้อมูลสองชุดที่เกี่ยวข้องกัน ซึ่งถูกเก็บมาจากบุคคลหรือกลุ่มเดียวกัน โดยมักใช้ในสถานการณ์ที่ต้องการหาความแตกต่างระหว่างข้อมูลสองชุดนี้

สถานการณ์ที่ใช้การทดสอบแบบจับคู่ได้แก่

1. การศึกษาก่อนและหลัง: เมื่อคุณวัดบุคคลหรือกลุ่มเดียวกันก่อนและหลังจากได้รับการรักษาหรือกระทำ คุณต้องการประเมินว่ามีผลกระทบอย่างมีนัยสำคัญหรือไม่
2. การจับคู่: เมื่อคุณมีคู่ของบุคคลหรือกลุ่มที่จับคู่กันโดยอ้างอิงถึงลักษณะบางอย่าง (เช่น อายุ หรือเพศ) และคุณต้องการเปรียบเทียบตัวแปรสองตัวที่เกี่ยวข้องในแต่ละคู่
3. การวัดซ้ำ: เมื่อคุณรวบรวมข้อมูลในกลุ่มบุคคลหรือกลุ่มเดียวกันในช่วงเวลาหลาย ๆ ครั้ง และคุณต้องการตรวจสอบว่ามีการเปลี่ยนแปลงที่มีนัยสำคัญ



In [None]:
stats.ttest_rel(df['FSIQ'], df['PIQ'])

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import scipy.stats as stats

# Given values
t_statistic = 1.7842019405859857
p_value = 0.08217263818364236
dgf = 39

# Generate x values for the t-distribution
x = np.linspace(-5, 5, 1000)

# Calculate the t-distribution probability density function (PDF)
pdf = stats.t.pdf(x, dgf)

# Create a figure and axis
fig, ax = plt.subplots(figsize=(10, 6))

# Plot the t-distribution
ax.plot(x, pdf, label='t-distribution (df=39)', color='blue')

# Highlight the t-statistic with a vertical line
ax.axvline(t_statistic, color='red', linestyle='--', label=f't-statistic = {t_statistic:.2f}')

# Shade the area corresponding to the p-value
if t_statistic < 0:
    x_shaded = np.linspace(-5, t_statistic, 1000)
else:
    x_shaded = np.linspace(t_statistic, 5, 1000)

pdf_shaded = stats.t.pdf(x_shaded, dgf)
ax.fill_between(x_shaded, pdf_shaded, color='gray', alpha=0.5, label=f'p-value = {p_value:.2f}')

# Add labels and legend
ax.set_xlabel('t-statistic')
ax.set_ylabel('Probability Density')
ax.set_title('t-Distribution with t-statistic and p-value')
ax.legend()

# Show the plot
plt.grid(True)
plt.show()


In [None]:
(1 - stats.t.cdf(t_statistic,dgf))

In [None]:
import pandas as pd
import matplotlib.pyplot as plt

# Create a new figure and axis
fig, ax = plt.subplots()

# Create a box plot of the 'serial' column in the pandas DataFrame
df[['FSIQ','PIQ']].plot.box(ax=ax)
# Add labels and title to the plot
ax.set_xlabel('FSIQ - PIQ')
ax.set_ylabel('Values')
ax.set_title('Paired tests')

# Display the plot
plt.show()

คำสั่ง `stats.ttest_rel(df['FSIQ'], df['PIQ'])` เป็นคำสั่งในการดำเนินการทดสอบแบบจับคู่ (paired t-test) ระหว่างตัวแปร `FSIQ` และ `PIQ` โดย `df` เป็น DataFrame ที่บรรจุข้อมูลของทั้งสองตัวแปร

ผลลัพธ์ที่ได้คือ:

- `statistic`: ค่า t-statistic มีค่าเท่ากับ 1.7842019405859857
- `pvalue`: ค่า p-value มีค่าเท่ากับ 0.08217263818364236
- `df`: ค่าตรงกลาง (degrees of freedom) มีค่าเท่ากับ 39

ดังนั้น ผลการทดสอบระบุว่ามีความแตกต่างระหว่างค่าเฉลี่ยของ `FSIQ` และ `PIQ` ที่ระดับความเสี่ยง 0.05 โดยมี t-statistic เท่ากับ 1.7842019405859857 และ p-value เท่ากับ 0.08217263818364236

ค่า p-value นี้มากกว่า 0.05 ซึ่งแสดงให้เห็นว่าไม่สามารถปฏิเสธสมมติฐานศูนย์ (null hypothesis) ที่ระดับความเสี่ยง 0.05 ได้ ดังนั้น คุณอาจสรุปได้ว่าไม่มีความแตกต่างสถิติที่น่าสนใจระหว่าง `FSIQ` และ `PIQ` ณ ระดับความเสี่ยง 0.05 แต่ควรระมัดระวังว่าค่า p-value 0.08217263818364236 นั้นอาจยังแสดงให้เห็นความน่าจะเป็นสูงกว่าระดับความเสี่ยงที่คุณเลือกไว้เป็น 0.1 หรือระดับอื่น ๆ ที่ต้องการตรวจสอบเพิ่มเติม

การทดสอบนี้จะให้ผลเท่ากับการทดสอบด้วย 1 sample t-test ดังนี้

In [None]:
stats.ttest_1samp(df['FSIQ'] - df['PIQ'], 0)

In [None]:
# Import the necessary libraries
import pandas as pd
import matplotlib.pyplot as plt

# Create a new figure and axis
fig, ax = plt.subplots()

# Create a box plot of the 'serial' column in the pandas DataFrame
(df['FSIQ'] - df['PIQ']).plot.box(ax=ax)

# Add labels and title to the plot
ax.set_xlabel('FSIQ - PIQ')
ax.set_ylabel('Values')
ax.set_title('Box Plot of One Sample Test')

# Display the plot
plt.show()

### Ex 1
จงทดสอบความแตกต่างระหว่าง PID และ  VID

### Ex 2
จงทดสอบความแตกต่างระหว่าง Weight ของเพศหญิงและชาย
