<a href="https://colab.research.google.com/github/toche7/DataAnalytic/blob/main/Lab04Homogeneity.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Homogeneity of Variance

## 1. Import Libraries & Load Data

In [None]:
# Import Libraries
import pandas as pd
import numpy as np
from scipy.stats import levene, pearsonr, spearmanr
import seaborn as sns
import matplotlib.pyplot as plt


In [None]:
# prompt: import iris dataset

import pandas as pd
import numpy as np
from sklearn.datasets import load_iris
iris = load_iris()
iris_df = pd.DataFrame(data= np.c_[iris['data'], iris['target']],
                     columns= iris['feature_names'] + ['target'])

In [None]:
iris_df.head()

## 2. ทดสอบ Homogeneity of Variance (Levene’s Test)

*   **นิยาม**: ทดสอบความเท่าเทียมของความแปรปรวนระหว่างกลุ่มตัวอย่าง
*   **ตัวอย่างโค้ด**:

In [None]:
# prompt: # Levene's Test for iris dataset

# เลือก column ที่ต้องการทดสอบ (เช่น 'sepal length (cm)') และแบ่งข้อมูลตามกลุ่มเป้าหมาย ('target')
group0 = iris_df[iris_df['target'] == 0]['sepal length (cm)']
group1 = iris_df[iris_df['target'] == 1]['sepal length (cm)']
group2 = iris_df[iris_df['target'] == 1]['sepal width (cm)']

# ทำ Levene's Test
levene_statistic1, levene_p_value1 = levene(group0, group1)
# แสดงผลลัพธ์
print(f"Levene's Statistic: {levene_statistic1}")
print(f"Levene's p-value: {levene_p_value1}")

# ตัดสินใจโดยใช้ p-value
alpha = 0.05
if levene_p_value1 < alpha:
    print("Reject null hypothesis: Variances are not equal (Heteroscedasticity)")
else:
    print("Fail to reject null hypothesis: Variances are equal (Homoscedasticity)")

In [None]:
levene_statistic2, levene_p_value2 = levene(group0, group2)
# แสดงผลลัพธ์
print(f"Levene's Statistic: {levene_statistic2}")
print(f"Levene's p-value: {levene_p_value2}")

# ตัดสินใจโดยใช้ p-value
alpha = 0.05
if levene_p_value2 < alpha:
    print("Reject null hypothesis: Variances are not equal (Heteroscedasticity)")
else:
    print("Fail to reject null hypothesis: Variances are equal (Homoscedasticity)")

## 3. คำนวณ Correlation

*   Pearson (linear): pearsonr(x, y)
*   Spearman (rank-based): spearmanr(x, y)
*   **ตัวอย่างโค้ด**:

In [None]:
# prompt: scatter plot of  sepal length and width  of Sentosa

import matplotlib.pyplot as plt
# Assuming 'Sentosa' corresponds to target == 0 in the iris dataset
sentosa_df = iris_df[iris_df['target'] == 0]

plt.figure(figsize=(8, 6))
sns.scatterplot(x='sepal length (cm)', y='sepal width (cm)', data=sentosa_df)
plt.title('Scatter Plot of Sepal Length vs Sepal Width for Sentosa')
plt.xlabel('Sepal Length (cm)')
plt.ylabel('Sepal Width (cm)')
plt.show()

In [None]:
# prompt: correlation sepal length and width of iris dataset of sentosa

# กรองข้อมูลสำหรับ Sentosa (target == 0)
sentosa_df = iris_df[iris_df['target'] == 0]

# คำนวณ Pearson correlation ระหว่าง sepal length และ sepal width สำหรับ Sentosa
correlation_sepal_sentosa, p_value_sepal_sentosa = pearsonr(sentosa_df['sepal length (cm)'], sentosa_df['sepal width (cm)'])

# แสดงผลลัพธ์
print(f"Pearson Correlation between Sepal Length and Sepal Width for Sentosa: {correlation_sepal_sentosa}")
print(f"P-value: {p_value_sepal_sentosa}")

## 4. สร้าง Correlation Matrix

In [None]:
# prompt: create correlation matrix of sentosa

import matplotlib.pyplot as plt
# Select only the numerical columns for correlation matrix calculation
sentosa_numeric_df = sentosa_df.drop(columns=['target'])

# Calculate the correlation matrix
correlation_matrix_sentosa = sentosa_numeric_df.corr()
correlation_matrix_sentosa


## 5. Visualization: Heatmap

In [None]:
# prompt: heat map of correlation_matrix_sentosa

import matplotlib.pyplot as plt
# Plot the heatmap
plt.figure(figsize=(8, 6))
sns.heatmap(correlation_matrix_sentosa, annot=True, cmap='coolwarm', fmt=".2f")
plt.title('Correlation Heatmap for Sentosa Iris Data')
plt.show()

## 7. Hands-on Exercise

*   ใช้ของ iris ของสายพันธ์ Versicolor ในการวิเคราะห์
*   ทดสอบ Levene’s test ของ petal length and petal width
*   คำนวณ Pearson  ระหว่าง  petal length and petal width
*   สร้าง heatmap ของ correlation matrix

### สรุป
ความสำคัญของ Homogeneity of Variance & ความสัมพันธ์เชิงเส้น

- **ยืนยันสมมติฐานก่อนทดสอบสถิติ**  
  - การทดสอบ t-test หรือ ANOVA ต้องการความเท่าเทียมของความแปรปรวนระหว่างกลุ่ม (homogeneity)  
  - Levene’s Test ช่วยตรวจสอบว่า variance ของแต่ละกลุ่มเท่ากันหรือไม่ ก่อนนำผลไปตีความ

- **วิเคราะห์รูปแบบความสัมพันธ์ของตัวแปร**  
  - ค่า Pearson บอกความสัมพันธ์เชิงเส้น เมื่อข้อมูลแจกแจงปกติ  
  - ค่า Spearman บอกความสัมพันธ์เชิงอันดับ เหมาะกับข้อมูลมี outlier หรือความสัมพันธ์ไม่เป็นเส้นตรง  

- **ชี้แนะแนวทางเลือกวิธีวิเคราะห์**  
  - ถ้าพบ variance ไม่เท่ากัน อาจใช้วิธี non-parametric หรือปรับรูปแบบข้อมูลก่อน  
  - เมื่อ correlation สูง อาจพิจารณาลด multicollinearity ก่อน modeling  

- **ลดความเสี่ยงต่อผลลัพธ์บิดเบือน**  
  - การไม่ตรวจ variance หรือ correlation อาจทำให้ผลสถิติผิดพลาดหรือโมเดล overfit  
  - Visualization (heatmap, scatter plot) ช่วยให้เห็น outlier และ relationship ชัดเจน  

- **เตรียมความพร้อมสำหรับขั้นตอน Modeling ถัดไป**  
  - ผลลัพธ์จาก Module 5 ใช้ในการเลือกตัวแปร (feature selection)  
  - ช่วยเพิ่มความมั่นใจว่าข้อมูลพร้อมสำหรับการสร้างโมเดลเชิงพยากรณ์  