<a href="https://colab.research.google.com/github/toche7/DataAnalytic/blob/main/Lab03DiscriptiveStateandDistribution.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Descriptive Statistics และ Distribution

## 1 Import Libraries & Load Data
*   pandas, numpy, matplotlib.pyplot, seaborn
*   โหลด DataFrame ที่ผ่านการจัดการ Missing/Outlier แล้ว

In [None]:
# prompt: create the example data with has skewness

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

# Generate data with a positive skew
positive_skew_data = np.random.exponential(scale=2.0, size=1000)

# Generate data with a negative skew
# We can achieve this by reflecting a positively skewed distribution
positive_data = np.random.exponential(scale=2.0, size=1000)
max_val = positive_data.max()
negative_skew_data = max_val - positive_data

# Combine into a DataFrame (optional)
df = pd.DataFrame({
    'col1': positive_skew_data,
    'col2': negative_skew_data
})

# Print descriptive statistics to confirm skewness
print("Descriptive statistics for positive skew data:")
print(pd.Series(positive_skew_data).describe())
print("\nDescriptive statistics for negative skew data:")
print(pd.Series(negative_skew_data).describe())

# Plot histograms to visualize the skewness
plt.figure(figsize=(12, 5))

plt.subplot(1, 2, 1)
sns.histplot(df['col1'], kde=True)
plt.title('Distribution with Positive Skew')

plt.subplot(1, 2, 2)
sns.histplot(df['col2'], kde=True)
plt.title('Distribution with Negative Skew')

plt.tight_layout()
plt.show()

## 2 ค่าสถิติพื้นฐาน (Descriptive Statistics)
*   Mean, Median, Mode
*   Standard Deviation, Variance
*   Min, Max, Quartiles
*   ใช้ `df[col].agg(['mean','median','std','var','min','max','quantile'])`

In [None]:
# เลือกคอลัมน์ที่คุณต้องการวิเคราะห์
column_to_analyze = 'col1' # แทนที่ด้วยชื่อคอลัมน์จริงของคุณ

if column_to_analyze in df.columns:
    descriptive_stats = df[column_to_analyze].agg(['mean', 'median', 'std', 'var', 'min', 'max', lambda x: x.quantile(0.25), lambda x: x.quantile(0.5), lambda x: x.quantile(0.75)])
    descriptive_stats.index = ['Mean', 'Median', 'Standard Deviation', 'Variance', 'Min', 'Max', 'Q1 (25%)', 'Q2 (50% - Median)', 'Q3 (75%)']
    print(f"ค่าสถิติพื้นฐานสำหรับคอลัมน์ '{column_to_analyze}':")
    print(descriptive_stats)
else:
    print(f"ไม่พบคอลัมน์ '{column_to_analyze}' ใน DataFrame")

หรือจะใช้คำสั่งง่ายๆ ดังนี้

## 3 สร้างตารางสรุปสถิติ
*   รวบรวมสถิติหลักลงใน DataFrame หรือ markdown table
*   เปรียบเทียบตัวแปรหลายตัวพร้อมกัน

In [None]:
# เลือกคอลัมน์ตัวเลขที่คุณต้องการเปรียบเทียบ
numerical_cols = df.select_dtypes(include=np.number).columns.tolist()

if len(numerical_cols) > 0:
    summary_table = df[numerical_cols].agg(['mean', 'median', 'std', 'min', 'max']).T
    print("ตารางสรุปสถิติสำหรับคอลัมน์ตัวเลข:")
    display(summary_table)
else:
    print("ไม่พบคอลัมน์ตัวเลขใน DataFrame สำหรับสร้างตารางสรุปสถิติ")

In [None]:
df.describe().round(2).T

## 4 Histogram
*   แสดงความถี่เชิงจำนวน
*   กำหนดจำนวน bins ให้เหมาะสม
*   สังเกตรูปแบบการแจกแจง (เช่น skewness)

In [None]:
# เลือกคอลัมน์ที่คุณต้องการสร้าง Histogram
column_for_histogram = 'col1' # แทนที่ด้วยชื่อคอลัมน์จริงของคุณ

if column_for_histogram in df.columns and df[column_for_histogram].dtype in [np.number]:
    plt.figure(figsize=(8, 6))
    sns.histplot(df[column_for_histogram], kde=False, bins=20) # ปรับจำนวน bins ได้ตามความเหมาะสม
    plt.title(f'Histogram of {column_for_histogram}')
    plt.xlabel(column_for_histogram)
    plt.ylabel('frequency')
    plt.show()
else:
    print(f"คอลัมน์ '{column_for_histogram}' ไม่ใช่คอลัมน์ตัวเลขหรือไม่พบใน DataFrame สำหรับสร้าง Histogram")

### 4.1 skewness


In [None]:
# skewness of col1
df['col1'].skew()

### 4.2 Kurtosis

In [None]:
# prompt: kurtosis of col1

print("Kurtosis of col1:")
print(df['col1'].kurtosis())

## 5 KDE Plot (Kernel Density Estimate)
*   แสดงการแจกแจงเชิงความน่าจะเป็นต่อเนื่อง
*   เปรียบเทียบหลายตัวแปรบนกราฟเดียว

In [None]:
# เลือกคอลัมน์ตัวเลขที่คุณต้องการสร้าง KDE Plot
numerical_cols_for_kde = df.select_dtypes(include=np.number).columns.tolist()

if len(numerical_cols_for_kde) > 0:
    plt.figure(figsize=(10, 7))
    for col in numerical_cols_for_kde:
        sns.kdeplot(df[col], label=col)
    plt.title('KDE Plot Variables')
    plt.xlabel('Value')
    plt.ylabel('Density')
    plt.legend()
    plt.show()
else:
    print("ไม่พบคอลัมน์ตัวเลขใน DataFrame สำหรับสร้าง KDE Plot")

## 6 Boxplot & Violin Plot
*   สรุป quartiles และ outlier
*   เปรียบเทียบ distribution ข้ามกลุ่ม

In [None]:
# เลือกคอลัมน์ตัวเลขที่คุณต้องการสร้าง Boxplot และ Violin Plot
numerical_cols_for_box_violin = df.select_dtypes(include=np.number).columns.tolist()

if len(numerical_cols_for_box_violin) > 0:
    for col in numerical_cols_for_box_violin:
        plt.figure(figsize=(8, 6))
        sns.boxplot(y=df[col])
        plt.title(f'Boxplot of {col}')
        plt.ylabel(col)
        plt.show()

        plt.figure(figsize=(8, 6))
        sns.violinplot(y=df[col])
        plt.title(f'Violin Plot of {col}')
        plt.ylabel(col)
        plt.show()
else:
    print("ไม่พบคอลัมน์ตัวเลขใน DataFrame สำหรับสร้าง Boxplot และ Violin Plot")

## 7 Summary Table ของ Distribution
*   รวมค่า mean±std, median, skewness, kurtosis
*   ไว้ในตารางเดียวอ่านง่าย

In [None]:
# เลือกคอลัมน์ตัวเลขที่คุณต้องการสรุป Distribution
numerical_cols_for_summary = df.select_dtypes(include=np.number).columns.tolist()

if len(numerical_cols_for_summary) > 0:
    distribution_summary = df[numerical_cols_for_summary].agg(['mean', 'median', 'std', 'skew', 'kurtosis']).T
    # เพิ่มคอลัมน์ mean±std
    distribution_summary['mean ± std'] = distribution_summary['mean'].round(2).astype(str) + ' ± ' + distribution_summary['std'].round(2).astype(str)
    # เลือกคอลัมน์ที่จะแสดงในตารางสรุป
    distribution_summary = distribution_summary[['mean ± std', 'median', 'skew', 'kurtosis']]
    print("ตารางสรุป Distribution ของตัวแปรตัวเลข:")
    display(distribution_summary)
else:
    print("ไม่พบคอลัมน์ตัวเลขใน DataFrame สำหรับสร้างตารางสรุป Distribution")

## 8 Hands-on Exercise
*   เลือกตัวแปรสำคัญ 2 ตัว
*   คำนวณสถิติพื้นฐาน
*   วาด histogram, KDE และ boxplot
*   สรุปลักษณะการแจกแจง (symmetry, skew, multimodal ฯลฯ)

**คำแนะนำ:**

1.  เลือกคอลัมน์ 2-3 ตัวจาก DataFrame ของคุณที่คุณคิดว่าน่าสนใจ
2.  ใช้โค้ดจากขั้นตอนที่ 2 เพื่อคำนวณสถิติพื้นฐานสำหรับคอลัมน์ที่เลือก
3.  ใช้โค้ดจากขั้นตอนที่ 4, 5, และ 6 เพื่อวาด histogram, KDE และ boxplot สำหรับคอลัมน์ที่เลือก
4.  พิจารณากราฟและค่าสถิติที่ได้ เพื่ออธิบายลักษณะการแจกแจงของแต่ละคอลัมน์ เช่น:
    *   **Symmetry:** การแจกแจงสมมาตรหรือไม่? (ดูจาก mean, median และรูปร่างของ histogram/KDE)
    *   **Skewness:** มีความเบ้ไปทางซ้าย (negative skew) หรือขวา (positive skew) หรือไม่? (ดูจากค่า skewness และรูปร่างกราฟ)
    *   **Kurtosis:** การแจกแจงมีปลายที่หนาหรือบางกว่าการแจกแจงปกติหรือไม่? (ดูจากค่า kurtosis)
    *   **Multimodal:** มีฐานนิยม (peak) มากกว่าหนึ่งจุดหรือไม่? (ดูจาก histogram/KDE)
    *   **Outliers:** มีค่าผิดปกติหรือไม่? (ดูจาก boxplot)

### สรุป
ความสำคัญของ  Descriptive Statistics และ Distribution

- **เข้าใจลักษณะการแจกแจงของข้อมูล**  
  - ช่วยระบุรูปแบบการกระจาย (เช่น ปกติ เบ้ซ้าย เบ้ขวา หรือหลายพีก)  
  - สังเกตความเบ้ (skewness) และความแหลม (kurtosis) เพื่อเตรียมปรับแต่งข้อมูลก่อน modeling  

- **ให้ภาพรวมสถิติหลักของตัวแปร**  
  - รวบรวมค่า mean, median, mode, std, var, quartiles ไว้ในตารางสรุป  
  - ใช้สถิติเหล่านี้ในการเปรียบเทียบคุณสมบัติของตัวแปรต่าง ๆ  

- **สนับสนุนการตัดสินใจด้าน preprocessing**  
  - ถ้าพบ distribution ที่เบ้มาก อาจพิจารณา transformation (log, sqrt)  
  - หากเห็น multimodal distribution อาจแบ่งกลุ่มข้อมูลหรือสร้าง feature ใหม่  

- **เตรียมพื้นฐานก่อนการทดสอบสมมติฐานและ modeling**  
  - การแจกแจงปกติ (normality) เป็นสมมติฐานสำคัญของหลายสถิติและโมเดล  
  - ช่วยเลือกวิธีวิเคราะห์ (parametric vs. non-parametric) ได้อย่างเหมาะสม  

- **เพิ่มความเข้าใจผ่าน Visualization**  
  - Histogram, KDE, boxplot และ violin plot ช่วยให้มองเห็น pattern ได้ชัดเจน  
  - การนำเสนอกราฟช่วยสื่อสารผลการวิเคราะห์ให้ทีมและผู้มีส่วนได้ส่วนเสียเข้าใจง่าย  