# 03. Ukuran Penyebaran Data (Measures of Dispersion)

## Tujuan Pembelajaran
- Memahami konsep ukuran penyebaran data
- Menghitung range, variance, standard deviation, dan IQR
- Memahami kapan menggunakan masing-masing ukuran penyebaran
- Menganalisis kelebihan dan kelemahan setiap ukuran

## Materi
1. Range (Jangkauan) - Range
2. Variance (Varians) - Variance
3. Standard Deviation (Simpangan Baku) - Standard Deviation
4. Interquartile Range (IQR) - Interquartile Range
5. Coefficient of Variation (CV) - Coefficient of Variation
6. Aplikasi dalam Analisis Data (Applications in Data Analysis)


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Data contoh
data = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90]
print("Data:", data)
print("Jumlah data:", len(data))

# Menghitung mean untuk referensi
mean_data = np.mean(data)
print(f"Mean: {mean_data:.2f}")


## 1. Range (Jangkauan) - Range

**Range** adalah selisih antara nilai maksimum dan minimum dalam dataset.

### Rumus:
**Range = X_max - X_min**

### Kelebihan:
- Mudah dihitung dan dipahami
- Memberikan gambaran cepat tentang penyebaran data

### Kelemahan:
- Hanya bergantung pada dua nilai ekstrem
- Tidak memberikan informasi tentang distribusi data di antara nilai ekstrem
- Sensitif terhadap outlier


In [None]:
# Menghitung Range
range_manual = max(data) - min(data)
print(f"Range (manual): {range_manual}")

# Range menggunakan numpy
range_numpy = np.ptp(data)  # peak-to-peak
print(f"Range (numpy): {range_numpy}")

# Range menggunakan pandas
df = pd.DataFrame({'nilai': data})
range_pandas = df['nilai'].max() - df['nilai'].min()
print(f"Range (pandas): {range_pandas}")

# Verifikasi
print(f"\nNilai maksimum: {max(data)}")
print(f"Nilai minimum: {min(data)}")
print(f"Range = {max(data)} - {min(data)} = {range_manual}")

# Visualisasi Range
plt.figure(figsize=(10, 6))
plt.hist(data, bins=10, edgecolor='black', alpha=0.7, color='skyblue')
plt.axvline(min(data), color='red', linestyle='--', linewidth=2, label=f'Min: {min(data)}')
plt.axvline(max(data), color='red', linestyle='--', linewidth=2, label=f'Max: {max(data)}')
plt.axvline(mean_data, color='green', linestyle='-', linewidth=2, label=f'Mean: {mean_data:.2f}')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Histogram dengan Range')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()


## 2. Variance (Varians) - Variance

**Variance** adalah rata-rata dari kuadrat selisih setiap nilai data dengan mean.

### Rumus:
**Variance = Σ(x - μ)² / n** (untuk populasi)
**Variance = Σ(x - x̄)² / (n-1)** (untuk sampel)

Dimana:
- μ = mean populasi
- x̄ = mean sampel
- n = jumlah data

### Kelebihan:
- Memberikan informasi tentang penyebaran data
- Tidak dipengaruhi oleh tanda positif/negatif

### Kelemahan:
- Satuan dalam kuadrat
- Sulit diinterpretasikan secara langsung


In [None]:
# Menghitung Variance
# Variance populasi
variance_pop = np.sum([(x - mean_data)**2 for x in data]) / len(data)
print(f"Variance populasi (manual): {variance_pop:.2f}")

# Variance sampel (dengan degrees of freedom)
variance_sample = np.sum([(x - mean_data)**2 for x in data]) / (len(data) - 1)
print(f"Variance sampel (manual): {variance_sample:.2f}")

# Variance menggunakan numpy
variance_numpy = np.var(data, ddof=1)  # ddof=1 untuk sampel
print(f"Variance (numpy): {variance_numpy:.2f}")

# Variance menggunakan pandas
variance_pandas = df['nilai'].var()
print(f"Variance (pandas): {variance_pandas:.2f}")

# Verifikasi
print(f"\nPerhitungan manual:")
print(f"Data: {data}")
print(f"Mean: {mean_data:.2f}")
print(f"Selisih dengan mean: {[(x - mean_data) for x in data]}")
print(f"Kuadrat selisih: {[(x - mean_data)**2 for x in data]}")
print(f"Jumlah kuadrat selisih: {sum([(x - mean_data)**2 for x in data])}")
print(f"Variance sampel = {sum([(x - mean_data)**2 for x in data])} / {len(data)-1} = {variance_sample:.2f}")


## 6. Ukuran Penyebaran Lainnya (Other Measures of Dispersion)

### A. Mean Absolute Deviation (MAD) - Simpangan Rata-rata:
- **Definisi**: Rata-rata dari nilai mutlak selisih setiap data dengan mean
- **Rumus**: MAD = Σ|x - x̄| / n
- **Kelebihan**: Mudah diinterpretasikan, tidak dipengaruhi oleh kuadrat
- **Kelemahan**: Tidak memiliki sifat matematis yang berguna seperti variance

### B. Median Absolute Deviation (MAD) - Simpangan Mutlak Median:
- **Definisi**: Median dari nilai mutlak selisih setiap data dengan median
- **Rumus**: MAD = median(|x - median(x)|)
- **Kelebihan**: Robust terhadap outlier
- **Kelemahan**: Lebih sulit dihitung

### C. Quartile Deviation (QD) - Simpangan Kuartil:
- **Definisi**: Setengah dari IQR
- **Rumus**: QD = (Q3 - Q1) / 2
- **Kelebihan**: Tidak dipengaruhi oleh outlier
- **Kelemahan**: Hanya menggunakan 50% data tengah

### D. Standard Error (SE) - Galat Baku:
- **Definisi**: Standard deviation dari sampling distribution
- **Rumus**: SE = σ / √n
- **Kelebihan**: Mengukur ketepatan estimasi mean
- **Kelemahan**: Bergantung pada ukuran sampel

### E. Coefficient of Variation (CV) - Koefisien Variasi:
- **Definisi**: Rasio standard deviation terhadap mean
- **Rumus**: CV = (σ / μ) × 100%
- **Kelebihan**: Relatif, dapat membandingkan data dengan satuan berbeda
- **Kelemahan**: Tidak bermakna jika mean mendekati nol


In [None]:
# Demonstrasi Ukuran Penyebaran Lainnya
print("=== DEMONSTRASI UKURAN PENYEBARAN LAINNYA ===")

# Data untuk demonstrasi
data_demo = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90]
print(f"Data: {data_demo}")
print(f"Jumlah data: {len(data_demo)}")

# Menghitung mean dan median untuk referensi
mean_demo = np.mean(data_demo)
median_demo = np.median(data_demo)
print(f"Mean: {mean_demo:.2f}")
print(f"Median: {median_demo:.2f}")

# 1. Mean Absolute Deviation (MAD)
print("\n1. MEAN ABSOLUTE DEVIATION (MAD):")
mad_manual = np.mean([abs(x - mean_demo) for x in data_demo])
print(f"   Manual: {mad_manual:.2f}")

# Menggunakan numpy
mad_numpy = np.mean(np.abs(data_demo - mean_demo))
print(f"   NumPy: {mad_numpy:.2f}")

# Verifikasi
print(f"   Verifikasi: {mad_manual:.2f}")

# 2. Median Absolute Deviation (MAD)
print("\n2. MEDIAN ABSOLUTE DEVIATION (MAD):")
mad_median_manual = np.median([abs(x - median_demo) for x in data_demo])
print(f"   Manual: {mad_median_manual:.2f}")

# Menggunakan scipy
from scipy import stats
mad_median_scipy = stats.median_abs_deviation(data_demo)
print(f"   SciPy: {mad_median_scipy:.2f}")

# Verifikasi
print(f"   Verifikasi: {mad_median_manual:.2f}")

# 3. Quartile Deviation (QD)
print("\n3. QUARTILE DEVIATION (QD):")
Q1 = np.percentile(data_demo, 25)
Q3 = np.percentile(data_demo, 75)
IQR = Q3 - Q1
QD = IQR / 2
print(f"   Q1: {Q1:.2f}")
print(f"   Q3: {Q3:.2f}")
print(f"   IQR: {IQR:.2f}")
print(f"   QD: {QD:.2f}")

# 4. Standard Error (SE)
print("\n4. STANDARD ERROR (SE):")
std_demo = np.std(data_demo, ddof=1)
SE = std_demo / np.sqrt(len(data_demo))
print(f"   Standard Deviation: {std_demo:.2f}")
print(f"   Sample Size: {len(data_demo)}")
print(f"   Standard Error: {SE:.2f}")

# 5. Coefficient of Variation (CV)
print("\n5. COEFFICIENT OF VARIATION (CV):")
CV = (std_demo / mean_demo) * 100
print(f"   CV: {CV:.2f}%")

# 6. Perbandingan semua ukuran penyebaran
print("\n6. PERBANDINGAN SEMUA UKURAN PENYEBARAN:")
print(f"   Range: {max(data_demo) - min(data_demo):.2f}")
print(f"   Variance: {np.var(data_demo, ddof=1):.2f}")
print(f"   Standard Deviation: {std_demo:.2f}")
print(f"   IQR: {IQR:.2f}")
print(f"   MAD (Mean): {mad_manual:.2f}")
print(f"   MAD (Median): {mad_median_manual:.2f}")
print(f"   Quartile Deviation: {QD:.2f}")
print(f"   Standard Error: {SE:.2f}")
print(f"   Coefficient of Variation: {CV:.2f}%")

# 7. Visualisasi perbandingan ukuran penyebaran
plt.figure(figsize=(15, 10))

# Plot 1: Histogram dengan berbagai ukuran penyebaran
plt.subplot(2, 3, 1)
plt.hist(data_demo, bins=10, edgecolor='black', alpha=0.7, color='skyblue')
plt.axvline(mean_demo, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_demo:.2f}')
plt.axvline(mean_demo - std_demo, color='orange', linestyle='--', linewidth=2, label=f'Mean ± 1σ')
plt.axvline(mean_demo + std_demo, color='orange', linestyle='--', linewidth=2)
plt.axvline(Q1, color='green', linestyle=':', linewidth=2, label=f'Q1: {Q1:.2f}')
plt.axvline(Q3, color='green', linestyle=':', linewidth=2, label=f'Q3: {Q3:.2f}')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Histogram dengan Ukuran Penyebaran')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Box plot
plt.subplot(2, 3, 2)
plt.boxplot(data_demo, patch_artist=True)
plt.ylabel('Nilai')
plt.title('Box Plot - Quartiles dan Outliers')
plt.grid(True, alpha=0.3)

# Plot 3: Perbandingan ukuran penyebaran
plt.subplot(2, 3, 3)
measures = ['Range', 'Std', 'IQR', 'MAD', 'QD', 'SE']
values = [max(data_demo) - min(data_demo), std_demo, IQR, mad_manual, QD, SE]
plt.bar(measures, values, color=['red', 'blue', 'green', 'orange', 'purple', 'brown'], alpha=0.7)
plt.ylabel('Nilai')
plt.title('Perbandingan Ukuran Penyebaran')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 4: Scatter plot dengan error bars
plt.subplot(2, 3, 4)
x_pos = np.arange(len(data_demo))
plt.scatter(x_pos, data_demo, alpha=0.7, color='blue', s=50)
plt.axhline(mean_demo, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_demo:.2f}')
plt.fill_between(x_pos, mean_demo - std_demo, mean_demo + std_demo, alpha=0.2, color='orange', label='±1σ')
plt.fill_between(x_pos, mean_demo - 2*std_demo, mean_demo + 2*std_demo, alpha=0.1, color='green', label='±2σ')
plt.xlabel('Index')
plt.ylabel('Nilai')
plt.title('Scatter Plot dengan Standard Deviation')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 5: Normal distribution overlay
plt.subplot(2, 3, 5)
x_norm = np.linspace(min(data_demo), max(data_demo), 100)
y_norm = stats.norm.pdf(x_norm, mean_demo, std_demo)
plt.hist(data_demo, bins=10, density=True, alpha=0.7, color='skyblue', edgecolor='black', label='Data')
plt.plot(x_norm, y_norm, 'r-', linewidth=2, label='Normal Distribution')
plt.axvline(mean_demo, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_demo:.2f}')
plt.axvline(mean_demo - std_demo, color='orange', linestyle='--', linewidth=2, label=f'Mean ± 1σ')
plt.axvline(mean_demo + std_demo, color='orange', linestyle='--', linewidth=2)
plt.xlabel('Nilai')
plt.ylabel('Density')
plt.title('Data vs Normal Distribution')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 6: Coefficient of Variation
plt.subplot(2, 3, 6)
# Simulasi data dengan CV berbeda
data_low_cv = np.random.normal(100, 5, 50)  # CV rendah
data_high_cv = np.random.normal(100, 20, 50)  # CV tinggi
cv_low = (np.std(data_low_cv) / np.mean(data_low_cv)) * 100
cv_high = (np.std(data_high_cv) / np.mean(data_high_cv)) * 100

plt.hist(data_low_cv, bins=15, alpha=0.7, color='lightblue', label=f'Low CV: {cv_low:.1f}%')
plt.hist(data_high_cv, bins=15, alpha=0.7, color='lightcoral', label=f'High CV: {cv_high:.1f}%')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Perbandingan Coefficient of Variation')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 7. Aplikasi Praktis Ukuran Penyebaran (Practical Applications of Dispersion Measures)

### A. Aplikasi dalam Quality Control:
- **Standard Deviation**: Mengukur konsistensi produk
- **Range**: Deteksi outlier dalam produksi
- **IQR**: Analisis variasi proses manufaktur
- **CV**: Membandingkan variabilitas antar produk

### B. Aplikasi dalam Risk Management:
- **Variance**: Mengukur risiko investasi
- **Standard Deviation**: Volatilitas harga saham
- **CV**: Membandingkan risiko relatif antar aset
- **MAD**: Robust measure untuk data dengan outlier

### C. Aplikasi dalam Medical Research:
- **Standard Error**: Ketepatan estimasi parameter
- **IQR**: Analisis distribusi data medis
- **Range**: Deteksi nilai ekstrem dalam tes medis
- **CV**: Membandingkan variabilitas antar kelompok

### D. Aplikasi dalam Business Analytics:
- **Standard Deviation**: Analisis variasi penjualan
- **IQR**: Analisis distribusi gaji
- **CV**: Membandingkan performa antar departemen
- **MAD**: Robust analysis untuk data bisnis

### E. Aplikasi dalam Education:
- **Standard Deviation**: Analisis variasi nilai siswa
- **IQR**: Analisis distribusi skor tes
- **Range**: Deteksi outlier dalam performa
- **CV**: Membandingkan variabilitas antar kelas


In [None]:
# Demonstrasi Aplikasi Praktis Ukuran Penyebaran
print("=== DEMONSTRASI APLIKASI PRAKTIS UKURAN PENYEBARAN ===")

# Simulasi data real-world untuk berbagai aplikasi
np.random.seed(42)

# 1. Quality Control - Analisis Produksi
print("\n1. QUALITY CONTROL - ANALISIS PRODUKSI:")
production_data = {
    'Shift': ['A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C', 'A', 'B', 'C'],
    'Output': [95, 98, 92, 96, 99, 94, 97, 100, 93, 95, 98, 96],
    'Defect_Rate': [0.02, 0.01, 0.03, 0.02, 0.01, 0.02, 0.01, 0.01, 0.03, 0.02, 0.01, 0.02]
}

df_production = pd.DataFrame(production_data)
print("Data Produksi:")
print(df_production)

print(f"\nAnalisis Quality Control:")
print(f"  - Output Mean: {df_production['Output'].mean():.2f}")
print(f"  - Output Std: {df_production['Output'].std():.2f}")
print(f"  - Output CV: {(df_production['Output'].std() / df_production['Output'].mean()) * 100:.2f}%")
print(f"  - Defect Rate Mean: {df_production['Defect_Rate'].mean():.3f}")
print(f"  - Defect Rate Std: {df_production['Defect_Rate'].std():.3f}")

# 2. Risk Management - Analisis Investasi
print("\n2. RISK MANAGEMENT - ANALISIS INVESTASI:")
# Simulasi return investasi
np.random.seed(42)
stock_returns = np.random.normal(0.08, 0.15, 252)  # 252 hari trading
bond_returns = np.random.normal(0.04, 0.05, 252)

print(f"Analisis Risiko Investasi (252 hari):")
print(f"  - Stock Return Mean: {np.mean(stock_returns):.2%}")
print(f"  - Stock Return Std: {np.std(stock_returns):.2%}")
print(f"  - Stock CV: {(np.std(stock_returns) / np.mean(stock_returns)) * 100:.2f}%")
print(f"  - Bond Return Mean: {np.mean(bond_returns):.2%}")
print(f"  - Bond Return Std: {np.std(bond_returns):.2%}")
print(f"  - Bond CV: {(np.std(bond_returns) / np.mean(bond_returns)) * 100:.2f}%")

# Sharpe Ratio (risk-adjusted return)
risk_free_rate = 0.02
stock_sharpe = (np.mean(stock_returns) - risk_free_rate) / np.std(stock_returns)
bond_sharpe = (np.mean(bond_returns) - risk_free_rate) / np.std(bond_returns)
print(f"  - Stock Sharpe Ratio: {stock_sharpe:.2f}")
print(f"  - Bond Sharpe Ratio: {bond_sharpe:.2f}")

# 3. Medical Research - Analisis Data Medis
print("\n3. MEDICAL RESEARCH - ANALISIS DATA MEDIS:")
# Simulasi data medis
np.random.seed(42)
blood_pressure = np.random.normal(120, 15, 100)
cholesterol = np.random.normal(200, 40, 100)
bmi = np.random.normal(25, 4, 100)

print(f"Analisis Data Medis (100 pasien):")
print(f"  - Blood Pressure Mean: {np.mean(blood_pressure):.1f} mmHg")
print(f"  - Blood Pressure Std: {np.std(blood_pressure):.1f} mmHg")
print(f"  - Blood Pressure IQR: {np.percentile(blood_pressure, 75) - np.percentile(blood_pressure, 25):.1f} mmHg")
print(f"  - Cholesterol Mean: {np.mean(cholesterol):.1f} mg/dL")
print(f"  - Cholesterol Std: {np.std(cholesterol):.1f} mg/dL")
print(f"  - BMI Mean: {np.mean(bmi):.1f} kg/m²")
print(f"  - BMI Std: {np.std(bmi):.1f} kg/m²")

# 4. Business Analytics - Analisis Penjualan
print("\n4. BUSINESS ANALYTICS - ANALISIS PENJUALAN:")
# Simulasi data penjualan
np.random.seed(42)
monthly_sales = np.random.normal(100000, 15000, 12)
quarterly_sales = np.random.normal(300000, 25000, 4)

print(f"Analisis Penjualan:")
print(f"  - Monthly Sales Mean: ${np.mean(monthly_sales):,.0f}")
print(f"  - Monthly Sales Std: ${np.std(monthly_sales):,.0f}")
print(f"  - Monthly Sales CV: {(np.std(monthly_sales) / np.mean(monthly_sales)) * 100:.2f}%")
print(f"  - Quarterly Sales Mean: ${np.mean(quarterly_sales):,.0f}")
print(f"  - Quarterly Sales Std: ${np.std(quarterly_sales):,.0f}")
print(f"  - Quarterly Sales CV: {(np.std(quarterly_sales) / np.mean(quarterly_sales)) * 100:.2f}%")

# 5. Education - Analisis Nilai Siswa
print("\n5. EDUCATION - ANALISIS NILAI SISWA:")
# Simulasi data nilai siswa
np.random.seed(42)
class_a_scores = np.random.normal(85, 8, 30)
class_b_scores = np.random.normal(80, 12, 30)
class_c_scores = np.random.normal(75, 6, 30)

print(f"Analisis Nilai Siswa:")
print(f"  - Class A Mean: {np.mean(class_a_scores):.1f}")
print(f"  - Class A Std: {np.std(class_a_scores):.1f}")
print(f"  - Class A CV: {(np.std(class_a_scores) / np.mean(class_a_scores)) * 100:.2f}%")
print(f"  - Class B Mean: {np.mean(class_b_scores):.1f}")
print(f"  - Class B Std: {np.std(class_b_scores):.1f}")
print(f"  - Class B CV: {(np.std(class_b_scores) / np.mean(class_b_scores)) * 100:.2f}%")
print(f"  - Class C Mean: {np.mean(class_c_scores):.1f}")
print(f"  - Class C Std: {np.std(class_c_scores):.1f}")
print(f"  - Class C CV: {(np.std(class_c_scores) / np.mean(class_c_scores)) * 100:.2f}%")

# 6. Visualisasi Aplikasi Praktis
plt.figure(figsize=(18, 12))

# Plot 1: Quality Control - Output per Shift
plt.subplot(3, 3, 1)
df_production.boxplot(column='Output', by='Shift', ax=plt.gca())
plt.title('Quality Control - Output per Shift')
plt.suptitle('')  # Remove default title
plt.ylabel('Output')
plt.grid(True, alpha=0.3)

# Plot 2: Risk Management - Return Distribution
plt.subplot(3, 3, 2)
plt.hist(stock_returns, bins=30, alpha=0.7, color='red', label=f'Stock (σ={np.std(stock_returns):.2f})')
plt.hist(bond_returns, bins=30, alpha=0.7, color='blue', label=f'Bond (σ={np.std(bond_returns):.2f})')
plt.xlabel('Return')
plt.ylabel('Frekuensi')
plt.title('Risk Management - Return Distribution')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Medical Research - Blood Pressure Distribution
plt.subplot(3, 3, 3)
plt.hist(blood_pressure, bins=20, edgecolor='black', alpha=0.7, color='lightblue')
plt.axvline(np.mean(blood_pressure), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(blood_pressure):.1f}')
plt.axvline(np.percentile(blood_pressure, 25), color='green', linestyle='--', linewidth=2, label=f'Q1: {np.percentile(blood_pressure, 25):.1f}')
plt.axvline(np.percentile(blood_pressure, 75), color='green', linestyle='--', linewidth=2, label=f'Q3: {np.percentile(blood_pressure, 75):.1f}')
plt.xlabel('Blood Pressure (mmHg)')
plt.ylabel('Frekuensi')
plt.title('Medical Research - Blood Pressure')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Business Analytics - Monthly Sales
plt.subplot(3, 3, 4)
months = ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec']
plt.plot(months, monthly_sales, 'o-', linewidth=2, markersize=6, color='blue')
plt.axhline(np.mean(monthly_sales), color='red', linestyle='--', linewidth=2, label=f'Mean: ${np.mean(monthly_sales):,.0f}')
plt.fill_between(range(12), np.mean(monthly_sales) - np.std(monthly_sales), 
                 np.mean(monthly_sales) + np.std(monthly_sales), alpha=0.2, color='orange', label='±1σ')
plt.xlabel('Bulan')
plt.ylabel('Penjualan ($)')
plt.title('Business Analytics - Monthly Sales')
plt.xticks(rotation=45)
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 5: Education - Class Comparison
plt.subplot(3, 3, 5)
plt.boxplot([class_a_scores, class_b_scores, class_c_scores], 
           labels=['Class A', 'Class B', 'Class C'])
plt.ylabel('Nilai')
plt.title('Education - Class Comparison')
plt.grid(True, alpha=0.3)

# Plot 6: Coefficient of Variation Comparison
plt.subplot(3, 3, 6)
cv_data = {
    'Production': (df_production['Output'].std() / df_production['Output'].mean()) * 100,
    'Stock': (np.std(stock_returns) / np.mean(stock_returns)) * 100,
    'Bond': (np.std(bond_returns) / np.mean(bond_returns)) * 100,
    'Blood Pressure': (np.std(blood_pressure) / np.mean(blood_pressure)) * 100,
    'Monthly Sales': (np.std(monthly_sales) / np.mean(monthly_sales)) * 100
}
plt.bar(cv_data.keys(), cv_data.values(), color=['red', 'blue', 'green', 'orange', 'purple'], alpha=0.7)
plt.ylabel('Coefficient of Variation (%)')
plt.title('CV Comparison Across Applications')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 7: Risk-Return Scatter
plt.subplot(3, 3, 7)
plt.scatter(np.std(stock_returns), np.mean(stock_returns), s=100, color='red', label='Stock', alpha=0.7)
plt.scatter(np.std(bond_returns), np.mean(bond_returns), s=100, color='blue', label='Bond', alpha=0.7)
plt.xlabel('Risk (Standard Deviation)')
plt.ylabel('Expected Return')
plt.title('Risk-Return Analysis')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 8: Time Series with Volatility
plt.subplot(3, 3, 8)
cumulative_returns = np.cumprod(1 + stock_returns)
plt.plot(cumulative_returns, linewidth=2, color='red', label='Cumulative Return')
plt.fill_between(range(len(cumulative_returns)), 
                 cumulative_returns * (1 - np.std(stock_returns)), 
                 cumulative_returns * (1 + np.std(stock_returns)), 
                 alpha=0.2, color='red', label='±1σ')
plt.xlabel('Trading Days')
plt.ylabel('Cumulative Return')
plt.title('Time Series with Volatility')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 9: Distribution Comparison
plt.subplot(3, 3, 9)
plt.hist(class_a_scores, bins=15, alpha=0.7, color='lightblue', label=f'Class A (σ={np.std(class_a_scores):.1f})')
plt.hist(class_b_scores, bins=15, alpha=0.7, color='lightcoral', label=f'Class B (σ={np.std(class_b_scores):.1f})')
plt.hist(class_c_scores, bins=15, alpha=0.7, color='lightgreen', label=f'Class C (σ={np.std(class_c_scores):.1f})')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Distribution Comparison')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 7. Kesimpulan dan Rekomendasi
print("\n7. KESIMPULAN DAN REKOMENDASI:")
print("   - Standard Deviation: Cocok untuk data normal dan analisis risiko")
print("   - IQR: Cocok untuk data skewed dan robust analysis")
print("   - CV: Cocok untuk membandingkan variabilitas relatif")
print("   - MAD: Cocok untuk data dengan outlier")
print("   - Range: Cocok untuk deteksi outlier dan quick analysis")
print("   - Selalu pertimbangkan konteks dan tujuan analisis")
print("   - Gunakan multiple measures untuk analisis komprehensif")
print("   - Visualisasi membantu interpretasi ukuran penyebaran")


## 3. Standard Deviation (Simpangan Baku) - Standard Deviation

**Standard Deviation** adalah akar kuadrat dari variance. Standard deviation juga dikenal sebagai **Standard Deviation** atau **Root Mean Square Deviation**.

### Rumus:
**Standard Deviation = √Variance**

### Kelebihan:
- Satuan sama dengan data asli
- Mudah diinterpretasikan
- Mengikuti aturan empiris (Empirical Rule)

### Aturan Empiris (Empirical Rule):
- 68% data berada dalam ±1 standard deviation dari mean
- 95% data berada dalam ±2 standard deviation dari mean
- 99.7% data berada dalam ±3 standard deviation dari mean


In [None]:
# Menghitung Standard Deviation
std_manual = np.sqrt(variance_sample)
print(f"Standard Deviation (manual): {std_manual:.2f}")

# Standard deviation menggunakan numpy
std_numpy = np.std(data, ddof=1)
print(f"Standard Deviation (numpy): {std_numpy:.2f}")

# Standard deviation menggunakan pandas
std_pandas = df['nilai'].std()
print(f"Standard Deviation (pandas): {std_pandas:.2f}")

# Verifikasi
print(f"\nVariance: {variance_sample:.2f}")
print(f"√Variance = √{variance_sample:.2f} = {std_manual:.2f}")

# Visualisasi dengan aturan empiris
plt.figure(figsize=(12, 8))

# Plot 1: Histogram dengan aturan empiris
plt.subplot(2, 2, 1)
plt.hist(data, bins=10, edgecolor='black', alpha=0.7, color='skyblue', density=True)
plt.axvline(mean_data, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_data:.2f}')
plt.axvline(mean_data - std_manual, color='orange', linestyle='--', linewidth=2, label=f'Mean - 1σ: {mean_data - std_manual:.2f}')
plt.axvline(mean_data + std_manual, color='orange', linestyle='--', linewidth=2, label=f'Mean + 1σ: {mean_data + std_manual:.2f}')
plt.axvline(mean_data - 2*std_manual, color='green', linestyle=':', linewidth=2, label=f'Mean - 2σ: {mean_data - 2*std_manual:.2f}')
plt.axvline(mean_data + 2*std_manual, color='green', linestyle=':', linewidth=2, label=f'Mean + 2σ: {mean_data + 2*std_manual:.2f}')
plt.xlabel('Nilai')
plt.ylabel('Density')
plt.title('Histogram dengan Aturan Empiris')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Box plot
plt.subplot(2, 2, 2)
plt.boxplot(data, vert=True)
plt.ylabel('Nilai')
plt.title('Box Plot - Quartiles dan Outliers')
plt.grid(True, alpha=0.3)

# Plot 3: Scatter plot dengan error bars
plt.subplot(2, 2, 3)
x_pos = np.arange(len(data))
plt.scatter(x_pos, data, alpha=0.7, color='blue')
plt.axhline(mean_data, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_data:.2f}')
plt.fill_between(x_pos, mean_data - std_manual, mean_data + std_manual, alpha=0.2, color='orange', label='±1σ')
plt.xlabel('Index')
plt.ylabel('Nilai')
plt.title('Scatter Plot dengan Standard Deviation')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Normal distribution overlay
plt.subplot(2, 2, 4)
x_norm = np.linspace(min(data), max(data), 100)
y_norm = stats.norm.pdf(x_norm, mean_data, std_manual)
plt.hist(data, bins=10, density=True, alpha=0.7, color='skyblue', edgecolor='black', label='Data')
plt.plot(x_norm, y_norm, 'r-', linewidth=2, label='Normal Distribution')
plt.xlabel('Nilai')
plt.ylabel('Density')
plt.title('Data vs Normal Distribution')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 4. Interquartile Range (IQR) - Interquartile Range

**Interquartile Range (IQR)** adalah selisih antara quartile ketiga (Q3) dan quartile pertama (Q1). IQR juga dikenal sebagai **Interquartile Range** atau **Midspread**.

### Rumus:
**IQR = Q3 - Q1**

Dimana:
- Q1 = Quartile pertama (25th percentile)
- Q3 = Quartile ketiga (75th percentile)

### Kelebihan:
- Tidak dipengaruhi oleh outlier
- Memberikan informasi tentang penyebaran data tengah
- Robust terhadap nilai ekstrem

### Kelemahan:
- Hanya mempertimbangkan 50% data tengah
- Tidak memberikan informasi tentang data ekstrem
- Sulit diinterpretasikan untuk data yang tidak normal

### Deteksi Outlier dengan IQR:
- **Lower Bound**: Q1 - 1.5 × IQR
- **Upper Bound**: Q3 + 1.5 × IQR
- **Outlier**: Data yang berada di luar batas tersebut


In [None]:
# Menghitung IQR
Q1 = np.percentile(data, 25)
Q3 = np.percentile(data, 75)
IQR = Q3 - Q1

print(f"IQR (manual): {IQR:.2f}")

# IQR menggunakan numpy
IQR_numpy = np.percentile(data, 75) - np.percentile(data, 25)
print(f"IQR (numpy): {IQR_numpy:.2f}")

# IQR menggunakan pandas
IQR_pandas = df['nilai'].quantile(0.75) - df['nilai'].quantile(0.25)
print(f"IQR (pandas): {IQR_pandas:.2f}")

# Verifikasi
print(f"\nQ1 (25th percentile): {Q1:.2f}")
print(f"Q3 (75th percentile): {Q3:.2f}")
print(f"IQR = Q3 - Q1 = {Q3:.2f} - {Q1:.2f} = {IQR:.2f}")

# Deteksi outlier dengan IQR
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = [x for x in data if x < lower_bound or x > upper_bound]

print(f"\nDeteksi Outlier:")
print(f"Lower bound: {lower_bound:.2f}")
print(f"Upper bound: {upper_bound:.2f}")
print(f"Outliers: {outliers}")

# Visualisasi IQR
plt.figure(figsize=(12, 8))

# Plot 1: Box plot dengan IQR
plt.subplot(2, 2, 1)
box_plot = plt.boxplot(data, vert=True, patch_artist=True)
box_plot['boxes'][0].set_facecolor('lightblue')
plt.ylabel('Nilai')
plt.title('Box Plot dengan IQR')
plt.grid(True, alpha=0.3)

# Plot 2: Histogram dengan quartiles
plt.subplot(2, 2, 2)
plt.hist(data, bins=10, edgecolor='black', alpha=0.7, color='skyblue')
plt.axvline(Q1, color='red', linestyle='--', linewidth=2, label=f'Q1: {Q1:.2f}')
plt.axvline(Q3, color='red', linestyle='--', linewidth=2, label=f'Q3: {Q3:.2f}')
plt.axvline(mean_data, color='green', linestyle='-', linewidth=2, label=f'Mean: {mean_data:.2f}')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Histogram dengan Quartiles')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Scatter plot dengan outlier detection
plt.subplot(2, 2, 3)
x_pos = np.arange(len(data))
colors = ['red' if x < lower_bound or x > upper_bound else 'blue' for x in data]
plt.scatter(x_pos, data, c=colors, alpha=0.7)
plt.axhline(lower_bound, color='red', linestyle='--', linewidth=2, label=f'Lower Bound: {lower_bound:.2f}')
plt.axhline(upper_bound, color='red', linestyle='--', linewidth=2, label=f'Upper Bound: {upper_bound:.2f}')
plt.axhline(mean_data, color='green', linestyle='-', linewidth=2, label=f'Mean: {mean_data:.2f}')
plt.xlabel('Index')
plt.ylabel('Nilai')
plt.title('Scatter Plot dengan Outlier Detection')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Perbandingan ukuran penyebaran
plt.subplot(2, 2, 4)
measures = ['Range', 'IQR', 'Std Dev']
values = [range_manual, IQR, std_manual]
plt.bar(measures, values, color=['skyblue', 'lightcoral', 'lightgreen'], alpha=0.8)
plt.ylabel('Nilai')
plt.title('Perbandingan Ukuran Penyebaran')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 5. Coefficient of Variation (CV) - Coefficient of Variation

**Coefficient of Variation (CV)** adalah rasio antara standard deviation dan mean, dinyatakan dalam persentase. CV juga dikenal sebagai **Coefficient of Variation** atau **Relative Standard Deviation**.

### Rumus:
**CV = (σ / μ) × 100%** (untuk populasi)
**CV = (s / x̄) × 100%** (untuk sampel)

Dimana:
- σ = standard deviation populasi
- μ = mean populasi
- s = standard deviation sampel
- x̄ = mean sampel

### Kelebihan:
- Mengukur variabilitas relatif
- Dapat membandingkan variabilitas antar dataset dengan satuan berbeda
- Tidak dipengaruhi oleh satuan data

### Kelemahan:
- Tidak dapat digunakan jika mean mendekati nol
- Sulit diinterpretasikan untuk data negatif
- Tidak memberikan informasi absolut tentang penyebaran

### Interpretasi CV:
- **CV < 15%**: Variabilitas rendah (data relatif homogen)
- **15% ≤ CV < 35%**: Variabilitas sedang
- **CV ≥ 35%**: Variabilitas tinggi (data relatif heterogen)


In [None]:
# Menghitung Coefficient of Variation
CV = (std_manual / mean_data) * 100
print(f"Coefficient of Variation (CV): {CV:.2f}%")

# Verifikasi
print(f"\nStandard Deviation: {std_manual:.2f}")
print(f"Mean: {mean_data:.2f}")
print(f"CV = (Std Dev / Mean) × 100% = ({std_manual:.2f} / {mean_data:.2f}) × 100% = {CV:.2f}%")

# Interpretasi CV
if CV < 15:
    interpretation = "Variabilitas rendah (data relatif homogen)"
elif CV < 35:
    interpretation = "Variabilitas sedang"
else:
    interpretation = "Variabilitas tinggi (data relatif heterogen)"

print(f"\nInterpretasi CV: {interpretation}")

# Demonstrasi CV untuk berbagai dataset
print("\n=== DEMONSTRASI CV UNTUK BERBAGAI DATASET ===")

# Dataset dengan variabilitas berbeda
datasets_cv = {
    'Data Homogen': [85, 87, 86, 88, 89, 87, 86, 88, 87, 86],
    'Data Sedang': [80, 85, 90, 95, 100, 85, 90, 95, 80, 100],
    'Data Heterogen': [50, 60, 70, 80, 90, 100, 110, 120, 130, 140],
    'Data Asli': data
}

print("Perbandingan CV untuk berbagai dataset:")
for name, dataset in datasets_cv.items():
    mean_val = np.mean(dataset)
    std_val = np.std(dataset, ddof=1)
    cv_val = (std_val / mean_val) * 100
    
    if cv_val < 15:
        interpretation = "Rendah"
    elif cv_val < 35:
        interpretation = "Sedang"
    else:
        interpretation = "Tinggi"
    
    print(f"\n{name}:")
    print(f"  Mean: {mean_val:.2f}")
    print(f"  Std Dev: {std_val:.2f}")
    print(f"  CV: {cv_val:.2f}% ({interpretation})")

# Visualisasi perbandingan CV
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Perbandingan Coefficient of Variation untuk Berbagai Dataset', fontsize=16, fontweight='bold')

for i, (name, dataset) in enumerate(datasets_cv.items()):
    row = i // 2
    col = i % 2
    
    mean_val = np.mean(dataset)
    std_val = np.std(dataset, ddof=1)
    cv_val = (std_val / mean_val) * 100
    
    # Histogram
    axes[row, col].hist(dataset, bins=10, edgecolor='black', alpha=0.7, color='skyblue')
    axes[row, col].axvline(mean_val, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_val:.2f}')
    axes[row, col].axvline(mean_val - std_val, color='orange', linestyle='--', linewidth=2, label=f'Mean - 1σ: {mean_val - std_val:.2f}')
    axes[row, col].axvline(mean_val + std_val, color='orange', linestyle='--', linewidth=2, label=f'Mean + 1σ: {mean_val + std_val:.2f}')
    axes[row, col].set_title(f'{name}\nCV: {cv_val:.2f}%')
    axes[row, col].set_xlabel('Nilai')
    axes[row, col].set_ylabel('Frekuensi')
    axes[row, col].legend()
    axes[row, col].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 6. Ukuran Penyebaran Lainnya (Other Measures of Dispersion)

### A. Mean Absolute Deviation (MAD) - Simpangan Rata-rata:
- **Definisi**: Rata-rata dari nilai absolut selisih setiap data dengan mean
- **Rumus**: MAD = Σ|x - x̄| / n
- **Kegunaan**: Mengukur penyebaran data tanpa pengaruh kuadrat
- **Contoh**: Analisis error dalam prediksi

### B. Median Absolute Deviation (MAD) - Simpangan Rata-rata Median:
- **Definisi**: Median dari nilai absolut selisih setiap data dengan median
- **Rumus**: MAD = median(|x - median(x)|)
- **Kegunaan**: Mengukur penyebaran data yang robust terhadap outlier
- **Contoh**: Analisis data dengan banyak outlier

### C. Range Interquartile (RIQ) - Jangkauan Interquartile:
- **Definisi**: Sama dengan IQR, tetapi kadang didefinisikan sebagai Q3 - Q1
- **Rumus**: RIQ = Q3 - Q1
- **Kegunaan**: Mengukur penyebaran data tengah
- **Contoh**: Analisis distribusi data

### D. Standard Error (SE) - Galat Baku:
- **Definisi**: Standard deviation dari sampling distribution
- **Rumus**: SE = σ / √n
- **Kegunaan**: Mengukur ketidakpastian dalam estimasi mean
- **Contoh**: Analisis confidence interval
