# 06. Distribusi Normal (Normal Distribution)

## Tujuan Pembelajaran
- Memahami konsep distribusi normal dan kurva normal
- Menghitung probabilitas menggunakan distribusi normal standar
- Menerapkan transformasi z-score
- Menggunakan tabel distribusi normal standar

## Materi
1. Pengertian Distribusi Normal (Normal Distribution)
2. Karakteristik Kurva Normal (Normal Curve Characteristics)
3. Distribusi Normal Standar (Standard Normal Distribution)
4. Transformasi Z-Score
5. Tabel Distribusi Normal Standar
6. Aplikasi dalam Analisis Data


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
from scipy import stats
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# Set up plotting
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

print("Libraries imported successfully!")
print("SciPy version:", stats.__version__)


## 1. Pengertian Distribusi Normal (Normal Distribution)

**Distribusi Normal** adalah distribusi probabilitas kontinu yang paling penting dalam statistika. Distribusi ini juga dikenal sebagai **Gaussian Distribution** atau **Bell Curve**.

### Fungsi Kepadatan Probabilitas (Probability Density Function):
**f(x) = (1/σ√(2π)) * e^(-(x-μ)²/(2σ²))**

Dimana:
- μ (mu) = mean (rata-rata)
- σ (sigma) = standard deviation (simpangan baku)
- e = bilangan Euler (≈ 2.718)
- π = pi (≈ 3.14159)

### Notasi:
- X ~ N(μ, σ²) = X berdistribusi normal dengan mean μ dan variance σ²
- Z ~ N(0, 1) = Z berdistribusi normal standar


## 7. Aturan Empiris dan Persentil (Empirical Rule and Percentiles)

### A. Aturan Empiris (Empirical Rule):
- **68-95-99.7 Rule**: Untuk data normal
  - 68% data berada dalam ±1σ dari mean
  - 95% data berada dalam ±2σ dari mean
  - 99.7% data berada dalam ±3σ dari mean

### B. Persentil (Percentiles):
- **Definisi**: Nilai yang membagi data menjadi 100 bagian sama besar
- **P50**: Median (50th percentile)
- **P25**: Quartile pertama (Q1)
- **P75**: Quartile ketiga (Q3)

### C. Z-Score dan Persentil:
- **Z = -1**: P16 (16th percentile)
- **Z = 0**: P50 (50th percentile)
- **Z = 1**: P84 (84th percentile)
- **Z = 2**: P97.7 (97.7th percentile)

### D. Aplikasi Aturan Empiris:
- **Quality Control**: Deteksi outlier
- **Risk Management**: Analisis risiko
- **Medical Research**: Interpretasi tes medis
- **Education**: Analisis skor tes


In [None]:
# Demonstrasi Aturan Empiris dan Persentil
print("=== DEMONSTRASI ATURAN EMPIRIS DAN PERSENTIL ===")

# Data untuk demonstrasi
np.random.seed(42)
data_normal = np.random.normal(100, 15, 10000)  # Mean=100, Std=15
print(f"Data: {len(data_normal)} data points")
print(f"Mean: {np.mean(data_normal):.2f}")
print(f"Std: {np.std(data_normal):.2f}")

# 1. Aturan Empiris
print("\n1. ATURAN EMPIRIS (68-95-99.7 RULE):")
mean_data = np.mean(data_normal)
std_data = np.std(data_normal)

# Hitung persentase data dalam setiap range
within_1std = np.sum((data_normal >= mean_data - std_data) & (data_normal <= mean_data + std_data)) / len(data_normal)
within_2std = np.sum((data_normal >= mean_data - 2*std_data) & (data_normal <= mean_data + 2*std_data)) / len(data_normal)
within_3std = np.sum((data_normal >= mean_data - 3*std_data) & (data_normal <= mean_data + 3*std_data)) / len(data_normal)

print(f"Data dalam ±1σ: {within_1std:.1%} (teoretis: 68%)")
print(f"Data dalam ±2σ: {within_2std:.1%} (teoretis: 95%)")
print(f"Data dalam ±3σ: {within_3std:.1%} (teoretis: 99.7%)")

# 2. Persentil
print("\n2. PERSENTIL:")
percentiles = [1, 5, 10, 25, 50, 75, 90, 95, 99]
percentile_values = np.percentile(data_normal, percentiles)

print("Persentil:")
for p, val in zip(percentiles, percentile_values):
    print(f"  P{p:2d}: {val:.2f}")

# 3. Z-Score dan Persentil
print("\n3. Z-SCORE DAN PERSENTIL:")
z_scores = [-3, -2, -1, 0, 1, 2, 3]
z_values = [mean_data + z * std_data for z in z_scores]
z_percentiles = [stats.norm.cdf(z) * 100 for z in z_scores]

print("Z-Score dan Persentil:")
for z, val, p in zip(z_scores, z_values, z_percentiles):
    print(f"  Z={z:2d}: {val:.2f} (P{p:.1f})")

# 4. Deteksi Outlier menggunakan Aturan Empiris
print("\n4. DETEKSI OUTLIER MENGGUNAKAN ATURAN EMPIRIS:")
outliers_2std = data_normal[(data_normal < mean_data - 2*std_data) | (data_normal > mean_data + 2*std_data)]
outliers_3std = data_normal[(data_normal < mean_data - 3*std_data) | (data_normal > mean_data + 3*std_data)]

print(f"Outlier (±2σ): {len(outliers_2std)} data ({len(outliers_2std)/len(data_normal):.1%})")
print(f"Outlier (±3σ): {len(outliers_3std)} data ({len(outliers_3std)/len(data_normal):.1%})")

# 5. Visualisasi Aturan Empiris dan Persentil
plt.figure(figsize=(18, 12))

# Plot 1: Aturan Empiris
plt.subplot(3, 3, 1)
x = np.linspace(mean_data - 4*std_data, mean_data + 4*std_data, 1000)
y = stats.norm.pdf(x, mean_data, std_data)
plt.plot(x, y, 'k-', linewidth=2, label='Normal Distribution')

# Fill areas for different standard deviations
plt.fill_between(x, 0, y, where=(x >= mean_data - std_data) & (x <= mean_data + std_data), 
                 alpha=0.3, color='blue', label=f'±1σ: {within_1std:.1%}')
plt.fill_between(x, 0, y, where=(x >= mean_data - 2*std_data) & (x <= mean_data + 2*std_data), 
                 alpha=0.2, color='green', label=f'±2σ: {within_2std:.1%}')
plt.fill_between(x, 0, y, where=(x >= mean_data - 3*std_data) & (x <= mean_data + 3*std_data), 
                 alpha=0.1, color='red', label=f'±3σ: {within_3std:.1%}')

plt.axvline(mean_data, color='red', linestyle='--', linewidth=2, label=f'Mean: {mean_data:.2f}')
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Aturan Empiris (68-95-99.7)')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Histogram dengan Aturan Empiris
plt.subplot(3, 3, 2)
plt.hist(data_normal, bins=50, density=True, alpha=0.7, color='skyblue', edgecolor='black')
plt.plot(x, y, 'r-', linewidth=2, label='Theoretical Normal')

# Add vertical lines for standard deviations
plt.axvline(mean_data - std_data, color='blue', linestyle='--', alpha=0.7, label='±1σ')
plt.axvline(mean_data + std_data, color='blue', linestyle='--', alpha=0.7)
plt.axvline(mean_data - 2*std_data, color='green', linestyle='--', alpha=0.7, label='±2σ')
plt.axvline(mean_data + 2*std_data, color='green', linestyle='--', alpha=0.7)
plt.axvline(mean_data - 3*std_data, color='red', linestyle='--', alpha=0.7, label='±3σ')
plt.axvline(mean_data + 3*std_data, color='red', linestyle='--', alpha=0.7)

plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Histogram dengan Aturan Empiris')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Persentil
plt.subplot(3, 3, 3)
plt.plot(percentiles, percentile_values, 'o-', linewidth=2, markersize=6, color='purple')
plt.xlabel('Persentil')
plt.ylabel('Value')
plt.title('Persentil')
plt.grid(True, alpha=0.3)

# Plot 4: Z-Score vs Persentil
plt.subplot(3, 3, 4)
plt.plot(z_scores, z_percentiles, 'o-', linewidth=2, markersize=6, color='orange')
plt.xlabel('Z-Score')
plt.ylabel('Persentil')
plt.title('Z-Score vs Persentil')
plt.grid(True, alpha=0.3)

# Plot 5: Q-Q Plot untuk Normalitas
plt.subplot(3, 3, 5)
stats.probplot(data_normal, dist="norm", plot=plt)
plt.title('Q-Q Plot - Normalitas')
plt.grid(True, alpha=0.3)

# Plot 6: Box Plot dengan Outlier
plt.subplot(3, 3, 6)
plt.boxplot(data_normal, patch_artist=True)
plt.ylabel('Value')
plt.title('Box Plot - Deteksi Outlier')
plt.grid(True, alpha=0.3)

# Plot 7: Cumulative Distribution Function
plt.subplot(3, 3, 7)
x_cdf = np.linspace(mean_data - 4*std_data, mean_data + 4*std_data, 1000)
y_cdf = stats.norm.cdf(x_cdf, mean_data, std_data)
plt.plot(x_cdf, y_cdf, 'b-', linewidth=2, label='CDF')

# Add percentile lines
for p, val in zip([25, 50, 75], [percentile_values[3], percentile_values[4], percentile_values[5]]):
    plt.axvline(val, color='red', linestyle='--', alpha=0.7, label=f'P{p}')
    plt.axhline(p/100, color='red', linestyle='--', alpha=0.7)

plt.xlabel('Value')
plt.ylabel('Cumulative Probability')
plt.title('Cumulative Distribution Function')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 8: Outlier Detection
plt.subplot(3, 3, 8)
plt.hist(data_normal, bins=50, alpha=0.7, color='skyblue', edgecolor='black', label='Normal Data')
if len(outliers_2std) > 0:
    plt.hist(outliers_2std, bins=20, alpha=0.7, color='red', edgecolor='black', label='Outliers (±2σ)')
plt.xlabel('Value')
plt.ylabel('Frequency')
plt.title('Outlier Detection')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 9: Comparison dengan Distribusi Lain
plt.subplot(3, 3, 9)
# Generate data from different distributions
normal_data = np.random.normal(0, 1, 1000)
uniform_data = np.random.uniform(-3, 3, 1000)
exponential_data = np.random.exponential(1, 1000)

plt.hist(normal_data, bins=30, alpha=0.7, color='blue', label='Normal', density=True)
plt.hist(uniform_data, bins=30, alpha=0.7, color='green', label='Uniform', density=True)
plt.hist(exponential_data, bins=30, alpha=0.7, color='red', label='Exponential', density=True)

plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Perbandingan Distribusi')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 6. Aplikasi Praktis
print("\n6. APLIKASI PRAKTIS:")
print("   - Quality Control: Deteksi produk cacat")
print("   - Risk Management: Analisis risiko investasi")
print("   - Medical Research: Interpretasi hasil tes")
print("   - Education: Analisis skor ujian")
print("   - Manufacturing: Kontrol kualitas produksi")

# 7. Kesimpulan dan Rekomendasi
print("\n7. KESIMPULAN DAN REKOMENDASI:")
print("   - Aturan empiris: Berguna untuk deteksi outlier")
print("   - Persentil: Berguna untuk analisis distribusi")
print("   - Z-score: Berguna untuk standardisasi data")
print("   - Q-Q plot: Berguna untuk uji normalitas")
print("   - Box plot: Berguna untuk visualisasi outlier")
print("   - Selalu periksa normalitas sebelum analisis")
print("   - Gunakan multiple methods untuk validasi")


In [None]:
# Visualisasi Distribusi Normal dengan berbagai parameter
x = np.linspace(-4, 4, 1000)

# Distribusi normal standar
z = stats.norm.pdf(x, 0, 1)

# Distribusi normal dengan mean dan std berbeda
normal1 = stats.norm.pdf(x, 0, 0.5)  # μ=0, σ=0.5
normal2 = stats.norm.pdf(x, 0, 1)    # μ=0, σ=1
normal3 = stats.norm.pdf(x, 0, 2)    # μ=0, σ=2
normal4 = stats.norm.pdf(x, 1, 1)    # μ=1, σ=1

plt.figure(figsize=(15, 10))

# Plot 1: Pengaruh Standard Deviation
plt.subplot(2, 2, 1)
plt.plot(x, normal1, 'b-', linewidth=2, label='μ=0, σ=0.5')
plt.plot(x, normal2, 'r-', linewidth=2, label='μ=0, σ=1.0')
plt.plot(x, normal3, 'g-', linewidth=2, label='μ=0, σ=2.0')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Pengaruh Standard Deviation pada Distribusi Normal')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Pengaruh Mean
plt.subplot(2, 2, 2)
plt.plot(x, normal2, 'r-', linewidth=2, label='μ=0, σ=1.0')
plt.plot(x, normal4, 'b-', linewidth=2, label='μ=1, σ=1.0')
plt.xlabel('x')
plt.ylabel('f(x)')
plt.title('Pengaruh Mean pada Distribusi Normal')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Area di bawah kurva (probabilitas)
plt.subplot(2, 2, 3)
plt.plot(x, z, 'k-', linewidth=2, label='Standard Normal')
plt.fill_between(x, 0, z, alpha=0.3, color='blue')
plt.axvline(0, color='red', linestyle='--', alpha=0.7, label='μ = 0')
plt.xlabel('z')
plt.ylabel('f(z)')
plt.title('Distribusi Normal Standar')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Simulasi data normal
plt.subplot(2, 2, 4)
np.random.seed(42)
sample_data = np.random.normal(0, 1, 1000)
plt.hist(sample_data, bins=30, density=True, alpha=0.7, color='skyblue', edgecolor='black')
plt.plot(x, z, 'r-', linewidth=2, label='Theoretical Normal')
plt.xlabel('Value')
plt.ylabel('Density')
plt.title('Simulasi Data Normal (n=1000)')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()
