# 04. Distribusi Frekuensi (Frequency Distribution)

## Tujuan Pembelajaran
- Memahami konsep distribusi frekuensi
- Membuat tabel frekuensi untuk data kategorik dan numerik
- Membuat grafik distribusi frekuensi
- Menginterpretasikan distribusi frekuensi

## Materi
1. Pengertian Distribusi Frekuensi (Frequency Distribution)
2. Tabel Frekuensi (Frequency Table)
3. Grafik Distribusi Frekuensi (Frequency Distribution Graphs)
4. Distribusi Frekuensi Relatif (Relative Frequency Distribution)
5. Distribusi Frekuensi Kumulatif (Cumulative Frequency Distribution)
6. Aplikasi dalam Analisis Data


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Data contoh untuk distribusi frekuensi
data_kategorik = ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C']
data_numerik = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90]

print("Data Kategorik:", data_kategorik)
print("Data Numerik:", data_numerik)


## 1. Pengertian Distribusi Frekuensi (Frequency Distribution)

**Distribusi Frekuensi** adalah pengelompokan data ke dalam beberapa kelas atau kategori dan menghitung frekuensi (jumlah) data dalam setiap kelas.

### Jenis Distribusi Frekuensi:
1. **Distribusi Frekuensi Absolut**: Menunjukkan jumlah data dalam setiap kelas
2. **Distribusi Frekuensi Relatif**: Menunjukkan proporsi data dalam setiap kelas
3. **Distribusi Frekuensi Kumulatif**: Menunjukkan frekuensi kumulatif sampai kelas tertentu


## 4. Metode Pembuatan Kelas Interval (Methods for Creating Class Intervals)

### A. Aturan Sturges (Sturges' Rule):
- **Rumus**: k = 1 + 3.322 log₁₀(n)
- **Kegunaan**: Menentukan jumlah kelas optimal
- **Keunggulan**: Mudah dihitung
- **Kelemahan**: Tidak selalu optimal untuk semua data

### B. Aturan Square Root (Square Root Rule):
- **Rumus**: k = √n
- **Kegunaan**: Alternatif sederhana untuk menentukan jumlah kelas
- **Keunggulan**: Sederhana dan cepat
- **Kelemahan**: Tidak mempertimbangkan distribusi data

### C. Aturan Rice (Rice Rule):
- **Rumus**: k = 2n^(1/3)
- **Kegunaan**: Kompromi antara Sturges dan Square Root
- **Keunggulan**: Lebih fleksibel
- **Kelemahan**: Masih tidak optimal untuk semua kasus

### D. Aturan Freedman-Diaconis (Freedman-Diaconis Rule):
- **Rumus**: h = 2 × IQR × n^(-1/3)
- **Kegunaan**: Menggunakan IQR untuk menentukan lebar kelas
- **Keunggulan**: Robust terhadap outlier
- **Kelemahan**: Lebih kompleks

### E. Aturan Scott (Scott's Rule):
- **Rumus**: h = 3.5 × σ × n^(-1/3)
- **Kegunaan**: Menggunakan standard deviation
- **Keunggulan**: Mempertimbangkan variabilitas data
- **Kelemahan**: Sensitif terhadap outlier


In [None]:
# Demonstrasi Metode Pembuatan Kelas Interval
print("=== DEMONSTRASI METODE PEMBUATAN KELAS INTERVAL ===")

# Data untuk demonstrasi
np.random.seed(42)
data_demo = np.random.normal(100, 15, 100)  # 100 data points
print(f"Data: {len(data_demo)} data points")
print(f"Range: {np.min(data_demo):.2f} - {np.max(data_demo):.2f}")
print(f"Mean: {np.mean(data_demo):.2f}")
print(f"Std: {np.std(data_demo):.2f}")

# 1. Aturan Sturges
print("\n1. ATURAN STURGES:")
n = len(data_demo)
k_sturges = 1 + 3.322 * np.log10(n)
print(f"   n = {n}")
print(f"   k = 1 + 3.322 × log₁₀({n}) = {k_sturges:.2f}")
print(f"   Jumlah kelas (rounded): {int(np.ceil(k_sturges))}")

# 2. Aturan Square Root
print("\n2. ATURAN SQUARE ROOT:")
k_sqrt = np.sqrt(n)
print(f"   k = √{n} = {k_sqrt:.2f}")
print(f"   Jumlah kelas (rounded): {int(np.ceil(k_sqrt))}")

# 3. Aturan Rice
print("\n3. ATURAN RICE:")
k_rice = 2 * (n ** (1/3))
print(f"   k = 2 × {n}^(1/3) = {k_rice:.2f}")
print(f"   Jumlah kelas (rounded): {int(np.ceil(k_rice))}")

# 4. Aturan Freedman-Diaconis
print("\n4. ATURAN FREEDMAN-DIACONIS:")
Q1 = np.percentile(data_demo, 25)
Q3 = np.percentile(data_demo, 75)
IQR = Q3 - Q1
h_fd = 2 * IQR * (n ** (-1/3))
k_fd = (np.max(data_demo) - np.min(data_demo)) / h_fd
print(f"   Q1 = {Q1:.2f}, Q3 = {Q3:.2f}")
print(f"   IQR = {IQR:.2f}")
print(f"   h = 2 × {IQR:.2f} × {n}^(-1/3) = {h_fd:.2f}")
print(f"   k = {np.max(data_demo) - np.min(data_demo):.2f} / {h_fd:.2f} = {k_fd:.2f}")
print(f"   Jumlah kelas (rounded): {int(np.ceil(k_fd))}")

# 5. Aturan Scott
print("\n5. ATURAN SCOTT:")
std_demo = np.std(data_demo)
h_scott = 3.5 * std_demo * (n ** (-1/3))
k_scott = (np.max(data_demo) - np.min(data_demo)) / h_scott
print(f"   σ = {std_demo:.2f}")
print(f"   h = 3.5 × {std_demo:.2f} × {n}^(-1/3) = {h_scott:.2f}")
print(f"   k = {np.max(data_demo) - np.min(data_demo):.2f} / {h_scott:.2f} = {k_scott:.2f}")
print(f"   Jumlah kelas (rounded): {int(np.ceil(k_scott))}")

# 6. Perbandingan semua metode
print("\n6. PERBANDINGAN SEMUA METODE:")
methods = ['Sturges', 'Square Root', 'Rice', 'Freedman-Diaconis', 'Scott']
k_values = [int(np.ceil(k_sturges)), int(np.ceil(k_sqrt)), int(np.ceil(k_rice)), 
           int(np.ceil(k_fd)), int(np.ceil(k_scott))]
h_values = [0, 0, 0, h_fd, h_scott]

comparison_df = pd.DataFrame({
    'Metode': methods,
    'Jumlah Kelas': k_values,
    'Lebar Kelas': h_values
})
print(comparison_df)

# 7. Visualisasi perbandingan metode
plt.figure(figsize=(15, 10))

# Plot 1: Histogram dengan berbagai jumlah kelas
plt.subplot(2, 3, 1)
plt.hist(data_demo, bins=int(np.ceil(k_sturges)), edgecolor='black', alpha=0.7, color='lightblue', label=f'Sturges: {int(np.ceil(k_sturges))} kelas')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Aturan Sturges')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(2, 3, 2)
plt.hist(data_demo, bins=int(np.ceil(k_sqrt)), edgecolor='black', alpha=0.7, color='lightgreen', label=f'Square Root: {int(np.ceil(k_sqrt))} kelas')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Aturan Square Root')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(2, 3, 3)
plt.hist(data_demo, bins=int(np.ceil(k_rice)), edgecolor='black', alpha=0.7, color='lightcoral', label=f'Rice: {int(np.ceil(k_rice))} kelas')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Aturan Rice')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(2, 3, 4)
plt.hist(data_demo, bins=int(np.ceil(k_fd)), edgecolor='black', alpha=0.7, color='lightyellow', label=f'Freedman-Diaconis: {int(np.ceil(k_fd))} kelas')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Aturan Freedman-Diaconis')
plt.legend()
plt.grid(True, alpha=0.3)

plt.subplot(2, 3, 5)
plt.hist(data_demo, bins=int(np.ceil(k_scott)), edgecolor='black', alpha=0.7, color='lightpink', label=f'Scott: {int(np.ceil(k_scott))} kelas')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Aturan Scott')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 6: Perbandingan jumlah kelas
plt.subplot(2, 3, 6)
plt.bar(methods, k_values, color=['lightblue', 'lightgreen', 'lightcoral', 'lightyellow', 'lightpink'], alpha=0.7)
plt.ylabel('Jumlah Kelas')
plt.title('Perbandingan Jumlah Kelas')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 8. Rekomendasi
print("\n8. REKOMENDASI:")
print("   - Sturges: Cocok untuk data normal dengan ukuran sedang")
print("   - Square Root: Cocok untuk data dengan ukuran kecil")
print("   - Rice: Kompromi yang baik untuk sebagian besar kasus")
print("   - Freedman-Diaconis: Cocok untuk data dengan outlier")
print("   - Scott: Cocok untuk data normal dengan variabilitas tinggi")
print("   - Selalu pertimbangkan konteks dan tujuan analisis")
print("   - Gunakan visualisasi untuk memilih yang terbaik")


## 5. Jenis-jenis Distribusi Frekuensi Lanjutan (Advanced Types of Frequency Distributions)

### A. Distribusi Frekuensi Terkelompok (Grouped Frequency Distribution):
- **Definisi**: Data dikelompokkan ke dalam interval kelas
- **Kegunaan**: Data numerik dengan range besar
- **Contoh**: Data tinggi badan, gaji, nilai ujian

### B. Distribusi Frekuensi Tidak Terkelompok (Ungrouped Frequency Distribution):
- **Definisi**: Setiap nilai data memiliki frekuensi sendiri
- **Kegunaan**: Data dengan nilai unik yang terbatas
- **Contoh**: Data jumlah anak, skor dadu

### C. Distribusi Frekuensi Kumulatif Kurang Dari (Cumulative Frequency Less Than):
- **Definisi**: Frekuensi kumulatif dari nilai terkecil sampai batas atas kelas
- **Kegunaan**: Mengetahui berapa banyak data di bawah nilai tertentu
- **Simbol**: F(x) = Σf untuk x ≤ batas atas

### D. Distribusi Frekuensi Kumulatif Lebih Dari (Cumulative Frequency More Than):
- **Definisi**: Frekuensi kumulatif dari batas bawah kelas sampai nilai terbesar
- **Kegunaan**: Mengetahui berapa banyak data di atas nilai tertentu
- **Simbol**: F(x) = Σf untuk x ≥ batas bawah

### E. Distribusi Frekuensi Relatif Kumulatif (Cumulative Relative Frequency):
- **Definisi**: Frekuensi kumulatif dibagi total data
- **Kegunaan**: Mengetahui proporsi data kumulatif
- **Rumus**: RF(x) = F(x) / n

### F. Distribusi Frekuensi Persentase Kumulatif (Cumulative Percentage Frequency):
- **Definisi**: Frekuensi relatif kumulatif dikalikan 100
- **Kegunaan**: Mengetahui persentase data kumulatif
- **Rumus**: PF(x) = RF(x) × 100%


In [None]:
# Demonstrasi Jenis-jenis Distribusi Frekuensi Lanjutan
print("=== DEMONSTRASI JENIS-JENIS DISTRIBUSI FREKUENSI LANJUTAN ===")

# Data untuk demonstrasi
np.random.seed(42)
data_scores = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90, 85, 88, 92, 89, 87]
print(f"Data nilai: {data_scores}")
print(f"Jumlah data: {len(data_scores)}")

# 1. Distribusi Frekuensi Terkelompok
print("\n1. DISTRIBUSI FREKUENSI TERKELOMPOK:")
# Menggunakan aturan Sturges
n = len(data_scores)
k = int(np.ceil(1 + 3.322 * np.log10(n)))
min_val = min(data_scores)
max_val = max(data_scores)
class_width = (max_val - min_val) / k

print(f"Jumlah kelas: {k}")
print(f"Lebar kelas: {class_width:.2f}")

# Membuat interval kelas
classes = []
for i in range(k):
    start = min_val + i * class_width
    end = min_val + (i + 1) * class_width
    classes.append((start, end))

print(f"Interval kelas: {[(f'{c[0]:.1f}-{c[1]:.1f}') for c in classes]}")

# Menghitung frekuensi untuk setiap kelas
freq_grouped = []
for start, end in classes:
    count = sum(1 for x in data_scores if start <= x < end)
    freq_grouped.append(count)

print(f"Frekuensi per kelas: {freq_grouped}")

# 2. Distribusi Frekuensi Tidak Terkelompok
print("\n2. DISTRIBUSI FREKUENSI TIDAK TERKELOMPOK:")
freq_ungrouped = pd.Series(data_scores).value_counts().sort_index()
print("Frekuensi per nilai:")
print(freq_ungrouped)

# 3. Distribusi Frekuensi Kumulatif Kurang Dari
print("\n3. DISTRIBUSI FREKUENSI KUMULATIF KURANG DARI:")
cumulative_less = []
cumulative_sum = 0
for i, freq in enumerate(freq_grouped):
    cumulative_sum += freq
    cumulative_less.append(cumulative_sum)
    print(f"Kelas {i+1}: {classes[i][0]:.1f}-{classes[i][1]:.1f} → {cumulative_sum}")

# 4. Distribusi Frekuensi Kumulatif Lebih Dari
print("\n4. DISTRIBUSI FREKUENSI KUMULATIF LEBIH DARI:")
cumulative_more = []
cumulative_sum = sum(freq_grouped)
for i, freq in enumerate(freq_grouped):
    cumulative_more.append(cumulative_sum)
    print(f"Kelas {i+1}: {classes[i][0]:.1f}-{classes[i][1]:.1f} → {cumulative_sum}")
    cumulative_sum -= freq

# 5. Distribusi Frekuensi Relatif Kumulatif
print("\n5. DISTRIBUSI FREKUENSI RELATIF KUMULATIF:")
relative_cumulative = [f/n for f in cumulative_less]
for i, rel_cum in enumerate(relative_cumulative):
    print(f"Kelas {i+1}: {classes[i][0]:.1f}-{classes[i][1]:.1f} → {rel_cum:.3f}")

# 6. Distribusi Frekuensi Persentase Kumulatif
print("\n6. DISTRIBUSI FREKUENSI PERSENTASE KUMULATIF:")
percentage_cumulative = [f*100 for f in relative_cumulative]
for i, perc_cum in enumerate(percentage_cumulative):
    print(f"Kelas {i+1}: {classes[i][0]:.1f}-{classes[i][1]:.1f} → {perc_cum:.1f}%")

# 7. Tabel Frekuensi Lengkap
print("\n7. TABEL FREKUENSI LENGKAP:")
freq_table = pd.DataFrame({
    'Kelas': [f"{c[0]:.1f}-{c[1]:.1f}" for c in classes],
    'Frekuensi': freq_grouped,
    'Frekuensi Relatif': [f/n for f in freq_grouped],
    'Frekuensi Persentase': [f/n*100 for f in freq_grouped],
    'Kumulatif Kurang Dari': cumulative_less,
    'Kumulatif Lebih Dari': cumulative_more,
    'Relatif Kumulatif': relative_cumulative,
    'Persentase Kumulatif': percentage_cumulative
})
print(freq_table)

# 8. Visualisasi Distribusi Frekuensi Lanjutan
plt.figure(figsize=(18, 12))

# Plot 1: Histogram dengan distribusi terkelompok
plt.subplot(3, 3, 1)
plt.hist(data_scores, bins=k, edgecolor='black', alpha=0.7, color='lightblue')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Distribusi Frekuensi Terkelompok')
plt.grid(True, alpha=0.3)

# Plot 2: Bar chart distribusi tidak terkelompok
plt.subplot(3, 3, 2)
freq_ungrouped.plot(kind='bar', color='lightgreen', alpha=0.7)
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Distribusi Frekuensi Tidak Terkelompok')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 3: Ogive (Cumulative Frequency Curve)
plt.subplot(3, 3, 3)
class_centers = [(c[0] + c[1])/2 for c in classes]
plt.plot(class_centers, cumulative_less, 'o-', linewidth=2, markersize=6, color='red', label='Kumulatif Kurang Dari')
plt.plot(class_centers, cumulative_more, 's-', linewidth=2, markersize=6, color='blue', label='Kumulatif Lebih Dari')
plt.xlabel('Nilai Tengah Kelas')
plt.ylabel('Frekuensi Kumulatif')
plt.title('Ogive (Cumulative Frequency Curve)')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Relative Frequency Histogram
plt.subplot(3, 3, 4)
relative_freq = [f/n for f in freq_grouped]
plt.bar(range(len(classes)), relative_freq, alpha=0.7, color='lightcoral')
plt.xlabel('Kelas')
plt.ylabel('Frekuensi Relatif')
plt.title('Distribusi Frekuensi Relatif')
plt.xticks(range(len(classes)), [f"{c[0]:.1f}-{c[1]:.1f}" for c in classes], rotation=45)
plt.grid(True, alpha=0.3)

# Plot 5: Percentage Frequency Histogram
plt.subplot(3, 3, 5)
percentage_freq = [f/n*100 for f in freq_grouped]
plt.bar(range(len(classes)), percentage_freq, alpha=0.7, color='lightyellow')
plt.xlabel('Kelas')
plt.ylabel('Frekuensi Persentase (%)')
plt.title('Distribusi Frekuensi Persentase')
plt.xticks(range(len(classes)), [f"{c[0]:.1f}-{c[1]:.1f}" for c in classes], rotation=45)
plt.grid(True, alpha=0.3)

# Plot 6: Cumulative Relative Frequency
plt.subplot(3, 3, 6)
plt.plot(class_centers, relative_cumulative, 'o-', linewidth=2, markersize=6, color='purple')
plt.xlabel('Nilai Tengah Kelas')
plt.ylabel('Frekuensi Relatif Kumulatif')
plt.title('Cumulative Relative Frequency')
plt.grid(True, alpha=0.3)

# Plot 7: Cumulative Percentage Frequency
plt.subplot(3, 3, 7)
plt.plot(class_centers, percentage_cumulative, 'o-', linewidth=2, markersize=6, color='orange')
plt.xlabel('Nilai Tengah Kelas')
plt.ylabel('Frekuensi Persentase Kumulatif (%)')
plt.title('Cumulative Percentage Frequency')
plt.grid(True, alpha=0.3)

# Plot 8: Comparison of Different Distributions
plt.subplot(3, 3, 8)
x_pos = np.arange(len(classes))
plt.bar(x_pos - 0.2, freq_grouped, 0.4, label='Frekuensi', alpha=0.7, color='lightblue')
plt.bar(x_pos + 0.2, [f/n*100 for f in freq_grouped], 0.4, label='Persentase', alpha=0.7, color='lightcoral')
plt.xlabel('Kelas')
plt.ylabel('Frekuensi / Persentase')
plt.title('Perbandingan Frekuensi dan Persentase')
plt.xticks(x_pos, [f"{c[0]:.1f}-{c[1]:.1f}" for c in classes], rotation=45)
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 9: Box Plot Comparison
plt.subplot(3, 3, 9)
plt.boxplot(data_scores, patch_artist=True)
plt.ylabel('Nilai')
plt.title('Box Plot - Quartiles dan Outliers')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 9. Kesimpulan dan Rekomendasi
print("\n9. KESIMPULAN DAN REKOMENDASI:")
print("   - Distribusi terkelompok: Cocok untuk data dengan range besar")
print("   - Distribusi tidak terkelompok: Cocok untuk data dengan nilai unik terbatas")
print("   - Kumulatif kurang dari: Berguna untuk analisis persentil")
print("   - Kumulatif lebih dari: Berguna untuk analisis persentil atas")
print("   - Relatif kumulatif: Berguna untuk analisis proporsi")
print("   - Persentase kumulatif: Berguna untuk analisis persentase")
print("   - Pilih jenis distribusi sesuai dengan tujuan analisis")
print("   - Gunakan visualisasi untuk memudahkan interpretasi")


In [None]:
# Distribusi Frekuensi untuk Data Kategorik
print("=== DISTRIBUSI FREKUENSI DATA KATEGORIK ===")
freq_kategorik = pd.Series(data_kategorik).value_counts()
print("Frekuensi Absolut:")
print(freq_kategorik)

print("\nFrekuensi Relatif:")
freq_relatif = pd.Series(data_kategorik).value_counts(normalize=True)
print(freq_relatif)

# Distribusi Frekuensi untuk Data Numerik
print("\n=== DISTRIBUSI FREKUENSI DATA NUMERIK ===")
# Membuat kelas interval
min_val = min(data_numerik)
max_val = max(data_numerik)
n_classes = 5
class_width = (max_val - min_val) / n_classes

print(f"Data: {data_numerik}")
print(f"Range: {min_val} - {max_val}")
print(f"Jumlah kelas: {n_classes}")
print(f"Lebar kelas: {class_width:.2f}")

# Membuat interval kelas
classes = []
for i in range(n_classes):
    start = min_val + i * class_width
    end = min_val + (i + 1) * class_width
    classes.append((start, end))

print(f"\nInterval kelas: {classes}")

# Menghitung frekuensi untuk setiap kelas
freq_numerik = []
for start, end in classes:
    count = sum(1 for x in data_numerik if start <= x < end)
    freq_numerik.append(count)

print(f"Frekuensi per kelas: {freq_numerik}")

# Visualisasi
plt.figure(figsize=(15, 10))

# Plot 1: Data kategorik - Bar chart
plt.subplot(2, 3, 1)
freq_kategorik.plot(kind='bar', color='skyblue', edgecolor='black')
plt.title('Distribusi Frekuensi Data Kategorik')
plt.xlabel('Kategori')
plt.ylabel('Frekuensi')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 2: Data kategorik - Pie chart
plt.subplot(2, 3, 2)
freq_kategorik.plot(kind='pie', autopct='%1.1f%%', startangle=90)
plt.title('Distribusi Frekuensi Relatif Data Kategorik')
plt.ylabel('')

# Plot 3: Data numerik - Histogram
plt.subplot(2, 3, 3)
plt.hist(data_numerik, bins=n_classes, edgecolor='black', alpha=0.7, color='lightgreen')
plt.title('Distribusi Frekuensi Data Numerik')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.grid(True, alpha=0.3)

# Plot 4: Data numerik - Box plot
plt.subplot(2, 3, 4)
plt.boxplot(data_numerik, vert=True)
plt.title('Box Plot Data Numerik')
plt.ylabel('Nilai')
plt.grid(True, alpha=0.3)

# Plot 5: Data numerik - Scatter plot
plt.subplot(2, 3, 5)
x_pos = np.arange(len(data_numerik))
plt.scatter(x_pos, data_numerik, alpha=0.7, color='red')
plt.title('Scatter Plot Data Numerik')
plt.xlabel('Index')
plt.ylabel('Nilai')
plt.grid(True, alpha=0.3)

# Plot 6: Perbandingan distribusi
plt.subplot(2, 3, 6)
plt.hist(data_numerik, bins=n_classes, alpha=0.7, label='Data Numerik', color='lightgreen')
plt.axvline(np.mean(data_numerik), color='red', linestyle='--', label=f'Mean: {np.mean(data_numerik):.2f}')
plt.axvline(np.median(data_numerik), color='blue', linestyle=':', label=f'Median: {np.median(data_numerik):.2f}')
plt.title('Distribusi dengan Ukuran Pemusatan')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 2. Tabel Frekuensi (Frequency Table)

### A. Tabel Frekuensi Absolut (Absolute Frequency Table):
- **Definisi**: Menunjukkan jumlah data dalam setiap kelas
- **Kegunaan**: Memberikan gambaran distribusi data
- **Contoh**: 5 orang memilih warna merah, 3 orang memilih warna biru

### B. Tabel Frekuensi Relatif (Relative Frequency Table):
- **Definisi**: Menunjukkan proporsi data dalam setiap kelas
- **Rumus**: Frekuensi relatif = Frekuensi absolut / Total data
- **Kegunaan**: Membandingkan proporsi antar kategori
- **Contoh**: 50% memilih warna merah, 30% memilih warna biru

### C. Tabel Frekuensi Kumulatif (Cumulative Frequency Table):
- **Definisi**: Menunjukkan frekuensi kumulatif sampai kategori tertentu
- **Kegunaan**: Mengetahui berapa banyak data yang berada di bawah atau di atas nilai tertentu
- **Contoh**: 8 orang memilih warna merah atau biru

### D. Tabel Frekuensi Persentase (Percentage Frequency Table):
- **Definisi**: Frekuensi relatif dikalikan 100
- **Kegunaan**: Lebih mudah dipahami dalam bentuk persentase
- **Contoh**: 50% memilih warna merah, 30% memilih warna biru

### E. Tabel Frekuensi Kumulatif Relatif (Relative Cumulative Frequency Table):
- **Definisi**: Frekuensi kumulatif dibagi total data
- **Kegunaan**: Mengetahui persentase kumulatif data
- **Contoh**: 80% data berada di bawah nilai tertentu


In [None]:
# Demonstrasi Tabel Frekuensi Lengkap
print("=== DEMONSTRASI TABEL FREKUENSI LENGKAP ===")

# Data contoh yang lebih komprehensif
data_warna = ['Merah', 'Biru', 'Hijau', 'Merah', 'Kuning', 'Biru', 'Merah', 'Hijau', 'Biru', 'Merah', 'Kuning', 'Biru']
data_nilai = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90, 88, 85, 92, 89, 87]

print(f"Data Warna: {data_warna}")
print(f"Data Nilai: {data_nilai}")
print(f"Total data warna: {len(data_warna)}")
print(f"Total data nilai: {len(data_nilai)}")

# 1. Tabel Frekuensi untuk Data Kategorik
print("\n=== TABEL FREKUENSI DATA KATEGORIK ===")

# Frekuensi absolut
freq_absolut = pd.Series(data_warna).value_counts().sort_index()
print("1. Frekuensi Absolut:")
print(freq_absolut)

# Frekuensi relatif
freq_relatif = pd.Series(data_warna).value_counts(normalize=True).sort_index()
print("\n2. Frekuensi Relatif:")
print(freq_relatif)

# Frekuensi persentase
freq_persen = (pd.Series(data_warna).value_counts(normalize=True) * 100).sort_index()
print("\n3. Frekuensi Persentase:")
print(freq_persen)

# Frekuensi kumulatif
freq_kumulatif = pd.Series(data_warna).value_counts().sort_index().cumsum()
print("\n4. Frekuensi Kumulatif:")
print(freq_kumulatif)

# Frekuensi kumulatif relatif
freq_kumulatif_relatif = (pd.Series(data_warna).value_counts().sort_index().cumsum() / len(data_warna) * 100)
print("\n5. Frekuensi Kumulatif Relatif (%):")
print(freq_kumulatif_relatif)

# Tabel frekuensi lengkap untuk data kategorik
print("\n6. TABEL FREKUENSI LENGKAP DATA KATEGORIK:")
tabel_kategorik = pd.DataFrame({
    'Kategori': freq_absolut.index,
    'Frekuensi Absolut': freq_absolut.values,
    'Frekuensi Relatif': freq_relatif.values,
    'Frekuensi Persentase (%)': freq_persen.values,
    'Frekuensi Kumulatif': freq_kumulatif.values,
    'Frekuensi Kumulatif Relatif (%)': freq_kumulatif_relatif.values
})
print(tabel_kategorik)

# 2. Tabel Frekuensi untuk Data Numerik
print("\n=== TABEL FREKUENSI DATA NUMERIK ===")

# Membuat kelas interval untuk data numerik
min_val = min(data_nilai)
max_val = max(data_nilai)
n_classes = 6
class_width = (max_val - min_val) / n_classes

print(f"Data: {data_nilai}")
print(f"Range: {min_val} - {max_val}")
print(f"Jumlah kelas: {n_classes}")
print(f"Lebar kelas: {class_width:.2f}")

# Membuat interval kelas
classes = []
for i in range(n_classes):
    start = min_val + i * class_width
    end = min_val + (i + 1) * class_width
    classes.append((start, end))

print(f"\nInterval kelas: {classes}")

# Menghitung frekuensi untuk setiap kelas
freq_numerik = []
for start, end in classes:
    count = sum(1 for x in data_nilai if start <= x < end)
    freq_numerik.append(count)

print(f"Frekuensi per kelas: {freq_numerik}")

# Membuat tabel frekuensi untuk data numerik
tabel_numerik = pd.DataFrame({
    'Kelas': [f"{start:.1f} - {end:.1f}" for start, end in classes],
    'Frekuensi Absolut': freq_numerik,
    'Frekuensi Relatif': [f/len(data_nilai) for f in freq_numerik],
    'Frekuensi Persentase (%)': [f/len(data_nilai)*100 for f in freq_numerik],
    'Frekuensi Kumulatif': np.cumsum(freq_numerik),
    'Frekuensi Kumulatif Relatif (%)': np.cumsum(freq_numerik)/len(data_nilai)*100
})

print("\nTABEL FREKUENSI LENGKAP DATA NUMERIK:")
print(tabel_numerik)

# Verifikasi
print(f"\nVerifikasi:")
print(f"Total frekuensi absolut kategorik: {freq_absolut.sum()}")
print(f"Total frekuensi relatif kategorik: {freq_relatif.sum():.2f}")
print(f"Total frekuensi absolut numerik: {sum(freq_numerik)}")
print(f"Total frekuensi relatif numerik: {sum(f/len(data_nilai) for f in freq_numerik):.2f}")


## 3. Grafik Distribusi Frekuensi (Frequency Distribution Graphs)

### A. Grafik untuk Data Kategorik (Categorical Data):

#### 1. Bar Chart (Diagram Batang):
- **Kegunaan**: Membandingkan frekuensi antar kategori
- **Keunggulan**: Mudah dibaca, dapat menampilkan banyak kategori
- **Contoh**: Diagram batang untuk jenis kelamin, merek HP

#### 2. Pie Chart (Diagram Lingkaran):
- **Kegunaan**: Menunjukkan proporsi relatif setiap kategori
- **Keunggulan**: Mudah dipahami proporsi
- **Kelemahan**: Sulit dibaca jika terlalu banyak kategori
- **Contoh**: Diagram lingkaran untuk distribusi warna favorit

#### 3. Horizontal Bar Chart:
- **Kegunaan**: Sama dengan bar chart, lebih baik untuk label panjang
- **Keunggulan**: Label kategori lebih mudah dibaca
- **Contoh**: Diagram batang horizontal untuk tingkat pendidikan

### B. Grafik untuk Data Numerik (Numerical Data):

#### 1. Histogram:
- **Kegunaan**: Menunjukkan distribusi frekuensi data kontinu
- **Keunggulan**: Menunjukkan bentuk distribusi data
- **Contoh**: Histogram untuk tinggi badan, nilai ujian

#### 2. Box Plot (Box and Whisker Plot):
- **Kegunaan**: Menunjukkan quartiles, median, dan outlier
- **Keunggulan**: Ringkas, menunjukkan distribusi dan outlier
- **Contoh**: Box plot untuk gaji, umur

#### 3. Scatter Plot:
- **Kegunaan**: Menunjukkan hubungan antara dua variabel numerik
- **Keunggulan**: Menunjukkan korelasi dan pola data
- **Contoh**: Scatter plot tinggi vs berat badan

#### 4. Line Plot:
- **Kegunaan**: Menunjukkan tren data over time
- **Keunggulan**: Menunjukkan perubahan over time
- **Contoh**: Line plot untuk data time series

### C. Grafik Khusus untuk Distribusi Frekuensi:

#### 1. Ogive (Cumulative Frequency Curve):
- **Kegunaan**: Menunjukkan frekuensi kumulatif
- **Keunggulan**: Mudah melihat persentase kumulatif
- **Contoh**: Ogive untuk distribusi nilai ujian

#### 2. Stem and Leaf Plot:
- **Kegunaan**: Menampilkan data mentah dengan distribusi
- **Keunggulan**: Mempertahankan data asli
- **Contoh**: Stem and leaf plot untuk data numerik kecil

#### 3. Frequency Polygon:
- **Kegunaan**: Menghubungkan titik tengah kelas histogram
- **Keunggulan**: Menunjukkan tren distribusi
- **Contoh**: Frequency polygon untuk distribusi frekuensi


In [None]:
# Demonstrasi Grafik Distribusi Frekuensi Komprehensif
print("=== DEMONSTRASI GRAFIK DISTRIBUSI FREKUENSI KOMPREHENSIF ===")

# Data untuk visualisasi yang lebih komprehensif
np.random.seed(42)
data_kategorik_viz = ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'D', 'B', 'C']
data_numerik_viz = np.random.normal(100, 15, 100)  # Mean=100, Std=15
data_time_series = np.random.normal(100, 5, 50) + np.sin(np.linspace(0, 4*np.pi, 50)) * 10

# Membuat visualisasi komprehensif
fig, axes = plt.subplots(3, 4, figsize=(20, 15))
fig.suptitle('Demonstrasi Grafik Distribusi Frekuensi Komprehensif', fontsize=16, fontweight='bold')

# 1. Bar Chart untuk data kategorik
axes[0, 0].bar(pd.Series(data_kategorik_viz).value_counts().index, 
               pd.Series(data_kategorik_viz).value_counts().values, 
               color=['skyblue', 'lightcoral', 'lightgreen', 'orange'], alpha=0.8)
axes[0, 0].set_title('Bar Chart - Data Kategorik')
axes[0, 0].set_xlabel('Kategori')
axes[0, 0].set_ylabel('Frekuensi')
axes[0, 0].grid(True, alpha=0.3)

# 2. Pie Chart untuk data kategorik
axes[0, 1].pie(pd.Series(data_kategorik_viz).value_counts().values, 
               labels=pd.Series(data_kategorik_viz).value_counts().index,
               autopct='%1.1f%%', startangle=90, colors=['skyblue', 'lightcoral', 'lightgreen', 'orange'])
axes[0, 1].set_title('Pie Chart - Data Kategorik')

# 3. Horizontal Bar Chart
axes[0, 2].barh(pd.Series(data_kategorik_viz).value_counts().index, 
                pd.Series(data_kategorik_viz).value_counts().values,
                color=['skyblue', 'lightcoral', 'lightgreen', 'orange'], alpha=0.8)
axes[0, 2].set_title('Horizontal Bar Chart - Data Kategorik')
axes[0, 2].set_xlabel('Frekuensi')
axes[0, 2].set_ylabel('Kategori')
axes[0, 2].grid(True, alpha=0.3)

# 4. Histogram untuk data numerik
axes[0, 3].hist(data_numerik_viz, bins=20, edgecolor='black', alpha=0.7, color='lightblue')
axes[0, 3].axvline(np.mean(data_numerik_viz), color='red', linestyle='--', linewidth=2, label=f'Mean: {np.mean(data_numerik_viz):.1f}')
axes[0, 3].axvline(np.median(data_numerik_viz), color='green', linestyle=':', linewidth=2, label=f'Median: {np.median(data_numerik_viz):.1f}')
axes[0, 3].set_title('Histogram - Data Numerik')
axes[0, 3].set_xlabel('Nilai')
axes[0, 3].set_ylabel('Frekuensi')
axes[0, 3].legend()
axes[0, 3].grid(True, alpha=0.3)

# 5. Box Plot untuk data numerik
box_plot = axes[1, 0].boxplot(data_numerik_viz, patch_artist=True)
box_plot['boxes'][0].set_facecolor('lightgreen')
axes[1, 0].set_title('Box Plot - Data Numerik')
axes[1, 0].set_ylabel('Nilai')
axes[1, 0].grid(True, alpha=0.3)

# 6. Scatter Plot untuk data numerik
x_scatter = np.arange(len(data_numerik_viz))
axes[1, 1].scatter(x_scatter, data_numerik_viz, alpha=0.6, color='purple')
axes[1, 1].axhline(np.mean(data_numerik_viz), color='red', linestyle='--', linewidth=2, label=f'Mean: {np.mean(data_numerik_viz):.1f}')
axes[1, 1].set_title('Scatter Plot - Data Numerik')
axes[1, 1].set_xlabel('Index')
axes[1, 1].set_ylabel('Nilai')
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

# 7. Line Plot untuk data time series
axes[1, 2].plot(data_time_series, marker='o', linewidth=2, markersize=4, color='orange')
axes[1, 2].set_title('Line Plot - Time Series')
axes[1, 2].set_xlabel('Time')
axes[1, 2].set_ylabel('Nilai')
axes[1, 2].grid(True, alpha=0.3)

# 8. Ogive (Cumulative Frequency Curve)
sorted_data = np.sort(data_numerik_viz)
cumulative_freq = np.arange(1, len(sorted_data) + 1)
axes[1, 3].plot(sorted_data, cumulative_freq, marker='o', linewidth=2, markersize=3, color='red')
axes[1, 3].set_title('Ogive - Cumulative Frequency')
axes[1, 3].set_xlabel('Nilai')
axes[1, 3].set_ylabel('Frekuensi Kumulatif')
axes[1, 3].grid(True, alpha=0.3)

# 9. Stem and Leaf Plot (simplified)
axes[2, 0].text(0.1, 0.9, 'Stem and Leaf Plot', fontsize=12, fontweight='bold', transform=axes[2, 0].transAxes)
stem_leaf_text = "Stem | Leaf\n"
for i in range(70, 130, 10):
    leaves = [str(x)[-1] for x in data_numerik_viz if i <= x < i+10]
    if leaves:
        stem_leaf_text += f"{i//10} | {' '.join(leaves)}\n"
axes[2, 0].text(0.1, 0.8, stem_leaf_text, fontsize=10, transform=axes[2, 0].transAxes, 
                verticalalignment='top', fontfamily='monospace')
axes[2, 0].set_xlim(0, 1)
axes[2, 0].set_ylim(0, 1)
axes[2, 0].axis('off')

# 10. Frequency Polygon
hist, bins = np.histogram(data_numerik_viz, bins=20)
bin_centers = (bins[:-1] + bins[1:]) / 2
axes[2, 1].plot(bin_centers, hist, marker='o', linewidth=2, markersize=4, color='blue')
axes[2, 1].set_title('Frequency Polygon')
axes[2, 1].set_xlabel('Nilai')
axes[2, 1].set_ylabel('Frekuensi')
axes[2, 1].grid(True, alpha=0.3)

# 11. Violin Plot
axes[2, 2].violinplot(data_numerik_viz, showmeans=True, showmedians=True)
axes[2, 2].set_title('Violin Plot - Data Numerik')
axes[2, 2].set_ylabel('Nilai')
axes[2, 2].grid(True, alpha=0.3)

# 12. Density Plot
axes[2, 3].hist(data_numerik_viz, bins=20, density=True, alpha=0.7, color='lightcoral', edgecolor='black', label='Data')
# Overlay normal distribution
x_norm = np.linspace(data_numerik_viz.min(), data_numerik_viz.max(), 100)
y_norm = stats.norm.pdf(x_norm, np.mean(data_numerik_viz), np.std(data_numerik_viz))
axes[2, 3].plot(x_norm, y_norm, 'r-', linewidth=2, label='Normal Distribution')
axes[2, 3].set_title('Density Plot - Data Numerik')
axes[2, 3].set_xlabel('Nilai')
axes[2, 3].set_ylabel('Density')
axes[2, 3].legend()
axes[2, 3].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Statistik deskriptif untuk data numerik
print("\n=== STATISTIK DESKRIPTIF DATA NUMERIK ===")
print(f"Jumlah data: {len(data_numerik_viz)}")
print(f"Mean: {np.mean(data_numerik_viz):.2f}")
print(f"Median: {np.median(data_numerik_viz):.2f}")
print(f"Mode: {stats.mode(data_numerik_viz)[0][0]:.2f}")
print(f"Standard Deviation: {np.std(data_numerik_viz):.2f}")
print(f"Variance: {np.var(data_numerik_viz):.2f}")
print(f"Range: {np.max(data_numerik_viz) - np.min(data_numerik_viz):.2f}")
print(f"Min: {np.min(data_numerik_viz):.2f}")
print(f"Max: {np.max(data_numerik_viz):.2f}")
print(f"Q1 (25%): {np.percentile(data_numerik_viz, 25):.2f}")
print(f"Q3 (75%): {np.percentile(data_numerik_viz, 75):.2f}")
print(f"IQR: {np.percentile(data_numerik_viz, 75) - np.percentile(data_numerik_viz, 25):.2f}")
print(f"Skewness: {stats.skew(data_numerik_viz):.3f}")
print(f"Kurtosis: {stats.kurtosis(data_numerik_viz):.3f}")


## 4. Aplikasi dalam Analisis Data (Applications in Data Analysis)

### A. Eksplorasi Data (Data Exploration):
- **Tujuan**: Memahami karakteristik data sebelum analisis lebih lanjut
- **Langkah-langkah**:
  1. Identifikasi jenis data (kualitatif/kuantitatif)
  2. Buat tabel frekuensi yang sesuai
  3. Visualisasi distribusi frekuensi
  4. Analisis pola dan tren data
  5. Identifikasi outlier dan anomali

### B. Persiapan Data (Data Preparation):
- **Tujuan**: Membersihkan dan mempersiapkan data untuk analisis
- **Langkah-langkah**:
  1. Identifikasi missing values
  2. Deteksi outlier menggunakan IQR
  3. Transformasi data jika diperlukan
  4. Validasi kualitas data
  5. Normalisasi atau standarisasi data

### C. Analisis Komparatif (Comparative Analysis):
- **Tujuan**: Membandingkan distribusi data antar kelompok
- **Metode**:
  1. Buat tabel frekuensi untuk setiap kelompok
  2. Bandingkan distribusi frekuensi
  3. Analisis perbedaan pola distribusi
  4. Gunakan visualisasi untuk perbandingan
  5. Uji statistik untuk perbedaan signifikan

### D. Komunikasi Hasil (Results Communication):
- **Tujuan**: Menyampaikan temuan dengan jelas dan efektif
- **Prinsip-prinsip**:
  1. Pilih visualisasi yang tepat
  2. Gunakan tabel frekuensi yang informatif
  3. Sertakan interpretasi yang jelas
  4. Pertimbangkan audiens
  5. Gunakan statistik deskriptif yang relevan

### E. Pengambilan Keputusan (Decision Making):
- **Tujuan**: Menggunakan distribusi frekuensi untuk mendukung keputusan
- **Faktor-faktor**:
  1. Kualitas data dan representativitas
  2. Relevansi distribusi frekuensi
  3. Konteks bisnis atau penelitian
  4. Risiko dan ketidakpastian
  5. Validasi dengan metode lain


In [None]:
# Demonstrasi Aplikasi dalam Analisis Data
print("=== DEMONSTRASI APLIKASI DALAM ANALISIS DATA ===")

# Simulasi data real-world untuk analisis komprehensif
np.random.seed(42)
n_samples = 300

# Data simulasi untuk analisis komprehensif
data_real_world = {
    'ID': range(1, n_samples + 1),
    'Jenis_Kelamin': np.random.choice(['Laki-laki', 'Perempuan'], n_samples, p=[0.52, 0.48]),
    'Umur': np.random.normal(35, 10, n_samples).astype(int),
    'Pendidikan': np.random.choice(['SMA', 'S1', 'S2', 'S3'], n_samples, p=[0.3, 0.4, 0.25, 0.05]),
    'Gaji': np.random.lognormal(10, 0.5, n_samples).astype(int),
    'Pengalaman_Kerja': np.random.poisson(5, n_samples),
    'Kepuasan_Kerja': np.random.choice(['Sangat Puas', 'Puas', 'Netral', 'Tidak Puas'], n_samples, p=[0.2, 0.4, 0.3, 0.1]),
    'Departemen': np.random.choice(['IT', 'HR', 'Finance', 'Marketing', 'Operations'], n_samples, p=[0.25, 0.15, 0.2, 0.2, 0.2]),
    'Status': np.random.choice(['Menikah', 'Belum Menikah'], n_samples, p=[0.6, 0.4])
}

df_real = pd.DataFrame(data_real_world)

# 1. Eksplorasi Data
print("1. EKSPLORASI DATA:")
print(f"   - Dimensi data: {df_real.shape}")
print(f"   - Missing values: {df_real.isnull().sum().sum()}")
print(f"   - Data types:")
for col, dtype in df_real.dtypes.items():
    print(f"     {col}: {dtype}")

# 2. Analisis Data Kategorik
print("\n2. ANALISIS DATA KATEGORIK:")
categorical_cols = ['Jenis_Kelamin', 'Pendidikan', 'Kepuasan_Kerja', 'Departemen', 'Status']
for col in categorical_cols:
    print(f"\n   {col}:")
    freq = df_real[col].value_counts()
    rel_freq = df_real[col].value_counts(normalize=True)
    for category in freq.index:
        print(f"     {category}: {freq[category]} ({rel_freq[category]:.1%})")

# 3. Analisis Data Numerik
print("\n3. ANALISIS DATA NUMERIK:")
numerical_cols = ['Umur', 'Gaji', 'Pengalaman_Kerja']
for col in numerical_cols:
    print(f"\n   {col}:")
    print(f"     Mean: {df_real[col].mean():.2f}")
    print(f"     Median: {df_real[col].median():.2f}")
    print(f"     Std: {df_real[col].std():.2f}")
    print(f"     Min: {df_real[col].min()}")
    print(f"     Max: {df_real[col].max()}")
    print(f"     Q1: {df_real[col].quantile(0.25):.2f}")
    print(f"     Q3: {df_real[col].quantile(0.75):.2f}")
    print(f"     IQR: {df_real[col].quantile(0.75) - df_real[col].quantile(0.25):.2f}")

# 4. Deteksi Outlier
print("\n4. DETEKSI OUTLIER:")
for col in numerical_cols:
    Q1 = df_real[col].quantile(0.25)
    Q3 = df_real[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df_real[(df_real[col] < lower_bound) | (df_real[col] > upper_bound)]
    print(f"   {col}: {len(outliers)} outlier(s) dari {len(df_real)} data ({len(outliers)/len(df_real):.1%})")

# 5. Analisis Komparatif
print("\n5. ANALISIS KOMPARATIF:")
print("   Analisis Gaji per Departemen:")
dept_analysis = df_real.groupby('Departemen')['Gaji'].agg(['mean', 'median', 'std', 'count']).round(2)
print(dept_analysis)

# Analisis per jenis kelamin
print("\n   Analisis Gaji per Jenis Kelamin:")
gender_analysis = df_real.groupby('Jenis_Kelamin')['Gaji'].agg(['mean', 'median', 'std', 'count']).round(2)
print(gender_analysis)

# 6. Visualisasi Komprehensif
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Analisis Komprehensif Distribusi Frekuensi', fontsize=16, fontweight='bold')

# Plot 1: Distribusi gaji
axes[0, 0].hist(df_real['Gaji'], bins=30, edgecolor='black', alpha=0.7, color='skyblue')
axes[0, 0].axvline(df_real['Gaji'].mean(), color='red', linestyle='--', linewidth=2, label=f'Mean: {df_real["Gaji"].mean():.0f}')
axes[0, 0].axvline(df_real['Gaji'].median(), color='green', linestyle=':', linewidth=2, label=f'Median: {df_real["Gaji"].median():.0f}')
axes[0, 0].set_title('Distribusi Gaji')
axes[0, 0].set_xlabel('Gaji')
axes[0, 0].set_ylabel('Frekuensi')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Plot 2: Gaji vs Umur
axes[0, 1].scatter(df_real['Umur'], df_real['Gaji'], alpha=0.6, color='green')
axes[0, 1].set_title('Gaji vs Umur')
axes[0, 1].set_xlabel('Umur')
axes[0, 1].set_ylabel('Gaji')
axes[0, 1].grid(True, alpha=0.3)

# Plot 3: Gaji vs Pengalaman Kerja
axes[0, 2].scatter(df_real['Pengalaman_Kerja'], df_real['Gaji'], alpha=0.6, color='purple')
axes[0, 2].set_title('Gaji vs Pengalaman Kerja')
axes[0, 2].set_xlabel('Pengalaman Kerja (tahun)')
axes[0, 2].set_ylabel('Gaji')
axes[0, 2].grid(True, alpha=0.3)

# Plot 4: Distribusi pendidikan
education_counts = df_real['Pendidikan'].value_counts()
axes[1, 0].bar(education_counts.index, education_counts.values, color='lightcoral', alpha=0.8)
axes[1, 0].set_title('Distribusi Pendidikan')
axes[1, 0].set_xlabel('Pendidikan')
axes[1, 0].set_ylabel('Frekuensi')
axes[1, 0].tick_params(axis='x', rotation=45)
axes[1, 0].grid(True, alpha=0.3)

# Plot 5: Gaji per departemen
df_real.boxplot(column='Gaji', by='Departemen', ax=axes[1, 1])
axes[1, 1].set_title('Gaji per Departemen')
axes[1, 1].set_xlabel('Departemen')
axes[1, 1].set_ylabel('Gaji')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].grid(True, alpha=0.3)

# Plot 6: Heatmap korelasi
correlation_data = df_real[numerical_cols].corr()
im = axes[1, 2].imshow(correlation_data, cmap='coolwarm', aspect='auto')
axes[1, 2].set_xticks(range(len(numerical_cols)))
axes[1, 2].set_yticks(range(len(numerical_cols)))
axes[1, 2].set_xticklabels(numerical_cols, rotation=45)
axes[1, 2].set_yticklabels(numerical_cols)
axes[1, 2].set_title('Heatmap Korelasi')

# Add correlation values to heatmap
for i in range(len(numerical_cols)):
    for j in range(len(numerical_cols)):
        text = axes[1, 2].text(j, i, f'{correlation_data.iloc[i, j]:.2f}',
                               ha="center", va="center", color="black", fontweight='bold')

plt.tight_layout()
plt.show()

# 7. Kesimpulan dan Rekomendasi
print("\n7. KESIMPULAN DAN REKOMENDASI:")
print("   - Data menunjukkan distribusi yang normal untuk umur dan pengalaman kerja")
print("   - Gaji memiliki distribusi log-normal dengan beberapa outlier")
print("   - Terdapat perbedaan gaji antar departemen dan jenis kelamin")
print("   - Rekomendasi: Gunakan median untuk analisis yang lebih robust")
print("   - Perlu analisis lebih lanjut untuk memahami faktor-faktor yang mempengaruhi gaji")
print("   - Gunakan distribusi frekuensi untuk komunikasi hasil yang efektif")
