# 02. Ukuran Pemusatan Data (Measures of Central Tendency)

## Tujuan Pembelajaran
- Memahami konsep ukuran pemusatan data
- Menghitung mean, median, dan mode
- Memahami kapan menggunakan masing-masing ukuran pemusatan
- Menganalisis kelebihan dan kelemahan setiap ukuran

## Materi
1. Mean (Rata-rata) - Arithmetic Mean
2. Median (Nilai Tengah) - Median
3. Mode (Nilai yang Paling Sering Muncul) - Mode
4. Perbandingan Ukuran Pemusatan (Comparison of Measures)
5. Aplikasi dalam Analisis Data (Applications in Data Analysis)


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats

# Data contoh
data = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90]
print("Data:", data)
print("Jumlah data:", len(data))


## 1. Mean (Rata-rata) - Arithmetic Mean

**Mean** adalah jumlah semua nilai data dibagi dengan banyaknya data. Mean juga dikenal sebagai **Arithmetic Mean** atau **Average**.

### Rumus:
**Mean = Σx / n**

Dimana:
- Σx = jumlah semua nilai data (sum of all values)
- n = banyaknya data (number of observations)

### Sifat Mean:
- **Sensitive to outliers**: Mean dipengaruhi oleh nilai ekstrem
- **Unique**: Setiap dataset hanya memiliki satu mean
- **Mathematical properties**: Mean memiliki sifat matematis yang berguna


In [None]:
# Menghitung mean secara manual
mean_manual = sum(data) / len(data)
print(f"Mean (manual): {mean_manual:.2f}")

# Menghitung mean menggunakan numpy
mean_numpy = np.mean(data)
print(f"Mean (numpy): {mean_numpy:.2f}")

# Menghitung mean menggunakan pandas
df = pd.DataFrame({'nilai': data})
mean_pandas = df['nilai'].mean()
print(f"Mean (pandas): {mean_pandas:.2f}")

# Verifikasi
print(f"\nJumlah data: {sum(data)}")
print(f"Banyak data: {len(data)}")
print(f"Mean = {sum(data)} / {len(data)} = {sum(data)/len(data):.2f}")


## 2. Median (Nilai Tengah) - Median

**Median** adalah nilai tengah dari data yang telah diurutkan. Median juga dikenal sebagai **Median** atau **Middle Value**.

### Rumus:
- Untuk data ganjil: Median = nilai ke-(n+1)/2
- Untuk data genap: Median = (nilai ke-n/2 + nilai ke-(n/2+1)) / 2

### Sifat Median:
- **Not sensitive to outliers**: Median tidak dipengaruhi oleh nilai ekstrem
- **Unique**: Setiap dataset hanya memiliki satu median
- **Robust**: Median lebih robust terhadap outlier dibanding mean


In [None]:
# Menghitung median secara manual
data_sorted = sorted(data)
n = len(data_sorted)

if n % 2 == 1:  # data ganjil
    median_manual = data_sorted[n//2]
else:  # data genap
    median_manual = (data_sorted[n//2 - 1] + data_sorted[n//2]) / 2

print(f"Data terurut: {data_sorted}")
print(f"Median (manual): {median_manual}")

# Median menggunakan numpy
median_numpy = np.median(data)
print(f"Median (numpy): {median_numpy}")

# Median menggunakan pandas
median_pandas = df['nilai'].median()
print(f"Median (pandas): {median_pandas}")

# Verifikasi
print(f"\nJumlah data: {n}")
if n % 2 == 1:
    print(f"Data ganjil, median = nilai ke-{n//2 + 1} = {data_sorted[n//2]}")
else:
    print(f"Data genap, median = (nilai ke-{n//2} + nilai ke-{n//2 + 1}) / 2")
    print(f"Median = ({data_sorted[n//2 - 1]} + {data_sorted[n//2]}) / 2 = {median_manual}")


## 3. Mode (Nilai yang Paling Sering Muncul) - Mode

**Mode** adalah nilai yang paling sering muncul dalam dataset. Mode juga dikenal sebagai **Mode** atau **Most Frequent Value**.

### Sifat Mode:
- **May not be unique**: Dataset dapat memiliki lebih dari satu mode
- **Not sensitive to outliers**: Mode tidak dipengaruhi oleh nilai ekstrem
- **Useful for categorical data**: Mode sangat berguna untuk data kategorik


In [None]:
# Menghitung mode secara manual
from collections import Counter

counter = Counter(data)
mode_manual = counter.most_common(1)[0][0]
mode_count = counter.most_common(1)[0][1]

print(f"Frekuensi setiap nilai: {dict(counter)}")
print(f"Mode (manual): {mode_manual} (muncul {mode_count} kali)")

# Mode menggunakan scipy
mode_scipy = stats.mode(data)
print(f"Mode (scipy): {mode_scipy.mode[0]} (muncul {mode_scipy.count[0]} kali)")

# Mode menggunakan pandas
mode_pandas = df['nilai'].mode()
print(f"Mode (pandas): {mode_pandas.tolist()}")

# Visualisasi perbandingan ukuran pemusatan
plt.figure(figsize=(12, 8))

# Plot 1: Histogram dengan ukuran pemusatan
plt.subplot(2, 2, 1)
plt.hist(data, bins=10, edgecolor='black', alpha=0.7, color='skyblue')
plt.axvline(mean_manual, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_manual:.2f}')
plt.axvline(median_manual, color='green', linestyle='--', linewidth=2, label=f'Median: {median_manual}')
plt.axvline(mode_manual, color='orange', linestyle=':', linewidth=2, label=f'Mode: {mode_manual}')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Histogram dengan Ukuran Pemusatan')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Box plot
plt.subplot(2, 2, 2)
plt.boxplot(data, vert=True)
plt.ylabel('Nilai')
plt.title('Box Plot - Quartiles dan Outliers')
plt.grid(True, alpha=0.3)

# Plot 3: Perbandingan ukuran pemusatan
plt.subplot(2, 2, 3)
measures = ['Mean', 'Median', 'Mode']
values = [mean_manual, median_manual, mode_manual]
plt.bar(measures, values, color=['red', 'green', 'orange'], alpha=0.7)
plt.ylabel('Nilai')
plt.title('Perbandingan Ukuran Pemusatan')
plt.grid(True, alpha=0.3)

# Plot 4: Data points dengan ukuran pemusatan
plt.subplot(2, 2, 4)
x_pos = np.arange(len(data))
plt.scatter(x_pos, data, alpha=0.7, color='blue', label='Data points')
plt.axhline(mean_manual, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_manual:.2f}')
plt.axhline(median_manual, color='green', linestyle='--', linewidth=2, label=f'Median: {median_manual}')
plt.axhline(mode_manual, color='orange', linestyle=':', linewidth=2, label=f'Mode: {mode_manual}')
plt.xlabel('Index')
plt.ylabel('Nilai')
plt.title('Data Points dengan Ukuran Pemusatan')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 5. Ukuran Pemusatan Lainnya (Other Measures of Central Tendency)

### A. Geometric Mean (Rata-rata Geometrik):
- **Definisi**: Akar ke-n dari hasil kali n nilai data
- **Rumus**: GM = (x₁ × x₂ × ... × xₙ)^(1/n)
- **Kegunaan**: Data yang berubah secara proporsional (pertumbuhan, rasio)
- **Contoh**: Tingkat pertumbuhan ekonomi, return investasi

### B. Harmonic Mean (Rata-rata Harmonik):
- **Definisi**: Kebalikan dari rata-rata kebalikan nilai data
- **Rumus**: HM = n / (1/x₁ + 1/x₂ + ... + 1/xₙ)
- **Kegunaan**: Data kecepatan, efisiensi, rasio
- **Contoh**: Kecepatan rata-rata, resistansi paralel

### C. Weighted Mean (Rata-rata Tertimbang):
- **Definisi**: Mean yang memperhitungkan bobot setiap nilai
- **Rumus**: WM = Σ(wᵢ × xᵢ) / Σwᵢ
- **Kegunaan**: Data dengan tingkat kepentingan berbeda
- **Contoh**: IPK dengan SKS, harga rata-rata dengan volume

### D. Trimmed Mean (Rata-rata Terpotong):
- **Definisi**: Mean setelah menghilangkan persentase tertentu dari data ekstrem
- **Kegunaan**: Mengurangi pengaruh outlier tanpa menghilangkannya sepenuhnya
- **Contoh**: 10% trimmed mean menghilangkan 5% data terendah dan tertinggi


In [None]:
# Demonstrasi Ukuran Pemusatan Lainnya
print("=== DEMONSTRASI UKURAN PEMUSATAN LAINNYA ===")

# Data untuk demonstrasi
data_growth = [1.05, 1.08, 1.12, 1.15, 1.18, 1.20, 1.22]  # Tingkat pertumbuhan tahunan
data_speed = [60, 80, 100, 120, 90]  # Kecepatan dalam km/jam
data_grades = [85, 90, 78, 92, 88]  # Nilai ujian
data_weights = [3, 4, 2, 3, 4]  # Bobot SKS
data_with_outliers = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90, 150, 200]

print(f"Data pertumbuhan: {data_growth}")
print(f"Data kecepatan: {data_speed}")
print(f"Data nilai: {data_grades}")
print(f"Data bobot: {data_weights}")
print(f"Data dengan outlier: {data_with_outliers}")

# 1. Geometric Mean
print("\n1. GEOMETRIC MEAN:")
# Manual calculation
product = 1
for x in data_growth:
    product *= x
geometric_mean_manual = product ** (1/len(data_growth))
print(f"   Manual: {geometric_mean_manual:.4f}")

# Using scipy
from scipy import stats
geometric_mean_scipy = stats.gmean(data_growth)
print(f"   SciPy: {geometric_mean_scipy:.4f}")

# Verification
print(f"   Verifikasi: {product}^(1/{len(data_growth)}) = {geometric_mean_manual:.4f}")

# 2. Harmonic Mean
print("\n2. HARMONIC MEAN:")
# Manual calculation
sum_reciprocals = sum(1/x for x in data_speed)
harmonic_mean_manual = len(data_speed) / sum_reciprocals
print(f"   Manual: {harmonic_mean_manual:.2f}")

# Using scipy
harmonic_mean_scipy = stats.hmean(data_speed)
print(f"   SciPy: {harmonic_mean_scipy:.2f}")

# Verification
print(f"   Verifikasi: {len(data_speed)} / {sum_reciprocals:.4f} = {harmonic_mean_manual:.2f}")

# 3. Weighted Mean
print("\n3. WEIGHTED MEAN:")
# Manual calculation
weighted_sum = sum(data_grades[i] * data_weights[i] for i in range(len(data_grades)))
total_weight = sum(data_weights)
weighted_mean_manual = weighted_sum / total_weight
print(f"   Manual: {weighted_mean_manual:.2f}")

# Using numpy
weighted_mean_numpy = np.average(data_grades, weights=data_weights)
print(f"   NumPy: {weighted_mean_numpy:.2f}")

# Verification
print(f"   Verifikasi: {weighted_sum} / {total_weight} = {weighted_mean_manual:.2f}")

# 4. Trimmed Mean
print("\n4. TRIMMED MEAN:")
# 10% trimmed mean (5% from each end)
trim_percent = 0.1
trimmed_mean_scipy = stats.trim_mean(data_with_outliers, trim_percent)
print(f"   SciPy (10% trimmed): {trimmed_mean_scipy:.2f}")

# Manual calculation
sorted_data = sorted(data_with_outliers)
n = len(sorted_data)
trim_count = int(n * trim_percent / 2)
trimmed_data = sorted_data[trim_count:n-trim_count]
trimmed_mean_manual = np.mean(trimmed_data)
print(f"   Manual (10% trimmed): {trimmed_mean_manual:.2f}")

# Regular mean for comparison
regular_mean = np.mean(data_with_outliers)
print(f"   Regular mean: {regular_mean:.2f}")
print(f"   Data yang di-trim: {sorted_data[:trim_count]} dan {sorted_data[n-trim_count:]}")
print(f"   Data yang digunakan: {trimmed_data}")

# 5. Perbandingan semua ukuran pemusatan
print("\n5. PERBANDINGAN SEMUA UKURAN PEMUSATAN:")
print(f"   Arithmetic Mean: {np.mean(data_with_outliers):.2f}")
print(f"   Geometric Mean: {stats.gmean(data_with_outliers):.2f}")
print(f"   Harmonic Mean: {stats.hmean(data_with_outliers):.2f}")
print(f"   Median: {np.median(data_with_outliers):.2f}")
print(f"   Mode: {stats.mode(data_with_outliers)[0][0]:.2f}")
print(f"   10% Trimmed Mean: {stats.trim_mean(data_with_outliers, 0.1):.2f}")

# 6. Visualisasi perbandingan
plt.figure(figsize=(15, 10))

# Plot 1: Data dengan outlier
plt.subplot(2, 3, 1)
plt.hist(data_with_outliers, bins=10, edgecolor='black', alpha=0.7, color='lightblue')
plt.axvline(np.mean(data_with_outliers), color='red', linestyle='-', linewidth=2, label=f'Arithmetic Mean: {np.mean(data_with_outliers):.2f}')
plt.axvline(np.median(data_with_outliers), color='green', linestyle='--', linewidth=2, label=f'Median: {np.median(data_with_outliers):.2f}')
plt.axvline(stats.trim_mean(data_with_outliers, 0.1), color='orange', linestyle=':', linewidth=2, label=f'Trimmed Mean: {stats.trim_mean(data_with_outliers, 0.1):.2f}')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Data dengan Outlier')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Perbandingan ukuran pemusatan
plt.subplot(2, 3, 2)
measures = ['Arith. Mean', 'Geom. Mean', 'Harm. Mean', 'Median', 'Mode', 'Trimmed']
values = [np.mean(data_with_outliers), stats.gmean(data_with_outliers), 
          stats.hmean(data_with_outliers), np.median(data_with_outliers), 
          stats.mode(data_with_outliers)[0][0], stats.trim_mean(data_with_outliers, 0.1)]
colors = ['red', 'blue', 'purple', 'green', 'orange', 'brown']
plt.bar(measures, values, color=colors, alpha=0.7)
plt.ylabel('Nilai')
plt.title('Perbandingan Ukuran Pemusatan')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 3: Data pertumbuhan dengan geometric mean
plt.subplot(2, 3, 3)
plt.plot(range(1, len(data_growth)+1), data_growth, 'o-', linewidth=2, markersize=6, color='blue', label='Data Pertumbuhan')
plt.axhline(stats.gmean(data_growth), color='red', linestyle='--', linewidth=2, label=f'Geometric Mean: {stats.gmean(data_growth):.4f}')
plt.xlabel('Periode')
plt.ylabel('Tingkat Pertumbuhan')
plt.title('Geometric Mean untuk Data Pertumbuhan')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Data kecepatan dengan harmonic mean
plt.subplot(2, 3, 4)
plt.bar(range(len(data_speed)), data_speed, alpha=0.7, color='green', label='Kecepatan')
plt.axhline(stats.hmean(data_speed), color='red', linestyle='--', linewidth=2, label=f'Harmonic Mean: {stats.hmean(data_speed):.2f}')
plt.xlabel('Pengamatan')
plt.ylabel('Kecepatan (km/jam)')
plt.title('Harmonic Mean untuk Data Kecepatan')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 5: Weighted mean
plt.subplot(2, 3, 5)
x_pos = np.arange(len(data_grades))
plt.bar(x_pos, data_grades, alpha=0.7, color='purple', label='Nilai')
plt.bar(x_pos, data_weights*10, alpha=0.3, color='orange', label='Bobot (x10)')
plt.axhline(weighted_mean_numpy, color='red', linestyle='--', linewidth=2, label=f'Weighted Mean: {weighted_mean_numpy:.2f}')
plt.xlabel('Mata Kuliah')
plt.ylabel('Nilai / Bobot')
plt.title('Weighted Mean untuk Data Nilai')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 6: Box plot dengan outlier
plt.subplot(2, 3, 6)
plt.boxplot(data_with_outliers, patch_artist=True)
plt.ylabel('Nilai')
plt.title('Box Plot - Deteksi Outlier')
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()


## 6. Edge Cases dan Situasi Khusus (Edge Cases and Special Situations)

### A. Data dengan Outlier Ekstrem:
- **Masalah**: Outlier dapat sangat mempengaruhi mean
- **Solusi**: Gunakan median atau trimmed mean
- **Contoh**: Data gaji dengan CEO yang mendapat gaji sangat tinggi

### B. Data Multimodal:
- **Masalah**: Data memiliki lebih dari satu mode
- **Solusi**: Laporkan semua mode atau gunakan mean/median
- **Contoh**: Data tinggi badan yang memiliki dua puncak (pria dan wanita)

### C. Data dengan Missing Values:
- **Masalah**: Beberapa data hilang
- **Solusi**: 
  - Hapus data yang hilang (listwise deletion)
  - Imputasi dengan mean/median
  - Gunakan metode yang robust terhadap missing data

### D. Data Skewed (Miring):
- **Masalah**: Distribusi tidak simetris
- **Solusi**: 
  - Gunakan median untuk data miring
  - Transformasi data (log, square root)
  - Laporkan mean dan median

### E. Data dengan Zero atau Negative Values:
- **Masalah**: Geometric mean tidak dapat dihitung
- **Solusi**: 
  - Gunakan arithmetic mean
  - Transformasi data (menambahkan konstanta)
  - Gunakan median


In [None]:
# Demonstrasi Edge Cases dan Situasi Khusus
print("=== DEMONSTRASI EDGE CASES DAN SITUASI KHUSUS ===")

# 1. Data dengan Outlier Ekstrem
print("\n1. DATA DENGAN OUTLIER EKSTREM:")
data_salary = [50000, 55000, 60000, 65000, 70000, 75000, 80000, 85000, 90000, 95000, 100000, 2000000]
print(f"Data gaji: {data_salary}")
print(f"Mean: {np.mean(data_salary):,.0f}")
print(f"Median: {np.median(data_salary):,.0f}")
print(f"Mode: {stats.mode(data_salary)[0][0]:,.0f}")
print(f"10% Trimmed Mean: {stats.trim_mean(data_salary, 0.1):,.0f}")

# 2. Data Multimodal
print("\n2. DATA MULTIMODAL:")
np.random.seed(42)
data_multimodal = np.concatenate([
    np.random.normal(160, 5, 50),  # Tinggi wanita
    np.random.normal(175, 5, 50)   # Tinggi pria
])
print(f"Data tinggi (multimodal): {len(data_multimodal)} data")
print(f"Mean: {np.mean(data_multimodal):.2f}")
print(f"Median: {np.median(data_multimodal):.2f}")
print(f"Mode: {stats.mode(data_multimodal)[0][0]:.2f}")

# 3. Data dengan Missing Values
print("\n3. DATA DENGAN MISSING VALUES:")
data_with_missing = [85, 90, None, 92, 88, 76, None, 89, 87, 91, 83, 86, 94, 82, 90]
print(f"Data dengan missing: {data_with_missing}")

# Listwise deletion
data_clean = [x for x in data_with_missing if x is not None]
print(f"Data setelah listwise deletion: {data_clean}")
print(f"Mean (listwise): {np.mean(data_clean):.2f}")

# Imputasi dengan mean
mean_clean = np.mean(data_clean)
data_imputed = [x if x is not None else mean_clean for x in data_with_missing]
print(f"Data setelah imputasi mean: {data_imputed}")
print(f"Mean (imputed): {np.mean(data_imputed):.2f}")

# 4. Data Skewed (Miring)
print("\n4. DATA SKEWED (MIRING):")
np.random.seed(42)
data_skewed = np.random.exponential(2, 100)  # Data eksponensial (miring ke kanan)
print(f"Data skewed: {len(data_skewed)} data")
print(f"Mean: {np.mean(data_skewed):.2f}")
print(f"Median: {np.median(data_skewed):.2f}")
print(f"Mode: {stats.mode(data_skewed)[0][0]:.2f}")

# Transformasi log
data_log = np.log(data_skewed + 1)  # +1 untuk menghindari log(0)
print(f"Data setelah transformasi log: Mean={np.mean(data_log):.2f}, Median={np.median(data_log):.2f}")

# 5. Data dengan Zero dan Negative Values
print("\n5. DATA DENGAN ZERO DAN NEGATIVE VALUES:")
data_mixed = [1, 2, 0, -1, 3, 4, 0, 5]
print(f"Data dengan zero/negative: {data_mixed}")
print(f"Arithmetic Mean: {np.mean(data_mixed):.2f}")
print(f"Median: {np.median(data_mixed):.2f}")

# Geometric mean tidak dapat dihitung
try:
    geom_mean = stats.gmean(data_mixed)
    print(f"Geometric Mean: {geom_mean:.2f}")
except:
    print("Geometric Mean: Tidak dapat dihitung (ada nilai zero/negative)")

# Transformasi untuk geometric mean
data_shifted = [x + 2 for x in data_mixed]  # Shift semua data +2
print(f"Data setelah shift +2: {data_shifted}")
print(f"Geometric Mean (shifted): {stats.gmean(data_shifted):.2f}")

# 6. Visualisasi Edge Cases
plt.figure(figsize=(18, 12))

# Plot 1: Data dengan outlier ekstrem
plt.subplot(3, 3, 1)
plt.hist(data_salary, bins=10, edgecolor='black', alpha=0.7, color='lightblue')
plt.axvline(np.mean(data_salary), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(data_salary):,.0f}')
plt.axvline(np.median(data_salary), color='green', linestyle='--', linewidth=2, label=f'Median: {np.median(data_salary):,.0f}')
plt.xlabel('Gaji')
plt.ylabel('Frekuensi')
plt.title('Data dengan Outlier Ekstrem')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 2: Data multimodal
plt.subplot(3, 3, 2)
plt.hist(data_multimodal, bins=20, edgecolor='black', alpha=0.7, color='lightgreen')
plt.axvline(np.mean(data_multimodal), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(data_multimodal):.2f}')
plt.axvline(np.median(data_multimodal), color='green', linestyle='--', linewidth=2, label=f'Median: {np.median(data_multimodal):.2f}')
plt.xlabel('Tinggi (cm)')
plt.ylabel('Frekuensi')
plt.title('Data Multimodal')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Data skewed
plt.subplot(3, 3, 3)
plt.hist(data_skewed, bins=20, edgecolor='black', alpha=0.7, color='lightcoral')
plt.axvline(np.mean(data_skewed), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(data_skewed):.2f}')
plt.axvline(np.median(data_skewed), color='green', linestyle='--', linewidth=2, label=f'Median: {np.median(data_skewed):.2f}')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Data Skewed (Eksponensial)')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Data setelah transformasi log
plt.subplot(3, 3, 4)
plt.hist(data_log, bins=20, edgecolor='black', alpha=0.7, color='lightyellow')
plt.axvline(np.mean(data_log), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(data_log):.2f}')
plt.axvline(np.median(data_log), color='green', linestyle='--', linewidth=2, label=f'Median: {np.median(data_log):.2f}')
plt.xlabel('Log(Nilai)')
plt.ylabel('Frekuensi')
plt.title('Data Setelah Transformasi Log')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 5: Box plot untuk outlier detection
plt.subplot(3, 3, 5)
plt.boxplot(data_salary, patch_artist=True)
plt.ylabel('Gaji')
plt.title('Box Plot - Deteksi Outlier')
plt.grid(True, alpha=0.3)

# Plot 6: Q-Q plot untuk normalitas
plt.subplot(3, 3, 6)
from scipy import stats
stats.probplot(data_multimodal, dist="norm", plot=plt)
plt.title('Q-Q Plot - Normalitas')
plt.grid(True, alpha=0.3)

# Plot 7: Perbandingan mean vs median untuk data skewed
plt.subplot(3, 3, 7)
measures = ['Mean', 'Median', 'Mode']
values_skewed = [np.mean(data_skewed), np.median(data_skewed), stats.mode(data_skewed)[0][0]]
plt.bar(measures, values_skewed, color=['red', 'green', 'blue'], alpha=0.7)
plt.ylabel('Nilai')
plt.title('Mean vs Median (Data Skewed)')
plt.grid(True, alpha=0.3)

# Plot 8: Histogram data dengan missing values
plt.subplot(3, 3, 8)
plt.hist(data_clean, bins=10, edgecolor='black', alpha=0.7, color='lightblue', label='Listwise Deletion')
plt.hist(data_imputed, bins=10, edgecolor='black', alpha=0.5, color='lightcoral', label='Mean Imputation')
plt.xlabel('Nilai')
plt.ylabel('Frekuensi')
plt.title('Missing Values Handling')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 9: Scatter plot untuk melihat distribusi
plt.subplot(3, 3, 9)
x_pos = np.arange(len(data_mixed))
plt.scatter(x_pos, data_mixed, alpha=0.7, color='purple', s=50)
plt.axhline(np.mean(data_mixed), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(data_mixed):.2f}')
plt.axhline(np.median(data_mixed), color='green', linestyle='--', linewidth=2, label=f'Median: {np.median(data_mixed):.2f}')
plt.xlabel('Index')
plt.ylabel('Nilai')
plt.title('Data dengan Zero/Negative Values')
plt.legend()
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 7. Kesimpulan dan Rekomendasi
print("\n7. KESIMPULAN DAN REKOMENDASI:")
print("   - Outlier ekstrem: Gunakan median atau trimmed mean")
print("   - Data multimodal: Laporkan semua mode atau gunakan mean/median")
print("   - Missing values: Pertimbangkan imputasi atau listwise deletion")
print("   - Data skewed: Gunakan median atau transformasi data")
print("   - Zero/negative values: Hindari geometric mean, gunakan arithmetic mean")
print("   - Selalu laporkan multiple measures untuk analisis komprehensif")


## 7. Aplikasi Praktis dan Best Practices (Practical Applications and Best Practices)

### A. Aplikasi dalam Bidang Bisnis:
- **Analisis Penjualan**: Mean untuk target, median untuk outlier
- **Analisis Gaji**: Median untuk distribusi yang miring
- **Analisis Kepuasan Pelanggan**: Mode untuk data ordinal
- **Analisis Pertumbuhan**: Geometric mean untuk return investasi

### B. Aplikasi dalam Bidang Kesehatan:
- **Analisis Tekanan Darah**: Mean untuk monitoring rutin
- **Analisis Tinggi Badan**: Median untuk data multimodal
- **Analisis Waktu Pemulihan**: Median untuk data skewed
- **Analisis Skor Kesehatan**: Mode untuk data kategorik

### C. Aplikasi dalam Bidang Pendidikan:
- **Analisis Nilai**: Weighted mean dengan SKS
- **Analisis Skor Tes**: Mean untuk distribusi normal
- **Analisis Ranking**: Median untuk data ordinal
- **Analisis Preferensi**: Mode untuk data kategorik

### D. Best Practices:
1. **Selalu gunakan multiple measures** untuk analisis komprehensif
2. **Periksa distribusi data** sebelum memilih ukuran pemusatan
3. **Deteksi outlier** dan pertimbangkan dampaknya
4. **Laporkan dengan konteks** yang jelas
5. **Gunakan visualisasi** untuk mendukung interpretasi
6. **Pertimbangkan audiens** dalam pemilihan ukuran
7. **Dokumentasikan asumsi** dan keterbatasan


In [None]:
# Demonstrasi Aplikasi Praktis dan Best Practices
print("=== DEMONSTRASI APLIKASI PRAKTIS DAN BEST PRACTICES ===")

# Simulasi data real-world untuk berbagai aplikasi
np.random.seed(42)

# 1. Aplikasi Bisnis - Analisis Penjualan
print("\n1. APLIKASI BISNIS - ANALISIS PENJUALAN:")
sales_data = {
    'Bulan': ['Jan', 'Feb', 'Mar', 'Apr', 'May', 'Jun', 'Jul', 'Aug', 'Sep', 'Oct', 'Nov', 'Dec'],
    'Penjualan': [120, 135, 150, 140, 160, 180, 200, 190, 170, 155, 145, 130],
    'Target': [130, 130, 130, 130, 130, 130, 130, 130, 130, 130, 130, 130]
}

df_sales = pd.DataFrame(sales_data)
print("Data Penjualan:")
print(df_sales)

print(f"\nAnalisis Penjualan:")
print(f"  - Mean penjualan: {df_sales['Penjualan'].mean():.0f}")
print(f"  - Median penjualan: {df_sales['Penjualan'].median():.0f}")
print(f"  - Mode penjualan: {df_sales['Penjualan'].mode().iloc[0]}")
print(f"  - Target rata-rata: {df_sales['Target'].mean():.0f}")
print(f"  - Performa vs target: {(df_sales['Penjualan'].mean() / df_sales['Target'].mean() - 1) * 100:.1f}%")

# 2. Aplikasi Kesehatan - Analisis Tekanan Darah
print("\n2. APLIKASI KESEHATAN - ANALISIS TEKANAN DARAH:")
blood_pressure_systolic = np.random.normal(120, 15, 100)  # Tekanan sistolik
blood_pressure_diastolic = np.random.normal(80, 10, 100)  # Tekanan diastolik

print(f"Tekanan Darah Sistolik:")
print(f"  - Mean: {np.mean(blood_pressure_systolic):.1f} mmHg")
print(f"  - Median: {np.median(blood_pressure_systolic):.1f} mmHg")
print(f"  - Std: {np.std(blood_pressure_systolic):.1f} mmHg")

print(f"\nTekanan Darah Diastolik:")
print(f"  - Mean: {np.mean(blood_pressure_diastolic):.1f} mmHg")
print(f"  - Median: {np.median(blood_pressure_diastolic):.1f} mmHg")
print(f"  - Std: {np.std(blood_pressure_diastolic):.1f} mmHg")

# Kategorisasi tekanan darah
normal_systolic = np.sum((blood_pressure_systolic >= 90) & (blood_pressure_systolic < 120))
high_systolic = np.sum(blood_pressure_systolic >= 120)
print(f"\nKategorisasi Sistolik: Normal={normal_systolic}, High={high_systolic}")

# 3. Aplikasi Pendidikan - Analisis Nilai
print("\n3. APLIKASI PENDIDIKAN - ANALISIS NILAI:")
student_grades = {
    'Mata_Kuliah': ['Matematika', 'Fisika', 'Kimia', 'Biologi', 'Bahasa'],
    'Nilai': [85, 90, 78, 92, 88],
    'SKS': [4, 3, 3, 3, 2],
    'Bobot': [4.0, 3.0, 3.0, 3.0, 2.0]
}

df_grades = pd.DataFrame(student_grades)
print("Data Nilai Mahasiswa:")
print(df_grades)

# Weighted mean untuk IPK
weighted_gpa = np.average(df_grades['Nilai'], weights=df_grades['SKS'])
print(f"\nAnalisis Nilai:")
print(f"  - Mean sederhana: {df_grades['Nilai'].mean():.2f}")
print(f"  - Weighted mean (IPK): {weighted_gpa:.2f}")
print(f"  - Median: {df_grades['Nilai'].median():.2f}")
print(f"  - Mode: {df_grades['Nilai'].mode().iloc[0]}")

# 4. Aplikasi Keuangan - Analisis Return Investasi
print("\n4. APLIKASI KEUANGAN - ANALISIS RETURN INVESTASI:")
monthly_returns = [0.02, 0.03, -0.01, 0.04, 0.02, 0.01, 0.03, 0.02, -0.02, 0.03, 0.01, 0.02]
print(f"Return Bulanan: {[f'{r:.1%}' for r in monthly_returns]}")

# Arithmetic mean vs Geometric mean
arithmetic_mean = np.mean(monthly_returns)
geometric_mean = stats.gmean([1 + r for r in monthly_returns]) - 1

print(f"\nAnalisis Return:")
print(f"  - Arithmetic mean: {arithmetic_mean:.2%}")
print(f"  - Geometric mean: {geometric_mean:.2%}")
print(f"  - Total return (geometric): {(1 + geometric_mean)**12 - 1:.2%}")

# 5. Visualisasi Aplikasi Praktis
plt.figure(figsize=(18, 12))

# Plot 1: Analisis Penjualan
plt.subplot(3, 3, 1)
plt.plot(df_sales['Bulan'], df_sales['Penjualan'], 'o-', linewidth=2, markersize=6, color='blue', label='Penjualan')
plt.plot(df_sales['Bulan'], df_sales['Target'], '--', linewidth=2, color='red', label='Target')
plt.axhline(df_sales['Penjualan'].mean(), color='green', linestyle=':', linewidth=2, label=f'Mean: {df_sales["Penjualan"].mean():.0f}')
plt.xlabel('Bulan')
plt.ylabel('Penjualan')
plt.title('Analisis Penjualan vs Target')
plt.legend()
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

# Plot 2: Distribusi Tekanan Darah
plt.subplot(3, 3, 2)
plt.hist(blood_pressure_systolic, bins=15, edgecolor='black', alpha=0.7, color='lightblue', label='Sistolik')
plt.axvline(np.mean(blood_pressure_systolic), color='red', linestyle='-', linewidth=2, label=f'Mean: {np.mean(blood_pressure_systolic):.1f}')
plt.axvline(120, color='orange', linestyle='--', linewidth=2, label='Normal Threshold')
plt.xlabel('Tekanan Darah (mmHg)')
plt.ylabel('Frekuensi')
plt.title('Distribusi Tekanan Darah Sistolik')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 3: Nilai Mahasiswa
plt.subplot(3, 3, 3)
x_pos = np.arange(len(df_grades))
plt.bar(x_pos, df_grades['Nilai'], alpha=0.7, color='lightgreen', label='Nilai')
plt.bar(x_pos, df_grades['SKS']*10, alpha=0.3, color='orange', label='SKS (x10)')
plt.axhline(weighted_gpa, color='red', linestyle='--', linewidth=2, label=f'Weighted Mean: {weighted_gpa:.2f}')
plt.xlabel('Mata Kuliah')
plt.ylabel('Nilai / SKS')
plt.title('Analisis Nilai Mahasiswa')
plt.xticks(x_pos, df_grades['Mata_Kuliah'], rotation=45)
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 4: Return Investasi
plt.subplot(3, 3, 4)
plt.plot(range(1, len(monthly_returns)+1), monthly_returns, 'o-', linewidth=2, markersize=6, color='purple')
plt.axhline(arithmetic_mean, color='red', linestyle='-', linewidth=2, label=f'Arithmetic: {arithmetic_mean:.2%}')
plt.axhline(geometric_mean, color='green', linestyle='--', linewidth=2, label=f'Geometric: {geometric_mean:.2%}')
plt.xlabel('Bulan')
plt.ylabel('Return')
plt.title('Return Investasi Bulanan')
plt.legend()
plt.grid(True, alpha=0.3)

# Plot 5: Box plot untuk outlier detection
plt.subplot(3, 3, 5)
plt.boxplot([df_sales['Penjualan'], blood_pressure_systolic, df_grades['Nilai']], 
           labels=['Penjualan', 'Tekanan Darah', 'Nilai'])
plt.ylabel('Nilai')
plt.title('Box Plot - Deteksi Outlier')
plt.grid(True, alpha=0.3)

# Plot 6: Perbandingan ukuran pemusatan
plt.subplot(3, 3, 6)
measures = ['Mean', 'Median', 'Mode']
values_sales = [df_sales['Penjualan'].mean(), df_sales['Penjualan'].median(), df_sales['Penjualan'].mode().iloc[0]]
plt.bar(measures, values_sales, color=['red', 'green', 'blue'], alpha=0.7)
plt.ylabel('Penjualan')
plt.title('Ukuran Pemusatan - Penjualan')
plt.grid(True, alpha=0.3)

# Plot 7: Cumulative return
plt.subplot(3, 3, 7)
cumulative_returns = np.cumprod([1 + r for r in monthly_returns])
plt.plot(range(1, len(cumulative_returns)+1), cumulative_returns, 'o-', linewidth=2, markersize=6, color='darkgreen')
plt.xlabel('Bulan')
plt.ylabel('Cumulative Return')
plt.title('Cumulative Return Investasi')
plt.grid(True, alpha=0.3)

# Plot 8: Scatter plot tekanan darah
plt.subplot(3, 3, 8)
plt.scatter(blood_pressure_systolic, blood_pressure_diastolic, alpha=0.6, color='red')
plt.xlabel('Sistolik (mmHg)')
plt.ylabel('Diastolik (mmHg)')
plt.title('Korelasi Tekanan Darah')
plt.grid(True, alpha=0.3)

# Plot 9: Performance vs Target
plt.subplot(3, 3, 9)
performance = (df_sales['Penjualan'] / df_sales['Target'] - 1) * 100
plt.bar(df_sales['Bulan'], performance, alpha=0.7, color='lightcoral')
plt.axhline(0, color='black', linestyle='-', linewidth=1)
plt.xlabel('Bulan')
plt.ylabel('Performance vs Target (%)')
plt.title('Performance vs Target')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# 6. Kesimpulan dan Rekomendasi
print("\n6. KESIMPULAN DAN REKOMENDASI:")
print("   - Mean: Cocok untuk data normal dan target setting")
print("   - Median: Cocok untuk data skewed dan outlier")
print("   - Mode: Cocok untuk data kategorik dan preferensi")
print("   - Weighted Mean: Cocok untuk data dengan bobot berbeda")
print("   - Geometric Mean: Cocok untuk data pertumbuhan dan return")
print("   - Selalu pertimbangkan konteks dan tujuan analisis")
print("   - Gunakan visualisasi untuk mendukung interpretasi")
print("   - Laporkan multiple measures untuk analisis komprehensif")


## 4. Perbandingan Ukuran Pemusatan (Comparison of Measures)

### A. Kapan Menggunakan Mean:
- **Kondisi**: Data berdistribusi normal atau mendekati normal
- **Keunggulan**: 
  - Mempertimbangkan semua nilai data
  - Memiliki sifat matematis yang berguna
  - Mudah dihitung dan dipahami
- **Kelemahan**: 
  - Sensitif terhadap outlier
  - Tidak representatif jika ada nilai ekstrem

### B. Kapan Menggunakan Median:
- **Kondisi**: Data memiliki outlier atau distribusi miring
- **Keunggulan**: 
  - Tidak dipengaruhi oleh outlier
  - Robust terhadap nilai ekstrem
  - Representatif untuk data ordinal
- **Kelemahan**: 
  - Tidak mempertimbangkan semua nilai data
  - Lebih sulit dihitung untuk data besar

### C. Kapan Menggunakan Mode:
- **Kondisi**: Data kategorik atau ingin mengetahui nilai yang paling sering muncul
- **Keunggulan**: 
  - Tidak dipengaruhi oleh outlier
  - Berguna untuk data kategorik
  - Mudah dipahami
- **Kelemahan**: 
  - Mungkin tidak unik
  - Tidak berguna untuk data kontinu dengan nilai unik

### D. Aturan Praktis:
1. **Data Normal**: Gunakan mean
2. **Data Miring**: Gunakan median
3. **Data Kategorik**: Gunakan mode
4. **Data dengan Outlier**: Gunakan median
5. **Analisis Komprehensif**: Gunakan ketiganya


In [None]:
# Demonstrasi Perbandingan Ukuran Pemusatan
print("=== DEMONSTRASI PERBANDINGAN UKURAN PEMUSATAN ===")

# Data dengan berbagai karakteristik
np.random.seed(42)

# 1. Data Normal
data_normal = np.random.normal(100, 15, 1000)

# 2. Data Miring Kanan (Right Skewed)
data_skewed_right = np.random.exponential(2, 1000) * 50

# 3. Data Miring Kiri (Left Skewed)
data_skewed_left = 200 - np.random.exponential(2, 1000) * 50

# 4. Data dengan Outlier
data_outlier = np.random.normal(100, 15, 1000)
data_outlier = np.append(data_outlier, [500, 600, 700])  # Menambahkan outlier

# 5. Data Bimodal
data_bimodal = np.concatenate([
    np.random.normal(80, 10, 500),
    np.random.normal(120, 10, 500)
])

# Fungsi untuk menghitung dan menampilkan ukuran pemusatan
def analyze_central_tendency(data, title):
    print(f"\n=== {title} ===")
    print(f"Jumlah data: {len(data)}")
    
    # Menghitung ukuran pemusatan
    mean_val = np.mean(data)
    median_val = np.median(data)
    mode_result = stats.mode(data)
    mode_val = mode_result.mode[0] if len(mode_result.mode) > 0 else "Tidak ada mode"
    
    print(f"Mean: {mean_val:.2f}")
    print(f"Median: {median_val:.2f}")
    print(f"Mode: {mode_val}")
    print(f"Skewness: {stats.skew(data):.3f}")
    print(f"Kurtosis: {stats.kurtosis(data):.3f}")
    
    return mean_val, median_val, mode_val

# Analisis untuk setiap dataset
datasets = [
    (data_normal, "DATA NORMAL"),
    (data_skewed_right, "DATA MIRING KANAN"),
    (data_skewed_left, "DATA MIRING KIRI"),
    (data_outlier, "DATA DENGAN OUTLIER"),
    (data_bimodal, "DATA BIMODAL")
]

results = []
for data, title in datasets:
    mean_val, median_val, mode_val = analyze_central_tendency(data, title)
    results.append((title, mean_val, median_val, mode_val))

# Visualisasi perbandingan
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Perbandingan Ukuran Pemusatan untuk Berbagai Jenis Data', fontsize=16, fontweight='bold')

# Plot untuk setiap dataset
for i, (data, title) in enumerate(datasets):
    row = i // 3
    col = i % 3
    
    # Histogram
    axes[row, col].hist(data, bins=50, alpha=0.7, color='skyblue', edgecolor='black')
    
    # Menambahkan garis untuk ukuran pemusatan
    mean_val = np.mean(data)
    median_val = np.median(data)
    
    axes[row, col].axvline(mean_val, color='red', linestyle='-', linewidth=2, label=f'Mean: {mean_val:.1f}')
    axes[row, col].axvline(median_val, color='green', linestyle='--', linewidth=2, label=f'Median: {median_val:.1f}')
    
    axes[row, col].set_title(title)
    axes[row, col].set_xlabel('Nilai')
    axes[row, col].set_ylabel('Frekuensi')
    axes[row, col].legend()
    axes[row, col].grid(True, alpha=0.3)

# Plot perbandingan ukuran pemusatan
axes[1, 2].axis('off')
axes[1, 2].text(0.1, 0.9, 'PERBANDINGAN UKURAN PEMUSATAN', fontsize=14, fontweight='bold', transform=axes[1, 2].transAxes)

y_pos = 0.8
for title, mean_val, median_val, mode_val in results:
    axes[1, 2].text(0.1, y_pos, f'{title}:', fontsize=12, fontweight='bold', transform=axes[1, 2].transAxes)
    axes[1, 2].text(0.15, y_pos-0.05, f'Mean: {mean_val:.2f}', fontsize=10, transform=axes[1, 2].transAxes)
    axes[1, 2].text(0.15, y_pos-0.1, f'Median: {median_val:.2f}', fontsize=10, transform=axes[1, 2].transAxes)
    axes[1, 2].text(0.15, y_pos-0.15, f'Mode: {mode_val}', fontsize=10, transform=axes[1, 2].transAxes)
    y_pos -= 0.25

plt.tight_layout()
plt.show()

# Analisis perbandingan
print("\n=== ANALISIS PERBANDINGAN ===")
print("1. DATA NORMAL:")
print("   - Mean ≈ Median ≈ Mode")
print("   - Semua ukuran pemusatan memberikan gambaran yang sama")

print("\n2. DATA MIRING KANAN:")
print("   - Mean > Median > Mode")
print("   - Mean dipengaruhi oleh nilai tinggi")
print("   - Median lebih representatif")

print("\n3. DATA MIRING KIRI:")
print("   - Mode > Median > Mean")
print("   - Mean dipengaruhi oleh nilai rendah")
print("   - Median lebih representatif")

print("\n4. DATA DENGAN OUTLIER:")
print("   - Mean sangat dipengaruhi oleh outlier")
print("   - Median lebih robust")
print("   - Mode tidak terpengaruh")

print("\n5. DATA BIMODAL:")
print("   - Memiliki dua mode")
print("   - Mean dan median berada di antara dua mode")
print("   - Perlu analisis lebih lanjut untuk memahami distribusi")


## 5. Ukuran Pemusatan Lainnya (Other Measures of Central Tendency)

### A. Geometric Mean (Rata-rata Geometrik):
- **Definisi**: Akar ke-n dari perkalian n nilai data
- **Rumus**: GM = (x₁ × x₂ × ... × xₙ)^(1/n)
- **Kegunaan**: Data dengan pertumbuhan eksponensial, rasio, persentase
- **Contoh**: Tingkat pertumbuhan, return investasi

### B. Harmonic Mean (Rata-rata Harmonik):
- **Definisi**: Kebalikan dari rata-rata kebalikan nilai data
- **Rumus**: HM = n / (1/x₁ + 1/x₂ + ... + 1/xₙ)
- **Kegunaan**: Data dengan satuan berbeda, kecepatan rata-rata
- **Contoh**: Kecepatan rata-rata, resistansi paralel

### C. Weighted Mean (Rata-rata Tertimbang):
- **Definisi**: Mean dengan bobot berbeda untuk setiap nilai
- **Rumus**: WM = Σ(wᵢ × xᵢ) / Σwᵢ
- **Kegunaan**: Data dengan tingkat kepentingan berbeda
- **Contoh**: Indeks harga, nilai rata-rata dengan bobot

### D. Trimmed Mean (Rata-rata Terpotong):
- **Definisi**: Mean setelah menghilangkan persentase tertentu dari data ekstrem
- **Kegunaan**: Mengurangi pengaruh outlier
- **Contoh**: 10% trimmed mean menghilangkan 10% data terendah dan tertinggi


In [None]:
# Demonstrasi Ukuran Pemusatan Lainnya
print("=== DEMONSTRASI UKURAN PEMUSATAN LAINNYA ===")

# Data contoh untuk berbagai ukuran pemusatan
data_growth = [1.05, 1.08, 1.12, 1.15, 1.18]  # Tingkat pertumbuhan tahunan
data_speed = [60, 80, 100, 120]  # Kecepatan dalam km/jam
data_weighted = [85, 90, 78, 92, 88]  # Nilai ujian
weights = [0.2, 0.3, 0.1, 0.3, 0.1]  # Bobot untuk setiap nilai
data_outlier = [85, 90, 78, 92, 88, 76, 95, 89, 87, 91, 83, 86, 94, 82, 90, 500]  # Data dengan outlier

print("1. GEOMETRIC MEAN (Rata-rata Geometrik):")
print(f"   Data pertumbuhan: {data_growth}")
geometric_mean = np.prod(data_growth) ** (1/len(data_growth))
print(f"   Geometric Mean: {geometric_mean:.4f}")
print(f"   Verifikasi: {geometric_mean:.4f} = {np.prod(data_growth)}^(1/{len(data_growth)})")

print("\n2. HARMONIC MEAN (Rata-rata Harmonik):")
print(f"   Data kecepatan: {data_speed}")
harmonic_mean = len(data_speed) / sum(1/x for x in data_speed)
print(f"   Harmonic Mean: {harmonic_mean:.2f}")
print(f"   Verifikasi: {harmonic_mean:.2f} = {len(data_speed)} / {sum(1/x for x in data_speed):.4f}")

print("\n3. WEIGHTED MEAN (Rata-rata Tertimbang):")
print(f"   Data nilai: {data_weighted}")
print(f"   Bobot: {weights}")
weighted_mean = sum(w * x for w, x in zip(weights, data_weighted)) / sum(weights)
print(f"   Weighted Mean: {weighted_mean:.2f}")
print(f"   Verifikasi: {weighted_mean:.2f} = {sum(w * x for w, x in zip(weights, data_weighted))} / {sum(weights)}")

print("\n4. TRIMMED MEAN (Rata-rata Terpotong):")
print(f"   Data dengan outlier: {data_outlier}")
print(f"   Data asli (tanpa outlier): {data_outlier[:-1]}")
print(f"   Mean biasa: {np.mean(data_outlier):.2f}")
print(f"   Mean tanpa outlier: {np.mean(data_outlier[:-1]):.2f}")

# 10% trimmed mean
sorted_data = sorted(data_outlier)
n = len(sorted_data)
trim_count = int(0.1 * n)
trimmed_data = sorted_data[trim_count:-trim_count]
trimmed_mean = np.mean(trimmed_data)
print(f"   10% Trimmed Mean: {trimmed_mean:.2f}")
print(f"   Data setelah trim: {trimmed_data}")

# Visualisasi perbandingan
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('Perbandingan Berbagai Ukuran Pemusatan', fontsize=16, fontweight='bold')

# Plot 1: Geometric Mean
axes[0, 0].bar(['Arithmetic', 'Geometric'], [np.mean(data_growth), geometric_mean], 
               color=['skyblue', 'lightcoral'], alpha=0.8)
axes[0, 0].set_title('Arithmetic vs Geometric Mean')
axes[0, 0].set_ylabel('Nilai')
axes[0, 0].grid(True, alpha=0.3)

# Plot 2: Harmonic Mean
axes[0, 1].bar(['Arithmetic', 'Harmonic'], [np.mean(data_speed), harmonic_mean], 
               color=['skyblue', 'lightgreen'], alpha=0.8)
axes[0, 1].set_title('Arithmetic vs Harmonic Mean')
axes[0, 1].set_ylabel('Nilai')
axes[0, 1].grid(True, alpha=0.3)

# Plot 3: Weighted Mean
axes[1, 0].bar(['Arithmetic', 'Weighted'], [np.mean(data_weighted), weighted_mean], 
               color=['skyblue', 'orange'], alpha=0.8)
axes[1, 0].set_title('Arithmetic vs Weighted Mean')
axes[1, 0].set_ylabel('Nilai')
axes[1, 0].grid(True, alpha=0.3)

# Plot 4: Trimmed Mean
axes[1, 1].bar(['Arithmetic', 'Trimmed'], [np.mean(data_outlier), trimmed_mean], 
               color=['skyblue', 'purple'], alpha=0.8)
axes[1, 1].set_title('Arithmetic vs Trimmed Mean')
axes[1, 1].set_ylabel('Nilai')
axes[1, 1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Analisis perbandingan
print("\n=== ANALISIS PERBANDINGAN ===")
print("1. GEOMETRIC MEAN:")
print("   - Selalu ≤ Arithmetic Mean")
print("   - Cocok untuk data pertumbuhan eksponensial")
print("   - Mengurangi pengaruh nilai ekstrem")

print("\n2. HARMONIC MEAN:")
print("   - Selalu ≤ Geometric Mean ≤ Arithmetic Mean")
print("   - Cocok untuk data dengan satuan berbeda")
print("   - Berguna untuk kecepatan rata-rata")

print("\n3. WEIGHTED MEAN:")
print("   - Mempertimbangkan tingkat kepentingan")
print("   - Lebih akurat untuk data dengan bobot berbeda")
print("   - Berguna untuk indeks harga")

print("\n4. TRIMMED MEAN:")
print("   - Mengurangi pengaruh outlier")
print("   - Lebih robust daripada mean biasa")
print("   - Berguna untuk data dengan nilai ekstrem")


## 6. Aplikasi dalam Analisis Data (Applications in Data Analysis)

### A. Eksplorasi Data (Data Exploration):
- **Tujuan**: Memahami karakteristik data sebelum analisis lebih lanjut
- **Langkah-langkah**:
  1. Hitung mean, median, dan mode
  2. Bandingkan ketiga ukuran pemusatan
  3. Identifikasi skewness dan outlier
  4. Pilih ukuran pemusatan yang paling representatif

### B. Deteksi Anomali (Anomaly Detection):
- **Tujuan**: Mengidentifikasi data yang tidak normal atau mencurigakan
- **Metode**:
  1. Bandingkan nilai dengan mean dan median
  2. Gunakan IQR untuk deteksi outlier
  3. Analisis perbedaan mean dan median
  4. Identifikasi data yang jauh dari ukuran pemusatan

### C. Analisis Komparatif (Comparative Analysis):
- **Tujuan**: Membandingkan karakteristik data antar kelompok
- **Metode**:
  1. Hitung ukuran pemusatan untuk setiap kelompok
  2. Bandingkan mean, median, dan mode
  3. Analisis perbedaan distribusi
  4. Gunakan visualisasi untuk perbandingan

### D. Pengambilan Keputusan (Decision Making):
- **Tujuan**: Menggunakan ukuran pemusatan untuk mendukung keputusan
- **Faktor-faktor**:
  1. Pilih ukuran pemusatan yang sesuai dengan data
  2. Pertimbangkan konteks bisnis
  3. Analisis kelemahan dan keunggulan
  4. Gunakan multiple ukuran pemusatan untuk validasi


In [None]:
# Demonstrasi Aplikasi dalam Analisis Data
print("=== DEMONSTRASI APLIKASI DALAM ANALISIS DATA ===")

# Simulasi data real-world untuk analisis komprehensif
np.random.seed(42)

# Data simulasi untuk analisis komprehensif
data_analysis = {
    'ID': range(1, 201),
    'Departemen': np.random.choice(['IT', 'HR', 'Finance', 'Marketing', 'Operations'], 200, p=[0.25, 0.15, 0.2, 0.2, 0.2]),
    'Gaji': np.random.lognormal(10, 0.5, 200).astype(int),
    'Pengalaman': np.random.poisson(5, 200),
    'Kepuasan': np.random.choice(['Sangat Puas', 'Puas', 'Netral', 'Tidak Puas'], 200, p=[0.2, 0.4, 0.3, 0.1]),
    'Jenis_Kelamin': np.random.choice(['Laki-laki', 'Perempuan'], 200, p=[0.52, 0.48]),
    'Pendidikan': np.random.choice(['SMA', 'S1', 'S2', 'S3'], 200, p=[0.3, 0.4, 0.25, 0.05])
}

df_analysis = pd.DataFrame(data_analysis)

# 1. Eksplorasi Data
print("1. EKSPLORASI DATA:")
print(f"   Dimensi data: {df_analysis.shape}")
print(f"   Missing values: {df_analysis.isnull().sum().sum()}")

# Analisis ukuran pemusatan untuk gaji
gaji = df_analysis['Gaji']
print(f"\n   Analisis Gaji:")
print(f"   - Mean: {gaji.mean():.2f}")
print(f"   - Median: {gaji.median():.2f}")
print(f"   - Mode: {gaji.mode().iloc[0]}")
print(f"   - Skewness: {stats.skew(gaji):.3f}")
print(f"   - Kurtosis: {stats.kurtosis(gaji):.3f}")

# 2. Deteksi Anomali
print("\n2. DETEKSI ANOMALI:")
Q1 = gaji.quantile(0.25)
Q3 = gaji.quantile(0.75)
IQR = Q3 - Q1
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
outliers = gaji[(gaji < lower_bound) | (gaji > upper_bound)]

print(f"   - Q1: {Q1:.2f}")
print(f"   - Q3: {Q3:.2f}")
print(f"   - IQR: {IQR:.2f}")
print(f"   - Lower bound: {lower_bound:.2f}")
print(f"   - Upper bound: {upper_bound:.2f}")
print(f"   - Jumlah outlier: {len(outliers)} ({len(outliers)/len(gaji):.1%})")

# 3. Analisis Komparatif
print("\n3. ANALISIS KOMPARATIF:")
print("   Analisis Gaji per Departemen:")
dept_analysis = df_analysis.groupby('Departemen')['Gaji'].agg(['mean', 'median', 'std', 'count']).round(2)
print(dept_analysis)

# Analisis per jenis kelamin
print("\n   Analisis Gaji per Jenis Kelamin:")
gender_analysis = df_analysis.groupby('Jenis_Kelamin')['Gaji'].agg(['mean', 'median', 'std', 'count']).round(2)
print(gender_analysis)

# 4. Visualisasi Komprehensif
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Analisis Komprehensif Ukuran Pemusatan', fontsize=16, fontweight='bold')

# Plot 1: Distribusi gaji
axes[0, 0].hist(gaji, bins=30, edgecolor='black', alpha=0.7, color='skyblue')
axes[0, 0].axvline(gaji.mean(), color='red', linestyle='-', linewidth=2, label=f'Mean: {gaji.mean():.0f}')
axes[0, 0].axvline(gaji.median(), color='green', linestyle='--', linewidth=2, label=f'Median: {gaji.median():.0f}')
axes[0, 0].set_title('Distribusi Gaji')
axes[0, 0].set_xlabel('Gaji')
axes[0, 0].set_ylabel('Frekuensi')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Plot 2: Box plot gaji per departemen
df_analysis.boxplot(column='Gaji', by='Departemen', ax=axes[0, 1])
axes[0, 1].set_title('Gaji per Departemen')
axes[0, 1].set_xlabel('Departemen')
axes[0, 1].set_ylabel('Gaji')
axes[0, 1].tick_params(axis='x', rotation=45)
axes[0, 1].grid(True, alpha=0.3)

# Plot 3: Scatter plot gaji vs pengalaman
axes[0, 2].scatter(df_analysis['Pengalaman'], df_analysis['Gaji'], alpha=0.6, color='purple')
axes[0, 2].set_title('Gaji vs Pengalaman Kerja')
axes[0, 2].set_xlabel('Pengalaman Kerja (tahun)')
axes[0, 2].set_ylabel('Gaji')
axes[0, 2].grid(True, alpha=0.3)

# Plot 4: Perbandingan mean dan median per departemen
dept_means = df_analysis.groupby('Departemen')['Gaji'].mean()
dept_medians = df_analysis.groupby('Departemen')['Gaji'].median()
x_pos = np.arange(len(dept_means))
width = 0.35
axes[1, 0].bar(x_pos - width/2, dept_means, width, label='Mean', alpha=0.8, color='skyblue')
axes[1, 0].bar(x_pos + width/2, dept_medians, width, label='Median', alpha=0.8, color='lightcoral')
axes[1, 0].set_title('Mean vs Median per Departemen')
axes[1, 0].set_xlabel('Departemen')
axes[1, 0].set_ylabel('Gaji')
axes[1, 0].set_xticks(x_pos)
axes[1, 0].set_xticklabels(dept_means.index, rotation=45)
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# Plot 5: Perbandingan mean dan median per jenis kelamin
gender_means = df_analysis.groupby('Jenis_Kelamin')['Gaji'].mean()
gender_medians = df_analysis.groupby('Jenis_Kelamin')['Gaji'].median()
x_pos = np.arange(len(gender_means))
width = 0.35
axes[1, 1].bar(x_pos - width/2, gender_means, width, label='Mean', alpha=0.8, color='lightgreen')
axes[1, 1].bar(x_pos + width/2, gender_medians, width, label='Median', alpha=0.8, color='orange')
axes[1, 1].set_title('Mean vs Median per Jenis Kelamin')
axes[1, 1].set_xlabel('Jenis Kelamin')
axes[1, 1].set_ylabel('Gaji')
axes[1, 1].set_xticks(x_pos)
axes[1, 1].set_xticklabels(gender_means.index)
axes[1, 1].legend()
axes[1, 1].grid(True, alpha=0.3)

# Plot 6: Heatmap korelasi
correlation_data = df_analysis[['Gaji', 'Pengalaman']].corr()
im = axes[1, 2].imshow(correlation_data, cmap='coolwarm', aspect='auto')
axes[1, 2].set_xticks(range(len(correlation_data.columns)))
axes[1, 2].set_yticks(range(len(correlation_data.columns)))
axes[1, 2].set_xticklabels(correlation_data.columns)
axes[1, 2].set_yticklabels(correlation_data.columns)
axes[1, 2].set_title('Heatmap Korelasi')

# Add correlation values to heatmap
for i in range(len(correlation_data.columns)):
    for j in range(len(correlation_data.columns)):
        text = axes[1, 2].text(j, i, f'{correlation_data.iloc[i, j]:.2f}',
                               ha="center", va="center", color="black", fontweight='bold')

plt.tight_layout()
plt.show()

# 5. Kesimpulan dan Rekomendasi
print("\n5. KESIMPULAN DAN REKOMENDASI:")
print("   - Data gaji menunjukkan distribusi log-normal dengan skewness positif")
print("   - Mean > Median menunjukkan distribusi miring kanan")
print("   - Terdapat perbedaan gaji antar departemen dan jenis kelamin")
print("   - Rekomendasi: Gunakan median untuk analisis yang lebih robust")
print("   - Perlu analisis lebih lanjut untuk memahami faktor-faktor yang mempengaruhi gaji")
