# 01. Pengenalan Statistika Deskriptif (Introduction to Descriptive Statistics)

## Tujuan Pembelajaran
- Memahami konsep dasar statistika deskriptif
- Membedakan data kualitatif dan kuantitatif
- Memahami skala pengukuran data
- Mampu membuat dan membaca tabel frekuensi

## Materi
1. Pengertian Statistika (Statistics)
2. Jenis-jenis Data (Types of Data)
3. Skala Pengukuran (Measurement Scales)
4. Tabel Frekuensi (Frequency Tables)
5. Grafik dan Diagram (Graphs and Charts)


## 1. Pengertian Statistika (Statistics)

**Statistika** adalah ilmu yang mempelajari cara-cara mengumpulkan, mengolah, menganalisis, dan menginterpretasikan data untuk mengambil kesimpulan yang valid.

### Cabang Statistika (Branches of Statistics):
1. **Statistika Deskriptif (Descriptive Statistics)**: Menggambarkan dan meringkas data
2. **Statistika Inferensial (Inferential Statistics)**: Menarik kesimpulan tentang populasi berdasarkan sampel

### Istilah Penting:
- **Population (Populasi)**: Seluruh objek yang menjadi perhatian penelitian
- **Sample (Sampel)**: Bagian dari populasi yang dipilih untuk dianalisis
- **Parameter**: Karakteristik numerik dari populasi
- **Statistic**: Karakteristik numerik dari sampel


## 2. Jenis-jenis Data (Types of Data)

### A. Berdasarkan Sifatnya (By Nature):
1. **Data Kualitatif (Qualitative/Categorical Data)**: Data yang tidak dapat diukur secara numerik
   - **Nominal Data**: Data yang hanya dapat dikategorikan (jenis kelamin, warna, merek)
   - **Ordinal Data**: Data yang dapat diurutkan (tingkat pendidikan, peringkat)
2. **Data Kuantitatif (Quantitative/Numerical Data)**: Data yang dapat diukur secara numerik
   - **Discrete Data**: Data yang hanya dapat mengambil nilai tertentu (jumlah anak, skor)
   - **Continuous Data**: Data yang dapat mengambil nilai dalam interval (tinggi badan, berat badan, suhu)

### B. Berdasarkan Cara Pengumpulannya (By Collection Method):
1. **Data Primer (Primary Data)**: Data yang dikumpulkan langsung oleh peneliti
2. **Data Sekunder (Secondary Data)**: Data yang sudah ada dan digunakan oleh peneliti

### C. Berdasarkan Sumber (By Source):
1. **Data Internal**: Data dari dalam organisasi
2. **Data Eksternal**: Data dari luar organisasi


In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from collections import Counter
import warnings
warnings.filterwarnings('ignore')

# Set up plotting
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

# Contoh data kualitatif
data_kualitatif = {
    'Jenis Kelamin': ['Laki-laki', 'Perempuan', 'Laki-laki', 'Perempuan', 'Laki-laki', 'Perempuan', 'Laki-laki'],
    'Warna Favorit': ['Merah', 'Biru', 'Hijau', 'Merah', 'Kuning', 'Biru', 'Hijau'],
    'Merek HP': ['Samsung', 'iPhone', 'Xiaomi', 'Samsung', 'Oppo', 'iPhone', 'Samsung'],
    'Tingkat Pendidikan': ['SMA', 'S1', 'S2', 'SMA', 'S1', 'S2', 'SMA'],
    'Status': ['Menikah', 'Belum Menikah', 'Menikah', 'Belum Menikah', 'Menikah', 'Belum Menikah', 'Menikah']
}

df_kualitatif = pd.DataFrame(data_kualitatif)
print("=== CONTOH DATA KUALITATIF ===")
print(df_kualitatif)
print(f"\nDimensi data: {df_kualitatif.shape}")

# Contoh data kuantitatif
data_kuantitatif = {
    'Tinggi (cm)': [165, 170, 155, 180, 160, 175, 168, 172, 158, 185],
    'Berat (kg)': [60, 70, 50, 80, 55, 75, 65, 72, 52, 85],
    'Nilai': [85, 90, 75, 95, 80, 88, 82, 92, 78, 96],
    'Umur': [25, 30, 22, 35, 28, 32, 26, 29, 24, 38],
    'Gaji (juta)': [5, 8, 3, 12, 6, 9, 7, 10, 4, 15]
}

df_kuantitatif = pd.DataFrame(data_kuantitatif)
print("\n=== CONTOH DATA KUANTITATIF ===")
print(df_kuantitatif)
print(f"\nDimensi data: {df_kuantitatif.shape}")

# Analisis data kualitatif
print("\n=== ANALISIS DATA KUALITATIF ===")
for col in df_kualitatif.columns:
    print(f"\n{col}:")
    print(f"  - Jumlah kategori: {df_kualitatif[col].nunique()}")
    print(f"  - Kategori unik: {df_kualitatif[col].unique().tolist()}")
    print(f"  - Frekuensi: {df_kualitatif[col].value_counts().to_dict()}")

# Analisis data kuantitatif
print("\n=== ANALISIS DATA KUANTITATIF ===")
print(df_kuantitatif.describe())


## 3. Skala Pengukuran (Measurement Scales)

### A. Skala Nominal (Nominal Scale):
- **Definisi**: Data yang hanya dapat dikategorikan tanpa urutan
- **Contoh**: Jenis kelamin, warna, merek, agama
- **Operasi yang dapat dilakukan**: Menghitung frekuensi, mode
- **Operasi yang TIDAK dapat dilakukan**: Mean, median, perhitungan matematis

### B. Skala Ordinal (Ordinal Scale):
- **Definisi**: Data yang dapat diurutkan tetapi jarak antar kategori tidak sama
- **Contoh**: Tingkat pendidikan, peringkat, tingkat kepuasan
- **Operasi yang dapat dilakukan**: Menghitung frekuensi, mode, median
- **Operasi yang TIDAK dapat dilakukan**: Mean, perhitungan matematis

### C. Skala Interval (Interval Scale):
- **Definisi**: Data yang dapat diurutkan dengan jarak yang sama, tetapi tidak memiliki nol mutlak
- **Contoh**: Suhu dalam Celcius, tahun, IQ
- **Operasi yang dapat dilakukan**: Semua operasi statistik kecuali perbandingan rasio
- **Operasi yang TIDAK dapat dilakukan**: Perbandingan rasio (misal: 20°C tidak 2x lebih panas dari 10°C)

### D. Skala Rasio (Ratio Scale):
- **Definisi**: Data yang memiliki semua sifat interval plus nol mutlak
- **Contoh**: Tinggi, berat, gaji, umur
- **Operasi yang dapat dilakukan**: Semua operasi statistik termasuk perbandingan rasio
- **Operasi yang dapat dilakukan**: Semua operasi matematis dan statistik


In [None]:
# Demonstrasi Skala Pengukuran
print("=== DEMONSTRASI SKALA PENGUKURAN ===")

# Data untuk setiap skala
data_skala = {
    'Nominal': ['Merah', 'Biru', 'Hijau', 'Merah', 'Kuning', 'Biru'],
    'Ordinal': ['Sangat Puas', 'Puas', 'Netral', 'Tidak Puas', 'Sangat Tidak Puas', 'Puas'],
    'Interval': [20, 25, 30, 35, 40, 45],  # Suhu dalam Celcius
    'Ratio': [50, 60, 70, 80, 90, 100]    # Berat dalam kg
}

df_skala = pd.DataFrame(data_skala)
print("Data untuk setiap skala:")
print(df_skala)

# Analisis untuk setiap skala
print("\n=== ANALISIS PER SKALA ===")

# Nominal
print("\n1. SKALA NOMINAL:")
print(f"   - Mode: {df_skala['Nominal'].mode().iloc[0]}")
print(f"   - Frekuensi: {df_skala['Nominal'].value_counts().to_dict()}")
print("   - TIDAK dapat menghitung mean, median, std")

# Ordinal
print("\n2. SKALA ORDINAL:")
print(f"   - Mode: {df_skala['Ordinal'].mode().iloc[0]}")
print(f"   - Frekuensi: {df_skala['Ordinal'].value_counts().to_dict()}")
print("   - Dapat menghitung median, TIDAK dapat menghitung mean")

# Interval
print("\n3. SKALA INTERVAL:")
print(f"   - Mean: {df_skala['Interval'].mean():.2f}")
print(f"   - Median: {df_skala['Interval'].median():.2f}")
print(f"   - Std: {df_skala['Interval'].std():.2f}")
print("   - Dapat menghitung semua statistik, TIDAK dapat perbandingan rasio")

# Ratio
print("\n4. SKALA RASIO:")
print(f"   - Mean: {df_skala['Ratio'].mean():.2f}")
print(f"   - Median: {df_skala['Ratio'].median():.2f}")
print(f"   - Std: {df_skala['Ratio'].std():.2f}")
print(f"   - Perbandingan rasio: {df_skala['Ratio'].max()/df_skala['Ratio'].min():.2f}x")
print("   - Dapat menghitung semua statistik dan perbandingan rasio")


## 4. Tabel Frekuensi (Frequency Tables)

### A. Tabel Frekuensi Absolut (Absolute Frequency Table):
- **Definisi**: Menunjukkan jumlah data dalam setiap kategori
- **Kegunaan**: Memberikan gambaran distribusi data
- **Contoh**: 5 orang memilih warna merah, 3 orang memilih warna biru

### B. Tabel Frekuensi Relatif (Relative Frequency Table):
- **Definisi**: Menunjukkan proporsi data dalam setiap kategori
- **Rumus**: Frekuensi relatif = Frekuensi absolut / Total data
- **Kegunaan**: Membandingkan proporsi antar kategori
- **Contoh**: 50% memilih warna merah, 30% memilih warna biru

### C. Tabel Frekuensi Kumulatif (Cumulative Frequency Table):
- **Definisi**: Menunjukkan frekuensi kumulatif sampai kategori tertentu
- **Kegunaan**: Mengetahui berapa banyak data yang berada di bawah atau di atas nilai tertentu
- **Contoh**: 8 orang memilih warna merah atau biru

### D. Tabel Frekuensi Persentase (Percentage Frequency Table):
- **Definisi**: Frekuensi relatif dikalikan 100
- **Kegunaan**: Lebih mudah dipahami dalam bentuk persentase
- **Contoh**: 50% memilih warna merah, 30% memilih warna biru


In [None]:
# Demonstrasi Tabel Frekuensi
print("=== DEMONSTRASI TABEL FREKUENSI ===")

# Data contoh
data_warna = ['Merah', 'Biru', 'Hijau', 'Merah', 'Kuning', 'Biru', 'Merah', 'Hijau', 'Biru', 'Merah']
print(f"Data: {data_warna}")
print(f"Total data: {len(data_warna)}")

# 1. Tabel Frekuensi Absolut
print("\n1. TABEL FREKUENSI ABSOLUT:")
freq_absolut = pd.Series(data_warna).value_counts().sort_index()
print(freq_absolut)

# 2. Tabel Frekuensi Relatif
print("\n2. TABEL FREKUENSI RELATIF:")
freq_relatif = pd.Series(data_warna).value_counts(normalize=True).sort_index()
print(freq_relatif)

# 3. Tabel Frekuensi Persentase
print("\n3. TABEL FREKUENSI PERSENTASE:")
freq_persen = (pd.Series(data_warna).value_counts(normalize=True) * 100).sort_index()
print(freq_persen)

# 4. Tabel Frekuensi Kumulatif
print("\n4. TABEL FREKUENSI KUMULATIF:")
freq_kumulatif = pd.Series(data_warna).value_counts().sort_index().cumsum()
print(freq_kumulatif)

# Membuat tabel frekuensi lengkap
print("\n5. TABEL FREKUENSI LENGKAP:")
tabel_frekuensi = pd.DataFrame({
    'Kategori': freq_absolut.index,
    'Frekuensi Absolut': freq_absolut.values,
    'Frekuensi Relatif': freq_relatif.values,
    'Frekuensi Persentase (%)': freq_persen.values,
    'Frekuensi Kumulatif': freq_kumulatif.values
})
print(tabel_frekuensi)

# Verifikasi
print(f"\nVerifikasi:")
print(f"Total frekuensi absolut: {freq_absolut.sum()}")
print(f"Total frekuensi relatif: {freq_relatif.sum():.2f}")
print(f"Total frekuensi persentase: {freq_persen.sum():.2f}%")


## 5. Grafik dan Diagram (Graphs and Charts)

### A. Grafik untuk Data Kategorik (Categorical Data):

#### 1. Bar Chart (Diagram Batang):
- **Kegunaan**: Membandingkan frekuensi antar kategori
- **Keunggulan**: Mudah dibaca, dapat menampilkan banyak kategori
- **Contoh**: Diagram batang untuk jenis kelamin, merek HP

#### 2. Pie Chart (Diagram Lingkaran):
- **Kegunaan**: Menunjukkan proporsi relatif setiap kategori
- **Keunggulan**: Mudah dipahami proporsi
- **Kelemahan**: Sulit dibaca jika terlalu banyak kategori
- **Contoh**: Diagram lingkaran untuk distribusi warna favorit

#### 3. Horizontal Bar Chart:
- **Kegunaan**: Sama dengan bar chart, lebih baik untuk label panjang
- **Keunggulan**: Label kategori lebih mudah dibaca
- **Contoh**: Diagram batang horizontal untuk tingkat pendidikan

### B. Grafik untuk Data Numerik (Numerical Data):

#### 1. Histogram:
- **Kegunaan**: Menunjukkan distribusi frekuensi data kontinu
- **Keunggulan**: Menunjukkan bentuk distribusi data
- **Contoh**: Histogram untuk tinggi badan, nilai ujian

#### 2. Box Plot (Box and Whisker Plot):
- **Kegunaan**: Menunjukkan quartiles, median, dan outlier
- **Keunggulan**: Ringkas, menunjukkan distribusi dan outlier
- **Contoh**: Box plot untuk gaji, umur

#### 3. Scatter Plot:
- **Kegunaan**: Menunjukkan hubungan antara dua variabel numerik
- **Keunggulan**: Menunjukkan korelasi dan pola data
- **Contoh**: Scatter plot tinggi vs berat badan

#### 4. Line Plot:
- **Kegunaan**: Menunjukkan tren data over time
- **Keunggulan**: Menunjukkan perubahan over time
- **Contoh**: Line plot untuk data time series


In [None]:
# Demonstrasi Grafik dan Diagram
print("=== DEMONSTRASI GRAFIK DAN DIAGRAM ===")

# Data untuk visualisasi
np.random.seed(42)
data_kategorik_viz = ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A']
data_numerik_viz = np.random.normal(100, 15, 100)  # Mean=100, Std=15

# Membuat visualisasi komprehensif
fig, axes = plt.subplots(3, 3, figsize=(18, 15))
fig.suptitle('Demonstrasi Grafik dan Diagram untuk Data Kategorik dan Numerik', fontsize=16, fontweight='bold')

# 1. Bar Chart untuk data kategorik
axes[0, 0].bar(pd.Series(data_kategorik_viz).value_counts().index, 
               pd.Series(data_kategorik_viz).value_counts().values, 
               color=['skyblue', 'lightcoral', 'lightgreen'], alpha=0.8)
axes[0, 0].set_title('Bar Chart - Data Kategorik')
axes[0, 0].set_xlabel('Kategori')
axes[0, 0].set_ylabel('Frekuensi')
axes[0, 0].grid(True, alpha=0.3)

# 2. Pie Chart untuk data kategorik
axes[0, 1].pie(pd.Series(data_kategorik_viz).value_counts().values, 
               labels=pd.Series(data_kategorik_viz).value_counts().index,
               autopct='%1.1f%%', startangle=90, colors=['skyblue', 'lightcoral', 'lightgreen'])
axes[0, 1].set_title('Pie Chart - Data Kategorik')

# 3. Horizontal Bar Chart
axes[0, 2].barh(pd.Series(data_kategorik_viz).value_counts().index, 
                pd.Series(data_kategorik_viz).value_counts().values,
                color=['skyblue', 'lightcoral', 'lightgreen'], alpha=0.8)
axes[0, 2].set_title('Horizontal Bar Chart - Data Kategorik')
axes[0, 2].set_xlabel('Frekuensi')
axes[0, 2].set_ylabel('Kategori')
axes[0, 2].grid(True, alpha=0.3)

# 4. Histogram untuk data numerik
axes[1, 0].hist(data_numerik_viz, bins=20, edgecolor='black', alpha=0.7, color='lightblue')
axes[1, 0].axvline(np.mean(data_numerik_viz), color='red', linestyle='--', linewidth=2, label=f'Mean: {np.mean(data_numerik_viz):.1f}')
axes[1, 0].axvline(np.median(data_numerik_viz), color='green', linestyle=':', linewidth=2, label=f'Median: {np.median(data_numerik_viz):.1f}')
axes[1, 0].set_title('Histogram - Data Numerik')
axes[1, 0].set_xlabel('Nilai')
axes[1, 0].set_ylabel('Frekuensi')
axes[1, 0].legend()
axes[1, 0].grid(True, alpha=0.3)

# 5. Box Plot untuk data numerik
box_plot = axes[1, 1].boxplot(data_numerik_viz, patch_artist=True)
box_plot['boxes'][0].set_facecolor('lightgreen')
axes[1, 1].set_title('Box Plot - Data Numerik')
axes[1, 1].set_ylabel('Nilai')
axes[1, 1].grid(True, alpha=0.3)

# 6. Scatter Plot untuk data numerik
x_scatter = np.arange(len(data_numerik_viz))
axes[1, 2].scatter(x_scatter, data_numerik_viz, alpha=0.6, color='purple')
axes[1, 2].axhline(np.mean(data_numerik_viz), color='red', linestyle='--', linewidth=2, label=f'Mean: {np.mean(data_numerik_viz):.1f}')
axes[1, 2].set_title('Scatter Plot - Data Numerik')
axes[1, 2].set_xlabel('Index')
axes[1, 2].set_ylabel('Nilai')
axes[1, 2].legend()
axes[1, 2].grid(True, alpha=0.3)

# 7. Line Plot untuk data numerik (sebagai time series)
axes[2, 0].plot(data_numerik_viz[:20], marker='o', linewidth=2, markersize=4, color='orange')
axes[2, 0].set_title('Line Plot - Data Numerik (Time Series)')
axes[2, 0].set_xlabel('Time')
axes[2, 0].set_ylabel('Nilai')
axes[2, 0].grid(True, alpha=0.3)

# 8. Violin Plot untuk data numerik
axes[2, 1].violinplot(data_numerik_viz, showmeans=True, showmedians=True)
axes[2, 1].set_title('Violin Plot - Data Numerik')
axes[2, 1].set_ylabel('Nilai')
axes[2, 1].grid(True, alpha=0.3)

# 9. Density Plot untuk data numerik
axes[2, 2].hist(data_numerik_viz, bins=20, density=True, alpha=0.7, color='lightcoral', edgecolor='black')
# Overlay normal distribution
x_norm = np.linspace(data_numerik_viz.min(), data_numerik_viz.max(), 100)
y_norm = stats.norm.pdf(x_norm, np.mean(data_numerik_viz), np.std(data_numerik_viz))
axes[2, 2].plot(x_norm, y_norm, 'r-', linewidth=2, label='Normal Distribution')
axes[2, 2].set_title('Density Plot - Data Numerik')
axes[2, 2].set_xlabel('Nilai')
axes[2, 2].set_ylabel('Density')
axes[2, 2].legend()
axes[2, 2].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Statistik deskriptif untuk data numerik
print("\n=== STATISTIK DESKRIPTIF DATA NUMERIK ===")
print(f"Jumlah data: {len(data_numerik_viz)}")
print(f"Mean: {np.mean(data_numerik_viz):.2f}")
print(f"Median: {np.median(data_numerik_viz):.2f}")
print(f"Mode: {stats.mode(data_numerik_viz)[0][0]:.2f}")
print(f"Standard Deviation: {np.std(data_numerik_viz):.2f}")
print(f"Variance: {np.var(data_numerik_viz):.2f}")
print(f"Range: {np.max(data_numerik_viz) - np.min(data_numerik_viz):.2f}")
print(f"Min: {np.min(data_numerik_viz):.2f}")
print(f"Max: {np.max(data_numerik_viz):.2f}")
print(f"Q1 (25%): {np.percentile(data_numerik_viz, 25):.2f}")
print(f"Q3 (75%): {np.percentile(data_numerik_viz, 75):.2f}")
print(f"IQR: {np.percentile(data_numerik_viz, 75) - np.percentile(data_numerik_viz, 25):.2f}")


## 6. Aplikasi dalam Analisis Data (Applications in Data Analysis)

### A. Eksplorasi Data (Data Exploration):
- **Tujuan**: Memahami karakteristik data sebelum analisis lebih lanjut
- **Langkah-langkah**:
  1. Identifikasi jenis data (kualitatif/kuantitatif)
  2. Tentukan skala pengukuran
  3. Buat tabel frekuensi
  4. Visualisasi data
  5. Hitung statistik deskriptif

### B. Persiapan Data (Data Preparation):
- **Tujuan**: Membersihkan dan mempersiapkan data untuk analisis
- **Langkah-langkah**:
  1. Identifikasi missing values
  2. Deteksi outlier
  3. Transformasi data jika diperlukan
  4. Validasi kualitas data

### C. Komunikasi Hasil (Results Communication):
- **Tujuan**: Menyampaikan temuan dengan jelas dan efektif
- **Prinsip-prinsip**:
  1. Pilih visualisasi yang tepat
  2. Gunakan statistik yang relevan
  3. Sertakan interpretasi yang jelas
  4. Pertimbangkan audiens

### D. Pengambilan Keputusan (Decision Making):
- **Tujuan**: Menggunakan data untuk mendukung keputusan
- **Faktor-faktor**:
  1. Kualitas data
  2. Relevansi statistik
  3. Konteks bisnis
  4. Risiko dan ketidakpastian


In [None]:
# Demonstrasi Aplikasi dalam Analisis Data
print("=== DEMONSTRASI APLIKASI DALAM ANALISIS DATA ===")

# Simulasi data real-world
np.random.seed(42)
n_samples = 200

# Data simulasi untuk analisis komprehensif
data_real_world = {
    'ID': range(1, n_samples + 1),
    'Jenis_Kelamin': np.random.choice(['Laki-laki', 'Perempuan'], n_samples, p=[0.52, 0.48]),
    'Umur': np.random.normal(35, 10, n_samples).astype(int),
    'Pendidikan': np.random.choice(['SMA', 'S1', 'S2', 'S3'], n_samples, p=[0.3, 0.4, 0.25, 0.05]),
    'Gaji': np.random.lognormal(10, 0.5, n_samples).astype(int),
    'Pengalaman_Kerja': np.random.poisson(5, n_samples),
    'Kepuasan_Kerja': np.random.choice(['Sangat Puas', 'Puas', 'Netral', 'Tidak Puas'], n_samples, p=[0.2, 0.4, 0.3, 0.1]),
    'Departemen': np.random.choice(['IT', 'HR', 'Finance', 'Marketing', 'Operations'], n_samples, p=[0.25, 0.15, 0.2, 0.2, 0.2])
}

df_real = pd.DataFrame(data_real_world)

# 1. Eksplorasi Data
print("1. EKSPLORASI DATA:")
print(f"   - Dimensi data: {df_real.shape}")
print(f"   - Missing values: {df_real.isnull().sum().sum()}")
print(f"   - Data types:")
for col, dtype in df_real.dtypes.items():
    print(f"     {col}: {dtype}")

# 2. Analisis Data Kategorik
print("\n2. ANALISIS DATA KATEGORIK:")
categorical_cols = ['Jenis_Kelamin', 'Pendidikan', 'Kepuasan_Kerja', 'Departemen']
for col in categorical_cols:
    print(f"\n   {col}:")
    freq = df_real[col].value_counts()
    rel_freq = df_real[col].value_counts(normalize=True)
    for category in freq.index:
        print(f"     {category}: {freq[category]} ({rel_freq[category]:.1%})")

# 3. Analisis Data Numerik
print("\n3. ANALISIS DATA NUMERIK:")
numerical_cols = ['Umur', 'Gaji', 'Pengalaman_Kerja']
for col in numerical_cols:
    print(f"\n   {col}:")
    print(f"     Mean: {df_real[col].mean():.2f}")
    print(f"     Median: {df_real[col].median():.2f}")
    print(f"     Std: {df_real[col].std():.2f}")
    print(f"     Min: {df_real[col].min()}")
    print(f"     Max: {df_real[col].max()}")
    print(f"     Q1: {df_real[col].quantile(0.25):.2f}")
    print(f"     Q3: {df_real[col].quantile(0.75):.2f}")

# 4. Deteksi Outlier
print("\n4. DETEKSI OUTLIER:")
for col in numerical_cols:
    Q1 = df_real[col].quantile(0.25)
    Q3 = df_real[col].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df_real[(df_real[col] < lower_bound) | (df_real[col] > upper_bound)]
    print(f"   {col}: {len(outliers)} outlier(s) dari {len(df_real)} data ({len(outliers)/len(df_real):.1%})")

# 5. Korelasi antar variabel numerik
print("\n5. KORELASI ANTAR VARIABEL NUMERIK:")
correlation_matrix = df_real[numerical_cols].corr()
print(correlation_matrix.round(3))

# 6. Visualisasi komprehensif
fig, axes = plt.subplots(2, 3, figsize=(18, 12))
fig.suptitle('Analisis Komprehensif Data Real-World', fontsize=16, fontweight='bold')

# Plot 1: Distribusi gaji
axes[0, 0].hist(df_real['Gaji'], bins=30, edgecolor='black', alpha=0.7, color='skyblue')
axes[0, 0].axvline(df_real['Gaji'].mean(), color='red', linestyle='--', linewidth=2, label=f'Mean: {df_real["Gaji"].mean():.0f}')
axes[0, 0].set_title('Distribusi Gaji')
axes[0, 0].set_xlabel('Gaji')
axes[0, 0].set_ylabel('Frekuensi')
axes[0, 0].legend()
axes[0, 0].grid(True, alpha=0.3)

# Plot 2: Gaji vs Umur
axes[0, 1].scatter(df_real['Umur'], df_real['Gaji'], alpha=0.6, color='green')
axes[0, 1].set_title('Gaji vs Umur')
axes[0, 1].set_xlabel('Umur')
axes[0, 1].set_ylabel('Gaji')
axes[0, 1].grid(True, alpha=0.3)

# Plot 3: Gaji vs Pengalaman Kerja
axes[0, 2].scatter(df_real['Pengalaman_Kerja'], df_real['Gaji'], alpha=0.6, color='purple')
axes[0, 2].set_title('Gaji vs Pengalaman Kerja')
axes[0, 2].set_xlabel('Pengalaman Kerja (tahun)')
axes[0, 2].set_ylabel('Gaji')
axes[0, 2].grid(True, alpha=0.3)

# Plot 4: Distribusi pendidikan
education_counts = df_real['Pendidikan'].value_counts()
axes[1, 0].bar(education_counts.index, education_counts.values, color='lightcoral', alpha=0.8)
axes[1, 0].set_title('Distribusi Pendidikan')
axes[1, 0].set_xlabel('Pendidikan')
axes[1, 0].set_ylabel('Frekuensi')
axes[1, 0].tick_params(axis='x', rotation=45)
axes[1, 0].grid(True, alpha=0.3)

# Plot 5: Gaji per departemen
df_real.boxplot(column='Gaji', by='Departemen', ax=axes[1, 1])
axes[1, 1].set_title('Gaji per Departemen')
axes[1, 1].set_xlabel('Departemen')
axes[1, 1].set_ylabel('Gaji')
axes[1, 1].tick_params(axis='x', rotation=45)
axes[1, 1].grid(True, alpha=0.3)

# Plot 6: Heatmap korelasi
im = axes[1, 2].imshow(correlation_matrix, cmap='coolwarm', aspect='auto')
axes[1, 2].set_xticks(range(len(numerical_cols)))
axes[1, 2].set_yticks(range(len(numerical_cols)))
axes[1, 2].set_xticklabels(numerical_cols, rotation=45)
axes[1, 2].set_yticklabels(numerical_cols)
axes[1, 2].set_title('Heatmap Korelasi')

# Add correlation values to heatmap
for i in range(len(numerical_cols)):
    for j in range(len(numerical_cols)):
        text = axes[1, 2].text(j, i, f'{correlation_matrix.iloc[i, j]:.2f}',
                               ha="center", va="center", color="black", fontweight='bold')

plt.tight_layout()
plt.show()

# 7. Kesimpulan dan Rekomendasi
print("\n7. KESIMPULAN DAN REKOMENDASI:")
print("   - Data menunjukkan distribusi yang normal untuk umur dan pengalaman kerja")
print("   - Gaji memiliki distribusi log-normal dengan beberapa outlier")
print("   - Terdapat korelasi positif antara gaji dengan umur dan pengalaman kerja")
print("   - Departemen IT dan Finance cenderung memiliki gaji yang lebih tinggi")
print("   - Rekomendasi: Lakukan analisis lebih lanjut untuk memahami faktor-faktor yang mempengaruhi gaji")
