# Panduan Diskusi Kelompok - Visualisasi Data

## 📋 Informasi Umum

**Modul:** Week-03 - Data Visualisasi  
**Tools:** Python, Matplotlib, Seaborn, Scikit-learn  
**Format:** Diskusi kelompok 5 orang per dataset  
**Durasi:** 60 menit  
**Output:** Presentasi 3 visualisasi dengan insight

## 🎯 Tujuan Diskusi

1. **Menganalisis karakteristik dataset** yang ditentukan
2. **Memilih visualisasi yang tepat** berdasarkan jenis data dan tujuan analisis
3. **Membuat implementasi visualisasi** menggunakan Matplotlib dan Seaborn
4. **Mengekstrak insight** dari visualisasi yang dibuat

## ⏰ Struktur Waktu Diskusi

| Segment | Waktu | Aktivitas |
|---------|-------|-----------|
| **Analisis Dataset** | 15 menit | Memahami data, fitur, target, dan karakteristik |
| **Pemilihan Visualisasi** | 25 menit | Diskusi visualisasi yang tepat dan implementasi |
| **Persiapan Presentasi** | 20 menit | Menyiapkan 3 visualisasi utama dengan insight |

---

## 📊 Panduan per Dataset

### 🔗 Tautan Dokumentasi Resmi Dataset
- [Scikit-learn Datasets](https://scikit-learn.org/stable/datasets.html)
- [Seaborn Datasets](https://github.com/mwaskom/seaborn-data)
- [Dataset API Documentation](https://scikit-learn.org/stable/modules/classes.html#module-sklearn.datasets)

---

## 🎯 Kelompok A: Diabetes Dataset

### 🔗 Referensi Dataset
- **Dokumentasi Resmi:** [load_diabetes](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_diabetes.html)
- **Jenis:** Regression
- **Samples:** 442
- **Features:** 10 (numeric)
- **Target:** Continuous (quantitative measure of disease progression)

### 📈 Karakteristik Data
- **Tipe Data:** Numerik kontinu
- **10 Fitur Input:** `age`, `sex`, `bmi`, `bp`, `s1`-`s6` (blood serum measurements)
- **Target:** Ukuran progresi penyakit diabetes satu tahun setelah baseline
- **Skala:** Semua fitur telah di-standardized

### ❓ Pertanyaan Diskusi
1. Fitur mana yang paling berkorelasi dengan progresi penyakit diabetes?
2. Bagaimana distribusi setiap fitur? Apakah ada outlier?
3. Apakah ada pola hubungan non-linear antara fitur dan target?
4. Visualisasi apa yang paling efektif menunjukkan hubungan multivariat?
5. Bagaimana membedakan pengaruh masing-masing fitur terhadap target?

### 💡 Bahan Diskusi Visualisasi
- **Pertimbangkan:** scatter plot, pair plot, correlation heatmap, distribution plot
- **Analisis:** hubungan linear/non-linear, korelasi, distribusi
- **Fokus:** feature importance, multivariate relationships

---

## 🍷 Kelompok B: Wine Dataset

### 🔗 Referensi Dataset
- **Dokumentasi Resmi:** [load_wine](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_wine.html)
- **Jenis:** Classification
- **Samples:** 178
- **Features:** 13 (numeric - chemical analysis)
- **Target:** 3 classes (wine cultivars)

### 📈 Karakteristik Data
- **Tipe Data:** Numerik kontinu (measurements kimia)
- **13 Fitur:** `alcohol`, `malic_acid`, `ash`, `alcalinity_of_ash`, `magnesium`, dll.
- **Target:** 3 kelas wine (0, 1, 2) - different cultivars
- **Domain:** Analytical chemistry of wines

### ❓ Pertanyaan Diskusi
1. Fitur kimia mana yang paling membedakan ketiga kelas wine?
2. Bagaimana karakteristik kimia setiap kelas wine?
3. Apakah ada overlap antar kelas? Di dimensi mana?
4. Bagaimana visualisasi yang efektif untuk klasifikasi multi-kelas?
5. Apakah ada kelompok wine dengan karakteristik kimia serupa?

### 💡 Bahan Diskusi Visualisasi
- **Pertimbangkan:** pair plot dengan hue, box plot per kelas, violin plot, PCA projection
- **Analisis:** class separation, feature importance, clustering patterns
- **Fokus:** multi-class visualization, dimensionality reduction

---

## 🎗️ Kelompok C: Breast Cancer Dataset

### 🔗 Referensi Dataset
- **Dokumentasi Resmi:** [load_breast_cancer](https://scikit-learn.org/stable/modules/generated/sklearn.datasets.load_breast_cancer.html)
- **Jenis:** Classification
- **Samples:** 569
- **Features:** 30 (numeric - tumor characteristics)
- **Target:** 2 classes (malignant/benign)

### 📈 Karakteristik Data
- **Tipe Data:** Numerik kontinu (characteristics tumor)
- **30 Fitur:** `radius_mean`, `texture_mean`, `perimeter_mean`, `area_mean`, `smoothness_mean`, dll. + `_se` (standard error) + `_worst` (largest values)
- **Target:** Binary (0 = malignant, 1 = benign)
- **Domain:** Medical diagnosis - breast cancer Wisconsin dataset

### ❓ Pertanyaan Diskusi
1. Fitur tumor mana yang paling membedakan malignant dan benign?
2. Bagaimana korelasi antar berbagai karakteristik tumor?
3. Visualisasi apa yang paling membantu dalam proses diagnosis?
4. Apakah ada subgroup dalam malignant/benign yang memiliki karakteristik berbeda?
5. Bagaimana distribusi fitur-fitur kunci untuk kedua kelas?

### 💡 Bahan Diskusi Visualisasi
- **Pertimbangkan:** violin plot, correlation heatmap, feature importance, parallel coordinates
- **Analisis:** class comparison, feature correlations, medical insights
- **Fokus:** binary classification visualization, medical decision support

---

## 🚢 Kelompok D: Titanic Dataset

### 🔗 Referensi Dataset
- **Sumber Data:** [Seaborn Titanic Dataset](https://github.com/mwaskom/seaborn-data/blob/master/titanic.csv)
- **Load Data:** `sns.load_dataset('titanic')`
- **Jenis:** Classification + Survival Analysis
- **Samples:** 891
- **Features:** Mixed (numeric dan categorical)
- **Target:** Survival (0 = No, 1 = Yes)

### 📈 Karakteristik Data
- **Tipe Data Campuran:** Numerik dan kategorikal
- **Fitur Numerik:** `age`, `fare`
- **Fitur Kategorikal:** `sex`, `class`, `embarked`, `alone`, `deck`, dll.
- **Target:** Binary survival (survived vs not survived)
- **Domain:** Historical event - Titanic passenger survival

### ❓ Pertanyaan Diskusi
1. Faktor mana yang paling mempengaruhi tingkat keselamatan penumpang?
2. Bagaimana hubungan antara kelas penumpang dengan tingkat survival?
3. Apakah ada interaksi antara usia, gender, dan kelas?
4. Visualisasi apa yang efektif untuk data campuran (numerik dan kategorikal)?
5. Bagaimana pola survival berdasarkan deck dan embarkation port?

### 💡 Bahan Diskusi Visualisasi
- **Pertimbangkan:** bar plot, count plot, histogram, box plot, violin plot, heatmap
- **Analisis:** survival patterns, demographic factors, interaction effects
- **Fokus:** mixed data visualization, categorical analysis, survival rates

---

## 🛠️ Template Implementasi Code

```python
# Template untuk analisis dataset
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn import datasets

def analyze_dataset(dataset_name):
    """Template function untuk analisis dataset"""
    
    # Load dataset
    if dataset_name == 'diabetes':
        data = datasets.load_diabetes()
        df = pd.DataFrame(data.data, columns=data.feature_names)
        df['target'] = data.target
    elif dataset_name == 'wine':
        data = datasets.load_wine()
        df = pd.DataFrame(data.data, columns=data.feature_names)
        df['target'] = data.target
    elif dataset_name == 'breast_cancer':
        data = datasets.load_breast_cancer()
        df = pd.DataFrame(data.data, columns=data.feature_names)
        df['target'] = data.target
    elif dataset_name == 'titanic':
        df = sns.load_dataset('titanic')
        # Untuk konsistensi, kita set 'survived' sebagai target
        df = df.rename(columns={'survived': 'target'})
    
    # Explorasi dasar
    print(f"=== {dataset_name.upper()} DATASET ===")
    print(f"Shape: {df.shape}")
    print(f"Columns: {df.columns.tolist()}")
    print(f"Data Types:\n{df.dtypes}")
    print(f"\nMissing Values:\n{df.isnull().sum()}")
    print(f"\nBasic Statistics:")
    print(df.describe())
    
    return df

# Contoh penggunaan
dataset_name = 'titanic'  # Ganti dengan dataset kelompok masing-masing
df = analyze_dataset(dataset_name)
```

## 📝 Kriteria Penilaian Presentasi

| Kriteria | Bobot | Deskripsi |
|----------|-------|-----------|
| **Ketepatan Visualisasi** | 30% | Pemilihan plot yang sesuai dengan karakteristik data |
| **Kreativitas & Variasi** | 25% | Kombinasi berbagai jenis visualisasi yang menarik |
| **Insight & Analisis** | 25% | Kemampuan mengekstrak dan menjelaskan insight dari visualisasi |
| **Implementasi Teknis** | 20% | Kualitas code dan proper penggunaan library |

## 🚀 Langkah-Langkah Diskusi

### **1. Explorasi Data** (15 menit)
- Load dataset dan pahami struktur data
- Identifikasi tipe data setiap fitur (numerik vs kategorikal)
- Cek missing values dan statistik deskriptif
- Pahami konteks bisnis/domain dataset

### **2. Brainstorming Visualisasi** (25 menit)
- Diskusi visualisasi yang mungkin berdasarkan karakteristik data
- Pertimbangkan kekuatan dan kelemahan setiap jenis plot
- Pilih 3-5 visualisasi utama untuk diimplementasikan
- Rencanakan kombinasi plot yang saling melengkapi

### **3. Implementasi & Analisis** (20 menit)
- Code implementasi visualisasi menggunakan Matplotlib/Seaborn
- Analisis insight dari setiap visualisasi
- Siapkan presentasi singkat dengan storytelling yang jelas
- Dokumentasi findings dan patterns

## 💡 Tips Sukses Diskusi

### **Pembagian Peran Tim:**
- **Coder:** Bertanggung jawab implementasi code
- **Analyst:** Fokus pada insight extraction
- **Researcher:** Eksplorasi karakteristik data
- **Presenter:** Menyiapkan presentasi
- **Documenter:** Mencatat findings dan patterns

### **Strategi Visualisasi:**
1. **Start Simple:** Mulai dengan visualisasi dasar sebelum yang kompleks
2. **Mix and Match:** Kombinasikan berbagai jenis plot
3. **Tell a Story:** Setiap visualisasi harus menjawab pertanyaan spesifik
4. **Consider Audience:** Pilih visualisasi yang mudah dipahami
5. **Validate Insights:** Cross-check findings dengan multiple visualizations

### **Best Practices:**
- Gunakan color palette yang konsisten
- Tambahkan label dan title yang informatif
- Perhatikan scaling dan aspect ratio
- Handle missing values appropriately
- Document limitations dan assumptions

## 🎯 Contoh Output yang Diharapkan

Setiap kelompok harus mempresentasikan:
1. **3 Visualisasi Utama** dengan penjelasan mengapa dipilih
2. **Key Insights** dari setiap visualisasi
3. **Business/Research Implications** dari findings
4. **Recommendations** untuk analisis lebih lanjut

---

**Selamat Berdiskusi dan Menemukan Insight Menarik! 🚀**

In [2]:
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np
from sklearn import datasets

In [3]:
def analyze_dataset(dataset_name):
    """Template function untuk analisis dataset"""
    
    # Load dataset
    if dataset_name == 'diabetes':
        data = datasets.load_diabetes()
        df = pd.DataFrame(data.data, columns=data.feature_names)
        df['target'] = data.target
    elif dataset_name == 'wine':
        data = datasets.load_wine()
        df = pd.DataFrame(data.data, columns=data.feature_names)
        df['target'] = data.target
    elif dataset_name == 'breast_cancer':
        data = datasets.load_breast_cancer()
        df = pd.DataFrame(data.data, columns=data.feature_names)
        df['target'] = data.target
    elif dataset_name == 'titanic':
        df = sns.load_dataset('titanic')
        # Untuk konsistensi, kita set 'survived' sebagai target
        df = df.rename(columns={'survived': 'target'})
    
    # Explorasi dasar
    print(f"=== {dataset_name.upper()} DATASET ===")
    print(f"Shape: {df.shape}")
    print(f"Columns: {df.columns.tolist()}")
    print(f"Data Types:\n{df.dtypes}")
    print(f"\nMissing Values:\n{df.isnull().sum()}")
    print(f"\nBasic Statistics:")
    print(df.describe())
    
    return df

In [4]:
# Contoh penggunaan
dataset_name = 'titanic'  # Ganti dengan dataset kelompok masing-masing
df = analyze_dataset(dataset_name)

=== TITANIC DATASET ===
Shape: (891, 15)
Columns: ['target', 'pclass', 'sex', 'age', 'sibsp', 'parch', 'fare', 'embarked', 'class', 'who', 'adult_male', 'deck', 'embark_town', 'alive', 'alone']
Data Types:
target            int64
pclass            int64
sex              object
age             float64
sibsp             int64
parch             int64
fare            float64
embarked         object
class          category
who              object
adult_male         bool
deck           category
embark_town      object
alive            object
alone              bool
dtype: object

Missing Values:
target           0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

Basic Statistics:
           target      pclass         age       sibsp       parch        fare
count  8

In [5]:
df

Unnamed: 0,target,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1000,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
887,1,1,female,19.0,0,0,30.0000,S,First,woman,False,B,Southampton,yes,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False
889,1,1,male,26.0,0,0,30.0000,C,First,man,True,C,Cherbourg,yes,True
