# Transformasi kolom menjadi baris pada Data Frame

## Import Modules

In [1]:
import pandas as pd

print("Pandas version:", pd.__version__)

Pandas version: 2.3.1


## Persiapan Data Frame

In [4]:
d = {
    'kode_area': [123, 456, 789, 321],
    'pabrik': [4, 2, 5, 0],
    'gudang': [2, 4, 7, 3],
    'toko': [64, 32, 15, 24]
}

df = pd.DataFrame(d)
df

Unnamed: 0,kode_area,pabrik,gudang,toko
0,123,4,2,64
1,456,2,4,32
2,789,5,7,15
3,321,0,3,24


## Transformasi kolom menjadi baris

In [5]:
df = df.melt(
    id_vars = 'kode_area',
    var_name = 'jenis_bangunan',
    value_name = 'jumlah'
)

df

Unnamed: 0,kode_area,jenis_bangunan,jumlah
0,123,pabrik,4
1,456,pabrik,2
2,789,pabrik,5
3,321,pabrik,0
4,123,gudang,2
5,456,gudang,4
6,789,gudang,7
7,321,gudang,3
8,123,toko,64
9,456,toko,32


## 📋 Kesimpulan: Transformasi Kolom menjadi Baris pada DataFrame

### 🎯 Konsep Utama

**`melt()`** adalah method pandas untuk **mengubah DataFrame dari format wide menjadi long** (atau tidy format). Transformasi ini mengubah kolom-kolom menjadi baris, sangat berguna untuk **data analysis dan visualization** karena kebanyakan tools analisis membutuhkan data dalam format long.

### 🔄 Wide vs Long Format

#### **Wide Format (Original)**
```
kode_area  pabrik  gudang  toko
123        4       2       64
456        2       4       32
789        5       7       15
321        0       3       24
```

#### **Long Format (After Melt)**
```
kode_area  jenis_bangunan  jumlah
123        pabrik          4
123        gudang          2
123        toko            64
456        pabrik          2
...        ...             ...
```

### 🔧 Syntax dan Parameter

```python
DataFrame.melt(id_vars=None, value_vars=None, var_name=None, 
               value_name='value', col_level=None, ignore_index=True)
```

| Parameter | Deskripsi | Contoh |
|-----------|-----------|--------|
| **id_vars** | Kolom yang tetap (identifier) | `'kode_area'` atau `['id', 'name']` |
| **value_vars** | Kolom yang akan di-melt | `['pabrik', 'gudang']` |
| **var_name** | Nama untuk kolom variable | `'jenis_bangunan'` |
| **value_name** | Nama untuk kolom value | `'jumlah'` |
| **col_level** | Level untuk MultiIndex columns | `0` atau `'first'` |

### 💡 Contoh Praktis dari Notebook

```python
# Transformasi dari wide ke long format
df_melted = df.melt(
    id_vars='kode_area',           # Kolom identifier (tetap)
    var_name='jenis_bangunan',     # Nama kolom untuk variable
    value_name='jumlah'            # Nama kolom untuk value
)
```

### 🔍 Berbagai Skenario Melt

#### **1. Basic Melt - All Columns**
```python
# Melt semua kolom kecuali id_vars
df.melt(id_vars='kode_area')

# Dengan custom names
df.melt(
    id_vars='kode_area',
    var_name='kategori',
    value_name='nilai'
)
```

#### **2. Selective Melt - Specific Columns**
```python
# Hanya melt kolom tertentu
df.melt(
    id_vars='kode_area',
    value_vars=['pabrik', 'gudang'],  # Hanya kolom ini
    var_name='tipe_industri',
    value_name='count'
)

# Multiple ID variables
df.melt(
    id_vars=['kode_area', 'region'],
    value_vars=['pabrik', 'gudang', 'toko'],
    var_name='building_type',
    value_name='quantity'
)
```

#### **3. Advanced Melt dengan MultiIndex**
```python
# Untuk DataFrame dengan MultiIndex columns
df_multi = pd.DataFrame({
    ('info', 'kode'): [123, 456],
    ('building', 'pabrik'): [4, 2],
    ('building', 'gudang'): [2, 4]
})

# Melt dengan col_level
melted_multi = df_multi.melt(
    id_vars=[('info', 'kode')],
    col_level=1,  # Use second level
    var_name='jenis',
    value_name='jumlah'
)
```

### 🆚 Perbandingan dengan Methods Lain

| Method | Purpose | Input → Output |
|--------|---------|----------------|
| **melt()** | Wide → Long | Columns become rows |
| **pivot()** | Long → Wide | Rows become columns |
| **pivot_table()** | Long → Wide + Aggregation | With grouping & aggregation |
| **stack()** | Columns → Index | MultiIndex structure |
| **unstack()** | Index → Columns | Reverse of stack |

### 📊 Real-World Use Cases

#### **1. Sales Data Analysis**
```python
# Wide format sales data
sales_wide = pd.DataFrame({
    'region': ['North', 'South', 'East', 'West'],
    'Q1_2024': [100, 150, 120, 180],
    'Q2_2024': [110, 160, 130, 190],
    'Q3_2024': [105, 155, 125, 185],
    'Q4_2024': [115, 165, 135, 195]
})

# Melt untuk time series analysis
sales_long = sales_wide.melt(
    id_vars='region',
    var_name='quarter',
    value_name='sales'
)

# Now dapat melakukan groupby, plotting, dll
sales_long.groupby('quarter')['sales'].sum()
```

#### **2. Financial Data Transformation**
```python
# Financial metrics per company
finance_wide = pd.DataFrame({
    'company': ['AAPL', 'GOOGL', 'MSFT'],
    'revenue_2023': [383, 307, 211],
    'profit_2023': [97, 74, 72],
    'revenue_2024': [391, 320, 245],
    'profit_2024': [101, 84, 88]
})

# Melt untuk comparative analysis
finance_long = finance_wide.melt(
    id_vars='company',
    var_name='metric_year',
    value_name='amount'
)

# Extract metric and year
finance_long[['metric', 'year']] = finance_long['metric_year'].str.split('_', expand=True)
```

#### **3. Survey Data Processing**
```python
# Survey responses (Wide format)
survey_wide = pd.DataFrame({
    'respondent_id': [1, 2, 3, 4],
    'satisfaction_product': [4, 5, 3, 4],
    'satisfaction_service': [3, 4, 5, 3],
    'satisfaction_price': [2, 3, 4, 5]
})

# Melt untuk statistical analysis
survey_long = survey_wide.melt(
    id_vars='respondent_id',
    var_name='satisfaction_type',
    value_name='rating'
)

# Clean up satisfaction_type
survey_long['satisfaction_type'] = survey_long['satisfaction_type'].str.replace('satisfaction_', '')
```

### 🚀 Advanced Melt Patterns

#### **1. Conditional Melting**
```python
def conditional_melt(df, condition_col, condition_value):
    """Melt hanya baris yang memenuhi kondisi"""
    filtered_df = df[df[condition_col] == condition_value]
    return filtered_df.melt(
        id_vars=condition_col,
        var_name='variable',
        value_name='value'
    )

# Usage
active_buildings = conditional_melt(df, 'status', 'active')
```

#### **2. Multiple Value Variables**
```python
# Melt dengan pattern yang berbeda
def smart_melt(df, id_cols, pattern_cols):
    """Intelligent melting berdasarkan pattern kolom"""
    value_vars = [col for col in df.columns if any(pattern in col for pattern in pattern_cols)]
    
    return df.melt(
        id_vars=id_cols,
        value_vars=value_vars,
        var_name='category',
        value_name='measurement'
    )

# Usage
result = smart_melt(df, ['kode_area'], ['pabrik', 'gudang'])
```

#### **3. Custom Value Parsing**
```python
def melt_with_parsing(df, id_vars, var_name, value_name):
    """Melt dengan parsing otomatis untuk variable names"""
    melted = df.melt(id_vars=id_vars, var_name=var_name, value_name=value_name)
    
    # Parse variable names jika ada pattern
    if '_' in melted[var_name].iloc[0]:
        melted[['category', 'subcategory']] = melted[var_name].str.split('_', expand=True)
    
    return melted
```

### 🎯 Best Practices untuk Melt

#### **1. Naming Conventions**
```python
# ✅ Descriptive names
df.melt(
    id_vars='customer_id',
    var_name='product_category',
    value_name='purchase_amount'
)

# ❌ Generic names
df.melt(
    id_vars='id',
    var_name='var',
    value_name='val'
)
```

#### **2. Data Type Preservation**
```python
# Ensure proper data types after melt
melted_df = df.melt(id_vars='kode_area', var_name='jenis', value_name='jumlah')

# Convert value column to appropriate type
melted_df['jumlah'] = pd.to_numeric(melted_df['jumlah'], errors='coerce')

# Handle categorical variables
melted_df['jenis'] = melted_df['jenis'].astype('category')
```

#### **3. Handle Missing Values**
```python
# Melt dan handle missing values
melted_clean = df.melt(
    id_vars='kode_area',
    var_name='jenis_bangunan',
    value_name='jumlah'
).dropna(subset=['jumlah'])  # Remove rows dengan missing values

# Atau fill missing values
melted_filled = melted_df.fillna({'jumlah': 0})
```

### 📈 Integration dengan Analysis

#### **1. Dengan Groupby**
```python
# Setelah melt, analysis menjadi mudah
melted_df = df.melt(id_vars='kode_area', var_name='jenis', value_name='jumlah')

# Statistical summary per jenis
summary_stats = melted_df.groupby('jenis')['jumlah'].agg([
    'count', 'mean', 'std', 'min', 'max'
])

# Total per area
area_totals = melted_df.groupby('kode_area')['jumlah'].sum()
```

#### **2. Dengan Visualization**
```python
import matplotlib.pyplot as plt
import seaborn as sns

# Melted data perfect untuk plotting
melted_df = df.melt(id_vars='kode_area', var_name='jenis', value_name='jumlah')

# Bar plot
plt.figure(figsize=(10, 6))
sns.barplot(data=melted_df, x='jenis', y='jumlah', hue='kode_area')
plt.title('Jumlah Bangunan per Jenis dan Area')

# Box plot untuk distribution
sns.boxplot(data=melted_df, x='jenis', y='jumlah')
```

### 🔧 Performance Considerations

```python
# Untuk large datasets
def efficient_melt(df, id_vars, var_name, value_name, chunk_size=10000):
    """Efficient melting untuk large datasets"""
    if len(df) > chunk_size:
        chunks = []
        for i in range(0, len(df), chunk_size):
            chunk = df.iloc[i:i+chunk_size]
            melted_chunk = chunk.melt(
                id_vars=id_vars,
                var_name=var_name,
                value_name=value_name
            )
            chunks.append(melted_chunk)
        return pd.concat(chunks, ignore_index=True)
    else:
        return df.melt(id_vars=id_vars, var_name=var_name, value_name=value_name)
```

### 🎯 Key Takeaways

- ✅ **`melt()`** transforms wide data ke long format untuk better analysis
- ✅ **Long format** lebih suitable untuk groupby, plotting, dan statistical analysis
- ✅ **`id_vars`** menentukan kolom yang tetap sebagai identifier
- ✅ **`var_name` dan `value_name`** memberikan meaningful names untuk hasil
- ✅ **Combine dengan groupby** untuk powerful data aggregation
- ✅ **Perfect untuk time series** dan multi-category analysis
- ✅ **Essential preprocessing step** untuk visualization dan modeling

**Melt adalah gateway dari messy wide data ke clean analytical format!** 🚀