# Tutorial Pandas: Merging dan Joining Data

Selamat datang di tutorial Pandas untuk Merging dan Joining Data! Dalam tutorial ini, kita akan mempelajari berbagai cara untuk menggabungkan dataset menggunakan Pandas.

## Daftar Isi:
1. Pengenalan
2. Persiapan Data
3. Metode Penggabungan Data
   - Merge
   - Join
   - Concat
4. Studi Kasus
5. Latihan

## 1. Pengenalan

Dalam analisis data, kita sering perlu menggabungkan data dari berbagai sumber. Pandas menyediakan beberapa metode untuk melakukan ini:

- **Merge**: Menggabungkan DataFrame berdasarkan kolom kunci (mirip dengan SQL JOIN)
- **Join**: Menggabungkan DataFrame berdasarkan index
- **Concat**: Menggabungkan DataFrame secara vertikal atau horizontal

Mari kita pelajari masing-masing metode dengan contoh praktis!

In [43]:
# Import library yang diperlukan
import pandas as pd
import numpy as np

# Membuat data sampel untuk siswa
data_siswa = {
    'NIS': ['S001', 'S002', 'S003', 'S004', 'S005'],
    'Nama': ['Andi', 'Budi', 'Citra', 'Deni', 'Eva'],
    'Kelas': ['12-A', '12-B', '12-A', '12-C', '12-B']
}

# Membuat data nilai ujian
data_nilai = {
    'NIS': ['S001', 'S002', 'S003', 'S004', 'S006'],
    'Matematika': [85, 90, 78, 95, 88],
    'Bahasa': [90, 85, 88, 80, 85]
}

# Membuat data ekstrakurikuler
data_ekskul = {
    'NIS': ['S001', 'S002', 'S004', 'S005', 'S007'],
    'Ekskul': ['Basket', 'Futsal', 'Band', 'Pramuka', 'PMR']
}

# Membuat DataFrame
df_siswa = pd.DataFrame(data_siswa)
df_nilai = pd.DataFrame(data_nilai)
df_ekskul = pd.DataFrame(data_ekskul)

# Tampilkan dataset
print("Data Siswa:")
print(df_siswa)
print("\n" + "-"*50 + "\n")

print("Data Nilai:")
print(df_nilai)
print("\n" + "-"*50 + "\n")

print("Data Ekstrakurikuler:")
print(df_ekskul)

Data Siswa:
    NIS   Nama Kelas
0  S001   Andi  12-A
1  S002   Budi  12-B
2  S003  Citra  12-A
3  S004   Deni  12-C
4  S005    Eva  12-B

--------------------------------------------------

Data Nilai:
    NIS  Matematika  Bahasa
0  S001          85      90
1  S002          90      85
2  S003          78      88
3  S004          95      80
4  S006          88      85

--------------------------------------------------

Data Ekstrakurikuler:
    NIS   Ekskul
0  S001   Basket
1  S002   Futsal
2  S004     Band
3  S005  Pramuka
4  S007      PMR


## 2. Metode Merge

`merge()` adalah metode yang paling sering digunakan untuk menggabungkan DataFrame. Mirip dengan JOIN dalam SQL, merge memiliki beberapa tipe:

- **Inner merge**: Hanya mengambil data yang ada di kedua DataFrame
- **Left merge**: Mengambil semua data dari DataFrame kiri
- **Right merge**: Mengambil semua data dari DataFrame kanan
- **Outer merge**: Mengambil semua data dari kedua DataFrame

Mari kita coba masing-masing tipe merge:

In [45]:
# 1. Inner Merge
print("Inner Merge (Siswa dan Nilai):")
inner_merge = pd.merge(df_siswa, df_nilai, on='NIS', how='inner')
print(inner_merge)
print("\n" + "-"*50 + "\n")

# 2. Left Merge
print("Left Merge (Siswa dan Nilai):")
left_merge = pd.merge(df_siswa, df_nilai, on='NIS', how='left')
print(left_merge)
print("\n" + "-"*50 + "\n")

# 3. Right Merge
print("Right Merge (Siswa dan Nilai):")
right_merge = pd.merge(df_siswa, df_nilai, on='NIS', how='right')
print(right_merge)
print("\n" + "-"*50 + "\n")

# 4. Outer Merge
print("Outer Merge (Siswa dan Nilai):")
outer_merge = pd.merge(df_siswa, df_nilai, on='NIS', how='outer')
print(outer_merge)

Inner Merge (Siswa dan Nilai):
    NIS   Nama Kelas  Matematika  Bahasa
0  S001   Andi  12-A          85      90
1  S002   Budi  12-B          90      85
2  S003  Citra  12-A          78      88
3  S004   Deni  12-C          95      80

--------------------------------------------------

Left Merge (Siswa dan Nilai):
    NIS   Nama Kelas  Matematika  Bahasa
0  S001   Andi  12-A        85.0    90.0
1  S002   Budi  12-B        90.0    85.0
2  S003  Citra  12-A        78.0    88.0
3  S004   Deni  12-C        95.0    80.0
4  S005    Eva  12-B         NaN     NaN

--------------------------------------------------

Right Merge (Siswa dan Nilai):
    NIS   Nama Kelas  Matematika  Bahasa
0  S001   Andi  12-A          85      90
1  S002   Budi  12-B          90      85
2  S003  Citra  12-A          78      88
3  S004   Deni  12-C          95      80
4  S006    NaN   NaN          88      85

--------------------------------------------------

Outer Merge (Siswa dan Nilai):
    NIS   Nama Kelas 

## 3. Metode Join

`join()` adalah metode yang mirip dengan merge, tetapi lebih fokus pada penggabungan berdasarkan index. Ini sangat berguna ketika kita ingin menggabungkan DataFrame berdasarkan index mereka.

Mari kita lihat contoh penggunaan join dengan mengatur index terlebih dahulu:

In [46]:
# Set NIS sebagai index
df_siswa_idx = df_siswa.set_index('NIS')
df_nilai_idx = df_nilai.set_index('NIS')
df_ekskul_idx = df_ekskul.set_index('NIS')

# 1. Inner Join
print("Inner Join:")
inner_join = df_siswa_idx.join(df_nilai_idx, how='inner')
print(inner_join)
print("\n" + "-"*50 + "\n")

# 2. Left Join
print("Left Join:")
left_join = df_siswa_idx.join(df_nilai_idx, how='left')
print(left_join)
print("\n" + "-"*50 + "\n")

# 3. Multiple Join
print("Multiple Join (Siswa + Nilai + Ekstrakurikuler):")
multiple_join = df_siswa_idx.join([df_nilai_idx, df_ekskul_idx])
print(multiple_join)

Inner Join:
       Nama Kelas  Matematika  Bahasa
NIS                                  
S001   Andi  12-A          85      90
S002   Budi  12-B          90      85
S003  Citra  12-A          78      88
S004   Deni  12-C          95      80

--------------------------------------------------

Left Join:
       Nama Kelas  Matematika  Bahasa
NIS                                  
S001   Andi  12-A        85.0    90.0
S002   Budi  12-B        90.0    85.0
S003  Citra  12-A        78.0    88.0
S004   Deni  12-C        95.0    80.0
S005    Eva  12-B         NaN     NaN

--------------------------------------------------

Multiple Join (Siswa + Nilai + Ekstrakurikuler):
       Nama Kelas  Matematika  Bahasa   Ekskul
NIS                                           
S001   Andi  12-A        85.0    90.0   Basket
S002   Budi  12-B        90.0    85.0   Futsal
S003  Citra  12-A        78.0    88.0      NaN
S004   Deni  12-C        95.0    80.0     Band
S005    Eva  12-B         NaN     NaN  Pramuka

## 4. Metode Concat

`concat()` adalah metode yang digunakan untuk menggabungkan DataFrame secara vertikal (menambah baris) atau horizontal (menambah kolom). Ini sangat berguna ketika kita ingin:
- Menggabungkan data dari periode yang berbeda (vertikal)
- Menambahkan kolom dari dataset yang berbeda (horizontal)

Mari kita lihat contoh penggunaan concat:

In [47]:
# Membuat data tambahan untuk demonstrasi
data_siswa_baru = {
    'NIS': ['S007', 'S008', 'S009'],
    'Nama': ['Fani', 'Gina', 'Hadi'],
    'Kelas': ['12-A', '12-B', '12-C']
}
df_siswa_baru = pd.DataFrame(data_siswa_baru)

# 1. Concat Vertikal (menambah baris)
print("Concat Vertikal:")
concat_vertikal = pd.concat([df_siswa, df_siswa_baru], ignore_index=True)
print(concat_vertikal)
print("\n" + "-"*50 + "\n")

# 2. Concat Horizontal (menambah kolom)
# Membuat DataFrame baru dengan informasi tambahan
data_info = {
    'NIS': ['S001', 'S002', 'S003', 'S004', 'S005'],
    'Alamat': ['Jakarta', 'Bandung', 'Surabaya', 'Medan', 'Yogyakarta'],
    'Telepon': ['08123456789', '08234567890', '08345678901', '08456789012', '08567890123']
}
df_info = pd.DataFrame(data_info)

print("Concat Horizontal:")
concat_horizontal = pd.concat([df_siswa, df_info.set_index('NIS')], axis=1)
print(concat_horizontal)
print("\n" + "-"*50 + "\n")

# 3. Concat dengan Join
print("Concat dengan Join:")
concat_join = pd.concat([df_siswa.set_index('NIS'), 
                        df_nilai.set_index('NIS'), 
                        df_ekskul.set_index('NIS')], axis=1, join='inner')
print(concat_join)

Concat Vertikal:
    NIS   Nama Kelas
0  S001   Andi  12-A
1  S002   Budi  12-B
2  S003  Citra  12-A
3  S004   Deni  12-C
4  S005    Eva  12-B
5  S007   Fani  12-A
6  S008   Gina  12-B
7  S009   Hadi  12-C

--------------------------------------------------

Concat Horizontal:
       NIS   Nama Kelas      Alamat      Telepon
0     S001   Andi  12-A         NaN          NaN
1     S002   Budi  12-B         NaN          NaN
2     S003  Citra  12-A         NaN          NaN
3     S004   Deni  12-C         NaN          NaN
4     S005    Eva  12-B         NaN          NaN
S001   NaN    NaN   NaN     Jakarta  08123456789
S002   NaN    NaN   NaN     Bandung  08234567890
S003   NaN    NaN   NaN    Surabaya  08345678901
S004   NaN    NaN   NaN       Medan  08456789012
S005   NaN    NaN   NaN  Yogyakarta  08567890123

--------------------------------------------------

Concat dengan Join:
      Nama Kelas  Matematika  Bahasa  Ekskul
NIS                                         
S001  Andi  12-A    

## 5. Studi Kasus: Analisis Data Akademik

Mari kita gunakan semua metode yang telah kita pelajari untuk membuat analisis komprehensif data akademik siswa. Kita akan:
1. Menggabungkan semua informasi siswa
2. Menghitung statistik nilai per kelas
3. Menganalisis partisipasi ekstrakurikuler

In [49]:
# 1. Menggabungkan semua informasi siswa
data_lengkap = df_siswa.merge(df_nilai, on='NIS', how='left')\
                      .merge(df_ekskul, on='NIS', how='left')

print("Data Lengkap Siswa:")
print(data_lengkap)
print("\n" + "-"*50 + "\n")

# 2. Statistik nilai per kelas
print("Statistik Nilai per Kelas:")
statistik_kelas = data_lengkap.groupby('Kelas').agg({
    'Matematika': ['mean', 'min', 'max'],
    'Bahasa': ['mean', 'min', 'max']
}).round(2)
print(statistik_kelas)
print("\n" + "-"*50 + "\n")

# 3. Analisis Ekstrakurikuler
print("Partisipasi Ekstrakurikuler per Kelas:")
ekskul_kelas = pd.crosstab(data_lengkap['Kelas'], 
                          data_lengkap['Ekskul'].fillna('Tidak Ada'))
print(ekskul_kelas)

Data Lengkap Siswa:
    NIS   Nama Kelas  Matematika  Bahasa   Ekskul
0  S001   Andi  12-A        85.0    90.0   Basket
1  S002   Budi  12-B        90.0    85.0   Futsal
2  S003  Citra  12-A        78.0    88.0      NaN
3  S004   Deni  12-C        95.0    80.0     Band
4  S005    Eva  12-B         NaN     NaN  Pramuka

--------------------------------------------------

Statistik Nilai per Kelas:
      Matematika             Bahasa            
            mean   min   max   mean   min   max
Kelas                                          
12-A        81.5  78.0  85.0   89.0  88.0  90.0
12-B        90.0  90.0  90.0   85.0  85.0  85.0
12-C        95.0  95.0  95.0   80.0  80.0  80.0

--------------------------------------------------

Partisipasi Ekstrakurikuler per Kelas:
Ekskul  Band  Basket  Futsal  Pramuka  Tidak Ada
Kelas                                           
12-A       0       1       0        0          1
12-B       0       0       1        1          0
12-C       1       0    

## 6. Latihan

Gunakan dataset yang telah kita buat untuk menyelesaikan soal-soal berikut:

1. Gabungkan data siswa dengan nilai menggunakan merge, tetapi hanya untuk siswa yang memiliki nilai Matematika di atas rata-rata
2. Buat analisis yang menunjukkan rata-rata nilai (Matematika dan Bahasa) untuk setiap ekstrakurikuler
3. Gabungkan semua data (siswa, nilai, dan ekstrakurikuler) menggunakan join, kemudian tampilkan hanya siswa yang mengikuti ekstrakurikuler
4. Buat DataFrame baru dengan informasi tambahan (misalnya: tanggal lahir siswa) dan gabungkan dengan data yang sudah ada
5. Analisis korelasi antara nilai Matematika dan Bahasa untuk setiap kelas

Berikut template kode untuk memulai latihan:

In [52]:
# Template untuk latihan

# Soal 1: Merge dengan kondisi nilai Matematika
# Lengkapi kode di sini...

# Soal 2: Analisis nilai per ekstrakurikuler
# Lengkapi kode di sini...

# Soal 3: Join dan filter ekstrakurikuler
# Lengkapi kode di sini...

# Soal 4: Gabung dengan data baru
# Lengkapi kode di sini...

# Soal 5: Analisis korelasi nilai
# Lengkapi kode di sini...

### Solusi Latihan

Berikut adalah solusi untuk latihan di atas. Cobalah untuk mengerjakan sendiri terlebih dahulu sebelum melihat solusi!

In [54]:
# Solusi Soal 1: Merge dengan kondisi nilai Matematika
rata_rata_matematika = df_nilai['Matematika'].mean()
nilai_tinggi = df_nilai[df_nilai['Matematika'] > rata_rata_matematika]
hasil_1 = pd.merge(df_siswa, nilai_tinggi, on='NIS', how='inner')
print("Siswa dengan nilai Matematika di atas rata-rata:")
print(hasil_1)
print("\n" + "-"*50 + "\n")

# Solusi Soal 2: Analisis nilai per ekstrakurikuler
data_lengkap = pd.merge(df_nilai, df_ekskul, on='NIS', how='inner')
hasil_2 = data_lengkap.groupby('Ekskul').agg({
    'Matematika': 'mean',
    'Bahasa': 'mean'
}).round(2)
print("Rata-rata nilai per ekstrakurikuler:")
print(hasil_2)
print("\n" + "-"*50 + "\n")

# Solusi Soal 3: Join dan filter ekstrakurikuler
hasil_3 = df_siswa_idx.join([df_nilai_idx, df_ekskul_idx]).dropna(subset=['Ekskul'])
print("Data siswa yang mengikuti ekstrakurikuler:")
print(hasil_3)
print("\n" + "-"*50 + "\n")

# Solusi Soal 4: Gabung dengan data baru
data_tambahan = {
    'NIS': ['S001', 'S002', 'S003', 'S004', 'S005'],
    'Tanggal_Lahir': ['2006-01-15', '2006-03-20', '2006-05-10', 
                      '2006-07-25', '2006-11-30'],
    'Hobi': ['Membaca', 'Olahraga', 'Musik', 'Fotografi', 'Melukis']
}
df_tambahan = pd.DataFrame(data_tambahan)
hasil_4 = pd.merge(data_lengkap, df_tambahan, on='NIS', how='left')
print("Data dengan informasi tambahan:")
print(hasil_4)
print("\n" + "-"*50 + "\n")

# Solusi Soal 5: Analisis korelasi nilai
hasil_5 = data_lengkap.groupby('Kelas').apply(
    lambda x: x[['Matematika', 'Bahasa']].corr()
).round(2)
print("Korelasi nilai per kelas:")
print(hasil_5)

Siswa dengan nilai Matematika di atas rata-rata:
    NIS  Nama Kelas  Matematika  Bahasa
0  S002  Budi  12-B          90      85
1  S004  Deni  12-C          95      80

--------------------------------------------------

Rata-rata nilai per ekstrakurikuler:
        Matematika  Bahasa
Ekskul                    
Band          95.0    80.0
Basket        85.0    90.0
Futsal        90.0    85.0

--------------------------------------------------

Data siswa yang mengikuti ekstrakurikuler:
      Nama Kelas  Matematika  Bahasa   Ekskul
NIS                                          
S001  Andi  12-A        85.0    90.0   Basket
S002  Budi  12-B        90.0    85.0   Futsal
S004  Deni  12-C        95.0    80.0     Band
S005   Eva  12-B         NaN     NaN  Pramuka

--------------------------------------------------

Data dengan informasi tambahan:
    NIS  Matematika  Bahasa  Ekskul Tanggal_Lahir       Hobi
0  S001          85      90  Basket    2006-01-15    Membaca
1  S002          90      85

KeyError: 'Kelas'

## Kesimpulan

Dalam tutorial ini, kita telah mempelajari berbagai metode untuk menggabungkan data menggunakan Pandas:

1. **Merge**
   - Inner merge: menggabungkan data yang ada di kedua DataFrame
   - Left merge: mengambil semua data dari DataFrame kiri
   - Right merge: mengambil semua data dari DataFrame kanan
   - Outer merge: mengambil semua data dari kedua DataFrame

2. **Join**
   - Berbasis index
   - Lebih efisien untuk penggabungan berdasarkan index
   - Mendukung multiple join dalam satu operasi

3. **Concat**
   - Penggabungan vertikal (menambah baris)
   - Penggabungan horizontal (menambah kolom)
   - Fleksibel dengan parameter join dan axis

Tips Penting:
- Pilih metode yang sesuai dengan kebutuhan dan struktur data
- Perhatikan kolom kunci yang digunakan untuk penggabungan
- Perhatikan penanganan missing values
- Gunakan parameter yang tepat (how, on, axis) sesuai kebutuhan

Dengan menguasai teknik-teknik ini, Anda akan dapat menggabungkan dan menganalisis data dari berbagai sumber dengan lebih efektif.