In [1]:
import pandas as pd
import numpy as np

# I. Group By

## A. Simple Data Frame

In [3]:
df = pd.DataFrame([
    {'nama': 'Andi', 'nilai': 90},
    {'nama': 'Andi', 'nilai': 95},
    {'nama': 'Andi', 'nilai': 92},
    {'nama': 'Budi', 'nilai': 90},
    {'nama': 'Budi', 'nilai': 80},
    {'nama': 'Budi', 'nilai': 88}
])
df

Unnamed: 0,nama,nilai
0,Andi,90
1,Andi,95
2,Andi,92
3,Budi,90
4,Budi,80
5,Budi,88


### 1. Hanya Munculin 1 Grup

In [6]:
dfGroup = df.groupby('nama')
dfGroup.get_group('Andi')

Unnamed: 0,nama,nilai
0,Andi,90
1,Andi,95
2,Andi,92


### 2. Ngecek ada grup apa aja

In [7]:
dfGroup.groups.keys()

dict_keys(['Andi', 'Budi'])

### 3. Cari maximum di setiap Grup

In [9]:
dfGroup.max()

Unnamed: 0_level_0,nilai
nama,Unnamed: 1_level_1
Andi,95
Budi,90


### 4. Cari rata-rata di setiap Grup

In [10]:
dfGroup.mean()

Unnamed: 0_level_0,nilai
nama,Unnamed: 1_level_1
Andi,92.333333
Budi,86.0


## B. Complicated Data Frame

In [11]:
df = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Andi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Andi', 'fisika': 92, 'biologi': 82},
    {'nama': 'Budi', 'fisika': 90, 'biologi': 95},
    {'nama': 'Budi', 'fisika': 80, 'biologi': 98},
    {'nama': 'Budi', 'fisika': 88, 'biologi': 90}
])
df

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
1,Andi,95,80
2,Andi,92,82
3,Budi,90,95
4,Budi,80,98
5,Budi,88,90


### 1. Cari rata-rata di setiap Grup

In [12]:
dfGroup = df.groupby('nama')
dfGroup.mean()

Unnamed: 0_level_0,fisika,biologi
nama,Unnamed: 1_level_1,Unnamed: 2_level_1
Andi,92.333333,80.0
Budi,86.0,94.333333


### 2. Cari rata-rata nilai fisika di setiap Grup

In [13]:
dfGroup.mean()['fisika']

nama
Andi    92.333333
Budi    86.000000
Name: fisika, dtype: float64

### 3. Cari nilai fisika tertinggi di grup Andi

In [28]:
dfGroup.get_group('Andi').max()['fisika']

95

Atau

In [18]:
df[df['nama'] == 'Andi']['fisika'].max()

95

# II. Concat

## A. Datanya Sama Persis

In [46]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'nama': 'Didi', 'fisika': 90, 'biologi': 95},
    {'nama': 'Euis', 'fisika': 80, 'biologi': 98},
    {'nama': 'Fafa', 'fisika': 88, 'biologi': 90}
])
dfx = pd.concat([df1, df2], ignore_index=True)  # pake ignore biar indexnya ga double
dfx

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
1,Budi,95,80
2,Caca,92,82
3,Didi,90,95
4,Euis,80,98
5,Fafa,88,90


## B. Datanya ada perbedaan

In [45]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'nama': 'Didi', 'math': 90, 'biologi': 95},
    {'nama': 'Euis', 'math': 80, 'biologi': 98},
    {'nama': 'Fafa', 'math': 88, 'biologi': 90}
])
dfx = pd.concat([df1, df2], ignore_index=True, sort=False)
dfx

Unnamed: 0,nama,fisika,biologi,math
0,Andi,90.0,78,
1,Budi,95.0,80,
2,Caca,92.0,82,
3,Didi,,95,90.0
4,Euis,,98,80.0
5,Fafa,,90,88.0


## C. Datanya ada perbedaan tapi nama-namanya sama

### 1. Nama yg sama dijadikan sebaris (urutan namanya sama)

In [44]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'nama': 'Andi', 'math': 90, 'kimia': 95},
    {'nama': 'Budi', 'math': 80, 'kimia': 98},
    {'nama': 'Caca', 'math': 88, 'kimia': 90}
])
dfx = pd.concat([df1, df2], axis=1, ignore_index=True, sort=False)
dfx

Unnamed: 0,0,1,2,3,4,5
0,Andi,90,78,Andi,90,95
1,Budi,95,80,Budi,80,98
2,Caca,92,82,Caca,88,90


### 2. Nama yg sama dijadikan sebaris (urutan namanya beda)

In [43]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
], index = [0,1,2])
df2 = pd.DataFrame([
    {'nama': 'Budi', 'math': 90, 'kimia': 95},
    {'nama': 'Andi', 'math': 80, 'kimia': 98},
    {'nama': 'Caca', 'math': 88, 'kimia': 90}
], index = [1,0,2])
dfx = pd.concat([df1, df2], axis=1, ignore_index=True, sort=False)
dfx

Unnamed: 0,0,1,2,3,4,5
0,Andi,90,78,Andi,80,98
1,Budi,95,80,Budi,90,95
2,Caca,92,82,Caca,88,90


# III. Merge

## A. Datanya sama persis

In [48]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'nama': 'Budi', 'math': 90, 'kimia': 95},
    {'nama': 'Andi', 'math': 80, 'kimia': 98},
    {'nama': 'Caca', 'math': 88, 'kimia': 90}
])
dfx = pd.merge(df1, df2, on='nama')  # tanpa on juga masih bisa
dfx

Unnamed: 0,nama,fisika,biologi,math,kimia
0,Andi,90,78,80,98
1,Budi,95,80,90,95
2,Caca,92,82,88,90


## B. Datanya ada yg lebih banyak

### 1. Defaultnya (Inner Join)

In [52]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'nama': 'Budi', 'math': 90, 'kimia': 95},
    {'nama': 'Andi', 'math': 80, 'kimia': 98},
    {'nama': 'Caca', 'math': 88, 'kimia': 90},
    {'nama': 'Deni', 'math': 88, 'kimia': 90}
])
dfx = pd.merge(df1, df2, on='nama')  # tanpa on juga masih bisa
dfx

Unnamed: 0,nama,fisika,biologi,math,kimia
0,Andi,90,78,80,98
1,Budi,95,80,90,95
2,Caca,92,82,88,90


### 2. Outer Join

In [53]:
df1 = pd.DataFrame([
    {'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'nama': 'Budi', 'fisika': 95, 'biologi': 80},
    {'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'nama': 'Budi', 'math': 90, 'kimia': 95},
    {'nama': 'Andi', 'math': 80, 'kimia': 98},
    {'nama': 'Caca', 'math': 88, 'kimia': 90},
    {'nama': 'Deni', 'math': 88, 'kimia': 90}
])
dfx = pd.merge(df1, df2, on='nama', how='outer')  # how untuk mendescribe tipe joinnya

dfx

Unnamed: 0,nama,fisika,biologi,math,kimia
0,Andi,90.0,78.0,80,98
1,Budi,95.0,80.0,90,95
2,Caca,92.0,82.0,88,90
3,Deni,,,88,90


# IV. Pivot Table

In [60]:
df = pd.DataFrame([
    {'test': 1, 'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'test': 2, 'nama': 'Andi', 'fisika': 95, 'biologi': 80},
    {'test': 3, 'nama': 'Andi', 'fisika': 92, 'biologi': 82},
    {'test': 1, 'nama': 'Budi', 'fisika': 80, 'biologi': 78},
    {'test': 2, 'nama': 'Budi', 'fisika': 85, 'biologi': 89},
    {'test': 3, 'nama': 'Budi', 'fisika': 72, 'biologi': 72}
])
df = df.pivot(index='test', columns='nama')
df

Unnamed: 0_level_0,fisika,fisika,biologi,biologi
nama,Andi,Budi,Andi,Budi
test,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,90,80,78,78
2,95,85,80,89
3,92,72,82,72


## A. Cari nilai-nilai fisikanya aja

In [67]:
df['fisika']

nama,Andi,Budi
test,Unnamed: 1_level_1,Unnamed: 2_level_1
1,90,80
2,95,85
3,92,72


## B. Cari Nilai fisika Andi yg pertama

In [76]:
df['fisika']['Andi'].loc[1]

90

# V. MultiIndex

## A. Kolom (sama kayak pivot)

In [96]:
df = pd.DataFrame({
    'mapel': ['biologi', 'biologi', 'biologi', 'fisika', 'fisika', 'fisika'],
    'test': [1, 2, 3, 1, 2, 3],
    'Andi': [78, 80, 82, 90, 95, 92],
    'Budi': [88, 89, 72, 80, 85, 72]
})
df = df.set_index(['test', 'mapel']).unstack()
df = df.swaplevel(0,1,1).sort_index(1)
df

mapel,biologi,biologi,fisika,fisika
Unnamed: 0_level_1,Andi,Budi,Andi,Budi
test,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,78,88,90,80
2,80,89,95,85
3,82,72,92,72


## B. Index

In [110]:
df = pd.DataFrame({
    'mapel': ['biologi', 'biologi', 'biologi', 'fisika', 'fisika', 'fisika'],
    'test': [1, 2, 3, 1, 2, 3],
    'Andi': [78, 80, 82, 90, 95, 92],
    'Budi': [88, 89, 72, 80, 85, 72]
})
df = df.set_index(['mapel', 'test'])
#df = df.swaplevel(0,1,1).sort_index(1)
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Andi,Budi
mapel,test,Unnamed: 2_level_1,Unnamed: 3_level_1
biologi,1,78,88
biologi,2,80,89
biologi,3,82,72
fisika,1,90,80
fisika,2,95,85
fisika,3,92,72


Atau

In [120]:
df1 = pd.DataFrame([
    {'test': 1, 'nama': 'Andi', 'fisika': 90, 'biologi': 78},
    {'test': 2, 'nama': 'Deni', 'fisika': 95, 'biologi': 80},
    {'test': 3, 'nama': 'Caca', 'fisika': 92, 'biologi': 82}
])
df2 = pd.DataFrame([
    {'test': 1, 'nama': 'Ali', 'fisika': 80, 'biologi': 78},
    {'test': 2, 'nama': 'Budi', 'fisika': 85, 'biologi': 89},
    {'test': 3, 'nama': 'Euis', 'fisika': 72, 'biologi': 72}
])
df = pd.concat([df1, df2], keys=['data1', 'data2'])
df

Unnamed: 0,Unnamed: 1,test,nama,fisika,biologi
data1,0,1,Andi,90,78
data1,1,2,Deni,95,80
data1,2,3,Caca,92,82
data2,0,1,Ali,80,78
data2,1,2,Budi,85,89
data2,2,3,Euis,72,72


Notes:
- Concat bagusnya untuk data yg berbeda
- Merge bagusnya untuk data yg sama
- Pivot buat multi index di kolom