In [1]:
import pandas as pd
import numpy as np

### GROUP BY

In [8]:
df = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Andi", "fisika": 95, "biologi": 80},
    {"nama": "Andi", "fisika": 92, "biologi": 82},
    {"nama": "Budi", "fisika": 90, "biologi": 95},
    {"nama": "Budi", "fisika": 80, "biologi": 98},
    {"nama": "Budi", "fisika": 88, "biologi": 90},
])
df

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
1,Andi,95,80
2,Andi,92,82
3,Budi,90,95
4,Budi,80,98
5,Budi,88,90


In [9]:
dfGroup = df.groupby("nama")
dfGroup

<pandas.core.groupby.generic.DataFrameGroupBy object at 0x1095e5550>

__Untuk melihat data dari group tertentu__

In [10]:
dfGroup.get_group("Andi")

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
1,Andi,95,80
2,Andi,92,82


__Untuk melihat ada group apa saja__

In [6]:
dfGroup.groups

{'Andi': Int64Index([0, 1, 2], dtype='int64'),
 'Budi': Int64Index([3, 4, 5], dtype='int64')}

__Untuk melihat rerata dari sebuah data__

In [11]:
dfGroup.mean()

Unnamed: 0_level_0,fisika,biologi
nama,Unnamed: 1_level_1,Unnamed: 2_level_1
Andi,92.333333,80.0
Budi,86.0,94.333333


In [12]:
dfGroup.mean()["fisika"]

nama
Andi    92.333333
Budi    86.000000
Name: fisika, dtype: float64

__Mencari nilai max__

In [13]:
df[df["nama"] == "Andi"]["fisika"].max()

95

In [14]:
dfGroup.max()["biologi"]

nama
Andi    82
Budi    98
Name: biologi, dtype: int64

----

### CONCATENATE

In [15]:
df1 = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Budi", "fisika": 95, "biologi": 80},
    {"nama": "Caca", "fisika": 92, "biologi": 82},
])
df2 = pd.DataFrame([
    {"nama": "Deni", "fisika": 90, "biologi": 95},
    {"nama": "Euis", "fisika": 80, "biologi": 98},
    {"nama": "Fafa", "fisika": 88, "biologi": 90},
])
dfX = pd.concat([df1, df2])
dfX

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
1,Budi,95,80
2,Caca,92,82
0,Deni,90,95
1,Euis,80,98
2,Fafa,88,90


Hati-hati dalam penggunaan fungsi, iloc by index, loc by name

In [16]:
dfX.iloc[0]

nama       Andi
fisika       90
biologi      78
Name: 0, dtype: object

In [17]:
dfX.loc[0]

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
0,Deni,90,95


__Untuk membuat indeks tidak berulang__

In [19]:
dfX = pd.concat([df1, df2], ignore_index=True)
dfX

Unnamed: 0,nama,fisika,biologi
0,Andi,90,78
1,Budi,95,80
2,Caca,92,82
3,Deni,90,95
4,Euis,80,98
5,Fafa,88,90


__Bila ada perbedaan data, perlu ditambah syntax sort= False__

In [20]:
df1 = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Budi", "fisika": 95, "biologi": 80},
    {"nama": "Caca", "fisika": 92, "biologi": 82},
])
df2 = pd.DataFrame([
    {"nama": "Deni", "math": 90, "biologi": 95},
    {"nama": "Euis", "math": 80, "biologi": 98},
    {"nama": "Fafa", "math": 88, "biologi": 90},
])
dfX = pd.concat([df1, df2], ignore_index= True, sort= False)
dfX

Unnamed: 0,nama,fisika,biologi,math
0,Andi,90.0,78,
1,Budi,95.0,80,
2,Caca,92.0,82,
3,Deni,,95,90.0
4,Euis,,98,80.0
5,Fafa,,90,88.0


Hasilnya tetap akan menggabungkan kedua dataframe, namun dengan elemen NaN pada data yang propertinya tidak terdefinisi

In [23]:
df1 = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Budi", "fisika": 95, "biologi": 80},
    {"nama": "Caca", "fisika": 92, "biologi": 82},
], index = [0,1,2])
df2 = pd.DataFrame([
    {"nama": "Budi", "math": 90, "kimia": 95},
    {"nama": "Andi", "math": 80, "kimia": 98},
    {"nama": "Caca", "math": 88, "kimia": 90},
], index = [1,0,2])
dfX = pd.concat([df1, df2], axis= 1, ignore_index= True, sort= False)
dfX

Unnamed: 0,0,1,2,3,4,5
0,Andi,90,78,Andi,80,98
1,Budi,95,80,Budi,90,95
2,Caca,92,82,Caca,88,90


Jika data tidak urut, perlu definisikan urutan indeks. </br>
Concatenate lebih cocok untuk data yang punya properti yang sama, namun elemennya beda semua

----

### MERGE

In [24]:
df1 = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Budi", "fisika": 95, "biologi": 80},
    {"nama": "Caca", "fisika": 92, "biologi": 82},
])
df2 = pd.DataFrame([
    {"nama": "Budi", "math": 90, "kimia": 95},
    {"nama": "Andi", "math": 80, "kimia": 98},
    {"nama": "Caca", "math": 88, "kimia": 90},
])
dfX = pd.merge(df1, df2)
dfX

Unnamed: 0,nama,fisika,biologi,math,kimia
0,Andi,90,78,80,98
1,Budi,95,80,90,95
2,Caca,92,82,88,90


In [25]:
df1 = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Budi", "fisika": 95, "biologi": 80},
    {"nama": "Caca", "fisika": 92, "biologi": 82},
])
df2 = pd.DataFrame([
    {"nama": "Budi", "math": 90, "kimia": 95},
    {"nama": "Andi", "math": 80, "kimia": 98},
    {"nama": "Caca", "math": 88, "kimia": 90},
    {"nama": "Deni", "math": 88, "kimia": 90}
])
dfX = pd.merge(df1, df2, on="nama")
dfX

Unnamed: 0,nama,fisika,biologi,math,kimia
0,Andi,90,78,80,98
1,Budi,95,80,90,95
2,Caca,92,82,88,90


Nama Deni tidak keluar, karena defaultnya adalah inner join, perlu ditambah syntax how= "outer"

In [26]:
df1 = pd.DataFrame([
    {"nama": "Andi", "fisika": 90, "biologi": 78},
    {"nama": "Budi", "fisika": 95, "biologi": 80},
    {"nama": "Caca", "fisika": 92, "biologi": 82},
])
df2 = pd.DataFrame([
    {"nama": "Budi", "math": 90, "kimia": 95},
    {"nama": "Andi", "math": 80, "kimia": 98},
    {"nama": "Caca", "math": 88, "kimia": 90},
    {"nama": "Deni", "math": 88, "kimia": 90}
])
dfX = pd.merge(df1, df2, on= "nama", how= "outer")
dfX

Unnamed: 0,nama,fisika,biologi,math,kimia
0,Andi,90.0,78.0,80,98
1,Budi,95.0,80.0,90,95
2,Caca,92.0,82.0,88,90
3,Deni,,,88,90


----

### PIVOT

In [32]:
df = pd.DataFrame([
    {"test": 1, "nama": "Andi", "fisika": 90, "biologi": 78},
    {"test": 2, "nama": "Andi", "fisika": 95, "biologi": 80},
    {"test": 3, "nama": "Andi", "fisika": 92, "biologi": 82},
    {"test": 1, "nama": "Budi", "fisika": 90, "biologi": 95},
    {"test": 2, "nama": "Budi", "fisika": 80, "biologi": 98},
    {"test": 3, "nama": "Budi", "fisika": 88, "biologi": 90},
])
df

Unnamed: 0,test,nama,fisika,biologi
0,1,Andi,90,78
1,2,Andi,95,80
2,3,Andi,92,82
3,1,Budi,90,95
4,2,Budi,80,98
5,3,Budi,88,90


In [33]:
df = df.pivot(index="test", columns= "nama")
df

Unnamed: 0_level_0,fisika,fisika,biologi,biologi
nama,Andi,Budi,Andi,Budi
test,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,90,90,78,95
2,95,80,80,98
3,92,88,82,90


In [35]:
df["biologi"]

nama,Andi,Budi
test,Unnamed: 1_level_1,Unnamed: 2_level_1
1,78,95
2,80,98
3,82,90


Misal, mencari nilai Fisika Andi pada test yang pertama

In [39]:
df["fisika"]["Andi"].loc[1]

90

### PIVOT MANUAL

In [57]:
df = pd.DataFrame({
    "mapel" : ["biologi", "biologi", "biologi", "fisika", "fisika", "fisika"],
    "test" : [1, 2, 3, 1, 2, 3],
    "Andi" : [78, 80, 82, 90, 95, 92],
    "Budi" : [88, 89, 72, 80, 85, 72]
})
df

Unnamed: 0,mapel,test,Andi,Budi
0,biologi,1,78,88
1,biologi,2,80,89
2,biologi,3,82,72
3,fisika,1,90,80
4,fisika,2,95,85
5,fisika,3,92,72


In [55]:
df = df.set_index(["test", "mapel"])
df

Unnamed: 0_level_0,Unnamed: 1_level_0,Andi,Budi
test,mapel,Unnamed: 2_level_1,Unnamed: 3_level_1
1,biologi,78,88
2,biologi,80,89
3,biologi,82,72
1,fisika,90,80
2,fisika,95,85
3,fisika,92,72


In [52]:
df = df.set_index(["test", "mapel"]).unstack()
df

Unnamed: 0_level_0,Andi,Andi,Budi,Budi
mapel,biologi,fisika,biologi,fisika
test,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,78,90,88,80
2,80,95,89,85
3,82,92,72,72


In [58]:
df = df.set_index(["test", "mapel"]).unstack().swaplevel(0,1,1)
df

mapel,biologi,fisika,biologi,fisika
Unnamed: 0_level_1,Andi,Andi,Budi,Budi
test,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,78,90,88,80
2,80,95,89,85
3,82,92,72,72


In [47]:
df = df.set_index(["test", "mapel"]).unstack().swaplevel(0,1,1).sort_index(1)
df

mapel,biologi,biologi,fisika,fisika
Unnamed: 0_level_1,Andi,Budi,Andi,Budi
test,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
1,78,88,90,80
2,80,89,95,85
3,82,72,92,72
