## Apa itu Pivoting dan Melting ?

<i>Pivoting</i> dan <i>Melting</i> termasuk bentuk <i>reshaping</i> data.

* __Pivoting data__ adalah melakukan perubahan bentuk data dari bentuk memanjang ke bawah menjadi melebar ke samping.

* __Melting data__ adalah melakukan perubahan bentuk data dari bentuk melebar menjadi memanjang.

## Load dataset

Praktek <i>pivoting</i> dan <i>melting</i> ini akan menggunakan beberapa dataframe, baik yang buatan sendiri maupun dari dataset yang sudah ada.

Untuk dataset yang digunakan adalah dataset <a href='https://www.kaggle.com/shivam2503/diamonds'>Diamonds</a> 

__Attribute Information__

* __carat__: weight of the diamond (0.2 - 5.01)
* __cut__: quality of the cut (Fair, Good, Very Good, Premium, Ideal)
* __color__: diamond colour, from J (worst) to D (best)
* __clarity__: a measurement of how clear the diamond is (I1 (worst), SI2, SI1, VS2, VS1, VVS2, VVS1, IF (best))
* __depth__: total depth percentage = z / mean(x, y) = 2 * z / (x + y) (43 - 79)
* __table__: width of top of diamond relative to widest point (43 - 95)
* __price__: price in US dollars (326-18,823)
* __x__: length in mm (0 - 10.74)
* __y__: width in mm (0 - 58.9)
* __z__: depth in mm (0 - 31.8)

Pertama kita impor Pandas, kemudian <i>load</i> data ke dataframe menggunakan <code>read_csv()</code>.

In [1]:
import pandas as pd

In [2]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [3]:
%cd /content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py/

/content/gdrive/My Drive/Colab Notebooks/DATASET/datasets_py


In [4]:
df_diamonds = pd.read_csv('diamonds.csv')
df_diamonds = df_diamonds.drop('Unnamed: 0', axis=1)    # Menghapus kolom Unnamed: 0
df_diamonds.head()

Unnamed: 0,carat,cut,color,clarity,depth,table,price,x,y,z
0,0.23,Ideal,E,SI2,61.5,55.0,326,3.95,3.98,2.43
1,0.21,Premium,E,SI1,59.8,61.0,326,3.89,3.84,2.31
2,0.23,Good,E,VS1,56.9,65.0,327,4.05,4.07,2.31
3,0.29,Premium,I,VS2,62.4,58.0,334,4.2,4.23,2.63
4,0.31,Good,J,SI2,63.3,58.0,335,4.34,4.35,2.75


## Pivoting dataframe di Python

Untuk memuat <i>pivot table</i> di Python, gunakan <i>function</i> <code>pivot_table()</code>. Dan setidaknya harus mendefinisikan tiga parameter, yaitu:

* __index__ : kolom yang akan dijadikan indeks
* __columns__ : kolom yang akan dijadikan kolom 
* __values__ : kolom yang akan dijadikan values

Untuk lebih jelasnya perhatikan contoh penggunaannya pada kode berikut. 

In [5]:
# Pivoting dataframe df_diamonds

pivot_diamonds = df_diamonds.pivot_table(index='color', columns='cut', values=['x', 'y', 'z'])
pivot_diamonds

Unnamed: 0_level_0,x,x,x,x,x,y,y,y,y,y,z,z,z,z,z
cut,Fair,Good,Ideal,Premium,Very Good,Fair,Good,Ideal,Premium,Very Good,Fair,Good,Ideal,Premium,Very Good
color,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2
D,6.018344,5.620076,5.186704,5.599869,5.50121,5.96319,5.633897,5.196224,5.571472,5.531613,3.839877,3.504864,3.2018,3.415926,3.405089
E,5.909063,5.617889,5.215762,5.587116,5.432467,5.858214,5.632454,5.232214,5.558353,5.463213,3.722143,3.496066,3.220346,3.408875,3.373996
F,5.990513,5.693443,5.408751,5.876692,5.610504,5.931122,5.709659,5.42225,5.844655,5.642717,3.787821,3.544609,3.338732,3.588391,3.472902
G,6.173822,5.850264,5.511214,5.864254,5.660204,6.114076,5.862824,5.524007,5.833345,5.688752,3.963153,3.647922,3.40312,3.579641,3.509883
H,6.579373,5.968789,5.731377,6.244508,5.982286,6.497393,5.974245,5.740446,6.22811,6.006272,4.219373,3.726937,3.539917,3.811699,3.713849
I,6.564457,6.253544,5.976197,6.489531,6.272259,6.493486,6.260536,5.989479,6.45327,6.299028,4.193486,3.901513,3.69527,3.963894,3.890972
J,6.747311,6.377003,6.320045,6.809975,6.460782,6.675882,6.386026,6.332098,6.770644,6.495074,4.319664,3.977459,3.912757,4.16802,4.006873


Gunakan kolom <code>color</code> sebagai <i>index</i>, <code>cut</code> sebagai <i>columns</i>, dan <code>x</code>, <code>y</code>, <code>z</code> sebagai <i>values</i>-nya.

Perlu diketahui nilai <code>x</code>, <code>y</code>, <code>z</code> pada hasil <code>pivot_table</code> di atas adalah nilai <i>mean</i> atau rata-rata. Ada satu parameter yaitu <code>aggfunc</code> yang jika tidak didefinisikan akan menghasilkan nilai <i>mean</i> sebagai <i>default</i>-nya. Dataframe <code>df_diamonds</code> memiliki banyak nilai <code>color</code> dan <code>cut</code> yang sama sehingga nilai-nilainya otomatis di-<i>aggregate</i>.

Jika antara kolom yang dijadikan <i>index</i> dan <i>columns</i> tidak mengandung nilai yang sama, maka <i>values</i>-nya tidak akan di-<i>aggregate</i>. Misalnya data siswa seperti di bawah ini.

In [6]:
# Membuat dataframe

import pandas as pd
import random

data_siswa = {
    'Nama Siswa' : ['Jessica', 'Tommy', 'Alisha', 'David', 'Kevin']*2,
    'Mata Pelajaran' : ['Matematika']*5 + ['Bahasa Inggris']*5,
    'Nilai UTS' : [random.choice(range(40, 100)) for i in range(10)],
    'Nilai UAS' : [random.choice(range(40, 100)) for i in range(10)] 
}
df_siswa = pd.DataFrame(data_siswa)
df_siswa

Unnamed: 0,Nama Siswa,Mata Pelajaran,Nilai UTS,Nilai UAS
0,Jessica,Matematika,72,76
1,Tommy,Matematika,57,56
2,Alisha,Matematika,68,84
3,David,Matematika,49,40
4,Kevin,Matematika,98,58
5,Jessica,Bahasa Inggris,80,51
6,Tommy,Bahasa Inggris,66,54
7,Alisha,Bahasa Inggris,66,78
8,David,Bahasa Inggris,54,71
9,Kevin,Bahasa Inggris,98,45


Sekarang buat <code>pivot_table</code> dari dataframe <code>df_siswa</code> di atas.

In [7]:
# Pivoting dengan values 'Nilai UTS' dan 'Nilai UAS'

pivot_siswa = df_siswa.pivot_table(index='Nama Siswa', columns='Mata Pelajaran', values=['Nilai UTS', 'Nilai UAS'])
pivot_siswa

Unnamed: 0_level_0,Nilai UAS,Nilai UAS,Nilai UTS,Nilai UTS
Mata Pelajaran,Bahasa Inggris,Matematika,Bahasa Inggris,Matematika
Nama Siswa,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
Alisha,78,84,66,68
David,71,40,54,49
Jessica,51,76,80,72
Kevin,45,58,98,98
Tommy,54,56,66,57


Terlihat dari output yang dihasilkan tidak ada nilai yang di-<i>aggregate</i>. Semua nilainya ditampilkan sesuai dengan dataframe aslinya hanya saja dalam bentuk yang berbeda.

atau dapat juga menampilkan data hanya untuk satu <i>values</i>, misalnya <code>Nilai UTS</code>.

In [8]:
# Pivoting dengan values hanya 'Nilai UTS'

pivot_siswa2 = df_siswa.pivot_table(index='Nama Siswa', columns='Mata Pelajaran', values=['Nilai UTS'])
pivot_siswa2

Unnamed: 0_level_0,Nilai UTS,Nilai UTS
Mata Pelajaran,Bahasa Inggris,Matematika
Nama Siswa,Unnamed: 1_level_2,Unnamed: 2_level_2
Alisha,66,68
David,54,49
Jessica,80,72
Kevin,98,98
Tommy,66,57


Nah, lalu bagaimana jika ingin meng-<i>aggregate</i> selain menggunakan <i>mean</i> yang merupakan <i>default</i>-nya?

Misalnya ingin membuat <code>pivot_table</code> dari dataframe di bawah ini dengan <i>aggregate</i> penjumlahan. 

In [9]:
# Membuat dataframe

data_kehadiran = {'Ujian': ['UTS', 'UAS']*4, 
                  'Mata Kuliah': ['Algoritma', 'Algoritma', 'Kalkulus', 'Kalkulus', 'Kalkulus', 'Algoritma', 'Algoritma', 'Kalkulus'],
                  'Jumlah': [22, 19, 18, 20, 18, 16, 20, 21]}

df_kehadiran = pd.DataFrame(data_kehadiran)
df_kehadiran

Unnamed: 0,Ujian,Mata Kuliah,Jumlah
0,UTS,Algoritma,22
1,UAS,Algoritma,19
2,UTS,Kalkulus,18
3,UAS,Kalkulus,20
4,UTS,Kalkulus,18
5,UAS,Algoritma,16
6,UTS,Algoritma,20
7,UAS,Kalkulus,21


Untuk menjumlahkan nilai dengan kolom <code>Ujian</code> dan <code>Mata Kuliah</code> yang sama, berikan paramter <code>aggfunc = 'sum'</code>.

In [10]:
# Pivoting dengan aggregate 'sum'

pivot_kehadiran = df_kehadiran.pivot_table(index='Ujian', columns='Mata Kuliah', values='Jumlah', aggfunc='sum')
pivot_kehadiran

Mata Kuliah,Algoritma,Kalkulus
Ujian,Unnamed: 1_level_1,Unnamed: 2_level_1
UAS,35,41
UTS,42,36


## Melting dataframe di Python

Untuk melakukan <i>melting</i> data, gunakan <i>function</i> <code>melt()</code> yang ada di Python.

Misalkan data dalam bentuk melebar seperti di bawah ini dan ingin membuatnya memanjang ke bawah.

In [11]:
# Membuat dataframe

import pandas as pd

data_class = {
    'Gender' : ['Male', 'Female'],
    'Classroom 1' : [21, 24],
    'Classroom 2' : [23, 18],
    'Classroom 3' : [26, 22],
    'Classroom 4' : [19, 25]
}
df_class = pd.DataFrame(data_class).set_index('Gender')
df_class

Unnamed: 0_level_0,Classroom 1,Classroom 2,Classroom 3,Classroom 4
Gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Male,21,23,26,19
Female,24,18,22,25


terapkan <i>function</i> <code>melt()</code> seperti di bawah ini. Parameter yang dapat digunakan di antaranya:

* __id_vars__ : kolom yang ingin dijadikan sebagai id
* __value_vars__ : kolom yang ingin di-<i>melting</i>
* __var_name__ : nama kolom untuk kolom hasil <i>melting</i>
* __value_name__ : nama kolom untuk kolom <i>values</i> atau nilai

In [12]:
# Melting df_class

df_class = df_class.reset_index()
melt_class = pd.melt(df_class, id_vars=['Gender'], value_vars=['Classroom 1', 'Classroom 2', 'Classroom 3', 'Classroom 4'], 
               var_name='Classroom', value_name='Number of Students')
melt_class

Unnamed: 0,Gender,Classroom,Number of Students
0,Male,Classroom 1,21
1,Female,Classroom 1,24
2,Male,Classroom 2,23
3,Female,Classroom 2,18
4,Male,Classroom 3,26
5,Female,Classroom 3,22
6,Male,Classroom 4,19
7,Female,Classroom 4,25


sekarang bentuk dataframenya sudah berubah memanjang.



---


Semoga Bermanfaat dan jangan lupa main-main kesini: <a href="https://nurpurwanto.github.io/">**nurpurwanto**</a> Terimakasih.

---


