# Data Manipulation with Pandas - Part 2

<p><b>About :</b> Setelah sudah mengenal lebih tentang Pandas, melakukan indexing, slicing dan transformasi di bagian sebelumnya,  di bagian ini kamu akan belajar lebih dalam seputar fungsional Pandas secara advance, mencakup menggabungkan beberapa dataframe, memformat ulang bentuk data agar data siap untuk dilakukan proses selanjutnya (analisis/prediksi), menerapkan teknik pengelompokan untuk mengurangi jumlah data, mengenal time series di Pandas dan tentunya project akhir yang mencakup semua materi.</p>

<p><b>Course :</b> <a href=https://academy.dqlab.id/main/package/practice/252?pf=0>Data Manipulation with Pandas - Part 2</a></p>

<h2>Module Content:</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#penggabungan-series-dataframe">Penggabungan Series/Dataframe</a></li>
        <ul>
            <li><a href="#append">Append</a></li>
            <li><a href="#concat">Concat</a></li>
            <li><a href="#merge">Merge</a></li>
            <li><a href="#join">Join</a></li>
        </ul>
        <li><a href="#pivot-melt-stack-unstack">Pivot, Melt, Stack & Unstack</a></li>
        <ul>
            <li><a href="#pivot">Pivot</a></li>
            <li><a href="#melt">Melt</a></li>
            <li><a href="#stack-unstack">Stack & Unstack</a></li>
        </ul>
        <li><a href="#aggregation-groupby">Aggregation & GroupBy</a></li>
        <ul>
            <li><a href="#"></a></li>
            <li><a href="#"></a></li>
        </ul>
        <li><a href="#time-series-pandas">Time Series in Pandas</a></li>
        <ul>
            <li><a href="#"></a></li>
            <li><a href="#"></a></li>
        </ul>
        <li><a href="#mini-quiz">Mini Quiz</a></li>
    </ul>
</div>

<h2><a name="penggabungan-series-dataframe"></a>Chapter 1: Penggabungan Series/Dataframe</h2>

<b>Reference:</b> <a href=https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html>https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html</a>

<p>Sebagai seorang praktisi data, pasti sering kali bertemu dengan banyak file sekaligus dan data yang dibutuhkan tersebar di berbagai file tersebut dan membutuhkan metode untuk menggabungkan semua informasi yang dibutuhkan dari setiap file itu.</p>

<p>Dengan menggunakan excel atau tools pengolah spreadsheet lain hal itu bisa terjadi mungkin dengan menggunakan copy paste file satu ke file lainnya atau yang agak canggih menggunakan method importRange di google sheets. Tetapi tentu hal itu tidak bisa diandalkan ketika berurusan dengan big data yang datanya bisa milyaran rows dengan informasi yang tidak terbatas, Python dan Pandas adalah satu-satunya cara untuk mengatasinya.</p>

<p>Terdapat beberapa metode untuk menggabungkan Series/Dataframe di Pandas, yaitu: <b>append</b>, <b>concat</b>, <b>merge</b>, <b>join</b>.</p>

<h3><a name="append"></a>Append</h3>

Method <code>.append()</code> dapat digunakan pada dataframe/series yang ditujukan untuk <b>menambah row</b>-nya saja. Jika di SQL memiliki 2 tabel atau lebih maka dapat menggabungkannya secara vertikal dengan Union. Jadi <b>SQL Union</b> ekuivalen dengan method <code>.append()</code> di Pandas.

In [11]:
import pandas as pd

# Buat series of int (s1) dan series of string (s2)
s1 = pd.Series([1,2,3,4,5,6])
s2 = pd.Series(["a","b","c","d","e","f"])

# Terapkan method append
s2_append_s1 = s2.append(s1)
print("Series - append:\n", s2_append_s1)

Series - append:
 0    a
1    b
2    c
3    d
4    e
5    f
0    1
1    2
2    3
3    4
4    5
5    6
dtype: object


In [12]:
# Buat dataframe df1 dan df2
df1 = pd.DataFrame({'a':[1,2],
                    'b':[3,4]})
df2 = pd.DataFrame({'b':[1,2],
                    'a':[3,4]})

# Terapkan method append
df2_append_df1 = df2.append(df1)
print("Dataframe - append:\n")
df2_append_df1

Dataframe - append:



Unnamed: 0,b,a
0,1,3
1,2,4
0,3,1
1,4,2


<h3><a name="concat"></a>Concat</h3>

Method <code>.concat()</code> dapat digunakan pada dataframe yang ditujukan untuk penggabungan baik dalam row-wise (dalam arah ) atau column-wise.

In [3]:
import pandas as pd

# Buat dataframe df1 dan df2
df1 = pd.DataFrame({'a':[1,2],
                    'b':[3,4]})
df2 = pd.DataFrame({'b':[1,2],
                    'a':[3,4]})

In [8]:
# Terapkan method concat row-wise
row_wise_concat = pd.concat([df2, df1])
row_wise_concat

Unnamed: 0,b,a
0,1,3
1,2,4
0,3,1
1,4,2


In [9]:
# Terapkan method concat column-wise
col_wise_concat = pd.concat([df2, df1], axis=1)
col_wise_concat

Unnamed: 0,b,a,a.1,b.1
0,1,3,1,3
1,2,4,2,4


In [10]:
# Penambahan identifier --> membentuk hasil penggabungan multiindex
multiindex_concat = pd.concat([df2,df1], axis=0, keys=['df1','df2'])
multiindex_concat

Unnamed: 0,Unnamed: 1,b,a
df1,0,1,3
df1,1,2,4
df2,0,3,1
df2,1,4,2


<h3><a name="merge"></a>Merge</h3>

Method <code>.merge()</code> untuk menggabungkan Series/Dataframe yang bentuknya mirip dengan syntax <b>join di SQL</b>, specify left and right tables, join key dan how to join (left, right, inner, full outer).

In [13]:
import pandas as pd

# Buat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]})
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]})

<code>pd.merge</code> yang ekivalen dengan <b>SQL left join</b> menggunakan <b><code>how='left'</code></b>

In [14]:
# Merge yang ekivalen dengan SQL left join
merge_df_left = pd.merge(left=df2, right=df1, how='left', left_on='key', right_on='key')
merge_df_left

Unnamed: 0,key,val3,val4,val1,val2
0,k1,1,6,200.0,30.0
1,k3,2,7,0.0,100.0
2,k5,3,8,100.0,10.0
3,k7,4,8,,
4,k10,5,10,,


<code>pd.merge</code> yang ekivalen dengan <b>SQL right join</b> menggunakan <b><code>how='right'</code></b>

In [15]:
# Merge yang ekivalen dengan SQL right join
merge_df_right = pd.merge(left=df2, right=df1, how='right', left_on='key', right_on='key')
merge_df_right

Unnamed: 0,key,val3,val4,val1,val2
0,k1,1.0,6.0,200,30
1,k3,2.0,7.0,0,100
2,k5,3.0,8.0,100,10
3,k2,,,500,50
4,k4,,,500,20


<code>pd.merge</code> yang ekivalen dengan <b>SQL inner join</b> menggunakan <b><code>how='inner'</code></b>

In [16]:
# Merge yang ekivalen dengan SQL inner join
merge_df_inner = pd.merge(left=df2, right=df1, how='inner', left_on='key', right_on='key')
merge_df_inner

Unnamed: 0,key,val3,val4,val1,val2
0,k1,1,6,200,30
1,k3,2,7,0,100
2,k5,3,8,100,10


<code>pd.merge</code> yang ekivalen dengan <b>SQL outer join</b> menggunakan <b><code>how='outer'</code></b>

In [17]:
# Merge yang ekivalen dengan SQL outer join
merge_df_outer = pd.merge(left=df2, right=df1, how='outer', left_on='key', right_on='key')
merge_df_outer

Unnamed: 0,key,val3,val4,val1,val2
0,k1,1.0,6.0,200.0,30.0
1,k3,2.0,7.0,0.0,100.0
2,k5,3.0,8.0,100.0,10.0
3,k7,4.0,8.0,,
4,k10,5.0,10.0,,
5,k2,,,500.0,50.0
6,k4,,,500.0,20.0


<p>Penggunaan method <code>.merge</code> yang telah dipelajari diatas adalah untuk dataframe dengan <b>index tunggal</b>.</p>

<p>Bagaimana jika salah satu dataframe atau keseluruhan dataframe yang akan digabungkan tersebut memiliki <b>multiindex</b>?</p>

<p>Cara mengatasinya adalah dengan mereset index pada kedua dataframe, kemudian merge akan mendeteksi common single/multi column di kedua dataframe dan melakukan merge.</p>

In [22]:
import pandas as pd

# Buat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
}).set_index(['key','val2'])
df1

Unnamed: 0_level_0,Unnamed: 1_level_0,val1
key,val2,Unnamed: 2_level_1
k1,30,200
k2,50,500
k3,100,0
k4,20,500
k5,10,100


In [23]:
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
}).set_index(['key','val3'])
df2

Unnamed: 0_level_0,Unnamed: 1_level_0,val4
key,val3,Unnamed: 2_level_1
k1,1,6
k3,2,7
k5,3,8
k7,4,8
k10,5,10


In [24]:
# Merge dataframe yang memiliki multi index
df_merge = pd.merge(df1.reset_index(),df2.reset_index())
print('Merging dataframe:\n')
df_merge

Merging dataframe:



Unnamed: 0,key,val2,val1,val3,val4
0,k1,30,200,1,6
1,k3,100,0,2,7
2,k5,10,100,3,8


<h3><a name="join"></a>Join</h3>

Metthod <code>.join()</code> digunakan pada dataframe untuk menggabungkan kedua data dengan <b>set index</b> pada kedua tabel tersebut sebagai join key, tanpa index, hal ini tidak akan berhasil.

In [25]:
import pandas as pd
# Buat dataframe df1 dan df2
df1 = pd.DataFrame({
   'key':['k1','k2','k3','k4','k5'],
   'val1':[200, 500, 0, 500, 100],
   'val2':[30, 50, 100, 20, 10]
})
df2 = pd.DataFrame({
   'key':['k1','k3','k5','k7','k10'],
   'val3':[1,2,3,4,5],
   'val4':[6,7,8,8,10]
})
# Penerapan join dengan menggunakan set_index dan keyword how
join_df = df1.set_index('key').join(df2.set_index('key'), how='outer')
join_df

Unnamed: 0_level_0,val1,val2,val3,val4
key,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
k1,200.0,30.0,1.0,6.0
k10,,,5.0,10.0
k2,500.0,50.0,,
k3,0.0,100.0,2.0,7.0
k4,500.0,20.0,,
k5,100.0,10.0,3.0,8.0
k7,,,4.0,8.0


<b>Note:</b> Secara default, tanpa mendefiniskan <code>how</code>, fungsi join ini akan mengeksekusi <b>left join</b>.

<h2><a name="pivot-melt-stack-unstack"></a>Chapter 2: Pivot, Melt, Stack & Unstack</h2>

<b>Reference:</b> <a herf=https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html>https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html</a>

Melakukan format ulang pada dataset itu sangatlah penting, biasanya hal ini dilakukan untuk mengetahui keseluruhan data secara cepat dengan chart atau visualisasi. Untuk orang yang sudah mahir menggunakan spreadsheet pastilah tau banyak tentang fitur pivot ini.

Di Pandas, ada beberapa teknik untuk melakukan pivot atau unpivot yang biasa disebut as melt di Pandas, terdapat pula konsep <b>stack</b> yang artinya menumpuk data dengan kolom yang lebih sedikit (<b>stack</b>) sama seperti konsep <b>melt</b> dan ada pula yang memperluas data dengan kolom yang lebih banyak (<b>unstack</b>) sama seperti konsep <b>pivot</b>.

In [27]:
import pandas as pd

# Dataframe
data = pd.DataFrame({
  'kelas': 6*['A'] + 6*['B'],
  'murid': 2*['A1'] + 2*['A2'] + 2*['A3'] + 2*['B1'] + 2*['B2'] + 2*['B3'],
  'pelajaran': 6*['math','english'],
  'nilai': [90,60,70,85,50,60,100,40,95,80,60,45]
}, columns=['kelas','murid','pelajaran','nilai'])

# Unique value pada setiap kolom data
for column in data.columns:
    print('Unique value %s: %s' % (column, data[column].unique()))

data

Unique value kelas: ['A' 'B']
Unique value murid: ['A1' 'A2' 'A3' 'B1' 'B2' 'B3']
Unique value pelajaran: ['math' 'english']
Unique value nilai: [ 90  60  70  85  50 100  40  95  80  45]


Unnamed: 0,kelas,murid,pelajaran,nilai
0,A,A1,math,90
1,A,A1,english,60
2,A,A2,math,70
3,A,A2,english,85
4,A,A3,math,50
5,A,A3,english,60
6,B,B1,math,100
7,B,B1,english,40
8,B,B2,math,95
9,B,B2,english,80


<h3><a name="pivot"></a>Pivot</h3>

Untuk menerapkan menerapkan method <code>.pivot()</code> pada dataframe dapat dilakukan pada dataframe yang miliki index tunggal ataupun indexnya adalah multiindex.

In [29]:
# Pivoting with single column measurement
pivot1 = data.pivot(index='murid',columns='pelajaran',values='nilai')
pivot1

pelajaran,english,math
murid,Unnamed: 1_level_1,Unnamed: 2_level_1
A1,60,90
A2,85,70
A3,60,50
B1,40,100
B2,80,95
B3,45,60


In [30]:
# Pivoting with multiple column measurement
pivot2 = data.pivot(index='murid',columns='pelajaran')
pivot2

Unnamed: 0_level_0,kelas,kelas,nilai,nilai
pelajaran,english,math,english,math
murid,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
A1,A,A,60,90
A2,A,A,85,70
A3,A,A,60,50
B1,B,B,40,100
B2,B,B,80,95
B3,B,B,45,60


Apa yang berbeda dari kedua code di atas? Pada code pertama di specify values mana yang akan dilakukan pivot sedangkan di kedua tidak specific mana yang akan dilakukan pivot maka Pandas secara default men-treat kolom yang ada selain yang telah di specify as index dan columns as values instead.

Apa yang terjadi kalau output pivot tabel memiliki duplicate index? Seperti yang diketahui, index di dataframe adalah unique identifier untuk setiap row, jadi tidak boleh ada duplikat dan setiap membuat pivot tabel, harus specify index as kolom yang mana dan columns nya memakai kolom yang mana.

Hal ini dapat diatasi dengan melakukan method <code>.pivot_table()</code> pada dataframe. Metode ini sama seperti melakukan pivot pada tabel tapi juga melakukan <b>groupby</b> dan <b>aggregation</b> (aggfunc) pada level rows sehingga dipastikan tidak ada duplicate index di rows (secara default aggfunc = 'mean').

Keyword aggfunc yang digunakan pada method <code>.pivot_table()</code> dapat menggunakan nilai berikut:
<ul>
    <li>sum</li>
    <li>'mean'</li>
    <li>'median'</li>
</ul>

In [34]:
# Creating pivot and assign pivot_tab dengan menggunakan keyword aggfunc='mean'
pivot_tab_mean = data.pivot_table(index='kelas',columns='pelajaran',values='nilai', aggfunc='mean')
pivot_tab_mean

pelajaran,english,math
kelas,Unnamed: 1_level_1,Unnamed: 2_level_1
A,68.333333,70.0
B,55.0,85.0


In [37]:
# Creating pivot and assign pivot_tab dengan menggunakan keyword aggfunc='median'
pivot_tab_median = data.pivot_table(index='kelas',columns='pelajaran',values='nilai', aggfunc='median')
pivot_tab_median

pelajaran,english,math
kelas,Unnamed: 1_level_1,Unnamed: 2_level_1
A,60,70
B,45,95


<h3><a name="melt"></a>Melt</h3>

Teknik melt melalui <code>pd.melt()</code> digunakan untuk mengembalikan kondisi data yang sudah dilakukan pivot menjadi sebelum pivot.

In [41]:
# Pivoting dataframe
data_pivot = data.pivot_table(index='kelas',columns='pelajaran',values='nilai',aggfunc='mean').reset_index()
data_pivot

pelajaran,kelas,english,math
0,A,68.333333,70.0
1,B,55.0,85.0


In [42]:
# [1] Melting dataframe data_pivot
data_melt_1 = pd.melt(data_pivot)
data_melt_1

Unnamed: 0,pelajaran,value
0,kelas,A
1,kelas,B
2,english,68.3333
3,english,55
4,math,70
5,math,85


Dengan menspesifikasi keyword argument <b>id_vars</b> yang ditujukan untuk membuat fix kolom yang sebagai id tiap barisnya

In [43]:
# [2] Melting dataframe data_pivot dengan id_vars
data_melt_2 = pd.melt(data_pivot, id_vars='kelas')
data_melt_2

Unnamed: 0,kelas,pelajaran,value
0,A,english,68.333333
1,B,english,55.0
2,A,math,70.0
3,B,math,85.0


Dengan menspesifikasikan keyword argument <b>value_vars</b> yang digunakan untuk menampilkan variasi value apa saja yang perlu dimunculkan di kolom variable.

In [44]:
# [3.a] Melting dataframe data_pivot dengan value_vars
data_melt_3a = pd.melt(data_pivot, value_vars=['math'])
data_melt_3a

Unnamed: 0,pelajaran,value
0,math,70.0
1,math,85.0


In [45]:
# [3.b] Melting dataframe data_pivot dengan id_vars dan value_vars
data_melt_3b = pd.melt(data_pivot, id_vars='kelas', value_vars=['math'])
data_melt_3b

Unnamed: 0,kelas,pelajaran,value
0,A,math,70.0
1,B,math,85.0


Dengan spesifikasikan keyword argument <b>var_name</b> dan <b>value_name</b> yang digunakan untuk menampilkan nama kolom untuk variable dan value

In [46]:
# [4] Melting dataframe data_pivot dengan id_vars, value_vars, var_name. dan value_name
data_melt_4 = pd.melt(data_pivot,id_vars='kelas',value_vars=['english','math'],var_name='pelajaran',value_name='nilai')
data_melt_4

Unnamed: 0,kelas,pelajaran,nilai
0,A,english,68.333333
1,B,english,55.0
2,A,math,70.0
3,B,math,85.0


<h3><a name="stack-unstack"></a>Stack & Unstack</h3>

Konsep stacking dan unstacking sama dengan melt dan pivot secara berurutan, hanya saja tidak memasukkan index sebagai parameter di stack/unstack tapi harus set index terlebih dahulu, baru bisa melakukan stacking/unstacking dengan level yang bisa ditentukan sendiri.

In [47]:
import pandas as pd

# Dataframe
data = pd.DataFrame({
  'kelas': 6*['A'] + 6*['B'],
  'murid': 2*['A1'] + 2*['A2'] + 2*['A3'] + 2*['B1'] + 2*['B2'] + 2*['B3'],
  'pelajaran': 6*['math','english'],
  'nilai': [90,60,70,85,50,60,100,40,95,80,60,45]
}, columns=['kelas','murid','pelajaran','nilai'])
data

Unnamed: 0,kelas,murid,pelajaran,nilai
0,A,A1,math,90
1,A,A1,english,60
2,A,A2,math,70
3,A,A2,english,85
4,A,A3,math,50
5,A,A3,english,60
6,B,B1,math,100
7,B,B1,english,40
8,B,B2,math,95
9,B,B2,english,80


<h4>Unstack</h4>

In [48]:
# Set index data untuk kolom kelas, murid, dan pelajaran
data = data.set_index(['kelas','murid','pelajaran'])
data

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nilai
kelas,murid,pelajaran,Unnamed: 3_level_1
A,A1,math,90
A,A1,english,60
A,A2,math,70
A,A2,english,85
A,A3,math,50
A,A3,english,60
B,B1,math,100
B,B1,english,40
B,B2,math,95
B,B2,english,80


In [49]:
# [1] Unstacking dataframe
data_unstack_1 = data.unstack()
data_unstack_1

Unnamed: 0_level_0,Unnamed: 1_level_0,nilai,nilai
Unnamed: 0_level_1,pelajaran,english,math
kelas,murid,Unnamed: 2_level_2,Unnamed: 3_level_2
A,A1,60,90
A,A2,85,70
A,A3,60,50
B,B1,40,100
B,B2,80,95
B,B3,45,60


In [50]:
# [2] Unstacking dengan specify level name
data_unstack_2 = data.unstack(level='murid')
data_unstack_2

Unnamed: 0_level_0,Unnamed: 1_level_0,nilai,nilai,nilai,nilai,nilai,nilai
Unnamed: 0_level_1,murid,A1,A2,A3,B1,B2,B3
kelas,pelajaran,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
A,english,60.0,85.0,60.0,,,
A,math,90.0,70.0,50.0,,,
B,english,,,,40.0,80.0,45.0
B,math,,,,100.0,95.0,60.0


In [51]:
# [3] Unstacking dengan specify level position
data_unstack_3 = data.unstack(level=1)
data_unstack_3

Unnamed: 0_level_0,Unnamed: 1_level_0,nilai,nilai,nilai,nilai,nilai,nilai
Unnamed: 0_level_1,murid,A1,A2,A3,B1,B2,B3
kelas,pelajaran,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
A,english,60.0,85.0,60.0,,,
A,math,90.0,70.0,50.0,,,
B,english,,,,40.0,80.0,45.0
B,math,,,,100.0,95.0,60.0


<h4>Stack</h4>

In [52]:
import pandas as pd

# Dataframe
data = pd.DataFrame({
  'kelas': 6*['A'] + 6*['B'],
  'murid': 2*['A1'] + 2*['A2'] + 2*['A3'] + 2*['B1'] + 2*['B2'] + 2*['B3'],
  'pelajaran': 6*['math','english'],
  'nilai': [90,60,70,85,50,60,100,40,95,80,60,45]
}, columns=['kelas','murid','pelajaran','nilai'])

# set multi-index
data = data.set_index(['kelas','murid','pelajaran'])

# unstack data
data_unstack = data.unstack(level=1)
data_unstack

Unnamed: 0_level_0,Unnamed: 1_level_0,nilai,nilai,nilai,nilai,nilai,nilai
Unnamed: 0_level_1,murid,A1,A2,A3,B1,B2,B3
kelas,pelajaran,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
A,english,60.0,85.0,60.0,,,
A,math,90.0,70.0,50.0,,,
B,english,,,,40.0,80.0,45.0
B,math,,,,100.0,95.0,60.0


In [53]:
# [1] Stacking dataframe
data_stack = data_unstack.stack()
data_stack

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nilai
kelas,pelajaran,murid,Unnamed: 3_level_1
A,english,A1,60.0
A,english,A2,85.0
A,english,A3,60.0
A,math,A1,90.0
A,math,A2,70.0
A,math,A3,50.0
B,english,B1,40.0
B,english,B2,80.0
B,english,B3,45.0
B,math,B1,100.0


In [54]:
# [2] Tukar posisi index setelah stacking dataframe
data_swap = data_stack.swaplevel(1,2)
data_swap

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nilai
kelas,murid,pelajaran,Unnamed: 3_level_1
A,A1,english,60.0
A,A2,english,85.0
A,A3,english,60.0
A,A1,math,90.0
A,A2,math,70.0
A,A3,math,50.0
B,B1,english,40.0
B,B2,english,80.0
B,B3,english,45.0
B,B1,math,100.0


In [55]:
# [3] Melakukan sort_index pada stacking dataframe
data_sort = data_swap.sort_index()
data_sort

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,nilai
kelas,murid,pelajaran,Unnamed: 3_level_1
A,A1,english,60.0
A,A1,math,90.0
A,A2,english,85.0
A,A2,math,70.0
A,A3,english,60.0
A,A3,math,50.0
B,B1,english,40.0
B,B1,math,100.0
B,B2,english,80.0
B,B2,math,95.0


<h2><a name="aggregation-groupby"></a>Chapter 3: Aggregation & GroupBy</h2>

<h3><a name="indexing"></a>Indexing</h3>

<h2><a name="time-series-pandas"></a>Chapter 4: Time Series in Pandas</h2>

<h2><a name="mini-quiz"></a>Chapter 5: Mini Quiz</h2>

<div style="border: 2px solid orange;border-radius: 5px;">
    <b style="color:orange;padding:10px">Project dari Andra</b>
    <div style="padding:25px">
        <p>Diberikan dataset <b>‘retail_raw_test.csv’</b>.</p>
        <ol>
            <li>Baca dataset</li>
            <li>Tipe data diubah menjadi tipe yang seharusnya</li>
            <ul>
                <li>customer_id dari string ke int64,</li>
                <li>quantity dari string ke int64,</li>
                <li>item_price dari string ke int64</li>
            </ul>
            <li>transform product_value supaya bentuknya seragam dengan format PXXXX, assign ke kolom baru "product_id", dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown".</li>
            <li>tranform order_date menjadi value dengan format YYYY-mm-dd</li>
            <li>cek data hilang dari tiap kolom dan kemudian isi missing value</li>
            <ul>
                <li>di brand dengan "no_brand", dan</li>
                <li>cek dulu bagaimana missing value di city & province - isi missing value di city dan province dengan "unknown"</li>
            </ul>
            <li>create column city/province dari gabungan city & province</li>
            <li>membuat index berdasarkan city_provice, order_date, customer_id, order_id, product_id (cek index)</li>
            <li>membuat kolom "total_price" sebagai hasil perkalian quantity dengan item_price</li>
            <li>slice data hanya untuk Jan 2019</li>
        </ol>
    </div>
</div>