# Data Manipulation with Pandas - Part 1

<p><b>About :</b> Kamu akan mempelajari library Python paling terkenal untuk kebutuhan Data Analyst, Data Engineer atau Data Scientist, yakni Pandas. Pandas adalah salah satu library open source yang dapat diandalkan ketika berurusan dengan data tabular seperti csv atau excel. Dengan data manipulation kamu akan dapat membaca file, menerapkan indexing, melakukan filter, joining data, ataupun menulis file ke bentuk lain. Dipadukan dengan fungsi-fungsi built in yang ada di python membuat library ini makin canggih dan mudah dimanfaatkan.</p>

<p><b>Course :</b> <a href=https://academy.dqlab.id/main/package/practice/178?pf=0>Data Manipulation with Pandas - Part 1</a></p>

<h2>Module Content:</h2>

<div class="alert alert-block alert-info" style="margin-top: 20px">
    <ul>
        <li><a href="#introduction-to-pandas">Introduction to Pandas</a></li>
        <ul>
            <li><a href="#dataframe-and-series">DataFrame & Series</a></li>
            <li><a href="#atribut-dataframe-and-series">Atribut DataFrame & Series</a></li>
            <li><a href="#creating-dataframe-and-series">Creating DataFrame & Series</a></li>
        </ul>
        <li><a href="#dataset-io">Dataset I/O</a></li>
        <ul>
            <li><a href="#read-dataset">Read Dataset</a></li>
            <li><a href="#write-dataset">Write Dataset</a></li>
            <li><a href="#head-and-tail">Head & Tail</a></li>
        </ul>
        <li><a href="#indexing-slicing-transforming">Indexing, Slicing, dan Transforming</a></li>
        <ul>
            <li><a href="#indexing">Indexing</a></li>
            <li><a href="#slicing">Slicing</a></li>
            <li><a href="#transforming">Transforming</a></li>
        </ul>
        <li><a href="#handling-missing-values">Handling Missing Values</a></li>
        <ul>
            <li><a href="#inspeksi-missing-value">Inspeksi Missing Value</a></li>
            <li><a href="#treatment-untuk-missing-value">Treatment untuk Missing Value</a></li>
            <li><a href="#"></a></li>
            <li><a href="#"></a></li>
        </ul>
        <li><a href="#mini-quiz">Mini Quiz</a></li>
    </ul>
</div>

<h2><a name="introduction-to-pandas"></a>Chapter 1: Introduction to Pandas</h2>

<h3><a name="dataframe-and-series"></a>DataFrame & Series</h3>

<p>Di Pandas terdapat 2 kelas data baru yang digunakan sebagai struktur dari spreadsheet:</p>
<ul>
    <li><b>Series:</b> satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis data nya, terdiri dari 1 tipe data (integer, string, float, dll).</li>
    <li><b>DataFrame:</b> gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri (karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).</li>
</ul>

In [1]:
import pandas as pd

# Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series:")
print(number_list)

# DataFrame
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]
matrix_list = pd.DataFrame(matrix)
print("DataFrame:")
print(matrix_list)

Series:
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
DataFrame:
   0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


<h3><a name="atribut-dataframe-and-series"></a>Atribut DataFrame & Series</h3>

<h4>Atribut <code>.info()</code></h4>

<p>Digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. Attribute ini tidak dapat digunakan pada series, hanya pada data frame saja.</p>

In [2]:
matrix_list.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes


<h4>Atribut <code>.shape</code></h4>

<p>Digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).</p>

In [3]:
print("Shape dari number_list:", number_list.shape)
print("Shape dari matrix_list:", matrix_list.shape)

Shape dari number_list: (6,)
Shape dari matrix_list: (4, 3)


<h4>Atribut <code>.dtypes</code></h4>

<p>Digunakan untuk mengetahui tipe data di tiap kolom. Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc).</p>

In [4]:
print("Tipe data number_list:")
number_list.dtypes

Tipe data number_list:


dtype('int64')

In [5]:
print("Tipe data matrix_list:")
matrix_list.dtypes

Tipe data matrix_list:


0    object
1    object
2    object
dtype: object

<h4>Atribut <code>.astype(nama_tipe_data)</code></h4>

<p>Digunakan untuk convert tipe data berdasarkan tipe data seperti: <b>float</b>, <b>int</b>, <b>str</b>, <b>numpy.float</b>, <b>numpy.int</b> ataupun <b>numpy.datetime</b>.</p>

In [6]:
print("Konversi number_list ke str:")
number_list.astype("str")

Konversi number_list ke str:


0    1
1    2
2    3
3    4
4    5
5    6
dtype: object

In [7]:
print("Konversi matrix_list ke str:")
matrix_list.astype("str")

Konversi matrix_list ke str:


Unnamed: 0,0,1,2
0,1,2,3
1,a,b,c
2,3,4,5
3,d,4,6


<h4>Atribut <code>.copy()</code></h4>

<p>Digunakan untuk melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.</p>

In [8]:
# copy series
num_list = number_list.copy()
num_list

0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64

In [9]:
# copy dataframe
mtr_list = matrix_list.copy()
mtr_list

Unnamed: 0,0,1,2
0,1,2,3
1,a,b,c
2,3,4,5
3,d,4,6


<h4>Atribut <code>.to_list()</code></h4>

<p>Digunakan untuk mengubah series menjadi list dan tidak dapat digunakan untuk dataframe.</p>

In [10]:
number_list.to_list()

[1, 2, 3, 4, 5, 6]

<h4>Atribut <code>.unique()</code></h4>

<p>Digunakan untuk menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. Attribute ini hanya digunakan pada series saja.</p>

In [11]:
number_list.unique()

array([1, 2, 3, 4, 5, 6], dtype=int64)

<h4>Atribut <code>.index</code></h4>

<p>Digunakan untuk mencari index/key dari Series atau Dataframe.</p>

In [12]:
print("Index number_list:", number_list.index)
print("Index matrix_list:", matrix_list.index)

Index number_list: RangeIndex(start=0, stop=6, step=1)
Index matrix_list: RangeIndex(start=0, stop=4, step=1)


<h4>Atribut <code>.columns</code></h4>

<p>Digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut (hanya digunakan untuk dataframe saja).</p>

In [13]:
print("Column matrix_list:", matrix_list.columns)

Column matrix_list: RangeIndex(start=0, stop=3, step=1)


<h4>Atribut <code>.loc</code></h4>

<p>Digunakan untuk slice dataframe atau series berdasarkan <b>nama kolom</b> dan/atau <b>nama index</b>.</p>

In [14]:
# slice series
number_list.loc[0:1]

0    1
1    2
dtype: int64

In [15]:
# slice dataframe
matrix_list.loc[0:1]

Unnamed: 0,0,1,2
0,1,2,3
1,a,b,c


<h4>Atribut <code>.iloc</code></h4>

<p>Digunakan untuk slice dataframe atau series berdasarkan <b>index kolom</b> dan/atau <b>index</b>.</p>

In [16]:
# slice series
number_list.iloc[0:1]

0    1
dtype: int64

In [17]:
# slice dataframe
matrix_list.iloc[0:1]

Unnamed: 0,0,1,2
0,1,2,3


<h3><a name="creating-dataframe-and-series"></a>Creating DataFrame & Series</h3>

<h4>Create from <i>List</i></h4>

<p><i>List</i> merupakan sebuah kumpulan data berbagai macam tipe data, yang mutable (dapat diganti).</p>

In [18]:
# Creating series from list
ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)
ex_series

0    a
1    1
2    3
3    5
4    c
5    d
dtype: object

In [19]:
# Creating dataframe from list of list
ex_list_of_list = [[1  ,'a','b' ,'c'],
                   [2.5,'d','e' ,'f'],
                   [5  ,'g','h' ,'i'],
                   [7.5,'j',10.5,'l']]

index = ['dq','lab','kar','lan']
cols = ['float','char','obj','char']
ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)
ex_df

Unnamed: 0,float,char,obj,char.1
dq,1.0,a,b,c
lab,2.5,d,e,f
kar,5.0,g,h,i
lan,7.5,j,10.5,l


<h4>Create from <i>Dictionary</i></h4>

<p><i>Dictionary</i> merupakan kumpulan data yang strukturnya terdiri dari key dan value.</p>

In [20]:
# Creating series from dictionary
dict_series = {'1':'a',
               '2':'b',
               '3':'c'}
ex_series = pd.Series(dict_series)
ex_series

1    a
2    b
3    c
dtype: object

In [21]:
# Creating dataframe from dictionary
df_series = {'1':['a','b','c'],
             '2':['b','c','d'],
             '4':[2,3,'z']}
ex_df = pd.DataFrame(df_series)
ex_df

Unnamed: 0,1,2,4
0,a,b,2
1,b,c,3
2,c,d,z


<h4>Create from <i>Numpy Array</i></h4>

<p><i>Numpy Array</i> merupakan kumpulan data yang terdiri atas berbagai macam tipe data, mutable, tapi dibungkus dalam array oleh library Numpy.</p>

In [22]:
import numpy as np

# Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)
ex_series

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
dtype: int32

In [23]:
# Creating dataframe from numpy array (2D)
arr_df = np.array([[1  ,2  ,3  ,5],
                   [5  ,6  ,7  ,8],
                   ['a','b','c',10]])
ex_df = pd.DataFrame(arr_df)
ex_df

Unnamed: 0,0,1,2,3
0,1,2,3,5
1,5,6,7,8
2,a,b,c,10


<h2><a name="dataset-io"></a>Chapter 2: Dataset I/O</h2>

<p>Pandas menyediakan berbagai method untuk membaca file tersebut hanya dengan dipanggil method itu, code yang lebih simple dan loading yang lebih, tentu saja output nya dapat berupa Series atau Dataframe.</p>

<p>Terdapat sangat banyak file yang dapat dibaca/dapat disimpan oleh Pandas, tapi ada beberapa file yang paling umum dan sering digunakan oleh praktisi data seperti berikut ini:</p>
<ul>
    <li>CSV (Comma Separated Values), antar data dalam satu baris dipisahkan oleh comma, ",".</li>
    <li>TSV (Tab Separated Values), antar data dalam satu baris dipisahkan oleh "Tab".</li>
    <li>Excel</li>
    <li>Google BigQuery</li>
    <li>SQL Query</li>
    <li>JSON (Java Script Object Notation)</li>
</ul>

<h3><a name="read-dataset"></a>Read Dataset</h3>

<h4>CSV dan TSV</h4>

<p>CSV dan TSV pada hakikatnya adalah tipe data text dengan perbedaan terletak pada pemisah antar data dalam satu baris. Pada file CSV, antar data dalam satu baris dipisahkan oleh comma, ",". Namun, pada file TSV antar data dalam satu baris dipisahkan oleh "Tab".</p>

<p>Fungsi <code>.read_csv()</code> digunakan untuk membaca file yang value nya dipisahkan oleh comma (default), terkadang pemisah value nya bisa di set ‘\t’ untuk file tsv (tab separated values).</p>

In [24]:
import pandas as pd
# File CSV
df_csv = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
df_csv.head(3) # Menampilkan 3 data teratas

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000


In [25]:
# File TSV
df_tsv = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep='\t')
df_tsv.head(3) # Menampilkan 3 data teratas

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000


<h4>Excel</h4>

<p>File excel dengan ekstensi *.xls atau *.xlsx cukup banyak digunakan dalam menyimpan data. Pandas juga memiliki fitur untuk membaca file excel.</p>

<p>Fungsi <code>.read_excel()</code> digunakan untuk membaca file excel.</p>

In [26]:
import pandas as pd

# File xlsx dengan data di sheet "test"
df_excel = pd.read_excel("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_excel.xlsx", sheet_name="test")
df_excel.head(4) # Menampilkan 4 data teratas

Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000


<h4>JSON</h4>

<p>Method <code>.read_json()</code> digunakan untuk membaca URL API yang formatnya JSON dan merubahnya menjadi dataframe pandas.</p>

In [27]:
import pandas as pd

# File JSON
url = "https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/covid2019-api-herokuapp-v2.json"
df_json = pd.read_json(url)
df_json.head(10) # Menampilkan 10 data teratas

Unnamed: 0,data,dt,ts
0,"{'location': 'US', 'confirmed': 3363056, 'deat...",07-14-2020,1594684800
1,"{'location': 'Brazil', 'confirmed': 1884967, '...",07-14-2020,1594684800
2,"{'location': 'India', 'confirmed': 906752, 'de...",07-14-2020,1594684800
3,"{'location': 'Russia', 'confirmed': 732547, 'd...",07-14-2020,1594684800
4,"{'location': 'Peru', 'confirmed': 330123, 'dea...",07-14-2020,1594684800
5,"{'location': 'Chile', 'confirmed': 317657, 'de...",07-14-2020,1594684800
6,"{'location': 'Mexico', 'confirmed': 304435, 'd...",07-14-2020,1594684800
7,"{'location': 'United Kingdom', 'confirmed': 29...",07-14-2020,1594684800
8,"{'location': 'South Africa', 'confirmed': 2877...",07-14-2020,1594684800
9,"{'location': 'Iran', 'confirmed': 259652, 'dea...",07-14-2020,1594684800


<h4>SQL</h4>

<p>Fungsi <code>.read_sql()</code> atau <code>.read_sql_query()</code> digunakan untuk membaca query dari database dan translate menjadi pandas dataframe, contoh case ini database sqlite.</p>

<p>Contoh koneksi sql</p>
<img src="Resources/koneksi_sql.png" width=70% align="left">

<p>Contoh dengan <code>.read_sql_query()</code></p>
<img src="Resources/read_sql_query.png" width=70% align="left">
<img src="Resources/output_sql_query.png" width=50% align="left">

<p>Contoh dengan <code>.read_sql()</code></p>
<img src="Resources/read_sql.png" width=70% align="left">
<img src="Resources/output_sql.png" width=50% align="left">

<h4>Google BigQuery</h4>

<p>Untuk data yang besar (big data), umumnya digunakan Google BigQuery. Layanan ini dapat digunakan jika telah memiliki Google BigQuery account.</p>

<p>Fungsi <code>.read_gbq()</code> digunakan untuk membaca Google BigQuery table menjadi dataframe pandas.</p>

<p>Contoh koneksi gbq</p>
<img src="Resources/koneksi_gbq.png" width=50% align="left">

<p><code>project_id="XXXXXXXX"</code> adalah ID dari Google BigQuery account.</p>
<img src="Resources/output_gbq.png" width=50% align="left">

<h3><a name="write-dataset"></a>Write Dataset</h3>

<p>Dalam bekerja sebagai data scientist/analis setelah dilakukan data cleaning dataset yang sudah rapi tentunya disimpan terlebih dahulu ke dalam media penyimpanan.</p> 

<p>Pandas menyediakan fitur demikian secara ringkas melalui penerapan method pada dataframe/series yang ditabelkan berikut ini.</p>

<table>
    <thead>
        <th><p style="text-align:center">Method</p></th>
        <th><p style="text-align:center">Code</p></th>
    </thead>
    <tbody>
        <tr>
            <td><p><b><code>.to_csv()</code></b></p>
                <p>-> digunakan untuk export dataframe kembali ke csv atau tsv</p></td>
            <td><p><b>CSV:</b><code>df.to_csv("csv1.csv", index=False)</code></p>
                <p><b>TSV:</b><code>df.to_csv("tsv1.tsv", index=False, sep='\t')</code></p></td>
        </tr>
        <tr>
            <td><p><b><code>.to_clipboard()</code></b></p>
                <p>-> export dataframe menjadi file excel</p></td>
            <td><p><code>df.to_clipboard()</code></p></td>
        <tr>
            <td><p><b><code>.to_excel()</code></b></p>
                <p>-> digunakan untuk export dataframe kembali ke csv atau tsv</p></td>
            <td><p><code>df_excel.to_excel("xlsx1.xlsx", index=False)</code></p></td>
        </tr>
        <tr>
            <td><p><b><code>.to_gbq()</code></b></p>
                <p>-> export dataframe menjadi table di Google BigQuery</p></td>
            <td><p><code>df.to_gbq("temp.test", project_id="XXXXXX", if_exists="fail")</code></p>
                <p><b>temp:</b> nama dataset</p>
                <p><b>test:</b> nama table</p>
                <p><b>if_exists:</b> ketika tabel dengan dataset.table_name yang sama sudah ada, apa action yang ingin dilakukan :</p>
                <ul>
                    <li><p><b>"fail":</b> tidak melakukan apa-apa,</p></li>
                    <li><p><b>"replace':</b> membuang tabel yang sudah ada dan mengganti yang baru,</p></li>
                    <li><p><b>"append":</b> menambah baris di tabel tersebut dengan data yang baru</p></li>
                </ul></td>
        </tr>
    </tbody>
</table>

<h3><a name="head-and-tail"></a>Head & Tail</h3>

<p>Method <code>.head</code> ditujukan untuk membatasi tampilan jumlah baris teratas dari dataset. Sementara itu, method <code>.tail</code> ditujukan untuk membatasi jumlah baris terbawah dari dataset.</p>

In [28]:
import pandas as pd

# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Tampilkan 3 data teratas
print("Tiga data teratas:\n")
df.head(3)

Tiga data teratas:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000


In [29]:
# Tampilkan 3 data terbawah
print("Tiga data terbawah:\n")
df.tail(3)

Tiga data terbawah:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
98,1612390,2019-01-01,12681,Makassar,Sulawesi Selatan,P3354,BRAND_S,24,450000
99,1612390,2019-01-01,12681,Makassar,Sulawesi Selatan,P3357,BRAND_S,24,450000
100,1612390,2019-01-01,12681,Makassar,Sulawesi Selatan,P0422,BRAND_B,4,1325000


<h2><a name="indexing-slicing-transforming"></a>Chapter 3: Indexing, Slicing, dan Transforming</h2>

<h3><a name="indexing"></a>Indexing</h3>

<p>Index merupakan key identifier dari tiap row/column untuk Series atau Dataframe (sifatnya tidak mutable untuk masing-masing value tapi bisa diganti untuk semua value sekaligus).</p>

<p>Jika tidak disediakan, pandas akan membuat kolom index default secara otomatis sebagai bilangan bulat (integer) dari 0 sampai range jumlah baris data tersebut.</p>

<p>Kolom index dapat terdiri dari</p>
<ul>
    <li>satu kolom (<i>single index</i>), atau</li>
    <li>multiple kolom (<i>hierarchical indexing</i>).</li>
</ul>

<p>Index dengan multiple kolom ini terjadi karena unique identifier tidak dapat dicapai hanya dengan set index di 1 kolom saja sehingga membutuhkan beberapa kolom yang menjadikan tiap row menjadi unique.</p>

<h4>Single Index</h4>

<p>Secara default setelah suatu data frame dibaca dari file dengan format tertentu, index-nya merupakan single index.</p>

<p>Untuk menentukan index dan kolom yang dimiliki oleh dataset yang telah dinyatakan sebagai sebuah dataframe pandas dapat dilakukan dengan menggunakan attribut <code>.index</code> dan <code>.columns</code>.</p>

In [30]:
import pandas as pd

# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t")
# Index dari df
print("Index:", df.index)
# Column dari df
print("Columns:", df.columns)

Index: RangeIndex(start=0, stop=101, step=1)
Columns: Index(['order_id', 'order_date', 'customer_id', 'city', 'province',
       'product_id', 'brand', 'quantity', 'item_price'],
      dtype='object')


<h4>Multi Index</h4>

<p>Untuk membuat multi index (<i>hierarchical indexing</i>) dengan pandas diperlukan kolom-kolom mana saja yang perlu disusun agar index dari data frame menjadi sebuah hirarki yang kemudian dapat dikenali.</p>

<p>Selanjutnya akan membuat multi index dengan menggunakan kolom 'order_id', 'customer_id', 'product_id', dan 'order_date' dengan menggunakan method <code>.set_index()</code>.</p>

In [31]:
# Set multi index df
df_x = df.set_index(['order_date', 'city', 'customer_id'])

# Index dari df_x
print("Index:", df_x.index)

Index: MultiIndex([('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ('2019-01-01', 'Jakarta Selatan', 18055),
            ...
            ('2019-01-01',           'Bogor', 17228),
            ('2019-01-01',           'Bogor', 17228),
            ('2019-01-01',           'Bogor', 17228),
            ('2019-01-01',           'Bogor', 17228),
            ('2019-01-01',        'Makassar', 12681),
            ('2019-01-01',        'Makassar', 12681),
            ('2019-01-01',        'Makassar', 12681),
            ('2019-01-01',        'Makassar', 12681),
     

<p>Perlu diketahui bahwa kumpulan index dari multi index adalah <b>list dari banyak tuples</b>, tuples nya merupakan kombinasi yang ada dari gabungan index-index tersebut. Dari multi index tersebut juga terdapat atribut levels yang menunjukkan urutan index, dalam case ini 'order_id' > 'customer_id' > 'product_id' > 'order_date'.</p>

In [32]:
# Print nama dan level dari multi index
for name, level in zip(df_x.index.names, df_x.index.levels):
    print(name,':',level)

order_date : Index(['2019-01-01'], dtype='object', name='order_date')
city : Index(['Bogor', 'Jakarta Pusat', 'Jakarta Selatan', 'Jakarta Utara',
       'Makassar', 'Malang', 'Surabaya', 'Tangerang'],
      dtype='object', name='city')
customer_id : Int64Index([12681, 13963, 15649, 17091, 17228, 17450, 17470, 17511, 17616,
            18055],
           dtype='int64', name='customer_id')


<h4>Membuat Index</h4>

<p>Terdapat beberapa cara untuk membuat index, salah satunya adalah seperti yang telah dilakukan pada sub bab sebelumnya dengan menggunakan method <code>.set_index()</code>.</p>

In [33]:
import pandas as pd

# Baca file sample_tsv.tsv untuk 10 baris pertama saja
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t", nrows=10)
# Cetak data frame awal
print("Dataframe awal:\n")
df

Dataframe awal:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
4,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
5,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
6,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
7,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000
8,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1342,BRAND_F,6,1045000
9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000


In [34]:
# Set index baru
df.index = ["pesanan ke-" + str(i) for i in range(1, 11)]
# Cetak data frame dengan index baru
print("Dataframe dengan index baru:\n")
df

Dataframe dengan index baru:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
pesanan ke-1,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
pesanan ke-2,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
pesanan ke-3,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
pesanan ke-4,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
pesanan ke-5,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
pesanan ke-6,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
pesanan ke-7,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
pesanan ke-8,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000
pesanan ke-9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P1342,BRAND_F,6,1045000
pesanan ke-10,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000


<p style="color:blue"><b>Note:</b> Jika ingin kembalikan dataframe ke index defaultnya yaitu dari 0 s/d jumlah baris data - 1, maka dapat menggunakan method <code>.reset_index(drop=True)</code>, argument <code>drop=True</code> bertujuan untuk menghapus index lama.</p>

<h4>Menentukan Index Column Ketika Membaca Dataset</h4>

<p>Jika file yang akan dibaca melalu penggunaan library pandas dapat dipreview terlebih dahulu struktur datanya maka melalui fungsi yang ditujukan untuk membaca file dapat diset mana kolom yang akan dijadikan index.</p>

<p>Fitur ini telah dimiliki oleh setiap fungsi yang digunakan dalam membaca data dengan pandas, yaitu penggunaan argumen <code>index_col</code> pada fungsi yang dimaksud.</p>

In [35]:
import pandas as pd

# Baca file sample_tsv.tsv dan set lah index_col sesuai instruksi
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_tsv.tsv", sep="\t", index_col=["order_date","order_id"])
# Cetak data frame untuk 8 data teratas
print("Dataframe:\n")
df.head(8)

Dataframe:



Unnamed: 0_level_0,Unnamed: 1_level_0,customer_id,city,province,product_id,brand,quantity,item_price
order_date,order_id,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P0648,BRAND_C,4,1934000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P3826,BRAND_V,8,604000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P1508,BRAND_G,12,747000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P0520,BRAND_B,12,450000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P1513,BRAND_G,3,1500000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P3911,BRAND_V,3,2095000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P1780,BRAND_H,3,2095000
2019-01-01,1612339,18055,Jakarta Selatan,DKI Jakarta,P3132,BRAND_S,3,1745000


<p>Kode diatas langsung menggunakan kolom 'order_date' dan 'order_id' sebagai index saat membaca file, dimana jumlah kolom akan berkurang 2 karena telah ditentukan sebagai index.</p>

In [36]:
# contoh lain penggunaan indexing
df_week = pd.DataFrame({'day_number':[1,2,3,4,5,6,7],
                        'week_type':['weekday' for i in range(5)] + ['weekend' for i in range(2)]
                       })
df_week_ix = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']
df_week.index = [df_week_ix, df_week['day_number'].to_list()]
df_week.index.names = ['name','num']
df_week

Unnamed: 0_level_0,Unnamed: 1_level_0,day_number,week_type
name,num,Unnamed: 2_level_1,Unnamed: 3_level_1
Mon,1,1,weekday
Tue,2,2,weekday
Wed,3,3,weekday
Thu,4,4,weekday
Fri,5,5,weekday
Sat,6,6,weekend
Sun,7,7,weekend


<h3><a name="slicing"></a>Slicing</h3>

<p>Seperti artinya slicing adalah cara untuk melakukan filter ke dataframe/series berdasarkan kriteria tertentu dari nilai kolomnya ataupun kriteria index-nya.</p>

<p>Terdapat 2 cara paling terkenal untuk slicing dataframe, yaitu dengan menggunakan method <code>.loc</code> dan <code>.iloc</code> pada variabel bertipe pandas DataFrame/Series. Method <code>.iloc</code> ditujukan untuk proses slicing berdasarkan index berupa nilai integer tertentu. Akan tetapi akan lebih sering menggunakan dengan method <code>.loc</code> karena lebih fleksibel.</p>

In [37]:
import pandas as pd

# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")

# Slice langsung berdasarkan kolom
df_slice = df.loc[(df["order_date"] == "2019-01-01") &
                  (df["product_id"].isin(["P2154","P2556"]))]
print("Slice langsung berdasarkan kolom:\n")
df_slice

Slice langsung berdasarkan kolom:



Unnamed: 0,order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
9,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2556,BRAND_P,6,1045000
10,1612339,2019-01-01,18055,Jakarta Selatan,DKI Jakarta,P2154,BRAND_M,4,1745000


<p>Slicing/filtering dataset dengan menerapkan berdasarkan index. Tentu syaratnya adalah dataset sudah dilakukan indexing terlebih dahulu melalui penerapan method <code>.set_index</code>.</p>

<p><b>Cara 1:</b> Gunakan method <code>.loc</code></p>

In [38]:
import pandas as pd

# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Set index dari df sesuai instruksi
df = df.set_index(["order_date","order_id","product_id"])

# Slice cara 1 dengan .loc
df_slice = df.loc[("2019-01-01",1612339,["P2154","P2159"]),:]
print("Cara 1:\n")
df_slice

Cara 1:



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,customer_id,city,province,brand,quantity,item_price
order_date,order_id,product_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,P2154,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,4,1745000
2019-01-01,1612339,P2159,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,24,310000


<p><b>Cara 2:</b> Gunakan <code>pd.IndexSlice</code> sebagai varaibel untuk melakukan slicing index</p>

In [39]:
# Slice cara ke 2 dengan pd.IndexSlice
idx = pd.IndexSlice
df_slice2 = df.sort_index().loc[idx["2019-01-01", 1612339, "P2154":"P2556"], :]
print("Cara 2:\n")
df_slice2

Cara 2:



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,customer_id,city,province,brand,quantity,item_price
order_date,order_id,product_id,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
2019-01-01,1612339,P2154,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,4,1745000
2019-01-01,1612339,P2159,18055,Jakarta Selatan,DKI Jakarta,BRAND_M,24,310000
2019-01-01,1612339,P2556,18055,Jakarta Selatan,DKI Jakarta,BRAND_P,6,1045000


<h3><a name="transforming"></a>Transforming</h3>

<p>Transform adalah ketika mengubah dataset yang ada menjadi entitas baru, dapat dilakukan dengan</p>

<ul>
    <li>konversi dari satu data type ke data type yang lain,</li>
    <li>transpose dataframe</li>
    <li>atau yang lainnya.</li>
</ul>

<p>Hal yang biasa dilakukan pertama kali setelah data dibaca adalah mengecek tipe data di setiap kolomnya apakah sesuai dengan representasinya. Untuk itu dapat menggunakan attribut <code>.dtypes</code> pada dataframe yang telah dibaca.</p>

<h4>Konversi tipe data datetime</h4>

<p>Untuk konversi tipe data datetime, secara default system akan mendeteksi data yang tidak bisa di render as date type or numeric type sebagai object yang basically string. Tidak bisa di render oleh system ini karena berbagai hal, mungkin karena formatnya asing dan tidak dikenali oleh python secara umum (misal: date type data → '2019Jan01').</p>

<p>Data contoh tersebut tidak bisa di render karena bulannya Jan tidak bisa di translate menjadi in form of number (00-12) dan tidak ada ‘-’ di antara tahun, bulan dan harinya. Jika seluruh data pada kolom di order_date sudah tertulis dalam bentuk 'YYYY-MM-DD' maka ketika dibaca, kolom order_date sudah langsung dinyatakan bertipe data datetime.</p>

<p>Untuk merubah kolom date_order yang sebelumnya bertipe object menjadi kolom bertipe datetime, cara pertama yang dapat dilakukan adalah menggunakan <code>pd.to_datetime(<i>argumen</i>)</code>.</p>

In [40]:
import pandas as pd

# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)

# Ubah tipe data kolom order_date menjadi datetime
df["order_date"] = pd.to_datetime(df["order_date"])
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
product_id             object
brand                  object
quantity                int64
item_price              int64
dtype: object


<h4>Konversi tipe data numerik dan kategori</h4>

<p>Secara umum, untuk merubah ke numerik dapat menggunakan <code>pd.to_numeric()</code>. Sedangkan untuk menjadi suatu kolom yang dapat dinyatakan sebagai kategory dapat menggunakan method <code>.astype()</code> pada dataframe.</p>

In [41]:
import pandas as pd

# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)

# Ubah tipe data kolom quantity menjadi tipe data numerik float
df["quantity"] = pd.to_numeric(df["quantity"], downcast="float")
# Ubah tipe data kolom city menjadi tipe data category
df["city"] = df["city"].astype("category")
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id          int64
order_date       object
customer_id       int64
city           category
province         object
product_id       object
brand            object
quantity        float32
item_price        int64
dtype: object


<h4>Method <code>.apply()</code> dan <code>.map()</code></h4>

<p>Method <code>.apply()</code> digunakan untuk menerapkan suatu fungsi python (yang dibuat dengan def atau anonymous dengan lambda) pada dataframe/series atau hanya <b>kolom tertentu</b> dari dataframe.</p>

<p>Method <code>.map()</code> hanya dapat diterapkan pada series atau dataframe yang diakses <b>satu kolom saja</b>. Method ini digunakan untuk mensubstitusikan suatu nilai ke dalam tiap baris datanya.</p>

In [42]:
import pandas as pd

# Baca file sample_csv.csv
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/sample_csv.csv")
# Cetak 5 baris teratas kolom brand
print("Kolom brand awal:\n", df["brand"].head())

# Gunakan method apply untuk merubah isi kolom menjadi lower case
df["brand"] = df["brand"].apply(lambda x: x.lower())
# Cetak 5 baris teratas kolom brand
print("\nKolom brand setelah apply:\n", df["brand"].head())

# Gunakan method map untuk mengambil kode brand yaitu karakter terakhirnya
df["brand"] = df["brand"].map(lambda x: x[-1])
# Cetak 5 baris teratas kolom brand
print("\nKolom brand setelah map:\n", df["brand"].head())

Kolom brand awal:
 0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object

Kolom brand setelah apply:
 0    brand_c
1    brand_v
2    brand_g
3    brand_b
4    brand_g
Name: brand, dtype: object

Kolom brand setelah map:
 0    c
1    v
2    g
3    b
4    g
Name: brand, dtype: object


<h4>Method <code>.applymap</code> pada dataframe</h4>

In [43]:
import numpy as np
import pandas as pd

# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(1234)
# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,4)) 
# Cetak dataframe
print("Dataframe:\n", df_tr)

# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x**2+3*x+2) 
print("\nDataframe - cara 1:\n", df_tr1)

# Cara 2 dengan define function 
def qudratic_fun(x):
    return x**2+3*x+2
df_tr2 = df_tr.applymap(qudratic_fun)
print("\nDataframe - cara 2:\n", df_tr2)

Dataframe:
           0         1         2         3
0  0.191519  0.622109  0.437728  0.785359
1  0.779976  0.272593  0.276464  0.801872
2  0.958139  0.875933  0.357817  0.500995

Dataframe - cara 1:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981

Dataframe - cara 2:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981


<h2><a name="handling-missing-values"></a>Chapter 4: Handling Missing Values</h2>

<p>Referensi : <a href=https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html>https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html</a></p>

<h3><a name="inspeksi-missing-value"></a>Inspeksi Missing Value</h3>

<p>Value yang hilang/tidak lengkap dari dataframe akan membuat analisis atau model prediksi yang dibuat menjadi tidak akurat dan mengakibatkan keputusan salah yang diambil. Terdapat beberapa cara untuk mengatasi data yang hilang/tidak lengkap tersebut.</p>

<p>Di pandas data yang hilang umumnya direpresentasikan dengan <b>NaN</b>.</p>

<p>Data COVID-19 yang akan digunakan ini diambil dari google big query, tetapi sudah disediakan datasetnya dalam format csv dengan nama "public data covid19 jhu csse eu.csv". Ini adalah studi kasus untuk meng-handle missing value.</p>

<p>Langkah pertama, harus tahu kolom mana yang terdapat data hilang dan berapa banyak dengan cara:</p>
<ul>
    <li><b>Cara 1:</b> menerapkan method <code>.info()</code> pada dataframe yang dapat diikuti dari kode berikut ini</li>
    <li><b>Cara 2:</b> mengetahui berapa banyak nilai hilang dari tiap kolom di dataset tersebut dengan menerapkan chaining method pada dataframe yaitu <code>.isna().sum()</code>. Method <code>.isna()</code> digunakan untuk mengecek berapa data yang bernilai NaN dan <code>.sum()</code> menjumlahkannya secara default untuk masing-masing kolom dataframe.</li>
</ul>

In [44]:
import pandas as pd

# Baca file "public data covid19 jhu csse eu.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")

# Cetak info dari df
print(df.info())
# Cetak jumlah missing value di setiap kolom
mv = df.isna().sum()
print("\nJumlah missing value per kolom:\n", mv)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   province_state  960 non-null    object 
 1   country_region  1000 non-null   object 
 2   date            1000 non-null   object 
 3   latitude        874 non-null    float64
 4   longitude       874 non-null    float64
 5   location_geom   874 non-null    object 
 6   confirmed       1000 non-null   int64  
 7   deaths          999 non-null    float64
 8   recovered       999 non-null    float64
 9   active          949 non-null    float64
 10  fips            949 non-null    float64
 11  admin2          842 non-null    object 
 12  combined_key    0 non-null      float64
dtypes: float64(7), int64(1), object(5)
memory usage: 101.7+ KB
None

Jumlah missing value per kolom:
 province_state      40
country_region       0
date                 0
latitude           126
longitude          126
l

Seperti kedua output di atas, artinya ada beberapa kolom yang ada null sebagian dan ada yang nilainya null semua untuk kolomnya.

<h3><a name="treatment-untuk-missing-value"></a>Treatment untuk Missing Value</h3>

<p>Terdapat beberapa cara untuk mengatasi missing value, antara lain:</p>
<ul>
    <li>dibiarkan saja,</li>
    <li>hapus value itu, atau</li>
    <li>isi value tersebut dengan value yang lain (biasanya interpolasi, mean, median, etc)</li>
</ul>

<p>Sebelum melakukan action ke missing value pada data covid diatas, sebaiknya tampilkan beberapa row teratas dari dataset itu</p>

In [45]:
df.head()

Unnamed: 0,province_state,country_region,date,latitude,longitude,location_geom,confirmed,deaths,recovered,active,fips,admin2,combined_key
0,,UK,01-02-20,,,,2,0.0,0.0,,,,
1,,UK,18-02-20,,,,9,0.0,8.0,,,,
2,,UK,17-02-20,,,,9,0.0,8.0,,,,
3,,UK,31-01-20,,,,2,,,,,,
4,,UK,19-02-20,,,,9,0.0,8.0,,,,


<p>Setelah melakukan inspeksi missing value pada tahap sebelumnya, selanjutnya kita analisa treatment yang tepat untuk missing value pada dataset.</p>

<p>Hanya kolom <b>combine_key</b> yang keseluruhan barisnya adalah missing value (1000 buah), sementara kolom <b>country_region</b>, <b>date</b>, dan <b>confirmed</b> tidak memiliki missing value. Untuk kolom lainnya terdapat beragam jumlah missing value. Apa yang dapat dilakukan?</p>

<p>Untuk memahami mana kolom yang akan ditreatment dengan tiga perlakukan di atas lihat nature dari data terlebih dahulu. Contohnya pada kolom <b>death</b> dan <b>recovered</b> jika ada yang missing value maka kemungkinan terbesarnya adalah tidak ada meninggal atau sembuh pada hari tersebut.</p>

<p>Untuk kolom yang seluruhnya missing yaitu <b>combined_key</b> dapat dibuang saja satu kolom itu karena tidak ada data yang dapat diketahui dari kolom tersebut.</p>

<p>Sementara, kolom yang lainnya bagaimana? Misal ambil kolom <b>province_stat</b>, missing valuenya dapat terjadi bahwa tidak dilaporkan itu berasal dari daerah mana di negara itu. Dapat mengisi misal dengan string 'unknown' karena tahu kolom tersebut bertipe data string.</p>

<h4>Treatment pertama</h4>

<p>membiarkannya saja seperti pada kolom confirmed, death, dan recovered. Akan tetapi jika tidak ada yang terkonfirmasi, meninggal dan sembuh sebenarnya dapat menukar value ini dengan angka nol. Meskipun ini lebih make sense dalam representasi datanya, tetapi untuk sub bab ini ketiga kolom tersebut diasumsikan dibiarkan memiliki nilai missing value.</p>

<h4>Treatment kedua</h4>

<p>yaitu dengan menghapus kolom, yang mana ini digunakan jika seluruh kolom dari dataset yang dipunyai semua barisnya adalah missing value. Untuk itu dapat menerapkan method <code>.dropna()</code> pada dataframe.</p>

<p>Pada method <code>.dropna()</code> ada dua keyword argumen yang harus diisikan yaitu axis dan how. Keyword axis digunakan untuk menentukan arah dataframe yang akan dibuang angka <b>1</b> untuk menyatakan <b>kolom</b> (<i>column-based</i>) atau dapat ditulis dalam string "column". Jika digunakan angka <b>0</b> berarti itu dalam searah <b>index</b> (<i>row-based</i>) atau dapat ditulis dalam string "index".</p>

<p>Sementara, keyword how digunakan untuk bagaimana cara membuangnya. Opsi yang dapat diterimanya (dalam string) adalah</p>
<ul>
    <li><b>"all"</b> artinya jika seluruh data di satu/beberapa kolom atau di satu/beberapa baris adalah missing value.</li>
    <li><b>"any"</b> artinya jika memiliki 1 saja data yang hilang maka buanglah baris/kolom tersebut.</li>
</ul>

In [46]:
# Cetak ukuran awal dataframe
print("Ukuran awal df: %d baris, %d kolom." % df.shape)

# Drop kolom yang seluruhnya missing value dan cetak ukurannya
df = df.dropna(axis=1, how="all")
print("Ukuran df setelah buang kolom dengan seluruh data missing: %d baris, %d kolom." % df.shape)

# Drop baris jika ada satu saja data yang missing dan cetak ukurannya
df = df.dropna(axis=0, how="any")
print("Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: %d baris, %d kolom." % df.shape)

Ukuran awal df: 1000 baris, 13 kolom.
Ukuran df setelah buang kolom dengan seluruh data missing: 1000 baris, 12 kolom.
Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: 746 baris, 12 kolom.


<h4>Treatment ketiga</h4>

<p>Treatment ini dilakukan dengan cara mengisi missing value dengan nilai lain, yang dapat berupa :</p>
<ul>
    <li>nilai statistik seperti mean atau median</li>
    <li>interpolasi data</li>
    <li>text tertentu</li>
</ul>

<p>Akan mulai pada kolom yang missing yang tipe datanya adalah berupa object. Kolom tersebut adalah <b>province_state</b>, karena tidak tahu secara persis <b>province_state</b> mana yang dimaksud, bisa menempatkan string "unknown" sebagai substitusi missing value. Meskipun keduanya berarti sama-sama tidak tahu tetapi berbeda dalam representasi datanya.</p>

In [47]:
import pandas as pd
# Baca file "public data covid19 jhu csse eu.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")

# Cetak unique value pada kolom province_state
print("Unique value awal:\n", df["province_state"].unique())

# Ganti missing value dengan string "unknown_province_state"
df["province_state"] = df["province_state"].fillna("unknown_province_state")

# Cetak kembali unique value pada kolom province_state
print("Unique value setelah fillna:\n", df["province_state"].unique())

Unique value awal:
 [nan 'US' 'Guam' 'Iowa']
Unique value setelah fillna:
 ['unknown_province_state' 'US' 'Guam' 'Iowa']


<p>Masih melanjutkan bagaimana menghandle missing value tentunya dengan jalan mengganti missing value dengan nilai lainnya. Pada bab sebelumnya telah mengganti kolom bertipe objek dengan sesuatu string/teks.</p>

<p>Dalam sub bab ini akan mengganti missing value dengan nilai statistik kolom bersangkutan, baik median atau mean (nilai rata-rata). Misalnya akan menggunakan kolom active. Dengan mengabaikan terlebih dahulu sebaran berdasarkan negara (univariate), jika mengisi dengan nilai rata-rata maka harus melihat terlebih dahulu data apakah memiliki ouliers atau tidak. Jika ada outliers dari data maka menggunakan nilai tengah (median) data adalah cara yang lebih safe.</p>

<p>Untuk itu diputuskan dengan mengecek nilai median dan nilai mean kolom active juga nilai min dan max-nya. Jika data pada kolom active terdistribusi normal maka nilai mean dan median akan hampir sama.</p>

In [48]:
import pandas as pd
# Baca file "https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv"
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/CHAPTER+4+-+missing+value+-+public+data+covid19+.csv")
# Cetak nilai mean dan median awal 
print("Awal: mean = %f, median = %f." % (df["active"].mean(), df["active"].median()))

Awal: mean = 192.571128, median = 41.000000.


Terlihat data memiliki distribusi yang skewness, karena nilai mean dan median yang cukup jauh serta range data yang cukup lebar. Di sini pada kolom active data memiliki outliers. Jadi akan mengisi missing value dengan median.

In [49]:
# Isi missing value kolom active dengan median
df_median = df["active"].fillna(df["active"].median())
# Cetak nilai mean dan median awal setelah diisi dengan median
print("Fillna median: mean = %f, median = %f." % (df_median.mean(), df_median.median()))

# Isi missing value kolom active dengan mean
df_mean = df["active"].fillna(df["active"].mean())
# Cetak nilai mean dan median awal setelah diisi dengan mean
print("Fillna mean: mean = %f, median = %f." % (df_mean.mean(), df_mean.median()))

Fillna median: mean = 184.841000, median = 41.000000.
Fillna mean: mean = 192.571128, median = 49.000000.


<p>Di bagian ini akan menggunakan teknik <b>interpolasi</b> dalam mengisi nilai missing value pada suatu dataset.</p>

<p>Data yang menggunakan <b>interpolasi</b> untuk mengisi data yang hilang adalah time series data, yang secara default akan diisi dengan <b>interpolasi linear</b>.</p>

In [50]:
import numpy as np
import pandas as pd
# Data
ts = pd.Series({
   "2020-01-01":9,
   "2020-01-02":np.nan,
   "2020-01-05":np.nan,
   "2020-01-07":24,
   "2020-01-10":np.nan,
   "2020-01-12":np.nan,
   "2020-01-15":33,
   "2020-01-17":np.nan,
   "2020-01-16":40,
   "2020-01-20":45,
   "2020-01-22":52,
   "2020-01-25":75,
   "2020-01-28":np.nan,
   "2020-01-30":np.nan
})
# Isi missing value menggunakan interpolasi linier
ts = ts.interpolate()
# Cetak time series setelah interpolasi linier
print("Setelah diisi missing valuenya:\n", ts)

Setelah diisi missing valuenya:
 2020-01-01     9.0
2020-01-02    14.0
2020-01-05    19.0
2020-01-07    24.0
2020-01-10    27.0
2020-01-12    30.0
2020-01-15    33.0
2020-01-17    36.5
2020-01-16    40.0
2020-01-20    45.0
2020-01-22    52.0
2020-01-25    75.0
2020-01-28    75.0
2020-01-30    75.0
dtype: float64


<h2><a name="mini-quiz"></a>Chapter 5: Mini Quiz</h2>

<div style="border: 2px solid orange;border-radius: 5px;">
    <b style="color:orange;padding:10px">Project dari Andra</b>
    <div style="padding:25px">
        <p>Diberikan dataset <b>‘retail_raw_test.csv’</b>.</p>
        <ol>
            <li>Baca dataset</li>
            <li>Tipe data diubah menjadi tipe yang seharusnya</li>
            <ul>
                <li>customer_id dari string ke int64,</li>
                <li>quantity dari string ke int64,</li>
                <li>item_price dari string ke int64</li>
            </ul>
            <li>transform product_value supaya bentuknya seragam dengan format PXXXX, assign ke kolom baru "product_id", dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown".</li>
            <li>tranform order_date menjadi value dengan format YYYY-mm-dd</li>
            <li>cek data hilang dari tiap kolom dan kemudian isi missing value</li>
            <ul>
                <li>di brand dengan "no_brand", dan</li>
                <li>cek dulu bagaimana missing value di city & province - isi missing value di city dan province dengan "unknown"</li>
            </ul>
            <li>create column city/province dari gabungan city & province</li>
            <li>membuat index berdasarkan city_provice, order_date, customer_id, order_id, product_id (cek index)</li>
            <li>membuat kolom "total_price" sebagai hasil perkalian quantity dengan item_price</li>
            <li>slice data hanya untuk Jan 2019</li>
        </ol>
    </div>
</div>

In [51]:
import pandas as pd

# 1. Baca dataset
print("[1] BACA DATASET")
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/retail_raw_test.csv", low_memory=False)
print("    Info:\n", df.info())
df.head()

[1] BACA DATASET
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non-null   object 
 2   customer_id    5000 non-null   object 
 3   city           3802 non-null   object 
 4   province       3802 non-null   object 
 5   brand          4995 non-null   object 
 6   quantity       5000 non-null   object 
 7   item_price     5000 non-null   object 
 8   product_value  4995 non-null   float64
dtypes: float64(1), int64(1), object(7)
memory usage: 351.7+ KB
    Info:
 None


Unnamed: 0,order_id,order_date,customer_id,city,province,brand,quantity,item_price,product_value
0,1730350,"Dec 11, 2019",'13447,Surakarta,Jawa Tengah,BRAND_F,'24,'113000,1374.0
1,1677490,"Jul 31, 2019",'0,,,BRAND_F,'1,'1164000,1370.0
2,1704211,"Oct 18, 2019",'16128,Jakarta Pusat,DKI Jakarta,BRAND_H,'12,'747000,1679.0
3,1679695,"Aug 07, 2019",'16225,Yogyakarta,Yogyakarta,BRAND_H,'6,'590000,1708.0
4,1679080,"Aug 05, 2019",'0,,,BRAND_E,'2,'740000,1201.0


In [52]:
# 2. Ubah tipe data
print("\n[2] UBAH TIPE DATA")
df["customer_id"] = df["customer_id"].apply(lambda x: x.split("'")[1]).astype("int64")
df["quantity"] = df["quantity"].apply(lambda x: x.split("'")[1]).astype("int64")
df["item_price"] = df["item_price"].apply(lambda x: x.split("'")[1]).astype("int64")
print("    Tipe data:\n", df.dtypes)


[2] UBAH TIPE DATA
    Tipe data:
 order_id           int64
order_date        object
customer_id        int64
city              object
province          object
brand             object
quantity           int64
item_price         int64
product_value    float64
dtype: object


In [53]:
# 3. Transform "product_value" supaya bentuknya seragam dengan format "PXXXX", assign ke kolom baru "product_id", dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown"
print("\n[3] TRANSFORM product_value MENJADI product_id")
# Buat fungsi
import math
def impute_product_value(val):
    if math.isnan(val):
        return "unknown"
    else:
        return 'P' + '{:0>4}'.format(str(val).split('.')[0])
# Buat kolom "product_id"
df["product_id"] = df["product_value"].apply(lambda x: impute_product_value(x))
# Hapus kolom "product_value"
df.drop(["product_value"], axis=1, inplace=True)
# Cetak 5 data teratas
df.head()


[3] TRANSFORM product_value MENJADI product_id


Unnamed: 0,order_id,order_date,customer_id,city,province,brand,quantity,item_price,product_id
0,1730350,"Dec 11, 2019",13447,Surakarta,Jawa Tengah,BRAND_F,24,113000,P1374
1,1677490,"Jul 31, 2019",0,,,BRAND_F,1,1164000,P1370
2,1704211,"Oct 18, 2019",16128,Jakarta Pusat,DKI Jakarta,BRAND_H,12,747000,P1679
3,1679695,"Aug 07, 2019",16225,Yogyakarta,Yogyakarta,BRAND_H,6,590000,P1708
4,1679080,"Aug 05, 2019",0,,,BRAND_E,2,740000,P1201


In [54]:
# 4. Tranform order_date menjadi value dengan format "YYYY-mm-dd"
print("\n[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd")
months_dict = {
   "Jan":"01",
   "Feb":"02",
   "Mar":"03",
   "Apr":"04",
   "May":"05",
   "Jun":"06",
   "Jul":"07",
   "Aug":"08",
   "Sep":"09",
   "Oct":"10",
   "Nov":"11",
   "Dec":"12"
}
df["order_date"] = pd.to_datetime(df["order_date"].apply(lambda x: str(x)[-4:] + "-" + months_dict[str(x)[:3]] + "-" + str(x)[4:7]))
print("    Tipe data:\n", df.dtypes)


[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd
    Tipe data:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
brand                  object
quantity                int64
item_price              int64
product_id             object
dtype: object


In [55]:
# 5. Mengatasi data yang hilang di beberapa kolom
print("\n[5] HANDLING MISSING VALUE")
# Kolom "city" dan "province" masih memiliki missing value, nilai yang hilang di kedua kolom ini diisi saja dengan "unknown"
df[["city","province"]] = df[["city","province"]].fillna("unknown")
# Kolom brand juga masih memiliki missing value, Ganti value NaN menjadi "no_brand"
df["brand"] = df["brand"].fillna("no_brand")
# Cek apakah masih terdapat missing value di seluruh kolom 
print("    Info:\n", df.info())


[5] HANDLING MISSING VALUE
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column       Non-Null Count  Dtype         
---  ------       --------------  -----         
 0   order_id     5000 non-null   int64         
 1   order_date   5000 non-null   datetime64[ns]
 2   customer_id  5000 non-null   int64         
 3   city         5000 non-null   object        
 4   province     5000 non-null   object        
 5   brand        5000 non-null   object        
 6   quantity     5000 non-null   int64         
 7   item_price   5000 non-null   int64         
 8   product_id   5000 non-null   object        
dtypes: datetime64[ns](1), int64(4), object(4)
memory usage: 351.7+ KB
    Info:
 None


In [56]:
# 6. Membuat kolom baru "city/province" dengan menggabungkan kolom "city" dan kolom "province" dan delete kolom asalnya
print("\n[6] MEMBUAT KOLOM BARU city/province")
df["city/province"] = df["city"] + "/" + df["province"]
# drop kolom "city" dan "province" karena telah digabungkan
df.drop(["city","province"], axis=1, inplace=True)
# Cetak 5 data teratas
df.head()


[6] MEMBUAT KOLOM BARU city/province


Unnamed: 0,order_id,order_date,customer_id,brand,quantity,item_price,product_id,city/province
0,1730350,2019-12-11,13447,BRAND_F,24,113000,P1374,Surakarta/Jawa Tengah
1,1677490,2019-07-31,0,BRAND_F,1,1164000,P1370,unknown/unknown
2,1704211,2019-10-18,16128,BRAND_H,12,747000,P1679,Jakarta Pusat/DKI Jakarta
3,1679695,2019-08-07,16225,BRAND_H,6,590000,P1708,Yogyakarta/Yogyakarta
4,1679080,2019-08-05,0,BRAND_E,2,740000,P1201,unknown/unknown


In [57]:
# 7. Membuat hierarchical index yang terdiri dari kolom "city/province", "order_date", "customer_id", "order_id", "product_id"
print("\n[7] MEMBUAT HIERACHICAL INDEX")
df = df.set_index(["city/province", "order_date", "customer_id", "order_id", "product_id"])
# urutkanlah berdasarkan index yang baru
df = df.sort_index()
# Cetak 5 data teratas
df.head()


[7] MEMBUAT HIERACHICAL INDEX


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,brand,quantity,item_price
city/province,order_date,customer_id,order_id,product_id,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Banda Aceh/Aceh,2019-04-17,12818,1642480,P1936,BRAND_K,24,450000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P0758,BRAND_C,8,695000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P3042,BRAND_R,12,310000
Banda Aceh/Aceh,2019-12-09,12374,1729036,P1660,BRAND_G,4,2795000
Bandar Lampung/Lampung,2019-01-15,12515,1619257,P0628,BRAND_C,12,695000


In [58]:
# 8. Membuat kolom "total_price" yang formula nya perkalian antara kolom "quantity" dan kolom "item_price"
print("\n[8] MEMBUAT KOLOM total_price")
df["total_price"] = df["quantity"] * df["item_price"]
# Cetak 5 data teratas
df.head()


[8] MEMBUAT KOLOM total_price


Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,brand,quantity,item_price,total_price
city/province,order_date,customer_id,order_id,product_id,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Banda Aceh/Aceh,2019-04-17,12818,1642480,P1936,BRAND_K,24,450000,10800000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P0758,BRAND_C,8,695000,5560000
Banda Aceh/Aceh,2019-11-12,12360,1715116,P3042,BRAND_R,12,310000,3720000
Banda Aceh/Aceh,2019-12-09,12374,1729036,P1660,BRAND_G,4,2795000,11180000
Bandar Lampung/Lampung,2019-01-15,12515,1619257,P0628,BRAND_C,12,695000,8340000


In [59]:
# 9. Slice dataset agar hanya terdapat data bulan Januari 2019
print("\n[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA")
idx = pd.IndexSlice
df_jan2019 = df.loc[idx[:, "2019-01-01":"2019-01-31"], :]
print("Dataset akhir:\n")
df_jan2019


[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA
Dataset akhir:



Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,brand,quantity,item_price,total_price
city/province,order_date,customer_id,order_id,product_id,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
Bandar Lampung/Lampung,2019-01-15,12515,1619257,P0628,BRAND_C,12,695000,8340000
Bandung/Jawa Barat,2019-01-09,16134,1617055,P1597,BRAND_G,9,520000,4680000
Bandung/Jawa Barat,2019-01-10,17392,1617952,P2137,BRAND_M,2,1062000,2124000
Bandung/Jawa Barat,2019-01-14,15527,1618828,P3115,BRAND_S,1,1045000,1045000
Bandung/Jawa Barat,2019-01-29,13253,1620289,P0099,BRAND_A,12,450000,5400000
...,...,...,...,...,...,...,...,...
unknown/unknown,2019-01-30,0,1620766,P3070,BRAND_R,1,593000,593000
unknown/unknown,2019-01-30,0,1620766,P3483,BRAND_S,3,593000,1779000
unknown/unknown,2019-01-31,0,1621057,P1298,BRAND_F,1,296000,296000
unknown/unknown,2019-01-31,0,1621057,P1773,BRAND_H,5,593000,2965000
