In [1]:
# DataFrame & Series
# Di Pandas terdapat 2 kelas data baru yang digunakan sebagai struktur dari spreadsheet:

# Series: satu kolom bagian dari tabel dataframe yang merupakan 1 dimensional numpy array sebagai basis datanya, 
#         terdiri dari 1 tipe data (integer, string, float, dll).
# DataFrame: gabungan dari Series, berbentuk rectangular data yang merupakan tabel spreadsheet itu sendiri 
# karena dibentuk dari banyak Series, tiap Series biasanya punya 1 tipe data, yang artinya 1 dataframe bisa memiliki banyak tipe data).

import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
print("Series:")
print(number_list)
# DataFrame
matrix = [[1,2,3],
          ['a','b','c'],
          [3,4,5],
          ['d',4,6]]
matrix_list = pd.DataFrame(matrix)
print("DataFrame:")
print(matrix_list)

Series:
0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
DataFrame:
   0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


In [7]:
# # # Atribut DataFrame & Series - Part 1

# # Dataframe dan Series memiliki sangat banyak atribut yang digunakan untuk transformasi data, tetapi ada beberapa attribute 
# # yang sering dipakai. Di sini series number_list dan dataframe matrix_list pada subbab sebelumnya digunakan kembali.
    
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],
				            ['a','b','c'],
				            [3,4,5],
				            ['d',4,6]])
# [1] method .info()
# 1. Method .info()
# Method .info() digunakan untuk mengecek kolom apa yang membentuk dataframe itu, data types, berapa yang non null, dll. 
# Method ini tidak dapat digunakan pada series, hanya pada dataframe saja.
print("[1] method .info()")
print(matrix_list.info())

# [2] attribute .shape
# 2. Attribute .shape
# Attribute .shape digunakan untuk mengetahui berapa baris dan kolom, hasilnya dalam format tuple (baris, kolom).
print("\n[2] attribute .shape")
print("    Shape dari number_list:", number_list.shape)
print("    Shape dari matrix_list:",matrix_list.shape)

# [3] attribute .dtypes
# 3. Attribute .dtypes
# Attribute .dtypes digunakan untuk mengetahui tipe data di tiap kolom. 
# Tipe data object: kombinasi untuk berbagai tipe data (number & text, etc)
print("\n[3] attribute .dtypes")
print("    Tipe data number_list:", number_list.dtypes)
print("    Tipe data matrix_list:", matrix_list.dtypes)


# [4] attribute .astype()
# 4. Method .astype(nama_tipe_data)
# Method .astype(nama_tipe_data) untuk convert tipe data berdasarkan tipe data 
# seperti: float, int, str, numpy.float, numpy.int ataupun
print("\n[4] method .astype()")
print("    Konversi number_list ke str:", number_list.astype("str"))
print("    Konversi matrix_list ke str:",matrix_list.astype("str"))


[1] method .info()
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   0       4 non-null      object
 1   1       4 non-null      object
 2   2       4 non-null      object
dtypes: object(3)
memory usage: 224.0+ bytes
None

[2] attribute .shape
    Shape dari number_list: (6,)
    Shape dari matrix_list: (4, 3)

[3] attribute .dtypes
    Tipe data number_list: int64
    Tipe data matrix_list: 0    object
1    object
2    object
dtype: object

[4] method .astype()
    Konversi number_list ke str: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: object
    Konversi matrix_list ke str:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6


In [8]:
#Part 2
# 5. Attribute .copy()

# Attribute .copy() digunakan melakukan duplikat, untuk disimpan di variable yang berbeda mungkin supaya tidak loading data lagi.

# [5] attribute .copy()
print("[5] attribute .copy()")
num_list = number_list.copy()
print("    Copy number_list ke num_list:", num_list)
mtr_list = matrix_list.copy()
print("    Copy matrix_list ke mtr_list:",mtr_list)

# 6. Attribute .to_list()

# Attribute .to_list() digunakan untuk mengubah series menjadi list dan tidak dapat digunakan untuk dataframe.

# [6] attribute .to_list()
print("[6] attribute .to_list()")
print(number_list.to_list())

# 7. Attribute .unique()

# Attribute .unique() digunakan menghasilkan nilai unik dari suatu kolom, hasilnya dalam bentuk numpy array. 
# Attribute ini hanya digunakan pada series saja.

# [7] attribute .unique()
print("[7] attribute .unique()")
print(number_list.unique())



[5] attribute .copy()
    Copy number_list ke num_list: 0    1
1    2
2    3
3    4
4    5
5    6
dtype: int64
    Copy matrix_list ke mtr_list:    0  1  2
0  1  2  3
1  a  b  c
2  3  4  5
3  d  4  6
[6] attribute .to_list()
[1, 2, 3, 4, 5, 6]
[7] attribute .unique()
[1 2 3 4 5 6]


In [28]:
# Part 3
import pandas as pd
# Series
number_list = pd.Series([1,2,3,4,5,6])
# DataFrame
matrix_list = pd.DataFrame([[1,2,3],['a','b','c'],[3,4,5],['d',4,6]])
# [8] attribute .index
# 8. Attribute .index

# Attribute .index digunakan untuk mencari index/key dari Series atau Dataframe.
print("[8] attribute .index")
print("    Index number_list:", number_list.index)
print("    Index matrix_list:", matrix_list.index)	
# [9] attribute .columns
# 9. Attribute .columns

# Attribute .columns digunakan untuk mengetahui apa saja kolom yang tersedia di dataframe tersebut
# (hanya digunakan untuk dataframe saja). 
print("[9] attribute .columns")
print("    Column matrix_list:", matrix_list.columns)
# [10] attribute .loc
# 10. Attribute .loc

# Attribute .loc digunakan slice dataframe atau series berdasarkan nama kolom dan/atau nama index.
print("[10] attribute .loc")
print("    .loc[0:1] pada number_list:", number_list.loc[0:2])
print("    .loc[0:1] pada matrix_list:",matrix_list.loc[0:1])
# [11] attribute .iloc
# 11. Attribute .iloc

# Attribute .iloc digunakan untuk slice dataframe atau series berdasarkan index kolom dan/atau index.
print("[11] attribute .iloc")
print("    iloc[0:1] pada number_list:",number_list.iloc[0:1])
print("    iloc[0:1] pada matrix_list:",matrix_list.iloc[0:1])	

matrix_list.iloc[0:2,2].to_list()

[8] attribute .index
    Index number_list: RangeIndex(start=0, stop=6, step=1)
    Index matrix_list: RangeIndex(start=0, stop=4, step=1)
[9] attribute .columns
    Column matrix_list: RangeIndex(start=0, stop=3, step=1)
[10] attribute .loc
    .loc[0:1] pada number_list: 0    1
1    2
2    3
dtype: int64
    .loc[0:1] pada matrix_list:    0  1  2
0  1  2  3
1  a  b  c
[11] attribute .iloc
    iloc[0:1] pada number_list: 0    1
dtype: int64
    iloc[0:1] pada matrix_list:    0  1  2
0  1  2  3


[3, 'c']

In [23]:
# Creating Series & Dataframe from List
# Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary,
# maupun dari numpy array.

# Pada sub bagian ini, kamu akan membuat Series dan Dataframe yang bersumber dari list. 
# Sekadar meninjau bahwa list merupakan sebuah kumpulan data berbagai macam tipe data yang mutable (dapat diganti).

import pandas as pd
# Creating series from list
ex_list = ['a',1,3,5,'c','d']
ex_series = pd.Series(ex_list)
print(ex_series)
# Creating dataframe from list of list
ex_list_of_list = [[1,'a','b','c'],
                   [2.5,'d','e','f'],
		           [5,'g','h','i'],
		           [7.5,'j',10.5,'l']]
index = ['dq','lab','kar','lan']
cols = ['float','char','obj','char']
ex_df = pd.DataFrame(ex_list_of_list, index=index, columns=cols)
print(ex_df)

0    a
1    1
2    3
3    5
4    c
5    d
dtype: object
     float char   obj char
dq     1.0    a     b    c
lab    2.5    d     e    f
kar    5.0    g     h    i
lan    7.5    j  10.5    l


In [24]:
# Creating Series & Dataframe from Dictionary

# Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python,
# seperti list dan dictionary, maupun dari numpy array.
# Pada sub bagian ini, akan membuat Series dan Dataframe yang bersumber dari dictionary. 
# Sekadar meninjau bahwa, dictionary merupakan kumpulan data yang strukturnya terdiri dari key dan value.

import pandas as pd
# Creating series from dictionary
dict_series = {'1':'a',
			   '2':'b',
			   '3':'c'}
ex_series = pd.Series(dict_series)
print(ex_series)
# Creating dataframe from dictionary
df_series = {'1':['a','b','c'],
             '2':['b','c','d'],
             '4':[2,3,'z']}
ex_df = pd.DataFrame(df_series)
print(ex_df)

1    a
2    b
3    c
dtype: object
   1  2  4
0  a  b  2
1  b  c  3
2  c  d  z


In [26]:
# # Creating Series & Dataframe from Numpy Array

# Untuk membuat Series atau Dataframe bisa dari berbagai macam tipe data container/mapping di python, seperti list dan dictionary, maupun dari numpy array.
# Pada sub bagian ini, akan membuat Series dan Dataframe yang bersumber dari numpy array. 
# Sekadar meninjau bahwa, numpy array kumpulan data yang terdiri atas berbagai macam tipe data, mutable, 
# tapi dibungkus dalam array oleh library Numpy.

import pandas as pd
import numpy as np
# Creating series from numpy array (1D)
arr_series = np.array([1,2,3,4,5,6,6,7])
ex_series = pd.Series(arr_series)
print(ex_series)
# Creating dataframe from numpy array (2D)
arr_df = np.array([[1,2,3,5],[5,6,7,8],['a','b','c',10]])
ex_df= pd.DataFrame(arr_df)
print(ex_df)

0    1
1    2
2    3
3    4
4    5
5    6
6    6
7    7
dtype: int32
   0  1  2   3
0  1  2  3   5
1  5  6  7   8
2  a  b  c  10


In [25]:
# Membaca file CSV dan TSV

import pandas as pd
# File CSV
df_csv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
print(df_csv) # Menampilkan 3 data teratas

# File TSV
df_tsv = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep='\t')
print(df_tsv.head(3)) # Menampilkan 3 data teratas

# Read Dataset - Excel
df_excel = pd.read_excel("https://storage.googleapis.com/dqlab-dataset/sample_excel.xlsx", sheet_name="test")
print(df_excel.head(4)) # Menampilkan 4 data teratas

# Read Dataset - JSON
# Method .read_json() digunakan untuk membaca URL API yang formatnya JSON dan mengubahnya menjadi dataframe pandas. 

# File JSON
url = "https://storage.googleapis.com/dqlab-dataset/covid2019-api-herokuapp-v2.json"
df_json = pd.read_json(url)
print(df_json.head(10)) # Menampilkan 10 data teratas

# Read Dataset - SQL
# Fungsi .read_sql() atau .read_sql_query() digunakan untuk membaca query dari database dan translate 
# menjadi pandas dataframe, contoh case ini database sqlite.

# import mysql.connector

# my_conn=mysql.connector.connect(host='relational.fit.cvut.cz',
#                                 port=3306,
#                                 user='guest',
#                                 passwd='relational',
#                                 use_pure=True)
# my_query= select*from loan;

# df_loan=pd.read_sql_query(my_query,my_conn)
# df_loan.head()

     order_id  order_date  customer_id             city          province  \
0     1612339  2019-01-01        18055  Jakarta Selatan       DKI Jakarta   
1     1612339  2019-01-01        18055  Jakarta Selatan       DKI Jakarta   
2     1612339  2019-01-01        18055  Jakarta Selatan       DKI Jakarta   
3     1612339  2019-01-01        18055  Jakarta Selatan       DKI Jakarta   
4     1612339  2019-01-01        18055  Jakarta Selatan       DKI Jakarta   
..        ...         ...          ...              ...               ...   
96    1612390  2019-01-01        12681         Makassar  Sulawesi Selatan   
97    1612390  2019-01-01        12681         Makassar  Sulawesi Selatan   
98    1612390  2019-01-01        12681         Makassar  Sulawesi Selatan   
99    1612390  2019-01-01        12681         Makassar  Sulawesi Selatan   
100   1612390  2019-01-01        12681         Makassar  Sulawesi Selatan   

    product_id    brand  quantity  item_price  
0        P0648  BRAND_C    

In [39]:
# Indexing - Part 1
# Index merupakan key identifier dari tiap row/column untuk Series atau Dataframe 
# (sifatnya tidak mutable untuk masing-masing value tapi bisa diganti untuk semua value sekaligus).

# Jika tidak disediakan, pandas akan membuat kolom index default secara otomatis sebagai bilangan bulat (integer) dari 0 
# sampai range jumlah baris data tersebut.

# Kolom index dapat terdiri dari:

# ==>satu kolom (single index), atau
# ==>multiple kolom (disebut dengan hierarchical indexing).

# Index dengan multiple kolom ini terjadi karena unique identifier tidak dapat dicapai hanya dengan set index di 1 kolom saja 
# sehingga membutuhkan beberapa kolom yang menjadikan tiap row menjadi unique.

import pandas as pd
# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv",sep="\t")
# Index dari df
print("Index:", df.index)
# Column dari df
print("Columns:", df.columns)
print(df)

Index: RangeIndex(start=0, stop=101, step=1)
Columns: Index(['order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price'], dtype='object')
    order_id,order_date,customer_id,city,province,product_id,brand,quantity,item_price
0    1612339,2019-01-01,18055,Jakarta Selatan,DKI J...                                
1    1612339,2019-01-01,18055,Jakarta Selatan,DKI J...                                
2    1612339,2019-01-01,18055,Jakarta Selatan,DKI J...                                
3    1612339,2019-01-01,18055,Jakarta Selatan,DKI J...                                
4    1612339,2019-01-01,18055,Jakarta Selatan,DKI J...                                
..                                                 ...                                
96   1612390,2019-01-01,12681,Makassar,Sulawesi Sel...                                
97   1612390,2019-01-01,12681,Makassar,Sulawesi Sel...                                
98   1612390,2019-01-01,12681,Makassar,Sulawesi Sel..

In [1]:
# Indexing - Part 3
# Di sub bab  sebelumnya telah dibahas terkait single index, tentunya pada sub bab ini akan bahas multi index atau disebut juga 
# dengan hierarchical indexing.

# Untuk membuat multi index (hierarchical indexing) dengan pandas diperlukan kolom-kolom mana saja yang perlu disusun agar index 
# dari dataframe menjadi sebuah hirarki yang kemudian dapat dikenali.

import pandas as pd
# Baca file TSV sample_tsv.tsv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv",sep="\t")
# Set multi index df
# Selanjutnya akan membuat multi index dengan menggunakan kolom 'order_id', 'customer_id', 'product_id', dan 'order_date' dengan 
# menggunakan method .set_index(). Mari perhatikan contoh kode yang diberikan berikut ini:
df_x=df.set_index(['order_id','customer_id','product_id','order_date'])
# Untuk melihat multi index yang telah diset dapat dilakukan dengan:
print(df_x)


# Perlu diketahui bahwa kumpulan index dari multi index adalah list dari banyak tuples, 
# tuples-nya merupakan kombinasi yang ada dari gabungan index-index tersebut. Dari multi index tersebut juga terdapat atribut 
# levels yang menunjukkan urutan index, 
# dalam case ini 'order_id' > 'customer_id' > 'product_id' > 'order_date'.

for name,level in zip(df_x.index.names, df_x.index.levels):
    print(name,':',level)

                                                       city          province  \
order_id customer_id product_id order_date                                      
1612339  18055       P0648      2019-01-01  Jakarta Selatan       DKI Jakarta   
                     P3826      2019-01-01  Jakarta Selatan       DKI Jakarta   
                     P1508      2019-01-01  Jakarta Selatan       DKI Jakarta   
                     P0520      2019-01-01  Jakarta Selatan       DKI Jakarta   
                     P1513      2019-01-01  Jakarta Selatan       DKI Jakarta   
...                                                     ...               ...   
1612390  12681       P3388      2019-01-01         Makassar  Sulawesi Selatan   
                     P3082      2019-01-01         Makassar  Sulawesi Selatan   
                     P3354      2019-01-01         Makassar  Sulawesi Selatan   
                     P3357      2019-01-01         Makassar  Sulawesi Selatan   
                     P0422  

In [41]:
# Indexing - Part 4
# Terdapat beberapa cara untuk membuat index, salah satunya adalah seperti yang telah dilakukan pada sub bab sebelumnya 
# dengan menggunakan method .set_index().

# Di sub bab ini akan menggunakan assignment untuk menset index dari suatu dataframe. 
# Untuk itu file "sample_excel.xlsx" yang digunakan. Perhatikan code berikut!

# Jika ingin kembalikan dataframe ke index default-nya yaitu dari 0 s/d jumlah baris data - 1, 
# maka dapat menggunakan method .reset_index(drop=True), argument drop=True bertujuan untuk menghapus index lama. 

# Tugas praktek:

# Pada code editor dapat dilihat kode-kode yang tidak lengkap. 
# Tugas sekarang adalah mengganti tanda _ _ _ di code editor dengan yang sesuai. 

# Baca kembali file TSV "sample_tsv.tsv" hanya untuk 10 baris pertama. Set index-nya dengan menggunakan nama "Pesanan ke-i" i 
# adalah bilangan bulat dari 1 sampai dengan jumlah baris (10 baris data).

# Notes :

# Dataset : https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv

import pandas as pd
# Baca file sample_tsv.tsv untuk 10 baris pertama saja
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv", sep="\t", nrows=10)
# Cetak data frame awal
print("Dataframe awal:\n", df)
# Set index baru
df.index = ["Pesanan ke-" + str(i) for i in range(1,11)]
# Cetak data frame dengan index baru
print("Dataframe dengan index baru:\n", df)

Dataframe awal:
    order_id  order_date  customer_id             city     province product_id  \
0   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0648   
1   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3826   
2   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1508   
3   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P0520   
4   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1513   
5   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3911   
6   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1780   
7   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P3132   
8   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P1342   
9   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta      P2556   

     brand  quantity  item_price  
0  BRAND_C         4     1934000  
1  BRAND_V         8 

In [45]:
# Indexing - Part 5
# Jika file yang akan dibaca melalui penggunaan library pandas dapat di-preview terlebih dahulu struktur datanya maka melalui 
# fungsi yang ditujukan untuk membaca file dapat diset mana kolom yang akan dijadikan index.

# Fitur ini telah dimiliki oleh setiap fungsi yang digunakan dalam membaca data dengan pandas, yaitu penggunaan 
# argumen index_col pada fungsi yang dimaksud. Untuk jelasnya dapat diperhatikan pada kode berikut ini.

import pandas as pd
# Baca file sample_tsv.tsv dan set lah index_col sesuai instruksi
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv",sep='\t', index_col=["order_date"])
# Cetak data frame untuk 8 data teratas
print("Dataframe:\n", df.head(8))

# Dari dataset sample_csv.csv, sample_tsv.tsv, atau sample_excel.xlsx sudah tahu bahwa kolom dataset adalah 
# 'order_id'; 'order_date'; 'customer_id'; 'city'; 'province'; 'product_id'; 'brand'; 'quantity'; and 'item_price'. 
# Sehingga kode di atas digunakan langsung kolom 'order_date' pada saat membaca file-nya.

import pandas as pd
# Baca file sample_tsv.tsv dan set lah index_col sesuai instruksi
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_tsv.tsv",sep="\t",index_col=["order_date","order_id"])
# Cetak data frame untuk 8 data teratas
print("Dataframe:\n", df.head(8))


Dataframe:
             order_id  customer_id             city     province product_id  \
order_date                                                                   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P0648   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P3826   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P1508   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P0520   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P1513   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P3911   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P1780   
2019-01-01   1612339        18055  Jakarta Selatan  DKI Jakarta      P3132   

              brand  quantity  item_price  
order_date                                 
2019-01-01  BRAND_C         4     1934000  
2019-01-01  BRAND_V         8      604000  
2019-01-01  BRAND_G        12  

In [56]:
#quiz
df_week = pd.DataFrame({'day_number':[1,2,3,4,5,6,7],
                        'week_type':['weekday' for i in range(5)] + ['weekend' for i in range(2)]
                       })
df_week_ix = ['Mon','Tue','Wed','Thu','Fri','Sat','Sun']
df_week.index = [df_week_ix, df_week['day_number'].to_list()]
df_week.index.names = ['name','num']
print(df_week.index.names)

['name', 'num']


In [78]:
# Slicing - Part 1

# Seperti artinya slicing adalah cara untuk melakukan filter ke dataframe/series berdasarkan kriteria tertentu dari nilai 
# kolomnya ataupun kriteria index-nya.
# Terdapat 2 cara paling terkenal untuk slicing dataframe, yaitu dengan menggunakan method .loc dan .iloc pada variabel
# bertipe pandas DataFrame/Series. Method .iloc ditujukan untuk proses slicing berdasarkan index berupa nilai integer tertentu. 
# Akan tetapi akan lebih sering menggunakan dengan method .loc karena lebih fleksibel. 

import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Slice langsung berdasarkan kolom
# Mari ikuti ilustrasi berikut ini.
# Dataset belum dilakukan indexing, jadi slicing berdasarkan nilai kolomnya. Untuk itu "sample_csv.csv" dibaca kembali dan
# dipraktikkan metode .loc[] dengan mengambil tanggal 1 Januari 2019 dari kolom order_date dan product_id nya 
# adalah P2154 dan P2556.
df_slice = df.loc[(df["order_date"] =="2019-01-01") & (df["product_id"].isin(["P2154","P2556"]))]
print("Slice langsung berdasarkan kolom:\n", df_slice)

import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Slice langsung berdasarkan kolom
df_slice = df.loc[(df["customer_id"] ==18055) &
		          (df["product_id"].isin(["P0029","P0040","P0041","P0116","P0117"]))
				 ]
print("Slice langsung berdasarkan kolom:\n",df_slice)



Slice langsung berdasarkan kolom:
     order_id  order_date  customer_id             city     province  \
9    1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta   
10   1612339  2019-01-01        18055  Jakarta Selatan  DKI Jakarta   

   product_id    brand  quantity  item_price  
9       P2556  BRAND_P         6     1045000  
10      P2154  BRAND_M         4     1745000  
Slice langsung berdasarkan kolom:
 Empty DataFrame
Columns: [order_id, order_date, customer_id, city, province, product_id, brand, quantity, item_price]
Index: []


In [86]:
# Slicing - Part 2

# Dalam sub bab sebelumnya telah mempelajari bagaimana melakukan slicing/filtering dataset dengan menggunakan method .loc 
# pada kolom dataset.

# Sekarang, menerapkan berdasarkan index. Tentu syaratnya adalah dataset sudah dilakukan indexing terlebih dahulu 
# melalui penerapan method .set_index 

import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Set index dari df sesuai instruksi
df = df.set_index(["order_date","product_id"])
# Slice sesuai intruksi
df_slice1 = df.loc[("2019-01-01",["P2154","P2556"]),:]
print("Slice df:\n", df_slice1)


Slice df:
                        order_id  customer_id             city     province  \
order_date product_id                                                        
2019-01-01 P2154        1612339        18055  Jakarta Selatan  DKI Jakarta   
           P2556        1612339        18055  Jakarta Selatan  DKI Jakarta   

                         brand  quantity  item_price  
order_date product_id                                 
2019-01-01 P2154       BRAND_M         4     1745000  
           P2556       BRAND_P         6     1045000  


In [2]:
import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Set index dari df sesuai instruksi
df = df.set_index(["order_date","product_id"])
idx =pd.IndexSlice
df_slice2= df.sort_index().loc[idx["2019-01-01","P2154":"P2556"],:]
print("Cara 2:\n",df_slice2)

Cara 2:
                        order_id  customer_id             city     province  \
order_date product_id                                                        
2019-01-01 P2154        1612339        18055  Jakarta Selatan  DKI Jakarta   
           P2159        1612339        18055  Jakarta Selatan  DKI Jakarta   
           P2325        1612372        17511        Tangerang       Banten   
           P2494        1612372        17511        Tangerang       Banten   
           P2556        1612339        18055  Jakarta Selatan  DKI Jakarta   

                         brand  quantity  item_price  
order_date product_id                                 
2019-01-01 P2154       BRAND_M         4     1745000  
           P2159       BRAND_M        24      310000  
           P2325       BRAND_N        48      604000  
           P2494       BRAND_P        40      904000  
           P2556       BRAND_P         6     1045000  


In [3]:
# Transforming - Part 1
# Transform adalah ketika mengubah dataset yang ada menjadi entitas baru, dapat dilakukan dengan:

# konversi dari satu data type ke data type yang lain,
# transpose dataframe,
# atau yang lainnya.
# Hal yang biasa dilakukan pertama kali setelah data dibaca adalah mengecek tipe data di setiap kolomnya 
# apakah sesuai dengan representasinya. Untuk itu dapat menggunakan atribut .dtypes pada dataframe yang telah kita baca tadi,

# [nama_dataframe].dtypes 

# Untuk konversi tipe data, secara default system akan mendeteksi data yang tidak bisa di render as date type or numeric type 
# sebagai object yang basically string. Tidak bisa di render oleh system ini karena berbagai hal, mungkin karena formatnya asing
# dan tidak dikenali oleh python secara umum (misal: date type data → '2019Jan01').

# Data contoh tersebut tidak bisa di render karena bulannya Jan tidak bisa di translate menjadi in form of number (00-12) dan 
# tidak ada ‘-’ di antara tahun, bulan dan harinya. Jika seluruh data pada kolom di order_date sudah tertulis dalam 
# bentuk 'YYYY-MM-DD' maka ketika dibaca, kolom order_date sudah langsung dinyatakan bertipe data datetime.

# Untuk merubah kolom date_order yang sebelumnya bertipe object menjadi kolom bertipe datetime, 
# cara pertama yang dapat dilakukan adalah menggunakan:

# pd.to_datetime(argumen) 

# dengan argumen adalah isi kolom dari dataframe yang akan dirubah tipe datanya, misal dalam format umum.

# nama_dataframe["nama_kolom"]
# Sehingga lengkapnya dapat ditulis sebagai:

# nama_dataframe["nama_kolom"] = pd.to_datetime(nama_dataframe["nama_kolom"]) 

In [4]:
# Tugas praktek:

# Ubahlah tipe data di kolom order_date yang semula bertipe objek menjadi bertipe datetime.

# Di code editor telah disediakan kode yang tidak lengkap, silakan diisi sesuai dengan instruksi yang diberikan. 

import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n",df.dtypes)
# Ubah tipe data kolom order_date menjadi datetime
df["order_date"] = pd.to_datetime(df["order_date"])
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id                int64
order_date     datetime64[ns]
customer_id             int64
city                   object
province               object
product_id             object
brand                  object
quantity                int64
item_price              int64
dtype: object


In [5]:
# Transforming - Part 2
# Pada sub bab ini akan mengubah tipe data pada kolom dataframe yang telah dibaca menjadi tipe data float (kolom quantity)
# dan tipe kategori (kolom city).

# Secara umum, untuk mengubah ke numerik dapat menggunakan pd.to_numeric(), yaitu:

# nama_dataframe["nama_kolom"] = pd.to_numeric(nama_dataframe["nama_kolom"], downcast="tipe_data_baru")
# Sedangkan untuk menjadi suatu kolom yang dapat dinyatakan sebagai kategori dapat menggunakan method .astype() 
# pada dataframe, yaitu 
# Nama_dataframe["nama_kolom"] = nama_dataframe["nama_kolom"].astype("category")

In [10]:
# Tugas Praktek:

# Ubahlah tipe data di kolom

# quantity yang semula bertipe int64 menjadi bertipe float32, dan
# city yang semula bertipe object menjadi bertipe category

import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Tampilkan tipe data
print("Tipe data df:\n", df.dtypes)
# Ubah tipe data kolom quantity menjadi tipe data numerik float
df["quantity"] = pd.to_numeric(df["quantity"], downcast="float")
# Ubah tipe data kolom city menjadi tipe data category
df["city"] = df["city"].astype("category")
# Tampilkan tipe data df setelah transformasi
print("\nTipe data df setelah transformasi:\n", df.dtypes)

Tipe data df:
 order_id        int64
order_date     object
customer_id     int64
city           object
province       object
product_id     object
brand          object
quantity        int64
item_price      int64
dtype: object

Tipe data df setelah transformasi:
 order_id          int64
order_date       object
customer_id       int64
city           category
province         object
product_id       object
brand            object
quantity        float32
item_price        int64
dtype: object


In [11]:
# Transforming - Part 3
# Sekarang akan mempelajari teknik/cara berikutnya dalam proses transformasi suatu dataframe. 
# Di sub bab ini akan memakai method .apply() dan .map() pada suatu dataframe.

# Method .apply() digunakan untuk menerapkan suatu fungsi python (yang dibuat dengan def atau anonymous dengan lambda) 
# pada dataframe/series atau hanya kolom tertentu dari dataframe. 

# Berikut ini adalah contohnya yaitu akan merubah setiap baris pada kolom brand menjadi lowercase.  

import pandas as pd
# Baca file sample_csv.csv
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/sample_csv.csv")
# Cetak 5 baris teratas kolom brand
print("Kolom brand awal:\n", df["brand"].head())
# Gunakan method apply untuk merubah isi kolom menjadi lower case
df["brand"] = df["brand"].apply(lambda x: x.lower())
# Cetak 5 baris teratas kolom brand
print("Kolom brand setelah apply:\n", df["brand"].head())

Kolom brand awal:
 0    BRAND_C
1    BRAND_V
2    BRAND_G
3    BRAND_B
4    BRAND_G
Name: brand, dtype: object
Kolom brand setelah apply:
 0    brand_c
1    brand_v
2    brand_g
3    brand_b
4    brand_g
Name: brand, dtype: object


In [12]:
# Method .map() hanya dapat diterapkan pada series atau dataframe yang diakses satu kolom saja. 
# Method ini digunakan untuk mensubstitusikan suatu nilai ke dalam tiap baris datanya.

# Mari lihat contoh yang diberikan berikut ini yang mana akan ambil huruf terakhir dari brand.

# Gunakan method map untuk mengambil kode brand yaitu karakter terakhirnya
df["brand"] = df["brand"].map(lambda x: x[-1])
# Cetak 5 baris teratas kolom brand
print("Kolom brand setelah map:\n", df["brand"].head())

Kolom brand setelah map:
 0    c
1    v
2    g
3    b
4    g
Name: brand, dtype: object


In [13]:
# Transforming - Part 4
# Di sub bab sebelumnya sudah mengetahui bahwa map hanya dapat digunakan untuk pandas series. 
# Pada sub bab ini akan menggunakan method .applymap pada dataframe.

import numpy as np
import pandas as pd
# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(100)
# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,5)) 
# Cetak dataframe
print("Dataframe:\n", df_tr)
# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x*100)
print("\nDataframe - cara 1:\n", df_tr1)
# Cara 2 dengan define function 
def times_100(x):
	return x*100
df_tr2 = df_tr.applymap(times_100)
print("\nDataframe - cara 2:\n", df_tr2)

Dataframe:
           0         1         2         3         4
0  0.543405  0.278369  0.424518  0.844776  0.004719
1  0.121569  0.670749  0.825853  0.136707  0.575093
2  0.891322  0.209202  0.185328  0.108377  0.219697

Dataframe - cara 1:
            0          1          2          3          4
0  54.340494  27.836939  42.451759  84.477613   0.471886
1  12.156912  67.074908  82.585276  13.670659  57.509333
2  89.132195  20.920212  18.532822  10.837689  21.969749

Dataframe - cara 2:
            0          1          2          3          4
0  54.340494  27.836939  42.451759  84.477613   0.471886
1  12.156912  67.074908  82.585276  13.670659  57.509333
2  89.132195  20.920212  18.532822  10.837689  21.969749


In [15]:
# Dengan cara yang sama seperti diatas buatlah matriks random ukuran 3 x 4 dengan seed random-nya 1234. 
# Kemudian gunakan kedua cara seperti di atas untuk merubah seluruh isi dengan fungsi kuadrat x**2 + 3*x + 2.

import numpy as np
import pandas as pd
# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(1234)
# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,4)) 
# Cetak dataframe
print("Dataframe:\n", df_tr)
# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x**2 + 3*x +2)
print("\nDataframe - cara 1:\n", df_tr1)
# Cara 2 dengan define function 
def quadratic_fun(x):
	return x**2 + 3*x +2
df_tr2 = df_tr.applymap(quadratic_fun)
print("\nDataframe - cara 2:\n", df_tr2)


Dataframe:
           0         1         2         3
0  0.191519  0.622109  0.437728  0.785359
1  0.779976  0.272593  0.276464  0.801872
2  0.958139  0.875933  0.357817  0.500995

Dataframe - cara 1:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981

Dataframe - cara 2:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981


In [17]:
import numpy as np
import pandas as pd
# number generator, set angka seed menjadi suatu angka, bisa semua angka, supaya hasil random nya selalu sama ketika kita run
np.random.seed(1234)
# create dataframe 3 baris dan 4 kolom dengan angka random
df_tr = pd.DataFrame(np.random.rand(3,4))
# Cetak dataframe
print("Dataframe:\n", df_tr)
# Cara 1 dengan tanpa define function awalnya, langsung pake fungsi anonymous lambda x
df_tr1 = df_tr.applymap(lambda x: x**2 + 3*x + 2)
print("\nDataframe - cara 1:\n", df_tr1)
# Cara 2 dengan define function
def qudratic_fun(x):
    return x**2 + 3*x + 2
df_tr2 = df_tr.applymap(qudratic_fun)
print("\nDataframe - cara 2:\n", df_tr2)

Dataframe:
           0         1         2         3
0  0.191519  0.622109  0.437728  0.785359
1  0.779976  0.272593  0.276464  0.801872
2  0.958139  0.875933  0.357817  0.500995

Dataframe - cara 1:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981

Dataframe - cara 2:
           0         1         2         3
0  2.611238  4.253346  3.504789  4.972864
1  4.948290  2.892085  2.905825  5.048616
2  5.792449  5.395056  3.201485  3.753981


In [25]:
#Handling Missing Value

# Tanpa menunggu lagi, aku mengecek link yang diberikan Andra:

# https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html

# Inspeksi Missing Value
# Value yang hilang/tidak lengkap dari dataframe akan membuat analisis atau model prediksi yang dibuat menjadi tidak akurat 
# dan mengakibatkan keputusan salah yang diambil.
# Terdapat beberapa cara untuk mengatasi data yang hilang/tidak lengkap tersebut.

# Di pandas data yang hilang umumnya direpresentasikan dengan NaN.

# Langkah pertama, harus tahu kolom mana yang terdapat data hilang dan berapa banyak dengan cara:

# ==>Cara 1: menerapkan method .info() pada dataframe yang dapat diikuti dari kode berikut ini:
import pandas as pd
# Baca file "https://storage.googleapis.com/dqlab-dataset/datacovid19.csv"
df=pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak info dari df
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1000 entries, 0 to 999
Data columns (total 13 columns):
 #   Column          Non-Null Count  Dtype  
---  ------          --------------  -----  
 0   province_state  960 non-null    object 
 1   country_region  1000 non-null   object 
 2   date            1000 non-null   object 
 3   latitude        874 non-null    float64
 4   longitude       874 non-null    float64
 5   location_geom   874 non-null    object 
 6   confirmed       1000 non-null   int64  
 7   deaths          999 non-null    float64
 8   recovered       999 non-null    float64
 9   active          949 non-null    float64
 10  fips            949 non-null    float64
 11  admin2          842 non-null    object 
 12  combined_key    0 non-null      float64
dtypes: float64(7), int64(1), object(5)
memory usage: 101.7+ KB
None


In [26]:
# ==> Cara 2: mengetahui berapa banyak nilai hilang dari tiap kolom di dataset tersebut dengan menerapkan chaining method pada 
#     dataframe yaitu .isna().sum(). 
#     Method .isna() digunakan untuk mengecek berapa data yang bernilai NaN 
#     dan .sum() menjumlahkannya secara default untuk masing-masing kolom dataframe.

# Cetak jumlah missing value di setiap kolom
mv=df.isna().sum()
print("\nJumlah missing value per kolom:\n", mv)


Jumlah missing value per kolom:
 province_state      40
country_region       0
date                 0
latitude           126
longitude          126
location_geom      126
confirmed            0
deaths               1
recovered            1
active              51
fips                51
admin2             158
combined_key      1000
dtype: int64


In [30]:
# Treatment untuk Missing Value - Part 1
# Terdapat beberapa cara untuk mengatasi missing value, antara lain:

# 1.dibiarkan saja,
# 2.hapus value itu, atau
# 3.isi value tersebut dengan value yang lain (biasanya interpolasi, mean, median, etc)

# Sebelum melakukan action ke missing value pada data covid diatas, sebaiknya tampilkan beberapa row teratas dari dataset itu

mv=df.head(10)
print("\nJumlah missing value per kolom:\n", mv)

# dan dilihat kembali jumlah missing value tiap kolomnya agar dapat ditelaah terlebih dahulu

mv=df.isna().sum()
print("\nJumlah missing value per kolom:\n", mv)

# Hanya kolom combine_key yang keseluruhan barisnya adalah missing value (1000 buah), sementara kolom country_region, date, 
# dan confirmed tidak memiliki missing value. 
# Untuk kolom lainnya terdapat beragam jumlah missing value. Apa yang dapat dilakukan?

# Untuk memahami mana kolom yang akan di treatment dengan tiga perlakukan di atas lihat nature dari data terlebih dahulu. 
# Contohnya pada kolom death dan recovered jika ada yang missing value maka kemungkinan terbesarnya adalah tidak ada meninggal
# atau sembuh pada hari tersebut. 

# Untuk kolom yang seluruhnya missing yaitu combined_key dapat dibuang saja satu kolom itu karena tidak ada data yang dapat
# diketahui dari kolom tersebut.

# Sementara, kolom yang lainnya bagaimana? Misal ambil kolom province_stat, missing value-nya dapat terjadi bahwa tidak dilaporkan 
# itu berasal dari daerah mana di negara itu.
# Dapat mengisi misal dengan string 'unknown' karena tahu kolom tersebut bertipe data string.




Jumlah missing value per kolom:
   province_state country_region      date  latitude  longitude location_geom  \
0            NaN             UK  01-02-20       NaN        NaN           NaN   
1            NaN             UK  18-02-20       NaN        NaN           NaN   
2            NaN             UK  17-02-20       NaN        NaN           NaN   
3            NaN             UK  31-01-20       NaN        NaN           NaN   
4            NaN             UK  19-02-20       NaN        NaN           NaN   
5            NaN             UK  22-02-20       NaN        NaN           NaN   
6            NaN             UK  25-02-20       NaN        NaN           NaN   
7            NaN             UK  16-02-20       NaN        NaN           NaN   
8            NaN             UK  27-02-20       NaN        NaN           NaN   
9            NaN             UK  03-02-20       NaN        NaN           NaN   

   confirmed  deaths  recovered  active  fips admin2  combined_key  
0          2    

In [34]:
# Treatment untuk Missing Value - Part 2

# Sekarang dapat menerapkan dua aksi yaitu

# 1.Membiarkannya saja
# 2.Menghapus kolom

# Treatment pertama (membiarkannya saja) seperti pada kolom confirmed, death, dan recovered. 
# Akan tetapi jika tidak ada yang terkonfirmasi, meninggal dan sembuh sebenarnya dapat menukar value ini dengan angka nol.
# Meskipun ini lebih make sense dalam representasi datanya, tetapi untuk sub bab ini ketiga kolom tersebut diasumsikan 
# dibiarkan memiliki nilai missing value.

# Treatment kedua yaitu dengan menghapus kolom, yang mana ini digunakan jika seluruh kolom dari dataset yang dipunyai 
# semua barisnya adalah missing value. Untuk itu dapat menerapkan method .dropna() pada dataframe, bagaimana caranya?
# nama_dataframe.dropna(axis=1, how="all")

# Pada method .dropna() ada dua keyword argumen yang harus diisikan yaitu axis dan how. Keyword axis digunakan untuk menentukan 
# arah dataframe yang akan dibuang angka 1 untuk menyatakan kolom (column-based) atau dapat ditulis dalam string "column". 
# Jika digunakan angka 0 berarti itu dalam searah index (row-based) atau dapat ditulis dalam string "index".

# Sementara, keyword how digunakan untuk bagaimana cara membuangnya. Opsi yang dapat diterimanya (dalam string) adalah

# "all" artinya jika seluruh data di satu/beberapa kolom atau di satu/beberapa baris adalah missing value.
# "any" artinya jika memiliki 1 saja data yang hilang maka buanglah baris/kolom tersebut.

import pandas as pd
# Baca file "https://storage.googleapis.com/dqlab-dataset/datacovid19.csv"
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak ukuran awal dataframe
print("Ukuran awal df: %d baris, %d kolom." % df.shape)
# Drop kolom yang seluruhnya missing value dan cetak ukurannya
df = df.dropna(axis=1, how="all")
print("Ukuran df setelah buang kolom dengan seluruh data missing: %d baris, %d kolom."%df.shape)
# Drop baris jika ada satu saja data yang missing dan cetak ukurannya
df = df.dropna(axis=0, how="any")
print("Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: %d baris, %d kolom." % df.shape)

Ukuran awal df: 1000 baris, 13 kolom.
Ukuran df setelah buang kolom dengan seluruh data missing: 1000 baris, 12 kolom.
Ukuran df setelah dibuang baris yang memiliki sekurangnya 1 missing value: 746 baris, 12 kolom.


In [35]:
# Treatment untuk Missing Value - Part 3
# Sekarang, akan melakukan treatment ketiga untuk melakukan handle missing value pada dataframe. 
# Treatment ini dilakukan dengan cara mengisi missing value dengan nilai lain, yang dapat berupa :


# nilai statistik seperti mean atau median
# interpolasi data
# text tertentu

# Akan mulai pada kolom yang missing yang tipe datanya adalah berupa object. Kolom tersebut adalah province_state, 
# karena tidak tahu secara persis province_state mana yang dimaksud, bisa menempatkan string "unknown" sebagai substitusi 
# missing value. Meskipun keduanya berarti sama-sama tidak tahu tetapi berbeda dalam representasi datanya.

# Untuk melakukan hal demikian dapat menggunakan method .fillna() pada kolom dataframe yang dimaksud.

import pandas as pd
# Baca file "https://storage.googleapis.com/dqlab-dataset/datacovid19.csv"
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak unique value pada kolom province_state
print("Unique value awal:\n", df["province_state"].unique())
# Ganti missing value dengan string "unknown_province_state"
df["province_state"] = df["province_state"].fillna("unknown")
# Cetak kembali unique value pada kolom province_state
print("Unique value setelah fillna:\n", df["province_state"].unique())

Unique value awal:
 [nan 'US' 'Guam' 'Iowa']
Unique value setelah fillna:
 ['unknown' 'US' 'Guam' 'Iowa']


In [23]:
# Treatment untuk Missing Value - Part 4

# Dalam sub bab ini akan mengganti missing value dengan nilai statistik kolom bersangkutan, baik median atau 
# mean (nilai rata-rata). Misalnya akan menggunakan kolom active. Dengan mengabaikan terlebih dahulu sebaran 
# berdasarkan negara (univariate), jika mengisi dengan nilai rata-rata maka harus melihat terlebih dahulu data apakah
# memiliki outliers atau tidak. 
# Jika ada outliers dari data maka menggunakan nilai tengah (median) data adalah cara yang lebih safe.
# Untuk itu diputuskan dengan mengecek nilai median dan nilai mean kolom active juga nilai min dan max-nya. 
# Jika data pada kolom active terdistribusi normal maka nilai mean dan median akan hampir sama.

import pandas as pd
# Baca file "https://storage.googleapis.com/dqlab-dataset/datacovid19.csv"
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/datacovid19.csv")
# Cetak nilai mean dan median awal
print("Awal: mean = %f, median = %f." % (df["active"].mean(), df["active"].median()))
# Isi missing value kolom active dengan median
df_median = df["active"].fillna(df["active"].median())
# Cetak nilai mean dan median awal setelah diisi dengan median
print("Fillna median: mean = %f, median = %f." % (df_median.mean(), df_median.median()))
# Isi missing value kolom active dengan mean
df_mean = df["active"].fillna(df["active"].mean())
# Cetak nilai mean dan median awal setelah diisi dengan mean
print("Fillna mean: mean = %f, median = %f." % (df_mean.mean(), df_mean.median()))


Awal: mean = 192.571128, median = 41.000000.
Fillna median: mean = 184.841000, median = 41.000000.
Fillna mean: mean = 192.571128, median = 49.000000.


In [24]:
# Treatment untuk Missing Value - Part 5
# Di bagian ini akan menggunakan teknik interpolasi dalam mengisi nilai missing value pada suatu dataset.

# Data yang menggunakan interpolasi untuk mengisi data yang hilang adalah time series data, yang secara default akan 
# diisi dengan interpolasi linear.

import numpy as np
import pandas as pd
# Data
ts = pd.Series({
   "2020-01-01":9,
   "2020-01-02":np.nan,
   "2020-01-05":np.nan,
   "2020-01-07":24,
   "2020-01-10":np.nan,
   "2020-01-12":np.nan,
   "2020-01-15":33,
   "2020-01-17":np.nan,
   "2020-01-16":40,
   "2020-01-20":45,
   "2020-01-22":52,
   "2020-01-25":75,
   "2020-01-28":np.nan,
   "2020-01-30":np.nan
})
# Cetak time series sebelum interpolasi linier
print("Sebelum diisi missing valuenya:\n", ts)
# Isi missing value menggunakan interpolasi linier
ts = ts.interpolate()
# Cetak time series setelah interpolasi linier
print("Setelah diisi missing valuenya:\n", ts)

Sebelum diisi missing valuenya:
 2020-01-01     9.0
2020-01-02     NaN
2020-01-05     NaN
2020-01-07    24.0
2020-01-10     NaN
2020-01-12     NaN
2020-01-15    33.0
2020-01-17     NaN
2020-01-16    40.0
2020-01-20    45.0
2020-01-22    52.0
2020-01-25    75.0
2020-01-28     NaN
2020-01-30     NaN
dtype: float64
Setelah diisi missing valuenya:
 2020-01-01     9.0
2020-01-02    14.0
2020-01-05    19.0
2020-01-07    24.0
2020-01-10    27.0
2020-01-12    30.0
2020-01-15    33.0
2020-01-17    36.5
2020-01-16    40.0
2020-01-20    45.0
2020-01-22    52.0
2020-01-25    75.0
2020-01-28    75.0
2020-01-30    75.0
dtype: float64


In [114]:
import pandas as pd

# 1. Baca dataset
print("[1] BACA DATASET")
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/retail_raw_test.csv", low_memory=False)
print("    Dataset:\n", df.head())
print("    Info:\n", df.info())

# 2. Ubah tipe data
print("\n[2] UBAH TIPE DATA")
df["customer_id"] = df["customer_id"].apply(lambda x: x.split("'")[1]).astype("int64")
df["quantity"] = df["quantity"].apply(lambda x: x.split("'")[1]).astype("int64")
df["item_price"] = df["item_price"].apply(lambda x: x.split("'")[1]).astype("int64")
print(" Tipe data:\n", df.dtypes)

# 3. Transform "product_value" supaya bentuknya seragam dengan format "PXXXX", assign ke kolom baru "product_id", dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown"
print("\n[3] TRANSFORM product_value MENJADI product_id")
# Buat fungsi
import math
def impute_product_value(val):
    if math.isnan(val):
        return "unknown"
    else: 
        return 'P' + '{:0>4}'.format(str(val).split('.')[0])
# Buat kolom "product_id"
df["product_id"] = df["product_value"].apply(lambda x: impute_product_value(x))
# Hapus kolom "product_value"
df.drop(["product_value"], axis=1, inplace=True)
# Cetak 5 data teratas
print(df.head())

# 4. Tranform order_date menjadi value dengan format "YYYY-mm-dd"
print("\n[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd")
months_dict = {
"Jan":"01",
"Feb":"02",
"Mar":"03",
"Apr":"04",
"May":"05",
"Jun":"06",
"Jul":"07",
"Aug":"08",
"Sep":"09",
"Oct":"10",
"Nov":"11",
"Dec":"12"
}
df["order_date"] = pd.to_datetime(df["order_date"].apply(lambda x: str(x)[-4:] + "-" + months_dict[str(x)[:3]] + "-" + str(x)[4:7]))
print(" Tipe data:\n", df.dtypes)

# 5. Mengatasi data yang hilang di beberapa kolom
print("\n[5] HANDLING MISSING VALUE")
# Kolom "city" dan "province" masih memiliki missing value, nilai yang hilang di kedua kolom ini diisi saja dengan "unknown"
df[["city","province"]] = df[["city","province"]].fillna("unknown")
# Kolom brand juga masih memiliki missing value, Ganti value NaN menjadi "no_brand"
df["brand"] = df["brand"].fillna("no_brand")
# Cek apakah masih terdapat missing value di seluruh kolom
print(" Info:\n", df.info())

# 6. Membuat kolom baru "city/province" dengan menggabungkan kolom "city" dan kolom "province" dan delete kolom asalnya
print("\n[6] MEMBUAT KOLOM BARU city/province")
df["city/province"] = df["city"] + "/" + df["province"]
# drop kolom "city" dan "province" karena telah digabungkan
df.drop(["city","province"], axis=1, inplace=True)
# Cetak 5 data teratas
print(df.head())

# 7. Membuat hierarchical index yang terdiri dari kolom "city/province", "order_date", "customer_id", "order_id", "product_id"
print("\n[7] MEMBUAT HIERACHICAL INDEX")
df = df.set_index(["city/province","order_date","customer_id","order_id","product_id"])
# urutkanlah berdasarkan index yang baru
df = df.sort_index()
# Cetak 5 data teratas
print(df.head())

# 8. Membuat kolom "total_price" yang formula nya perkalian antara kolom "quantity" dan kolom "item_price"
print("\n[8] MEMBUAT KOLOM total_price")
df["total_price"] = df["quantity"] * df["item_price"]
# Cetak 5 data teratas
print(df.head())

# 9. Slice dataset agar hanya terdapat data bulan Januari 2019
print("\n[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA")
idx = pd.IndexSlice
df_jan2019 = df.loc[idx[:, "2019-01-01":"2019-01-31"], :]
print("Dataset akhir:\n", df_jan2019)

# END OF PROJECT

[1] BACA DATASET
    Dataset:
    order_id    order_date customer_id           city     province    brand  \
0   1730350  Dec 11, 2019      '13447      Surakarta  Jawa Tengah  BRAND_F   
1   1677490  Jul 31, 2019          '0            NaN          NaN  BRAND_F   
2   1704211  Oct 18, 2019      '16128  Jakarta Pusat  DKI Jakarta  BRAND_H   
3   1679695  Aug 07, 2019      '16225     Yogyakarta   Yogyakarta  BRAND_H   
4   1679080  Aug 05, 2019          '0            NaN          NaN  BRAND_E   

  quantity item_price  product_value  
0      '24    '113000         1374.0  
1       '1   '1164000         1370.0  
2      '12    '747000         1679.0  
3       '6    '590000         1708.0  
4       '2    '740000         1201.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non

In [139]:
import pandas as pd

# 1. Baca dataset
print("[1] BACA DATASET")
df = pd.read_csv("https://storage.googleapis.com/dqlab-dataset/retail_raw_test.csv", low_memory=False)
print("    Dataset:\n", df.head())
print("    Info:\n", df.info())

# 2. Ubah tipe data
print("\n[2] UBAH TIPE DATA")
df["customer_id"] = df["customer_id"].apply(lambda x: x.split("'")[1]).astype("int64")
df["quantity"] = df["quantity"].apply(lambda x: x.split("'")[1]).astype("int64")
df["item_price"] = df["item_price"].apply(lambda x: x.split("'")[1]).astype("int64")
print("Tipe data:\n", df.dtypes)

[1] BACA DATASET
    Dataset:
    order_id    order_date customer_id           city     province    brand  \
0   1730350  Dec 11, 2019      '13447      Surakarta  Jawa Tengah  BRAND_F   
1   1677490  Jul 31, 2019          '0            NaN          NaN  BRAND_F   
2   1704211  Oct 18, 2019      '16128  Jakarta Pusat  DKI Jakarta  BRAND_H   
3   1679695  Aug 07, 2019      '16225     Yogyakarta   Yogyakarta  BRAND_H   
4   1679080  Aug 05, 2019          '0            NaN          NaN  BRAND_E   

  quantity item_price  product_value  
0      '24    '113000         1374.0  
1       '1   '1164000         1370.0  
2      '12    '747000         1679.0  
3       '6    '590000         1708.0  
4       '2    '740000         1201.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non

In [1]:
import pandas as pd

# 1. Baca dataset
print("[1] BACA DATASET")
df = pd.read_csv("https://dqlab-dataset.s3-ap-southeast-1.amazonaws.com/retail_raw_test.csv", low_memory=False)
print("    Dataset:\n", df.head())
print("    Info:\n", df.info())

# 2. Ubah tipe data
print("\n[2] UBAH TIPE DATA")
df["customer_id"] = df["customer_id"].apply(lambda x: x.split("'")[1]).astype("int64")
df["quantity"] = df["quantity"].apply(lambda x: x.split("'")[1]).astype("int64")
df["item_price"] = df["item_price"].apply(lambda x: x.split("'")[1]).astype("int64")
print("    Tipe data:\n", df.dtypes)

# 3. Transform "product_value" supaya bentuknya seragam dengan format "PXXXX", assign ke kolom baru "product_id", dan drop kolom "product_value", jika terdapat nan gantilah dengan "unknown"
print("\n[3] TRANSFORM product_value MENJADI product_id")
# Buat fungsi
import math
def impute_product_value(val):
    if math.isnan(val):
        return "unknown"
    else:
        return 'P' + '{:0>4}'.format(str(val).split('.')[0])
# Buat kolom "product_id"
df["product_id"] = df["product_value"].apply(lambda x: impute_product_value(x))
# Hapus kolom "product_value"
df.drop(["product_value"], axis=1, inplace=True)
# Cetak 5 data teratas
print(df.head())

# 4. Tranform order_date menjadi value dengan format "YYYY-mm-dd"
print("\n[4] TRANSFORM order_date MENJADI FORMAT YYYY-mm-dd")
months_dict = {
   "Jan":"01",
   "Feb":"02",
   "Mar":"03",
   "Apr":"04",
   "May":"05",
   "Jun":"06",
   "Jul":"07",
   "Aug":"08",
   "Sep":"09",
   "Oct":"10",
   "Nov":"11",
   "Dec":"12"
}
df["order_date"] = pd.to_datetime(df["order_date"].apply(lambda x: str(x)[-4:] + "-" + months_dict[str(x)[:3]] + "-" + str(x)[4:7]))
print("    Tipe data:\n", df.dtypes)

# 5. Mengatasi data yang hilang di beberapa kolom
print("\n[5] HANDLING MISSING VALUE")
# Kolom "city" dan "province" masih memiliki missing value, nilai yang hilang di kedua kolom ini diisi saja dengan "unknown"
df[["city","province"]] = df[["city","province"]].fillna("unknown")
# Kolom brand juga masih memiliki missing value, Ganti value NaN menjadi "no_brand"
df["brand"] = df["brand"].fillna("no_brand")
# Cek apakah masih terdapat missing value di seluruh kolom 
print("    Info:\n", df.info())

# 6. Membuat kolom baru "city/province" dengan menggabungkan kolom "city" dan kolom "province" dan delete kolom asalnya
print("\n[6] MEMBUAT KOLOM BARU city/province")
df["city/province"] = df["city"] + "/" + df["province"]
# drop kolom "city" dan "province" karena telah digabungkan
df.drop(["city","province"], axis=1, inplace=True)
# Cetak 5 data teratas
print(df.head())

# 7. Membuat hierarchical index yang terdiri dari kolom "city/province", "order_date", "customer_id", "order_id", "product_id"
print("\n[7] MEMBUAT HIERACHICAL INDEX")
df = df.set_index(["city/province","order_date","customer_id","order_id","product_id"])
# urutkanlah berdasarkan index yang baru
df = df.sort_index()
# Cetak 5 data teratas
print(df.head())

# 8. Membuat kolom "total_price" yang formula nya perkalian antara kolom "quantity" dan kolom "item_price"
print("\n[8] MEMBUAT KOLOM total_price")
df["total_price"] = df["quantity"] * df["item_price"]
# Cetak 5 data teratas
print(df.head())

# 9. Slice dataset agar hanya terdapat data bulan Januari 2019
print("\n[9] SLICE DATASET UNTUK BULAN JANUARI 2019 SAJA")
idx = pd.IndexSlice
df_jan2019 = df.loc[idx[:, "2019-01-01":"2019-01-31"], :]
print("Dataset akhir:\n", df_jan2019)

[1] BACA DATASET
    Dataset:
    order_id    order_date customer_id           city     province    brand  \
0   1730350  Dec 11, 2019      '13447      Surakarta  Jawa Tengah  BRAND_F   
1   1677490  Jul 31, 2019          '0            NaN          NaN  BRAND_F   
2   1704211  Oct 18, 2019      '16128  Jakarta Pusat  DKI Jakarta  BRAND_H   
3   1679695  Aug 07, 2019      '16225     Yogyakarta   Yogyakarta  BRAND_H   
4   1679080  Aug 05, 2019          '0            NaN          NaN  BRAND_E   

  quantity item_price  product_value  
0      '24    '113000         1374.0  
1       '1   '1164000         1370.0  
2      '12    '747000         1679.0  
3       '6    '590000         1708.0  
4       '2    '740000         1201.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non

[1] BACA DATASET
    Dataset:
    order_id    order_date customer_id           city     province    brand  \
0   1730350  Dec 11, 2019      '13447      Surakarta  Jawa Tengah  BRAND_F   
1   1677490  Jul 31, 2019          '0            NaN          NaN  BRAND_F   
2   1704211  Oct 18, 2019      '16128  Jakarta Pusat  DKI Jakarta  BRAND_H   
3   1679695  Aug 07, 2019      '16225     Yogyakarta   Yogyakarta  BRAND_H   
4   1679080  Aug 05, 2019          '0            NaN          NaN  BRAND_E   

  quantity item_price  product_value  
0      '24    '113000         1374.0  
1       '1   '1164000         1370.0  
2      '12    '747000         1679.0  
3       '6    '590000         1708.0  
4       '2    '740000         1201.0  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 5000 entries, 0 to 4999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   order_id       5000 non-null   int64  
 1   order_date     5000 non