<a href="https://colab.research.google.com/github/rikrikrahadian/DQLab/blob/main/Part_5_pandas_dan_Manipulasi_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# *DATA MANIPULATION* IN PYTHON: `pandas`
> ***Data Manipulation*** merujuk kepada proses penyesuaian (*adjustments*) yang dilakukan terhadap data agar lebih terorganisir dan mudah dibaca.

Dalam sebuah organisasi yang mengedepankan pengambilan keputusan berbasis data, maka ***Data Manipulation*** adalah sebuah proses penting yang harus dilakukan terhadap beragam data yang dimanfaatkan olehnya. Proses tersebut akan memastikan bahwa berbagai `datasets` yang tersedia selaras dengan kebutuhan organisasi, serta memiliki format dan struktur yang konsisten, sehingga meningkatkan efisiensi pada pelaksanaan berbagai proses penting seperti:
1. Pembacaan data;
2. Analisis data;
3. Interpretasi data; dan
4. Proyeksi data.

Python adalah salah satu ***Data Manipulation Languange*** (**DML**) yang paling populer dipergunakan oleh para *data scientists*, *data analysts*, peneliti dan akademisi. Popularitas Python tersebut tak lepas dari tersedianya sebuah modul/library bernama `pandas`, yang menyediakan berbagai *toolkits* yang sangat handal untuk dimanfaatkan melakukan *handling* dan *manipulating* data yang terstruktur.

Pertemuan kesepuluh ini secara khusus ditujukan untuk membahas pemanfaatan modul `pandas` untuk kegiatan manipulasi data yang dimulai dengan proses *parsing* serta pemanfaatan *attributes* dan *methods* untuk deskripsi, seleksi, pengolahan, dan *serialization* data.


# Parsing data into `Pandas Dataframe` Object
> `Pandas Dataframe` adalah sebuah `objek` Python berstruktur data dua dimensional berupa `rows` dan `columns` yang masing-masingnya memiliki label unik.

Sesuai dengan deskripsi di atas, secara visual, sebuah `Pandas Dataframe` memiliki struktur tabular. Serupa dengan tabel SQL pada sebuah *database*, atau sebuah *spreadsheet* pada sebuah file excel. Pada sebuah `pandas.dataframe`, terdapat dua elemen berupa:
1. `columns`, yang masing-masingnya merupakan objek satu dimensional--`pandas.series`--dan memiliki nomor/nama indeks yang unik.
> Objek `pandas.series` memiliki karakteristik hampir serupa dengan sebuah `list` yang berisikan banyak elemen yang homogen, akan tetapi sebuah `pandas.series` memiliki cara indexing yang jauh lebih fleksibel dibandingkan `python fundamental objects`.
2. `rows`, yang merepresentasikan catatan data (*records*) dan berkarakter satu dimensional--`pandas.series`--yang masing-masing elemennya harus diberikan indeks (berupa nama kolom) yang unik.
> `rows` memiliki karakteristik serupa dengan sebuah `dictionary` yang berisikan *paired-element* berupa `key` = `str` berupa nama kolom, dan `value` = `list` dengan elemen berupa data yang tersimpan pada kolom tersebut.

Pada pertemuan sebelumnya, secara sekilas telah diperkenalkan beberapa `methods` dari `pandas` yang umumnya dipergunakan untuk tujuan konstruksi `pandas.dataframe` object. Beberapa methods tersebut antara lain:
- `pandas.DataFrame()`, untuk mengkonversi berbagai objek python--`list`, `tuple`, dan `dictionary`--menjadi sebuah `pandas.dataframe`;
- `pandas.join()`, untuk menggabungkan dua `pandas.dataframe` dengan memanfaatkan index saling terkait; dan
- `pandas.concat()`, untuk menggabungkan beberapa `pandas.dataframe` berdasarkan axisnya.

Kali ini kita akan memfokuskan praktel pada konstruksi `pandas.dataframe` object melalui proses *parsing* data dari berbagai jenis file data. Berikut ini adalah beberapa method yang umum dipergunakan:
- [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), untuk parsing data pada file berekstensi `.csv` dan `.txt` ke sebuah `pandas.dataframe`;
- [`pandas.read_json()`](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html), untuk parsing data pada file berekstensi `.json` ke sebuah `pandas.dataframe`;
- [`pandas.read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html), untuk parsing data pada file berekstensi `.xls` dan `.xlsx` ke sebuah `pandas.dataframe`; dan
- [`pandas.ExcelFile()`](https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.html), untuk parsing data pada file berekstensi `.xls`, `xlsx`, `xlsm`, `xlsb`, `odt`, `odf`, dan `ods`.

#### Ilustrasi 1: `.csv` Data Parsing
Lakukan *data parsing* dari sebuah file `.csv` yang disimpan di: 'https://storage.googleapis.com/dqlab-dataset/SuperStore.csv'. Lakukan langkah-langkah berikut:
1. Import modul pandas lalu berikan alias `pd`;
2. Assign lokasi dari file ke `file_path`;
3. Parse data, dan assign ke `df_superstore`;
4. Tunjukkan isi dari dataframe tersebut;
5. *Slice* dataframe untuk hanya menunjukkan data kolom 'Sales` saja; dan
6. *Slice* dataframe untuk hanya menunjukkan data baris pertama hingga kelima saja.

In [None]:
# Mengimpor modul pandas ke environment
import pandas as pd

In [None]:
# Assign lokasi file ke `file_path`
file_path ='https://storage.googleapis.com/dqlab-dataset/SuperStore.csv'

In [None]:
# Parsing seluruh data dari file menjadi sebuah dataframe `df_superstore`
df_superstore = pd.read_csv(file_path)

In [None]:
# Tunjukkan isi dataframe dari memory
df_superstore

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.9600,2,0.00,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.9400,3,0.00,219.5820,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.6200,2,0.00,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.3680,2,0.20,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2017-110422,TB-21400,33180,FUR-FU-10001889,25.2480,3,0.20,4.1028,Furniture,Furnishings,Ultra Door Pull Handle,1/21/2017,1/23/2017,Second Class,Tom Boeckenhauer,Consumer,United States,Miami,Florida,South
9990,CA-2020-121258,DB-13060,92627,FUR-FU-10000747,91.9600,2,0.00,15.6332,Furniture,Furnishings,Tenex B1-RE Series Chair Mats for Low Pile Car...,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West
9991,CA-2020-121258,DB-13060,92627,TEC-PH-10003645,258.5760,2,0.20,19.3932,Technology,Phones,Aastra 57i VoIP phone,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West
9992,CA-2020-121258,DB-13060,92627,OFF-PA-10004041,29.6000,4,0.00,13.3200,Office Supplies,Paper,"It's Hot Message Books with Stickers, 2 3/4"" x 5""",2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West


In [None]:
# Mengakses isi dari kolom 'Sales'
df_superstore['Sales']

Unnamed: 0,Sales
0,261.9600
1,731.9400
2,14.6200
3,957.5775
4,22.3680
...,...
9989,25.2480
9990,91.9600
9991,258.5760
9992,29.6000


In [None]:
# Tunjukkan lima rows paling atas
df_superstore.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South


## Ilustrasi 2: *Efficient Parsing*
Dari hasil parsing di ilustrasi sebelumnya, kita telah berhasil menyimpan sebuah `pandas.dataframe` di dalam sebuah variabel bernama `df_superstore` yang memiliki sembilan ribu lebih rows dan 20 kolom. Pada prakteknya, tidak semua kolom yang tersedia akan dipergunakan dalam proses pengolahan, sehingga melakukan parsing data secara keseluruhan akan menjadi tidak efisien---selain akan memerlukan lebih banyak memory sebagai penyimpanan, juga akan memakan waktu jika data yang diparsing cukup banyak.

Pada ilustrasi 2 ini, kita akan memanfaatkan berbagai parameter pada method `pd.read_csv` untuk melakukan parsing secara efisien.

In [None]:
# Parsing hanya 10 rows pertama saja
df_superstore_10 = pd.read_csv(file_path, nrows=10)
# Tunjukkan isi dataframe dari memory
df_superstore_10

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
5,CA-2017-115812,BH-11710,90032,FUR-FU-10001487,48.86,7,0.0,14.1694,Furniture,Furnishings,Eldon Expressions Wood and Plastic Desk Access...,6/9/2017,6/14/2017,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
6,CA-2017-115812,BH-11710,90032,OFF-AR-10002833,7.28,4,0.0,1.9656,Office Supplies,Art,Newell 322,6/9/2017,6/14/2017,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
7,CA-2017-115812,BH-11710,90032,TEC-PH-10002275,907.152,6,0.2,90.7152,Technology,Phones,Mitel 5320 IP Phone VoIP phone,6/9/2017,6/14/2017,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
8,CA-2017-115812,BH-11710,90032,OFF-BI-10003910,18.504,3,0.2,5.7825,Office Supplies,Binders,DXL Angle-View Binders with Locking Rings by S...,6/9/2017,6/14/2017,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
9,CA-2017-115812,BH-11710,90032,OFF-AP-10002892,114.9,5,0.0,34.47,Office Supplies,Appliances,Belkin F5C206VTEL 6 Outlet Surge,6/9/2017,6/14/2017,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West


In [None]:
# Parsing seluruh rows untuk kolom `State`, `Quantity`, dan `Sales`
df_superstore_kolom = pd.read_csv(file_path, usecols=['State', 'Quantity', 'Sales'])
# Tunjukkan isi dataframe dari memory
df_superstore_kolom

Unnamed: 0,Sales,Quantity,State
0,261.9600,2,Kentucky
1,731.9400,3,Kentucky
2,14.6200,2,California
3,957.5775,5,Florida
4,22.3680,2,Florida
...,...,...,...
9989,25.2480,3,Florida
9990,91.9600,2,California
9991,258.5760,2,California
9992,29.6000,4,California


## Ilustrasi 3: Mounting Google Drive
Salah satu kelebihan dari `Google Colab Notebook` adalah integrasi dengan `Google Drive`, sehingga data yang tersimpan di `Google Drive` dapat dimanipulasi dengan menggunakan `Google Colab`. Untuk dapat memanfaatkan fasilitas tersebut, maka user harus:
1. Memiliki google account dan terlogin.
2. Menambahkan [shared folder](https://drive.google.com/drive/folders/1rb3k4aH5QiwRHLJfEk16EeIvLQQI0Q2m?usp=sharing) ke google drivenya dengan cara:
  - Buka link shared folder tersebut;
  - Menekan `data_for_dqlab` > `Organize` > `Add Shortcut`; dan
  - Pilih directory penyimpanan, lalu tekan `Add`.
3. Buka `File Explorer` pada Google Colab Notebook, lalu tekan `Mount Drive`,



In [None]:
# Mengimpor method glob dari modul glob
from glob import glob

In [None]:
# Set folder tempat file sesuai dengan lokasi di Google Drive masing-masing
folder_file = '/content/drive/MyDrive/DQLab/data_for_dqlab/' # ini harus disesuaikan dengan lokasi di masing-masing google drive
# Set tipe file yang akan kita parse
file_pattern = '*.xlsx'

In [None]:
# Buat list nama-nama file yang ditemukan
list_xlsx = glob(folder_file+file_pattern)
# lihat isi list
list_xlsx

['/content/drive/MyDrive/DQLab/data_for_dqlab/DATA PERIKANAN.xlsx']

In [None]:
list_xlsx[0]

'/content/drive/MyDrive/DQLab/data_for_dqlab/DATA PERIKANAN.xlsx'

## Ilustrasi 4: Excel file data parsing
Melakukan parsing file excel dengan menggunakan method `pd.read_excel`.

In [None]:
# Parsing 5 rows paling atas pada file excel
pd.read_excel(list_xlsx[0], nrows=5, index_col=[0])

Unnamed: 0,tahun,provinsi,jenis_ikan,kelompok_ikan,produksi_ton,nilai_produksi_rp1000
0,2023,PAPUA BARAT,Manyung Hitam,MANYUNG,9.673,459830
1,2023,PAPUA BARAT,Mujair,MUJAIR,71.203,2467037
2,2023,RIAU,Patin,PATIN,2303.399,120399954
3,2023,RIAU,Sembilang Betul,SEMBILANG,611.424,17119872
4,2023,SULAWESI BARAT,Betok,BETOK,6.141,153525


## Ilustrasi 5: Excel file data parsing
Melakukan parsing file excel menggunakan method `pd.ExcelFile`.

In [None]:
# Parsing isi file
xl = pd.ExcelFile(list_xlsx[0])
# Tunjukkan isi hasil parsing
xl

<pandas.io.excel._base.ExcelFile at 0x7c4c46a37150>

In [None]:
# Melakukan pengecekan nama-nama sheet pada file
xl.sheet_names

['TANGKAP', 'BUDIDAYA', 'STD NILEM']

In [None]:
# Parsing lima rows data paling atas pada sheet 'TANGKAP'
xl.parse(sheet_name='BUDIDAYA', index_col=[0], nrows=5)

Unnamed: 0,tahun,provinsi,jenis_ikan,kelompok_ikan,produksi_ton,nilai_produksi_rp1000
0,2023,ACEH,BAWAL BINTANG,BAWAL BINTANG,0.56,43000.0
1,2023,ACEH,PATIN,PATIN,150.607,5235925.0
2,2023,BALI,MAS,MAS,402.496,16254190.0
3,2023,BANTEN,BELANAK,IKAN LAINNYA,473.176,8961764.0
4,2023,BANTEN,MUJAIR,IKAN LAINNYA,4232.358,74242364.5


## EXERCISE 1: Data Parsing
Pada exercise 1 ini, kita akan membuat sebuah `dictionary` berisi `keys` = nama-nama Sheet, dan `values` = dataframe di masing-masing sheet pada object `ExcelFile` tersebut di atas, untuk itu:
1. Tuliskan langkah-langkah yang akan dilakukan;
2. Tuliskan script untuk setiap langkah tersebut.

In [None]:
# 1. Bikin dictionary kosong
isi_file_excel = dict()
# 2. isi dictionary:
# bikin loop yang mengeluarkan nama-nama sheet
for nama_sheet in xl.sheet_names:
  # key = nama_sheet, value = dataframe
  isi_file_excel[nama_sheet] = xl.parse(sheet_name=nama_sheet, index_col=[0])

# Tunjukkan isi dari dictionary
isi_file_excel

{'TANGKAP':        tahun        provinsi       jenis_ikan kelompok_ikan  produksi_ton  \
 0       2023     PAPUA BARAT    Manyung Hitam       MANYUNG       9.67300   
 1       2023     PAPUA BARAT           Mujair        MUJAIR      71.20300   
 2       2023            RIAU            Patin         PATIN    2303.39900   
 3       2023            RIAU  Sembilang Betul     SEMBILANG     611.42400   
 4       2023  SULAWESI BARAT           Betok          BETOK       6.14100   
 ...      ...             ...              ...           ...           ...   
 79907   2023     PAPUA BARAT       Sepat Rawa         SEPAT       9.94455   
 79908   2023            RIAU           Belida        BELIDA     128.36700   
 79909   2023            RIAU            Motan           MAS     822.94300   
 79910   2023            RIAU           Pantau        BARBUS    1304.29500   
 79911   2023            RIAU            Tawes         TAWES     993.17600   
 
        nilai_produksi_rp1000  
 0               4.

In [None]:
isi_file_excel['BUDIDAYA']

Unnamed: 0,tahun,provinsi,jenis_ikan,kelompok_ikan,produksi_ton,nilai_produksi_rp1000
0,2023,ACEH,BAWAL BINTANG,BAWAL BINTANG,0.560,43000.0
1,2023,ACEH,PATIN,PATIN,150.607,5235925.0
2,2023,BALI,MAS,MAS,402.496,16254190.0
3,2023,BANTEN,BELANAK,IKAN LAINNYA,473.176,8961764.0
4,2023,BANTEN,MUJAIR,IKAN LAINNYA,4232.358,74242364.5
...,...,...,...,...,...,...
29050,2023,SULAWESI TENGAH,BARONANG,IKAN LAINNYA,0.370,18500.0
29051,2023,SULAWESI TENGAH,KUWE,IKAN LAINNYA,21928.304,877807055.0
29052,2023,SULAWESI TENGAH,LELE,LELE,464.282,10003580.0
29053,2023,SULAWESI TENGGARA,LELE DUMBO,LELE,8.370,209250.0


# *Data Description*
> `Attributes` VS `Methods`
> - `Attributes` adalah berbagai karakteristik yang terdapat pada sebuah objek;
> - `Methods` adalah berbagai fungsi yang dapat diterapkan kepada sebuah objek.

Oleh karena pada prinsipnya `pandas.dataframe` adalah sebuah objek python, maka sudah barang tentu ia akan memiliki `attributes` dan juga `methods`. Dua ilustrasi pada bagian ini akan mencontohkan bagaimana penerapan baik `attributes` maupun `methods` dari `pandas.dataframe` dalam proses mendeskripsikan data.

#### Ilustrasi 5: `pandas.dataframe` attributes
Eksekusi beberapa attributes di bawah berikut, lalu tuliskan jawaban beberapa pertanyaan di bawah ini pada `markdown cell` yang disediakan:
- Apa perbedaan dari `pd.dataframe.ndim`, `pd.dataframe.shape`, dan `pd.dataframe.size`?
- Attribute apa yang kita pergunakan untuk mengetahui berbagai indeks dan sekaligus nama kolom yang ada pada sebuah dataframe?
- Attribute apa yang kita pergunakan untuk mengetahui informasi tipe data dari masing-masing kolom pada sebuah dataframe?

In [None]:
df_superstore.ndim

In [None]:
df_superstore['Sales'].ndim

In [None]:
df_superstore.shape

In [None]:
df_superstore.size

In [None]:
df_superstore.columns

In [None]:
df_superstore.index

In [None]:
df_superstore.axes

In [None]:
df_superstore.dtypes

In [None]:
df_superstore.values

#### Ilustrasi 6: `pandas.dataframe`'s methods
Eksekusi beberapa `cell codes` di bawah berikut, lalu tuliskan jawaban beberapa pertanyaan berikut ini di `markdown cell` yang disediakan:
1. Apa perbedaan antara method `pd.dataframe.head()` dengan `pd.dataframe.tail()`?
2. Apa perbedaan antara method `pd.dataframe.info()` dengan `pd.dataframe.describe()`?
3. Opsi apa saja yang dapat dijadikan `argument` bagi parameter `include` pada method `pd.dataframe.describe()`?
4. Berapa nilai rata-rata dari kolom `Sales`?
5. Nilai apa yang menjadi `modus` dari kolom `Category`?

In [None]:
df_superstore.head(10)

In [None]:
df_superstore.tail()

In [None]:
df_superstore.info()

In [None]:
df_superstore.describe()

In [None]:
df_superstore.describe(include='number')

In [None]:
df_superstore.describe(include='object')

In [None]:
df_superstore.describe(include='all')

In [None]:
df_superstore.nlargest(5, 'Profit')

In [None]:
df_superstore.nsmallest(5, 'Profit')

#### Ilustrasi 7: `pandas.series`'s methods
Eksekusi setiap `code cell` di bawah berikut, lalu lengkapi informasi terkait masing-masing method pada `code cell` terkait.

In [None]:
# Method `pd.series.value_counts` adalah untuk
df_superstore['Sub-Category'].value_counts()

In [None]:
# Method `pd.series.min` adalah untuk ...
df_superstore['Sales'].min()

In [None]:
# Method `pd.series.max` adalah untuk ...
df_superstore['Sales'].max()

In [None]:
# Method `pd.series.sum` adalah untuk ...
df_superstore['Sales'].sum()

In [None]:
# Method `pd.series.mean` adalah untuk ...
df_superstore['Sales'].mean()

In [None]:
# Method `pd.series.std` adalah untuk ...
df_superstore['Sales'].std()

In [None]:
# Method `pd.series.median` adalah untuk ...
df_superstore['Sales'].median()

In [None]:
# Method `pd.series.quantile(0.25)` adalah untuk ...
df_superstore['Sales'].quantile(0.25)

In [None]:
# Method `pd.series.quantile(0.5)` adalah untuk ...
df_superstore['Sales'].quantile(0.5)

In [None]:
# Method `pd.series.quantile(0.75)` adalah untuk ...
df_superstore['Sales'].quantile(0.75)

# *Data Selection*
Salah satu keunggulan utama `pandas` dalam melakukan manipulasi data adalah kemudahan dalam melakukan pemilihan data. Pada prinsipnya pemilihan data dapat dilakukan dengan menggunakan teknik *slicing* seperti telah dicontohkan pada ilustrasi sebelumnya, akan tetapi cara tersebut dirasa kurang *elegan* dan seringkali sulit untuk dimengerti.

Pada bagian ini akan disampaikan tatacara pemilihan data yang biasanya dilakukan dalam `pandas`, dimulai dengan pengenalan terhadap `accessors` untuk pemilihan data, hingga penyusunan `filter`.

## Accessors
> `Accessors` adalah objek yang disematkan ke sebuah `attribute` dari `pandas.dataframe/pandas.series` yang memberikan fungsionalitas ekstra tertentu.

`pandas` menyediakan dua `accessors` yang sangat populer dipergunakan untuk melakukan pemilihan data secara fleksibel, antara lain:
1. `pd.dataframe.loc[]`, dengan format penggunaan:
```
nama_dataframe.loc[<pilih_rows>, <pilih_nama_kolom>]
```
2. `pd.dataframe.iloc[]`, dengan format penggunaan:
```
nama_dataframe.iloc[<pilih_rows>, <pilih_indeks_kolom>]
```

#### Ilustrasi 8: Pemilihan Data - `Accessors`
Tuliskan beberapa perbedaan utama baik dalam cara penggunaan maupun output dari `accessor` `.loc` dengan `.iloc`, di `markdown cell` yang disediakan di bawah, setelah `kedua `code cell` di bawah berikut di eksekusi.

In [None]:
df_superstore.loc[df_superstore['Profit']<0, ['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit']]

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit
3,US-2018-108966,Furniture,Tables,957.5775,-383.0310
14,US-2018-118983,Office Supplies,Appliances,68.8100,-123.8580
15,US-2018-118983,Office Supplies,Binders,2.5440,-3.8160
23,US-2020-156909,Furniture,Chairs,71.3720,-1.0196
27,US-2018-150630,Furniture,Bookcases,3083.4300,-1665.0522
...,...,...,...,...,...
9920,CA-2019-149272,Office Supplies,Binders,22.3860,-35.8176
9921,CA-2017-111360,Office Supplies,Binders,5.7420,-4.5936
9931,CA-2018-104948,Furniture,Bookcases,683.3320,-40.1960
9937,CA-2019-164889,Furniture,Tables,71.0880,-1.7772


In [None]:
df_superstore.iloc[[3, 14, 15, 23], [0, 8, 9, 4, 7]]

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit
3,US-2018-108966,Furniture,Tables,957.5775,-383.031
14,US-2018-118983,Office Supplies,Appliances,68.81,-123.858
15,US-2018-118983,Office Supplies,Binders,2.544,-3.816
23,US-2020-156909,Furniture,Chairs,71.372,-1.0196


In [None]:
df_superstore.loc[0:10, ['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit']]

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit
0,CA-2019-152156,Furniture,Bookcases,261.96,41.9136
1,CA-2019-152156,Furniture,Chairs,731.94,219.582
2,CA-2019-138688,Office Supplies,Labels,14.62,6.8714
3,US-2018-108966,Furniture,Tables,957.5775,-383.031
4,US-2018-108966,Office Supplies,Storage,22.368,2.5164
5,CA-2017-115812,Furniture,Furnishings,48.86,14.1694
6,CA-2017-115812,Office Supplies,Art,7.28,1.9656
7,CA-2017-115812,Technology,Phones,907.152,90.7152
8,CA-2017-115812,Office Supplies,Binders,18.504,5.7825
9,CA-2017-115812,Office Supplies,Appliances,114.9,34.47


In [None]:
df_superstore.iloc[0:10, [0, 8, 9, 4, 7]]

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit
0,CA-2019-152156,Furniture,Bookcases,261.96,41.9136
1,CA-2019-152156,Furniture,Chairs,731.94,219.582
2,CA-2019-138688,Office Supplies,Labels,14.62,6.8714
3,US-2018-108966,Furniture,Tables,957.5775,-383.031
4,US-2018-108966,Office Supplies,Storage,22.368,2.5164
5,CA-2017-115812,Furniture,Furnishings,48.86,14.1694
6,CA-2017-115812,Office Supplies,Art,7.28,1.9656
7,CA-2017-115812,Technology,Phones,907.152,90.7152
8,CA-2017-115812,Office Supplies,Binders,18.504,5.7825
9,CA-2017-115812,Office Supplies,Appliances,114.9,34.47


**PERBEDAAN `loc` vs `iloc`:**

1.


## Filtering
Salah satu fitur lain yang disediakan `pandas` adalah memanfaatkan `boolean arrays` untuk melakukan filtering. Filtering dilakukan melalui dua tahap berikut, yaitu:
1. Menyusun filter, dengan format penulisan umumnya:
```python
nama_filter = <boolean_expression>
```
2. Menyematkan filter ke dataframe, dengan format penulisan:
```python
data_difilter = nama_dataframe[nama_filter]
```

### Ilustrasi 9: Data Filtering
Lengkapi ekspresi pada statements di bawah, agar dapat dieksekusi untuk menghasilkan dataframe berisikan `rows` dengan nilai `Profit` negatif (mengalami kerugian) dari `df_superstore` yang sebelumnya sudah kita *parse*.

In [None]:
df_superstore[['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit']]

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit
0,CA-2019-152156,Furniture,Bookcases,261.9600,41.9136
1,CA-2019-152156,Furniture,Chairs,731.9400,219.5820
2,CA-2019-138688,Office Supplies,Labels,14.6200,6.8714
3,US-2018-108966,Furniture,Tables,957.5775,-383.0310
4,US-2018-108966,Office Supplies,Storage,22.3680,2.5164
...,...,...,...,...,...
9989,CA-2017-110422,Furniture,Furnishings,25.2480,4.1028
9990,CA-2020-121258,Furniture,Furnishings,91.9600,15.6332
9991,CA-2020-121258,Technology,Phones,258.5760,19.3932
9992,CA-2020-121258,Office Supplies,Paper,29.6000,13.3200


In [None]:
# Membuat filter bagi row yang mengalami kerugian (profit<0)
filter_sales_rugi = df_superstore['Profit']<0

# Menyematkan filter ke dataframe induk, assign ke sales_merugi
sales_merugi = df_superstore[filter_sales_rugi]
# lihat isi sales_merugi
sales_merugi

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
14,US-2018-118983,HP-14815,76106,OFF-AP-10002311,68.8100,5,0.80,-123.8580,Office Supplies,Appliances,Holmes Replacement Filter for HEPA Air Cleaner...,11/22/2018,11/26/2018,Standard Class,Harold Pawlan,Home Office,United States,Fort Worth,Texas,Central
15,US-2018-118983,HP-14815,76106,OFF-BI-10000756,2.5440,3,0.80,-3.8160,Office Supplies,Binders,Storex DuraTech Recycled Plastic Frosted Binders,11/22/2018,11/26/2018,Standard Class,Harold Pawlan,Home Office,United States,Fort Worth,Texas,Central
23,US-2020-156909,SF-20065,19140,FUR-CH-10002774,71.3720,2,0.30,-1.0196,Furniture,Chairs,"Global Deluxe Stacking Chair, Gray",7/16/2020,7/18/2020,Second Class,Sandra Flanagan,Consumer,United States,Philadelphia,Pennsylvania,East
27,US-2018-150630,TB-21520,19140,FUR-BO-10004834,3083.4300,7,0.50,-1665.0522,Furniture,Bookcases,"Riverside Palais Royal Lawyers Bookcase, Royal...",9/17/2018,9/21/2018,Standard Class,Tracy Blumstein,Consumer,United States,Philadelphia,Pennsylvania,East
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9920,CA-2019-149272,MY-18295,77803,OFF-BI-10004233,22.3860,7,0.80,-35.8176,Office Supplies,Binders,"GBC Pre-Punched Binding Paper, Plastic, White,...",3/15/2019,3/19/2019,Standard Class,Muhammed Yedwab,Corporate,United States,Bryan,Texas,Central
9921,CA-2017-111360,AT-10435,44312,OFF-BI-10003350,5.7420,3,0.70,-4.5936,Office Supplies,Binders,Acco Expandable Hanging Binders,11/24/2017,11/30/2017,Standard Class,Alyssa Tate,Home Office,United States,Akron,Ohio,East
9931,CA-2018-104948,KH-16510,92404,FUR-BO-10004357,683.3320,4,0.15,-40.1960,Furniture,Bookcases,O'Sullivan Living Dimensions 3-Shelf Bookcases,11/13/2018,11/17/2018,Standard Class,Keith Herrera,Consumer,United States,San Bernardino,California,West
9937,CA-2019-164889,CP-12340,90049,FUR-TA-10001676,71.0880,2,0.20,-1.7772,Furniture,Tables,Hon 61000 Series Interactive Training Tables,6/3/2019,6/6/2019,Second Class,Christine Phan,Corporate,United States,Los Angeles,California,West


## QUERYING

Selain kedua cara yang telah disebutkan sebelumnya di atas, `pandas` juga menyediakan sebuah method yang memungkinkan dilakukannya filtering dengan gaya query pada `SQL`. Terdapat dua method yang disedakan oleh `pandas`, yaitu:
1. `pd.DataFrame.query` yang dipergunakan untuk melakukan filtering rows berdasarkan kondisi tertentu, dengan contoh penggunaan method tersebut:
```python
data_difilter = nama_dataframe.query("suatu_kolom == 1")
```
2. `pd.DataFrame.filter` yang dipergunakan untuk melakukan filtering terhadap index pada dataframe, baik kolom maupun rows, dengan contoh penggunaan sebagai berikut:
```python
data_difilter_kolom = nama_dataframe.filter(<list_nama_kolom>, axis=1)
data_difilter_row = nama_dataframe.filter(<list_index_row>, axis=0)
```

#### Ilustrasi 10: Querying
Lengkapi ekspresi pada statements di bawah, agar dapat dieksekusi untuk menghasilkan dataframe berisikan `rows` dengan nilai `Profit` negatif (mengalami kerugian) dari `df_superstore` yang sebelumnya sudah kita *parse*.

In [None]:
# Terapkan method query untuk memfilter rows dengan nilai Profit<0
sales_merugi_query = df_superstore.query('Profit<0')

# lihat isi sales_merugi_query
sales_merugi_query

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
14,US-2018-118983,HP-14815,76106,OFF-AP-10002311,68.8100,5,0.80,-123.8580,Office Supplies,Appliances,Holmes Replacement Filter for HEPA Air Cleaner...,11/22/2018,11/26/2018,Standard Class,Harold Pawlan,Home Office,United States,Fort Worth,Texas,Central
15,US-2018-118983,HP-14815,76106,OFF-BI-10000756,2.5440,3,0.80,-3.8160,Office Supplies,Binders,Storex DuraTech Recycled Plastic Frosted Binders,11/22/2018,11/26/2018,Standard Class,Harold Pawlan,Home Office,United States,Fort Worth,Texas,Central
23,US-2020-156909,SF-20065,19140,FUR-CH-10002774,71.3720,2,0.30,-1.0196,Furniture,Chairs,"Global Deluxe Stacking Chair, Gray",7/16/2020,7/18/2020,Second Class,Sandra Flanagan,Consumer,United States,Philadelphia,Pennsylvania,East
27,US-2018-150630,TB-21520,19140,FUR-BO-10004834,3083.4300,7,0.50,-1665.0522,Furniture,Bookcases,"Riverside Palais Royal Lawyers Bookcase, Royal...",9/17/2018,9/21/2018,Standard Class,Tracy Blumstein,Consumer,United States,Philadelphia,Pennsylvania,East
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9920,CA-2019-149272,MY-18295,77803,OFF-BI-10004233,22.3860,7,0.80,-35.8176,Office Supplies,Binders,"GBC Pre-Punched Binding Paper, Plastic, White,...",3/15/2019,3/19/2019,Standard Class,Muhammed Yedwab,Corporate,United States,Bryan,Texas,Central
9921,CA-2017-111360,AT-10435,44312,OFF-BI-10003350,5.7420,3,0.70,-4.5936,Office Supplies,Binders,Acco Expandable Hanging Binders,11/24/2017,11/30/2017,Standard Class,Alyssa Tate,Home Office,United States,Akron,Ohio,East
9931,CA-2018-104948,KH-16510,92404,FUR-BO-10004357,683.3320,4,0.15,-40.1960,Furniture,Bookcases,O'Sullivan Living Dimensions 3-Shelf Bookcases,11/13/2018,11/17/2018,Standard Class,Keith Herrera,Consumer,United States,San Bernardino,California,West
9937,CA-2019-164889,CP-12340,90049,FUR-TA-10001676,71.0880,2,0.20,-1.7772,Furniture,Tables,Hon 61000 Series Interactive Training Tables,6/3/2019,6/6/2019,Second Class,Christine Phan,Corporate,United States,Los Angeles,California,West


In [None]:
# Terapkan method filter untuk menampilkan kolom-kolom tertentu saja dari sales_merugi_query
sales_merugi_query.filter(['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit'])

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit
3,US-2018-108966,Furniture,Tables,957.5775,-383.0310
14,US-2018-118983,Office Supplies,Appliances,68.8100,-123.8580
15,US-2018-118983,Office Supplies,Binders,2.5440,-3.8160
23,US-2020-156909,Furniture,Chairs,71.3720,-1.0196
27,US-2018-150630,Furniture,Bookcases,3083.4300,-1665.0522
...,...,...,...,...,...
9920,CA-2019-149272,Office Supplies,Binders,22.3860,-35.8176
9921,CA-2017-111360,Office Supplies,Binders,5.7420,-4.5936
9931,CA-2018-104948,Furniture,Bookcases,683.3320,-40.1960
9937,CA-2019-164889,Furniture,Tables,71.0880,-1.7772


In [None]:
df_superstore.query('Segment=="Consumer"')

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.9600,2,0.00,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.9400,3,0.00,219.5820,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.3680,2,0.20,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
5,CA-2017-115812,BH-11710,90032,FUR-FU-10001487,48.8600,7,0.00,14.1694,Furniture,Furnishings,Eldon Expressions Wood and Plastic Desk Access...,6/9/2017,6/14/2017,Standard Class,Brosina Hoffman,Consumer,United States,Los Angeles,California,West
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2017-110422,TB-21400,33180,FUR-FU-10001889,25.2480,3,0.20,4.1028,Furniture,Furnishings,Ultra Door Pull Handle,1/21/2017,1/23/2017,Second Class,Tom Boeckenhauer,Consumer,United States,Miami,Florida,South
9990,CA-2020-121258,DB-13060,92627,FUR-FU-10000747,91.9600,2,0.00,15.6332,Furniture,Furnishings,Tenex B1-RE Series Chair Mats for Low Pile Car...,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West
9991,CA-2020-121258,DB-13060,92627,TEC-PH-10003645,258.5760,2,0.20,19.3932,Technology,Phones,Aastra 57i VoIP phone,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West
9992,CA-2020-121258,DB-13060,92627,OFF-PA-10004041,29.6000,4,0.00,13.3200,Office Supplies,Paper,"It's Hot Message Books with Stickers, 2 3/4"" x 5""",2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West


## EXERCISE 2
Melakukan pemilihan data menggunakan:
1. Tiga filter:
  - `rows` dimana value `Sales` melebihi nilai quantile ke-3nya;
  - `rows` dimana value `Region` adalah 'East'; dan
  - `rows` dimana value `Profit` melebihi nilai quantile ke-3nya.
2. Kolom-kolom terpilih:
```python
['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit', 'Region']
```



In [None]:
# FILTERING : ACCESSOR .loc
# Buat filters
filter_sales_over = df_superstore['Sales']>df_superstore['Sales'].quantile(0.75)
filter_region = df_superstore['Region']=='East'
filter_profit = df_superstore['Profit']>df_superstore['Profit'].quantile(0.75)

# Buat kolom pilihan:
kolom_terpilih = ['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit', 'Region']

# Pilih data, gunakan accessor `.loc`
sales_tinggi_east = df_superstore.loc[filter_sales_over & filter_region & filter_profit, kolom_terpilih]

# Cek isi sales_tinggi
sales_tinggi_east

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit,Region
54,CA-2019-105816,Technology,Phones,1029.950,298.6855,East
121,CA-2019-103730,Office Supplies,Storage,226.560,63.4368,East
189,CA-2018-102281,Furniture,Bookcases,899.136,112.3920,East
192,CA-2018-102281,Furniture,Bookcases,626.352,46.9764,East
253,CA-2019-146941,Office Supplies,Envelopes,361.920,162.8640,East
...,...,...,...,...,...,...
9879,CA-2019-122581,Furniture,Chairs,573.174,63.6860,East
9897,CA-2019-112830,Furniture,Furnishings,466.320,34.9740,East
9925,CA-2018-159534,Office Supplies,Binders,1087.936,353.5792,East
9957,US-2017-143287,Office Supplies,Paper,223.920,109.7208,East


In [None]:
f"Region=='East' & Sales>{df_superstore['Sales'].quantile(0.75)} & Profit>{df_superstore['Profit'].quantile(0.75)}"

"Region=='East' & Sales>209.94 & Profit>29.364"

In [None]:
# QUERYING
# Buat query bagi filtering
query_filter = f"Region=='East' & Sales>{df_superstore['Sales'].quantile(0.75)} & Profit>{df_superstore['Profit'].quantile(0.75)}"

# gunakan method `pd.dataframe.query` & `pd.dataframe.filter` untuk melakukan filtering
sales_tinggi_east_query = df_superstore.query(query_filter).filter(kolom_terpilih)

# lihat isi sales_tinggi query
sales_tinggi_east_query

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit,Region
54,CA-2019-105816,Technology,Phones,1029.950,298.6855,East
121,CA-2019-103730,Office Supplies,Storage,226.560,63.4368,East
189,CA-2018-102281,Furniture,Bookcases,899.136,112.3920,East
192,CA-2018-102281,Furniture,Bookcases,626.352,46.9764,East
253,CA-2019-146941,Office Supplies,Envelopes,361.920,162.8640,East
...,...,...,...,...,...,...
9879,CA-2019-122581,Furniture,Chairs,573.174,63.6860,East
9897,CA-2019-112830,Furniture,Furnishings,466.320,34.9740,East
9925,CA-2018-159534,Office Supplies,Binders,1087.936,353.5792,East
9957,US-2017-143287,Office Supplies,Paper,223.920,109.7208,East


# Data Sorting
Mengurutkan data berdasarkan value pada kolom tertentu dapat dengan mudah dilakukan dengan menggunakan method `pandas.dataframe.sort_values()`, dengan format penulisan seperti berikut:
```python
nama_dataframe.sort_values(by=<list_nama_kolom>, ascending=<list_boolean>]
```

#### Ilustrasi 11: Sorting data
1. Lakukan pengurutan data `sales_merugi` berdasarkan kriteria berikut:
 - Value `Profit` dari yang paling rendah;
 - Value `Sales` dari yang paling tinggi.
2. Lakukan pengurutan data `sales_tinggi` berdasarkan kriteria berikut:
 - Value `Profit` dari yang paling tinggi;
 - Value `Sales` dari yang paling tinggi.

In [None]:
sales_merugi.sort_values(by=['Profit', 'Sales'], ascending=[True,False])[['Profit', 'Sales']]

Unnamed: 0,Profit,Sales
7772,-6599.9780,4499.985
683,-3839.9904,7999.980
9774,-3701.8928,2177.584
3011,-3399.9800,2549.985
4991,-2929.4845,1889.990
...,...,...
4660,-0.3444,27.552
7413,-0.3398,13.592
1566,-0.2685,21.480
1496,-0.2098,16.784


In [None]:
sales_tinggi_east.sort_values(by=['Profit', 'Sales'], ascending=[False,False])

Unnamed: 0,Order_ID,Category,Sub-Category,Sales,Profit,Region
4190,CA-2020-166709,Technology,Copiers,10499.970,5039.9856,East
2623,CA-2020-127180,Technology,Copiers,11199.968,3919.9888,East
7666,US-2019-140158,Technology,Copiers,5399.910,2591.9568,East
1085,US-2019-143819,Technology,Machines,4899.930,2400.9657,East
4277,US-2019-107440,Technology,Machines,9099.930,2365.9818,East
...,...,...,...,...,...,...
6155,CA-2020-151484,Office Supplies,Storage,332.704,33.2704,East
6778,US-2019-147711,Furniture,Bookcases,344.940,31.0446,East
6761,CA-2019-162943,Furniture,Chairs,253.764,31.0156,East
5972,CA-2020-115105,Furniture,Bookcases,240.784,30.0980,East


# *Data Manipulation*

### *Arithmatic Operations*
Berbagai operasi aritmatik--penjumlahann(`+`), pengurangan (`-`), pembagian (`/`), perkalian (`*`), dan pemangkatan (`**`)--dapat diterapkan terhadap `pandas.series` dan `pandas.dataframe` objek.
Format penulisan operasi aritmatika, antara lain:
```python
# Operasi aritmatika antar kolom
dataframe[<nama_kolom_baru>] = dataframe[<kolom_a>] <operator_aritmatika> dataframe[<kolom_b>]
```

#### Ilustrasi 12: Menghitung Harga Satuan
Dataframe `df_superstore` yang sebelumnya telah kita parse ternyata tidak memiliki informasi terkait harga satuan dari masing-masing `Sales` yang terjadi. Oleh karena informasi tersebut diperlukan, maka kita perlu untuk melakukan penghitungan harga satuan, dan menyimpan hasil perhitungan tersebut pada sebuah kolom baru bernama `Price`.

Sebelum menuliskan `script` untuk perhitungan diatas, lengkapi beberapa informasi yang diperlukan berikut:
- Data yang akan diperlukan untuk menghitung `Price` adalah:
  - ```Sales```
  - ```Quantity```
- Rumus penghitungan `Price` adalah:

  $ Price_i = \frac{Sales_i}{Quantity_i} $

In [None]:
# Menghitung Harga Satuan
df_superstore['Price'] = df_superstore['Sales']/df_superstore['Quantity']

In [None]:
df_superstore.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.98
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.98
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.31
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184


## EXERCISE 3
*Management* memerlukan informasi terkait 10 Transaksi Penjualan yang memiliki persentase nilai penjualan yang paling tinggi untuk tujuan pemberian reward. Lakukan penghitungan persentase sales dari total sales, dan simpan hasilnya pada kolom baru bernama `Share`.

Sama seperti pada **Ilustrasi 9** sebelumnya, silahkan tuliskan beberapa informasi yang diperlukan di bawah ini:
- Data yang diperlukan:
  - ```Sales```
  - ```Total_Sales```
- Rumus perhitungan:

  $ Share_{i} = \frac{Sales_i}{\sum Sales}*100 $

In [None]:
# Hitung Share
df_superstore['Share'] = df_superstore['Sales'] / df_superstore['Sales'].sum() * 100
# Tampilkan 10 rows dengan Share Sales paling besar
df_superstore.sort_values(by='Share', ascending=False).head(10)

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share
2697,CA-2017-145317,SM-20320,32216,TEC-MA-10002412,22638.48,6,0.5,-1811.0784,Technology,Machines,...,3/23/2017,Standard Class,Sean Miller,Home Office,United States,Jacksonville,Florida,South,3773.08,0.985481
6826,CA-2019-118689,TC-20980,47905,TEC-CO-10004722,17499.95,5,0.0,8399.976,Technology,Copiers,...,10/9/2019,Standard Class,Tamara Chand,Corporate,United States,Lafayette,Indiana,Central,3499.99,0.761795
8153,CA-2020-140151,RB-19360,98115,TEC-CO-10004722,13999.96,4,0.0,6719.9808,Technology,Copiers,...,3/25/2020,First Class,Raymond Buch,Consumer,United States,Seattle,Washington,West,3499.99,0.609436
2623,CA-2020-127180,TA-21385,10024,TEC-CO-10004722,11199.968,4,0.2,3919.9888,Technology,Copiers,...,10/24/2020,First Class,Tom Ashbrook,Home Office,United States,New York City,New York,East,2799.992,0.487548
4190,CA-2020-166709,HL-15040,19711,TEC-CO-10004722,10499.97,3,0.0,5039.9856,Technology,Copiers,...,11/22/2020,Standard Class,Hunter Lopez,Consumer,United States,Newark,Delaware,East,3499.99,0.457077
9039,CA-2019-117121,AB-10105,48205,OFF-BI-10000545,9892.74,13,0.0,4946.37,Office Supplies,Binders,...,12/21/2019,Standard Class,Adrian Barton,Consumer,United States,Detroit,Michigan,Central,760.98,0.430643
4098,CA-2017-116904,SC-20095,55407,OFF-BI-10001120,9449.95,5,0.0,4630.4755,Office Supplies,Binders,...,9/28/2017,Standard Class,Sanjit Chand,Consumer,United States,Minneapolis,Minnesota,Central,1889.99,0.411368
4277,US-2019-107440,BS-11365,8701,TEC-MA-10001047,9099.93,7,0.0,2365.9818,Technology,Machines,...,4/20/2019,Standard Class,Bill Shonely,Corporate,United States,Lakewood,New Jersey,East,1299.99,0.396131
8488,CA-2019-158841,SE-20110,22204,TEC-MA-10001127,8749.95,5,0.0,2799.984,Technology,Machines,...,2/4/2019,Second Class,Sanjit Engle,Consumer,United States,Arlington,Virginia,South,1749.99,0.380896
6425,CA-2019-143714,CC-12370,19120,TEC-CO-10004722,8399.976,4,0.4,1119.9968,Technology,Copiers,...,5/27/2019,Standard Class,Christopher Conant,Consumer,United States,Philadelphia,Pennsylvania,East,2099.994,0.365661


In [None]:
df_superstore.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.31,0.000636
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974


## *Applying Functions to `DataFrame`*
`Pandas` menyediakan beberapa methods yang dapat mengakomodir berbagai proses manipulasi data pada objek `pandas.dataframe` dan `pandas.series` dengan menggunakan `functions`, `methods` atau bahkan `user-defined functions` secara berantai (`method chaining`), antara lain:
1. `.apply()`, dengan format penulisan:
```python
# Memanipulasi data dengan menerapkan function ke seluruh kolom pada DataFrame:
dataframe.apply(func, axis: [0, 1]=0)
# Memanipulasi data dengan enerapkan function ke sebuah kolom tertentu pada DataFrame:
dataframe[<nama_kolom>].apply(func)
```
2. `.assign()`, dengan format penulisan:
```python
# Memanipulasi data pada pada suatu kolom menggunakan method dan menyimpan hasilnya di kolom baru
dataframe.assign(nama_kolom_baru=lambda df: df[<nama_kolom>].method())
```
3. `.pipe()`, dengan format penulisan:
```python
# Memanipulasi dataframe menggunakan fungsi user-defined
dataframe.pipe(<nama_fungsi_userdefined>, parameter=argument)
```

---

#### *Lambda Function* di Python
Salah satu tipe fungsi yang akan sering dipergunakan ketika melakukan pengolahan data menggunakan python adalah `lambda function`.

> *Lambda function* adalah sebuah fungsi *generic* yang biasanya berstruktur sederhana, dibuat secara cepat dan ringkas **tanpa perlu mendefinisikan fungsi secara lengkap** dengan `def`.

##### Struktur Umum:

```python
lambda parameter: <ekspresi>
```

##### `User-defined function` VS `lambda function`:

```python
# User-defined function biasa
def pangkat_2(x):
    return x ** 2

# Lambda function setara
pangkat_2_lambda = lambda x: x ** 2

print(pangkat_2_lambda(5))  # Output: 25
```

##### Kapan Menggunakan Lambda?

Lambda biasa digunakan saat kita butuh fungsi **sekilas**, terutama di dalam:

* fungsi seperti `map()`, `filter()`, `sorted()`, dll.
* konteks pemrograman fungsional atau cepat-cek

##### Contoh:

```python
# Menyaring angka genap dari list
angka = [1, 2, 3, 4, 5, 6]
genap = list(filter(lambda x: x % 2 == 0, angka))
print(genap)  # Output: [2, 4, 6]

# Mengurutkan daftar berdasarkan panjang string
kata = ['apel', 'jeruk', 'kiwi']
sorted_kata = sorted(kata, key=lambda x: len(x))
print(sorted_kata)  # Output: ['kiwi', 'apel', 'jeruk']
```

##### Catatan:

* Lambda hanya bisa berisi **satu ekspresi**, tidak bisa berisi banyak pernyataan.
* Gunakan untuk **fungsi sederhana** saja agar kode tetap mudah dibaca.

---

#### Ilustrasi 13: Memanipulasi Data `String`
Pada ilustrasi 13 ini, akan dilakukan manipulasi data `string` pada kolom `Customer_Name` sebagai berikut:
1. Dirubah menjadi upper case; dan
2. Dirubah menjadi lower case;

Masing-masing proses tersebut akan dilakukan dengan menggunakan method `.apply()` dan `.assign()`.

In [None]:
# Tampilkan 5 record teratas pada Series df_superstore['Customer_Name']
df_superstore['Customer_Name'].head()

Unnamed: 0,Customer_Name
0,Claire Gute
1,Claire Gute
2,Darrin Van Huff
3,Sean O'Donnell
4,Sean O'Donnell


In [None]:
# Merubah value Customer_Name ke upper case menggunakan method .apply()
df_superstore['Customer_Name'].apply(lambda x: x.upper()).head()

Unnamed: 0,Customer_Name
0,CLAIRE GUTE
1,CLAIRE GUTE
2,DARRIN VAN HUFF
3,SEAN O'DONNELL
4,SEAN O'DONNELL


In [None]:
# Merubah value Customer_Name ke lower case menggunakan method .apply()
df_superstore['Customer_Name'].apply(lambda elemen: elemen.lower()).head()

Unnamed: 0,Customer_Name
0,claire gute
1,claire gute
2,darrin van huff
3,sean o'donnell
4,sean o'donnell


In [None]:
# merubah Value Customer_Name ke upper case menggunakan method .assign()
df_superstore.assign(Customer_Name=lambda df: df['Customer_Name'].str.upper()).head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/11/2019,Second Class,CLAIRE GUTE,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/11/2019,Second Class,CLAIRE GUTE,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/16/2019,Second Class,DARRIN VAN HUFF,Corporate,United States,Los Angeles,California,West,7.31,0.000636
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/18/2018,Standard Class,SEAN O'DONNELL,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/18/2018,Standard Class,SEAN O'DONNELL,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974


In [None]:
# Merubah Value Customer_Name ke lower case menggunakan method .assign()
df_superstore.assign(Customer_Name=lambda df: df['Customer_Name'].str.lower()).head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/11/2019,Second Class,claire gute,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/11/2019,Second Class,claire gute,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/16/2019,Second Class,darrin van huff,Corporate,United States,Los Angeles,California,West,7.31,0.000636
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/18/2018,Standard Class,sean o'donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/18/2018,Standard Class,sean o'donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974


In [None]:
# Cek lima rows paling atas pada df_superstore
df_superstore.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.31,0.000636
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974


#### Ilustrasi 14: Manipulasi Data `String`
Pada ilustrasi ini, kita akan mencoba untuk melakukan manipulasi value pada Customer_Name berupa proses pemisahan menjadi 2 berdasarkan karakter `space` yang pertama ditemukan, lalu menyimpan hasilnya ke kolom `First_Name` dan `Last_Name`. Proses dimaksud akan dilakukan dengan menggunakan method `.pipe()` dan `.assign()`.

In [None]:
# User-defined function
def split_string(
    df: pd.DataFrame,
    nama_kolom: str,
    list_kolom_baru: list,
    pattern: str = " ",
    jumlah_split: int = 1,
    inplace: bool = False) -> pd.DataFrame | None:
    """
    Fungsi untuk memecah value bertipe str pada sebuah kolom,
    lalu menyimpan hasilnya ke dua kolom baru
    Arguments:
       1. df: dataframe yang salah satu kolomnya akan displit;
       2. nama_kolom: Nama kolom yang valuenya akan displit;
       3. list_kolom_baru: List berisi dua nama kolom baru untuk menyimpan hasil split;
       4. pattern: Pola string yang dijadikan patokan bagi proses split;
       5. jumlah_split: Jumlah proses pemisahan yang dilakukan terhadap sebuah elemen;
       6. inplace: Proses pemisahan langsung dilakukan terhadap df atau tidak.
    """
    # Validasi jumlah elemen list_kolom_baru
    if len(list_kolom_baru) != jumlah_split+1:
        raise ValueError('Jumlah elemen pada list_kolom_baru tidak sesuai dengan jumlah_split')

    # Split Strings lalu simpan di kolom baru
    if inplace == True:
        df[list_kolom_baru] = df[nama_kolom].str.split(pat=pattern, n=jumlah_split, expand=True)
        return df
    else:
        df_copy = df.copy()
        df_copy[list_kolom_baru] = df_copy[nama_kolom].str.split(pat=pattern, n=jumlah_split, expand=True)
        return df_copy

In [None]:
# Menanggil split_string untuk mengolah df_superstore
split_string(df_superstore, 'Customer_Name', ['Fist_Name', 'Last_Name']).head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share,Fist_Name,Last_Name
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403,Claire,Gute
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862,Claire,Gute
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.31,0.000636,Darrin,Van Huff
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685,Sean,O'Donnell
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974,Sean,O'Donnell


In [None]:
# Membuat kolom First_Name dan Last_Name menggunakan method .pipe()
df_superstore.pipe(split_string, nama_kolom='Customer_Name', list_kolom_baru=['First_Name', 'Last_Name'])

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share,First_Name,Last_Name
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.9600,2,0.00,41.9136,Furniture,Bookcases,...,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.9800,0.011403,Claire,Gute
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.9400,3,0.00,219.5820,Furniture,Chairs,...,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.9800,0.031862,Claire,Gute
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.6200,2,0.00,6.8714,Office Supplies,Labels,...,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.3100,0.000636,Darrin,Van Huff
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,...,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685,Sean,O'Donnell
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.3680,2,0.20,2.5164,Office Supplies,Storage,...,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.1840,0.000974,Sean,O'Donnell
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2017-110422,TB-21400,33180,FUR-FU-10001889,25.2480,3,0.20,4.1028,Furniture,Furnishings,...,Tom Boeckenhauer,Consumer,United States,Miami,Florida,South,8.4160,0.001099,Tom,Boeckenhauer
9990,CA-2020-121258,DB-13060,92627,FUR-FU-10000747,91.9600,2,0.00,15.6332,Furniture,Furnishings,...,Dave Brooks,Consumer,United States,Costa Mesa,California,West,45.9800,0.004003,Dave,Brooks
9991,CA-2020-121258,DB-13060,92627,TEC-PH-10003645,258.5760,2,0.20,19.3932,Technology,Phones,...,Dave Brooks,Consumer,United States,Costa Mesa,California,West,129.2880,0.011256,Dave,Brooks
9992,CA-2020-121258,DB-13060,92627,OFF-PA-10004041,29.6000,4,0.00,13.3200,Office Supplies,Paper,...,Dave Brooks,Consumer,United States,Costa Mesa,California,West,7.4000,0.001289,Dave,Brooks


In [None]:
# Membuat kolom First_Name dan Last_Name menggunakan method .assign()
df_superstore.assign(First_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[0],
                     Last_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[1]).head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share,First_Name,Last_Name
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403,Claire,Gute
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862,Claire,Gute
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.31,0.000636,Darrin,Van Huff
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685,Sean,O'Donnell
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974,Sean,O'Donnell


In [None]:
# Tampilkan 5 rows teratas dari df_superstore
df_superstore.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Price,Share
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,130.98,0.011403
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,243.98,0.031862
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,7.31,0.000636
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,191.5155,0.041685
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,11.184,0.000974


---
#### *Method Chaining* di Python

> *Method chaining* adalah teknik pemrograman di mana **beberapa method dipanggil secara berurutan pada sebuah objek**, dalam satu baris kode.

##### Mengapa Digunakan?

* Membuat kode lebih **ringkas** dan **terbaca seperti alur proses**.
* Menghindari penulisan berulang variabel antara satu proses dengan proses berikutnya.

##### Contoh pada *String*:

```python
kalimat = "  belajar Python itu MUDAH  "
hasil = kalimat.strip().lower().replace("mudah", "menyenangkan")
print(hasil)  # Output: belajar python itu menyenangkan
```

Penjelasan:

1. `.strip()` menghapus spasi di awal dan akhir
2. `.lower()` mengubah semua huruf jadi kecil
3. `.replace()` mengganti kata

##### Contoh pada *pandas DataFrame*:

```python
import pandas as pd

# Contoh DataFrame
df = pd.DataFrame({
    'Nama': ['Ari', 'Budi', 'Citra', 'Dina'],
    'Nilai': [80, 55, 90, 65]
})

# Chaining untuk filter dan sort
hasil = df[df['Nilai'] > 60].sort_values(by='Nilai', ascending=False).reset_index(drop=True)

print(hasil)
```

🔍 Penjelasan:

1. `df[df['Nilai'] > 60]` → menyaring baris dengan nilai > 60
2. `.sort_values()` → mengurutkan dari nilai tertinggi
3. `.reset_index()` → mereset indeks setelah sortir

##### Tips:

* Pastikan setiap method **mengembalikan objek baru** (bukan `None`), agar chaining bisa berlanjut.
* Jika terlalu panjang, gunakan pemenggalan dengan menggunakan tanda `\` atau pindahkan ke beberapa baris untuk keterbacaan.

```python
# Contoh tanpa pemenggalan
kalimat.strip().lower().replace('mudah', 'menyenangkan')

# Contoh pemenggalan \
kalimat \
.strip() \
.lower() \
.replace('mudah', 'menyenangkan')

# Contoh pemenggalan baris
(
  kalimat
  .strip()
  .lower()
  .replace('mudah', 'menyenangkan')
)
```
---

#### Ilustrasi 15: Manipulasi Data String: `Method Chaining`

In [None]:
# Melakukan manipulasi secara method Chaining
(
    pd.read_csv(file_path, usecols=['Customer_Name'])
    .assign(Customer_Capitalized=lambda df: df['Customer_Name'].str.upper(),
            Customer_Lower_Case=lambda df: df['Customer_Name'].str.lower())
    .pipe(split_string, nama_kolom='Customer_Name', list_kolom_baru=['First_Name', 'Last_Name'])
).head()

Unnamed: 0,Customer_Name,Customer_Capitalized,Customer_Lower_Case,First_Name,Last_Name
0,Claire Gute,CLAIRE GUTE,claire gute,Claire,Gute
1,Claire Gute,CLAIRE GUTE,claire gute,Claire,Gute
2,Darrin Van Huff,DARRIN VAN HUFF,darrin van huff,Darrin,Van Huff
3,Sean O'Donnell,SEAN O'DONNELL,sean o'donnell,Sean,O'Donnell
4,Sean O'Donnell,SEAN O'DONNELL,sean o'donnell,Sean,O'Donnell


In [None]:
df_nama_dimanipulasi = (
    pd.read_csv(file_path, usecols=['Customer_Name'])
    .assign(Customer_Capitalized=lambda df: df['Customer_Name'].str.upper(),
            Customer_Lower_Case=lambda df: df['Customer_Name'].str.lower(),
            First_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[0],
            Last_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[1])
    .filter(['Customer_Name', 'First_Name', 'Last_Name', 'Customer_Capitalized', 'Customer_Lower_Case'])
)
df_nama_dimanipulasi.head()

Unnamed: 0,Customer_Name,First_Name,Last_Name,Customer_Capitalized,Customer_Lower_Case
0,Claire Gute,Claire,Gute,CLAIRE GUTE,claire gute
1,Claire Gute,Claire,Gute,CLAIRE GUTE,claire gute
2,Darrin Van Huff,Darrin,Van Huff,DARRIN VAN HUFF,darrin van huff
3,Sean O'Donnell,Sean,O'Donnell,SEAN O'DONNELL,sean o'donnell
4,Sean O'Donnell,Sean,O'Donnell,SEAN O'DONNELL,sean o'donnell


### *Grouping and Aggregation*
Secara sederhana, proses mengaggregatkan sekelompok value, seperti yang dimuat dalam sebuah `pandas.series` dapat dilakukan dengan menggunakan beberapa method seperti berikut:
1. `.sum()`;
2. `.count()`;
3. `.mean()`;
4. `.median()`;
5. `.min()`;
6. `.max()`; dan
7. `.std()`.

Namun pada prakteknya, aggregasi akan jauh lebih bermanfaat jika dilakukan berdasarkan pengelompokkan atau pelabelan tertentu. Untuk melakukan aggregasi dengan pengelompokkan, maka `pandas` menyediakan method `.groupby()` yang dapat dikombinasikan langsung dengan `aggregate methods` di atas, dengan format penulisan seperti berikut ini:
```python
# Aggregasi dengan grouping sederhana
dataframe.groupby([<kolom_kolom_pengelompokkan>])[kolom_dihitung].method()
```
Tak jarang diperlukan beberapa aggregasi yang dilakukan sekaligus terhadap beberapa values, berdasarkan pengelompokkan tertentu. `Pandas` juga menyediakan fitur yang memungkinkan dilakukannya kebutuhan seperti tersebut, melalui method `.agg()`, dengan format penulisan sebagai berikut:
```python
# Multiple Aggregation
dataframe.groupby([<kolom_kolom_pengelompokkan>]).agg({
  'kolom_dihitung_1':[fungsi_fungsi_aggregat],
  'kolom_dihitung_2':[fungsi_fungsi_aggregat]
})
```

### Ilustrasi 16: Grouping and Aggregation
Beberapa pertanyaan yang biasanya ditanyakan adalah sebagai berikut:
1. Negara bagian mana yang memiliki rata-rata Sales paling tinggi?
2. Negara bagian mana yang memiliki total Profit paling rendah?

Pada ilustrasi ini, kedua pertanyaan tersebut akan dijawab dengan menggunakan method aggregasi sederhana, dan method `.agg()`.

In [None]:
# Aggregasi Sederhana Rata-rata Sales per Negara Bagian
df_superstore.groupby(['State'])['Sales'].mean().sort_values(ascending=False)

Unnamed: 0_level_0,Sales
State,Unnamed: 1_level_1
Wyoming,1603.136
Vermont,811.760909
Nevada,428.951333
Rhode Island,404.070643
Montana,372.623467
Indiana,359.431946
Missouri,336.441667
Minnesota,335.541011
Alabama,319.846557
Virginia,315.3425


In [None]:
# Aggregasi Sederhana Total Profit per Negara Bagian
df_superstore.groupby(['State'])['Profit'].sum().sort_values()

Unnamed: 0_level_0,Profit
State,Unnamed: 1_level_1
Texas,-25729.3563
Ohio,-16971.3766
Pennsylvania,-15559.9603
Illinois,-12607.887
North Carolina,-7490.9122
Colorado,-6527.8579
Tennessee,-5341.6936
Arizona,-3427.9246
Florida,-3399.3017
Oregon,-1190.4705


In [None]:
# Aggregasi Total dan Rata-rata Sales dan Profit per Negara Bagian
(df_superstore
 .groupby(['State'])
 .agg({'Sales':['mean', 'sum'], 'Profit':['sum']})
 .rename(columns={'sum':'Total', 'mean':'Rataan'})
 .sort_values(by=[('Profit', 'Total')], ascending=True)
 )

Unnamed: 0_level_0,Sales,Sales,Profit
Unnamed: 0_level_1,Rataan,Total,Total
State,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2
Texas,172.779742,170188.0458,-25729.3563
Ohio,166.861697,78258.136,-16971.3766
Pennsylvania,198.487077,116511.914,-15559.9603
Illinois,162.93923,80166.101,-12607.887
North Carolina,223.30588,55603.164,-7490.9122
Colorado,176.418231,32108.118,-6527.8579
Tennessee,167.551219,30661.873,-5341.6936
Arizona,157.508933,35282.001,-3427.9246
Florida,233.612815,89473.708,-3399.3017
Oregon,140.57379,17431.15,-1190.4705


## EXERCISE 4: Aggregation
1. Lakukan aggregasi data df_superstore berdasarkan `Category` dan `Sub-Category`;
2. Hitung Total, Jumlah, dan Rata-rata dari `Sales`;
3. Gunakan method `.assign()` untuk menghitung persentase `Sales` dari Total `Sales` untuk masing-masing `row`, simpan ke kolom baru bernama `Sales_Share`;
4. Simpan hasil pengolahan ke variabel `sales_by_cat`.

In [None]:
(
    df_superstore
    .groupby(['Category', 'Sub-Category'])
    .agg({'Sales':['sum','count', 'mean']})
    .assign(Sales_Share=lambda df: df[('Sales', 'sum')]/df[('Sales', 'sum')].sum()*100)
    .rename(columns={'sum':'Total', 'count':'Jumlah', 'mean':'Rataan'})
    .sort_values(by=['Sales_Share'], ascending=False)
)

Unnamed: 0_level_0,Unnamed: 1_level_0,Sales,Sales,Sales,Sales_Share
Unnamed: 0_level_1,Unnamed: 1_level_1,Total,Jumlah,Rataan,Unnamed: 5_level_1
Category,Sub-Category,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2
Technology,Phones,330007.054,889,371.211534,14.365616
Furniture,Chairs,328449.103,617,532.33242,14.297796
Office Supplies,Storage,223843.608,846,264.590553,9.74419
Furniture,Tables,206965.532,319,648.794771,9.009466
Office Supplies,Binders,203412.733,1523,133.56056,8.854808
Technology,Machines,189238.631,115,1645.553313,8.237792
Technology,Accessories,167380.318,775,215.974604,7.286273
Technology,Copiers,149528.03,68,2198.941618,6.50914
Furniture,Bookcases,114879.9963,228,503.859633,5.000869
Office Supplies,Appliances,107532.161,466,230.75571,4.681008


### *Pivot Table*
Salah satu fitur penting yang disediakan `pandas` untuk melakukan data manipulation adalah fungsi `pandas.pivot_table()`. Pada dasarnya fungsi ini menghasilkan output yang hampir serupa dengan proses `Grouping and Aggregation` seperti dijelaskan sebelumnya. Format penulisan bagi fungsi ini adalah sebagai berikut:
```python
pd.pivot_table(df,
  index=[kolom_kolom_grouping],
  values=kolom_dihitung,
  columns=[kolom_kolom_pemilah_values],
  aggfunc=[fungsi_fungsi_aggregasi]
)
```

### Ilustrasi 17: `pd.pivot_table`
Melakukan Aggregasi Total, Jumlah, dan Rata-rata dari `Sales` per `Region`, yang dikelompokkan berdasarkan `Category` dan `Sub-Category` dari produk menggunakan fungsi `pd.pivot_table()`. Lengkapi ekspresi yang tidak lengkap pada statement di bawah ini, lalu eksekusi untuk melihat hasilnya.

In [None]:
df_pivoted = pd.pivot_table(
    data=pd.read_csv(file_path, usecols=['Category', 'Segment', 'Sales', 'Region']),
    index=['Category', 'Segment'],
    columns='Region',
    values='Sales',
    aggfunc=['sum', 'count', 'mean'],
    margins=True,
    margins_name='All'
).rename(columns={'sum':'Total', 'count':'Jumlah', 'mean':'Rataan'})

df_pivoted

Unnamed: 0_level_0,Unnamed: 1_level_0,Total,Total,Total,Total,Total,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah,Rataan,Rataan,Rataan,Rataan,Rataan
Unnamed: 0_level_1,Region,Central,East,South,West,All,Central,East,South,West,All,Central,East,South,West,All
Category,Segment,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2
Furniture,Consumer,86229.219,114211.802,70800.204,119808.087,391049.3,255,303,180,375,1113,338.1538,376.93664,393.334467,319.488232,351.347091
Furniture,Corporate,52085.6018,64209.046,29645.0315,83080.1065,229019.8,137,198,101,210,646,380.186874,324.288111,293.515163,395.619555,354.519792
Furniture,Home Office,25482.343,29870.356,16853.4485,49724.55,121930.7,89,100,51,122,362,286.318461,298.70356,330.459775,407.578279,336.825131
Office Supplies,Consumer,93111.479,101255.136,59504.581,110080.94,363952.1,739,888,505,995,3127,125.996589,114.026054,117.830853,110.634111,116.390194
Office Supplies,Corporate,41137.701,66474.735,45930.17,77133.856,230676.5,417,520,324,559,1820,98.651561,127.836029,141.759784,137.985431,126.745309
Office Supplies,Home Office,32777.235,37786.184,20216.562,33638.453,124418.4,266,304,166,343,1079,123.222688,124.296658,121.786518,98.071292,115.309021
Technology,Consumer,72690.736,135441.229,65276.186,132991.746,406399.9,218,278,153,302,951,333.443743,487.198665,426.641739,440.37002,427.339534
Technology,Corporate,64772.51,69725.566,46310.731,65641.312,246450.1,119,159,85,191,554,544.306807,438.525572,544.832129,343.671791,444.85581
Technology,Home Office,32953.066,59807.186,37184.991,53358.774,183304.0,83,98,55,106,342,397.024892,610.277408,676.090745,503.38466,535.976658
All,,501239.8908,678781.24,391721.905,725457.8245,2297201.0,2323,2848,1620,3203,9994,215.772661,238.33611,241.803645,226.493233,229.858001


In [None]:
# Slicing Multiple Index
df_pivoted[[('Jumlah')]]

Unnamed: 0_level_0,Unnamed: 1_level_0,Jumlah,Jumlah,Jumlah,Jumlah,Jumlah
Unnamed: 0_level_1,Region,Central,East,South,West,All
Category,Segment,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
Furniture,Consumer,255,303,180,375,1113
Furniture,Corporate,137,198,101,210,646
Furniture,Home Office,89,100,51,122,362
Office Supplies,Consumer,739,888,505,995,3127
Office Supplies,Corporate,417,520,324,559,1820
Office Supplies,Home Office,266,304,166,343,1079
Technology,Consumer,218,278,153,302,951
Technology,Corporate,119,159,85,191,554
Technology,Home Office,83,98,55,106,342
All,,2323,2848,1620,3203,9994


### Ilustrasi 18: Rata-rata Pertumbuhan Tahunan TTC
Salah satu komoditas **`Perikanan Tangkap`** unggulan Indonesia yang memiliki pasar ekspor cukup besar adalah kelompok ikan **Tuna, Tongkol, dan Cakalang** (**TTC**). Pada ilustrasi ini akan dilakukan proses manipulasi data yang terdapat pada object `ExcelFile` yang sudah kita parse sebelumnya di ilustrasi terdahulu, untuk menghasilkan informasi **`rata-rata pertumbuhan produksi komoditas TTC sepanjang periode 2018 - 2023`**. Adapun langkah-langkah pengerjaan yang dilakukan adalah sebagai berikut:
1. Data parsing:
    - sheet_name: `TANGKAP`;
    - usecols: `['provinsi', 'kelompok_ikan', 'tahun', 'produksi_ton']`;
    - Lalu lakukan filtering berdasarkan kriteria:
        1. kelompok_ikan in `['TUNA', 'TONGKOL', 'CAKALANG']`;
        2. tahun >= 2018
2. Buat pivot table yang menunjukkan nilai **`total produksi antar tahun`** dengan pasangan `parameter=argument` sebagai berikut:
    - index: `provinsi`;
    - columns: `tahun`;
    - values: `produksi_ton`;
    - aggfunc: `sum`
3. Hapus rows yang berisi nilai kosong (`NaN`);
4. Hitung Pertumbuhan Produksi antar tahun;
5. Hitung rata-rata Pertumbuhan Produksi antar tahun; dan
6. Mengurutkan rows berdasarkan rata-rata Pertumbuhan Produksi antar tahun.

In [None]:
(
    (
        # 2. Menyiapkan DataFrame yang akan diolah
        pd.pivot_table(
            # 1. Data parsing
            (
                xl
                .parse(sheet_name='TANGKAP', usecols=['provinsi', 'kelompok_ikan', 'tahun', 'produksi_ton'])
                .query('kelompok_ikan in ["TUNA", "TONGKOL", "CAKALANG"] & tahun>=2018')
            ),
            index='provinsi',
            columns='tahun',
            values='produksi_ton',
            aggfunc='sum')
        # 3. Menghapus rows data yang memiliki nilai kosong
        .dropna()
        # 4. Menghitung pertumbuhan produksi antar tahun
        .pct_change(axis='columns', fill_method=None)*100
    )
    # 5. Menghitung rata-rata pertumbuhan antar tahun
    .assign(average_growth=lambda df: df.mean(axis='columns'))
    # 6. Mengurutkan data berdasarkan average_growth paling tinggi
    .sort_values('average_growth', ascending=False)
)

tahun,2018,2019,2020,2021,2022,2023,average_growth
provinsi,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
SULAWESI TENGAH,,85.056043,-1.848152,20.634387,8.219984,228.28203,68.068858
KALIMANTAN UTARA,,-43.382659,-5.171162,-18.528173,-33.127251,319.227035,43.803558
JAWA BARAT,,84.930509,57.645437,11.606648,-7.591369,4.162405,30.150726
KALIMANTAN TENGAH,,-93.856003,29.515774,136.033045,-23.785908,92.055047,27.992391
KEPULAUAN RIAU,,110.62441,-20.135346,-20.060776,-0.279796,64.612643,26.952227
DKI JAKARTA,,0.03207,14.889672,14.008353,86.439425,1.37167,23.348238
PAPUA,,-30.515085,-5.679522,73.1165,4.655962,50.027449,18.321061
BALI,,-21.453921,14.266834,27.928511,-2.340509,49.022268,13.484637
MALUKU,,54.701399,-13.314877,12.939863,-6.956198,13.014269,12.076891
DAERAH ISTIMEWA YOGYAKARTA,,-28.503309,31.929756,-28.40617,-4.360342,57.617023,5.655391


# *Serialization*

> *Serialization* adalah proses konversi sebuah objek ke dalam format yang memudahkan proses **penyimpanan ke file**, **pengiriman melalui jaringan**, atau **pertukaran data antar program**.

Dalam konteks Python dan analisis data, serialization sangat berguna ketika kita ingin:

* Menyimpan hasil *data processing* agar bisa digunakan kembali tanpa harus mengulang proses yang memakan waktu.
* Membagikan objek Python (seperti *DataFrame*) ke sistem lain.
* Melakukan *checkpointing* saat training model atau pipeline analisis.

### `pickle` — Modul Bawaan Python untuk Serialization

Python menyediakan modul built-in bernama `pickle` untuk melakukan serialization dan deserialization objek Python ke format biner.

#### Contoh:

```python
import pickle

data = {'nama': 'Ali', 'umur': 30}

# Simpan (serialize)
with open('data.pkl', 'wb') as file:
    pickle.dump(data, file)

# Buka kembali (deserialize)
with open('data.pkl', 'rb') as file:
    data_loaded = pickle.load(file)

print(data_loaded)
```

> `pickle` cocok untuk menyimpan objek Python apa pun — dictionary, list, model machine learning, atau bahkan DataFrame.

---

### 🐼 Serialization Khusus untuk `pandas.DataFrame`

Modul `pandas` menyediakan berbagai metode serialization yang memungkinkan pengguna menyimpan `DataFrame` ke berbagai format **tekstual**, **biner**, maupun **terstruktur**.

Berikut beberapa format umum yang didukung:

#### 1. CSV dan TXT

Format paling umum dan ringan untuk penyimpanan tabel.

```python
df.to_csv('data.csv')     # Simpan ke CSV
df.to_csv('data.txt')     # Bisa juga ke .txt
```

#### 2. JSON

Cocok untuk pertukaran data berbasis web atau API.

```python
df.to_json('data.json')
```

#### 3. Excel (`.xlsx` / `.xls`)

Digunakan saat berbagi dengan pengguna non-programmer, atau untuk laporan.

```python
df.to_excel('data.xlsx', sheet_name='Sheet1')
```

> 💡 Perlu install `openpyxl` atau `xlsxwriter` untuk menyimpan ke `.xlsx`.

#### 4. Pickle

Untuk menyimpan DataFrame lengkap dengan tipe data dan struktur internalnya.

```python
df.to_pickle('data.pkl')
```

---

### Perbandingan Format

| Format  | Kelebihan                          | Kekurangan                        |
| ------- | ---------------------------------- | --------------------------------- |
| `.csv`  | Ringan, umum, mudah dibaca manusia | Tidak simpan tipe data kompleks   |
| `.json` | Fleksibel, cocok untuk web/API     | Lebih besar dari CSV, nested data |
| `.xlsx` | Populer di kalangan non-programmer | Perlu library tambahan            |
| `.pkl`  | Simpan struktur lengkap (lossless) | Tidak bisa dibuka di luar Python  |

---

### Deserialization: Membuka Kembali Data

Contoh membuka file serialized:

```python
# Dari CSV
pd.read_csv('data.csv')

# Dari Excel
pd.read_excel('data.xlsx')

# Dari JSON
pd.read_json('data.json')

# Dari Pickle
pd.read_pickle('data.pkl')
```

---

### Catatan Keamanan

> Hindari menggunakan `pickle.load()` terhadap file dari sumber tidak terpercaya. File `.pkl` bisa menjalankan kode berbahaya saat di-load.

---

## EXERCISE 5: *Serialization* hasil manipulasi data ke format `.csv`
Ikuti perintah di bawah berikut untuk melakukan manipulasi data terhadap dataframe `df_superstore`:
1. Buat sebuah filter untuk hanya menunjukkan `rows` dengan value 'Technology' pada kolom `Category`, simpan pada sebuah variable bernama `filter_data`;
2. Buat list, `kolom_diperlukan`, yang berisi `Product_Name`, `Quantity`, dan `Sales`;
3. Lakukan manipulasi data dengan urutan seperti berikut:
  - Gunakan *accessor* `loc` untuk memilah data dengan memanfaatkan `filter_data`, dan `kolom_diperlukan`;
  - Kelompokkan `dataframe` berdasarkan `Product_Name`;
  - Lakukan aggregasi berupa penjumlahan bagi kolom `Quantity` dan `Sales`;
  - Gunakan method `.assign()` untuk menghitung Harga setiap `Product_Name` yang disimpan pada kolom baru bernama `Price`;
  - Ambil hanya 10 item dengan nilai `Price` paling tinggi;
  - Gunakan method `.reset_index()`;
  - Lakukan *Serialization* dari `dataframe` hasil manipulasi ke sebuah file `.csv` bernama `Top 10 Most Expensive Technology Items.csv`.

In [None]:
# Buat Filter
filter_data = df_superstore['Category']=='Technology'

# Buat List Kolom
kolom_diperlukan = ['Product_Name', 'Quantity', 'Sales']

# Proses Data Manipulation
(
    df_superstore
    .loc[filter_data, kolom_diperlukan]
    .groupby('Product_Name')
    .agg({'Quantity':'sum', 'Sales':'sum'})
    .assign(Price= lambda df: df['Sales']/df['Quantity'])
    .nlargest(10, 'Price')
    .reset_index()
).to_csv('Top 10 Most Expensive Technology Items.csv', index=False)

## EXERCISE 6: Appending new sheet to `xlsx`
Pada Exercise ini, akan dilakukan penghitungan `Rata-Rata` `Pertumbuhan Produksi Perikanan Budidaya Indonesia`, untuk `kelompok_ikan` bernilai `NILA` dan `NILEM`, pada periode 2018 - 2023, lalu melakukan serializing hasilnya ke file `xlsx` yang sama dengan sumber data pada sheet baru bernama `STD NILEM`.

In [None]:
import pandas as pd
# Olah Data, dan simpan hasilnya pada variabel `std_nilem`
rata_nilem = (
    (
        # 2. Menyiapkan DataFrame yang akan diolah
        pd.pivot_table(
            # 1. Data parsing
            (
                xl
                .parse(sheet_name='BUDIDAYA', usecols=['provinsi', 'kelompok_ikan', 'tahun', 'produksi_ton'])
                .query('kelompok_ikan in ["NILA", "NILEM"] & tahun>=2018')
            ),
            index='provinsi',
            columns='tahun',
            values='produksi_ton',
            aggfunc='sum')
        # 3. Menghapus rows data yang memiliki nilai kosong
        .dropna()
        # 4. Menghitung pertumbuhan produksi antar tahun
        .pct_change(axis='columns', fill_method=None)*100
    )
    # 5. Menghitung rata-rata pertumbuhan antar tahun
    .assign(average_growth=lambda df: df.mean(axis='columns'))
    # 6. Mengurutkan data berdasarkan average_growth paling tinggi
    .sort_values('average_growth', ascending=False)
)

In [None]:
rata_nilem

tahun,2018,2019,2020,2021,2022,2023,average_growth
provinsi,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
SUMATERA UTARA,,18989.259953,-89.891935,-13.132543,223.214274,-95.093375,3802.871275
BANTEN,,10042.851489,62.605583,-96.786134,19.480787,-64.485922,1992.733161
NUSA TENGGARA TIMUR,,7707.330818,-41.31321,4.850895,28.3821,-95.233853,1520.80335
JAWA TIMUR,,7294.775621,-6.041329,69.186266,-40.694932,-98.5397,1443.737185
JAWA BARAT,,6221.270322,-5.021008,-2.437036,6.089139,-98.145855,1224.351112
KALIMANTAN TENGAH,,5951.504168,43.705915,-12.921202,-20.120641,-97.476131,1172.938422
KEPULAUAN RIAU,,5969.251349,-77.500083,-31.34152,38.686769,-77.158754,1164.387552
ACEH,,2930.449946,197.455742,-98.83664,2785.931807,-96.904351,1143.619301
KALIMANTAN UTARA,,63.256273,51.084243,4999.6026,-87.791288,-87.857149,987.658936
BENGKULU,,4549.691905,-0.498672,10.469413,3.971548,-96.221306,893.482578


In [None]:
# Buat `ExcelWriter` object dengan mode `append` assign ke variabel `writer`
with pd.ExcelWriter(list_xlsx[0], mode='a', engine='openpyxl') as writer:
  # Serialize std_nilem ke dalam `writer` pada sheet `STD NILEM`
  rata_nilem.to_excel(writer, sheet_name='PERTUMBUHAN NILEM')

In [None]:
# Parse file xlsx yang sudah terupdate
xl_baru = pd.ExcelFile(list_xlsx[0])

# Lihat daftar sheet di dalamnya
xl_baru.sheet_names

['TANGKAP', 'BUDIDAYA', 'STD NILEM', 'PERTUMBUHAN NILEM']

___