<a href="https://colab.research.google.com/github/rikrikrahadian/DQLab/blob/main/Part_5_pandas_dan_Manipulasi_Data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# *DATA MANIPULATION* IN PYTHON: `pandas`
> ***Data Manipulation*** merujuk kepada proses penyesuaian (*adjustments*) yang dilakukan terhadap data agar lebih terorganisir dan mudah dibaca.

Dalam sebuah organisasi yang mengedepankan pengambilan keputusan berbasis data, maka ***Data Manipulation*** adalah sebuah proses penting yang harus dilakukan terhadap beragam data yang dimanfaatkan olehnya. Proses tersebut akan memastikan bahwa berbagai `datasets` yang tersedia selaras dengan kebutuhan organisasi, serta memiliki format dan struktur yang konsisten, sehingga meningkatkan efisiensi pada pelaksanaan berbagai proses penting seperti:
1. Pembacaan data;
2. Analisis data;
3. Interpretasi data; dan
4. Proyeksi data.

Python adalah salah satu ***Data Manipulation Languange*** (**DML**) yang paling populer dipergunakan oleh para *data scientists*, *data analysts*, peneliti dan akademisi. Popularitas Python tersebut tak lepas dari tersedianya sebuah modul/library bernama `pandas`, yang menyediakan berbagai *toolkits* yang sangat handal untuk dimanfaatkan melakukan *handling* dan *manipulating* data yang terstruktur.

Pertemuan kesepuluh ini secara khusus ditujukan untuk membahas pemanfaatan modul `pandas` untuk kegiatan manipulasi data yang dimulai dengan proses *parsing* serta pemanfaatan *attributes* dan *methods* untuk deskripsi, seleksi, pengolahan, dan *serialization* data.


# Parsing data into `Pandas Dataframe` Object
> `Pandas Dataframe` adalah sebuah `objek` Python berstruktur data dua dimensional berupa `rows` dan `columns` yang masing-masingnya memiliki label unik.

Sesuai dengan deskripsi di atas, secara visual, sebuah `Pandas Dataframe` memiliki struktur tabular. Serupa dengan tabel SQL pada sebuah *database*, atau sebuah *spreadsheet* pada sebuah file excel. Pada sebuah `pandas.dataframe`, terdapat dua elemen berupa:
1. `columns`, yang masing-masingnya merupakan objek satu dimensional--`pandas.series`--dan memiliki nomor/nama indeks yang unik.
> Objek `pandas.series` memiliki karakteristik hampir serupa dengan sebuah `list` yang berisikan banyak elemen yang homogen, akan tetapi sebuah `pandas.series` memiliki cara indexing yang jauh lebih fleksibel dibandingkan `python fundamental objects`.
2. `rows`, yang merepresentasikan catatan data (*records*) dan berkarakter satu dimensional--`pandas.series`--yang masing-masing elemennya harus diberikan indeks (berupa nama kolom) yang unik.
> `rows` memiliki karakteristik serupa dengan sebuah `dictionary` yang berisikan *paired-element* berupa `key` = `str` berupa nama kolom, dan `value` = `list` dengan elemen berupa data yang tersimpan pada kolom tersebut.

Pada pertemuan sebelumnya, secara sekilas telah diperkenalkan beberapa `methods` dari `pandas` yang umumnya dipergunakan untuk tujuan konstruksi `pandas.dataframe` object. Beberapa methods tersebut antara lain:
- `pandas.DataFrame()`, untuk mengkonversi berbagai objek python--`list`, `tuple`, dan `dictionary`--menjadi sebuah `pandas.dataframe`;
- `pandas.join()`, untuk menggabungkan dua `pandas.dataframe` dengan memanfaatkan index saling terkait; dan
- `pandas.concat()`, untuk menggabungkan beberapa `pandas.dataframe` berdasarkan axisnya.

Kali ini kita akan memfokuskan praktel pada konstruksi `pandas.dataframe` object melalui proses *parsing* data dari berbagai jenis file data. Berikut ini adalah beberapa method yang umum dipergunakan:
- [`pandas.read_csv()`](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html), untuk parsing data pada file berekstensi `.csv` dan `.txt` ke sebuah `pandas.dataframe`;
- [`pandas.read_json()`](https://pandas.pydata.org/docs/reference/api/pandas.read_json.html), untuk parsing data pada file berekstensi `.json` ke sebuah `pandas.dataframe`;
- [`pandas.read_excel()`](https://pandas.pydata.org/docs/reference/api/pandas.read_excel.html), untuk parsing data pada file berekstensi `.xls` dan `.xlsx` ke sebuah `pandas.dataframe`; dan
- [`pandas.ExcelFile()`](https://pandas.pydata.org/docs/reference/api/pandas.ExcelFile.html), untuk parsing data pada file berekstensi `.xls`, `xlsx`, `xlsm`, `xlsb`, `odt`, `odf`, dan `ods`.

#### Ilustrasi 1: `.csv` Data Parsing
Lakukan *data parsing* dari sebuah file `.csv` yang disimpan di: 'https://storage.googleapis.com/dqlab-dataset/SuperStore.csv'. Lakukan langkah-langkah berikut:
1. Import modul pandas lalu berikan alias `pd`;
2. Assign lokasi dari file ke `file_path`;
3. Parse data, dan assign ke `df_superstore`;
4. Tunjukkan isi dari dataframe tersebut;
5. *Slice* dataframe untuk hanya menunjukkan data kolom 'Sales` saja; dan
6. *Slice* dataframe untuk hanya menunjukkan data baris pertama hingga kelima saja.

In [None]:
# Mengimpor modul pandas ke environment
import pandas as pd

In [None]:
# Assign lokasi file ke `file_path`
file_path ='https://storage.googleapis.com/dqlab-dataset/SuperStore.csv'

In [None]:
# Parsing seluruh data dari file menjadi sebuah dataframe `df_superstore`
df_superstore = pd.read_csv(file_path)

In [None]:
# Tunjukkan isi dataframe dari memory
df_superstore

In [None]:
# Mengakses isi dari kolom 'Sales'
df_superstore['Sales']

In [None]:
# Tunjukkan lima rows paling atas
df_superstore.head()

## Ilustrasi 2: *Efficient Parsing*
Dari hasil parsing di ilustrasi sebelumnya, kita telah berhasil menyimpan sebuah `pandas.dataframe` di dalam sebuah variabel bernama `df_superstore` yang memiliki sembilan ribu lebih rows dan 20 kolom. Pada prakteknya, tidak semua kolom yang tersedia akan dipergunakan dalam proses pengolahan, sehingga melakukan parsing data secara keseluruhan akan menjadi tidak efisien---selain akan memerlukan lebih banyak memory sebagai penyimpanan, juga akan memakan waktu jika data yang diparsing cukup banyak.

Pada ilustrasi 2 ini, kita akan memanfaatkan berbagai parameter pada method `pd.read_csv` untuk melakukan parsing secara efisien.

In [None]:
# Parsing hanya 10 rows pertama saja
df_superstore_10 = pd.read_csv(file_path, nrows=10)
# Tunjukkan isi dataframe dari memory
df_superstore_10

In [None]:
# Parsing seluruh rows untuk kolom `State`, `Quantity`, dan `Sales`
df_superstore_kolom = pd.read_csv(file_path, usecols=['State', 'Quantity', 'Sales'])
# Tunjukkan isi dataframe dari memory
df_superstore_kolom

## Ilustrasi 3: Mounting Google Drive
Salah satu kelebihan dari `Google Colab Notebook` adalah integrasi dengan `Google Drive`, sehingga data yang tersimpan di `Google Drive` dapat dimanipulasi dengan menggunakan `Google Colab`. Untuk dapat memanfaatkan fasilitas tersebut, maka user harus:
1. Memiliki google account dan terlogin.
2. Menambahkan [shared folder](https://drive.google.com/drive/folders/1rb3k4aH5QiwRHLJfEk16EeIvLQQI0Q2m?usp=sharing) ke google drivenya dengan cara:
  - Buka link shared folder tersebut;
  - Menekan `data_for_dqlab` > `Organize` > `Add Shortcut`; dan
  - Pilih directory penyimpanan, lalu tekan `Add`.
3. Buka `File Explorer` pada Google Colab Notebook, lalu tekan `Mount Drive`,



In [None]:
# Mengimpor method glob dari modul glob
from glob import glob

In [None]:
# Set folder tempat file sesuai dengan lokasi di Google Drive masing-masing
folder_file = '/content/drive/MyDrive/DQLab/data_for_dqlab/' # ini harus disesuaikan dengan lokasi di masing-masing google drive
# Set tipe file yang akan kita parse
file_pattern = '*.xlsx'

In [None]:
# Buat list nama-nama file yang ditemukan
list_xlsx = glob(folder_file+file_pattern)
# lihat isi list
list_xlsx

In [None]:
list_xlsx[0]

## Ilustrasi 4: Excel file data parsing
Melakukan parsing file excel dengan menggunakan method `pd.read_excel`.

In [None]:
# Parsing 5 rows paling atas pada file excel
pd.read_excel(list_xlsx[0], nrows=5, index_col=[0])

## Ilustrasi 5: Excel file data parsing
Melakukan parsing file excel menggunakan method `pd.ExcelFile`.

In [None]:
# Parsing isi file
xl = pd.ExcelFile(list_xlsx[0])
# Tunjukkan isi hasil parsing
xl

In [None]:
# Melakukan pengecekan nama-nama sheet pada file
xl.sheet_names

In [None]:
# Parsing lima rows data paling atas pada sheet 'TANGKAP'
xl.parse(sheet_name='BUDIDAYA', index_col=[0], nrows=5)

## EXERCISE 1: Data Parsing
Pada exercise 1 ini, kita akan membuat sebuah `dictionary` berisi `keys` = nama-nama Sheet, dan `values` = dataframe di masing-masing sheet pada object `ExcelFile` tersebut di atas, untuk itu:
1. Tuliskan langkah-langkah yang akan dilakukan;
2. Tuliskan script untuk setiap langkah tersebut.

In [None]:
# 1. Bikin dictionary kosong
isi_file_excel = dict()
# 2. isi dictionary:
# bikin loop yang mengeluarkan nama-nama sheet
for nama_sheet in xl.sheet_names:
  # key = nama_sheet, value = dataframe
  isi_file_excel[nama_sheet] = xl.parse(sheet_name=nama_sheet, index_col=[0])

# Tunjukkan isi dari dictionary
isi_file_excel

In [None]:
isi_file_excel['BUDIDAYA']

# *Data Description*
> `Attributes` VS `Methods`
> - `Attributes` adalah berbagai karakteristik yang terdapat pada sebuah objek;
> - `Methods` adalah berbagai fungsi yang dapat diterapkan kepada sebuah objek.

Oleh karena pada prinsipnya `pandas.dataframe` adalah sebuah objek python, maka sudah barang tentu ia akan memiliki `attributes` dan juga `methods`. Dua ilustrasi pada bagian ini akan mencontohkan bagaimana penerapan baik `attributes` maupun `methods` dari `pandas.dataframe` dalam proses mendeskripsikan data.

#### Ilustrasi 5: `pandas.dataframe` attributes
Eksekusi beberapa attributes di bawah berikut, lalu tuliskan jawaban beberapa pertanyaan di bawah ini pada `markdown cell` yang disediakan:
- Apa perbedaan dari `pd.dataframe.ndim`, `pd.dataframe.shape`, dan `pd.dataframe.size`?
- Attribute apa yang kita pergunakan untuk mengetahui berbagai indeks dan sekaligus nama kolom yang ada pada sebuah dataframe?
- Attribute apa yang kita pergunakan untuk mengetahui informasi tipe data dari masing-masing kolom pada sebuah dataframe?

In [None]:
df_superstore.ndim

In [None]:
df_superstore['Sales'].ndim

In [None]:
df_superstore.shape

In [None]:
df_superstore.size

In [None]:
df_superstore.columns

In [None]:
df_superstore.index

In [None]:
df_superstore.axes

In [None]:
df_superstore.dtypes

In [None]:
df_superstore.values

#### Ilustrasi 6: `pandas.dataframe`'s methods
Eksekusi beberapa `cell codes` di bawah berikut, lalu tuliskan jawaban beberapa pertanyaan berikut ini di `markdown cell` yang disediakan:
1. Apa perbedaan antara method `pd.dataframe.head()` dengan `pd.dataframe.tail()`?
2. Apa perbedaan antara method `pd.dataframe.info()` dengan `pd.dataframe.describe()`?
3. Opsi apa saja yang dapat dijadikan `argument` bagi parameter `include` pada method `pd.dataframe.describe()`?
4. Berapa nilai rata-rata dari kolom `Sales`?
5. Nilai apa yang menjadi `modus` dari kolom `Category`?

In [None]:
df_superstore.head(10)

In [None]:
df_superstore.tail()

In [None]:
df_superstore.info()

In [None]:
df_superstore.describe()

In [None]:
df_superstore.describe(include='number')

In [None]:
df_superstore.describe(include='object')

In [None]:
df_superstore.describe(include='all')

In [None]:
df_superstore.nlargest(5, 'Profit')

In [None]:
df_superstore.nsmallest(5, 'Profit')

#### Ilustrasi 7: `pandas.series`'s methods
Eksekusi setiap `code cell` di bawah berikut, lalu lengkapi informasi terkait masing-masing method pada `code cell` terkait.

In [None]:
# Method `pd.series.value_counts` adalah untuk
df_superstore['Sub-Category'].value_counts()

In [None]:
# Method `pd.series.min` adalah untuk ...
df_superstore['Sales'].min()

In [None]:
# Method `pd.series.max` adalah untuk ...
df_superstore['Sales'].max()

In [None]:
# Method `pd.series.sum` adalah untuk ...
df_superstore['Sales'].sum()

In [None]:
# Method `pd.series.mean` adalah untuk ...
df_superstore['Sales'].mean()

In [None]:
# Method `pd.series.std` adalah untuk ...
df_superstore['Sales'].std()

In [None]:
# Method `pd.series.median` adalah untuk ...
df_superstore['Sales'].median()

In [None]:
# Method `pd.series.quantile(0.25)` adalah untuk ...
df_superstore['Sales'].quantile(0.25)

In [None]:
# Method `pd.series.quantile(0.5)` adalah untuk ...
df_superstore['Sales'].quantile(0.5)

In [None]:
# Method `pd.series.quantile(0.75)` adalah untuk ...
df_superstore['Sales'].quantile(0.75)

# *Data Selection*
Salah satu keunggulan utama `pandas` dalam melakukan manipulasi data adalah kemudahan dalam melakukan pemilihan data. Pada prinsipnya pemilihan data dapat dilakukan dengan menggunakan teknik *slicing* seperti telah dicontohkan pada ilustrasi sebelumnya, akan tetapi cara tersebut dirasa kurang *elegan* dan seringkali sulit untuk dimengerti.

Pada bagian ini akan disampaikan tatacara pemilihan data yang biasanya dilakukan dalam `pandas`, dimulai dengan pengenalan terhadap `accessors` untuk pemilihan data, hingga penyusunan `filter`.

## Accessors
> `Accessors` adalah objek yang disematkan ke sebuah `attribute` dari `pandas.dataframe/pandas.series` yang memberikan fungsionalitas ekstra tertentu.

`pandas` menyediakan dua `accessors` yang sangat populer dipergunakan untuk melakukan pemilihan data secara fleksibel, antara lain:
1. `pd.dataframe.loc[]`, dengan format penggunaan:
```
nama_dataframe.loc[<pilih_rows>, <pilih_nama_kolom>]
```
2. `pd.dataframe.iloc[]`, dengan format penggunaan:
```
nama_dataframe.iloc[<pilih_rows>, <pilih_indeks_kolom>]
```

#### Ilustrasi 8: Pemilihan Data - `Accessors`
Tuliskan beberapa perbedaan utama baik dalam cara penggunaan maupun output dari `accessor` `.loc` dengan `.iloc`, di `markdown cell` yang disediakan di bawah, setelah `kedua `code cell` di bawah berikut di eksekusi.

In [None]:
df_superstore.loc[df_superstore['Profit']<0, ['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit']]

In [None]:
df_superstore.iloc[[3, 14, 15, 23], [0, 8, 9, 4, 7]]

In [None]:
df_superstore.loc[0:10, ['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit']]

In [None]:
df_superstore.iloc[0:10, [0, 8, 9, 4, 7]]

**PERBEDAAN `loc` vs `iloc`:**

1.


## Filtering
Salah satu fitur lain yang disediakan `pandas` adalah memanfaatkan `boolean arrays` untuk melakukan filtering. Filtering dilakukan melalui dua tahap berikut, yaitu:
1. Menyusun filter, dengan format penulisan umumnya:
```python
nama_filter = <boolean_expression>
```
2. Menyematkan filter ke dataframe, dengan format penulisan:
```python
data_difilter = nama_dataframe[nama_filter]
```

### Ilustrasi 9: Data Filtering
Lengkapi ekspresi pada statements di bawah, agar dapat dieksekusi untuk menghasilkan dataframe berisikan `rows` dengan nilai `Profit` negatif (mengalami kerugian) dari `df_superstore` yang sebelumnya sudah kita *parse*.

In [None]:
df_superstore[['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit']]

In [None]:
# Membuat filter bagi row yang mengalami kerugian (profit<0)
filter_sales_rugi = df_superstore['Profit']<0

# Menyematkan filter ke dataframe induk, assign ke sales_merugi
sales_merugi = df_superstore[filter_sales_rugi]
# lihat isi sales_merugi
sales_merugi

## QUERYING

Selain kedua cara yang telah disebutkan sebelumnya di atas, `pandas` juga menyediakan sebuah method yang memungkinkan dilakukannya filtering dengan gaya query pada `SQL`. Terdapat dua method yang disedakan oleh `pandas`, yaitu:
1. `pd.DataFrame.query` yang dipergunakan untuk melakukan filtering rows berdasarkan kondisi tertentu, dengan contoh penggunaan method tersebut:
```python
data_difilter = nama_dataframe.query("suatu_kolom == 1")
```
2. `pd.DataFrame.filter` yang dipergunakan untuk melakukan filtering terhadap index pada dataframe, baik kolom maupun rows, dengan contoh penggunaan sebagai berikut:
```python
data_difilter_kolom = nama_dataframe.filter(<list_nama_kolom>, axis=1)
data_difilter_row = nama_dataframe.filter(<list_index_row>, axis=0)
```

#### Ilustrasi 10: Querying
Lengkapi ekspresi pada statements di bawah, agar dapat dieksekusi untuk menghasilkan dataframe berisikan `rows` dengan nilai `Profit` negatif (mengalami kerugian) dari `df_superstore` yang sebelumnya sudah kita *parse*.

In [None]:
# Terapkan method query untuk memfilter rows dengan nilai Profit<0
sales_merugi_query = df_superstore.query('Profit<0')

# lihat isi sales_merugi_query
sales_merugi_query

In [None]:
# Terapkan method filter untuk menampilkan kolom-kolom tertentu saja dari sales_merugi_query
sales_merugi_query.filter(['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit'])

In [None]:
df_superstore.query('Segment=="Consumer"')

## EXERCISE 2
Melakukan pemilihan data menggunakan:
1. Tiga filter:
  - `rows` dimana value `Sales` melebihi nilai quantile ke-3nya;
  - `rows` dimana value `Region` adalah 'East'; dan
  - `rows` dimana value `Profit` melebihi nilai quantile ke-3nya.
2. Kolom-kolom terpilih:
```python
['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit', 'Region']
```



In [None]:
# FILTERING : ACCESSOR .loc
# Buat filters
filter_sales_over = df_superstore['Sales']>df_superstore['Sales'].quantile(0.75)
filter_region = df_superstore['Region']=='East'
filter_profit = df_superstore['Profit']>df_superstore['Profit'].quantile(0.75)

# Buat kolom pilihan:
kolom_terpilih = ['Order_ID', 'Category', 'Sub-Category', 'Sales', 'Profit', 'Region']

# Pilih data, gunakan accessor `.loc`
sales_tinggi_east = df_superstore.loc[filter_sales_over & filter_region & filter_profit, kolom_terpilih]

# Cek isi sales_tinggi
sales_tinggi_east

In [None]:
f"Region=='East' & Sales>{df_superstore['Sales'].quantile(0.75)} & Profit>{df_superstore['Profit'].quantile(0.75)}"

In [None]:
# QUERYING
# Buat query bagi filtering
query_filter = f"Region=='East' & Sales>{df_superstore['Sales'].quantile(0.75)} & Profit>{df_superstore['Profit'].quantile(0.75)}"

# gunakan method `pd.dataframe.query` & `pd.dataframe.filter` untuk melakukan filtering
sales_tinggi_east_query = df_superstore.query(query_filter).filter(kolom_terpilih)

# lihat isi sales_tinggi query
sales_tinggi_east_query

# Data Sorting
Mengurutkan data berdasarkan value pada kolom tertentu dapat dengan mudah dilakukan dengan menggunakan method `pandas.dataframe.sort_values()`, dengan format penulisan seperti berikut:
```python
nama_dataframe.sort_values(by=<list_nama_kolom>, ascending=<list_boolean>]
```

#### Ilustrasi 11: Sorting data
1. Lakukan pengurutan data `sales_merugi` berdasarkan kriteria berikut:
 - Value `Profit` dari yang paling rendah;
 - Value `Sales` dari yang paling tinggi.
2. Lakukan pengurutan data `sales_tinggi` berdasarkan kriteria berikut:
 - Value `Profit` dari yang paling tinggi;
 - Value `Sales` dari yang paling tinggi.

In [None]:
sales_merugi.sort_values(by=['Profit', 'Sales'], ascending=[True,False])[['Profit', 'Sales']]

In [None]:
sales_tinggi_east.sort_values(by=['Profit', 'Sales'], ascending=[False,False])

# *Data Manipulation*

### *Arithmatic Operations*
Berbagai operasi aritmatik--penjumlahann(`+`), pengurangan (`-`), pembagian (`/`), perkalian (`*`), dan pemangkatan (`**`)--dapat diterapkan terhadap `pandas.series` dan `pandas.dataframe` objek.
Format penulisan operasi aritmatika, antara lain:
```python
# Operasi aritmatika antar kolom
dataframe[<nama_kolom_baru>] = dataframe[<kolom_a>] <operator_aritmatika> dataframe[<kolom_b>]
```

#### Ilustrasi 12: Menghitung Harga Satuan
Dataframe `df_superstore` yang sebelumnya telah kita parse ternyata tidak memiliki informasi terkait harga satuan dari masing-masing `Sales` yang terjadi. Oleh karena informasi tersebut diperlukan, maka kita perlu untuk melakukan penghitungan harga satuan, dan menyimpan hasil perhitungan tersebut pada sebuah kolom baru bernama `Price`.

Sebelum menuliskan `script` untuk perhitungan diatas, lengkapi beberapa informasi yang diperlukan berikut:
- Data yang akan diperlukan untuk menghitung `Price` adalah:
  - ```Sales```
  - ```Quantity```
- Rumus penghitungan `Price` adalah:

  $ Price_i = \frac{Sales_i}{Quantity_i} $

In [None]:
# Menghitung Harga Satuan
df_superstore['Price'] = df_superstore['Sales']/df_superstore['Quantity']

In [None]:
df_superstore.head()

## EXERCISE 3
*Management* memerlukan informasi terkait 10 Transaksi Penjualan yang memiliki persentase nilai penjualan yang paling tinggi untuk tujuan pemberian reward. Lakukan penghitungan persentase sales dari total sales, dan simpan hasilnya pada kolom baru bernama `Share`.

Sama seperti pada **Ilustrasi 9** sebelumnya, silahkan tuliskan beberapa informasi yang diperlukan di bawah ini:
- Data yang diperlukan:
  - ```Sales```
  - ```Total_Sales```
- Rumus perhitungan:

  $ Share_{i} = \frac{Sales_i}{\sum Sales}*100 $

In [None]:
# Hitung Share
df_superstore['Share'] = df_superstore['Sales'] / df_superstore['Sales'].sum() * 100
# Tampilkan 10 rows dengan Share Sales paling besar
df_superstore.sort_values(by='Share', ascending=False).head(10)

In [None]:
df_superstore.head()

## *Applying Functions to `DataFrame`*
`Pandas` menyediakan beberapa methods yang dapat mengakomodir berbagai proses manipulasi data pada objek `pandas.dataframe` dan `pandas.series` dengan menggunakan `functions`, `methods` atau bahkan `user-defined functions` secara berantai (`method chaining`), antara lain:
1. `.apply()`, dengan format penulisan:
```python
# Memanipulasi data dengan menerapkan function ke seluruh kolom pada DataFrame:
dataframe.apply(func, axis: [0, 1]=0)
# Memanipulasi data dengan enerapkan function ke sebuah kolom tertentu pada DataFrame:
dataframe[<nama_kolom>].apply(func)
```
2. `.assign()`, dengan format penulisan:
```python
# Memanipulasi data pada pada suatu kolom menggunakan method dan menyimpan hasilnya di kolom baru
dataframe.assign(nama_kolom_baru=lambda df: df[<nama_kolom>].method())
```
3. `.pipe()`, dengan format penulisan:
```python
# Memanipulasi dataframe menggunakan fungsi user-defined
dataframe.pipe(<nama_fungsi_userdefined>, parameter=argument)
```

---

#### *Lambda Function* di Python
Salah satu tipe fungsi yang akan sering dipergunakan ketika melakukan pengolahan data menggunakan python adalah `lambda function`.

> *Lambda function* adalah sebuah fungsi *generic* yang biasanya berstruktur sederhana, dibuat secara cepat dan ringkas **tanpa perlu mendefinisikan fungsi secara lengkap** dengan `def`.

##### Struktur Umum:

```python
lambda parameter: <ekspresi>
```

##### `User-defined function` VS `lambda function`:

```python
# User-defined function biasa
def pangkat_2(x):
    return x ** 2

# Lambda function setara
pangkat_2_lambda = lambda x: x ** 2

print(pangkat_2_lambda(5))  # Output: 25
```

##### Kapan Menggunakan Lambda?

Lambda biasa digunakan saat kita butuh fungsi **sekilas**, terutama di dalam:

* fungsi seperti `map()`, `filter()`, `sorted()`, dll.
* konteks pemrograman fungsional atau cepat-cek

##### Contoh:

```python
# Menyaring angka genap dari list
angka = [1, 2, 3, 4, 5, 6]
genap = list(filter(lambda x: x % 2 == 0, angka))
print(genap)  # Output: [2, 4, 6]

# Mengurutkan daftar berdasarkan panjang string
kata = ['apel', 'jeruk', 'kiwi']
sorted_kata = sorted(kata, key=lambda x: len(x))
print(sorted_kata)  # Output: ['kiwi', 'apel', 'jeruk']
```

##### Catatan:

* Lambda hanya bisa berisi **satu ekspresi**, tidak bisa berisi banyak pernyataan.
* Gunakan untuk **fungsi sederhana** saja agar kode tetap mudah dibaca.

---

#### Ilustrasi 13: Memanipulasi Data `String`
Pada ilustrasi 13 ini, akan dilakukan manipulasi data `string` pada kolom `Customer_Name` sebagai berikut:
1. Dirubah menjadi upper case; dan
2. Dirubah menjadi lower case;

Masing-masing proses tersebut akan dilakukan dengan menggunakan method `.apply()` dan `.assign()`.

In [None]:
# Tampilkan 5 record teratas pada Series df_superstore['Customer_Name']
df_superstore['Customer_Name'].head()

In [None]:
# Merubah value Customer_Name ke upper case menggunakan method .apply()
df_superstore['Customer_Name'].apply(lambda x: x.upper()).head()

In [None]:
# Merubah value Customer_Name ke lower case menggunakan method .apply()
df_superstore['Customer_Name'].apply(lambda elemen: elemen.lower()).head()

In [None]:
# merubah Value Customer_Name ke upper case menggunakan method .assign()
df_superstore.assign(Customer_Name=lambda df: df['Customer_Name'].str.upper()).head()

In [None]:
# Merubah Value Customer_Name ke lower case menggunakan method .assign()
df_superstore.assign(Customer_Name=lambda df: df['Customer_Name'].str.lower()).head()

In [None]:
# Cek lima rows paling atas pada df_superstore
df_superstore.head()

#### Ilustrasi 14: Manipulasi Data `String`
Pada ilustrasi ini, kita akan mencoba untuk melakukan manipulasi value pada Customer_Name berupa proses pemisahan menjadi 2 berdasarkan karakter `space` yang pertama ditemukan, lalu menyimpan hasilnya ke kolom `First_Name` dan `Last_Name`. Proses dimaksud akan dilakukan dengan menggunakan method `.pipe()` dan `.assign()`.

In [None]:
# User-defined function
def split_string(
    df: pd.DataFrame,
    nama_kolom: str,
    list_kolom_baru: list,
    pattern: str = " ",
    jumlah_split: int = 1,
    inplace: bool = False) -> pd.DataFrame | None:
    """
    Fungsi untuk memecah value bertipe str pada sebuah kolom,
    lalu menyimpan hasilnya ke dua kolom baru
    Arguments:
       1. df: dataframe yang salah satu kolomnya akan displit;
       2. nama_kolom: Nama kolom yang valuenya akan displit;
       3. list_kolom_baru: List berisi dua nama kolom baru untuk menyimpan hasil split;
       4. pattern: Pola string yang dijadikan patokan bagi proses split;
       5. jumlah_split: Jumlah proses pemisahan yang dilakukan terhadap sebuah elemen;
       6. inplace: Proses pemisahan langsung dilakukan terhadap df atau tidak.
    """
    # Validasi jumlah elemen list_kolom_baru
    if len(list_kolom_baru) != jumlah_split+1:
        raise ValueError('Jumlah elemen pada list_kolom_baru tidak sesuai dengan jumlah_split')

    # Split Strings lalu simpan di kolom baru
    if inplace == True:
        df[list_kolom_baru] = df[nama_kolom].str.split(pat=pattern, n=jumlah_split, expand=True)
        return df
    else:
        df_copy = df.copy()
        df_copy[list_kolom_baru] = df_copy[nama_kolom].str.split(pat=pattern, n=jumlah_split, expand=True)
        return df_copy

In [None]:
# Menanggil split_string untuk mengolah df_superstore
split_string(df_superstore, 'Customer_Name', ['Fist_Name', 'Last_Name']).head()

In [None]:
# Membuat kolom First_Name dan Last_Name menggunakan method .pipe()
df_superstore.pipe(split_string, nama_kolom='Customer_Name', list_kolom_baru=['First_Name', 'Last_Name'])

In [None]:
# Membuat kolom First_Name dan Last_Name menggunakan method .assign()
df_superstore.assign(First_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[0],
                     Last_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[1]).head()

In [None]:
# Tampilkan 5 rows teratas dari df_superstore
df_superstore.head()

---
#### *Method Chaining* di Python

> *Method chaining* adalah teknik pemrograman di mana **beberapa method dipanggil secara berurutan pada sebuah objek**, dalam satu baris kode.

##### Mengapa Digunakan?

* Membuat kode lebih **ringkas** dan **terbaca seperti alur proses**.
* Menghindari penulisan berulang variabel antara satu proses dengan proses berikutnya.

##### Contoh pada *String*:

```python
kalimat = "  belajar Python itu MUDAH  "
hasil = kalimat.strip().lower().replace("mudah", "menyenangkan")
print(hasil)  # Output: belajar python itu menyenangkan
```

Penjelasan:

1. `.strip()` menghapus spasi di awal dan akhir
2. `.lower()` mengubah semua huruf jadi kecil
3. `.replace()` mengganti kata

##### Contoh pada *pandas DataFrame*:

```python
import pandas as pd

# Contoh DataFrame
df = pd.DataFrame({
    'Nama': ['Ari', 'Budi', 'Citra', 'Dina'],
    'Nilai': [80, 55, 90, 65]
})

# Chaining untuk filter dan sort
hasil = df[df['Nilai'] > 60].sort_values(by='Nilai', ascending=False).reset_index(drop=True)

print(hasil)
```

🔍 Penjelasan:

1. `df[df['Nilai'] > 60]` → menyaring baris dengan nilai > 60
2. `.sort_values()` → mengurutkan dari nilai tertinggi
3. `.reset_index()` → mereset indeks setelah sortir

##### Tips:

* Pastikan setiap method **mengembalikan objek baru** (bukan `None`), agar chaining bisa berlanjut.
* Jika terlalu panjang, gunakan pemenggalan dengan menggunakan tanda `\` atau pindahkan ke beberapa baris untuk keterbacaan.

```python
# Contoh tanpa pemenggalan
kalimat.strip().lower().replace('mudah', 'menyenangkan')

# Contoh pemenggalan \
kalimat \
.strip() \
.lower() \
.replace('mudah', 'menyenangkan')

# Contoh pemenggalan baris
(
  kalimat
  .strip()
  .lower()
  .replace('mudah', 'menyenangkan')
)
```
---

#### Ilustrasi 15: Manipulasi Data String: `Method Chaining`

In [None]:
# Melakukan manipulasi secara method Chaining
(
    pd.read_csv(file_path, usecols=['Customer_Name'])
    .assign(Customer_Capitalized=lambda df: df['Customer_Name'].str.upper(),
            Customer_Lower_Case=lambda df: df['Customer_Name'].str.lower())
    .pipe(split_string, nama_kolom='Customer_Name', list_kolom_baru=['First_Name', 'Last_Name'])
).head()

In [None]:
df_nama_dimanipulasi = (
    pd.read_csv(file_path, usecols=['Customer_Name'])
    .assign(Customer_Capitalized=lambda df: df['Customer_Name'].str.upper(),
            Customer_Lower_Case=lambda df: df['Customer_Name'].str.lower(),
            First_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[0],
            Last_Name=lambda df: df['Customer_Name'].str.split(pat=' ', n=1, expand=True)[1])
    .filter(['Customer_Name', 'First_Name', 'Last_Name', 'Customer_Capitalized', 'Customer_Lower_Case'])
)
df_nama_dimanipulasi.head()

### *Grouping and Aggregation*
Secara sederhana, proses mengaggregatkan sekelompok value, seperti yang dimuat dalam sebuah `pandas.series` dapat dilakukan dengan menggunakan beberapa method seperti berikut:
1. `.sum()`;
2. `.count()`;
3. `.mean()`;
4. `.median()`;
5. `.min()`;
6. `.max()`; dan
7. `.std()`.

Namun pada prakteknya, aggregasi akan jauh lebih bermanfaat jika dilakukan berdasarkan pengelompokkan atau pelabelan tertentu. Untuk melakukan aggregasi dengan pengelompokkan, maka `pandas` menyediakan method `.groupby()` yang dapat dikombinasikan langsung dengan `aggregate methods` di atas, dengan format penulisan seperti berikut ini:
```python
# Aggregasi dengan grouping sederhana
dataframe.groupby([<kolom_kolom_pengelompokkan>])[kolom_dihitung].method()
```
Tak jarang diperlukan beberapa aggregasi yang dilakukan sekaligus terhadap beberapa values, berdasarkan pengelompokkan tertentu. `Pandas` juga menyediakan fitur yang memungkinkan dilakukannya kebutuhan seperti tersebut, melalui method `.agg()`, dengan format penulisan sebagai berikut:
```python
# Multiple Aggregation
dataframe.groupby([<kolom_kolom_pengelompokkan>]).agg({
  'kolom_dihitung_1':[fungsi_fungsi_aggregat],
  'kolom_dihitung_2':[fungsi_fungsi_aggregat]
})
```

### Ilustrasi 16: Grouping and Aggregation
Beberapa pertanyaan yang biasanya ditanyakan adalah sebagai berikut:
1. Negara bagian mana yang memiliki rata-rata Sales paling tinggi?
2. Negara bagian mana yang memiliki total Profit paling rendah?

Pada ilustrasi ini, kedua pertanyaan tersebut akan dijawab dengan menggunakan method aggregasi sederhana, dan method `.agg()`.

In [None]:
# Aggregasi Sederhana Rata-rata Sales per Negara Bagian
df_superstore.groupby(['State'])['Sales'].mean().sort_values(ascending=False)

In [None]:
# Aggregasi Sederhana Total Profit per Negara Bagian
df_superstore.groupby(['State'])['Profit'].sum().sort_values()

In [None]:
# Aggregasi Total dan Rata-rata Sales dan Profit per Negara Bagian
(df_superstore
 .groupby(['State'])
 .agg({'Sales':['mean', 'sum'], 'Profit':['sum']})
 .rename(columns={'sum':'Total', 'mean':'Rataan'})
 .sort_values(by=[('Profit', 'Total')], ascending=True)
 )

## EXERCISE 4: Aggregation
1. Lakukan aggregasi data df_superstore berdasarkan `Category` dan `Sub-Category`;
2. Hitung Total, Jumlah, dan Rata-rata dari `Sales`;
3. Gunakan method `.assign()` untuk menghitung persentase `Sales` dari Total `Sales` untuk masing-masing `row`, simpan ke kolom baru bernama `Sales_Share`;
4. Simpan hasil pengolahan ke variabel `sales_by_cat`.

In [None]:
(
    df_superstore
    .groupby(['Category', 'Sub-Category'])
    .agg({'Sales':['sum','count', 'mean']})
    .assign(Sales_Share=lambda df: df[('Sales', 'sum')]/df[('Sales', 'sum')].sum()*100)
    .rename(columns={'sum':'Total', 'count':'Jumlah', 'mean':'Rataan'})
    .sort_values(by=['Sales_Share'], ascending=False)
)

### *Pivot Table*
Salah satu fitur penting yang disediakan `pandas` untuk melakukan data manipulation adalah fungsi `pandas.pivot_table()`. Pada dasarnya fungsi ini menghasilkan output yang hampir serupa dengan proses `Grouping and Aggregation` seperti dijelaskan sebelumnya. Format penulisan bagi fungsi ini adalah sebagai berikut:
```python
pd.pivot_table(df,
  index=[kolom_kolom_grouping],
  values=kolom_dihitung,
  columns=[kolom_kolom_pemilah_values],
  aggfunc=[fungsi_fungsi_aggregasi]
)
```

### Ilustrasi 17: `pd.pivot_table`
Melakukan Aggregasi Total, Jumlah, dan Rata-rata dari `Sales` per `Region`, yang dikelompokkan berdasarkan `Category` dan `Sub-Category` dari produk menggunakan fungsi `pd.pivot_table()`. Lengkapi ekspresi yang tidak lengkap pada statement di bawah ini, lalu eksekusi untuk melihat hasilnya.

In [None]:
df_pivoted = pd.pivot_table(
    data=pd.read_csv(file_path, usecols=['Category', 'Segment', 'Sales', 'Region']),
    index=['Category', 'Segment'],
    columns='Region',
    values='Sales',
    aggfunc=['sum', 'count', 'mean'],
    margins=True,
    margins_name='All'
).rename(columns={'sum':'Total', 'count':'Jumlah', 'mean':'Rataan'})

df_pivoted

In [None]:
# Slicing Multiple Index
df_pivoted[[('Jumlah')]]

### Ilustrasi 18: Rata-rata Pertumbuhan Tahunan TTC
Salah satu komoditas **`Perikanan Tangkap`** unggulan Indonesia yang memiliki pasar ekspor cukup besar adalah kelompok ikan **Tuna, Tongkol, dan Cakalang** (**TTC**). Pada ilustrasi ini akan dilakukan proses manipulasi data yang terdapat pada object `ExcelFile` yang sudah kita parse sebelumnya di ilustrasi terdahulu, untuk menghasilkan informasi **`rata-rata pertumbuhan produksi komoditas TTC sepanjang periode 2018 - 2023`**. Adapun langkah-langkah pengerjaan yang dilakukan adalah sebagai berikut:
1. Data parsing:
    - sheet_name: `TANGKAP`;
    - usecols: `['provinsi', 'kelompok_ikan', 'tahun', 'produksi_ton']`;
    - Lalu lakukan filtering berdasarkan kriteria:
        1. kelompok_ikan in `['TUNA', 'TONGKOL', 'CAKALANG']`;
        2. tahun >= 2018
2. Buat pivot table yang menunjukkan nilai **`total produksi antar tahun`** dengan pasangan `parameter=argument` sebagai berikut:
    - index: `provinsi`;
    - columns: `tahun`;
    - values: `produksi_ton`;
    - aggfunc: `sum`
3. Hapus rows yang berisi nilai kosong (`NaN`);
4. Hitung Pertumbuhan Produksi antar tahun;
5. Hitung rata-rata Pertumbuhan Produksi antar tahun; dan
6. Mengurutkan rows berdasarkan rata-rata Pertumbuhan Produksi antar tahun.

In [None]:
(
    (
        # 2. Menyiapkan DataFrame yang akan diolah
        pd.pivot_table(
            # 1. Data parsing
            (
                xl
                .parse(sheet_name='TANGKAP', usecols=['provinsi', 'kelompok_ikan', 'tahun', 'produksi_ton'])
                .query('kelompok_ikan in ["TUNA", "TONGKOL", "CAKALANG"] & tahun>=2018')
            ),
            index='provinsi',
            columns='tahun',
            values='produksi_ton',
            aggfunc='sum')
        # 3. Menghapus rows data yang memiliki nilai kosong
        .dropna()
        # 4. Menghitung pertumbuhan produksi antar tahun
        .pct_change(axis='columns', fill_method=None)*100
    )
    # 5. Menghitung rata-rata pertumbuhan antar tahun
    .assign(average_growth=lambda df: df.mean(axis='columns'))
    # 6. Mengurutkan data berdasarkan average_growth paling tinggi
    .sort_values('average_growth', ascending=False)
)

# *Serialization*

> *Serialization* adalah proses konversi sebuah objek ke dalam format yang memudahkan proses **penyimpanan ke file**, **pengiriman melalui jaringan**, atau **pertukaran data antar program**.

Dalam konteks Python dan analisis data, serialization sangat berguna ketika kita ingin:

* Menyimpan hasil *data processing* agar bisa digunakan kembali tanpa harus mengulang proses yang memakan waktu.
* Membagikan objek Python (seperti *DataFrame*) ke sistem lain.
* Melakukan *checkpointing* saat training model atau pipeline analisis.

### `pickle` — Modul Bawaan Python untuk Serialization

Python menyediakan modul built-in bernama `pickle` untuk melakukan serialization dan deserialization objek Python ke format biner.

#### Contoh:

```python
import pickle

data = {'nama': 'Ali', 'umur': 30}

# Simpan (serialize)
with open('data.pkl', 'wb') as file:
    pickle.dump(data, file)

# Buka kembali (deserialize)
with open('data.pkl', 'rb') as file:
    data_loaded = pickle.load(file)

print(data_loaded)
```

> `pickle` cocok untuk menyimpan objek Python apa pun — dictionary, list, model machine learning, atau bahkan DataFrame.

---

### 🐼 Serialization Khusus untuk `pandas.DataFrame`

Modul `pandas` menyediakan berbagai metode serialization yang memungkinkan pengguna menyimpan `DataFrame` ke berbagai format **tekstual**, **biner**, maupun **terstruktur**.

Berikut beberapa format umum yang didukung:

#### 1. CSV dan TXT

Format paling umum dan ringan untuk penyimpanan tabel.

```python
df.to_csv('data.csv')     # Simpan ke CSV
df.to_csv('data.txt')     # Bisa juga ke .txt
```

#### 2. JSON

Cocok untuk pertukaran data berbasis web atau API.

```python
df.to_json('data.json')
```

#### 3. Excel (`.xlsx` / `.xls`)

Digunakan saat berbagi dengan pengguna non-programmer, atau untuk laporan.

```python
df.to_excel('data.xlsx', sheet_name='Sheet1')
```

> 💡 Perlu install `openpyxl` atau `xlsxwriter` untuk menyimpan ke `.xlsx`.

#### 4. Pickle

Untuk menyimpan DataFrame lengkap dengan tipe data dan struktur internalnya.

```python
df.to_pickle('data.pkl')
```

---

### Perbandingan Format

| Format  | Kelebihan                          | Kekurangan                        |
| ------- | ---------------------------------- | --------------------------------- |
| `.csv`  | Ringan, umum, mudah dibaca manusia | Tidak simpan tipe data kompleks   |
| `.json` | Fleksibel, cocok untuk web/API     | Lebih besar dari CSV, nested data |
| `.xlsx` | Populer di kalangan non-programmer | Perlu library tambahan            |
| `.pkl`  | Simpan struktur lengkap (lossless) | Tidak bisa dibuka di luar Python  |

---

### Deserialization: Membuka Kembali Data

Contoh membuka file serialized:

```python
# Dari CSV
pd.read_csv('data.csv')

# Dari Excel
pd.read_excel('data.xlsx')

# Dari JSON
pd.read_json('data.json')

# Dari Pickle
pd.read_pickle('data.pkl')
```

---

### Catatan Keamanan

> Hindari menggunakan `pickle.load()` terhadap file dari sumber tidak terpercaya. File `.pkl` bisa menjalankan kode berbahaya saat di-load.

---

## EXERCISE 5: *Serialization* hasil manipulasi data ke format `.csv`
Ikuti perintah di bawah berikut untuk melakukan manipulasi data terhadap dataframe `df_superstore`:
1. Buat sebuah filter untuk hanya menunjukkan `rows` dengan value 'Technology' pada kolom `Category`, simpan pada sebuah variable bernama `filter_data`;
2. Buat list, `kolom_diperlukan`, yang berisi `Product_Name`, `Quantity`, dan `Sales`;
3. Lakukan manipulasi data dengan urutan seperti berikut:
  - Gunakan *accessor* `loc` untuk memilah data dengan memanfaatkan `filter_data`, dan `kolom_diperlukan`;
  - Kelompokkan `dataframe` berdasarkan `Product_Name`;
  - Lakukan aggregasi berupa penjumlahan bagi kolom `Quantity` dan `Sales`;
  - Gunakan method `.assign()` untuk menghitung Harga setiap `Product_Name` yang disimpan pada kolom baru bernama `Price`;
  - Ambil hanya 10 item dengan nilai `Price` paling tinggi;
  - Gunakan method `.reset_index()`;
  - Lakukan *Serialization* dari `dataframe` hasil manipulasi ke sebuah file `.csv` bernama `Top 10 Most Expensive Technology Items.csv`.

In [None]:
# Buat Filter
filter_data = df_superstore['Category']=='Technology'

# Buat List Kolom
kolom_diperlukan = ['Product_Name', 'Quantity', 'Sales']

# Proses Data Manipulation
(
    df_superstore
    .loc[filter_data, kolom_diperlukan]
    .groupby('Product_Name')
    .agg({'Quantity':'sum', 'Sales':'sum'})
    .assign(Price= lambda df: df['Sales']/df['Quantity'])
    .nlargest(10, 'Price')
    .reset_index()
).to_csv('Top 10 Most Expensive Technology Items.csv', index=False)

## EXERCISE 6: Appending new sheet to `xlsx`
Pada Exercise ini, akan dilakukan penghitungan `Rata-Rata` `Pertumbuhan Produksi Perikanan Budidaya Indonesia`, untuk `kelompok_ikan` bernilai `NILA` dan `NILEM`, pada periode 2018 - 2023, lalu melakukan serializing hasilnya ke file `xlsx` yang sama dengan sumber data pada sheet baru bernama `STD NILEM`.

In [None]:
import pandas as pd
# Olah Data, dan simpan hasilnya pada variabel `std_nilem`
rata_nilem = (
    (
        # 2. Menyiapkan DataFrame yang akan diolah
        pd.pivot_table(
            # 1. Data parsing
            (
                xl
                .parse(sheet_name='BUDIDAYA', usecols=['provinsi', 'kelompok_ikan', 'tahun', 'produksi_ton'])
                .query('kelompok_ikan in ["NILA", "NILEM"] & tahun>=2018')
            ),
            index='provinsi',
            columns='tahun',
            values='produksi_ton',
            aggfunc='sum')
        # 3. Menghapus rows data yang memiliki nilai kosong
        .dropna()
        # 4. Menghitung pertumbuhan produksi antar tahun
        .pct_change(axis='columns', fill_method=None)*100
    )
    # 5. Menghitung rata-rata pertumbuhan antar tahun
    .assign(average_growth=lambda df: df.mean(axis='columns'))
    # 6. Mengurutkan data berdasarkan average_growth paling tinggi
    .sort_values('average_growth', ascending=False)
)

In [None]:
rata_nilem

In [None]:
# Buat `ExcelWriter` object dengan mode `append` assign ke variabel `writer`
with pd.ExcelWriter(list_xlsx[0], mode='a', engine='openpyxl') as writer:
  # Serialize std_nilem ke dalam `writer` pada sheet `STD NILEM`
  rata_nilem.to_excel(writer, sheet_name='PERTUMBUHAN NILEM')

In [None]:
# Parse file xlsx yang sudah terupdate
xl_baru = pd.ExcelFile(list_xlsx[0])

# Lihat daftar sheet di dalamnya
xl_baru.sheet_names

___