# General Question

## Bagaimana cara mengubah format *scientific* menjadi format  *float* pada data numerik?

Format *scientific* dapat diubah menggunakan `set_option()` pada `pandas`. Berikut adalah *syntax* lengkapnya :

In [11]:
import pandas as pd
pd.set_option('display.float_format', lambda x: '%.3f' % x)

Anda dapat mengaplikasikan penggunaan nilai desimal setelah deklarasi fungsi `lambda x: <nilai desimal>`. Pada contoh di atas, kita mengapilkasikan 3 satuan angka desimal setelah tanda pemisah titik pada nilai float.

## Apakah terdapat link *open source* yang menyediakan data untuk latihan mandiri?

Jika ingin mendownload data untuk latihan secara mandiri, Anda dapat mengunjungi https://www.kaggle.com/datasets. Didalamnya terdapat berbagai macam dataset dan juga contoh penggunaaan serta analisisnya.

## Syntax apakah yang digunakan untuk mengubah format dari int64 sehingga tampilan 1000000 berubah menjadi 1,000,000 ?

Untuk mengubah tampilan *output* dengan pemisah koma pada angka, dapat menggunakan attribut `display.float_format` pada `pandas`. Berikut adalah syntax lengkapnya :

In [12]:
pd.options.display.float_format = '{:,}'.format

## Bagaimana cara utk mengganti nama kolom?

Mengubah nama kolom dapat menggunakan *method* `rename` sebagai berikut : 

```
df.rename(columns={"to_replace":"new_replace"})
```

## Bagaimana cara untuk menambah baris (row) pada data?

Salah satu cara yang bisa digunakan untuk menambahkan *row* adalah dengan menggunakan *method* `concat()`. Pada dasarnya kita harus membuat terlebih dahulu *row* yang akan ditambahkan dalam bentuk *dataframe*, kemudian gabungkan data baru dengan *dataframe* yang telah ada dengan *method* `concat()` by row. 

In [13]:
d = {'col1': [1, 2], 'col2': [3, 4]}
df = pd.DataFrame(data=d)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4


In [14]:
e = {'col1': [5, 6], 'col2': [7, 8]}
df2 = pd.DataFrame(data=e)
df2

Unnamed: 0,col1,col2
0,5,7
1,6,8


Menambahkan baris pada `df2` ke `df1` :

In [15]:
df = pd.concat([df, df2], axis=0, ignore_index=True)
df

Unnamed: 0,col1,col2
0,1,3
1,2,4
2,5,7
3,6,8


## Bagaimana cara menghapus kolom secara permanen?

Menghapus kolom secara permanen dapat menggunakan *syntax* `drop`

In [16]:
df.drop(columns=['col2'], inplace=True)

In [17]:
df

Unnamed: 0,col1
0,1
1,2
2,5
3,6


## Bagaimana cara memisahkan satu file CSV menjadi beberapa file CSV?

Kasus: Dataset `kiva` berisi transaksi pinjaman dari awal tahun 2014 sampai akhir tahun 2015. Kita ingin memisahkan data tersebut berdasarkan periode (tahun-bulan) dari `posted_time` pinjaman.

Maka dari itu, kita ekstrak terlebih dahulu informasi `year_month` yang dibutuhkan.

In [18]:
import pandas as pd
kiva = pd.read_csv("data_input/kiva.csv")
kiva.insert(loc=0, 
            column='year_month',
            value=kiva['posted_time'].astype('datetime64').dt.to_period('M'))
kiva.head()

Unnamed: 0,year_month,id,funded_amount,loan_amount,activity,sector,country,region,currency,partner_id,posted_time,funded_time,term_in_months,lender_count,repayment_interval
0,2014-01,653051,300.0,300.0,Fruits & Vegetables,Food,Pakistan,Lahore,PKR,247,2014-01-01 06:12:39,2014-01-02 10:06:32,12,12,irregular
1,2014-01,653053,575.0,575.0,Rickshaw,Transportation,Pakistan,Lahore,PKR,247,2014-01-01 06:51:08,2014-01-02 09:17:23,11,14,irregular
2,2014-01,653068,150.0,150.0,Transportation,Transportation,India,Maynaguri,INR,334,2014-01-01 09:58:07,2014-01-01 16:01:36,43,6,bullet
3,2014-01,653063,200.0,200.0,Embroidery,Arts,Pakistan,Lahore,PKR,247,2014-01-01 08:03:11,2014-01-01 13:00:00,11,8,irregular
4,2014-01,653084,400.0,400.0,Milk Sales,Food,Pakistan,Abdul Hakeem,PKR,245,2014-01-01 11:53:19,2014-01-01 19:18:51,14,16,monthly


Kemudian kita sediakan satu folder tempat menampung pecahan file CSV ke dalam `FOLDERPATH`:

In [19]:
import os

FOLDERPATH = "data_input/kiva/"

if not os.path.exists(FOLDERPATH):
    os.makedirs(FOLDERPATH)

Secara iteratif, lakukan conditional subsetting untuk DataFrame `kiva` berdasarkan masing-masing `year_month`. Hasil subset tersebut disimpan menggunakan method `.to_csv()` tanpa menggunakan nomor index.

In [20]:
for period in kiva['year_month'].unique():
    kiva_subset = kiva[kiva['year_month'] == period]
    
    filename = f"kiva-{period}.csv"
        
    kiva_subset.to_csv(FOLDERPATH + filename, index=False)

Silahkan cek `FOLDERPATH`, seharusnya `kiva` sudah berhasil kita pisahkan menjadi 24 file CSV seperti gambar berikut:

<img src="assets/DWV/kiva-multiple-files.png" width="50%">

## Bagaimana cara menggabungkan beberapa file CSV menjadi satu file CSV?

Kasus: Kita memiliki 24 file CSV dataset `kiva` yang dipisahkan berdasarkan periode (tahun-bulan) seperti pada pertanyaan sebelumnya. Kita diminta untuk menggabungkannya menjadi satu file CSV saja untuk kebutuhan analisis.

Maka dari itu, kita perlu tahu semua nama file CSV yang akan kita gabungkan menjadi satu. Caranya, gunakan method `glob()` kemudian kita spesifikan pola nama file yang ingin diambil. Penggunaan `*.csv` menandakan kita akan mengambil semua nama file dengan ekstensi csv.

In [21]:
from glob import glob

FOLDERPATH = "data_input/kiva/"

filenames = glob(FOLDERPATH + '*.csv')
filenames

['data_input/kiva\\kiva-2014-01.csv',
 'data_input/kiva\\kiva-2014-02.csv',
 'data_input/kiva\\kiva-2014-03.csv',
 'data_input/kiva\\kiva-2014-04.csv',
 'data_input/kiva\\kiva-2014-05.csv',
 'data_input/kiva\\kiva-2014-06.csv',
 'data_input/kiva\\kiva-2014-07.csv',
 'data_input/kiva\\kiva-2014-08.csv',
 'data_input/kiva\\kiva-2014-09.csv',
 'data_input/kiva\\kiva-2014-10.csv',
 'data_input/kiva\\kiva-2014-11.csv',
 'data_input/kiva\\kiva-2014-12.csv',
 'data_input/kiva\\kiva-2015-01.csv',
 'data_input/kiva\\kiva-2015-02.csv',
 'data_input/kiva\\kiva-2015-03.csv',
 'data_input/kiva\\kiva-2015-04.csv',
 'data_input/kiva\\kiva-2015-05.csv',
 'data_input/kiva\\kiva-2015-06.csv',
 'data_input/kiva\\kiva-2015-07.csv',
 'data_input/kiva\\kiva-2015-08.csv',
 'data_input/kiva\\kiva-2015-09.csv',
 'data_input/kiva\\kiva-2015-10.csv',
 'data_input/kiva\\kiva-2015-11.csv',
 'data_input/kiva\\kiva-2015-12.csv']

Secara iteratif, baca file CSV menggunakan method `.read_csv()` kemudian simpan DataFrame ke dalam sebuah list.

In [22]:
df_list = []
for filename in filenames:
    df = pd.read_csv(filename)
    df_list.append(df)
print(len(df_list))

24


Dengan menggunakan method `.concat()`, semua DataFrame pada `df_list` akan digabungkan menjadi satu berdasarkan baris, dengan syarat semua nama kolom harus sama. Method `.reset_index()` digunakan agar penomoran index diulang dari 0 sampai banyaknya baris pada DataFrame.

In [23]:
kiva_concat = pd.concat(df_list)
kiva_concat = kiva_concat.reset_index(drop=True)
kiva_concat.shape

(323279, 15)

In [24]:
kiva_concat.head()

Unnamed: 0,year_month,id,funded_amount,loan_amount,activity,sector,country,region,currency,partner_id,posted_time,funded_time,term_in_months,lender_count,repayment_interval
0,2014-01,653051,300.0,300.0,Fruits & Vegetables,Food,Pakistan,Lahore,PKR,247,2014-01-01 06:12:39,2014-01-02 10:06:32,12,12,irregular
1,2014-01,653053,575.0,575.0,Rickshaw,Transportation,Pakistan,Lahore,PKR,247,2014-01-01 06:51:08,2014-01-02 09:17:23,11,14,irregular
2,2014-01,653068,150.0,150.0,Transportation,Transportation,India,Maynaguri,INR,334,2014-01-01 09:58:07,2014-01-01 16:01:36,43,6,bullet
3,2014-01,653063,200.0,200.0,Embroidery,Arts,Pakistan,Lahore,PKR,247,2014-01-01 08:03:11,2014-01-01 13:00:00,11,8,irregular
4,2014-01,653084,400.0,400.0,Milk Sales,Food,Pakistan,Abdul Hakeem,PKR,245,2014-01-01 11:53:19,2014-01-01 19:18:51,14,16,monthly


Simpan objek `kiva_concat` ke dalam satu file CSV: 

In [25]:
kiva_concat.to_csv("data_input/kiva_concat.csv")

## Bagaimana cara membuat *table of content* pada jupyter notebook?

Untuk menampilkan *table of content* (TOC), pastikan didalam jupyter notebook sudah terinstall `nbextension`. Jika sudah terinstall buka config `nbextension` kemudian check pilihan `Table of Content`.

Apabila belum terinstall `nbextension`, maka ikuti langkah pada poin di bawah ini untuk menginstall `nbextension`.

## Langkah menginstall `nbextension`!

1. Install contrib nbextension
```
conda install -c conda-forge jupyter_contrib_nbextensions 
```
2. Install configurator
```
conda install -c conda-forge jupyter_nbextensions_configurator
```

3. Mengaktifkan nbextension pada jupyter notebook 
```
jupyter nbextensions_configurator enable --user
```