<a href="https://colab.research.google.com/github/rikrikrahadian/DQLab/blob/main/Part_2_Variable%2C_Tipe_Data%2C_dan_Operator.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# VARIABLE DALAM PEMROGRAMAN PYTHON
> "To be is to be the value of a variable" - [*Willard Van Orman Quine*](https://en.wikipedia.org/wiki/Willard_Van_Orman_Quine)

Dalam Python, **variabel** dapat diilustrasikan sebagai wadah yang menyimpan sebuah nilai. Dapat digunakan sebagai label untuk data yang disimpan dalam memori komputer, sehingga memungkinkan programmer untuk menyimpan, mengambil, dan memanipulasi data dalam program yang dibuatnya secara mudah dan fleksibel.


## Beberapa Poin Penting tentang Variabel:

1. **Penamaan**: Sebuah Variabel dapat diberi nama apapun, asalkan dimulai dengan huruf atau garis bawah (`_`) dan diikuti oleh huruf, angka, atau garis bawah. Sebagai contoh, `usia`, `total_nilai`, dan `_sementara` adalah nama-nama variabel yang valid.

2. ***Assignment***: Dalam python, sebuah variabel dideklarasikan secara sederhana, dengan menggunakan operator penugasan `=`. Sintaksnya adalah seperti contoh di bawah berikut:
   ```python
   usia = 25      # Assign angka bulat 25 ke variabel usia
   nama = "Alice" # Assign string "Alice" ke variabel nama
   pi = 3.14      # Assign angka desimal 3.14 ke variabel pi
   ```

3. **Tipe Data**: Variabel dapat menyimpan berbagai tipe data, seperti angka, string, daftar, atau struktur yang lebih kompleks. Python secara otomatis mendeteksi tipe data yang di-*assign* ke variabel.

4. **Tipe Dinamis**: Python adalah bahasa yang bertipe dinamis, artinya programmer tidak perlu menyatakan tipe variabel saat *assignment*. Selain itu, perubahan tipe data yang disimpan dalam variabel dapat dilakukan cukup dengan memberikan nilai baru. Meskipun bukan untuk tujuan validasi, untuk mengurangi kemungkinan kesalahan penginputan tipe data, terutama pada saat menggunakan `function`, maka *assignment* dapat dilakukan dengan disertai *type hinting* sebagai *guidance* bagi pengguna.
   ```python
   # Dynamic Data Type
   jumlah = 10         # `jumlah` di-assign data `int`
   jumlah = "sepuluh"  # `jumlah` di-reassign data `string`
   # Assignment dengan type hinting
   angka_bulat : int = 10
   angka_float : float = 3.14
   nama_lengkap : str = "Rikrik Rahadian"
   ```

5. **Penggunaan Variabel**: Setelah dilakukan *assignment*, seorang programmer dapat menggunakan variabel di setiap bagian dari programnya untuk menyimpan dan bekerja dengan nilai yang di*assign* ke dalamnya. Misalnya, dicetak ke layar, dipergunakan dalam perhitungan, atau dijadikan sebagai input bagi sebuah fungsi.
   ```python
   # Assignment
   harga = 100
   diskon = 0.2
   # Perhitungan dan Assignment hasilnya
   harga_akhir = harga * (1 - diskon)
   # Mencetak hasil perhitungan ke layar
   print(harga_akhir)  # Output: 80.0
   ```

6. **Lingkup (Scope)**: Variabel memiliki lingkup, yang menentukan pada bagian mana dari program--**lokal** atau **global**--variabel tersebut dapat diakses. Variabel yang di-*assign* di dalam sebuah fungsi akan bersifat lokal, sehingga hanya berlaku di dalam fungsi tersebut, sedangkan variabel yang di-*assign* di luar fungsi akan bersifat global dan tersedia untuk diakses dari mana saja dalam kode.

---

Singkatnya, variabel sangat penting dalam pemrograman Python karena memungkinkan programmer untuk menyimpan, mengelola, dan menggunakan data secara efektif dalam kode yang dituliskannya. Variabel menyediakan cara untuk merujuk nilai dengan menggunakan nama yang diberikan, sehingga program yang dikembangkan menjadi lebih mudah dibaca dan fleksibel.

---
# NUMERICAL DATA : `Integer & Float`

Python mendukung penggunaan dua tipe data numerik utama, yaitu: **integer** dan **float**.



## Integer (`int`)

- **Definisi**: Integer adalah bilangan bulat yang tidak memiliki bagian desimal. Integer dapat bernilai positif atau negatif, termasuk nol.
- **Contoh**:
  ```python
  angka_positif = 10
  angka_negatif = -5
  nol = 0
  ```
- **Penggunaan**: Integer biasanya digunakan untuk perhitungan yang tidak memerlukan nilai pecahan atau desimal, seperti penghitungan jumlah orang atau benda.


## Float (`float`)

- **Definisi**: Float adalah bilangan yang memiliki bagian desimal, memungkinkan representasi angka dengan pecahan.
- **Contoh**:
  ```python
  pi = 3.14
  suhu = -10.5
  saldo = 1000.75
  ```
- **Penggunaan**: Float digunakan dalam perhitungan yang membutuhkan presisi, seperti pengukuran ilmiah, penghitungan keuangan, atau grafik komputer.

## Konversi Tipe Data Numerikal (*Casting*)

Python memungkinkan untuk melakukan konversi data dari integer ke float, *vice versa*. Konversi ini dapat dilakukan dengan memasukkan angka ke fungsi `int()` dan/atau `float()`:

- **Integer ke Float**:
  ```python
  float_angka = float(10)  # Output: 10.0
  ```

- **Float ke Integer** (pembulatan ke bawah):
  ```python
  int_angka = int(3.99)  # Output: 3
  ```

Python secara otomatis menangani angka dengan presisi yang baik, tetapi penting untuk diingat bahwa operasi dengan float mungkin menghasilkan angka yang hanya mendekati nilai sebenarnya karena adanya keterbatasan representasi komputer.

Data numerik, baik integer maupun float, merupakan bagian yang sangat penting dalam pemrograman, memungkinkan programmer untuk melakukan berbagai jenis perhitungan dan analisis data.

## Arithmetic Operations
Dalam pemrograman dengan menggunakan Python sangat dimungkinkan untuk melakukan berbagai jenis arithmetic operations menggunakan beberapa simbol *operators*. Pada bagian berikut di bawah ini disampaikan beberapa operasi arithmetic dasar beserta simbolnya yang dapat dipergunakan dalam pemrosesan data menggunakan Python:

1. **Addition (`+`)**: Penjumlahan
   ```python
   result = 5 + 3  # Output: 8
   ```
2. **Subtraction (`-`)**: Pengurangan
   ```python
   result = 5 - 3  # Output: 2
   ```
3. **Multiplication (`*`)**: Perkalian dua angka
   ```python
   result = 5 * 3  # Output: 15
   ```
4. **Division (`/`)**: Pembagian
   ```python
   result = 5 / 2  # Output: 2.5
   ```
5. **Floor Division (`//`)**: Pembagian dengan hasil dibulatkan ke bawah
   ```python
   result = 5 // 2  # Output: 2
   ```
6. **Modulus (`%`)**: Menghitung sisa dari hasil pembagian
   ```python
   result = 5 % 2  # Output: 1
   ```
7. **Exponentiation (` ** `)**: Pemangkatan
   ```python
   result = 5 ** 2  # Output: 25
   ```
8. **Negation (`-`)**: Merubah nilai sebuah angka menjadi kebalikannya
   ```python
   numeric = 5
   negation = -numeric # Output: -5
   ```
9. **Compound Assignment**: Operator yang mengkombinasikan berbagai operator aritmatika di atas dengan operator *assignment* (`=`) untuk melakukan operasi kumulatif dalam satu langkah.
   ```python
   initial_value = 0
   initial_value += 1 # Output: 1
   initial_value -= 1 # Output: 0
   ```


Berbagai operasi di atas memungkinkan program yang disusun dengan berbasis Python untuk melakukan berbagai jenis kalkulasi matematis. Setiap operasi tersebut dipergunakan untuk memanipulasi angka dan dapat diterapkan terhadap baik data berjenis `int` maupun `float`.

## Ilustrasi 1: `Numerical Data`

### 1. *Integer*

In [None]:
# Assignment
data_integer = 5 # Assign 5 to data_integer

In [None]:
# Lakukan pengecekan tipe object dari `data_integer`
type(data_integer)

int

In [None]:
# Displaying value to screen
print(data_integer)

5
7


In [None]:
# Calling variable from memory
data_integer

6

### 2. *Float*

In [None]:
from numpy import pi
# Assigning value of `pi` into `nilai_pi`
nilai_pi = pi

In [None]:
# Type checking for `nilai_pi`
type(nilai_pi)

float

In [None]:
# Displaying value of `nilai_pi` to screen
print(nilai_pi)

3.141592653589793


In [None]:
# Callling `nilai_pi` from memory
nilai_pi

3.141592653589793

In [None]:
3.14

3.14

### 3. *Arithmetic Operations*

In [None]:
# Addition
addition = data_integer + nilai_pi
addition

8.141592653589793

In [None]:
# substraction
substraction = data_integer - nilai_pi
substraction

1.8584073464102069

In [None]:
# multiplication
multiplication = data_integer * nilai_pi
multiplication

15.707963267948966

In [None]:
# division
division = data_integer / nilai_pi
division

1.5915494309189535

In [None]:
# floor division
bagi_pembulatan = data_integer // 3
bagi_pembulatan

1

In [None]:
# modulus
modulo = data_integer % 3
modulo

2

In [None]:
# negation
negasi = -data_integer
negasi

-5

In [None]:
# exponentiation
pangkat = data_integer ** data_integer
pangkat

3125

In [None]:
# Assigning variable's value into another variable
data_inisial = data_integer
data_inisial

5

In [None]:
# Addition Compound Assignment
data_inisial += 1
data_inisial

9

In [None]:
# Subtraction Compund Assignment
data_inisial -= 1
data_inisial

5

In [None]:
# Contoh Penggunaan Compound Operators
x = 10
for i in range(10):
  x -= 1
  if x == 3:
    break
  print(x)

9
8
7
6
5
4


___
# EXERCISE 1: `numeric` `dataframe` operations
Pada exercise ini, kita akan mencoba untuk melakukan beberapa *arithmatic operations* sederhana terhadap `numeric` data pada sebuah `dataframe` yang berasal dari sebuah file bertipe *comma sepparated values* (`csv`) yang disimpan pada tautan berikut:
  ```
  https://storage.googleapis.com/dqlab-dataset/SuperStore.csv
  ```

In [None]:
"""
LENGKAPI SCRIPTS DI BAWAH BERIKUT DENGAN `VARIABLE`, METHOD, ATAU DATA YANG TEPAT!!
Scripts tersebut berisikan langkah-langkah yang dipergunakan untuk melakukan
parsing data dari sebuah file `csv` yang diletakan pada tautan tersebut di atas,
dengan menggunakan method `read_csv` dari modul `pandas`.
"""
# Parsing Data from `csv` file to `DataFrame`
# 1. Import modul `pandas`
import pandas as pd

# 2. Assign tautan file ke variabel `file_path`
file_path = "https://storage.googleapis.com/dqlab-dataset/SuperStore.csv"

# 3. Parse data pada file dan assign ke `df_sales`
df_sales = pd.read_csv(file_path)

# 4. Check isi `df_sales` dari memory
df_sales.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South


1. Informasi apa yang termuat dalam setiap baris pada `df_sales`?
1. Berapa banyak kolom yang terdapat pada `df_sales`?
2. Berapa banyak kolom yang bertipe data `numeric` pada `df_sales`?

In [None]:
"""
LENGKAPI SCRIPTS DI BAWAH BERIKUT DENGAN `VARIABLE`, METHOD, ATAU DATA YANG TEPAT!!
Scripts berikut berisikan langkah-langkah yang dilakukan untuk membuat sebuah
kolom baru ke dalam `df_sales`, yaitu `Gross_Sales` yang ke dalamnya di assign
value dengan rumus (Sales / (1 - Discount)), dan kemudian melakukan perhitungan
aggregat untuk memperoleh informasi:
1. Jumlah Transaksi yang memiliki `Gross_Sales`;
2. Total nilai `Gross_Sales`; dan
2. Rata-rata nilai `Gross_Sales` per transaksi.
"""
# Menghitung `Net_Sales`
df_sales["Gross_Sales"] = df_sales['Sales'] / (1 - df_sales['Discount'])

# Tampilkan ke layar jumlah transaksi yang memiliki nilai `Gross_Sales`
print("Total Transaksi =", df_sales['Gross_Sales'].count())

# Tampilkan ke layar nilai total `Net_Sales`
print("Total Gross Sales =", df_sales['Gross_Sales'].sum())

# Tampilkan ke layar nilai rata-rata `Net_Sales` per transaksi
print("Average Gross Sales w/ operator =", df_sales['Gross_Sales'].sum()/df_sales['Gross_Sales'].count())
print("Average Gross Sales w/ method =", df_sales['Gross_Sales'].mean())

Total Transaksi = 9994
Total Gross Sales = 2863935.0399999996
Average Gross Sales w/ operator = 286.5654432659595
Average Gross Sales w/ method = 286.5654432659595


In [None]:
df_sales.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Gross_Sales
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,...,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,261.96
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,...,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,731.94
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,14.62
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,...,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,1741.05
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,...,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,27.96


In [None]:
df_sales.drop(columns='Segment', inplace=True)
df_sales.head()

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Country/Region,City,State,Region,Gross_Sales
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.96,2,0.0,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,United States,Henderson,Kentucky,South,261.96
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.94,3,0.0,219.582,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,United States,Henderson,Kentucky,South,731.94
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.62,2,0.0,6.8714,Office Supplies,Labels,Self-Adhesive Address Labels for Typewriters b...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,United States,Los Angeles,California,West,14.62
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.031,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,United States,Fort Lauderdale,Florida,South,1741.05
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.368,2,0.2,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,United States,Fort Lauderdale,Florida,South,27.96


1. Apakah terdapat perbedaan nilai rata-rata `Net_Sales` yang dihasilkan dari perhitungan menggunakan `operator` dan `method`?
2. Cara manakah yang sebaiknya dipergunakan untuk melakukan perhitungan aggregat seperti pada contoh di atas, `operator` atau `method`?

In [None]:
# Beberapa Method Bagi Indikator Statistik Aggregat Umum
print("Net Sales Numbers =", df_sales['Net_Sales'].count())
print("Average Net Sales =", df_sales['Net_Sales'].mean())
print("Maximum Net Sales =", df_sales['Net_Sales'].max())
print("Minimum Net Sales =", df_sales['Net_Sales'].min())
print("Std Dev Net Sales =", df_sales['Net_Sales'].std())

---
# BOOLEAN DATA
> "*The best thing about Boolean is even if you are wrong, you are only off by a bit*" -- *a Programmer's Joke*

Meskipun tipe data `Boolean` (`Bool`) adalah tipe data yang hanya memiliki dua nilai--yaitu `True` (1) dan `False` (0)--namun keduanya sangat berguna dalam *programming*, terutama untuk operasi logika dan kontrol alur program.

## Penggunaan
1. **Kondisi dan Percabangan**: Boolean sering digunakan dalam pernyataan kondisional seperti `if`, `else`, dan `elif` untuk menentukan alur eksekusi program berdasarkan kondisi tertentu.

   ```python
   is_raining = True
   if is_raining:
       print("Bawa payung!")
   else:
       print("Tidak perlu payung.")
   ```

2. **Operator Logika**: Beberapa object `Boolean` dapat dikombinasikan menggunakan operator logika `and`, `or`, dan `not` untuk menggabungkan beberapa kondisi.

   ```python
   is_sunny = False
   is_windy = True

   if is_sunny and not is_windy:
       print("Bagus untuk piknik.")
   else:
       print("Lebih baik di dalam rumah.")
   ```

3. **Konversi Tipe**: Data `non-boolean` di Python dapat dikonversi menjadi Boolean menggunakan fungsi `bool()`. Misalnya, angka `0` dan string kosong `''` akan dikonversi menjadi `False`, sedangkan angka bukan nol dan string non-kosong akan dikonversi menjadi `True`.

   ```python
   print(bool(0))      # Output: False
   print(bool(1))      # Output: True
   print(bool(""))     # Output: False
   print(bool("Halo")) # Output: True
   ```

Tipe data Boolean di Python sangat penting untuk kontrol alur program dan evaluasi logika. Memahami cara kerja dan penggunaannya akan membantu dalam penulisan kode yang lebih efisien dan efektif.

## Ilustrasi 2: Boolean Data

In [None]:
# cara penulisan nilai True yang benar
True

True

In [None]:
# cara penulisan nilai False yang benar
False

False

In [None]:
# penulisan boolean yang salah akan dianggap sebagai nama variabel, dan menghasilkan error
false

NameError: name 'false' is not defined

### Operasi Logika

#### 1. Operator `and` [&]
Kondisi yang dihubungkan dengan operator `and` akan bernilai `True` jika semua kondisi bernilai `True`.

In [None]:
True and True

True

In [None]:
True & True

True

In [None]:
True and False

False

In [None]:
False and False

False

In [None]:
# contoh: seseorang akan mendapatkan pekerjaan jika rajin dan upgrade skill
is_rajin = True
is_upgrade_skill = True

get_job = is_rajin and is_upgrade_skill

get_job

True

#### 2. Operator `or` [ | ]
Kondisi yang dihubungkan dengan operator `or` akan bernilai `True` jika salah satu kondisi bernilai `True`.

In [None]:
True or True

True

In [None]:
True | True

True

In [None]:
True or False

True

In [None]:
False or False

False

In [None]:
# seseorang dikatakan lulusan fakultas mipa jika dia lulusan jurusan matematika atau jurusan IPA
is_matematika = True
is_ipa = False

is_mipa = is_matematika or is_ipa

is_mipa

True

### Operasi Arithmetic
Operasi numerik dapat berlaku untuk data `boolean`, karena pada dasarnya `True` memiliki nilai 1 dan `False` memiliki nilai 0.

In [None]:
True + True

2

In [None]:
False + False

0

In [None]:
3 * True

3

In [None]:
float(True)

1.0

In [None]:
float(False)

0.0

### Operasi Perbandingan
Operasi perbandingan data `non-boolean` akan menghasilkan data bertipe `boolean`, biasanya dilakukan menggunakan operator-operator berikut:
- '>' lebih dari
- '<' kurang dari
- '>=' lebih dari atau sama dengan
- '<=' kurang dari atau sama dengan
- '==' sama dengan
- '!=' tidak sama dengan

operasi perbandingan akan menghasilkan True atau False

In [None]:
# Lebih dari
data_integer > nilai_pi

True

In [None]:
#Kurang dari
data_integer < nilai_pi

False

In [None]:
# Sama dengan
data_integer == nilai_pi

False

In [None]:
# Tidak sama dengan
data_integer != nilai_pi

True

___
# EXERCISE 2: filtering `dataframe` using `Boolean`

Dalam pengolahan data menggunakan python, `boolean` biasanya digunakan untuk melakukan proses filtering rows yang akan ditampilkan dari sebuah dataset. Langkah-langkah dasar filtering `dataframe` umumnya adalah sebagai berikut:
1. Tentukan kriteria filtering;
2. Rubah elemen pada kolom yang menjadi filter ke type `boolean` dengan cara melakukan operasi perbandingan antara elemen pada kolom dengan kriteria filtering;
3. Masukkan hasil perubahan tersebut ke dalam dataframe.

Adapun contoh prakteknya adalah memilah data pada `df_sales` untuk hanya menunjukkan transaksi yang dilakukan pada `Region` 'South' seperti berikut ini.

In [None]:
filter_region

Unnamed: 0,Region
0,True
1,True
2,False
3,True
4,True
...,...
9989,True
9990,False
9991,False
9992,False


In [None]:
"""
LENGKAPI SCRIPTS BERIKUT DENGAN VARIABLE, METHOD, ATAU DATA YANG TEPAT!!
Scripts berikut adalah langkah-langkah dasar yang dilakukan ketika seorang
data analyst hendak melakukan filtering data pada sebuah dataframe.
"""
# 1. Tentukan Kriteria
criteria_region = 'South'

# 2. Lakukan identifikasi apakah setiap elemen kolom `Region` berisi 'South'
#    lalu assign hasilnya ke variabel filter_region
filter_region = df_sales['Region'] == criteria_region

# 3. Menerapkan filter_region ke DataFrame
df_sales[filter_region]

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,Product_Name,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Country/Region,City,State,Region,Gross_Sales
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.9600,2,0.00,41.9136,Furniture,Bookcases,Bush Somerset Collection Bookcase,11/8/2019,11/11/2019,Second Class,Claire Gute,United States,Henderson,Kentucky,South,261.96
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.9400,3,0.00,219.5820,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",11/8/2019,11/11/2019,Second Class,Claire Gute,United States,Henderson,Kentucky,South,731.94
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,Bretford CR4500 Series Slim Rectangular Table,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,United States,Fort Lauderdale,Florida,South,1741.05
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.3680,2,0.20,2.5164,Office Supplies,Storage,Eldon Fold 'N Roll Cart System,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,United States,Fort Lauderdale,Florida,South,27.96
12,CA-2020-114412,AA-10480,28027,OFF-PA-10002365,15.5520,3,0.20,5.4432,Office Supplies,Paper,Xerox 1967,4/15/2020,4/20/2020,Standard Class,Andrew Allen,United States,Concord,North Carolina,South,19.44
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9971,CA-2018-103772,MP-17470,30080,OFF-AR-10000538,140.7500,5,0.00,42.2250,Office Supplies,Art,"Boston Model 1800 Electric Pencil Sharpener, Gray",6/28/2018,7/2/2018,Standard Class,Mark Packer,United States,Smyrna,Georgia,South,140.75
9980,US-2018-151435,SW-20455,70506,FUR-TA-10001039,85.9800,1,0.00,22.3548,Furniture,Tables,KI Adjustable-Height Table,9/6/2018,9/9/2018,Second Class,Shaun Weien,United States,Lafayette,Louisiana,South,85.98
9987,CA-2020-163629,RA-19885,30605,TEC-AC-10001539,79.9900,1,0.00,28.7964,Technology,Accessories,Logitech G430 Surround Sound Gaming Headset wi...,11/17/2020,11/21/2020,Standard Class,Ruben Ausman,United States,Athens,Georgia,South,79.99
9988,CA-2020-163629,RA-19885,30605,TEC-PH-10004006,206.1000,5,0.00,55.6470,Technology,Phones,Panasonic KX - TS880B Telephone,11/17/2020,11/21/2020,Standard Class,Ruben Ausman,United States,Athens,Georgia,South,206.10


Berdasarkan hasil filtering di atas:
1. Ada berapa banyak transaksi yang terjadi di Wilayah 'South'??
2. Ada berapa banyak `State` yang tercatat pada `dataframe` hasil filtering tersebut?

In [None]:
df_sales

Unnamed: 0,Order_ID,Customer_ID,Postal_Code,Product_ID,Sales,Quantity,Discount,Profit,Category,Sub-Category,...,Order_Date,Ship_Date,Ship_Mode,Customer_Name,Segment,Country/Region,City,State,Region,Gross_Sales
0,CA-2019-152156,CG-12520,42420,FUR-BO-10001798,261.9600,2,0.00,41.9136,Furniture,Bookcases,...,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,261.96
1,CA-2019-152156,CG-12520,42420,FUR-CH-10000454,731.9400,3,0.00,219.5820,Furniture,Chairs,...,11/8/2019,11/11/2019,Second Class,Claire Gute,Consumer,United States,Henderson,Kentucky,South,731.94
2,CA-2019-138688,DV-13045,90036,OFF-LA-10000240,14.6200,2,0.00,6.8714,Office Supplies,Labels,...,6/12/2019,6/16/2019,Second Class,Darrin Van Huff,Corporate,United States,Los Angeles,California,West,14.62
3,US-2018-108966,SO-20335,33311,FUR-TA-10000577,957.5775,5,0.45,-383.0310,Furniture,Tables,...,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,1741.05
4,US-2018-108966,SO-20335,33311,OFF-ST-10000760,22.3680,2,0.20,2.5164,Office Supplies,Storage,...,10/11/2018,10/18/2018,Standard Class,Sean O'Donnell,Consumer,United States,Fort Lauderdale,Florida,South,27.96
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9989,CA-2017-110422,TB-21400,33180,FUR-FU-10001889,25.2480,3,0.20,4.1028,Furniture,Furnishings,...,1/21/2017,1/23/2017,Second Class,Tom Boeckenhauer,Consumer,United States,Miami,Florida,South,31.56
9990,CA-2020-121258,DB-13060,92627,FUR-FU-10000747,91.9600,2,0.00,15.6332,Furniture,Furnishings,...,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West,91.96
9991,CA-2020-121258,DB-13060,92627,TEC-PH-10003645,258.5760,2,0.20,19.3932,Technology,Phones,...,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West,323.22
9992,CA-2020-121258,DB-13060,92627,OFF-PA-10004041,29.6000,4,0.00,13.3200,Office Supplies,Paper,...,2/26/2020,3/3/2020,Standard Class,Dave Brooks,Consumer,United States,Costa Mesa,California,West,29.60


Berdasarkan hasil filtering di atas:
1. Ada berapa banyak transaksi yang terjadi di wilayah 'South` dan Negara Bagian 'Kentucky'?
2. Ada berapa banyak `State` yang tercata pada `dataframe` baru tersebut?

In [None]:
"""
Buatlah Scripts berdasarkan langkah-langkah yang telah ditentukan, untuk
melakukan filtering `df_sales` dengan kriteria dimana nilai
'Nilai_Discount > Rata-rata Discount'
"""
# 1. Hitung besaran nilai discount dan assign ke kolom `Discount_Value`
df_sales['Discount_Value'] = df_sales['Gross_Sales'] * df_sales['Discount']

# 2. Buat Criteria (hitung rata-rata discount)
rata_rata_discount = df_sales['Discount_Value'].mean()

# 3. Buat Filter (`Discount_Value` > rata-rata `Discount_Value`)
filter_discount = df_sales['Discount_Value'] > rata_rata_discount

# 3. Terapkan Filter ke `df_sales`, lalu assign ke variable `filtered_sales`
filtered_sales = df_sales[filter_discount & filter_region]

# 4. Tampilkan ke layar Jumlah Transaksi dengan `Discount_Value` > Rata-rata `Discount_Value`
print("Jumlah Transaksi dengan discount di atas rata-rata =", filtered_sales['Discount_Value'].count())

# 5. Tampilkan ke Layar Rata-Rata `Discount_Value` bagi Seluruh Transaksi
#    dengan `Discount_Value` > Rata-Rata `Discount_Value`
print("Rata-rata nilai discount, untuk transaksi discount di atas rata-rata =", filtered_sales['Discount_Value'].mean())

Jumlah Transaksi dengan discount di atas rata-rata = 208
Rata-rata nilai discount, untuk transaksi discount di atas rata-rata = 467.0049807692307


Berdasarkan hasil pengolahan di atas:
1. Berapa banyak transaksi yang bernilai diskon di atas rata-ratanya?
2. Berapa nilai Rata-rata `Discount_Value` bagi transaksi dengan `Discount_Value` di atas rata-rata?

---
# STRING DATA
String adalah tipe data di Python yang digunakan untuk merepresentasikan teks. String didefinisikan dengan menggunakan tanda kutip tunggal (`'...'`) atau tanda kutip ganda (`"..."`) dalam satu baris.


## String Assignment
Sebuah String bisa dideklarasikan dengan cara berikut:

```python
nama = "Python"
pesan = 'Selamat datang di dunia pemrograman!'
```


## String Operations
1. **Akses Karakter**: Setiap karakter dalam string dapati diakses dengan menggunakan indeks.

   ```python
   teks = "Python"
   print(teks[0])  # Output: P
   print(teks[-1]) # Output: n
   ```
2. **Panjang String**: Gunakan fungsi `len()` untuk memperoleh informasi panjang string.

   ```python
   teks = "Pemrograman"
   print(len(teks))  # Output: 11
   ```
3. **Irisan (Slicing)**: Sebagian dari String dapat diambil dengan menggunakan teknik slicing.

   ```python
   teks = "Pemrograman"
   bagian = teks[0:3]
   print(bagian)  # Output: Pem
   ```

## String Manipulation
### Operasi Matematis

Beberapa operator matematis dapat dipergunakan untuk melakukan operasi terhadap data String. Seperti berikut di bawah ini:
1. **Concatenation**
  ```python
  nama_depan = 'Elon'
  nama_belakang = 'Musk'

  nama_depan + ' ' + nama_belakang # Output : "Elon Musk"
  ```
2. **Repetition**
  ```python
  'Python' * 5 # Output : PythonPythonPythonPythonPython
  ```

### String methods
> Methods adalah fungsi yang terkait dengan suatu objek tertentu dan digunakan untuk memanipulasi atribut atau mengenakan suatu aksi terhadap objek terkait.

Beberapa string methods yang cukup sering dipergunakan dalam pengolahan data String, antara lain:
1. **Case Changing**
  ```python
  # Merubah format string menjadi capital
  'Python'.upper()                  # Output : 'PYTHON'
  # Merubah format String ke lowercase
  'PyThon'.lower()                  # Output : 'python'
  # Menukar format String
  'PyThon'.swapcase()               # Output : pYtHON
  # Merubah format String menjadi format judul
  'aku suka belajar python'.title() # Output: 'Aku Suka Belajar Python'
  ```
2. **String Replacement**
  ```python
  # Mengganti karakter dengan karakter lain
  'Aku suka belajar Python'.replace('u','i') # Output : 'Aki sika belajar Python'
  ```
3. **White Space Stripping**
  ```python
  # Menghapus whitespace berlebihan di awal dan akhir dari String
  '      Aku suka belajar Python        '.strip() # Output : 'Aku suka belajar Python'
  ```
4. **String Splitting**
  ```python
  # Memisahkan text menjadi sebuah list berdasarkan separator tertentu
  'Aku suka belajar python'.split(sep=" ") # Output : ['Aku', 'suka', 'belajar', 'python']
  ```
5. **String Concatenation**
  ```python
  # Menggabungkan potongan string
  " ".join([nama_depan, nama_belakang]) # Output : "Elon Musk"
  ```
6. **Counting String**
  ```python
  # Menghitung kemunculan karakter tertentu
  'Aku suka belajar Python'.count('u') # Output : 2
  ```
7. **Finding String**
  ```python
  # Mengidentifikasi posisi keberapa suatu string pada text berada
  'Aku suka belajar python'.find('ajar') # Output : 12
  # Jika string yang dicari tidak ditemukan
  'Aku suka belajar python'.find('membaca') # Output : -1
  # Untuk mengidentifikasi apakah suatu string terdapat pada text
  'Aku suka belajar python'.find('dia')>-1 # Output : False
  ```


### String Formatting
> *String Formatting* adalah sebuah proses menyematkan string atau variabel ke dalam sebuah text tanpa menggunakan operator seperti pada *concatenation*.

Terdapat tiga cara *string formatting* yang sering digunakan dalam python adalah, sebagai berikut:

1. **`% Operator`**
  ```python
  # String Assignment
  query_by_provinsi = """SELECT * FROM tbl_produksi WHERE nama_provinsi = '%s' AND nama_kabupaten = '%s';"""

  # Tampilkan String ke layar tanpa disemat argument
  print(query_by_provinsi)
  # Output : "SELECT * FROM tbl_produksi WHERE nama_provinsi = '%s' AND nama_kabupaten = '%s';"
  
  # Tampilkan String ke layar dengan disematkan argument
  print(query_by_provinsi % ('DKI JAKARTA', 'JAKARTA PUSAT'))
  # Output : "SELECT * FROM tbl_produksi WHERE nama_provinsi = 'DKI JAKARTA' AND nama_kabupaten = 'JAKARTA PUSAT';"

  # Jika jumlah argument yang disematkan tidak sesuai, akan mengakibatkan error
  print(query_by_provinsi % ('DKI JAKARTA'))
  # Output : 'TypeError: not enough arguments for format string'
  ```

2. **`str.format()` Method**
  ```python
  # String Assignment
  template_sapaan = "Hi,\nnama saya {},\numur saya {} tahun,\nsalam kenal!"

  # Sematkan argument ke dalam String
  sapa = template_sapaan.format(nama_lengkap, "17")

  # Tampilkan hasil formatting ke layar
  print(sapa)
  # Output :
    """
    Hi,
    nama saya Rikrik Rahadian,
    umur saya 17 tahun,
    salam kenal!
    """
  ```

3. **`f-strings`**
- **Formatting**
  ```python
  # String Assignment
  first_name = "Elon"
  last_name = "Musk"
  nomor_kamar = "512"
  waktu = "siang"
  # String Formatting
  template_greeting = f"Hallo Tuan {last_name}, selamat {waktu}, anda menginap di kamar {nomor_kamar}"
  # Tampilkan hasil formatting ke layar
  print(template_greeting)
  # Output : "Hallo Tuan Musk, selamat siang, anda menginap di kamar 512"
  ```

- **Alignment & Padding**
  ```python
  # String Assignment
  formatted_string = f"{'Elon Musk':*^30}"
  # Tampilkan string ke layar
  print(formatted_string)
  # Output : '**********Elon Musk***********'
  ```

Penjelasan script di atas:
  - **Value**: 'Elon Musk' adalah String yang akan diformat.
  - **Padding Character**: * memberikan spesifikasi bahwa value tersebut akan diberi *padding* berupa simbol *asterisks*.
  - **Alignment**: ^ mengindikasikan *alignment* dari value di tengah. Opsi lainnya adalah: < untuk *left alignment* dan > untuk *right alignment*.
  - **Width**: 30 menunjukkan total karakter seluruhnya meliputi value dari string ditambah padding yang diulang sebanyak sisa total karakter dikurangi jumlah karakter dari value.

String adalah bagian penting dalam pemrograman Python yang memungkinkan programmer untuk memanipulasi dan bekerja dengan teks secara efisien. Memahami operasi dasar dan metode string akan membantu mengelola data teks dengan lebih baik.`

## Ilustrasi 3: String Data

In [None]:
# Serangkaian Karakter yang sama dengan tanda kutip berbeda, akan dianggap sama oleh python
hello_satu = 'Hello world'
hello_dua = "Hello world"
hello_satu == hello_dua

True

In [None]:
# Tanda kutip singel di baris berbeda akan membangkitkan error
"Hello World
"

SyntaxError: unterminated string literal (detected at line 2) (<ipython-input-94-d12a93fd6de8>, line 2)

In [None]:
# Data String dengan multi baris harus dituliskan diantara """ atau '''
query_pertama = """
SELECT
  col1,
  col2,
  col3
FROM tbl_produksi
LIMIT 5;
"""
print(query_pertama)


SELECT
  col1,
  col2,
  col3
FROM tbl_produksi
LIMIT 5;



In [None]:
# Data string multi baris pada memory
query_pertama

'\nSELECT\n  col1,\n  col2,\n  col3\nFROM tbl_produksi\nLIMIT 5;\n'

In [None]:
# Data String dengan multi baris juga dapat dituliskan dalam 1 baris di antara " atau '
query_kedua = "SELECT\n  col1,\n  col2,\n  col3\nFROM tbl_produksi \nLIMIT 5;"
print(query_kedua)

SELECT
  col1,
  col2,
  col3
FROM tbl_produksi 
LIMIT 5;


In [None]:
# Slicing Data String
nama_lengkap = "Rikrik Rahadian"
nama_lengkap[10] # Slicing

'a'

In [None]:
nama_lengkap[2]

'k'

In [None]:
nama_lengkap[3:6]

'rik'

In [None]:
nama_lengkap[3:6:2]

'rk'

___
# EXERCISE 3: Variables

Pada exercise ini kita akan melakukan pengamatan dan menjalankan script yang melakukan proses penginputan informasi calon responden ke dalam sebuah daftar responden.

Sebelum menjalankan `scripts`, coba amati terlebih dahulu, lalu carilah informasi terkait:
1. Data responden apa saja yang diinput?
2. Berapa banyak variable yang di-assign value pada `script`?
3. Tipe data apa saja yang di-assign ke dalam setiap variable tersebut?
4. Pada variable apakah data seluruh responden yang diinput di-assign?


In [None]:
# MEMBUAT DAFTAR CALON RESPONDEN
# 1. Persiapan
# Set sebuah list kosong sebagai `respondent_listed`
respondent_listed : list = []

# 2. Proses Mengisi Daftar
# Buat unlimited loop
while True:
  # Cek apakah user akan mengisi data ke daftar
  pilihan : str = input(f"{'':=^63}\nApakah ada nama yang akan ditambahkan ke list? (1=ya/0=tidak) ")
  # Validasi pilihan user
  # Apakah pilihan user benar??
  if pilihan not in ['0', '1']:
    print("Pilihan tidak valid, silahkan pilih 1 atau 0!")

  # Jika tidak tambah responden
  if pilihan == '0':
    break # Hentikan unlimited loop
  # Jika tambah responden
  elif pilihan == '1':
    # Mintakan nama lengkap
    nama_lengkap : str = input('1. Nama Lengkap: ')
    # Mintakan Nomor Telepon
    nomor_telepon : str = input('2. Nomor Telepon: ')
    # Mintakan Tanggal Lahir
    dob : str = input("3. Tanggal Lahir: (dd/mm/yyyy)")
    # Mintakan Jenis Kelamin
    jenis_kelamin : bool = bool(int(input("4. Jenis Kelamin: (1=L/0=P)")))
    # Tambahkan data responden ke dalam list `respondent_listed`
    respondent_listed.append((nama_lengkap, nomor_telepon, dob, jenis_kelamin))

# 3. Tampilkan daftar ke layar
# Buat Judul tabel
print(f"\n{'DAFTAR CALON RESPONDEN':-^63}")
# Buat Garis Pembatas
print(f"{'':=^63}")
# Buat Header Tabel
print(f"{'NO': ^4}", f"{'NAMA': ^19}", f"{'TELEPON': ^15}", f"{'DOB': ^13}", f"{'L/P': ^8}", sep = "|")
# Buat Garis Pembatas baris
print(f"{'':-^63}")
# Buat loop berdasarkan elemen pada `respondent_listed`
for idx, item in enumerate(respondent_listed):
  print(f"{idx+1: >4}", f"{item[0]: <19}", f"{item[1]: >15}", f"{item[2]: ^13}", f"{item[3]: ^8}", sep = "|")
# Buat Garis Pembatas
print(f"{'':=^63}")

Apakah ada nama yang akan ditambahkan ke list? (1=ya/0=tidak) 1
1. Nama Lengkap: Rikrik Rahadian
2. Nomor Telepon: 087770530978
3. Tanggal Lahir: (dd/mm/yyyy)01/01/1979
4. Jenis Kelamin: (1=L/0=P)1
Apakah ada nama yang akan ditambahkan ke list? (1=ya/0=tidak) 1
1. Nama Lengkap: Dodi Supriadi
2. Nomor Telepon: 087770530979
3. Tanggal Lahir: (dd/mm/yyyy)02/02/1950
4. Jenis Kelamin: (1=L/0=P)1
Apakah ada nama yang akan ditambahkan ke list? (1=ya/0=tidak) 1
1. Nama Lengkap: Tini Martini
2. Nomor Telepon: 087770530971
3. Tanggal Lahir: (dd/mm/yyyy)03/03/1999
4. Jenis Kelamin: (1=L/0=P)0
Apakah ada nama yang akan ditambahkan ke list? (1=ya/0=tidak) 0

--------------------DAFTAR CALON RESPONDEN---------------------
 NO |       NAMA        |    TELEPON    |     DOB     |  L/P   
---------------------------------------------------------------
   1|Rikrik Rahadian    |   087770530978| 01/01/1979  |   1    
   2|Dodi Supriadi      |   087770530979| 02/02/1950  |   1    
   3|Tini Martini       | 

In [None]:
# Panggil isi Variable yang di-assign data seluruh calon responden dari memory
respondent_listed

[('Rikrik Rahadian', '087770530978', '01/01/1979', True),
 ('Dodi Supriadi', '087770530979', '02/02/1950', True),
 ('Tini Martini', '087770530971', '03/03/1999', False)]

In [None]:
# Cek tipe data yang disimpan pada variable tersebut
type(respondent_listed)

list

# EXERCISE 4: `string` Manipulation in a `dataframe`
Seperti telah kita amati bersama pada exercise sebelumnya, bahwa data responden yang diinput tersimpan dalam sebuah variable `responden_listed` dengan data bertipe `list`. Selanjutnya, data yang sudah terkumpul tersebut biasanya akan diproses lebih lanjut agar sesuai dengan kebutuhan. Untuk memudahkan pemrosesan lebih lanjut, dalam python, `list` berisi data tersebut umumnya diubah ke format tabular berupa object `pandas.DataFrame`.

Sebagai ilustrasi, misalkan kita diminta untuk merubah struktur data, dimana nama responden dipisahkan menjadi dua kolom, yaitu: `FIRSTNAME` dan `LASTNAME`. Untuk melakukan proses tersebut, maka kita akan melakukan proses dengan langkah-langkah berikut:
1. Ubah `list` menjadi `pd.DataFrame` dengan nama kolom berikut: `NAME`, `TELEPON`, `DOB`, dan `GENDER`, lalu assign ke `daftar_responden`;
2. Buat `copy` dari `daftar_responden` assign ke `df_responden`;
3. Buat kolom `FIRSTNAME`;
4. Buat kolom `LASTNAME`; dan
5. Filter kolom hanya berisi `FIRSTNAME`, `LASTNAME`, `TELEPON`, `DOB`, dan `GENDER`, lalu copy dan assign ke `df_responden_rapi`.

Lengkapi `scripts` di bawah berikut dengan `variable`, atau data yang tepat!!

In [None]:
respondent_listed[0]

('Rikrik Rahadian', '087770530978', '01/01/1979', True)

In [None]:
# 1. Convert `respondent_listed` menjadi sebuah DataFrame dengan menggunakan
#    method `DataFrame` dari modul `pandas`
daftar_responden = pd.DataFrame(respondent_listed, columns=['NAME', 'TELEPON', 'DOB', 'GENDER'])
# Tampilkan informasi type object `daftar_responden` ke layar
print(daftar_responden)
# Check isi `daftar_responden` yang tersimpan pada memory
daftar_responden

              NAME       TELEPON         DOB  GENDER
0  Rikrik Rahadian  087770530978  01/01/1979    True
1    Dodi Supriadi  087770530979  02/02/1950    True
2     Tini Martini  087770530971  03/03/1999   False


Unnamed: 0,NAME,TELEPON,DOB,GENDER
0,Rikrik Rahadian,87770530978,01/01/1979,True
1,Dodi Supriadi,87770530979,02/02/1950,True
2,Tini Martini,87770530971,03/03/1999,False


In [None]:
daftar_responden.loc[0]

Unnamed: 0,0
NAME,Rikrik Rahadian
TELEPON,087770530978
DOB,01/01/1979
GENDER,True


In [None]:
# 2. Buat copy dari `daftar_responden` ke `df_responden`
df_responden = daftar_responden.copy()

---
***Basic DataFrame String Methods***

Penggunaan `string methods` pada object `dataframe` sangat berbeda dengan `string methods` biasa seperti yang telah dibahas pada bagian terdahulu. Selain perbedaan dari sisi perbendaharaan `methods`, untuk mengaktivasi berbagai `string methods` pada sebuah `dataframe` diperlukan `accessor` `str`, seperti dicontohkan pada illustrasi di bawah berikut:

In [None]:
# Basic Dataframe String-Splitting
df_responden['NAME'].str.split(" ", expand=True)

Unnamed: 0,0,1
0,Rikrik,Rahadian
1,Dodi,Supriadi
2,Tini,Martini


---

In [None]:
# 3. Buat Kolom baru `FIRSTNAME`
df_responden['FIRSTNAME'] = df_responden['NAME'].str.split(" ", expand=True)[0]

# 4. Buat Kolom baru `LASTNAME`
df_responden['LASTNAME'] = df_responden['NAME'].str.split(" ", expand=True)[1]

# 5. Filter Kolom yang ditampilkan
df_responden_rapi = df_responden[['FIRSTNAME', 'LASTNAME', 'TELEPON', 'DOB', 'GENDER']].copy()

# Cek isi `df_responden_rapi` dari memory
df_responden_rapi

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER
0,Rikrik,Rahadian,87770530978,01/01/1979,True
1,Dodi,Supriadi,87770530979,02/02/1950,True
2,Tini,Martini,87770530971,03/03/1999,False


In [None]:
# Cek Struktur `df_responden_rapi`
df_responden_rapi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   FIRSTNAME  3 non-null      object
 1   LASTNAME   3 non-null      object
 2   TELEPON    3 non-null      object
 3   DOB        3 non-null      object
 4   GENDER     3 non-null      bool  
dtypes: bool(1), object(4)
memory usage: 231.0+ bytes


In [None]:
# Pengolahan Data String dengan Method Chaining
(pd.DataFrame(respondent_listed, columns=['NAMA', 'TELEPON', 'DOB', 'GENDER'])
 .assign(FIRSTNAME=lambda df: df['NAMA'].str.split(" ", expand=True)[0],
         LASTNAME=lambda df: df['NAMA'].str.split(" ", expand=True)[1])
 .loc[:,['FIRSTNAME', 'LASTNAME', 'TELEPON', 'DOB', 'GENDER']])

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER
0,Rikrik,Rahadian,87770530978,01/01/1979,True
1,Dodi,Supriadi,87770530979,02/02/1950,True
2,Tini,Martini,87770530971,03/03/1999,False


# `python` `DATETIME`
`datetime` adalah sebuah modul *built-in* pada `python` yang menyediakan berbagai alat untuk bekerja dengan berbagai object berupa **tanggal**, **waktu**, dan **interval waktu**. Dengan menggunakan modul ini, maka seorang data analyst dapat membuat, memanipulasi, dan melakukan *formatting* terhadap objek `date/time` secara konsisten.

---

## Why `datetime`?

* 🗓️ Untuk *parsing* dan *handling timestamps* pada datasets;
* ⏳ Untuk melakukan kalkulasi `date/time` (e.g., duration, umur, deadlines);
* 🧾 Untuk melakukan *formatting* `dates/times`;
* 📅 Untuk melakukan *filtering* atau *grouping* data berdasarkan `date/time`.

---

## How to Use

### 1. **Importing the module**

```python
import datetime
```

### 2. **Creating date/time objects**

```python
today = datetime.date.today()               # current date
now = datetime.datetime.now()               # current date and time
custom_date = datetime.date(2024, 5, 17)    # specific date
```

### 3. **Parsing from string**

```python
from datetime import datetime
dt = datetime.strptime("2024-05-17", "%Y-%m-%d")
```

### 4. **Formatting to string**

```python
dt.strftime("%d %B %Y")   # Output: '17 May 2024'
```

### 5. **Date arithmetic**

```python
delta = datetime.timedelta(days=7)
next_week = today + delta
```

---

> **Tips:**

* Pergunakan `pandas.to_datetime()` ketika bekerja dengan `date/time` pada sebuah `dataframe`.

# EXERCISE 5: `string` to `datetime`
Seperti telah kita kerjakan pada exercise sebelumnya, sekarang kita memiliki sebuah tabel berisi data responden yang sudah terformat dengan rapi. Sebagai ilustrasi selanjutnya, misalkan kita diminta untuk menghitung umur dari setiap responden agar dapat dilakukan pengelompokkan berdasarkan umur pada analisis lanjutan.
Hal penting yang perlu kita pikirkan adalah:
1. Adakah data yang dapat kita olah untuk memperoleh informasi `UMUR`?
2. Apakah tipe data yang ada memungkinkan untuk memperoleh informasi `UMUR`?
3. Perlukan dilakukan *adjustment* terhadap data tersebut?

In [None]:
# 1. Casting string to datetime
df_responden_rapi['DOB'] = pd.to_datetime(df_responden_rapi['DOB'], dayfirst=True)

In [None]:
# Cek Struktur DataFrame
df_responden_rapi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   FIRSTNAME  3 non-null      object        
 1   LASTNAME   3 non-null      object        
 2   TELEPON    3 non-null      object        
 3   DOB        3 non-null      datetime64[ns]
 4   GENDER     3 non-null      bool          
dtypes: bool(1), datetime64[ns](1), object(3)
memory usage: 231.0+ bytes


In [None]:
# 2. Datetime operation: Menghitung Umur Responden
# Import method `datetime` dari modul `datetime`
from datetime import datetime
# Hitung umur, lalu assign ke kolom `UMUR`
df_responden_rapi['UMUR'] = datetime.now().year - df_responden_rapi['DOB'].dt.year
# Cek isi `df_responden_rapi` dari memory
df_responden_rapi

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER,UMUR
0,Rikrik,Rahadian,87770530978,1979-01-01,True,46
1,Dodi,Supriadi,87770530979,1950-02-02,True,75
2,Tini,Martini,87770530971,1999-03-03,False,26


In [None]:
# Cek Struktur DataFrame
df_responden_rapi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   FIRSTNAME  3 non-null      object        
 1   LASTNAME   3 non-null      object        
 2   TELEPON    3 non-null      object        
 3   DOB        3 non-null      datetime64[ns]
 4   GENDER     3 non-null      bool          
 5   UMUR       3 non-null      int32         
dtypes: bool(1), datetime64[ns](1), int32(1), object(3)
memory usage: 243.0+ bytes


In [None]:
# Pengolahan data UMUR dengan Method Chaining
(pd.DataFrame(respondent_listed, columns=['NAMA', 'TELEPON', 'DOB', 'GENDER'])
 .assign(FIRSTNAME=lambda df: df['NAMA'].str.split(" ", expand=True)[0],
         LASTNAME=lambda df: df['NAMA'].str.split(" ", expand=True)[1],
         DOB=lambda df: pd.to_datetime(df['DOB'], dayfirst=True),
         UMUR=lambda df: datetime.now().year - df['DOB'].dt.year)
 .loc[:,['FIRSTNAME', 'LASTNAME', 'TELEPON', 'DOB', 'GENDER', 'UMUR']])

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER,UMUR
0,Rikrik,Rahadian,87770530978,1979-01-01,True,46
1,Dodi,Supriadi,87770530979,1950-02-02,True,75
2,Tini,Martini,87770530971,1999-03-03,False,26


# EXERCISE 6: conditionals data manipulation => `bool` to `string`
`DataFrame` hasil pengolahan pada exercise sebelumnya sudah terstruktur dengan baik, namun masih belum tepat untuk publikasi. Idealnya, tabel yang dipublikasikan harus memudahkan proses interpretasi. Pada `df_responden_rapi` tersebut, pengkodean `GENDER` masih berupa data `boolean`, sehingga masih perlu proses interpretasi lebih jauh.

Pada exercise ini, kita akan melakukan manipulasi data `boolean` menjadi data `string` yang terkait dengan pengkodean yang diterapkan, dengan menggunakan method `where` pada modul `numpy`.

In [None]:
# 1. Import modul `numpy`
import numpy as np
# 2. Gunakan method `where` untuk mengubah data kolom `GENDER`,
#    True menjadi 'Laki-laki' dan False menjadi 'Perempuan'
df_responden_rapi['GENDER'] = np.where(df_responden_rapi['GENDER'], 'Laki-laki', 'Perempuan')
# Cek isi `df_responden_rapi` dari memory
df_responden_rapi

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER,UMUR
0,Rikrik,Rahadian,87770530978,1979-01-01,Laki-laki,46
1,Dodi,Supriadi,87770530979,1950-02-02,Laki-laki,75
2,Tini,Martini,87770530971,1999-03-03,Perempuan,26


In [None]:
df_responden_rapi['KELOMPOK_USIA'] = np.where(
    df_responden_rapi['UMUR'] > 60,
    'Lanjut Usia',
    np.where(df_responden_rapi['UMUR'] > 20,
             'Usia Produktif', 'Remaja'))
df_responden_rapi

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER,UMUR,KELOMPOK_USIA
0,Rikrik,Rahadian,87770530978,1979-01-01,Laki-laki,46,Usia Produktif
1,Dodi,Supriadi,87770530979,1950-02-02,Laki-laki,75,Lanjut Usia
2,Tini,Martini,87770530971,1999-03-03,Perempuan,26,Usia Produktif


In [None]:
# Cek struktur DataFrame
df_responden_rapi.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 6 columns):
 #   Column     Non-Null Count  Dtype         
---  ------     --------------  -----         
 0   FIRSTNAME  3 non-null      object        
 1   LASTNAME   3 non-null      object        
 2   TELEPON    3 non-null      object        
 3   DOB        3 non-null      datetime64[ns]
 4   GENDER     3 non-null      object        
 5   UMUR       3 non-null      int32         
dtypes: datetime64[ns](1), int32(1), object(4)
memory usage: 264.0+ bytes


In [None]:
# Pengolahan data GENDER dengan Method Chaining
(pd.DataFrame(respondent_listed, columns=['NAMA', 'TELEPON', 'DOB', 'GENDER'])
 .assign(FIRSTNAME=lambda df: df['NAMA'].str.split(" ", expand=True)[0],
         LASTNAME=lambda df: df['NAMA'].str.split(" ", expand=True)[1],
         DOB=lambda df: pd.to_datetime(df['DOB'], dayfirst=True),
         UMUR=lambda df: datetime.now().year - df['DOB'].dt.year,
         GENDER=lambda df: np.where(df['GENDER'], 'Laki-laki', 'Perempuan'))
 .loc[:,['FIRSTNAME', 'LASTNAME', 'TELEPON', 'DOB', 'GENDER', 'UMUR']])

Unnamed: 0,FIRSTNAME,LASTNAME,TELEPON,DOB,GENDER,UMUR
0,Rikrik,Rahadian,87770530978,1979-01-01,Laki-laki,46
1,Dodi,Supriadi,87770530979,1950-02-02,Laki-laki,75
2,Tini,Martini,87770530971,1999-03-03,Perempuan,26


___