# DSS: Streamlining Invoice Processing
### Document Understanding Transformer for Efficient Business Operations in Python

<div class="alert alert-success">
<b>Inclass: Data Science Series - Streamlining Invoice Processing </b>

- 💻 Detail Material: [Document Understanding Transformer](https://github.com/clovaai/donut) for Efficient Business Operations in Python
- 👩🏻‍🏫 Instructor: Fiqey Indriati Eka Sari

© Algoritma 2024
___
</div>

# Background 
Di dalam lanskap operasional bisnis yang terus berkembang dengan cepat, menguasai pemrosesan faktur yang efektif menjadi sangat penting. Pemrosesan faktur adalah bagian kritis dari kegiatan bisnis yang melibatkan pengelolaan keuangan dan akuntansi. Faktur yang diproses dengan baik membantu dalam pelacakan pengeluaran, mengoptimalkan arus kas, dan memastikan kepatuhan terhadap peraturan keuangan. Dengan lanskap bisnis yang cepat berubah, perusahaan perlu dapat beradaptasi dengan cepat. Menguasai pemrosesan faktur menjadi penting untuk mengatasi ketidakpastian dan menjaga kecepatan tanggapan terhadap perubahan di sekitarnya.

Materi ini menawarkan solusi komprehensif dengan workshop khusus yang dilengkapi dengan keterampilan terkini. Fokusnya adalah pada penggunaan Document Understanding Transformer, sebuah model deep learning NLP, dengan pemrograman Python. Dengan menyelami teknologi ini, yang terbukti berhasil dalam tugas pemrosesan bahasa alami, peserta akan memperoleh keahlian untuk menyederhanakan dan meningkatkan alur kerja pemrosesan faktur. 

# Output

Setelah menyelesaikan workshop ini, Anda akan dapat:

- Memanfaatkan Document Understanding Transformer (Donut) untuk ekstraksi data yang akurat dari gambar penerimaan, mengoptimalkan alur kerja pemrosesan faktur.
- Meningkatkan keterampilan analisis data untuk pengambilan keputusan yang terinformasi dalam operasional bisnis dengan memanfaatkan hasil keluaran dari Document Understanding Transformer.
- Membangun aplikasi web yang ramah pengguna dengan alat seperti Gradio untuk pemindaian efisien penerimaan dan faktur, secara mulus sejalan dengan kebutuhan bisnis modern untuk proses keuangan yang efisien.

# Training Objectives

**Python Programming Basics**

- Anaconda Environment Preparation
- Working with Jupyter Notebook (.ipynb)
- Understanding Fundamental of Variables & Python Data Types
- Exploring Python Functions and Looping Concepts.

**Working with DataFrame Pandas**
- Understanding Dataframe `pandas`
- Master data manipulation and pre-processing
- Perform conditional subsetting operations

**Document Understanding Transformer (DUT) Utilization**

- Introduction to Transformer Deep Learning NLP
- Data Extraction using Donut Model (OCR-free Document Understanding Transformer)
- Data Analysis Enhancement with DUT Outputs

**Integration Gradio for Efficient Scanning**

- Understand the fundamentals of Gradio for building user-friendly web applications.
- Develop user-friendly web applications using Gradio for efficient receipt and invoice scanning


# Python Programming Basics
## Anaconda Environment Preparation

### Cara Membuat Environtment Baru:

- **1️⃣ Membuka Terminal pada Visual Studio Code**

    Saat pertama kali kita membuka Visual Studio Code, terdapat beberapa menu di pojok kiri atas. Silahkan kamu klik menu **Terminal** pada bagian kiri atas. Lalu, pilih **`New Terminal`**. Selesai, kamu berhasil membuka terminal baru.


- **2️⃣ Buat Environment dengan Nama `ENV_NAME`**:
   
    ```conda create -n dss_invoice python=3.10```

    Tujuan dari kita menuliskan `python=3.10` agar python yang terinstall pada virtual environtment yang kita buat adalah python dengan versi 3.10. 


- **3️⃣ Mengaktifkan Environment**

    Setelah virtual environtment yang baru kita buat sudah selesai, kita bisa mengaktifkan environtment yang sudah kita buat dengan code berikut.

    ```conda activate dss_invoice```

### Install/Update Package
Sebelum melakukan instalasi package, pastikan Anda sudah melakukan aktivasi virtual environment tempat Anda mau menginstall package.
```pip install <PACKAGE_NAME>```

Kita juga bisa menginstallnya melalui sebuah teks `reqirements.txt` yang berisi list packages yang perlu diinstall, commandnya `pip install -r requirements.txt` dengan syarat sebelum menjalankan command ini, kita sudah berapa pada folder material utama

### 🧪 Knowledge Check

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak. 

1. Berikut adalah tujuan kita membuat virtual environment, **KECUALI** ...

    - [ ] Kolaborasi (sharing environment)
    - [ ] Mengisolasi package beserta versi-nya
    - [x] Virtual environment harus dibuat agar Python dapat dijalankan

3. Pasangkan beberapa opsi ini dengan pilihan yang cocok:
    - Visual Studio Code: ...
    - Miniconda: ...
    - Python: ...
    
    Pilihan Jawaban:
    - a. Bahasa Pemrograman
    - b. Environment Manager
    - c. Integrated Development Environment (IDE) 

## Working with Jupyter Notebook (.ipynb)

#### Markdown Cell dan Code Cell

Tipe cell dalam notebook:

**1️⃣ Markdown** : untuk menuliskan narasi

Ini adalah cell markdown. Kita bisa menulis teks **bold**, *italic*, bahkan formula matematis seperti:

\begin{equation}
f(x) = \frac{e^{-x}}{(1+e^{-x})}
\end{equation}

Cara menambahkan gambar:

`<img src="..." width="500px"></img>`

**2️⃣ Code** : untuk menuliskan script code

💡 symbol `#` pada cell code berarti adalah sebuah `comment`. **`Comment` pada cell code tidak akan dieksekusi**

In [2]:
# ini merupakan cell untuk code
print("dan ini adalah cell code tempat menuliskan code python")

dan ini adalah cell code tempat menuliskan code python


> Untuk run cell code: Ctrl + Alt + Enter

#### Command Mode and Edit Mode

Ada 2 mode cell dalam notebook:
1. **1️⃣ Command Mode**
    - `a` : Menambah cell baru di atas
    - `b` : Menambah cell baru di bawah
    - `d` + `d` : Menghapus cell terpilih
    - `c` : Menyalin cell terpilih
    - `v` : Paste cell terpilih
    - `m` : Mengubah tipe cell ke markdown
    - `y` : Mengubah tipe cell ke kode
    - `enter` : enter Edit Mode


2. **2️⃣ Edit Mode (Cell Terdapat Border Biru Persegi Panjang)**
    - `Ctrl + Enter`: eksekusi satu cell
    - `Esc`: mengubah edit mode menjadi command mode

## Understanding Fundamental of Variables & Python Data Types

### Variables 
**Variable** adalah sebuah nama yang dipakai untuk menyimpan sebuah nilai. 

_So if we say, data is food, then variable is where we store the food._

> 💡 Tanda `=` dipakai untuk assignment dalam membuat variabel baru

In [3]:
angka = 10
angka

10

🚀 Mari kita coba buat sebuah objek, yang berisikan nama dss ini!

In [4]:
dss_name = "Data Science Series: Streamlining Invoice Processing"
print(dss_name)

Data Science Series: Streamlining Invoice Processing


<div class="alert-info alert">
💡 Sebagai catatan, seperti bahasa pemrograman yang lainnya, Python bersifat <b>case-sensitive</b>.

Sehingga `dss_name` dan `DSS_Name` dimaknai berbeda sehingga akan dianggap variabel yang berbeda pula. Maka dari itu, penamaan variable menjadi hal yang perlu diperhatikan.
</div>

In [5]:
## code here
dss_name == dss_name

True

Kode di atas mengembalikan `True` sebagai output. Cobalah untuk membuat variabel baru dan gunakan `True` sebagai namanya. kemudian lihat apa yang akan terjadi.

> SyntaxError: can't assign to keyword

___

Sebagai catatan, `True`, dan juga lawannya, False termasuk ke dalam daftar kata yang dinamakan **Python Keywords**. Kita tidak dapat menggunakan keyword sebagai nama variabel ataupun sebagai fungsi.

Semua python keyword selain **True**, **False**, dan **None** adalah huruf kecil.

___

✨ **Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.10) keyword yang ada pada Python adalah sebagai berikut:

In [6]:
# cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']


⚠️ Berikut beberapa ketentuan dalam memberikan nama variable pada Python:
- Tidak boleh menggunakan angka di awal. Misal `1Algoritma`
- Hanya kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda
- Tidak boleh menggunakan keywords pada Python

### Python Data Types

> Untuk mengecek tipe data python dapat menggunakan `type()`

#### (1) 🔠 String

Python mewakili string apapun sebagai object `str`. Adapun beberapa cara untuk membuat nilai string:
- menggunakan `''` (contoh: `'Jakarta'` atau `'saya lahir di Bekasi'`)
- mengunakan `""` (contoh: `"hari jum'at"`)
- menggunakan `'''` atau `"""` (contoh: `'''Dia bersorak "Hore! Sudah hari Jum'at"'''`)

In [7]:
dss_name

'Data Science Series: Streamlining Invoice Processing'

In [8]:
# code here
type(dss_name)

str

#### (2) 🔢 Number

Untuk menyimpan number, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan **bilangan bulat** (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan **bilangan real** (yaitu: 0.7, -1.8, -1000.0) 👉🏻 bilangan desimal.

In [9]:
# code here
nilai_ta = 100
nilai_fiqey = 90.0 

In [10]:
nilai_ta - nilai_fiqey

10.0

**✨ Operasi Matematika ✨**
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Pembagian
- `//` - Pembagian yang dibulatkan ke bawah
- `%` - Modulus (sisa pembagian)
- `**` - Eksponen (pangkat)

#### (3) ✅ Boolean

Boolean hanya berisikan nilai `True` atau `False`. Biasanya untuk menunjukkan kebenaran suatu kondisi

In [11]:
2 + 2 == 5
# == --> untuk mengecek kondisi (apakah sama?)

False

#### (4) 🗃️ List
`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakan nilai di dalam tanda kurung siku `[]`

In [12]:
# list berikut mengandung informasi nama, kota domisili, umur, apakah sudah menikah?
data_list = ['Sari', 'Jakarta', 27, False]

In [13]:
# cek tipe data my_list
type(data_list)

list

Dalam sebuah list kita dapat melakukan operasi mengakses elemen ke-i dari `list_x`, yaitu dengan `list_x[i]`. 📌 **Additional Information**

- Python menggunakan sistem **zero based indexing** yang berarti, urutan pada python dimulai dari angka 0.

In [14]:
# akses informasi kota domilisi dari seorang Sari, dimana informasi kota domilisi terletak di urutan ke-2 (index ke-1)
data_list[1]

'Jakarta'

#### (5) 🧾Dictionary

`dictionary` atau `dict` digunakan untuk menyimpan data dalam bentuk pasangan key-value. Dalam dictionary, setiap key harus unik, dan value-nya bisa berupa berbagai tipe data seperti string, integer, list, atau bahkan dictionary lainnya. 

✨Dictionary didefinisikan dengan menggunakan tanda kurung kurawal `{}`.

In [15]:
# dictionary berisi informasi tentang seseorang
data_dict = {
    'nama': 'Sari',
    'kota_domisili': 'Jakarta',
    'umur': 27,
    'menikah': False
}

In [16]:
type(data_dict)

dict

In [17]:
data_dict['kota_domisili']

'Jakarta'

Dictionary memiliki keunggulan daripada list karena memungkinkan penyimpanan data dengan key yang bersifat unik, sehingga memudahkan akses dan manipulasi data berdasarkan identifikasi key, bukan hanya index angka.

### Dive Deep into `String` Data Types

...

#### 📌 Highlight Poin: Tipe Data di Python

1. **String**       : berisi satu karakter atau lebih, dengan karakter yang bisa berupa huruf, angka, simbol, atau karakter khusus.
2. **Number**       :
    -  `int` untuk bilangan bulat
    -  `float` untuk bilangan real.
3. **Boolean**      : hanya berisikan nilai `True` atau `False`.
4. **List**         : untuk menyimpan beberapa nilai dalam Python, dengan sintaks tanda kurung siku `[]`.
5. **Dictionary**   : mirip seperti list, namun `dictionary` dalam bentuk pasangan key-value dan menggunakan syntax tanda kurung kurawal `{}`

## Exploring Python Functions and Looping Concepts

### Function

Function merupakan sekelompok perintah yang digunakan untuk melakukan tugas tertentu. Ketika kita melakukan sesuatu yang berulang dan rumit, alangkah baiknya kita menggunakan fungsi agar tidak ada langkah yang berubah maupun penulisan kode yang salah. Penulisan umum sebuah fungsi yaitu:
```python
def nama_fungsi(parameter):
    perintah
```
Pada syntax umum di atas, `def` merupakan inisiator untuk sebuah fungsi. Sementara hal-hal yang harus kita tentukan yaitu nama dari fungsi, parameter yang akan digunakan di dalamnya, serta perintah atau kode. 

Sebagai contoh, kita akan membuat sebuah fungsi luas segitiga:

In [18]:
# fungsi luas_segitiga
def luas_persegi(sisi):
    hasil = sisi * sisi
    return hasil

In [19]:
# memanggil fungsi
luas_persegi(sisi = 4)

16

### Looping (Perulangan)

`for loop` digunakan untuk mengulangi/mengiterasi suatu urutan (dapat berupa list atau string).

Contoh `for loop` untuk mengiterasi elemen pada list:

In [20]:
jabodetabek = ['Jakarta', 'Bogor', 'Depok', 'Tangerang', 'Bekasi']

# for loop
for x in jabodetabek:
  print(x)

Jakarta
Bogor
Depok
Tangerang
Bekasi


Untuk mengulang satu set kode beberapa kali, kita dapat menggunakan fungsi `range()`. Fungsi range() mengembalikan urutan angka, mulai dari 0 secara default dan berakhir pada angka yang ditentukan.

parameter range:
`range(start, end)`

parameter range (additional):
`range(start, end, step)`

In [21]:
for x in range(1, 11, 2):
  print(x)

1
3
5
7
9


# Working with Dataframe `pandas`

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Library ini memiliki kemampuan sebagai berikut:

- `pandas` mampu mengolah data menjadi mudah karena mempunyai objek bernama **DataFrame**. 

- `pandas` memiliki function yang mampu mengolah dataframe dengan menerapkan berbagai operasi dan teknik seperti join, agregasi, grouping, dan lain sebagainya

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

In [22]:
import pandas as pd
print(pd.__version__)

2.1.3


## Read Data

Untuk membaca data atau file dengan format `.csv` dapat menggunakan method `.read_csv()`.

Syntax:
```python
pandas.read_csv("path/data")
```

🚀 Bacalah data `receipts.csv` yang berada dalam folder `data_input`

In [23]:
receipts = pd.read_csv('data_input/receipt_cleaned.csv')
receipts

Unnamed: 0,receipt_id,item_name,count,price,total_price
0,ID0000,real ganache,1.0,16500,45500
1,ID0000,egg tart,1.0,13000,45500
2,ID0000,pizza toast,1.0,16000,45500
3,ID0001,kopi susu kolonel,1.0,23000,23000
4,ID0002,s-ovaltine,1.0,20000,20000
5,ID0003,m-carame 1 black tea,1.0,28000,28000
6,ID0004,bbq chicken,1.0,41000,41000
7,ID0005,le mineral,1.0,8000,8000
8,ID0006,potato sausage bread,1.0,19000,123000
9,ID0006,oreo green tea spread,1.0,52000,123000


**Deskripsi Data:**

Data `receipt_cleaned.csv` merupakan data transaksi atau struk pembelian dari suatu tempat seperti kafe atau restoran. Berikut adalah deskripsi untuk setiap kolom dalam data:

- `receipt_id`: Nomor identifikasi unik untuk setiap struk pembelian.
- `item_name`: Nama produk atau item yang dibeli.
- `count`: Jumlah unit dari suatu produk yang dibeli.
- `price`: Harga per unit dari suatu produk.
- `total_price`: Total harga untuk suatu produk (jumlah unit dikalikan dengan harga per unit).

Lakukan pengamatan 5 data teratas dari `receipts` menggunakan `.head()`

In [24]:
# code here
receipts.head()

Unnamed: 0,receipt_id,item_name,count,price,total_price
0,ID0000,real ganache,1.0,16500,45500
1,ID0000,egg tart,1.0,13000,45500
2,ID0000,pizza toast,1.0,16000,45500
3,ID0001,kopi susu kolonel,1.0,23000,23000
4,ID0002,s-ovaltine,1.0,20000,20000


## `pandas` Data Types

- Dataframe merupakan tabel/data tabular dua dimensi yaitu baris dan kolom.
- Dataframe terdiri dari beberapa **Series** (kolom).
- Dalam satu series harus memiliki tipe data yang sama.
- `pandas` akan menentukan tipe data dari masing-masing Series, tapi hasil dari pandas tidak selalu benar.

Berikut rangkuman tipe data `pandas`:

**Note: Fokus pada kolom `Pandas dtype` dan `Usage`**

| Pandas dtype  | Python type  | Usage                                        |
|---------------|--------------|----------------------------------------------|
| object, str   | str          | Text or mixed numeric and non-numeric values |
| int64         | int          | Integer numbers                              |
| float64       | float        | Floating point numbers                       |
| bool          | bool         | True/False values                            |
| datetime64[ns]| -            | Date and time values                         |
| timedelta[ns] | -            |  Differences between two datetimes           |
| category      | -            | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

**Tipe data Pandas:**

- `int64`: Integer (bilangan bulat, tanpa koma)
- `float64`: Bilangan desimal (berkoma)
- `object`: Text (string)
- `category`: Kategorikal 
- `datetime64[ns]`: Data waktu

Karakteristik tipe data `category` :
- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Nilainya berulang

Saat kita membaca data dengan `pd.read_csv()`, `pandas` akan mencoba menentukan tipe data dari setiap kolom. Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame dengan menggunakan method `.info()`.

In [25]:
# cek tipe data
receipts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   receipt_id   36 non-null     object 
 1   item_name    36 non-null     object 
 2   count        36 non-null     float64
 3   price        36 non-null     int64  
 4   total_price  36 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 1.5+ KB


**💡 NOTES**

Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

**Kolom manakah yang memiliki format tipe data yang belum sesuai?**

> Jawaban: `item_name` -> category

Untuk mengubah tipe data pada `pandas`, dapat menggunakan method `astype()`.

**Syntax**
```python
df['column_name'] = df['column_name'].astype('new_data_types')
```

In [41]:
# check data type
receipts['item_name'] = receipts['item_name'].astype('category')

receipts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   receipt_id   36 non-null     category
 1   item_name    36 non-null     category
 2   count        36 non-null     float64 
 3   price        36 non-null     int64   
 4   total_price  36 non-null     int64   
dtypes: category(2), float64(1), int64(2)
memory usage: 3.1 KB


#### Additional: Object & Categorical Variables

**Karakteristik tipe data `object`**:
- Mirip seperti tipe data string pada python
- Kemunculannya unik (artinya setiap row kemunculannya hanya 1 atau beberapa)
Contoh: ID, NIK, No.HP

**Karakteristik tipe data `category`:**
- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Kemunculannya berulang
Contoh: Gender, Nama Barang dalam data transaksi, provinsi, jenis kartu kredit, kategori barang: elektronik dan non elektronik

---

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. **Business Side**: memudahkan Analyst untuk memilih metode statistik atau tipe plot mana yang digunakan untuk mengolah data.
2. **Technical Side**: menghemat memori dan menambah kecepatan komputasional

---

💡 Kita bisa menggunakan method berikut untuk **mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`**

- `.unique()` untuk melihat nilai unik di setiap Series/kolom
- `.nunique()` untuk melihat jumlah nilai unik/distict pada Series/Dataframe

Berikut contoh syntax untuk mengecek nilai unik pada sebuah Series
> `df['nama_kolom'].unique()`

## Master Data Manipulation & Pre-processing

...

### Dive Deeper into String Data Types

...

### Contingency Tables / Frequency Tables

Untuk menghitung contigency tables, kita dapat menggunakan method `.value_counts()`. 
**Kegunaan**: Menghitung banyak baris pada setiap category dalam 1 kolom, dan defaultnya diurutkan secara descending

Parameter:
- `ascending=True`: **urutkan nilai** dalam urutan menaik

Mari kita melihat jumlah pengiriman setiap bulannya

In [31]:
receipts['receipt_id'].value_counts()

receipt_id
ID0011    4
ID0000    3
ID0006    3
ID0019    3
ID0007    2
ID0008    2
ID0013    2
ID0014    2
ID0015    2
ID0018    2
ID0010    2
ID0004    1
ID0005    1
ID0003    1
ID0009    1
ID0001    1
ID0002    1
ID0012    1
ID0016    1
ID0017    1
Name: count, dtype: int64

❓ Mari kita lihat barang apa yang sering dibeli?

In [34]:
# code here
receipts['item_name'].value_counts(ascending = False)

item_name
arem arem                       2
egg tart                        2
real ganache                    1
se'i s-pi lada hitam (j)        1
nasi putih                      1
milk shake coklat               1
es kopi susu                    1
mineral 600 ml                  1
bulgogi rice r                  1
kroket                          1
pepenero pastel                 1
tt                              1
lemonade 16oz                   1
beef c roll 3pcs                1
kaya bred                       1
futami 17 green tea (clas       1
se'i sapi sambal matah ( r )    1
choco peanut bread              1
serbu                           1
tahu ikan oma giok              1
mika kecil                      1
talam ungu                      1
cp 360 club card                1
choco devil                     1
white choco banana spread       1
oreo green tea spread           1
potato sausage bread            1
le mineral                      1
bbq chicken                     1
m-ca

## Perform Conditional Subsetting Operations

Conditional subsetting bermaksud untuk mengambil sebagian data dari DataFrame berdasarkan suatu kondisi tertentu, seperti:
- Pengiriman yang terjadi pada bulan Januari
- Pengiriman dengan jarak lebih dari 10km
- Pengiriman yang memiliki biaya `add_cost`, atau `add_cost != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

Menampilkan data yang terjadi pada hari Senin

`receipts[receipts['item_name'] == 'arem arem']`

kondisi -> `receipts['item_name'] == 'arem arem'`

In [36]:
receipts[receipts['item_name'] == 'arem arem']

Unnamed: 0,receipt_id,item_name,count,price,total_price
25,ID0014,arem arem,2.0,24000,39600
27,ID0015,arem arem,2.0,24000,59400


❓ Menampilkan data pembelian yang memiliki `receipt_id` ID0015

In [37]:
# code here
receipts[receipts['receipt_id'] == 'ID0015']

Unnamed: 0,receipt_id,item_name,count,price,total_price
27,ID0015,arem arem,2.0,24000,59400
28,ID0015,pepenero pastel,2.0,30000,59400


❓ Menampilkan data pembelian yang memiliki total pengeluaran lebih dari > Rp 50.000

In [39]:
# code here
receipt_above50k = receipts[receipts['total_price'] > 50000]
receipt_above50k

Unnamed: 0,receipt_id,item_name,count,price,total_price
8,ID0006,potato sausage bread,1.0,19000,123000
9,ID0006,oreo green tea spread,1.0,52000,123000
10,ID0006,white choco banana spread,1.0,52000,123000
11,ID0007,choco devil,4.0,63636,59500
12,ID0007,cp 360 club card,1.0,-9545,59500
16,ID0010,serbu,2.0,40000,60000
17,ID0010,choco peanut bread,2.0,20000,60000
18,ID0011,se'i sapi sambal matah ( r ),1.0,20000,89100
19,ID0011,se'i s-pi lada hitam (j),1.0,35000,89100
20,ID0011,nasi putih,2.0,10000,89100


In [40]:
# optional: mengambil yang unique saja
receipt_above50k['receipt_id'].unique()

['ID0006', 'ID0007', 'ID0010', 'ID0011', 'ID0012', 'ID0015']
Categories (20, object): ['ID0000', 'ID0001', 'ID0002', 'ID0003', ..., 'ID0016', 'ID0017', 'ID0018', 'ID0019']

___
# Document Understanding Transformer (DUT) Utilization

## Introduction to Transformer Deep Learning NLP
...

## Data Extraction using Donut Model (OCR-free Document Understanding Transformer)
...

## Data Analysis Enhancement with DUT Outputs
...

___

# Integration Gradio for Efficient Scanning
...

## Understand the Fundamentals of Gradio
... for building user-friendly web applications.

## Develop Gradio for Real-time Receipt and Invoice Scanning
...