# DSS: Streamlining Invoice Processing
### Document Understanding Transformer for Efficient Business Operations in Python

<div class="alert alert-success">
<b>Inclass: Data Science Series - Streamlining Invoice Processing </b>

- 💻 Detail Material: [Document Understanding Transformer](https://github.com/clovaai/donut) for Efficient Business Operations in Python
- 👩🏻‍🏫 Instructor: Fiqey Indriati Eka Sari

© Algoritma 2024
___
</div>

# Background 
Di dalam lanskap operasional bisnis yang terus berkembang dengan cepat, menguasai pemrosesan faktur yang efektif menjadi sangat penting. Pemrosesan faktur adalah bagian kritis dari kegiatan bisnis yang melibatkan pengelolaan keuangan dan akuntansi. Faktur yang diproses dengan baik membantu dalam pelacakan pengeluaran, mengoptimalkan arus kas, dan memastikan kepatuhan terhadap peraturan keuangan. Dengan lanskap bisnis yang cepat berubah, perusahaan perlu dapat beradaptasi dengan cepat. Menguasai pemrosesan faktur menjadi penting untuk mengatasi ketidakpastian dan menjaga kecepatan tanggapan terhadap perubahan di sekitarnya.

Materi ini menawarkan solusi komprehensif dengan workshop khusus yang dilengkapi dengan keterampilan terkini. Fokusnya adalah pada penggunaan Document Understanding Transformer, sebuah model deep learning NLP, dengan pemrograman Python. Dengan menyelami teknologi ini, yang terbukti berhasil dalam tugas pemrosesan bahasa alami, peserta akan memperoleh keahlian untuk menyederhanakan dan meningkatkan alur kerja pemrosesan faktur. 

# Output

Setelah menyelesaikan workshop ini, Anda akan dapat:

- Memanfaatkan Document Understanding Transformer (Donut) untuk ekstraksi data yang akurat dari gambar penerimaan, mengoptimalkan alur kerja pemrosesan faktur.
- Meningkatkan keterampilan analisis data untuk pengambilan keputusan yang terinformasi dalam operasional bisnis dengan memanfaatkan hasil keluaran dari Document Understanding Transformer.
- Membangun aplikasi web yang ramah pengguna dengan alat seperti Gradio untuk pemindaian efisien penerimaan dan faktur, secara mulus sejalan dengan kebutuhan bisnis modern untuk proses keuangan yang efisien.

# 🎯 Training Objectives

**Python Programming Basics**

- Anaconda Environment Preparation
- Working with Jupyter Notebook (.ipynb)
- Understanding Fundamental of Variables & Python Data Types
- Exploring Python If-Else Statements, Functions, and Looping Concepts

**Working with DataFrame Pandas**

- Understanding Dataframe `pandas`
- Master Data Manipulation and Pre-processing
- Perform Conditional Subsetting Operations

**Document Understanding Transformer (Donut) Utilization**

- Introduction to 🍩 OCR-free Document Understanding Transformer (Donut) Model
- Document Information Extraction using Donut 
- Data Analysis Enhancement with Donut Outputs

**Integration Gradio for Efficient Scanning**

- Understand the Fundamentals of Gradio 
- Develop Gradio for Efficient Receipt and Invoice Scanning


# Python Programming Basics
## Anaconda Environment Preparation

### Cara Membuat Environtment Baru:

- **1️⃣ Membuka Terminal pada Visual Studio Code**

    Saat pertama kali kita membuka Visual Studio Code, terdapat beberapa menu di pojok kiri atas. Silahkan kamu klik menu **Terminal** pada bagian kiri atas. Lalu, pilih **`New Terminal`**. Selesai, kamu berhasil membuka terminal baru.


- **2️⃣ Buat Environment dengan Nama `ENV_NAME`**:
   
    ```conda create -n dss_invoice python=3.10```

    Tujuan dari kita menuliskan `python=3.10` agar python yang terinstall pada virtual environtment yang kita buat adalah python dengan versi 3.10. 


- **3️⃣ Mengaktifkan Environment**

    Setelah virtual environtment yang baru kita buat sudah selesai, kita bisa mengaktifkan environtment yang sudah kita buat dengan code berikut.

    ```conda activate dss_invoice```

### Install/Update Package
Sebelum melakukan instalasi package, pastikan Anda sudah melakukan aktivasi virtual environment tempat Anda mau menginstall package.
```pip install <PACKAGE_NAME>```

Kita juga bisa menginstallnya melalui sebuah teks `reqirements.txt` yang berisi list packages yang perlu diinstall, commandnya `pip install -r requirements.txt` dengan syarat sebelum menjalankan command ini, kita sudah berapa pada folder material utama

### 🧪 Knowledge Check

Pilihlah jawaban yang tepat dengan memberikan tanda centang pada kotak. 

1. Berikut adalah tujuan kita membuat virtual environment, **KECUALI** ...

    - [ ] Kolaborasi (sharing environment)
    - [ ] Mengisolasi package beserta versi-nya
    - [X] Virtual environment harus dibuat agar Python dapat dijalankan

3. Pasangkan beberapa opsi ini dengan pilihan yang cocok:
    - Visual Studio Code: c. Integrated Development Environment (IDE) 
    - Miniconda: b. Environment Manager
    - Python: a. Bahasa Pemrograman

## Working with Jupyter Notebook (.ipynb)

#### Markdown Cell dan Code Cell

- Hari ini belajar _DSS_ **Donut**
1. XX

Tipe cell dalam notebook:

**1️⃣ Markdown** : untuk menuliskan narasi

Ini adalah cell markdown. Kita bisa menulis teks **bold**, *italic*, bahkan formula matematis seperti:

\begin{equation}
f(x) = \frac{e^{-x}}{(1+e^{-x})}
\end{equation}

Cara menambahkan gambar:

`<img src="..." width="500px"></img>`

**2️⃣ Code** : untuk menuliskan script code

💡 symbol `#` pada cell code berarti adalah sebuah `comment`. **`Comment` pada cell code tidak akan dieksekusi**

In [1]:
# ini merupakan cell untuk code
print("dan ini adalah cell code tempat menuliskan code python")

dan ini adalah cell code tempat menuliskan code python


> Untuk run cell code: Ctrl + Alt + Enter

#### Command Mode and Edit Mode

Ada 2 mode cell dalam notebook:
1. **1️⃣ Command Mode**
    - `a` : Menambah cell baru di atas
    - `b` : Menambah cell baru di bawah
    - `d` + `d` : Menghapus cell terpilih
    - `c` : Menyalin cell terpilih
    - `v` : Paste cell terpilih
    - `m` : Mengubah tipe cell ke markdown
    - `y` : Mengubah tipe cell ke kode
    - `enter` : enter Edit Mode


2. **2️⃣ Edit Mode (Cell Terdapat Border Biru Persegi Panjang)**
    - `Ctrl + Enter`: eksekusi satu cell
    - `Esc`: mengubah edit mode menjadi command mode

## Understanding Fundamental of Variables & Python Data Types

### Variables 
**Variable** adalah sebuah nama yang dipakai untuk menyimpan sebuah nilai. 

_So if we say, data is food, then variable is where we store the food._

> 💡 Tanda `=` dipakai untuk assignment dalam membuat variabel baru

In [2]:
angka = 10
angka

10

In [3]:
angka

10

🚀 Mari kita coba buat sebuah objek, yang berisikan nama dss ini!

In [4]:
dss_name = "Data Science Series: Streamlining Invoice Processing"
print(dss_name)

Data Science Series: Streamlining Invoice Processing


<div class="alert-info alert">
💡 Sebagai catatan, seperti bahasa pemrograman yang lainnya, Python bersifat <b>case-sensitive</b>.

Sehingga `dss_name` dan `DSS_Name` dimaknai berbeda sehingga akan dianggap variabel yang berbeda pula. Maka dari itu, penamaan variable menjadi hal yang perlu diperhatikan.
</div>

In [5]:
## code here
dss_name == dss_name

True

In [7]:
# True = 11

Kode di atas mengembalikan `True` sebagai output. Cobalah untuk membuat variabel baru dan gunakan `True` sebagai namanya. kemudian lihat apa yang akan terjadi.

> SyntaxError: can't assign to keyword

___

Sebagai catatan, `True`, dan juga lawannya, False termasuk ke dalam daftar kata yang dinamakan **Python Keywords**. Kita tidak dapat menggunakan keyword sebagai nama variabel ataupun sebagai fungsi.

Semua python keyword selain **True**, **False**, dan **None** adalah huruf kecil.

___

✨ **Keywords** adalah kata kunci yang sudah ditetapkan oleh Python sebagai nama yang tidak bisa dipakai baik untuk penamaan fungsi, variabel, dan lainnya. Keyword ditulis dalam lower-case (huruf kecil semua) kecuali keyword `True`, `False`, dan `None`. Sejauh ini (Python 3.10) keyword yang ada pada Python adalah sebagai berikut:

In [8]:
# cek daftar keyword
import keyword
keyword.kwlist

['False',
 'None',
 'True',
 'and',
 'as',
 'assert',
 'async',
 'await',
 'break',
 'class',
 'continue',
 'def',
 'del',
 'elif',
 'else',
 'except',
 'finally',
 'for',
 'from',
 'global',
 'if',
 'import',
 'in',
 'is',
 'lambda',
 'nonlocal',
 'not',
 'or',
 'pass',
 'raise',
 'return',
 'try',
 'while',
 'with',
 'yield']


⚠️ Berikut beberapa ketentuan dalam memberikan nama variable pada Python:
- Tidak boleh menggunakan angka di awal. Misal `1Algoritma`
- Hanya kombinasi dari huruf kapital (A-Z), huruf nomina (a-z), angka (0-9).
- Special character `!, $ , &, dll` tidak dapat digunakan dalam penamaan variabel.
- Bersifat case-sensitive sehingga penamaan variable `algoritma`, `ALGORITMA`, dan `Algoritma` adalah 3 variable yang berbeda
- Tidak boleh menggunakan keywords pada Python

### Python Data Types

> Untuk mengecek tipe data python dapat menggunakan `type()`

#### (1) 🔠 String

Python mewakili string apapun sebagai object `str`. Adapun beberapa cara untuk membuat nilai string:
- menggunakan `''` (contoh: `'Jakarta'` atau `'saya lahir di Bekasi'`)
- mengunakan `""` (contoh: `"hari jum'at"`)
- menggunakan `'''` atau `"""` (contoh: `'''Dia bersorak "Hore! Sudah hari Jum'at"'''`)

In [9]:
dss_name

'Data Science Series: Streamlining Invoice Processing'

In [10]:
# code here
type(dss_name)

str

#### (2) 🔢 Number

Untuk menyimpan number, python memiliki dua tipe data asli yang disebut `int` dan `float`.
- `int` digunakan untuk menyimpan **bilangan bulat** (yaitu: 1,2,-3)
- `float` digunakan untuk menyimpan **bilangan real** (yaitu: 0.7, -1.8, -1000.0) 👉🏻 bilangan desimal.

In [14]:
nilai_ta = 100.0
nilai_fiqey = 90.0 

In [15]:
type(nilai_ta)

float

In [16]:
# code here
nilai_ta - nilai_fiqey

10.0

**✨ Operasi Matematika ✨**
- `+` - Penambahan
- `-` - Pengurangan
- `*` - Perkalian
- `/` - Pembagian
- `//` - Pembagian yang dibulatkan ke bawah
- `%` - Modulus (sisa pembagian)
- `**` - Eksponen (pangkat)

#### (3) ✅ Boolean

Boolean hanya berisikan nilai `True` atau `False`. Biasanya untuk menunjukkan kebenaran suatu kondisi

In [17]:
2 + 2 == 5
# == --> untuk mengecek kondisi (apakah sama?)

False

#### (4) 🗃️ List
`list` digunakan untuk menyimpan beberapa nilai dalam python. Untuk membuatnya, cukup letakan nilai di dalam tanda kurung siku `[]`

In [18]:
# list berikut mengandung informasi nama, kota domisili, umur, apakah sudah menikah?
data_list = ['Sari', 'Jakarta', 27, False]
# 0, 1, 2, 3

In [19]:
# cek tipe data my_list
type(data_list)

list

In [20]:
# akses umur sari
data_list[2]

27

**✨ Operasi List ✨**

Dalam sebuah list kita dapat melakukan beberapa operasi:
- `list_x.append(a)`: Menambahkan `a` ke dalam `list_x`.
- `list_x.remove(a)`: Menghapus nilai `a` dari `list_x`.

> Operasi Indexing:
- `list_x[i]`: Mengakses elemen ke-i dari `list_x`. 

📌 **Additional Information**

- Python menggunakan sistem **zero based indexing** yang berarti, urutan pada python dimulai dari angka 0.

In [21]:
# akses informasi kota domilisi dari seorang Sari, dimana informasi kota domilisi terletak di urutan ke-2 (index ke-1)
data_list[1]

'Jakarta'

In [22]:
# coba kita tambahkan informasi pekerjaan 'Sari', yaitu 'Data Scientist'
data_list.append('Data Scientist')
data_list

['Sari', 'Jakarta', 27, False, 'Data Scientist']

#### (5) 🧾Dictionary

`dictionary` atau `dict` digunakan untuk menyimpan data dalam bentuk pasangan key-value. Dalam dictionary, setiap key harus unik, dan value-nya bisa berupa berbagai tipe data seperti string, integer, list, atau bahkan dictionary lainnya. 

✨Dictionary didefinisikan dengan menggunakan tanda kurung kurawal `{}`.

In [23]:
# dictionary berisi informasi tentang seseorang
data_dict = {
    'nama': 'Sari',
    'kota_domisili': 'Jakarta',
    'umur': 27,
    'menikah': False
}

In [24]:
# code here
type(data_dict)

dict

In [25]:
# code here
data_dict['kota_domisili']

'Jakarta'

Dictionary memiliki keunggulan daripada list karena memungkinkan penyimpanan data dengan key yang bersifat unik, sehingga memudahkan akses dan manipulasi data berdasarkan identifikasi key, bukan hanya index angka.

#### 📌 Highlight Poin: Tipe Data di Python

1. **String**       : berisi satu karakter atau lebih, dengan karakter yang bisa berupa huruf, angka, simbol, atau karakter khusus.
2. **Number**       :
    -  `int` untuk bilangan bulat
    -  `float` untuk bilangan real.
3. **Boolean**      : hanya berisikan nilai `True` atau `False`.
4. **List**         : untuk menyimpan beberapa nilai dalam Python, dengan sintaks tanda kurung siku `[]`.
5. **Dictionary**   : mirip seperti list, namun `dictionary` dalam bentuk pasangan key-value dan menggunakan syntax tanda kurung kurawal `{}`

## Exploring Python If-Else Statements, Functions, ang Looping Concepts

### If-Else Statements

Pernyataan if-else terdiri dari suatu kondisi yang diikuti oleh blok kode yang akan dieksekusi jika kondisi tersebut benar, dan blok else yang bersifat opsional untuk kode yang akan dieksekusi jika kondisi tersebut salah.

```python
if kondisi:
    # Kode yang akan dieksekusi jika kondisi benar
else:
    # Kode yang akan dieksekusi jika kondisi salah
```


In [29]:
angka = -10

# Penggunaan if-else untuk menentukan apakah angka positif, negatif, atau nol
if angka > 0:
    print("Angka ini adalah positif.")
elif angka < 0: # else -if
    print("Angka ini adalah negatif.")
else:
    print("Angka ini adalah nol.")


Angka ini adalah negatif.


### Function

Function merupakan sekelompok perintah yang digunakan untuk melakukan tugas tertentu. Ketika kita melakukan sesuatu yang berulang dan rumit, alangkah baiknya kita menggunakan fungsi agar tidak ada langkah yang berubah maupun penulisan kode yang salah. Penulisan umum sebuah fungsi yaitu:
```python
def nama_fungsi(parameter):
    perintah
```
Pada syntax umum di atas, `def` merupakan inisiator untuk sebuah fungsi. Sementara hal-hal yang harus kita tentukan yaitu nama dari fungsi, parameter yang akan digunakan di dalamnya, serta perintah atau kode. 

Sebagai contoh, kita akan membuat sebuah fungsi luas segitiga:

In [36]:
# fungsi luas_segitiga
def luas_persegi(sisi): # parameter : sesuatu yang bisa kita ubah dg mendefinisikannya saat pemanggilan fungsi
    hasil = sisi * sisi
    return hasil # mengembalikan hasil proses dari suatu fungsi

In [39]:
# memanggil fungsi
result2 = luas_persegi(sisi = 4)
# result

16


In [34]:
luas_persegi(sisi=5)

25

### Looping (Perulangan)

`for loop` digunakan untuk mengulangi/mengiterasi suatu urutan (dapat berupa list atau string).

Contoh `for loop` untuk mengiterasi elemen pada list:

In [47]:
jabodetabek = ['Jakarta', 'Bogor', 'Depok', 'Tangerang', 'Bekasi']

# for loop
for kota in jabodetabek: # x: perwakilan nama sebuah elemen dari jabodetabek
  print("kota: ",kota)
  print("----")

kota:  Jakarta
----
kota:  Bogor
----
kota:  Depok
----
kota:  Tangerang
----
kota:  Bekasi
----


# Working with Dataframe `pandas`

`pandas` adalah library yang powerful sebagai tools analisis data dan struktur pada Python. Library ini memiliki kemampuan sebagai berikut:

- `pandas` mampu mengolah data menjadi mudah karena mempunyai objek bernama **DataFrame**. 

- `pandas` memiliki function yang mampu mengolah dataframe dengan menerapkan berbagai operasi dan teknik seperti join, agregasi, grouping, dan lain sebagainya

> Lebih lengkapnya silahkan kunjungi [official documentation](https://pandas.pydata.org/)

Untuk menggunakan `pandas`, kita perlu import terlebih dahulu library dengan cara berikut ini:

In [48]:
import pandas as pd # aliasing
print(pd.__version__)

2.1.4


## Understanding Dataframe `pandas`

### Read Data

Untuk membaca data atau file dengan format `.csv` dapat menggunakan method `.read_csv()`.

Syntax:
```python
pandas.read_csv("path/data")
```

🚀 Bacalah data `receipts.csv` yang berada dalam folder `data_input`

In [49]:
receipts = pd.read_csv('data_input/receipt_cleaned.csv')
receipts

Unnamed: 0,receipt_id,item_name,count,price,total_price
0,ID0000,real ganache,1.0,16500,45500
1,ID0000,egg tart,1.0,13000,45500
2,ID0000,pizza toast,1.0,16000,45500
3,ID0001,kopi susu kolonel,1.0,23000,23000
4,ID0002,s-ovaltine,1.0,20000,20000
5,ID0003,m-carame 1 black tea,1.0,28000,28000
6,ID0004,bbq chicken,1.0,41000,41000
7,ID0005,le mineral,1.0,8000,8000
8,ID0006,potato sausage bread,1.0,19000,123000
9,ID0006,oreo green tea spread,1.0,52000,123000


**Deskripsi Data:**

Data `receipt_cleaned.csv` merupakan data transaksi atau struk pembelian dari suatu tempat seperti kafe atau restoran. Berikut adalah deskripsi untuk setiap kolom dalam data:

- `receipt_id`: Nomor identifikasi unik untuk setiap struk pembelian.
- `item_name`: Nama produk atau item yang dibeli.
- `count`: Jumlah unit dari suatu produk yang dibeli.
- `price`: Harga per unit dari suatu produk.
- `total_price`: Total harga untuk suatu produk (jumlah unit dikalikan dengan harga per unit).

Lakukan pengamatan 5 data teratas dari `receipts` menggunakan `.head()`

In [50]:
# code here
receipts.head()

Unnamed: 0,receipt_id,item_name,count,price,total_price
0,ID0000,real ganache,1.0,16500,45500
1,ID0000,egg tart,1.0,13000,45500
2,ID0000,pizza toast,1.0,16000,45500
3,ID0001,kopi susu kolonel,1.0,23000,23000
4,ID0002,s-ovaltine,1.0,20000,20000


### `pandas` Data Types

- Dataframe merupakan tabel/data tabular dua dimensi yaitu baris dan kolom.
- Dataframe terdiri dari beberapa **Series** (kolom).
- Dalam satu series harus memiliki tipe data yang sama.
- `pandas` akan menentukan tipe data dari masing-masing Series, tapi hasil dari pandas tidak selalu benar.

Berikut rangkuman tipe data `pandas`:

**💡 Notes: Fokus pada kolom `Pandas dtype` dan `Usage`**

| Pandas dtype  | Python type  | Usage                                        |
|---------------|--------------|----------------------------------------------|
| object, str   | str          | Text or mixed numeric and non-numeric values |
| int64         | int          | Integer numbers                              |
| float64       | float        | Floating point numbers                       |
| bool          | bool         | True/False values                            |
| datetime64[ns]| -            | Date and time values                         |
| timedelta[ns] | -            |  Differences between two datetimes           |
| category      | -            | Finite list of text values                   |

Referensi: [Overview of Pandas Data Types](https://pbpython.com/pandas_dtypes.html)

**Tipe data Pandas:**

- `int64`: Integer (bilangan bulat, tanpa koma)
- `float64`: Bilangan desimal (berkoma)
- `object`: Text (string)
- `category`: Kategorikal 
- `datetime64[ns]`: Data waktu

Karakteristik tipe data `category` :
- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Nilainya berulang

Saat kita membaca data dengan `pd.read_csv()`, `pandas` akan mencoba menentukan tipe data dari setiap kolom. Lakukan investigasi awal untuk melihat struktur data terhadap object DataFrame dengan menggunakan method `.info()`.

In [51]:
# cek tipe data
receipts.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 36 entries, 0 to 35
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   receipt_id   36 non-null     object 
 1   item_name    36 non-null     object 
 2   count        36 non-null     float64
 3   price        36 non-null     int64  
 4   total_price  36 non-null     int64  
dtypes: float64(1), int64(2), object(2)
memory usage: 1.5+ KB


**💡 NOTES**

Dengan menggunakan method `.info()`, kita dapat memeriksa **informasi** lengkap dari DataFrame kita:

- Dimensi data: jumlah baris dan kolom (`.shape`)
- Nama kolom (`.columns`)
- Tipe data setiap kolom (`.dtypes`)
- Penggunaan memori

**Kolom manakah yang memiliki format tipe data yang belum sesuai?**

> Jawaban: `item_name` -> category

Untuk mengubah tipe data pada `pandas`, dapat menggunakan method `astype()`.

**Syntax**
```python
df['column_name'] = df['column_name'].astype('new_data_types')
```

In [56]:
receipts['item_name'].nunique()

34

In [52]:
# change & check data type
receipts['item_name'].astype('category')

0                     real ganache
1                         egg tart
2                      pizza toast
3                kopi susu kolonel
4                       s-ovaltine
5             m-carame 1 black tea
6                      bbq chicken
7                       le mineral
8             potato sausage bread
9            oreo green tea spread
10       white choco banana spread
11                     choco devil
12                cp 360 club card
13                      talam ungu
14                      mika kecil
15              tahu ikan oma giok
16                           serbu
17              choco peanut bread
18    se'i sapi sambal matah ( r )
19        se'i s-pi lada hitam (j)
20                      nasi putih
21               milk shake coklat
22                    es kopi susu
23                  mineral 600 ml
24                  bulgogi rice r
25                       arem arem
26                          kroket
27                       arem arem
28                 p

#### Additional: Object & Categorical Variables

**Karakteristik tipe data `object`**:
- Mirip seperti tipe data string pada python
- Kemunculannya unik (artinya setiap row kemunculannya hanya 1 atau beberapa)
Contoh: ID, NIK, No.HP

**Karakteristik tipe data `category`:**
- Dapat dikelompokkan menjadi beberapa kelompok (category)
- Kemunculannya berulang
Contoh: Gender, Nama Barang dalam data transaksi, provinsi, jenis kartu kredit, kategori barang: elektronik dan non elektronik

---

Dua alasan mengapa kita perlu menggunakan tipe data categorical:

1. **Business Side**: memudahkan Analyst untuk memilih metode statistik atau tipe plot mana yang digunakan untuk mengolah data.
2. **Technical Side**: menghemat memori dan menambah kecepatan komputasional

---

💡 Kita bisa menggunakan method berikut untuk **mengidentifikasi kolom mana yang cocok untuk disimpan ke tipe data `category`**

- `.unique()` untuk melihat nilai unik di setiap Series/kolom
- `.nunique()` untuk melihat jumlah nilai unik/distict pada Series/Dataframe

Berikut contoh syntax untuk mengecek nilai unik pada sebuah Series
> `df['nama_kolom'].unique()`

___

--- START OF DAY 2 ---

## Master Data Manipulation & Pre-processing

Dalam analisis data, manipulasi dan wrangling data adalah langkah awal kritis yang menentukan keberhasilan analisis. Manipulasi data memungkinkan pengaturan dan filtering data menjadi format yang siap analisis, sementara wrangling data memastikan kebersihan dan keakuratan data. Kedua proses ini fundamental dalam mengubah data mentah menjadi wawasan yang berharga dan dapat diandalkan.

### Dive Deeper into String Data Types

 ✨ Dalam proses pembersihan data, terutama pada kolom dengan tipe data string yang berasal dari object dalam DataFrame `Pandas`, operasi seperti `lower(), upper()`, dan `replace()` sering digunakan untuk menyederhanakan atau menstandarisasi teks. 

🔻 `.str.lower()`: digunakan untuk mengubah semua karakter menjadi huruf kecil

In [None]:
# mengubah semua teks dalam kolom 'item_name' menjadi huruf kecil
receipts['item_name'].str.lower()[5]


🔻 `upper()`: digunakan untuk mengubah semua karakter menjadi huruf kapital

In [None]:
# mengubah semua teks dalam kolom 'receipt_id' menjadi huruf besar


🔻 `replace()`:  digunakan untuk mengganti karakter tertentu dari sebuah string

In [None]:
# mengganti '-' dengan ' ' (spasi) dalam kolom 'item_name'


### Contingency Tables / Frequency Tables

Untuk menghitung contigency tables, kita dapat menggunakan method `.value_counts()`. 
**Kegunaan**: Menghitung banyak baris pada setiap category dalam 1 kolom, dan defaultnya diurutkan secara descending

Parameter:
- `ascending=True`: **urutkan nilai** dalam urutan menaik

🔻 Mari kita melihat jumlah item setiap receipt yang ada

In [None]:
# code here


❓ Mari kita lihat barang apa yang sering dibeli?

In [None]:
# code here


## Perform Conditional Subsetting Operations

Conditional subsetting bermaksud untuk mengambil sebagian data dari DataFrame berdasarkan suatu kondisi tertentu, seperti:
- Pengiriman yang terjadi pada bulan Januari
- Pengiriman dengan jarak lebih dari 10km
- Pengiriman yang memiliki biaya `add_cost`, atau `add_cost != 0`

Syntax penulisan untuk conditional subsetting adalah:

**`df[df['column_name'] <comparison_operator> <value>]`**

atau

**`df[df.column_name <comparison_operator> <value>]`**

Contoh comparison_operator adalah seperti `==`, `!=`, `>`, `>=`, `<`, `<=`.

Menampilkan data yang terjadi pada hari Senin

`receipts[receipts['item_name'] == 'arem arem']`

kondisi -> `receipts['item_name'] == 'arem arem'`

In [None]:
receipts[receipts['item_name'] == 'arem arem']

❓ Menampilkan data pembelian yang memiliki `receipt_id` ID0015

In [None]:
# code here


❓ Menampilkan data pembelian yang memiliki total pengeluaran lebih dari > Rp 50.000

In [None]:
# code here
receipt_above50k = ...

In [None]:
# optional: mengambil yang unique saja
receipt_above50k['receipt_id'].unique()

___
# Document Understanding Transformer (DUT) Utilization

Dalam bisnis, kebutuhan untuk mengubah gambar menjadi teks sering muncul, yang awalnya diatasi dengan teknologi OCR (Optical Character Recognition). 

Namun, OCR memiliki beberapa kelemahan, yaitu:
1. Memerlukan langkah-langkah preprocessing yang cukup dalam sebelum diterapkan pada OCR

<img src="assets/ocr-preprocess.png" width=850></img>

2. Beberapa sistem OCR terbatas dalam mengenali berbagai bahasa atau karakter khusus.


Seiring berkembangnya riset, muncul model **OCR-free Document Understanding Transformer (Donut)** yang mengintegrasikan arsitektur Transformer tanpa bergantung pada OCR, memungkinkan ekstraksi teks dari gambar dengan lebih akurat dan tanpa batasan bahasa.


## Introduction to 🍩 Donut Model 

### What is 🍩 Donut Model?
Donut adalah model berbasis Transformer yang dirancang untuk tugas pemahaman dokumen yang tidak menggunakan OCR (Optical Character Recognition), menggunakan teknik mengekstrak informasi bermakna dari gambar dokumen yang tidak terstruktur.

Proses mengubah dokumen gambar menjadi output text/JSON yang dilakukan oleh model Donut melalui beberapa langkah:

<img src="assets/general-flow-donut.png"></img>

<div class="alert alert-info">
💡Dalam model Donut, <b>Swin Transformer digunakan untuk ekstraksi fitur dari gambar dokumen secara efektif</b>. Swin Transformer adalah pengembangan Transformer untuk kasus visual/gambar yang mampu menandingi CNN. Kemampuannya untuk memproses informasi secara hierarkis dan memahami konteks global memungkinkan model Donut mengenali dan memahami teks dan layout dokumen dengan lebih akurat, tanpa bergantung pada OCR. 
</div>

Ini meningkatkan efisiensi dan akurasi dalam pengolahan dokumen, terutama untuk dokumen dengan layout kompleks.

<div class="alert alert-gray">
<b>🤖 Introduction to Transformer Deep Learning NLP: Backbone of GPT</b>
 
Transformer adalah sebuah arsitektur neural network yang diperkenalkan pada tahun 2017 dalam makalah berjudul <b>"Attention Is All You Need"</b> oleh Ashish Vaswani dan tim peneliti dari Google AI. 

Arsitektur Transformer adalah terobosan besar dalam bidang natural language processing (NLP) dan telah mengubah cara kita mendekati tugas-tugas seperti machine translation, NLP, dan banyak aplikasi lain yang melibatkan pemrosesan sequential data. Contoh model Transformer seperti BERT, GPT (Generative Pre-trained Transformer), dan T5 (Text-to-Text Transfer Transformer)

✨ <b>State-of-The-Art Transformer:</b> ✨
- Mampu memahami konteks dari data sequential (misal mengetahui makna dari suatu kalimat) dengan konsep "Attention"
- Mampu bekerja secara pararel. 
- Memperhatikan urutan dari data menggunakan Positional Encoding.
- Skalabilitas tinggi
- Dapat digunakan dalam berbagai konteks, termasuk pemrosesan gambar, suara, dan natural language.

</div>


### Why Use 🍩 Donut Model?
Model Donut lebih efektif daripada OCR tradisional dalam mengenali teks dari gambar dokumen, terutama yang memiliki layout kompleks atau kualitas gambar yang rendah. Donut dapat memahami konteks dan layout dokumen secara lebih akurat dan cepat.

Selain document information extraction, Donut Model dapat melakukan berbagai tugas pemrosesan dokumen lainnya, termasuk:
- **Klasifikasi Dokumen**: Mengkategorikan dokumen ke dalam berbagai jenis atau kelas berdasarkan isi dan strukturnya.
- **QnA**: Menganalisis dan menjawab pertanyaan yang berkaitan dengan konten dalam dokumen.

💡 Tak hanya itu, **fakta menarik dari model Donut adalah** bahwa model ini dilatih menggunakan teks dalam berbagai bahasa dengan memanfaatkan SynthDoG. **SynthDoG** adalah sebuah generator dokumen sintetis yang membantu pelatihan model Donut untuk fleksibel dalam berbagai bahasa dan domain. 

<img src='assets/sample_synthdog.png' width=800></img>

Dengan menggunakan SynthDoG, **Donut tidak hanya efektif dalam memahami dokumen dalam bahasa Inggris, tetapi juga dalam bahasa lain, memberikan kemampuan pemahaman dokumen yang lebih luas dan serbaguna**.


### How to Use 🍩 Donut Model for Document Information Extraction?
Model Donut bisa digunakan dalam Python dengan syarat kita telah melakukan instalasi yang diperlukan dan melakukan impor library yang diperlukan.

In [None]:
import re
import os
import torch

from PIL import Image
from transformers import DonutProcessor, VisionEncoderDecoderModel

💡 Notes:
- `DonutProcessor` adalah kelas yang digunakan untuk memproses input untuk model Donut.
- `VisionEncoderDecoderModel` adalah kelas yang mengimplementasikan arsitektur model Vision Encoder-Decoder, yang dapat digunakan untuk tugas pengolahan citra dan natural language processing.

🔻Mari kita load model donut (`"naver-clova-ix/donut-base-finetuned-cord-v2"`) yang akan kita gunakan

_⚠️ It will take longer if it's your first time loading it._

In [None]:
# processor = ...
# model = ...

In [None]:
# set model device
device = "cuda" if torch.cuda.is_available() else "cpu"
model.to(device)

## Document Information Extraction Using Donut

<img src="assets/general-flow-donut.png"></img>

Tentu, untuk melakukan ekstraksi informasi dari dokumen, langkah pertama yang perlu dilakukan adalah menyiapkan gambar-gambar dokumen yang akan dibaca. Oleh karena itu, kita akan mencoba membaca beberapa file invoice yang terdapat pada folder `data_input`.

### 1️⃣ Read Document Images

1. Persiapkan dimana letak peletakan file-file gambar dokumennya.

In [1]:
# folder path
dir_path = 'data_input/valid/'

2. Mari membuat dua list, 
   - `img_filenames` untuk menyimpan nama file dengan ekstensi .png, 
   - `labels` untuk menyimpan nama file dengan ekstensi .txt

Hasilnya, dua list tersebut berisi nama file gambar dan label teks dari dokumen gambar yang kita miliki.

<div class="alert alert-info">
<b>💡 Bagaimana cara untuk membaca sebuah file di Python? </b>

Membaca file di Python umumnya melibatkan penggunaan fungsi bawaan seperti `open()`. Di bawah ini adalah contoh sederhana tentang cara membaca file teks dan biner di Python:

```python
# Membuka file teks untuk dibaca (mode: 'r' untuk read)
with open('nama_file.txt', 'r') as file:
    # Membaca seluruh isi file ke dalam satu string
    content = file.read()
    print(content)
```

</div>

In [None]:
img_filenames = [] # list nama file gambar
images = [] # list objek gambar
labels = [] # list label dari gambar

# iterasi direktori
for file in os.listdir(dir_path):
    if file.endswith(('.png', '.jpg', '.jpeg')):
        # menyimpan nama invoice ke dalam list
        img_filenames.append(file)
        
        # membuka dan menyimpan objek gambar ke dalam list
        images.append(Image.open(dir_path + file))


    elif file.endswith('.txt'):
        # membuka file teks dan membaca isinya, lalu menyimpan ke dalam list
        with open(dir_path + file, 'r') as label_file: 
            labels.append(label_file.read())


In [None]:
# mencetak list nama file gambar
print(img_filenames)

🔻 Mari coba kita lihat label dan gambar ke-7

In [None]:
# code here


### 2️⃣ Document Pre-processing

Sebagaimana umumnya pada model deep learning, diperlukan penyesuaian bentuk input sebelum dapat digunakan untuk prediksi atau pemrosesan lebih lanjut. Dalam konteks Donut Model, tahap ini melibatkan konversi gambar ke dalam format tensor dengan cara yang sederhana menggunakan alat yang disebut `Donut Processor`.

🎯 Proses ini diperlukan karena model, terutama yang menggunakan framework seperti PyTorch, umumnya membutuhkan input dalam bentuk tensor.

In [None]:
images[6].size

In [None]:
# pixel_values = ...

✨ Keterangan: 

Makna ukuran pada tensor tersebut adalah `[jumlah batch, jumlah channel (RGB), tinggi, lebar]`. Dalam konteks ini, semua gambar diproses menjadi ukuran yang sama sebelum masuk ke model. Hal ini dilakukan karena model deep learning seringkali mensyaratkan **agar seluruh input memiliki dimensi yang konsisten**.

### 3️⃣ Sequence Generation

Selanjutnya, kita membiarkan model Donut secara otoregresif menghasilkan data terstruktur, mengggunakan metode `.generate()`.

In [None]:
task_prompt = "<s_cord-v2>"

✨ Secara umum, model Donut dapat digunakan untuk berbagai tugas, seperti:
- Pemrosesan/Ekstraksi Dokumen (`<s_cord-v2`)
- Klasifikasi Dokumen
- Pertanyaan dan Jawaban Visual (VQA) pada Dokumen

<img src="assets/overview-donut.png" width=800></img>

Oleh karena itu, ketika ingin menggunakan model untuk salah satu dari tugas-tugas tersebut, kita perlu menentukan `task_prompt` agar mengarahkan model Donut untuk fokus pada tugas spesifik yang diinginkan, sehingga output yang dihasilkan dapat lebih relevan dan bermakna sesuai dengan kebutuhan pengguna.

Selengkapnya dapat di cek di [Official Github Donut](https://github.com/clovaai/donut)

In [None]:
outputs = model.generate(
        inputs=pixel_values.to(device),
        max_length=model.decoder.config.max_position_embeddings,
        decoder_input_ids=processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt")["input_ids"].to(device),
        pad_token_id=processor.tokenizer.pad_token_id,
        eos_token_id=processor.tokenizer.eos_token_id,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
        return_dict_in_generate=True,
        use_cache=True,
        
        # modify parameters
        early_stopping=True,
        num_beams=2,
        output_scores=True,
    )

✨ Fungsi `model.generate()` pada model Donut memungkinkan untuk menghasilkan sequence text dari model. Parameter utama-utama adalah berikut

- `inputs` : Nilai piksel dari gambar yang digunakan sebagai input untuk di-generate from doc to text.
- `max_length`: Panjang maksimum dari urutan yang dihasilkan.
- `decoder_input_ids`: ID input untuk dekoder. Di sini, tokenizer memproses `task_prompt` (prompt tugas yang ditentukan) dan menghasilkan ID yang relevan. `add_special_tokens=False` Menunjukkan bahwa token khusus tidak ditambahkan dalam proses tokenisasi.
- `pad_token_id`: ID dari token padding.
- `eos_token_id`: ID dari token akhir urutan.
- `bad_words_ids`: Daftar ID kata yang harus dihindari oleh model saat melakukan generasi.
- `return_dict_in_generate`: Mengembalikan output dalam format dictionary yang lebih mudah diakses.
- `use_cache`: Menentukan apakah hasil perhitungan sebelumnya harus disimpan untuk digunakan kembali, untuk meningkatkan efisiensi.

Parameter tambahannya adalah:
- `early_stopping`: Jika diatur `True`, model akan berhenti menghasilkan output lebih lanjut jika syarat tertentu terpenuhi, seperti mencapai EOS token.
- `num_beams`: Jumlah beams yang digunakan dalam pencarian beam.
- `output_scores`: Apakah mengembalikan skor skor untuk setiap token yang dihasilkan bersamaan dengan teks.

📌 Untuk informasi lebih rinci, silahkan merujuk ke dokumentasi 🍩 Donut [di sini](https://huggingface.co/docs/transformers/model_doc/donut).

### 4️⃣ Document Post-Processing: Sequence Token Cleaning

🔻 Output hasil generate dokumen menggunakan model Donut adalah tensor yang berisi sequence token-token yang perlu dilakukan decode sehingga kita dapat mengetahui isinya. Setiap angka dalam tensor ini merepresentasikan suatu token dalam model.

In [None]:
# code here: check .sequences from the outputs


 🔻Maka dari itu, mari kita lakukan decode menggunakan processor yang sebelumnya juga digunakan untuk mengencode dengan menggunakan perintah `processor.batch_decode()`

In [None]:
raw_sequence = processor.batch_decode(outputs.sequences)[0]
print(raw_sequence)

✨ Ini adalah teks terstruktur yang telah didekode dari tensor. Teks ini mencakup informasi terkait pesanan menu, jumlah, harga, dan total pembayaran. Strukturnya mencakup tag-tag XML (`<s_cord-v2>, <s_menu>, <s_nm>, <s_cnt>, <s_price>, <sep/>, <s_total>, <s_total_price>, <s_creditcardprice>`) yang memberikan konteks terhadap data yang terkandung.

🔻 Selanjutnya, dilakukan pembersihan terhadap teks. Tahap ini mencakup penghapusan `token EOS (</s>), token PAD (<pad>), dan tag pertama <s_cord-v2>` yang menandakan awal dari tugas pertama

In [None]:
sequence = raw_sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "") # remove </s> eos and <pad> token
sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove <s_cord-v2> first task start token
sequence

### 5️⃣ Output Conversion: Token to JSON

✨ Output dari model Donut yang dihasilkan dapat kita ubah menjadi format JSON (JavaScript Object Notation), di Python mirip dengan dictionary, untuk memudahkan pengolahan dan analisis lebih lanjut. Format JSON/ dictionary memungkinkan representasi data yang terstruktur dan mudah diakses.

Kita dapat menggunakan metode `token2json()` untuk melakukan hal tersebut.

In [None]:
# code here: token to json


In [None]:
# gambar yang di generate (images[6])


Di sini, kita akan mencapai hasil akhir dari proses generasi informasi dokumen menggunakan model Donut. 

### 🍩 All-in-One Function to Generate Document Information 

💡 Untuk memudahkan dan mengotomatisasi proses ini, khususnya ketika bekerja dengan banyak gambar, kita akan menggabungkan seluruh langkah, dari 1 hingga 5, ke dalam satu fungsi. Dengan demikian, kita dapat dengan mudah menerapkan fungsi ini pada banyak gambar secara berurutan melalui looping. 

In [None]:
def doc_to_text(input_img, task_prompt=task_prompt, model=model, processor=processor):
    # set model device
    device = "cuda" if torch.cuda.is_available() else "cpu"
    model.to(device)
    
    # document preprocessing
    pixel_values = processor(input_img, return_tensors="pt").pixel_values
    decoder_input_ids = processor.tokenizer(task_prompt, add_special_tokens=False, return_tensors="pt")["input_ids"]

    # sequence generation
    outputs = model.generate(
        pixel_values.to(device),
        decoder_input_ids=decoder_input_ids.to(device),
        max_length=model.decoder.config.max_position_embeddings,
        pad_token_id=processor.tokenizer.pad_token_id,
        eos_token_id=processor.tokenizer.eos_token_id,
        use_cache=True,
        bad_words_ids=[[processor.tokenizer.unk_token_id]],
        return_dict_in_generate=True,
        
        # modify parameters
        early_stopping=True,
        num_beams=2,
        output_scores=True,
    )
    
    # document post-processing: sequence token cleaning
    sequence = processor.batch_decode(outputs.sequences)[0]
    sequence = sequence.replace(processor.tokenizer.eos_token, "").replace(processor.tokenizer.pad_token, "")
    sequence = re.sub(r"<.*?>", "", sequence, count=1).strip()  # remove first task start token
    print(sequence)

    # output conversion: token to json
    output = processor.token2json(sequence)

    return output

🔻 Mari kita coba men-generate 20 gambar receipt/invoice yang kita miliki!

In [None]:
# list untuk menyimpan hasil generate docs to text
preds = []

# code here: buatlah looping untuk predict 20 image dan disimpan di preds
# ...


In [None]:
# code here: cek hasil prediksinya

## Data Analysis Enhancement with Donut Outputs

Agar mempermudah dalam kita menganalisis hasil model Donut maka kita perlu mengubah data generated text tersebut menjadi sebuah tabel.

<div class="alert alert-info">
<b>🎡 Fun Fact</b>: Data dalam format JSON dapat secara otomatis dianggap sebagai dictionary di dalam Python, khususnya dengan library pandas. Ini karena struktur JSON sangat mirip dengan dictionary Python, dengan pasangan key-value yang mudah diakses.
</div>

### Transform Donut Outputs to Dataframe `pandas`

Kita cukup menggunakan `pd.DataFrame.from_dict()`, `pandas` secara otomatis mengonversi struktur JSON tersebut ke dalam bentuk tabel.

In [None]:
# df_preds = ...

> 📈 **Insight**: Setiap baris pada dataframe kita mewakili ...

🔻 Mari kita cek missing value-nya menggunakan metode `isna().sum()`

In [None]:
# code here


> 📈 **Insight**: Dalam kasus kali ini kolom sub_total akan diabaikan karena kita akan mencoba mengambil total harga keseluruhan, harga per item, dan jumlah per item saja. Maka dari itu, kita tidak perlu membuat data yang subtotalnya kosong (NaN)

#### **💭 Discussion**
❓ Apakah menurut Anda, bentuk dataframe data invoice kita sudah cukup rapi/mudah dianalisis?

> Kita memiliki data struk yang belum terorganisir dengan baik, dimana informasi menu, total, dan sub-total disajikan dalam satu baris. 

### Data Wrangling

🔻 Untuk memudahkan analisis, kita akan memecah data ini sehingga setiap item pada struk diwakili dalam baris tersendiri, lengkap dengan ID struknya. Pendekatan ini akan mempermudah pengolahan dan analisis data.

1. Membuat dataframe kosong untuk menjadi tempat pengisian data kita.

In [None]:
df = pd.DataFrame(columns=['receipt_id', 'nm', 'cnt', 'price', 'total_price'])
df

In [None]:
# cara mengecek jumlah baris pada suatu dataframe
len(df)

2. Memasukkan seluruh data pada `df_preds` ke `df` dengan memanfaatkan looping `.iterrows()`. 

💡 `.iterrows()` merupakan metode pada objek DataFrame yang menghasilkan pasangan (index, row) untuk DataFrame tersebut

In [None]:
# mengiterasi setiap rrow dalam df_preds
for index, row in df_preds.iterrows():

    # mengecek apakah field 'menu' adalah list, jika tidak, ubah menjadi list
    menus = row['menu'] if isinstance(row['menu'], list) else [row['menu']]

    # mengiterasi setiap elemen dalam list 'menus'
    for menu in menus:
        # menambahkan row baru ke 'df' dengan informasi dari 'menu' serta tambahan 'total_price' dan 'receipt_id'
        df.loc[len(df)] = {
            **menu,  # unpack semua pasangan key-value dari dictionary 'menu' yang cocok dg nama kolom yg ada
            'total_price': row['total']['total_price'],  # mengambil 'total_price' dari baris saat ini
            'receipt_id': img_filenames[index].split('.')[0]  # mengambil ID struk dari nama file gambar
        }

💡`**dict` : Melakukan unpack semua pasangan key-value dari dictionary 'dict'

💡`df.loc[]` : Metode yang digunakan untuk mengakses baris atau kolom tertentu dari DataFrame berdasarkan nama/labelnya

In [None]:
df

> **📈 Insight**: ...

🔻 Mari kita simpan data document extracted yang sudah kita lakukan agar terecord dengan baik

In [None]:
# menyimpan DataFrame 'df' ke dalam file csv
df.to_csv('receipt_extracted.csv', 
          index=False)  # berarti indeks DataFrame tidak disertakan dalam file csv


### Data Cleaning

In [None]:
# cek tipe data
df.info()

🔻Nama kolom masih kurang informatif, maka kita akan coba menggantinya menggunakan metode `.rename()`

In [None]:
new_columns_name = {
    'nm': 'item_name',
    'cnt': 'quantity'
}

df = df.rename(columns=new_columns_name)
df.head()

🔻 Jika kita lihat kembali kolom `price` maupun `total_price` seharusnya memiliki tipe data int/float. Maka dari itu kita perlu melakukan pembersihan `,`. 
` `

In [None]:
# fungsi untuk membersihkan string harga dari simbol dan spasi
def clean_price(x):
    return int(x.replace(".", "").replace(",", "").replace("Rp", "").replace(" ", ""))


Mari kita coba aplikasikan fungsi `clean_price` terhadap salah satu baris pada data kita

In [None]:
# code here


❓ Lalu, bagaimana cara mengaplikasikan fungsi tersebut untuk semua baris tanpa kita melakukan satu persatu? 

> Jawabannya, kita bisa memanfaatkan fungsi `.apply()`

💡 Fungsi `apply` memungkinkan kita untuk menjalankan suatu fungsi terhadap setiap elemen dalam sebuah kolom secara otomatis. Contohnya, jika kita ingin membersihkan format harga dalam kolom 'price' di DataFrame df, kita bisa melakukan hal berikut:

In [None]:
# mengaplikasikan fungsi 'clean_price' ke setiap elemen di kolom 'price' pada 'df'
df['price'] = df['price'].apply(lambda x: clean_price(str(x)))

In [None]:
# code here: mengaplikasikan fungsi 'clean_price' ke setiap elemen di kolom 'total_price' pada 'df'


🔻 Selanjutnya, kita akan coba membersihkan kolom `quantity` seharusnya memiliki tipe data int/float. Maka dari itu kita perlu melakukan pembersihan `,`. 
` `, serta `X` 

Mari kita buat custom fungsinya terlebih dahulu:

In [None]:
# membersihkan dan mengkonversi nilai 'x' menjadi float
def clean_quantity(x):
    # jika 'x' bernilai None (tidak ada data), kembalikan 0
    if x is None:
        return 0

    # mengonversi 'x' ke string, menghapus spasi, 'x'/'X', dan ']' dari string tersebut, dan mengembalikan menjadi sebuah angka
    return float(str(x).replace(" ", "").replace("x", "").replace("X", "").replace("]", ""))


In [None]:
# code here: mengaplikasikan fungsi 'clean_quantity' ke setiap elemen di kolom 'quantity' pada 'df'


### 🤿 (Opsional) Dive Deeper: 🍩 Advanced Document Extracted Dataframe 

Misalkan Anda bekerja sebagai data scientist di sebuah supermarket dengan dataset yang mencatat transaksi penjualannya. Dataset ini berisi informasi tentang ID struk (`receipt_id`), harga total per struk (`total_price`), dan nama item yang terjual (`item_name`). 

Untuk mendapatkan wawasan yang lebih terstruktur dari data penjualan ini, Anda diminta membuat tabel pivot yang mengelompokkan dan menyajikan data berdasarkan `receipt_id`, `total_price`.

In [None]:
# code here
df_pivot = df.pivot_table(index=['receipt_id', 'total_price', 'item_name'])
df_pivot

___

# Integration Gradio for Efficient Scanning

🛠️ [**Gradio**](https://www.gradio.app/) adalah sebuah library Python yang digunakan untuk membangun antarmuka web yang mudah digunakan untuk aplikasi berbasis machine learning. Dengan Gradio, kita dapat dengan cepat membuat antarmuka untuk model machine learning sehingga pengguna dapat dengan mudah berinteraksi dengannya tanpa harus memiliki pengetahuan teknis yang mendalam tentang pemrograman atau machine learning.

Berikut adalah contoh web-app menggunakan Gradio: 

<img src="assets/gradio-example.jpg" width=800></img>


## Understand the Fundamentals of Gradio

`gr.Interface()` adalah kelas utama dalam Gradio yang digunakan untuk membuat antarmuka pengguna (UI) interaktif untuk model machine learning atau fungsi Python lainnya. Ini memungkinkan developer dengan cepat membuat aplikasi web yang dapat menerima input dari pengguna dan memberikan output atau hasil dari model atau fungsi yang diintegrasikan.

Berikut adalah konsep utama dan parameter `gr.Interface`:

In [None]:
import gradio as gr

### Main Concept:

```python
gr.Interface(input=, output=, fn=, live=)
```

- 📥**Inputs ("input")**: Menentukan jenis input yang akan diterima oleh antarmuka. Contoh: `"text"`, `"image"`, `"video"`, `"json"`, `"audio"` atau kombinasi `"text"`, `"image"`.

- 📤**Outputs ("output")**: Menentukan jenis output yang akan dihasilkan oleh antarmuka. Contoh: `"text"`, `"image"`, `"video"`, `"json"`, `"audio"` atau kombinasi `"text"`, `"image"`.

- ⚒️ **Function ("fn")**: Fungsi Python yang akan dijalankan ketika ada input dari pengguna. Bisa berupa model machine learning atau fungsi khusus lainnya.

- 🌐 **Share ("share")**: Boolean, menentukan apakah dibuatkan public link atau tidak (temporary 72 hours deployment). Contoh: `True` atau `False`.


### Additional `gr.Interface` Parameters:

- **`title`**: Judul antarmuka yang akan ditampilkan di halaman web. Contoh: `"My Gradio App"`.

- **`description`**: Deskripsi antarmuka yang akan ditampilkan di halaman web. Contoh: `"A simple app for image classification"`.

- **`sidebar`**: Menentukan apakah sidebar akan ditampilkan atau tidak. Contoh: `True` atau `False`.
  
- **`live`**: Menentukan apakah antarmuka akan memberikan pembaruan langsung. Contoh: `True` atau `False`.

### Simple Examples of Usage

Berikut adalah contoh sederhana penggunaan `gr.Interface`:

In [None]:
import gradio as gr

def my_function(name_text):
    return f"Hello, {name_text}. Nice to meet you!"

test = gr.Interface(fn=my_function, inputs="text", outputs="text", live=True, title="Hello World App")
test.launch()

> **📈 Insight:** Pada contoh di atas, kita membuat antarmuka yang menerima input teks dan mengembalikan output teks yang merupakan cetakan dari input pengguna.Kita dapat menggabungkan input dan output yang berbeda serta menyesuaikan parameter sesuai kebutuhan aplikasi yang dibangun.

## Develop Gradio for Real-time Receipt and Invoice Scanning

🔻 Mari kita buat aplikasi aplikasi Gradio yang memungkinkan pengguna melakukan pemindaian dan ekstraksi teks secara real-time pada struktur dokumen seperti kwitansi dan invoice dengan memanfaatkan fungsi `doc_to_text` yang telah kita rancang sebelumnya.

In [None]:
model.eval()

# code here: let's create gradio
# ...

⚒️ Keunggulan Gradio with Donut:

1. **Efisiensi dan Kepresisian:**
   Mampu mengekstrak teks dari dokumen secara cepat dan akurat, menghemat waktu tanpa perlu proses manual.

2. **Peningkatan Produktivitas:**
   Mempermudah pengelolaan informasi dari kwitansi dan faktur, meningkatkan produktivitas dalam pencatatan keuangan dan pelacakan pengeluaran sehari-hari.

3. **Aksesibilitas dan Kemudahan Penggunaan:**
   Gradio memberikan antarmuka yang intuitif, memungkinkan pengguna mengunggah gambar dokumen dengan cepat tanpa memerlukan keahlian teknis.

Dengan demikian, aplikasi ini tidak hanya **berpotensi** memberikan solusi teknis, tetapi juga meningkatkan efisiensi dan kenyamanan dalam mengelola informasi dari dokumen struktural seperti kwitansi dan faktur.

## (Opsional): Deploy the Gradio

✨ Tutorial:
- https://huggingface.co/blog/gradio-spaces
- https://www.gradio.app/guides/sharing-your-app

# Reference

- Paper:
    - [Donut: OCR-free Document Understanding Transformer](https://arxiv.org/pdf/2111.15664.pdf)
    - [Attention & Transformer: Attention is All You Need](https://arxiv.org/pdf/1706.03762.pdf)
    - [Swin Transformer: Hierarchical Vision Transformer using Shifted Windows](https://arxiv.org/pdf/2103.14030.pdf)
    - [Neural Machine Translation by Jointly Learning to Align and Translate](https://arxiv.org/pdf/1409.0473.pdf)

# [Additional] 🛠️ Tools Verification

1. Membuat environtmet conda bernama `dss_donut` dengan python=3.10
2. Aktifkan environtment dengan `conda activate dss_donut`
3. Lakukan `pip install -r requirements.txt`

In [None]:
import re
import os
import torch

import gradio as gr
from PIL import Image
from transformers import DonutProcessor, VisionEncoderDecoderModel

processor = DonutProcessor.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")
model = VisionEncoderDecoderModel.from_pretrained("naver-clova-ix/donut-base-finetuned-cord-v2")