# **Platform AI Mobile dengan TensorFlow Lite**

TensorFlow Lite (TFLite) adalah solusi untuk menjalankan **Machine Learning** secara lokal pada perangkat dengan latensi rendah tanpa perlu koneksi internet. Di sini, data Anda tidak perlu meninggalkan perangkat, sehingga privasi Anda tetap terjaga. Selain itu, konsumsi daya bisa berkurang karena koneksi jaringan cenderung boros daya.

## **Keuntungan Menggunakan TensorFlow Lite**

TFLite dirancang untuk perangkat berdaya rendah seperti ponsel. Model yang digunakan memiliki ukuran kecil dengan sedikit pengurangan akurasi, tetapi cukup untuk memenuhi tugas **Machine Learning** umum. Berikut ini beberapa keuntungan utama TFLite:

- **Privasi Terjaga:** Semua proses dilakukan di perangkat sehingga data tidak meninggalkan perangkat.
- **Efisiensi Daya:** Menghindari penggunaan jaringan yang boros daya.
- **Ukuran Binary yang Kecil:** TFLite menggunakan model yang berukuran kecil dengan sedikit pengurangan akurasi.
  
## **Model Pre-trained yang Tersedia**

TensorFlow Lite menyediakan model pre-trained untuk tugas **Machine Learning** umum, yang siap digunakan. Selain itu, TFLite menyediakan contoh yang dapat dicoba untuk melihat bagaimana model berjalan di perangkat mobile.

## **Komponen Utama TensorFlow Lite**

TFLite terdiri dari dua komponen utama:

1. ### **Converter**
   - **Fungsi:** Mengonversi model dari berbagai format ke dalam format khusus yang dapat digunakan oleh TensorFlow Lite.
   - **Optimasi:** Converter ini memungkinkan optimasi model agar lebih kecil dan efisien.
   - **Penggunaan:** Bekerja di lingkungan pengembangan model dan pelatihan untuk menghasilkan model TFLite.

2. ### **Interpreter**
   - **Fungsi:** Menjalankan inferensi model yang telah dikonversi di perangkat mobile.
   - **Core Interpreter:** Bertanggung jawab dalam menjalankan model dengan menggunakan set operator TensorFlow yang terbatas.
   - **Memory Allocator:** Menggunakan alokasi memori khusus yang lebih statis untuk mengurangi latensi.
   - **Dukungan Hardware:** Interpreter TFLite mendukung berbagai perangkat mobile dan IoT serta API akselerasi hardware.

> **Catatan Penting:** TFLite mendukung **API** yang dioptimalkan untuk perangkat keras, yang memungkinkan model berjalan lebih efisien pada perangkat dengan akselerasi hardware.

## **Mengonversi dan Menjalankan Model dengan TFLite**

Untuk menggunakan TensorFlow Lite, Anda bisa menggunakan **Converter** untuk mengonversi model TensorFlow dari format yang berbeda menjadi format TFLite. Setelah itu, **Interpreter** akan menangani inferensi di perangkat dengan efisiensi tinggi.

Dengan memahami komponen-komponen ini, Anda bisa memanfaatkan TensorFlow Lite dalam pengembangan aplikasi AI mobile yang ringan, efisien, dan aman untuk pengguna.

# Proses Konversi Model untuk Perangkat Mobile

Setelah Anda melatih model, proses konversi harus dilakukan agar dapat digunakan pada perangkat. Langkah pertama adalah melatih model Anda dengan menggunakan **TensorFlow**. Biasanya, model akan disimpan dalam format yang umum, seperti format **SavedModel** yang direkomendasikan.

## Langkah-Langkah Konversi Model

1. **Latih Model dengan TensorFlow**
    - Setelah melatih model, simpan dalam format **SavedModel**.

2. **Menggunakan TensorFlow Lite Converter**
    - Gunakan alat konversi **TensorFlow Lite** untuk meratakan model agar siap digunakan pada perangkat mobile atau embedded.

3. **Performa Inference pada Perangkat Mobile**
    - Menjalankan inference untuk model pembelajaran mesin yang berat secara komputasi di perangkat mobile memerlukan sumber daya yang tinggi karena perangkat memiliki daya pemrosesan dan daya terbatas.
    - Untuk menghindari overhead dan memungkinkan aplikasi real-time, inference harus dilakukan dengan sangat cepat.

4. **Optimisasi dengan Akselerasi Hardware**
    - **TensorFlow Lite** dapat memanfaatkan pustaka **Hardware Acceleration** atau API untuk perangkat yang mendukungnya.
    - Anda bisa mengevaluasi apakah model Anda dapat memperoleh manfaat dari penggunaan **Hardware Acceleration** jika tersedia di perangkat.

![image.png](attachment:image.png)

## Teknik Akselerasi untuk Perangkat Android

![image-2.png](attachment:image-2.png)

1. **Menggunakan Android Neural Network API**
    - Salah satu cara untuk meningkatkan inference di perangkat Android adalah dengan memanfaatkan **Android Neural Network API**. Anda akan mempelajari cara menggunakan ini untuk optimasi lebih lanjut di kursus nanti.

2. **Menggunakan Edge TPUs**
    - **Edge TPUs** dirancang khusus untuk beroperasi pada model deep learning.
    - Edge TPUs juga dikenal dengan performa tinggi, footprint daya rendah, dan ukuran kecil.
    - Selain untuk menyajikan model, Edge TPUs juga dapat digunakan untuk melatih model.

3. **TensorFlow Lite Delegate**
    - **TensorFlow Lite Delegate** adalah cara untuk menyerahkan eksekusi grafik ke hardware yang dikhususkan untuk menjalankan inference.
    - **TensorFlow Lite** mendukung **GPU Delegate** yang dapat digunakan untuk mempercepat model pada perangkat yang memiliki GPU yang tersedia.

## Menggunakan GPU untuk Inference

- **GPU** dirancang untuk menjalankan banyak operasi matematis secara paralel, menjadikannya sempurna untuk inference ML.
- Untuk memanfaatkan kemampuan ini, **TensorFlow Lite** melakukan serangkaian transformasi pada model:
  - Membangun representasi kanonik dari jaringan.
  - Menghilangkan operasi yang tidak perlu.
  - Menggantikan operasi dengan yang lebih cepat.
  - Menggabungkan operasi untuk menghindari penggunaan program berbagi yang lebih banyak.

## Proses Optimasi dan Shader Runtime

- Seperti pada video game, **compute shaders** dihasilkan dan dikompilasi berdasarkan grafik yang telah dioptimalkan menggunakan **shader runtime**.
  - Untuk Android, runtime ini adalah **OpenGL ES**, sedangkan untuk iOS menggunakan **Metal**.

## Keterbatasan dan Perhatian dalam Penggunaan GPU Delegate

- Tidak semua operasi **TensorFlow** termasuk dalam grafik yang dapat diproses oleh GPU.
- Kerangka kerja akan menangani delegasi operasi ke **GPU** atau **CPU** sesuai kebutuhan.
- Perlu dicatat bahwa biaya untuk beralih antar perangkat ini dapat menyebabkan latensi yang lebih tinggi dan model mungkin perlu sedikit lebih besar.

![image-3.png](attachment:image-3.png)

## Referensi dan Pembelajaran Lanjutan

- Untuk informasi lebih lanjut tentang **GPU Delegate**, Anda dapat menonton video di saluran YouTube **TensorFlow**.
- Anda juga dapat memeriksa beberapa aplikasi sampel yang menggunakan **GPU Delegate** di situs web **TensorFlow** pada URL berikut.

> **Catatan:** Untuk memahami lebih lanjut tentang akselerasi hardware dan optimasi model, lanjutkan ke tutorial dan video yang tersedia.


# Optimasi Model untuk Perangkat Mobile dan Embedded

Optimasi sangat diperlukan karena terbatasnya sumber daya pada perangkat mobile dan embedded. Sangat penting bagi model machine learning yang di-deploy untuk memiliki ukuran model yang optimal, latensi rendah, dan konsumsi daya yang efisien. Ini menjadi lebih penting pada perangkat edge, di mana sumber daya lebih terbatas dan efisiensi perangkat serta perhitungan komputasi dapat menjadi masalah besar.

## Metode Optimasi

Ada beberapa metode yang dapat digunakan untuk mencapai optimasi ini, termasuk:

- **Quantization**: Mengurangi presisi angka pada bobot dan bias model.
- **Weight Pruning**: Mengurangi jumlah parameter keseluruhan.
- **Model Topology Transforms**: Mengubah topologi model untuk mendapatkan model yang lebih efisien.

![image.png](attachment:image.png)

### Fokus pada Quantization

Dalam kursus ini, kita akan lebih fokus pada **quantization**, karena ini memberikan peningkatan yang besar dan mudah dalam jangka waktu yang cepat.

#### Apa itu Quantization?

Quantization mengoptimalkan model dengan representasi presisi yang lebih rendah untuk bobot dan opsional aktivasi, baik untuk penyimpanan maupun komputasi. Ini memiliki beberapa keuntungan, antara lain:

1. **Kompatibilitas CPU**: Semua platform CPU didukung, jadi optimasi ini dapat bekerja di mana saja.
2. **Pengurangan Biaya**: Mengurangi biaya akses memori dan biaya penyimpanan aktivasi antar waktu.
3. **Dukungan untuk Hardware Khusus**: Mendukung penyebaran model yang dioptimalkan untuk akselerator hardware khusus. Dengan ini, model bisa berjalan dengan mudah di akselerator fixed point yang tidak mendukung operasi floating point, dan tentu saja akselerator hardware khusus seperti **TPU** juga didukung.

![image-2.png](attachment:image-2.png)

#### Alur Kerja dengan TensorFlow Lite

Alur kerja Anda dengan **TensorFlow Lite** cukup sederhana. Anda dapat memulai dengan model yang sudah ada dan mengonversinya untuk TF Lite, atau bahkan Anda mungkin sudah memiliki model yang telah dioptimalkan. Kita akan melihat beberapa di antaranya dalam beberapa minggu ke depan. Anda juga bisa mengambil model kustom dan mengonversinya ke **TF Lite**, lalu mengoptimalkannya untuk kinerja mobile.

![image-3.png](attachment:image-3.png)

### Ringkasan

Ini adalah gambaran umum dari apa yang memungkinkan. Di pelajaran berikutnya, Anda akan mempelajari tentang format model yang disimpan, cara menyimpan model Anda, mengonversinya, dan akhirnya mengoptimalkan model tersebut untuk digunakan pada perangkat mobile.
