# Siklus Proyek Machine Learning

Sejauh ini kita telah membahas banyak tentang cara melatih model dan juga sedikit tentang cara mendapatkan data untuk aplikasi machine learning. Namun, saat saya membangun sistem machine learning, saya menemukan bahwa melatih model hanyalah bagian dari teka-teki. Dalam video ini, saya ingin membagikan apa yang saya anggap sebagai siklus lengkap dari proyek machine learning. Yaitu, ketika Anda membangun sistem machine learning yang bernilai, langkah-langkah apa yang perlu dipikirkan dan direncanakan?

## Contoh: Pengakuan Suara

Mari kita ambil **pengakuan suara** sebagai contoh untuk mengilustrasikan siklus penuh dari proyek machine learning.

### 1. Penentuan Proyek
Langkah pertama dari proyek machine learning adalah **menentukan ruang lingkup proyek**. Dengan kata lain, tentukan apa proyek yang akan dikerjakan. Misalnya, saya pernah memutuskan untuk bekerja pada pengakuan suara untuk pencarian suara. Artinya, melakukan pencarian web dengan berbicara ke ponsel Anda, bukan mengetik.

### 2. Pengumpulan Data
Setelah menentukan proyek yang akan dikerjakan, Anda perlu **mengumpulkan data**. Putuskan data apa yang Anda butuhkan untuk melatih sistem machine learning Anda dan lakukan pekerjaan untuk mendapatkan audio serta transkrip label untuk dataset Anda. Ini adalah proses pengumpulan data.

### 3. Melatih Model
Setelah Anda memiliki pengumpulan data awal, Anda dapat mulai **melatih model**. Di sini Anda akan melatih sistem pengakuan suara dan melakukan analisis kesalahan untuk secara iteratif meningkatkan model Anda. Sangat umum setelah Anda mulai melatih model untuk melakukan analisis kesalahan atau analisis bias-varian yang mungkin menunjukkan bahwa Anda perlu kembali untuk mengumpulkan lebih banyak data. Mungkin Anda perlu mengumpulkan lebih banyak data secara keseluruhan atau hanya mengumpulkan lebih banyak data dari jenis tertentu yang ditunjukkan oleh analisis kesalahan Anda untuk meningkatkan kinerja algoritma pembelajaran Anda.

#### Contoh Pengumpulan Data Tambahan
Misalnya, saat bekerja dengan pengakuan suara, saya menyadari bahwa model saya berkinerja sangat buruk ketika ada kebisingan mobil di latar belakang, yang terdengar seperti seseorang berbicara di dalam mobil. Sistem pengakuan suara saya tidak berjalan dengan baik, jadi saya memutuskan untuk mengumpulkan lebih banyak data, sebenarnya menggunakan **data augmentation** untuk mendapatkan lebih banyak data suara yang terdengar seolah-olah itu dari dalam mobil, untuk meningkatkan kinerja algoritma pembelajaran saya.

### 4. Mengulang Proses
Anda akan mengulangi proses ini beberapa kali: melatih model, melakukan analisis kesalahan, kembali mengumpulkan lebih banyak data, dan mungkin melakukan ini sampai akhirnya Anda mengatakan bahwa model sudah cukup baik untuk **dideploy** dalam lingkungan produksi.

### 5. Implementasi Produksi
Apa artinya mengdeploy sistem? Ini berarti Anda membuatnya tersedia untuk pengguna. Ketika Anda mengdeploy sistem, Anda juga harus memastikan bahwa Anda terus **memantau kinerja** sistem dan **memelihara sistem** jika kinerjanya menurun, untuk meningkatkan kembali kinerja tersebut, bukan hanya menghosting model machine learning Anda di server.

![image.png](attachment:image.png)

#### Pentingnya Pemeliharaan Sistem
Saya akan menjelaskan sedikit lebih lanjut mengapa Anda perlu memelihara sistem machine learning ini. Setelah deployment, terkadang Anda menyadari bahwa sistem tidak berjalan sebaik yang diharapkan dan Anda kembali melatih model untuk meningkatkannya lagi atau bahkan kembali mengumpulkan lebih banyak data. Sebenarnya, jika Anda memiliki izin untuk menggunakan data dari deployment produksi Anda, data tersebut dapat memberikan akses kepada Anda untuk lebih banyak data yang dapat terus meningkatkan kinerja sistem Anda.

### 6. Memahami Deployment dalam Produksi
Sekarang, saya ingin menjelaskan sedikit lebih detail tentang bagaimana **deployment dalam produksi** mungkin terlihat. Setelah Anda melatih model machine learning yang berkinerja tinggi, seperti model pengakuan suara, cara umum untuk mengdeploy model adalah dengan mengambil model machine learning Anda dan mengimplementasikannya di server, yang saya sebut sebagai **server inferensi**. Tugas server ini adalah memanggil model machine learning Anda untuk membuat prediksi.

Jika tim Anda telah mengimplementasikan aplikasi mobile, misalnya aplikasi pencarian, ketika pengguna berbicara ke aplikasi mobile, aplikasi tersebut dapat melakukan **API call** untuk mengirimkan klip audio yang direkam ke server inferensi. Tugas server inferensi adalah menyediakan model machine learning untuk itu dan kemudian mengembalikan prediksi model, yang dalam hal ini akan berupa transkrip teks dari apa yang diucapkan.

![image-2.png](attachment:image-2.png)

### 7. Proses Pengimplementasian
Ini adalah pola umum di mana tergantung pada aplikasi yang diimplementasikan, Anda memiliki API call untuk memberikan input \(x\) kepada algoritma pembelajaran Anda dan model machine learning Anda akan mengeluarkan prediksi, misalnya \(y_{\hat{}}\). Untuk mengimplementasikan ini, beberapa **rekayasa perangkat lunak** mungkin diperlukan untuk menulis semua kode yang melakukan semua hal ini.

#### Skala dan Sumber Daya
Bergantung pada apakah aplikasi Anda perlu melayani hanya beberapa pengguna atau jutaan pengguna, jumlah rekayasa perangkat lunak yang diperlukan bisa sangat berbeda. Saya telah membangun perangkat lunak yang melayani hanya beberapa pengguna di laptop saya dan juga telah membangun perangkat lunak yang melayani ratusan juta pengguna yang memerlukan sumber daya data center yang signifikan.

### 8. Monitoring dan Logging
Tergantung pada skala aplikasi yang dibutuhkan, rekayasa perangkat lunak mungkin diperlukan untuk memastikan bahwa server inferensi Anda dapat membuat prediksi yang andal dan efisien, dengan biaya komputasi yang tidak terlalu tinggi. Anda sering ingin mencatat data yang Anda terima, baik input \(x\) maupun prediksi \(y_{\hat{}}\), asalkan privasi dan persetujuan pengguna memungkinkan Anda menyimpan data ini. Data ini, jika Anda bisa mengaksesnya, juga sangat berguna untuk **monitoring sistem**.

#### Contoh Monitoring
Misalnya, saya pernah membangun sistem pengakuan suara pada dataset tertentu yang saya miliki, tetapi ketika ada selebriti baru yang tiba-tiba terkenal atau pemilihan menyebabkan politikus baru terpilih, orang-orang akan mencari nama-nama baru ini yang tidak ada dalam dataset pelatihan dan sistem saya tidak berjalan dengan baik. Dengan memantau sistem, kami dapat mengetahui ketika data mulai berubah dan algoritma menjadi kurang akurat. Ini memungkinkan kami untuk melatih kembali model dan melakukan pembaruan model untuk menggantikan model lama dengan yang baru.

### 9. MLOps
Proses deployment dapat memerlukan sejumlah rekayasa perangkat lunak. Untuk beberapa aplikasi, jika Anda hanya menjalankannya di laptop atau di satu atau dua server, mungkin tidak memerlukan banyak rekayasa perangkat lunak. Tergantung pada tim yang Anda kerjakan, mungkin Anda membangun model machine learning tetapi ada tim lain yang bertanggung jawab untuk mengdeploy-nya. Namun, ada bidang yang berkembang dalam machine learning yang disebut **MLOps** (Machine Learning Operations). Ini mengacu pada praktik bagaimana membangun, mengdeploy, dan memelihara sistem machine learning secara sistematis. 

#### Tujuan MLOps
Untuk melakukan semua hal ini untuk memastikan bahwa model machine learning Anda dapat diandalkan, memiliki skalabilitas yang baik, memiliki pengawasan yang baik, dan kemudian Anda memiliki kesempatan untuk melakukan pembaruan pada model sesuai kebutuhan agar tetap berjalan dengan baik. Misalnya, jika Anda mengdeploy sistem Anda ke jutaan orang, Anda mungkin ingin memastikan Anda memiliki implementasi yang sangat dioptimalkan sehingga biaya komputasi untuk melayani jutaan orang tidak terlalu mahal.

### Kesimpulan
Dalam kelas ini dan kelas sebelumnya, saya menghabiskan banyak waktu untuk membahas cara melatih model machine learning dan mendapatkan ini adalah bagian yang sangat penting untuk memastikan Anda memiliki sistem yang berkinerja tinggi. Jika Anda pernah harus mengdeploy sistem kepada jutaan orang, ini adalah beberapa langkah tambahan yang mungkin perlu Anda tangani. Pertimbangkan [hal-hal yang tidak terduga] pada titik tersebut juga.

### 10. Etika dalam Sistem Machine Learning
Sebelum beranjak dari topik proses pengembangan machine learning, ada satu set ide lagi yang ingin saya bagikan kepada Anda yang berhubungan dengan **etika dalam membangun sistem machine learning**. Ini adalah topik yang penting untuk banyak aplikasi, jadi mari kita lihat ini di video berikutnya.
