# Pemahaman Jaringan Saraf Rekuren (RNN)

Minggu lalu, kita membahas tentang klasifikasi menggunakan teks dan berusaha melatih serta memahami sentimen positif dan negatif dalam ulasan film. Kita selesai dengan melihat pengaruh tokenisasi kata dan menemukan bahwa klasifikasi kita gagal mendapatkan hasil yang berarti. 

## Penyebab Utama

Alasan utama dari kegagalan ini adalah konteks kata-kata menjadi sulit diikuti ketika kata-kata tersebut dipecah menjadi sub-kata. Urutan di mana token untuk sub-kata muncul menjadi sangat penting dalam memahami maknanya. Mari kita lihat lebih dekat mengenai hal ini.

## Apa itu Jaringan Saraf?

Jaringan saraf bisa dianggap seperti fungsi yang, ketika Anda memasukkan data dan label, ia menyimpulkan aturan dari data tersebut, dan kemudian Anda bisa menggunakan aturan tersebut. Ini bisa dilihat sebagai fungsi di mana Anda mengambil data, mengambil label, dan mendapatkan aturan. Namun, pendekatan ini tidak mempertimbangkan urutan.

### Pentingnya Urutan

Untuk memahami mengapa urutan bisa menjadi penting, pertimbangkan deret angka ini. Jika Anda belum pernah melihatnya sebelumnya, ini disebut deret Fibonacci. Mari kita ganti nilai sebenarnya dengan variabel seperti `n0`, `n1`, dan `n2`, dan seterusnya, untuk menandainya. Deret ini dapat diturunkan di mana sebuah angka adalah jumlah dari dua angka sebelumnya. 

Sebagai contoh:
- `3 = 2 + 1`
- `5 = 2 + 3`
- `8 = 3 + 5`

Atau dapat dinyatakan dengan rumus:  
`nx = nx-1 + nx-2`, di mana `x` adalah posisi dalam urutan.

### Visualisasi

Secara visual, deret ini bisa dilihat seperti ini:
1. `1` dan `2` masuk ke fungsi pertama, menghasilkan `3`.
2. `2` dibawa ke fungsi berikutnya bersama dengan `3` untuk menghasilkan `5`.
3. `3` dibawa ke fungsi berikutnya bersama dengan `5` untuk mendapatkan `8`, dan seterusnya.

## Jaringan Saraf Rekuren (RNN)

Konsep ini mirip dengan ide dasar dari **Jaringan Saraf Rekuren (RNN)**, yang sering digambarkan seperti ini:

- **Input**: `x`
- **Output**: `y`

Ada elemen yang diumpankan ke fungsi dari fungsi sebelumnya, yang menjadi lebih jelas ketika Anda menghubungkannya seperti ini:

- `x0` dimasukkan ke dalam fungsi, menghasilkan `y0`.
- Output dari fungsi tersebut kemudian dimasukkan ke fungsi berikutnya, bersama dengan `x2` untuk mendapatkan `y2`, melanjutkan urutannya.

Seperti yang dapat Anda lihat, ada elemen dari `x0` yang dibawa sepanjang jaringan, serupa dengan `x1`, `x2`, dan seterusnya. Ini membentuk dasar dari Jaringan Saraf Rekuren.

> **Catatan**: Saya tidak akan menjelaskan secara detail tentang bagaimana mereka bekerja, tetapi Anda dapat mempelajari lebih lanjut tentangnya dalam kursus dari Andrew.

![image.png](attachment:image.png)

# Keterbatasan dalam Klasifikasi Teks

Namun, ada keterbatasan ketika mendekati klasifikasi teks dengan cara ini. Pertimbangkan hal berikut.

## Contoh Kalimat

Berikut adalah sebuah kalimat:

> "Hari ini memiliki biru yang indah, apa yang Anda pikirkan akan datang selanjutnya?"

Kemungkinan besar jawabannya adalah **langit**. 

> "Hari ini memiliki biru yang indah **langit**."

Mengapa Anda mengatakan itu? Nah, ada petunjuk besar dalam kata **biru**. Dalam konteks seperti ini, cukup mungkin bahwa ketika kita berbicara tentang sesuatu yang biru yang indah, kita maksudkan **langit biru yang indah**. Kata konteks yang membantu kita memahami kata berikutnya sangat dekat dengan kata yang kita minati.

## Tantangan Lain

Bagaimana dengan kalimat seperti ini?

> "Saya tinggal di Irlandia, di sekolah, mereka membuat saya belajar bagaimana cara berbicara sesuatu."

Bagaimana Anda akan menyelesaikan kalimat itu? Anda mungkin akan mengatakan **Irlandia**, tetapi Anda akan lebih akurat jika Anda berkata:

> "Saya tinggal di Irlandia, jadi di sekolah mereka membuat saya belajar bagaimana cara berbicara **Gaelik**."

### Masalah Sintaksis

Pertama, tentu saja, adalah masalah sintaksis. **Irlandia** menggambarkan orang-orang, sedangkan **Gaelik** menggambarkan bahasa. Namun, yang lebih penting dalam konteks pembelajaran mesin adalah kata kunci yang memberikan rincian tentang bahasa tersebut. 

Dan itu adalah kata **Irlandia**, yang muncul jauh lebih awal dalam kalimat. Jika kita melihat urutan kata, kita mungkin kehilangan konteks tersebut.

## Pembaruan RNN: LSTM

Dengan mempertimbangkan hal ini, sebuah pembaruan untuk RNN yang disebut **LSTM** (Long Short-Term Memory) telah diciptakan. 

### Fitur LSTM

Selain konteks yang diteruskan, seperti dalam RNN, LSTM memiliki tambahan saluran konteks yang disebut **cell state**. Ini dapat melewati jaringan untuk mempengaruhi pemrosesan. 

> **Keuntungan**: Ini membantu menjaga konteks dari token sebelumnya tetap relevan dalam token berikutnya, sehingga masalah seperti yang baru saja kita bahas dapat dihindari.

**Cell states** juga dapat bersifat bidirectional, sehingga konteks kemudian dapat mempengaruhi konteks sebelumnya, seperti yang akan kita lihat saat memeriksa kode.

> **Catatan**: Detail tentang LSTM berada di luar ruang lingkup kursus ini, tetapi Anda dapat mempelajari lebih lanjut tentang mereka dalam video dari Andrew.

![image.png](attachment:image.png)