# Support Vector Machine Classification

## Apa Yang Akan Dilakukan Pada Notebook Ini?

    1. Penjelasan SVM Algorithm, komponen-komponen terkait, beserta mathematics formula pada SVM
    2. Pengerjaan Titanic Dataset Menggunakan model Support Vector Classifier

## Apa Sajakah Kasus Penggunaan SVM?

<blockquote> Classification (Support Vector Classifier) </blockquote>

<blockquote> Regression (time series prediction, etc) </blockquote>

## Bagaimana SVM dibandingkan dengan algoritma ML lainnya?

![alt text](https://image.slidesharecdn.com/mscpresentation-140722065852-phpapp01/95/msc-presentation-bioinformatics-7-638.jpg?cb=1406012610 "Compare Between SVM and NN")

- Sebagai aturan praktis, SVM sangat bagus untuk kumpulan data yang relatif kecil dengan outlier yang lebih sedikit.
- Algoritma lain (Random forests, deep neural networks, dll.) memerlukan lebih banyak data tetapi hampir selalu menghasilkan model yang sangat kuat.

    1. SVM vs. Neural Networks:
    - Perbedaan: SVM menggunakan pendekatan geometris dalam menemukan hyperplane terbaik, sementara Neural Networks
    menggunakan arsitektur jaringan yang kompleks untuk menemukan pola yang rumit.
    - Kapan memilih: Jika terdapat kebutuhan untuk interpretasi dan kecepatan komputasi yang cepat, SVM mungkin lebih
    diinginkan. Namun, jika tugas memerlukan adaptasi terhadap pola yang sangat kompleks dan data besar, Neural Networks
    bisa menjadi alternatif yang lebih baik.

    2. SVM vs. Regresi Logistik:
    - Perbedaan: SVM berfokus pada menemukan hyperplane terbaik yang memisahkan kelas-kelas, sementara Regresi Logistik
    memodelkan probabilitas untuk kelas tertentu.
    - Kapan memilih: SVM lebih cocok ketika ada kompleksitas pemisahan antar kelas yang tinggi dan ketika margin pemisahan
    yang optimal diinginkan. Regresi Logistik sering digunakan ketika interpretasi probabilitas kelas adalah kebutuhan
    utama.

    3. SVM vs. Decision Trees (Pohon Keputusan):
    - Perbedaan: SVM mencari hyperplane yang memaksimalkan margin antara kelas, sementara Decision Trees membagi ruang fitur
    menggunakan serangkaian keputusan berbasis fitur.
    - Kapan memilih: Jika data memiliki kompleksitas tinggi dan jumlah fitur besar, SVM dapat memberikan performa yang baik.
    Namun, jika interpretasi yang lebih mudah dan pemahaman fitur yang diperlukan, Decision Trees bisa menjadi pilihan yang
    baik.

    4. SVM vs. K-Nearest Neighbors (K-NN):
    - Perbedaan: SVM mencari hyperplane terbaik sebagai batas keputusan, sementara K-NN menggunakan informasi tetangga
    terdekat untuk mengklasifikasikan data.
    - Kapan memilih: Jika data bersifat linier atau hampir linier dipisahkan, SVM mungkin memberikan hasil yang lebih baik.
    Namun, jika tidak ada asumsi linieritas dan interpretasi jarak antar data penting, K-NN bisa menjadi alternatif yang
    baik.

    5. SVM vs. Random Forests:
    - Perbedaan: SVM mencari hyperplane linier atau non-linier, sedangkan Random Forests adalah ensemble dari Decision Trees.
    - Kapan memilih: Jika ada kebutuhan untuk menangani data dengan kompleksitas yang tinggi dan menghindari overfitting, SVM mungkin lebih cocok. Namun, jika interpretasi yang lebih mudah dan kemampuan untuk menangani banyak fitur serta deteksi
    pentingnya fitur, Random Forests bisa lebih baik.


## Apa itu Support Vector Machine?

![alt text](https://upload.wikimedia.org/wikipedia/commons/thumb/7/72/SVM_margin.png/300px-SVM_margin.png "Logo Title Text 1")

Dalam formulasi SVM dalam persamaan linear:

$ f(x) = w^T x + b $

di mana:
- $ f(x) $ adalah fungsi prediksi.
- $ w $ adalah vektor bobot (weight vector) yang bertanggung jawab untuk mengontrol orientasi hyperplane.
- $ x $ adalah vektor fitur input.
- $ b $ adalah bias (sering juga disebut sebagai "intercept" dalam konteks linier) yang menentukan posisi hyperplane dalam ruang fitur.

Ini adalah `Supervised Machine Learning Algorithm` yang dapat digunakan untuk masalah `klasifikasi atau regresi`. Tapi biasanya digunakan untuk klasifikasi. Diberikan 2 atau lebih kelas data yang diberi label, ia bertindak sebagai pengklasifikasi diskriminatif. `Pengklasifikasi diskriminatif` merujuk pada kategori algoritma pembelajaran mesin yang bertujuan untuk menemukan `batas keputusan` atau hyperplane pemisah yang `membedakan` antara kelas atau kelompok yang berbeda dalam data. `Tujuan utama` dari pengklasifikasi diskriminatif adalah untuk `mengidentifikasi aturan atau fungsi yang memungkinkan pemisahan yang optimal antara kelas-kelas yang berbeda`. Secara formal SVM ditentukan oleh `hyperplane optimal` yang memisahkan semua kelas. Contoh-contoh baru yang kemudian dipetakan ke dalam ruang yang sama kemudian dapat dikategorikan berdasarkan pada sisi kesenjangan mana contoh-contoh tersebut berada.

## Apa itu Support Vectors?

![alt text](https://miro.medium.com/v2/resize:fit:1400/0*ecA4Ls8kBYSM5nza.jpg "Logo Title Text 1")
![alt text](https://miro.medium.com/v2/resize:fit:720/format:webp/1*CD08yESKvYgyM7pJhCnQeQ.png "Logo Title Text 1")
![alt text](https://miro.medium.com/v2/resize:fit:828/format:webp/1*ikAtK9PHxDH1xDvaXEUKTw.png "Logo Title Text 1")


 
`Support Vektor` adalah titik data yang `paling dekat` dengan hyperplane, `titik dari kumpulan data` yang, jika dihilangkan, akan mengubah posisi hyperplane pemisah. hyperplane dibangun berdasarkan maksimum margin dari suport vektor itu sendiri. Beberapa kasus juga bisa menggunakan `soft margin` dengan metode misclasification. Oleh karena itu, mereka dapat dianggap sebagai elemen penting dari kumpulan data, dan `merekalah` yang membantu `kita membangun SVM`.

## Apa itu Hyperplane?

![alt text](http://slideplayer.com/slide/1579281/5/images/32/Hyperplanes+as+decision+surfaces.jpg "Logo Title Text 1")

`Geometri` memberi tahu kita bahwa `hyperplane` adalah subruang yang satu dimensinya lebih kecil dari ruang sekitarnya. Misalnya, `hyperplane` dari ruang `berdimensi n` adalah himpunan bagian datar dengan dimensi `n − 1`. Berdasarkan sifatnya, ia memisahkan ruang menjadi dua setengah ruang.

## Linear vs Nonlinear classification?

Terkadang data kita dapat dipisahkan `secara linier`. Artinya untuk `N kelas dengan M fitur`, kita dapat mempelajari pemetaan yang merupakan `kombinasi linier`. (seperti `$y = mx + b$`). Atau bahkan `hyperplane multidimensi` (`$y = x + z + b + q$`). `Tidak peduli berapa banyak dimensi/fitur` yang dimiliki suatu kumpulan kelas, kita dapat `merepresentasikan` pemetaan menggunakan `fungsi linier`.

Namun, ketika `data tidak dapat dipisahkan secara linier` dalam ruang fitur asli, `SVM` menggunakan apa yang disebut `"trik kernel"` untuk mengatasi kendala ini. `Trik kernel` memungkinkan SVM untuk melakukan `transformasi nonlinear data` ke dalam `ruang dimensi yang lebih tinggi`. Ide dasarnya adalah `mengubah data ke ruang fitur yang berbeda di mana pola kelas mungkin dapat dipisahkan secara linier`.

Beberapa jenis fungsi kernel yang umum digunakan dalam SVM adalah:

- `Linear Kernel`: Cocok untuk pemetaan linier dan digunakan ketika data dapat dipisahkan secara linier.
- `Polynomial Kernel`: Mampu menangani pola non-linier dengan menambahkan derajat pada pemetaan polinomial (contohnya, $x^2$, $x^3$, dst.)
- `Gaussian RBF (Radial Basis Function) Kernel`: Efektif dalam menangani pemetaan non-linier kompleks dengan transformasi ke ruang dimensi yang tak terbatas.

![alt text](https://files.codingninjas.in/article_images/linear-vs-non-linear-classification-5-1641818083.webp "Logo Title Text 1")

## Beberapa mathematics formula yang wajib diketahui

1. Hyperplane with Maksimum Margin (Mencegah Overfit Pada Model):
optimasi untuk menemukan hyperplane yang optimal dalam pemisahan kelas.

Fungsi tujuan regularized risk dalam SVM:
$ \min_{w, b} \frac{1}{2} ||w||^2 + C \sum_{i=1}^{N} \xi_i $

Di sini:
- $ \frac{1}{2} ||w||^2 $ merupakan bagian dari fungsi tujuan yang bertujuan untuk meminimalkan norma Euclidean dari vektor bobot $ w $, yang mencerminkan elemen regularisasi dalam SVM.
- $ C $ adalah parameter penalti yang mengontrol trade-off antara meminimalkan kesalahan klasifikasi dan memperbesar margin.
- $ \sum_{i=1}^{N} \xi_i $ adalah penjumlahan dari variabel slack $ \xi_i $, yang memungkinkan kesalahan klasifikasi pada titik-titik data yang mungkin tidak terpisahkan secara sempurna oleh hyperplane.

Penerapan Kernel trick in SVM:

In [11]:
# from IPython.display import YouTubeVideo
# YouTubeVideo('_YPScrckx28')
# # start in - 1:42

# Pengerjaan Titanic Dataset Menggunakan model Support Vector Classifier

<blockquote> SVM sebagai algoritma untuk memprediksi hasil kelangsungan hidup penumpang di Titanic </blockquote>

---
`Ringkasan Proyek`: Tenggelamnya RMS Titanic adalah salah satu bangkai kapal paling terkenal dalam sejarah. Pada tanggal 15 April 1912, selama pelayaran perdananya, Titanic tenggelam setelah bertabrakan dengan gunung es, menewaskan 1.502 dari 2.224 penumpang dan awak. Tragedi sensasional ini mengejutkan komunitas internasional dan menghasilkan peraturan keselamatan kapal yang lebih baik.

`Permasalahan` : Salah satu alasan mengapa kapal karam menyebabkan banyak korban jiwa adalah karena tidak tersedianya sekoci yang cukup untuk penumpang dan awak kapal. Meskipun ada unsur keberuntungan dalam selamat dari tenggelamnya kapal tersebut, beberapa kelompok orang lebih mungkin untuk selamat dibandingkan kelompok lainnya, seperti wanita, anak-anak, dan kelas atas.

`Hasil yang diingingkan` : Penyelesaian analisis tentang orang-orang seperti apa yang kemungkinan besar akan bertahan hidup. Secara khusus, melakukan penerapan alat pembelajaran mesin untuk memprediksi penumpang mana yang selamat dari tragedi tersebut.

# Metadata Dataset

| Variable | Definition                              | Key                                               |
|:----------|:-----------------------------------------:|:----------------------------------------------------|
| survival | Survival                                | 0 = No, 1 = Yes                                    |
| pclass   | Ticket class                            | 1 = 1st, 2 = 2nd, 3 = 3rd                          |
| sex      | Sex                                     |                                                    |
| Age      | Age in years                            |                                                    |
| sibsp    | # of siblings / spouses aboard the Titanic |                                                  |
| parch    | # of parents / children aboard the Titanic |                                                  |
| ticket   | Ticket number                           |                                                    |
| fare     | Passenger fare                          |                                                    |
| cabin    | Cabin number                            |                                                    |
| embarked | Port of Embarkation                     | C = Cherbourg, Q = Queenstown, S = Southampton      |


Variable Notes:

- **pclass**: Variabel ini merupakan proxy atau representasi untuk status sosial ekonomi (SES) penumpang.
    - Nilai 1st mewakili kelas atas/tinggi.
    - Nilai 2nd mewakili kelas menengah.
    - Nilai 3rd mewakili kelas bawah/rendah.

- **age**: Variabel usia (umur) penumpang.
    - Usia ditulis dalam bentuk pecahan jika kurang dari 1. Jika usia diestimasi, ditulis dalam format xx.5.

- **sibsp**: Variabel ini menjelaskan hubungan keluarga dalam dataset:
    - "Sibling" merujuk pada saudara kandung seperti saudara laki-laki, saudara perempuan, saudara tiri, atau saudara tiri perempuan.
    - "Spouse" merujuk pada pasangan seperti suami atau istri (gundik dan tunangan diabaikan).

- **parch**: Variabel ini juga menjelaskan hubungan keluarga dalam dataset:
    - "Parent" merujuk pada orang tua seperti ibu atau ayah.
    - "Child" merujuk pada anak seperti anak perempuan, anak laki-laki, anak tiri perempuan, atau anak tiri laki-laki.
    - Beberapa anak hanya pergi bersama pengasuh, sehingga memiliki nilai parch=0.

Informasi ini membantu dalam memahami dan menafsirkan variabel-variabel dalam dataset Titanic, memberikan konteks tentang atribut-atribut yang ada.