# **KLasifikasi Emosi Pada Audio**

Tujuan klasifikasi ini untuk mengklasifikasikan jenis emosi melalui Audio

## DESKRIPSI DATA

Dataset ini untuk melatih klasifikasi emosi (7 emosi utama) dalam audio. Ada satu set 200 kata target yang diucapkan dalam frasa pembawa "Say the word _' oleh dua aktris (berusia 26 dan 64 tahun) dan rekaman dibuat dari set tersebut yang menggambarkan masing-masing tujuh emosi (marah, jijik, takut, bahagia, kejutan menyenangkan, kesedihan, dan netral). Total ada 2800 data (file audio).

Dataset tersebut disusun sedemikian rupa sehingga masing-masing dari dua aktor wanita dan emosi mereka terkandung dalam foldernya sendiri. Dan di dalamnya, semua file audio 200 kata target dapat ditemukan. Format file audio adalah format WAV.
data didapatkan dari https://www.kaggle.com/datasets/ejlok1/toronto-emotional-speech-set-tess

**Penjelasan Label Dalam Dataset Audio**

* 'OAF_angry': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi marah dari pembicara OAF.

* 'OAF_disgust': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi jijik atau muak dari pembicara OAF.

* 'OAF_Fear': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi takut dari pembicara OAF.

* 'OAF_happy': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi bahagia dari pembicara OAF.

* 'OAF_neutral': mencerminkan ekspresi wajah atau suara yang terkait dengan ekspresi wajah atau suara netral dari pembicara OAF.

* 'OAF_Pleasant_surprise': mencerminkan ekspresi wajah atau suara yang terkait dengan kejutan menyenangkan dari pembicara OAF.

* 'OAF_Sad': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi sedih dari pembicara OAF.

Untuk Pembicara YAF:

* 'YAF_angry': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi marah dari pembicara YAF.

* 'YAF_disgust': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi jijik atau muak dari pembicara YAF.

* 'YAF_fear': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi takut dari pembicara YAF.

* 'YAF_happy': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi bahagia dari pembicara YAF.

* 'YAF_neutral': mencerminkan ekspresi wajah atau suara yang terkait dengan ekspresi wajah atau suara netral dari pembicara YAF.

* 'YAF_Pleasant_surprise': mencerminkan ekspresi wajah atau suara yang terkait dengan kejutan menyenangkan dari pembicara YAF.

* 'YAF_sad': mencerminkan ekspresi wajah atau suara yang terkait dengan emosi sedih dari pembicara YAF.

## EKSTRAKSI FITUR

In [None]:
%%capture
pip install librosa

In [None]:
# Import Library
import os
import librosa
import numpy as np
import pandas as pd
from scipy.stats import skew, kurtosis, mode

In [None]:
# Daftar folder yang akan dianalisis
folders = ['YAF_sad','YAF_pleasant_surprised','YAF_neutral','YAF_happy','YAF_fear','YAF_disgust','YAF_angry','OAF_Sad','OAF_Pleasant_surprise','OAF_neutral','OAF_happy','OAF_Fear','OAF_disgust','OAF_angry',]

In [None]:
def calculate_statistics(audio_path):
    y, sr = librosa.load(audio_path)

    # UNTUK MENGHITUNG NILAI STATISTIKA
    mean = np.mean(y)
    std_dev = np.std(y)
    max_value = np.max(y)
    min_value = np.min(y)
    median = np.median(y)
    skewness = skew(y)  # Calculate skewness
    kurt = kurtosis(y)  # Calculate kurtosis

    # UNTUK MENGHITUNG NILAI ZCR
    zcr_mean = np.mean(librosa.feature.zero_crossing_rate(y=y))
    zcr_median = np.median(librosa.feature.zero_crossing_rate(y=y))
    zcr_std_dev = np.std(librosa.feature.zero_crossing_rate(y=y))
    zcr_kurtosis = kurtosis(librosa.feature.zero_crossing_rate(y=y)[0])
    zcr_skew = skew(librosa.feature.zero_crossing_rate(y=y)[0])

    # UNTUK MENGHITUNG NILAI RMSE
    rmse = np.sum(y**2) / len(y)
    rmse_median = np.median(y**2)
    rmse_std_dev = np.std(y**2)
    rmse_kurtosis = kurtosis(y**2)
    rmse_skew = skew(y**2)

    return [zcr_mean, zcr_median, zcr_std_dev, zcr_kurtosis, zcr_skew, rmse, rmse_median, rmse_std_dev, rmse_kurtosis, rmse_skew]

Berikut merupakan Rumus-rumus dari hasil Ekstraksi Fitur Audio

1.  Mean (Rata-rata)

  Rata-rata adalah nilai tengah dari suatu set data. Ini dihitung dengan menjumlahkan semua nilai dalam dataset dan kemudian membaginya dengan jumlah total data.

  $\text{{Mean}} = \frac{1}{n} \sum_{i=1}^{n} y_i$

2.  Standard Deviation (Deviasi Standar)

  Deviasi standar mengukur seberapa tersebar atau jauh nilai-nilai individu dalam dataset dari nilai rata-ratanya.

  $\text{{Standard Deviation}} = \sqrt{\frac{1}{n} \sum_{i=1}^{n} (y_i - \text{{Mean}})^2}$

3. Median

  Median adalah nilai tengah dari suatu set data yang telah diurutkan. Jika jumlah elemen dalam dataset ganjil, median adalah nilai di tengah. Jika genap, median adalah rata-rata dari dua nilai tengah.

  $\text{{Median}} = \begin{cases}
      y_{(\frac{n}{2})} & \text{{if }} n \text{{ is odd}} \\
      \frac{1}{2} (y_{(\frac{n}{2})} + y_{(\frac{n}{2} + 1)}) & \text{{if }} n \text{{ is even}}
   \end{cases}$

4. Skewness

  Skewness mengukur sejauh mana distribusi data miring dari simetri. Nilai skewness positif menunjukkan ekor distribusi yang lebih panjang di sebelah kanan, sedangkan nilai negatif menunjukkan ekor distribusi yang lebih panjang di sebelah kiri.

  $\text{{Skewness}} = \frac{\frac{1}{n} \sum_{i=1}^{n} (y_i - \text{{Mean}})^3}{\left(\frac{1}{n} \sum_{i=1}^{n} (y_i - \text{{Mean}})^2\right)^{3/2}}$

5. Kurtosis

  Kurtosis mengukur tingkat kecuraman (tumpukan atau landasan) distribusi data. Kurtosis tinggi menunjukkan distribusi yang lebih fokus di sekitar rata-rata, sementara kurtosis rendah menunjukkan distribusi yang lebih datar. Kurtosis dibandingkan dengan kurtosis distribusi normal standar yang memiliki nilai 3.

  $\text{{Kurtosis}} = \frac{\frac{1}{n} \sum_{i=1}^{n} (y_i - \text{{Mean}})^4}{\left(\frac{1}{n} \sum_{i=1}^{n} (y_i - \text{{Mean}})^2\right)^2} - 3$

6. Zero Crossing Rate (ZCR):

  Definisi: Nilai ini mengukur seberapa sering sinyal melintasi nilai nol per detik.

  **Rumus:**
  
  * zcr_mean: Nilai rata-rata ZCR.
  * zcr_median: Nilai median ZCR.
  * zcr_std_dev: Deviasi standar dari ZCR.
  * zcr_kurtosis: Kurtosis dari distribusi ZCR.
  * zcr_skew: Skewness dari distribusi ZCR.
  
7. Root Mean Square Error (RMSE):

  Definisi: RMSE mengukur rata-rata perbedaan antara nilai aktual dan nilai yang diprediksi (dalam hal ini, amplitudo sinyal audio).

  **Rumus:**

  * rmse: Nilai RMSE dari sinyal.
  * rmse_median: Nilai median dari RMSE.
  * rmse_std_dev: Deviasi standar dari RMSE.
  * rmse_kurtosis: Kurtosis dari distribusi RMSE.
  * rmse_skew: Skewness dari distribusi RMSE.

In [None]:
# Membuat DataFrame untuk menyimpan hasil
data =[]

In [None]:
# Loop melalui setiap folder dan file audio
for folder in folders:
    folder_path = f'{folder}'
    for filename in os.listdir(folder_path):
        if filename.endswith('.wav'):
            audio_path = os.path.join(folder_path,filename)
            statistics = calculate_statistics(audio_path)
            data.append([folder] + statistics)

In [None]:
columns =  ['Label']+['ZCR Mean', 'ZCR Median', 'ZCR Std Dev', 'ZCR Kurtosis', 'ZCR Skew', 'RMSE', 'RMSE Median', 'RMSE Std Dev', 'RMSE Kurtosis', 'RMSE Skew']
df = pd.DataFrame(data, columns=columns)

In [None]:
# Menampilkan file CSV
df

Unnamed: 0,Label,ZCR Mean,ZCR Median,ZCR Std Dev,ZCR Kurtosis,ZCR Skew,RMSE,RMSE Median,RMSE Std Dev,RMSE Kurtosis,RMSE Skew
0,YAF_sad,0.145458,0.039062,0.222568,2.644984,1.998682,0.001655,0.000307,0.003687,29.393375,4.660486
1,YAF_sad,0.196274,0.042480,0.259866,-0.207301,1.226778,0.001627,0.000214,0.003552,22.894698,4.177756
2,YAF_sad,0.128581,0.033203,0.225249,3.231511,2.213080,0.001907,0.000391,0.004361,28.695116,4.718993
3,YAF_sad,0.111230,0.036133,0.196220,5.189765,2.569729,0.001619,0.000294,0.003666,26.103527,4.546180
4,YAF_sad,0.088867,0.030762,0.161043,8.414602,3.064056,0.001836,0.000250,0.003924,22.282664,4.025324
...,...,...,...,...,...,...,...,...,...,...,...
2805,OAF_angry,0.091178,0.056641,0.095232,3.792407,2.118152,0.002616,0.000172,0.006303,25.905966,4.368947
2806,OAF_angry,0.085005,0.059082,0.090037,5.366187,2.422199,0.001496,0.000135,0.004290,31.532767,5.091522
2807,OAF_angry,0.074580,0.048340,0.098578,7.797457,2.908089,0.002085,0.000142,0.005027,26.139703,4.373508
2808,OAF_angry,0.083991,0.051270,0.091742,7.208814,2.744011,0.003030,0.000291,0.006712,21.150835,3.983283


In [None]:
# Menyimpan DataFrame ke dalam file CSV
df.to_csv('hasil_statistik_audio.csv', index=False)

## PREPROCESSING MENGGUNAKAN ZSCORE

Normalisasi menggunakan Z-score atau biasa disebut Standarisasi yaitu merupakan teknik untuk mengubah nilai dalam data sehingga memiliki rata-rata 0 dan standar deviasi 1. Standarisasi membantu dalam mengubah distribusi data menjadi distribusi normal dan membandingkan variabel-variabel dengan unit yang berbeda.


Z-Score Scalling digunakan untuk mengubah nilai dalam data dengan mengukur sejauh mana nilai dari rata-rata dalam satuan standar deviasinya.
Z-score dihitung menggunakan rumus berikut:

$Z = \frac{(X - \mu)}{\sigma}$

 dimana :


*   (Z) : adalah Z-score,
*   (X) : adalah nilai titik data,
*   $(\mu) \text{ adalah rata-rata populasi, }$
*   $( \sigma)\text{ adalah standar deviasi populasi}$


Z-score menyediakan cara untuk mengukur seberapa ekstrim atau umum suatu nilai dalam distribusi data. Interpretasi Z-score sebagai berikut:

- Jika Z-score positif, titik data berada di atas rata-rata populasi.
- Jika Z-score negatif, titik data berada di bawah rata-rata populasi.
- Nilai Z-score nol menunjukkan bahwa titik data sama dengan rata-rata populasi.

In [None]:
from sklearn.preprocessing import StandardScaler

In [None]:
# Baca file CSV
norm = pd.read_csv("hasil_statistik_audio.csv")

In [None]:
# Tentukan kolom yang akan distandarisasi
kolom = ['ZCR Mean', 'ZCR Median', 'ZCR Std Dev', 'ZCR Kurtosis', 'ZCR Skew', 'RMSE', 'RMSE Median', 'RMSE Std Dev', 'RMSE Kurtosis', 'RMSE Skew']


In [None]:
# Inisialisasi StandardScaler
scaler = StandardScaler()
# Lakukan standarisasi pada kolom yang telah ditentukan
norm[kolom] = scaler.fit_transform(norm[kolom])
# Simpan DataFrame yang telah distandarisasi ke dalam file CSV baru
norm.to_csv("normalisasi.csv", index=False)

**SIMPAN MODEL NORMALISASI**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.neighbors import KNeighborsClassifier
from pickle import dump

In [None]:
# Baca data dari file CSV
dataknn= pd.read_csv('hasil_statistik_audio.csv')
# Pisahkan fitur (X) dan label (y)
X = dataknn.drop(['Label'], axis=1)  # Ganti 'target_column' dengan nama kolom target
y = dataknn['Label']
# split data into train and test sets
X_train,X_test,y_train, y_test= train_test_split(X, y, random_state=1, test_size=0.2)
# define scaler
scaler = StandardScaler()
# fit scaler on the training dataset
scaler.fit(X_train)
# save the scaler
dump(scaler, open('scaler.pkl', 'wb'))
# transform the training dataset
X_train_scaled = scaler.transform(X_train)
X_test_scaled = scaler.transform(X_test)

In [None]:
import pickle
with open('scaler.pkl', 'rb') as standarisasi:
    loadscal= pickle.load(standarisasi)

In [None]:
X_test_scaled=loadscal.transform(X_test) #normalisasi X testing dari hasil normalisasi X train yang disimpan dalam model


## PEMODELAN DENGAN KNN TANPA PCA

**K-Nearest Neighbors (KNN)** adalah algoritma pembelajaran mesin yang digunakan untuk tugas klasifikasi dan regresi. Algoritma ini merupakan salah satu metode pembelajaran mesin yang termasuk dalam kategori pembelajaran berbasis instan (instance-based learning) atau pembelajaran berbasis data.

Klasifikasi dengan KNN:
Dalam konteks klasifikasi, KNN bekerja dengan cara sebagai berikut:

* Penentuan Tetangga Terdekat: Mengukur jarak antara data baru (poin uji) dengan semua titik data latih.perhitungan jarak antara data baru (poin uji) dengan titik-titik data latih merupakan komponen penting dari algoritma K-Nearest Neighbors (KNN). Biasanya, metrik jarak yang digunakan dalam KNN adalah Euclidean distance, meskipun metrik lain seperti Manhattan distance atau Minkowski distance juga bisa digunakan tergantung pada kebutuhan. Berikut merupakan penjelasan terkait jarak Euclidean antara dua vektor (\(x\) dan \(y\)) dalam ruang berdimensi \(n\) dihitung sebagai akar kuadrat dari jumlah kuadrat perbedaan antara setiap elemen:

Euclidean Distance = $\sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$

* Pemilihan K Tetangga Terdekat: Memilih K tetangga terdekat dari data baru berdasarkan jarak.
* Voting atau Weighted Voting: Menentukan label atau nilai target untuk data baru dengan melihat mayoritas kelas dari K tetangga terdekat. Dalam beberapa implementasi, bobot dapat diterapkan pada voting berdasarkan jarak.

**Rumus:**

$\hat{y} = \text{majority}(\{y_i \,|\, (x_i, y_i) \in \text{k-nearest neighbors of } x\})$


Dimana:

- $\hat{y}$ adalah prediksi kelas untuk data baru.
- $\text{majority}$ mengacu pada proses pemilihan mayoritas kelas dari K tetangga terdekat.
- $\{y_i | (x_i, y_i) \in \text{k-nearest neighbors of } x\}$ adalah himpunan dari label kelas dari K tetangga terdekat dari data baru (x).
- K tetangga terdekat dipilih berdasarkan jarak dari data baru.

Rumus ini memperlihatkan bahwa dalam KNN, prediksi kelas untuk data baru diambil dari mayoritas kelas dari K tetangga terdekatnya. Jika kelas mayoritas dari tetangga terdekat adalah kelas 'A', maka data baru akan diprediksi sebagai kelas 'A'.

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix

In [None]:
#untuk cek jumlah K terbaik
K = 50
acc = np.zeros((K-1))

for n in range(1,K,2):
    knn = KNeighborsClassifier(n_neighbors= n, metric = "euclidean").fit(X_train_scaled, y_train)
    y_pred = knn.predict(X_test_scaled)

    acc[n-1]= accuracy_score(y_test,y_pred)

print('akurasi terbaik adalah ', acc.max(), 'dengan nilai k =', acc.argmax()+1)

akurasi terbaik adalah  0.7153024911032029 dengan nilai k = 11


In [None]:
knn = KNeighborsClassifier(n_neighbors= 11, metric = "euclidean")
#dump(knn, open('modelknn.pkl', 'wb'))


In [None]:
#import pickle
#with open('modelknn.pkl', 'rb') as knn:
 #   loadknn= pickle.load(knn)
knn.fit(X_train_scaled, y_train)

In [None]:
y_pred = knn.predict(X_test_scaled)
y_pred

array(['YAF_fear', 'YAF_pleasant_surprised', 'YAF_angry', 'YAF_fear',
       'YAF_fear', 'OAF_happy', 'OAF_disgust', 'YAF_sad', 'OAF_happy',
       'OAF_neutral', 'YAF_happy', 'YAF_pleasant_surprised', 'YAF_angry',
       'OAF_happy', 'YAF_angry', 'YAF_pleasant_surprised', 'OAF_happy',
       'YAF_neutral', 'YAF_fear', 'YAF_disgust', 'YAF_disgust',
       'OAF_neutral', 'YAF_neutral', 'OAF_Fear', 'YAF_sad', 'OAF_disgust',
       'OAF_Pleasant_surprise', 'OAF_disgust', 'YAF_pleasant_surprised',
       'YAF_angry', 'YAF_happy', 'OAF_neutral', 'OAF_neutral', 'OAF_Fear',
       'YAF_disgust', 'OAF_Pleasant_surprise', 'OAF_Pleasant_surprise',
       'OAF_neutral', 'YAF_neutral', 'YAF_neutral', 'OAF_happy',
       'OAF_disgust', 'YAF_neutral', 'OAF_Fear', 'OAF_Fear',
       'YAF_disgust', 'YAF_sad', 'OAF_Pleasant_surprise', 'YAF_disgust',
       'OAF_neutral', 'OAF_disgust', 'OAF_disgust', 'YAF_disgust',
       'YAF_fear', 'YAF_pleasant_surprised', 'OAF_Sad',
       'OAF_Pleasant_surprise', 

In [None]:
accuracy = accuracy_score(y_test,y_pred)
print("Akurasi:",accuracy)

Akurasi: 0.7153024911032029


In [None]:
dump(knn, open('knn.pkl', 'wb')) #simpan model knn tanpa pca

## REDUKSI DATA DENGAN PCA

Principal Component Analysis (PCA) adalah suatu metode statistik yang digunakan untuk mengidentifikasi pola dalam data multivariat dengan mereduksi dimensi variabel. PCA mencoba untuk mengekspresikan data dalam bentuk kombinasi linear dari variabel-variabel yang ada sehingga menjadi dimensi baru, yang disebut principal components dimana menggambarkan variasi data dengan baik. Berikut adalah rumus PCA dan penjelasannya:

1. **Hitung Matriks Kovarian:**

   $ \text{Cov}(\mathbf{X}) = \frac{1}{n-1} \sum_{i=1}^{n} (\mathbf{X}_i - \bar{\mathbf{X}})(\mathbf{X}_i - \bar{\mathbf{X}})^T $

    di mana:


  *   $\mathbf{X}_i \text{ adalah vektor data poin ke-i,}$
  *   $\bar{\mathbf{X}} \text{ adalah vektor rata-rata dari semua data,}$
  *   $n \text{ adalah jumlah data poin.} $

2. **Hitung Nilai dan Vektor Eigen:** Menghitung nilai eigen (λ) dan vektor eigen (v) dari matriks kovarian.

   $ \text{Cov}(\mathbf{X})\mathbf{v} = \lambda\mathbf{v} $

3. **Pilih Principal Components:** Principal components dipilih berdasarkan nilai eigen tertinggi. Misalnya, jika kita ingin mereduksi dimensi menjadi k, kita memilih k vektor eigen dengan nilai eigen tertinggi.

4. **Transformasi Data:** Data asli (X) dapat diproyeksikan ke dalam ruang yang baru (Y) yang terdiri dari principal components yang dipilih.

   $ \mathbf{Y} = \mathbf{X} \mathbf{V} $

    di mana:

*   (Y) : matriks yang berisi data yang telah diproyeksikan ke dalam ruang principal components,
*   (X) : matriks data asli,
*   (V) : matriks yang berisi vektor eigen sebagai kolom-kolomnya.

In [None]:
from sklearn.decomposition import PCA

In [None]:
pca = PCA(n_components=8)
pca_train = pca.fit_transform(X_train_scaled)
type(pca_train)


numpy.ndarray

pca = PCA(n_components=8): yaitu membuat objek PCA dengan menyertakan
parameter `n_components=8`. `n_components` adalah jumlah komponen utama (principal components) yang ingin dipertahankan setelah reduksi dimensi. Dalam hal ini akan digunakan 8 komponen utama.


pca_train = pca.fit_transform(X_train_scaled): dimana menggunakan objek PCA yang telah dibuat (`pca`) untuk melakukan reduksi dimensi pada data latih (`X_train_scaled`).`fit_transform` digunakan untuk menghitung komponen utama dan mengubah data latih ke dalam ruang dimensi yang baru.Kemudian Hasilnya disimpan dalam variabel `pca_train`.

data latih (`X_train_scaled`) sudah dinormalisasi sebelumnya (dengan menggunakan z-score normalization), dan PCA digunakan untuk menghasilkan representasi data yang lebih ringkas dengan hanya menggunakan 8 komponen utama.

In [None]:
pca_train.shape #untuk mengetahui tentang jumlah baris dan kolom dari data hasil PCA pada data uji.

(2248, 8)

In [None]:
#type(pca_test)

In [None]:
pca_test.shape #untuk mengetahui tentang jumlah baris dan kolom dari data hasil transformasi PCA pada data latih.

(562, 8)

In [None]:
dump(pca, open('PCA_8.pkl', 'wb')) #simpan pca

In [None]:
import pickle
with open('PCA_8.pkl', 'rb') as pca:
    loadpca= pickle.load(pca)

In [None]:
pca_test = loadpca.transform(X_test_scaled) #untuk mentransformasi data uji menjadi ruang fitur baru yang dibentuk oleh komponen-komponen PCA
pca_test.shape

(562, 8)

## PEMODELAN DENGAN KKN MENGGUNAKAN PCA

**K-Nearest Neighbors (KNN)** adalah algoritma pembelajaran mesin yang digunakan untuk tugas klasifikasi dan regresi. Algoritma ini merupakan salah satu metode pembelajaran mesin yang termasuk dalam kategori pembelajaran berbasis instan (instance-based learning) atau pembelajaran berbasis data.

Klasifikasi dengan KNN:
Dalam konteks klasifikasi, KNN bekerja dengan cara sebagai berikut:

* Penentuan Tetangga Terdekat: Mengukur jarak antara data baru (poin uji) dengan semua titik data latih.perhitungan jarak antara data baru (poin uji) dengan titik-titik data latih merupakan komponen penting dari algoritma K-Nearest Neighbors (KNN). Biasanya, metrik jarak yang digunakan dalam KNN adalah Euclidean distance, meskipun metrik lain seperti Manhattan distance atau Minkowski distance juga bisa digunakan tergantung pada kebutuhan. Berikut merupakan penjelasan terkait jarak Euclidean antara dua vektor (\(x\) dan \(y\)) dalam ruang berdimensi \(n\) dihitung sebagai akar kuadrat dari jumlah kuadrat perbedaan antara setiap elemen:

$\text{Euclidean Distance} = \sqrt{\sum_{i=1}^{n} (x_i - y_i)^2}$

* Pemilihan K Tetangga Terdekat: Memilih K tetangga terdekat dari data baru berdasarkan jarak.
* Voting atau Weighted Voting: Menentukan label atau nilai target untuk data baru dengan melihat mayoritas kelas dari K tetangga terdekat. Dalam beberapa implementasi, bobot dapat diterapkan pada voting berdasarkan jarak.

**Rumus:**

$\hat{y} = \text{majority}(\{y_i \,|\, (x_i, y_i) \in \text{k-nearest neighbors of } x\})$


Dimana:

- $\hat{y}$ adalah prediksi kelas untuk data baru.
- $\text{majority}$ mengacu pada proses pemilihan mayoritas kelas dari K tetangga terdekat.
- $\{y_i | (x_i, y_i) \in \text{k-nearest neighbors of } x\}$ adalah himpunan dari label kelas dari K tetangga terdekat dari data baru (x).
- K tetangga terdekat dipilih berdasarkan jarak dari data baru.

Rumus ini memperlihatkan bahwa dalam KNN, prediksi kelas untuk data baru diambil dari mayoritas kelas dari K tetangga terdekatnya. Jika kelas mayoritas dari tetangga terdekat adalah kelas 'A', maka data baru akan diprediksi sebagai kelas 'A'.



In [None]:
from sklearn.neighbors import KNeighborsClassifier
classifier = KNeighborsClassifier(n_neighbors=11)
classifier.fit(pca_train, y_train)

In [None]:
y_prediksi = classifier.predict(pca_test)
y_prediksi

array(['YAF_fear', 'YAF_pleasant_surprised', 'YAF_angry', 'YAF_fear',
       'YAF_fear', 'OAF_happy', 'OAF_disgust', 'YAF_sad', 'OAF_happy',
       'OAF_neutral', 'YAF_happy', 'YAF_pleasant_surprised', 'YAF_angry',
       'OAF_happy', 'YAF_angry', 'YAF_pleasant_surprised', 'OAF_happy',
       'YAF_neutral', 'YAF_fear', 'YAF_disgust', 'YAF_disgust',
       'OAF_neutral', 'YAF_neutral', 'OAF_Fear', 'YAF_sad', 'OAF_disgust',
       'OAF_Pleasant_surprise', 'OAF_disgust', 'YAF_pleasant_surprised',
       'YAF_angry', 'YAF_happy', 'OAF_neutral', 'OAF_neutral', 'OAF_Fear',
       'YAF_disgust', 'OAF_Pleasant_surprise', 'OAF_Pleasant_surprise',
       'OAF_neutral', 'YAF_neutral', 'YAF_neutral', 'OAF_happy',
       'OAF_disgust', 'YAF_neutral', 'OAF_Fear', 'OAF_Fear',
       'YAF_disgust', 'YAF_sad', 'OAF_Pleasant_surprise', 'YAF_disgust',
       'OAF_neutral', 'OAF_disgust', 'OAF_disgust', 'YAF_disgust',
       'YAF_fear', 'YAF_pleasant_surprised', 'OAF_Sad',
       'OAF_Pleasant_surprise', 

In [None]:
acc_pca= accuracy_score(y_test,y_prediksi)
print("Akurasi:",acc_pca)
#Akurasi: 0.7153024911032029

Akurasi: 0.7170818505338078


In [None]:
dump(classifier,open('pcaknn.pkl','wb')) #simpan model kkn

## UJI COBA MENGGUNAKAN STREAMLIT

Link Streamlit dapat diakses pada : [Klasifikasi Emosi](https://klasifikasi-emosi.streamlit.app/)