# **DATA AUDIO 2810**

### **DESKRIPSI DAN INFORMASI DATASET**

**DATASET DIAMBIL DARI WEBSITE KAGGLE**

https://www.kaggle.com/datasets/ejlok1/toronto-emotional-speech-set-tess?resource=download

**BUSINESS UNDERSTANDING - TUJUAN**

Dataset ini bertujuan untuk memberikan bahan yang kaya dan bervariasi bagi peneliti atau praktisi dalam bidang pemrosesan suara dan analisis emosi untuk mengembangkan dan menguji model-model yang dapat mengenali dan memahami ekspresi emosi manusia berdasarkan sinyal audio.

**DATA UNDERSTANDING - INFORMASI FITUR**

Dataset audio yang digunakan untuk pengolahan ini terdiri dari 2810 rekaman suara manusia yang terstruktur dengan rapi dalam beberapa folder, mewakili berbagai ekspresi emosi manusia. Setiap folder menggambarkan kategori emosi tertentu, termasuk 'sad' (sedih), 'pleasant_surprised' (senang terkejut), 'neutral' (netral), 'happy' (bahagia), 'fear' (takut), 'disgust' (jijik), dan 'angry' (marah). Masing-masing folder ini mencakup variasi suara manusia yang berbeda, menciptakan keberagaman dalam ekspresi emosi.

Setiap rekaman audio dalam dataset ini memiliki berbagai fitur yang diekstrak dari sinyal audio. Fitur-fitur ini memberikan wawasan tentang karakteristik dan statistik sinyal audio, membantu dalam pemahaman dan pemodelan ekspresi emosi. Beberapa fitur utama yang diekstrak melibatkan Zero Crossing Rate (ZCR) dan Root Mean Square Error (RMSE). Berikut adalah penjelasan singkat untuk masing-masing fitur :

- Zero Crossing Rate (ZCR) :

    - ZCR Mean : Rata-rata tingkat perubahan tanda nol dalam sinyal audio.

    - ZCR Median : Nilai tengah dari tingkat perubahan tanda nol.

    - ZCR Std Dev : Deviasi standar dari tingkat perubahan tanda nol.

    - ZCR Kurtosis : Ukuran keruncingan distribusi tingkat perubahan tanda nol.

    - ZCR Skew : Ukuran kemiringan distribusi tingkat perubahan tanda nol.

- Root Mean Square Error (RMSE) :

    - RMSE : Akar kuadrat dari rata-rata dari kuadrat perbedaan antara nilai-nilai aktual dan nilai-nilai yang diprediksi.

    - RMSE Median : Nilai tengah dari distribusi RMSE.

    - RMSE Std Dev : Deviasi standar dari distribusi RMSE.

    - RMSE Kurtosis : Ukuran keruncingan distribusi RMSE.

    - RMSE Skew : Ukuran kemiringan distribusi RMSE.

Label untuk setiap rekaman audio diambil dari nama folder tempat rekaman tersebut disimpan, mencerminkan kategori emosi yang tercermin dalam rekaman tersebut.

### **ZERO CROSSING RATE**

In [1]:
# import library
from google.colab import drive
import os
import librosa
import numpy as np
import pandas as pd
from scipy.stats import skew, kurtosis, mode

In [2]:
# mount Google Drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
%cd /content/drive/MyDrive/psdd/alldataaudio/

/content/drive/MyDrive/psdd/alldataaudio


In [4]:
folders=['YAF_sad','YAF_pleasant_surprised','YAF_neutral',
         'YAF_happy','YAF_fear','YAF_disgust','YAF_angry',
         'OAF_Sad','OAF_Pleasant_surprise','OAF_neutral',
         'OAF_happy','OAF_Fear','OAF_disgust',
         'OAF_angry',
         ]

In [5]:
def calculate_statistics(audio_path):
    y, sr = librosa.load(audio_path)

    # untuk menghitung nilai statistika
    mean = np.mean(y)
    std_dev = np.std(y)
    max_value = np.max(y)
    min_value = np.min(y)
    median = np.median(y)
    skewness = skew(y)  # calculate skewness
    kurt = kurtosis(y)  # calculate kurtosis
    q1 = np.percentile(y, 25)
    q3 = np.percentile(y, 75)
    mode_value, _ = mode(y)  # calculate mode
    iqr = q3 - q1

    # untuk menghitung nilai zcr
    zcr_mean = np.mean(librosa.feature.zero_crossing_rate(y=y))
    zcr_median = np.median(librosa.feature.zero_crossing_rate(y=y))
    zcr_std_dev = np.std(librosa.feature.zero_crossing_rate(y=y))
    zcr_kurtosis = kurtosis(librosa.feature.zero_crossing_rate(y=y)[0])
    zcr_skew = skew(librosa.feature.zero_crossing_rate(y=y)[0])

    # untuk menghitung nilai rmse
    rmse = np.sum(y**2) / len(y)
    rmse_median = np.median(y**2)
    rmse_std_dev = np.std(y**2)
    rmse_kurtosis = kurtosis(y**2)
    rmse_skew = skew(y**2)

    return [zcr_mean, zcr_median, zcr_std_dev, zcr_kurtosis, zcr_skew, rmse, rmse_median, rmse_std_dev, rmse_kurtosis, rmse_skew]

In [6]:
features =[]

In [7]:
for folder in folders:
    folder_path = f'{folder}'
    for filename in os.listdir(folder_path):
        if filename.endswith('.wav'):
            audio_path = os.path.join(folder_path, filename)
            statistics = calculate_statistics(audio_path)
            features.append([folder] + statistics)

In [8]:
# membuat dataframe dari data
columns =  ['Label'] + ['ZCR Mean', 'ZCR Median', 'ZCR Std Dev', 'ZCR Kurtosis', 'ZCR Skew', 'RMSE', 'RMSE Median', 'RMSE Std Dev', 'RMSE Kurtosis', 'RMSE Skew']
df = pd.DataFrame(features, columns=columns)

In [9]:
# menampilkan file csv
df

Unnamed: 0,Label,ZCR Mean,ZCR Median,ZCR Std Dev,ZCR Kurtosis,ZCR Skew,RMSE,RMSE Median,RMSE Std Dev,RMSE Kurtosis,RMSE Skew
0,YAF_sad,0.201049,0.054199,0.246854,-0.394940,1.095446,0.001920,0.000288,0.004052,18.925496,3.885113
1,YAF_sad,0.182617,0.046875,0.245189,0.037876,1.320627,0.002526,0.000275,0.005935,28.021587,4.589746
2,YAF_sad,0.139663,0.043457,0.195694,3.512925,2.150804,0.001961,0.000211,0.004304,15.477900,3.595385
3,YAF_sad,0.130381,0.031982,0.223911,3.041670,2.149263,0.001512,0.000326,0.003228,25.953508,4.361503
4,YAF_sad,0.134169,0.035645,0.214915,3.056344,2.109584,0.002098,0.000401,0.004363,20.997073,4.031322
...,...,...,...,...,...,...,...,...,...,...,...
2805,OAF_angry,0.086841,0.049805,0.112346,5.806209,2.636295,0.002737,0.000157,0.007432,36.356886,5.146689
2806,OAF_angry,0.139003,0.085449,0.121679,1.753519,1.647977,0.002644,0.000280,0.006520,23.247692,4.383268
2807,OAF_angry,0.150664,0.085938,0.151976,1.753957,1.715083,0.000950,0.000081,0.002327,34.368208,4.887910
2808,OAF_angry,0.079896,0.051270,0.094507,6.424877,2.737054,0.002780,0.000238,0.005903,17.489979,3.611583


In [10]:
df.to_csv('dataaudiobaru.csv',index=False)

### **PRE-PROCESSING**

**DATA PRE-PROCESSING**

- Pembersihan Data:

  Tidak ada nilai yang hilang, sehingga tidak perlu tindakan pembersihan data untuk missing value.

- Normalisasi atau Standarisasi:

  Melakukan normalisasi atau standarisasi pada fitur-fitur yang mungkin memiliki skala yang berbeda untuk memastikan konsistensi dalam pengukuran.

- Pembagian Data:

  Membagi dataset menjadi set pelatihan (train set) dan set pengujian (test set) untuk melatih dan menguji model.

**NORMALISASI SETELAH SPLIT DATA DAN MENYIMPAN NORMALISASI DALAM BENTUK MODEL**

Normalisasi adalah proses mengubah nilai-nilai dalam dataset ke dalam skala yang seragam tanpa mengubah struktur relatif di antara nilai-nilai tersebut. Hal ini umumnya dilakukan untuk menghindari perbedaan skala yang besar antara fitur-fitur (kolom-kolom) dalam dataset, yang dapat menyebabkan model machine learning menjadi tidak stabil dan mempengaruhi kinerjanya. Proses normalisasi yang digunakan pada data latih dalam kode ini adalah menggunakan StandardScaler. Hasil normalisasi dari data latih disimpan di dalam file "scaler.pkl" menggunakan modul pickle. Selanjutnya, saat akan melakukan normalisasi data uji, scaler yang telah disimpan tadi di-load kembali menggunakan pickle, dan data uji dinormalisasi menggunakan scaler yang telah di-load. Hasil normalisasi data uji kemudian ditampilkan dalam bentuk DataFrame.

Beberapa metode normalisasi umum termasuk Min-Max Scaling dan Z-core Standardization :

- **Min-Max Scaling**

  Formula :

        Xscaled = X - Xmin / Xmax - Xmin

  Penjelasan :

  - Menyebabkan nilai-nilai dalam dataset berada dalam rentang [0, 1].
  - Cocok untuk data yang memiliki distribusi seragam.

- **Z-score Standardization**

  Formula :
        
        Z = X - μ / σ

  Penjelasan :

  - Menyebabkan nilai-nilai dalam dataset memiliki rata-rata (μ) 0 dan deviasi standar (σ) 1.
  - Cocok untuk data yang memiliki distribusi normal atau mendekati distribusi normal.

In [11]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from pickle import dump

In [12]:
# baca data dari file csv
dataknn= pd.read_csv('dataaudiobaru.csv')

# pisahkan fitur (x) dan label (y)
X = dataknn.drop(['Label'], axis=1)  # ganti 'target_column' dengan nama kolom target
y = dataknn['Label']

# split data into train and test sets
X_train,X_test,y_train, y_test= train_test_split(X, y, random_state=1, test_size=0.2)

# define scaler
scaler = StandardScaler()

# fit scaler on the training dataset
scaler.fit(X_train)

# save the scaler
dump(scaler, open('scalerbaru.pkl', 'wb'))

# transform the training dataset
X_train_scaled = scaler.transform(X_train)

dataknn

Unnamed: 0,Label,ZCR Mean,ZCR Median,ZCR Std Dev,ZCR Kurtosis,ZCR Skew,RMSE,RMSE Median,RMSE Std Dev,RMSE Kurtosis,RMSE Skew
0,YAF_sad,0.201049,0.054199,0.246854,-0.394940,1.095446,0.001920,0.000288,0.004052,18.925496,3.885113
1,YAF_sad,0.182617,0.046875,0.245189,0.037876,1.320627,0.002526,0.000275,0.005935,28.021587,4.589746
2,YAF_sad,0.139663,0.043457,0.195694,3.512925,2.150804,0.001961,0.000211,0.004304,15.477900,3.595385
3,YAF_sad,0.130381,0.031982,0.223911,3.041670,2.149263,0.001512,0.000326,0.003228,25.953508,4.361503
4,YAF_sad,0.134169,0.035645,0.214915,3.056344,2.109584,0.002098,0.000401,0.004363,20.997073,4.031322
...,...,...,...,...,...,...,...,...,...,...,...
2805,OAF_angry,0.086841,0.049805,0.112346,5.806209,2.636295,0.002737,0.000157,0.007432,36.356886,5.146689
2806,OAF_angry,0.139003,0.085449,0.121679,1.753519,1.647977,0.002644,0.000280,0.006520,23.247692,4.383268
2807,OAF_angry,0.150664,0.085938,0.151976,1.753957,1.715083,0.000950,0.000081,0.002327,34.368208,4.887910
2808,OAF_angry,0.079896,0.051270,0.094507,6.424877,2.737054,0.002780,0.000238,0.005903,17.489979,3.611583


In [13]:
import pickle
with open('scalerbaru.pkl', 'rb') as standarisasi:
    loadscal= pickle.load(standarisasi)

In [14]:
X_test_scaled=loadscal.transform(X_test) # normalisasi x testing dari hasil normalisasi x train yang disimpan dalam model

### **MODELING**

**KNN atau K-NEAREST NEIGHBORS**

K-Nearest Neighbors adalah salah satu algoritma dalam machine learning yang digunakan untuk klasifikasi dan regresi. Algoritma ini bekerja berdasarkan prinsip bahwa objek yang serupa cenderung berada dalam jarak yang dekat satu sama lain. Dengan kata lain, jika Anda ingin mengklasifikasikan atau memprediksi label suatu data yang baru, Anda dapat melihat pada sejumlah tetangga terdekatnya dan menentukan label berdasarkan mayoritas label dari tetangga-tetangga tersebut.

Berikut adalah langkah-langkah umum dalam algoritma KNN:

- Menentukan Parameter K :

  K adalah jumlah tetangga terdekat yang akan digunakan untuk menentukan label suatu data baru. Nilai K yang optimal bisa bervariasi tergantung pada data dan masalah spesifik.

- Menghitung Jarak :

  Menghitung jarak antara data baru dengan setiap data yang sudah ada dalam dataset. Beberapa metrik jarak yang umum digunakan adalah Euclidean distance, Manhattan distance, Minkowski distance, atau metrik khusus tergantung pada jenis data.

- Menentukan Tetangga Terdekat :

  Memilih K tetangga terdekat berdasarkan jarak yang dihitung sebelumnya.

- Menentukan Label :

  Untuk masalah klasifikasi, menentukan label mayoritas dari K tetangga tersebut. Misalnya, jika sebagian besar tetangga termasuk dalam kategori A, maka data baru juga diklasifikasikan sebagai kategori A.

- Menghasilkan Output :

  Menggunakan label mayoritas untuk memprediksi label data baru.

In [15]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import confusion_matrix
from sklearn.neighbors import KNeighborsClassifier

In [16]:
k = 100
acc = np.zeros((k-1))

for n in range(1,k,2):
    knn = KNeighborsClassifier(n_neighbors= n, metric = "euclidean").fit(X_train_scaled, y_train)
    y_pred = knn.predict(X_test_scaled)

    acc[n-1]= accuracy_score(y_test,y_pred)

print('akurasi terbaik adalah', acc.max(), 'dengan nilai k =', acc.argmax()+1)

akurasi terbaik adalah 0.7170818505338078 dengan nilai k = 13


In [17]:
knn = KNeighborsClassifier(n_neighbors= 13, metric = "euclidean")
dump(knn, open('modelknn.pkl', 'wb'))

In [18]:
import pickle
with open('modelknn.pkl', 'rb') as knn:
    loadknn= pickle.load(knn)
loadknn.fit(X_train_scaled, y_train)

In [19]:
y_pred = loadknn.predict(X_test_scaled)
y_pred

array(['YAF_sad', 'YAF_pleasant_surprised', 'YAF_fear', 'YAF_angry',
       'YAF_angry', 'OAF_disgust', 'OAF_Pleasant_surprise', 'YAF_sad',
       'OAF_disgust', 'OAF_neutral', 'YAF_angry', 'YAF_happy',
       'YAF_disgust', 'OAF_happy', 'YAF_angry', 'YAF_pleasant_surprised',
       'OAF_Fear', 'YAF_neutral', 'YAF_angry', 'YAF_disgust',
       'YAF_disgust', 'OAF_neutral', 'YAF_neutral',
       'OAF_Pleasant_surprise', 'YAF_sad', 'OAF_disgust', 'OAF_happy',
       'OAF_happy', 'YAF_pleasant_surprised', 'YAF_angry', 'YAF_happy',
       'OAF_happy', 'OAF_Sad', 'OAF_Fear', 'YAF_disgust', 'OAF_happy',
       'OAF_Pleasant_surprise', 'OAF_neutral', 'YAF_disgust',
       'YAF_neutral', 'OAF_disgust', 'OAF_Fear', 'YAF_neutral', 'OAF_Sad',
       'OAF_Fear', 'YAF_neutral', 'YAF_sad', 'OAF_Fear', 'YAF_disgust',
       'OAF_Sad', 'OAF_Sad', 'OAF_disgust', 'YAF_disgust',
       'YAF_pleasant_surprised', 'YAF_pleasant_surprised', 'OAF_disgust',
       'OAF_disgust', 'YAF_neutral', 'OAF_neutral', '

In [20]:
accuracy = accuracy_score(y_test,y_pred)
print("akurasi :",accuracy)

akurasi : 0.7170818505338078


**REDUKSI DATA - PCA atau PRINCIPAL COMPONENT ANALYSIS**

Principal Component Analysis, adalah suatu metode dalam statistika dan analisis data yang digunakan untuk mereduksi dimensi data. Reduksi dimensi bertujuan untuk mengurangi jumlah variabel (fitur) dalam suatu dataset sambil mempertahankan sebanyak mungkin informasi yang dapat dijelaskan oleh variabel asli. PCA mencoba untuk mengidentifikasi arah (komponen utama) yang paling penting dalam variasi data.

Berikut adalah langkah-langkah umum dalam PCA:

- Standarisasi Data :

  Memastikan bahwa semua variabel memiliki mean nol dan varians satu. Hal ini penting karena PCA sangat sensitif terhadap skala variabel.

- Menghitung Matriks Kovariansi :

  Matriks kovariansi digunakan untuk mengukur sejauh mana dua variabel bervariasi bersama. Matriks kovariansi mengukur hubungan linear antar variabel.

- Menghitung Vektor dan Nilai Eigen :

  Vektor eigen dan nilai eigen (eigenvalues) dari matriks kovariansi dihitung. Vektor eigen adalah vektor yang tidak berubah arah ketika hanya diperbesar atau diperkecil, dan nilai eigen mengukur jumlah variasi yang dijelaskan oleh vektor eigen tersebut.

- Pemilihan Komponen Utama :

  Komponen utama dipilih berdasarkan nilai eigen. Komponen utama adalah kombinasi linear dari variabel asli yang memiliki nilai eigen tertinggi dan memuat sebagian besar variasi data.

- Proyeksi Data :

  Data asli diproyeksikan ke ruang baru yang terdiri dari komponen utama yang dipilih. Ini menciptakan representasi baru dari data dengan dimensi yang lebih rendah.

In [21]:
from sklearn.decomposition import PCA as sklearnPCA

In [22]:
sklearn_pca = sklearnPCA(n_components=8)
X_train_pca = sklearn_pca.fit_transform(X_train_scaled)
type(X_train_pca)

numpy.ndarray

In [23]:
dump(sklearn_pca, open('PCA8.pkl', 'wb'))

In [24]:
import pickle
with open('PCA8.pkl', 'rb') as pca:
    loadpca = pickle.load(pca)

In [25]:
X_test_pca=loadpca.transform(X_test_scaled)
X_test_pca.shape

(562, 8)

In [26]:
from sklearn.neighbors import KNeighborsClassifier

In [27]:
classifier = KNeighborsClassifier(n_neighbors=15)
classifier.fit(X_train_pca, y_train)

In [28]:
y_prediksi = classifier.predict(X_test_pca)
y_prediksi

array(['YAF_sad', 'YAF_pleasant_surprised', 'YAF_fear', 'YAF_angry',
       'YAF_fear', 'OAF_disgust', 'OAF_Pleasant_surprise', 'YAF_sad',
       'OAF_disgust', 'OAF_neutral', 'YAF_happy', 'YAF_happy',
       'YAF_disgust', 'OAF_happy', 'YAF_angry', 'YAF_pleasant_surprised',
       'OAF_Fear', 'YAF_neutral', 'YAF_angry', 'YAF_disgust',
       'YAF_neutral', 'OAF_neutral', 'YAF_neutral',
       'OAF_Pleasant_surprise', 'YAF_sad', 'OAF_happy', 'OAF_happy',
       'OAF_happy', 'YAF_pleasant_surprised', 'YAF_angry', 'YAF_happy',
       'OAF_happy', 'OAF_Sad', 'OAF_Fear', 'YAF_disgust', 'OAF_happy',
       'OAF_Pleasant_surprise', 'OAF_neutral', 'YAF_disgust',
       'YAF_neutral', 'OAF_disgust', 'OAF_Fear', 'YAF_neutral', 'OAF_Sad',
       'OAF_Fear', 'YAF_neutral', 'YAF_sad', 'OAF_Fear', 'YAF_disgust',
       'OAF_Sad', 'OAF_Sad', 'OAF_disgust', 'YAF_disgust',
       'YAF_pleasant_surprised', 'YAF_pleasant_surprised', 'OAF_disgust',
       'OAF_disgust', 'YAF_neutral', 'OAF_neutral', 'OAF

In [29]:
acc_pca = accuracy_score(y_test,y_prediksi)
print("akurasi :",acc_pca)
# akurasi setelah di normalisasi (akurasi awal): 0.7170818505338078

akurasi : 0.6868327402135231
