In [None]:
!pip install librosa
!pip install pandas
!pip install -U scikit-learn

In [1]:
import pandas as pd
import numpy as np
import librosa
from sklearn.svm import SVC
from sklearn.svm import LinearSVC
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import MinMaxScaler
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from transformers import AutoTokenizer, AutoModel
from sklearn.pipeline import make_pipeline
import torch

  from .autonotebook import tqdm as notebook_tqdm


In [None]:
# Download training and test audios and CSV files
# Replace %INSERT_API% with the provided API key
!wget https://pln.inf.um.es/corpora/satispeech/2025/dataset/download/dev?api_key=b643f8de950cceb13283ce093f54e900 -O segments.zip
!wget https://pln.inf.um.es/corpora/satispeech/2025/SatiSPeech_phase_1_train_codalab.csv -O SatiSPeech_phase_1_train_codalab.csv
!wget https://pln.inf.um.es/corpora/satispeech/2025/SatiSPeech_phase_1_test_codalab.csv -O SatiSPeech_phase_1_test_codalab.csv


In [None]:
!mkdir dev_segments/
!unzip segments.zip -d dev_segments

In [2]:
# Read the CSV files
train_df = pd.read_csv("SatiSPeech_phase_1_train_codalab.csv")
test_df = pd.read_csv("SatiSPeech_phase_1_test_codalab.csv")
train_df

Unnamed: 0,id,label,transcription
0,3889a67c-6b948c2a.mp3,satire,"A veces no nos fijamos, parece que con darles ..."
1,aeb4e7f5-0b1d0ac6.mp3,satire,"Buenas noches, hoy en Documentos TV les ofrece..."
2,49e38957-8400221a.mp3,no-satire,El grupo de países sudamericanos UNASUR discut...
3,cbadf2d7-b8874b6d.mp3,no-satire,15 días le ha dado el juez Santiago Pedraz al ...
4,5dfe1dd7-9c90b9e2.mp3,no-satire,Hay un puñado de experimentos asignados a dife...
...,...,...,...
379,fa5e948b-3c26867e.mp3,no-satire,El gobierno de Ucrania dijo que continuará su ...
380,056d52aa-fae45a22.mp3,no-satire,Las reacciones a esta nueva tragedia no se han...
381,eeea6af3-83e94953.mp3,no-satire,Un equipo de científicos decodificó el ADN de ...
382,512b1051-5ef2d5f1.mp3,no-satire,"En el puesto número 2, una fiesta navideña en ..."


In [3]:
# Adding the path column to search for audios
train_df["path"] = train_df["id"].apply(lambda x: f"dev_segments/{x}")
test_df["path"] = test_df["id"].apply(lambda x: f"dev_segments/{x}")
train_df

Unnamed: 0,id,label,transcription,path
0,3889a67c-6b948c2a.mp3,satire,"A veces no nos fijamos, parece que con darles ...",dev_segments/3889a67c-6b948c2a.mp3
1,aeb4e7f5-0b1d0ac6.mp3,satire,"Buenas noches, hoy en Documentos TV les ofrece...",dev_segments/aeb4e7f5-0b1d0ac6.mp3
2,49e38957-8400221a.mp3,no-satire,El grupo de países sudamericanos UNASUR discut...,dev_segments/49e38957-8400221a.mp3
3,cbadf2d7-b8874b6d.mp3,no-satire,15 días le ha dado el juez Santiago Pedraz al ...,dev_segments/cbadf2d7-b8874b6d.mp3
4,5dfe1dd7-9c90b9e2.mp3,no-satire,Hay un puñado de experimentos asignados a dife...,dev_segments/5dfe1dd7-9c90b9e2.mp3
...,...,...,...,...
379,fa5e948b-3c26867e.mp3,no-satire,El gobierno de Ucrania dijo que continuará su ...,dev_segments/fa5e948b-3c26867e.mp3
380,056d52aa-fae45a22.mp3,no-satire,Las reacciones a esta nueva tragedia no se han...,dev_segments/056d52aa-fae45a22.mp3
381,eeea6af3-83e94953.mp3,no-satire,Un equipo de científicos decodificó el ADN de ...,dev_segments/eeea6af3-83e94953.mp3
382,512b1051-5ef2d5f1.mp3,no-satire,"En el puesto número 2, una fiesta navideña en ...",dev_segments/512b1051-5ef2d5f1.mp3


# EDA data

Text

In [4]:
import pandas as pd

# Đọc dữ liệu
train_df = pd.read_csv("SatiSPeech_phase_1_train_codalab.csv")
test_df = pd.read_csv("SatiSPeech_phase_1_test_codalab.csv")

# Kiểm tra 5 dòng đầu tiên
print(train_df.head())

# Kiểm tra thông tin cột
print(train_df.info())

# Kiểm tra số lượng giá trị thiếu
print(train_df.isnull().sum())

# Kiểm tra phân phối nhãn cảm xúc
print(train_df['label'].value_counts())


                      id      label  \
0  3889a67c-6b948c2a.mp3     satire   
1  aeb4e7f5-0b1d0ac6.mp3     satire   
2  49e38957-8400221a.mp3  no-satire   
3  cbadf2d7-b8874b6d.mp3  no-satire   
4  5dfe1dd7-9c90b9e2.mp3  no-satire   

                                       transcription  
0  A veces no nos fijamos, parece que con darles ...  
1  Buenas noches, hoy en Documentos TV les ofrece...  
2  El grupo de países sudamericanos UNASUR discut...  
3  15 días le ha dado el juez Santiago Pedraz al ...  
4  Hay un puñado de experimentos asignados a dife...  
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 384 entries, 0 to 383
Data columns (total 3 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             384 non-null    object
 1   label          384 non-null    object
 2   transcription  384 non-null    object
dtypes: object(3)
memory usage: 9.1+ KB
None
id               0
label            0
transcription    0
dtype: int64
l

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
# Tính số từ trong mỗi câu
train_df["text_length"] = train_df["transcription"].apply(lambda x: len(str(x).split()))

# Mô tả thống kê độ dài câu
print(train_df["text_length"].describe())

# Trực quan hóa
plt.figure(figsize=(10, 5))
sns.histplot(train_df["text_length"], bins=30, kde=True)
plt.xlabel("Số từ trong văn bản")
plt.ylabel("Số lượng")
plt.title("Phân phối độ dài văn bản")
plt.show()

In [None]:
# Read the datasets
train_df = pd.read_csv("SatiSPeech_phase_1_train_codalab.csv")

# Create plot
plt.figure(figsize=(10, 5))
sns.countplot(data=train_df, x='label')
plt.title("Distribution of Labels in Dataset")
plt.xlabel("Label")
plt.ylabel("Count")

# Add count labels on top of each bar
for i in plt.gca().containers:
    plt.gca().bar_label(i)

plt.show()

In [None]:
from collections import Counter
import nltk
from nltk.corpus import stopwords
from wordcloud import WordCloud


# Gộp toàn bộ văn bản
all_words = " ".join(train_df["transcription"]).lower().split()
#filtered_words = [word for word in all_words if word not in stop_words]

# Đếm tần suất từ
word_freq = Counter(all_words)

# Hiển thị 10 từ phổ biến nhất
print(word_freq.most_common(10))

# Vẽ Word Cloud
wordcloud = WordCloud(width=800, height=400, background_color='white').generate(" ".join(all_words))
plt.figure(figsize=(10, 5))
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()


Audio

In [None]:
# Adding the path column to search for audios
train_df["path"] = train_df["id"].apply(lambda x: f"dev_segments/{x}")
test_df["path"] = test_df["id"].apply(lambda x: f"dev_segments/{x}")
train_df

In [None]:
import librosa
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
# Hàm tính thời lượng audio
def get_audio_duration(file_path):
    y, sr = librosa.load(file_path, sr=None)
    return len(y) / sr

train_df["audio_duration"] = train_df["path"].apply(lambda x: get_audio_duration(x))

# Thống kê thời lượng
print(train_df["audio_duration"].describe())

# Vẽ biểu đồ
plt.figure(figsize=(10, 5))
sns.histplot(train_df["audio_duration"], bins=30, kde=True)
plt.xlabel("Thời gian (s)")
plt.ylabel("Số lượng")
plt.title("Phân phối thời gian của audio")
plt.show()


In [None]:
import librosa.display

# Load một file audio
sample_audio_path = train_df["path"].iloc[0]
y, sr = librosa.load(sample_audio_path, sr=None)

# Vẽ Waveform
plt.figure(figsize=(10, 4))
librosa.display.waveshow(y, sr=sr)
plt.xlabel("Thời gian (s)")
plt.ylabel("Biên độ")
plt.title("Waveform của audio mẫu")
plt.show()


In [None]:
# Chuyển đổi sang Spectrogram
D = librosa.amplitude_to_db(np.abs(librosa.stft(y)), ref=np.max)

# Vẽ Spectrogram
plt.figure(figsize=(10, 4))
librosa.display.specshow(D, sr=sr, x_axis="time", y_axis="log")
plt.colorbar(format="%+2.0f dB")
plt.title("Spectrogram của audio")
plt.show()


In [None]:
# Trích xuất MFCC
mfccs = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)

# Vẽ biểu đồ MFCC
plt.figure(figsize=(10, 4))
librosa.display.specshow(mfccs, sr=sr, x_axis="time")
plt.colorbar()
plt.title("MFCC của audio")
plt.show()


In [None]:
train_df["text_length"] = train_df["transcription"].apply(lambda x: len(str(x).split()))


plt.figure(figsize=(10, 5))
sns.boxplot(x="label", y="text_length", data=train_df)
plt.xlabel("Cảm xúc")
plt.ylabel("Số từ trong văn bản")
plt.title("Mối quan hệ giữa độ dài văn bản và cảm xúc")
plt.show()


Using Beto LLM to get vecto embedding and SVM

In [5]:
from huggingface_hub import login
login("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")


In [6]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("fill-mask", model="bertin-project/bertin-roberta-base-spanish")

2025-02-22 20:36:25.887990: I tensorflow/core/util/port.cc:153] oneDNN custom operations are on. You may see slightly different numerical results due to floating-point round-off errors from different computation orders. To turn them off, set the environment variable `TF_ENABLE_ONEDNN_OPTS=0`.
2025-02-22 20:36:25.931901: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:477] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
E0000 00:00:1740231385.959165    9376 cuda_dnn.cc:8310] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
E0000 00:00:1740231385.967188    9376 cuda_blas.cc:1418] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2025-02-22 20:36:26.010315: I tensorflow/core/platform/cpu_feature_guard.cc:210] This TensorFlow binary is optimized to use available CPU instr

In [7]:
# Load model directly
from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("bertin-project/bertin-roberta-base-spanish")
model = AutoModel.from_pretrained("bertin-project/bertin-roberta-base-spanish")

Some weights of RobertaModel were not initialized from the model checkpoint at bertin-project/bertin-roberta-base-spanish and are newly initialized: ['roberta.pooler.dense.bias', 'roberta.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [8]:
def get_beto_embeddings_batch(texts, batch_size=16):
    embeddings = []
    device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
    model.to(device)  # Move model to GPU
    
    for i in range(0, len(texts), batch_size):
        batch = texts[i:i + batch_size]
        # Tokenize văn bản theo lô
        inputs = tokenizer(batch, padding=True, truncation=True, return_tensors="pt", max_length=512)
        
        # Move inputs to GPU
        inputs = {k: v.to(device) for k, v in inputs.items()}

        # Lấy output từ mô hình
        with torch.no_grad():
            outputs = model(**inputs)

        # Lấy embedding của [CLS] token từ đầu ra và move to CPU for numpy conversion
        batch_embeddings = outputs.last_hidden_state[:, 0, :].cpu().numpy()
        embeddings.append(batch_embeddings)

    # Trả về kết quả tổng hợp của tất cả các lô
    return np.vstack(embeddings)

## Training models

# SVM which using kernel: RBF 

In [9]:
import os
os.environ["TOKENIZERS_PARALLELISM"] = "false"
train_embeddings = get_beto_embeddings_batch(train_df['transcription'].tolist())
test_embeddings = get_beto_embeddings_batch(test_df['transcription'].tolist())

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
train_embeddings_scaled = scaler.fit_transform(train_embeddings)
test_embeddings_scaled = scaler.transform(test_embeddings)

# Tạo pipeline với StandardScaler và SVM với kernel RBF
svm_pipeline = make_pipeline(scaler, SVC(kernel='rbf'))

# Định nghĩa các tham số cần fine-tune
param_grid = {
    'svc__C': [0.1, 1,5, 10,20,30,40,100],  # Thử các giá trị khác nhau cho tham số C
    'svc__gamma': ['scale', 'auto',0.00001,0.0001, 0.001, 0.01, 0.1]  # Thử các giá trị khác nhau cho gamma
}

# Sử dụng GridSearchCV để tìm kiếm tham số tối ưu
grid_search = GridSearchCV(svm_pipeline, param_grid, cv=5, n_jobs=-1, verbose=1)

# Huấn luyện với dữ liệu huấn luyện
grid_search.fit(train_embeddings_scaled, train_df['label'])

# In ra tham số tối ưu
print("Best parameters found: ", grid_search.best_params_)

# Dự đoán với mô hình tốt nhất
text_predictions = grid_search.predict(test_embeddings_scaled)

# Đánh giá mô hình
print(classification_report(test_df['label'], text_predictions, digits=6, zero_division=0))

Fitting 5 folds for each of 56 candidates, totalling 280 fits
Best parameters found:  {'svc__C': 20, 'svc__gamma': 0.0001}
              precision    recall  f1-score   support

   no-satire   0.940000  0.979167  0.959184        48
      satire   0.978261  0.937500  0.957447        48

    accuracy                       0.958333        96
   macro avg   0.959130  0.958333  0.958315        96
weighted avg   0.959130  0.958333  0.958315        96



# SVM which using kernel: Linear 

In [10]:
# Set environment variable to disable tokenizers parallelism
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# Assuming you have functions to get embeddings
train_embeddings = get_beto_embeddings_batch(train_df['transcription'].tolist())
test_embeddings = get_beto_embeddings_batch(test_df['transcription'].tolist())

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
train_embeddings_scaled = scaler.fit_transform(train_embeddings)
test_embeddings_scaled = scaler.transform(test_embeddings)

# Tạo pipeline với StandardScaler và SVM với kernel linear
svm_pipeline = make_pipeline(scaler, SVC(kernel='linear'))

# Định nghĩa các tham số cần fine-tune (chỉ tối ưu C)
param_grid = {
    'svc__C': [0.0001,0.001,0.01,0.1, 1, 5, 10, 20, 30, 40, 100]  # Thử các giá trị khác nhau cho tham số C
}

# Sử dụng GridSearchCV để tìm kiếm tham số tối ưu
grid_search = GridSearchCV(svm_pipeline, param_grid, cv=5, n_jobs=-1, verbose=1)

# Huấn luyện với dữ liệu huấn luyện
grid_search.fit(train_embeddings_scaled, train_df['label'])

# In ra tham số tối ưu
print("Best parameters found: ", grid_search.best_params_)

# Dự đoán với mô hình tốt nhất
text_predictions = grid_search.predict(test_embeddings_scaled)

# Đánh giá mô hình
print(classification_report(test_df['label'], text_predictions, digits=6, zero_division=0))


Fitting 5 folds for each of 11 candidates, totalling 55 fits
Best parameters found:  {'svc__C': 0.001}
              precision    recall  f1-score   support

   no-satire   0.923077  1.000000  0.960000        48
      satire   1.000000  0.916667  0.956522        48

    accuracy                       0.958333        96
   macro avg   0.961538  0.958333  0.958261        96
weighted avg   0.961538  0.958333  0.958261        96



# SVM which using kernel: Poly

In [11]:
# Set environment variable to disable tokenizers parallelism
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# Assuming you have functions to get embeddings
train_embeddings = get_beto_embeddings_batch(train_df['transcription'].tolist())
test_embeddings = get_beto_embeddings_batch(test_df['transcription'].tolist())

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
train_embeddings_scaled = scaler.fit_transform(train_embeddings)
test_embeddings_scaled = scaler.transform(test_embeddings)

# Tạo pipeline với StandardScaler và SVM với kernel poly
svm_pipeline = make_pipeline(scaler, SVC(kernel='poly'))

# Định nghĩa các tham số cần fine-tune
param_grid = {
    'svc__C': [0.1, 1, 5, 10, 20, 30, 40, 100,110,120,130,150],  # Thử các giá trị khác nhau cho tham số C
    'svc__degree': [2, 3, 4, 5, 6],  # Bậc của đa thức
}

# Sử dụng GridSearchCV để tìm kiếm tham số tối ưu
grid_search = GridSearchCV(svm_pipeline, param_grid, cv=5, n_jobs=-1, verbose=1)

# Huấn luyện với dữ liệu huấn luyện
grid_search.fit(train_embeddings_scaled, train_df['label'])

# In ra tham số tối ưu
print("Best parameters found: ", grid_search.best_params_)

# Dự đoán với mô hình tốt nhất
text_predictions = grid_search.predict(test_embeddings_scaled)

# Đánh giá mô hình
print(classification_report(test_df['label'], text_predictions, digits=6, zero_division=0))


Fitting 5 folds for each of 60 candidates, totalling 300 fits
Best parameters found:  {'svc__C': 100, 'svc__degree': 3}
              precision    recall  f1-score   support

   no-satire   0.888889  1.000000  0.941176        48
      satire   1.000000  0.875000  0.933333        48

    accuracy                       0.937500        96
   macro avg   0.944444  0.937500  0.937255        96
weighted avg   0.944444  0.937500  0.937255        96



# Logictis Regression

In [14]:
from sklearn.linear_model import LogisticRegression
# Set environment variable to disable tokenizers parallelism
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# Assuming you have functions to get embeddings
train_embeddings = get_beto_embeddings_batch(train_df['transcription'].tolist())
test_embeddings = get_beto_embeddings_batch(test_df['transcription'].tolist())

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
train_embeddings_scaled = scaler.fit_transform(train_embeddings)
test_embeddings_scaled = scaler.transform(test_embeddings)

# Tạo pipeline với StandardScaler và Logistic Regression
logreg_pipeline = make_pipeline(scaler, LogisticRegression(max_iter=1000))

# Định nghĩa các tham số cần fine-tune
param_grid = {
    'logisticregression__C': [0.001,0.1, 1, 5, 10, 20, 30, 40, 100],  # Thử các giá trị khác nhau cho tham số C
    'logisticregression__solver': ['liblinear', 'lbfgs']  # Thử các solver khác nhau
}

# Sử dụng GridSearchCV để tìm kiếm tham số tối ưu
grid_search = GridSearchCV(logreg_pipeline, param_grid, cv=5, n_jobs=-1, verbose=1)

# Huấn luyện với dữ liệu huấn luyện
grid_search.fit(train_embeddings_scaled, train_df['label'])

# In ra tham số tối ưu
print("Best parameters found: ", grid_search.best_params_)

# Dự đoán với mô hình tốt nhất
text_predictions = grid_search.predict(test_embeddings_scaled)

# Đánh giá mô hình
print(classification_report(test_df['label'], text_predictions, digits=6, zero_division=0))


Fitting 5 folds for each of 18 candidates, totalling 90 fits
Best parameters found:  {'logisticregression__C': 0.1, 'logisticregression__solver': 'liblinear'}
              precision    recall  f1-score   support

   no-satire   0.923077  1.000000  0.960000        48
      satire   1.000000  0.916667  0.956522        48

    accuracy                       0.958333        96
   macro avg   0.961538  0.958333  0.958261        96
weighted avg   0.961538  0.958333  0.958261        96



In [15]:
from sklearn.tree import DecisionTreeClassifier
# Set environment variable to disable tokenizers parallelism
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# Assuming you have functions to get embeddings
train_embeddings = get_beto_embeddings_batch(train_df['transcription'].tolist())
test_embeddings = get_beto_embeddings_batch(test_df['transcription'].tolist())

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
train_embeddings_scaled = scaler.fit_transform(train_embeddings)
test_embeddings_scaled = scaler.transform(test_embeddings)

# Tạo pipeline với StandardScaler và Decision Tree Classifier
dt_pipeline = make_pipeline(scaler, DecisionTreeClassifier(random_state=42))

# Định nghĩa các tham số cần fine-tune
param_grid = {
    'decisiontreeclassifier__max_depth': [None, 5, 10, 15, 20],  # Bố trí độ sâu của cây
    'decisiontreeclassifier__min_samples_split': [2, 5, 10],  # Thử các giá trị cho min_samples_split
    'decisiontreeclassifier__min_samples_leaf': [1, 2, 4],  # Thử các giá trị cho min_samples_leaf
    'decisiontreeclassifier__criterion': ['gini', 'entropy'],  # Tiêu chí phân chia (gini hoặc entropy)
}

# Sử dụng GridSearchCV để tìm kiếm tham số tối ưu
grid_search = GridSearchCV(dt_pipeline, param_grid, cv=5, n_jobs=-1, verbose=1)

# Huấn luyện với dữ liệu huấn luyện
grid_search.fit(train_embeddings_scaled, train_df['label'])

# In ra tham số tối ưu
print("Best parameters found: ", grid_search.best_params_)

# Dự đoán với mô hình tốt nhất
text_predictions = grid_search.predict(test_embeddings_scaled)

# Đánh giá mô hình
print(classification_report(test_df['label'], text_predictions, digits=6, zero_division=0))


Fitting 5 folds for each of 90 candidates, totalling 450 fits
Best parameters found:  {'decisiontreeclassifier__criterion': 'entropy', 'decisiontreeclassifier__max_depth': None, 'decisiontreeclassifier__min_samples_leaf': 4, 'decisiontreeclassifier__min_samples_split': 2}
              precision    recall  f1-score   support

   no-satire   0.833333  0.833333  0.833333        48
      satire   0.833333  0.833333  0.833333        48

    accuracy                       0.833333        96
   macro avg   0.833333  0.833333  0.833333        96
weighted avg   0.833333  0.833333  0.833333        96



In [17]:
import os
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout, Embedding, SpatialDropout1D
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.utils import to_categorical
from sklearn.metrics import classification_report
from sklearn.preprocessing import LabelEncoder

# Set environment variable to disable tokenizers parallelism
os.environ["TOKENIZERS_PARALLELISM"] = "false"

# Assuming you have functions to get embeddings
train_embeddings = get_beto_embeddings_batch(train_df['transcription'].tolist())
test_embeddings = get_beto_embeddings_batch(test_df['transcription'].tolist())

# Chuẩn hóa dữ liệu
scaler = StandardScaler()
train_embeddings_scaled = scaler.fit_transform(train_embeddings)
test_embeddings_scaled = scaler.transform(test_embeddings)

# Chuyển đổi dữ liệu thành chuỗi có độ dài cố định cho LSTM
max_len = 100  # Độ dài tối đa của chuỗi, có thể điều chỉnh tùy theo dữ liệu của bạn
train_embeddings_padded = pad_sequences(train_embeddings_scaled, maxlen=max_len, padding='post')
test_embeddings_padded = pad_sequences(test_embeddings_scaled, maxlen=max_len, padding='post')

# Mã hóa nhãn thành số (LabelEncoder) và chuyển thành one-hot encoding
label_encoder = LabelEncoder()
train_labels_encoded = label_encoder.fit_transform(train_df['label'])
test_labels_encoded = label_encoder.transform(test_df['label'])

train_labels = to_categorical(train_labels_encoded)
test_labels = to_categorical(test_labels_encoded)

# LSTM yêu cầu input có dạng (samples, timesteps, features)
# Vì embeddings là các vector, nên cần reshape lại cho phù hợp
train_embeddings_padded = np.expand_dims(train_embeddings_padded, axis=-1)
test_embeddings_padded = np.expand_dims(test_embeddings_padded, axis=-1)

# Xây dựng mô hình LSTM
model = Sequential()

# LSTM layer với dropout để giảm overfitting
model.add(LSTM(100, input_shape=(train_embeddings_padded.shape[1], train_embeddings_padded.shape[2]), return_sequences=True))
model.add(Dropout(0.2))
model.add(LSTM(100, return_sequences=False))
model.add(Dropout(0.2))

# Fully connected layer
model.add(Dense(50, activation='relu'))
model.add(Dropout(0.2))

# Output layer với softmax cho phân loại nhiều lớp
model.add(Dense(train_labels.shape[1], activation='softmax'))

# Compile mô hình
model.compile(loss='categorical_crossentropy', optimizer=Adam(), metrics=['accuracy'])

# Huấn luyện mô hình
history = model.fit(train_embeddings_padded, train_labels, epochs=10, batch_size=64, validation_split=0.2, verbose=1)

# Dự đoán trên tập test
test_predictions = model.predict(test_embeddings_padded)
test_predictions_classes = np.argmax(test_predictions, axis=1)  # Lấy nhãn phân loại với xác suất cao nhất

# Đánh giá mô hình
test_labels_classes = np.argmax(test_labels, axis=1)  # Chuyển nhãn one-hot về dạng phân loại

# In ra classification report
print(classification_report(test_labels_classes, test_predictions_classes, digits=6, zero_division=0))


I0000 00:00:1740232199.749496    9376 gpu_device.cc:2022] Created device /job:localhost/replica:0/task:0/device:GPU:0 with 527 MB memory:  -> device: 0, name: NVIDIA GeForce RTX 3050 Laptop GPU, pci bus id: 0000:01:00.0, compute capability: 8.6
  super().__init__(**kwargs)


Epoch 1/10


I0000 00:00:1740232202.600031   12343 cuda_dnn.cc:529] Loaded cuDNN version 90700


[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 153ms/step - accuracy: 0.5717 - loss: 0.6902 - val_accuracy: 0.6494 - val_loss: 0.6791
Epoch 2/10
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m-1s[0m 74ms/step - accuracy: 0.6099 - loss: 0.6796 - val_accuracy: 0.6753 - val_loss: 0.6525
Epoch 3/10
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 78ms/step - accuracy: 0.6173 - loss: 0.6594 - val_accuracy: 0.6883 - val_loss: 0.6238
Epoch 4/10
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 76ms/step - accuracy: 0.5880 - loss: 0.6561 - val_accuracy: 0.6494 - val_loss: 0.6328
Epoch 5/10
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 80ms/step - accuracy: 0.5505 - loss: 0.6847 - val_accuracy: 0.6883 - val_loss: 0.6499
Epoch 6/10
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 61ms/step - accuracy: 0.5924 - loss: 0.6702 - val_accuracy: 0.6494 - val_loss: 0.6406
Epoch 7/10
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[3

In [23]:
import pandas as pd
from tabulate import tabulate

model_results = {
    'Model': [
        'SVM (RBF kernel)',
        'SVM (Linear kernel)',
        'SVM (Polynomial kernel)',
        'Logistic Regression',
        'Random Forest',
        'LSTM',
    ],
    'Accuracy': [
        95.83,  
        95.83,
        93.75,
        95.83,
        83.33,
        63.54,
    ]
}

results_df = pd.DataFrame(model_results)

# Sử dụng các kiểu khung khác nhau:
# 'fancy_grid', 'double', 'rounded_grid', 'heavy_grid'
print("\nFancy Grid Style:")
print(tabulate(results_df, headers='keys', tablefmt='fancy_grid', floatfmt=".2f"))


Fancy Grid Style:
╒════╤═════════════════════════╤════════════╕
│    │ Model                   │   Accuracy │
╞════╪═════════════════════════╪════════════╡
│  0 │ SVM (RBF kernel)        │      95.83 │
├────┼─────────────────────────┼────────────┤
│  1 │ SVM (Linear kernel)     │      95.83 │
├────┼─────────────────────────┼────────────┤
│  2 │ SVM (Polynomial kernel) │      93.75 │
├────┼─────────────────────────┼────────────┤
│  3 │ Logistic Regression     │      95.83 │
├────┼─────────────────────────┼────────────┤
│  4 │ Random Forest           │      83.33 │
├────┼─────────────────────────┼────────────┤
│  5 │ LSTM                    │      63.54 │
╘════╧═════════════════════════╧════════════╛


# Task 2


In [None]:
# Extract MFCC features from audios
def extract_features(data, sample_rate):
    result = np.array([])
    # MFCC
    mfcc = np.mean(librosa.feature.mfcc(y=data, sr=sample_rate).T, axis=0)
    result = np.hstack((result, mfcc))

    return result

def get_features(path):
    # load all audio
    data, sample_rate = librosa.load(path)
    res1 = extract_features(data, sample_rate)
    result = np.array(res1)

    return result

# Get list of train with MFCC features and label list
def get_features_labels(audio_df, label2id):
    X, Y = [], []
    for path, satire in zip(audio_df.path, audio_df.label):
        feature = get_features(path)
        X.append(feature)
        Y.append(label2id[satire])
    return X, Y

In [None]:
# Get list of labels, id2label and label2id
labels = sorted(train_df.label.unique().tolist())
id2label = {id:label for id, label in enumerate(labels)}
label2id = {label:id for id, label in enumerate(labels)}
print(id2label)

In [None]:
# Get input for the training
mfcc_x_train, y_train = get_features_labels(train_df, label2id)
print("Examples: ", mfcc_x_train[0], y_train[0])

In [None]:
# Get input for the test
mfcc_x_test, y_test = get_features_labels(test_df, label2id)
print("Examples: ", mfcc_x_test[0], y_test[0])