In [1]:
import torch
import transformers
import librosa
import keras
import cv2

In [2]:
from text_model import predict_text_emotion

In [3]:
from speech_model import predict_speech_emotion

In [4]:
from image_model import predict_image_emotion

In [5]:
import numpy as np

emotion_labels = ['angry', 'disgust', 'fear', 'happy', 'sad', 'surprise', 'neutral']

def fuse_emotions(text_probs, speech_probs, image_probs, weights=(0.5, 0.25, 0.25)):
    text_weight, speech_weight, image_weight = weights
    combined = (
        text_weight * text_probs +
        speech_weight * speech_probs +
        image_weight * image_probs
    )
    final_index = np.argmax(combined)
    return emotion_labels[final_index], combined


In [11]:
from image_model import predict_image_emotion

image_path = "data/sample_image.jpg"
probs = predict_image_emotion(image_path)
print("Prediction probability distribution:", probs)

Prediction probability distribution: [6.9470567e-05 8.3944516e-04 1.0972669e-03 3.1081665e-05 1.7236372e-03
 9.9618918e-01 4.9976585e-05]


In [10]:
# Sample input
text_input = "I feel very frustrated and alone."
audio_input = "data/sample_audio.wav"
image_input = "data/sample_image.jpg"

text_probs = predict_text_emotion(text_input)
image_probs = predict_image_emotion(image_input)
speech_probs = predict_speech_emotion(audio_input)


final_emotion, prob_vector = fuse_emotions(text_probs, speech_probs, image_probs)

print("Predicted Emotion:", final_emotion)
print("Probabilities:", prob_vector)


Predicted Emotion: angry
Probabilities: [0.50168648 0.01180454 0.01430752 0.01936726 0.17103935 0.26862427
 0.0131706 ]


In [20]:
import pandas as pd
from tqdm import tqdm

df = pd.read_csv("test_data/fusion_text_label_dataset.csv")
df.head()

Unnamed: 0,text,image_path,audio_path,label
0,I'm really mad right now.,test_data/images/test_0017_aligned.jpg,test_data/audio/03-01-05-01-01-01-01.wav,angry
1,This is so frustrating!,test_data/images/test_0027_aligned.jpg,test_data/audio/03-01-05-01-01-02-01.wav,angry
2,I'm really mad right now.,test_data/images/test_0037_aligned.jpg,test_data/audio/03-01-05-01-02-01-01.wav,angry
3,This is so frustrating!,test_data/images/test_0042_aligned.jpg,test_data/audio/03-01-05-01-02-02-01.wav,angry
4,Why does this always happen to me?,test_data/images/test_0057_aligned.jpg,test_data/audio/03-01-05-02-01-01-01.wav,angry


In [19]:
import os
import cv2

# 看工作目录
print("Current Working Directory:", os.getcwd())

# 看文件是否真的存在
path = "images/test_0017_aligned.jpg"
print("Exists:", os.path.exists(path))

# 尝试读取图片
img = cv2.imread(path)
if img is None:
    print("💥 OpenCV could not read the image.")
else:
    print("✅ Image read successfully:", img.shape)


Current Working Directory: C:\Users\YANG LY\engineering team project
Exists: False
💥 OpenCV could not read the image.


In [21]:
correct = 0
total = 0
wrong_samples = []

for idx, row in tqdm(df.iterrows(), total=len(df)):
    try:
        text_probs = predict_text_emotion(row['text'])
        image_probs = predict_image_emotion(row['image_path'])
        speech_probs = predict_speech_emotion(row['audio_path'])
        pred_emotion, _ = fuse_emotions(text_probs, speech_probs, image_probs)

        if pred_emotion == row['label']:
            correct += 1
        else:
            wrong_samples.append({
                'text': row['text'],
                'image': row['image_path'],
                'audio': row['audio_path'],
                'true': row['label'],
                'pred': pred_emotion
            })
        total += 1
    except Exception as e:
        print(f"Error at row {idx}: {e}")
        continue

accuracy = correct / total
print(f"✅ Fusion Model Accuracy: {accuracy:.4f} ({correct}/{total})")

  0%|                                                                                          | 0/140 [00:00<?, ?it/s]



  1%|▌                                                                                 | 1/140 [00:01<02:25,  1.05s/it]



  1%|█▏                                                                                | 2/140 [00:01<01:32,  1.50it/s]



  2%|█▊                                                                                | 3/140 [00:01<01:12,  1.89it/s]



  3%|██▎                                                                               | 4/140 [00:02<01:05,  2.08it/s]



  4%|██▉                                                                               | 5/140 [00:02<00:59,  2.25it/s]



  4%|███▌                                                                              | 6/140 [00:02<00:56,  2.36it/s]



  5%|████                                                                              | 7/140 [00:03<00:54,  2.43it/s]



  6%|████▋                                                                             | 8/140 [00:03<00:50,  2.64it/s]



  6%|█████▎                                                                            | 9/140 [00:04<00:50,  2.57it/s]



  7%|█████▊                                                                           | 10/140 [00:04<00:50,  2.55it/s]



  8%|██████▎                                                                          | 11/140 [00:04<00:47,  2.72it/s]



  9%|██████▉                                                                          | 12/140 [00:05<00:46,  2.73it/s]



  9%|███████▌                                                                         | 13/140 [00:05<00:52,  2.44it/s]



 10%|████████                                                                         | 14/140 [00:06<00:52,  2.40it/s]



 11%|████████▋                                                                        | 15/140 [00:06<00:47,  2.61it/s]



 11%|█████████▎                                                                       | 16/140 [00:06<00:48,  2.56it/s]



 12%|█████████▊                                                                       | 17/140 [00:07<00:46,  2.66it/s]



 13%|██████████▍                                                                      | 18/140 [00:07<00:46,  2.65it/s]



 14%|██████████▉                                                                      | 19/140 [00:07<00:45,  2.64it/s]



 14%|███████████▌                                                                     | 20/140 [00:08<00:46,  2.58it/s]



 15%|████████████▏                                                                    | 21/140 [00:08<00:42,  2.80it/s]



 16%|████████████▋                                                                    | 22/140 [00:08<00:42,  2.80it/s]



 16%|█████████████▎                                                                   | 23/140 [00:09<00:42,  2.74it/s]



 17%|█████████████▉                                                                   | 24/140 [00:09<00:41,  2.78it/s]



 18%|██████████████▍                                                                  | 25/140 [00:10<00:42,  2.69it/s]



 19%|███████████████                                                                  | 26/140 [00:10<00:41,  2.72it/s]



 19%|███████████████▌                                                                 | 27/140 [00:10<00:41,  2.75it/s]



 20%|████████████████▏                                                                | 28/140 [00:11<00:41,  2.72it/s]



 21%|████████████████▊                                                                | 29/140 [00:11<00:40,  2.74it/s]



 21%|█████████████████▎                                                               | 30/140 [00:11<00:39,  2.76it/s]



 22%|█████████████████▉                                                               | 31/140 [00:12<00:40,  2.68it/s]



 23%|██████████████████▌                                                              | 32/140 [00:12<00:40,  2.70it/s]



 24%|███████████████████                                                              | 33/140 [00:13<00:40,  2.64it/s]



 24%|███████████████████▋                                                             | 34/140 [00:13<00:41,  2.58it/s]



 25%|████████████████████▎                                                            | 35/140 [00:13<00:38,  2.72it/s]



 26%|████████████████████▊                                                            | 36/140 [00:14<00:38,  2.70it/s]



 26%|█████████████████████▍                                                           | 37/140 [00:14<00:36,  2.81it/s]



 27%|█████████████████████▉                                                           | 38/140 [00:14<00:38,  2.66it/s]



 28%|██████████████████████▌                                                          | 39/140 [00:15<00:40,  2.52it/s]



 29%|███████████████████████▏                                                         | 40/140 [00:15<00:38,  2.62it/s]



 29%|███████████████████████▋                                                         | 41/140 [00:16<00:38,  2.58it/s]



 30%|████████████████████████▎                                                        | 42/140 [00:16<00:35,  2.72it/s]



 31%|████████████████████████▉                                                        | 43/140 [00:16<00:36,  2.65it/s]



 31%|█████████████████████████▍                                                       | 44/140 [00:17<00:34,  2.75it/s]



 32%|██████████████████████████                                                       | 45/140 [00:17<00:36,  2.64it/s]



 33%|██████████████████████████▌                                                      | 46/140 [00:17<00:34,  2.71it/s]



 34%|███████████████████████████▏                                                     | 47/140 [00:18<00:36,  2.55it/s]



 34%|███████████████████████████▊                                                     | 48/140 [00:18<00:33,  2.73it/s]



 35%|████████████████████████████▎                                                    | 49/140 [00:19<00:34,  2.67it/s]



 36%|████████████████████████████▉                                                    | 50/140 [00:19<00:32,  2.74it/s]



 36%|█████████████████████████████▌                                                   | 51/140 [00:19<00:33,  2.68it/s]



 37%|██████████████████████████████                                                   | 52/140 [00:20<00:31,  2.78it/s]



 38%|██████████████████████████████▋                                                  | 53/140 [00:20<00:32,  2.72it/s]



 39%|███████████████████████████████▏                                                 | 54/140 [00:20<00:31,  2.77it/s]



 39%|███████████████████████████████▊                                                 | 55/140 [00:21<00:31,  2.68it/s]



 40%|████████████████████████████████▍                                                | 56/140 [00:21<00:32,  2.57it/s]



 41%|████████████████████████████████▉                                                | 57/140 [00:22<00:32,  2.55it/s]



 41%|█████████████████████████████████▌                                               | 58/140 [00:22<00:32,  2.54it/s]



 42%|██████████████████████████████████▏                                              | 59/140 [00:22<00:31,  2.55it/s]



 43%|██████████████████████████████████▋                                              | 60/140 [00:23<00:30,  2.59it/s]



 44%|███████████████████████████████████▎                                             | 61/140 [00:23<00:29,  2.67it/s]



 44%|███████████████████████████████████▊                                             | 62/140 [00:23<00:28,  2.74it/s]



 45%|████████████████████████████████████▍                                            | 63/140 [00:24<00:29,  2.65it/s]



 46%|█████████████████████████████████████                                            | 64/140 [00:24<00:26,  2.83it/s]



 46%|█████████████████████████████████████▌                                           | 65/140 [00:25<00:27,  2.69it/s]



 47%|██████████████████████████████████████▏                                          | 66/140 [00:25<00:27,  2.69it/s]



 48%|██████████████████████████████████████▊                                          | 67/140 [00:25<00:28,  2.60it/s]



 49%|███████████████████████████████████████▎                                         | 68/140 [00:26<00:27,  2.59it/s]



 49%|███████████████████████████████████████▉                                         | 69/140 [00:26<00:27,  2.61it/s]



 50%|████████████████████████████████████████▌                                        | 70/140 [00:26<00:25,  2.72it/s]



 51%|█████████████████████████████████████████                                        | 71/140 [00:27<00:26,  2.59it/s]



 51%|█████████████████████████████████████████▋                                       | 72/140 [00:27<00:26,  2.55it/s]



 52%|██████████████████████████████████████████▏                                      | 73/140 [00:28<00:25,  2.68it/s]



 53%|██████████████████████████████████████████▊                                      | 74/140 [00:28<00:25,  2.62it/s]



 54%|███████████████████████████████████████████▍                                     | 75/140 [00:28<00:26,  2.46it/s]



 54%|███████████████████████████████████████████▉                                     | 76/140 [00:29<00:25,  2.49it/s]



 55%|████████████████████████████████████████████▌                                    | 77/140 [00:29<00:23,  2.72it/s]



 56%|█████████████████████████████████████████████▏                                   | 78/140 [00:30<00:22,  2.70it/s]



 56%|█████████████████████████████████████████████▋                                   | 79/140 [00:30<00:22,  2.66it/s]



 57%|██████████████████████████████████████████████▎                                  | 80/140 [00:30<00:21,  2.76it/s]



 58%|██████████████████████████████████████████████▊                                  | 81/140 [00:31<00:21,  2.69it/s]



 59%|███████████████████████████████████████████████▍                                 | 82/140 [00:31<00:20,  2.77it/s]



 59%|████████████████████████████████████████████████                                 | 83/140 [00:31<00:21,  2.70it/s]



 60%|████████████████████████████████████████████████▌                                | 84/140 [00:32<00:20,  2.79it/s]



 61%|█████████████████████████████████████████████████▏                               | 85/140 [00:32<00:20,  2.75it/s]



 61%|█████████████████████████████████████████████████▊                               | 86/140 [00:33<00:21,  2.54it/s]



 62%|██████████████████████████████████████████████████▎                              | 87/140 [00:33<00:20,  2.64it/s]



 63%|██████████████████████████████████████████████████▉                              | 88/140 [00:33<00:19,  2.63it/s]



 64%|███████████████████████████████████████████████████▍                             | 89/140 [00:34<00:18,  2.76it/s]



 64%|████████████████████████████████████████████████████                             | 90/140 [00:34<00:18,  2.73it/s]



 65%|████████████████████████████████████████████████████▋                            | 91/140 [00:34<00:17,  2.81it/s]



 66%|█████████████████████████████████████████████████████▏                           | 92/140 [00:35<00:17,  2.68it/s]



 66%|█████████████████████████████████████████████████████▊                           | 93/140 [00:35<00:18,  2.60it/s]



 67%|██████████████████████████████████████████████████████▍                          | 94/140 [00:36<00:18,  2.53it/s]



 68%|██████████████████████████████████████████████████████▉                          | 95/140 [00:36<00:17,  2.64it/s]



 69%|███████████████████████████████████████████████████████▌                         | 96/140 [00:36<00:17,  2.58it/s]



 69%|████████████████████████████████████████████████████████                         | 97/140 [00:37<00:17,  2.48it/s]



 70%|████████████████████████████████████████████████████████▋                        | 98/140 [00:37<00:16,  2.51it/s]



 71%|█████████████████████████████████████████████████████████▎                       | 99/140 [00:38<00:16,  2.45it/s]



 71%|█████████████████████████████████████████████████████████▏                      | 100/140 [00:38<00:16,  2.41it/s]



 72%|█████████████████████████████████████████████████████████▋                      | 101/140 [00:38<00:16,  2.43it/s]



 73%|██████████████████████████████████████████████████████████▎                     | 102/140 [00:39<00:15,  2.41it/s]



 74%|██████████████████████████████████████████████████████████▊                     | 103/140 [00:39<00:15,  2.42it/s]



 74%|███████████████████████████████████████████████████████████▍                    | 104/140 [00:40<00:14,  2.42it/s]



 75%|████████████████████████████████████████████████████████████                    | 105/140 [00:40<00:14,  2.49it/s]



 76%|████████████████████████████████████████████████████████████▌                   | 106/140 [00:40<00:13,  2.54it/s]



 76%|█████████████████████████████████████████████████████████████▏                  | 107/140 [00:41<00:12,  2.59it/s]



 77%|█████████████████████████████████████████████████████████████▋                  | 108/140 [00:41<00:11,  2.68it/s]



 78%|██████████████████████████████████████████████████████████████▎                 | 109/140 [00:41<00:11,  2.66it/s]



 79%|██████████████████████████████████████████████████████████████▊                 | 110/140 [00:42<00:11,  2.68it/s]



 79%|███████████████████████████████████████████████████████████████▍                | 111/140 [00:42<00:10,  2.75it/s]



 80%|████████████████████████████████████████████████████████████████                | 112/140 [00:42<00:09,  2.87it/s]



 81%|████████████████████████████████████████████████████████████████▌               | 113/140 [00:43<00:09,  2.71it/s]



 81%|█████████████████████████████████████████████████████████████████▏              | 114/140 [00:43<00:09,  2.72it/s]



 82%|█████████████████████████████████████████████████████████████████▋              | 115/140 [00:44<00:09,  2.70it/s]



 83%|██████████████████████████████████████████████████████████████████▎             | 116/140 [00:44<00:08,  2.69it/s]



 84%|██████████████████████████████████████████████████████████████████▊             | 117/140 [00:44<00:08,  2.65it/s]



 84%|███████████████████████████████████████████████████████████████████▍            | 118/140 [00:45<00:08,  2.61it/s]



 85%|████████████████████████████████████████████████████████████████████            | 119/140 [00:45<00:08,  2.53it/s]



 86%|████████████████████████████████████████████████████████████████████▌           | 120/140 [00:46<00:07,  2.70it/s]



 86%|█████████████████████████████████████████████████████████████████████▏          | 121/140 [00:46<00:07,  2.65it/s]



 87%|█████████████████████████████████████████████████████████████████████▋          | 122/140 [00:46<00:06,  2.83it/s]



 88%|██████████████████████████████████████████████████████████████████████▎         | 123/140 [00:47<00:06,  2.74it/s]



 89%|██████████████████████████████████████████████████████████████████████▊         | 124/140 [00:47<00:05,  2.78it/s]



 89%|███████████████████████████████████████████████████████████████████████▍        | 125/140 [00:47<00:05,  2.69it/s]



 90%|████████████████████████████████████████████████████████████████████████        | 126/140 [00:48<00:05,  2.65it/s]



 91%|████████████████████████████████████████████████████████████████████████▌       | 127/140 [00:48<00:05,  2.60it/s]



 91%|█████████████████████████████████████████████████████████████████████████▏      | 128/140 [00:49<00:04,  2.53it/s]



 92%|█████████████████████████████████████████████████████████████████████████▋      | 129/140 [00:49<00:04,  2.52it/s]



 93%|██████████████████████████████████████████████████████████████████████████▎     | 130/140 [00:49<00:03,  2.64it/s]



 94%|██████████████████████████████████████████████████████████████████████████▊     | 131/140 [00:50<00:03,  2.58it/s]



 94%|███████████████████████████████████████████████████████████████████████████▍    | 132/140 [00:50<00:03,  2.61it/s]



 95%|████████████████████████████████████████████████████████████████████████████    | 133/140 [00:50<00:02,  2.62it/s]



 96%|████████████████████████████████████████████████████████████████████████████▌   | 134/140 [00:51<00:02,  2.58it/s]



 96%|█████████████████████████████████████████████████████████████████████████████▏  | 135/140 [00:51<00:01,  2.69it/s]



 97%|█████████████████████████████████████████████████████████████████████████████▋  | 136/140 [00:52<00:01,  2.64it/s]



 98%|██████████████████████████████████████████████████████████████████████████████▎ | 137/140 [00:52<00:01,  2.77it/s]



 99%|██████████████████████████████████████████████████████████████████████████████▊ | 138/140 [00:52<00:00,  2.74it/s]



 99%|███████████████████████████████████████████████████████████████████████████████▍| 139/140 [00:53<00:00,  2.84it/s]



100%|████████████████████████████████████████████████████████████████████████████████| 140/140 [00:53<00:00,  2.62it/s]

✅ Fusion Model Accuracy: 0.5357 (75/140)





In [24]:
from sklearn.metrics import classification_report

true_labels = df['label'].tolist()
pred_labels = []

for idx, row in df.iterrows():
    try:
        t = predict_text_emotion(row['text'])
        i = predict_image_emotion(row['image_path'])
        s = predict_speech_emotion(row['audio_path'])
        pred, _ = fuse_emotions(t, s, i)
        pred_labels.append(pred)
    except:
        pred_labels.append("error")  # 或者跳过

# 打印每类表现
print(classification_report(true_labels, pred_labels))

              precision    recall  f1-score   support

       angry       0.41      1.00      0.58        20
     disgust       1.00      0.05      0.10        20
        fear       1.00      0.75      0.86        20
       happy       0.39      1.00      0.56        20
     neutral       0.00      0.00      0.00        20
         sad       0.95      0.90      0.92        20
    surprise       1.00      0.05      0.10        20

    accuracy                           0.54       140
   macro avg       0.68      0.54      0.44       140
weighted avg       0.68      0.54      0.44       140

