In [44]:
import os
import cv2
import numpy as np
import mediapipe as mp
import librosa
import soundfile as sf
from tqdm import tqdm
from moviepy.editor import VideoFileClip
import warnings
warnings.filterwarnings("ignore")

# Parameters
clip_len = 150
lip_landmark_ids = list(range(61, 81))  # 20 lip landmarks

# Initialize Mediapipe
mp_face_mesh = mp.solutions.face_mesh
face_mesh = mp_face_mesh.FaceMesh(static_image_mode=False, max_num_faces=1)

# Input/output
input_root = "dataset"
output_root = "processed_dataset"
os.makedirs(output_root, exist_ok=True)

def extract_audio_from_video(video_path, temp_wav_path):
    try:
        clip = VideoFileClip(video_path)
        clip.audio.write_audiofile(temp_wav_path, verbose=False, logger=None)
        return True
    except Exception:
        return False

def extract_lip_landmarks_from_video(video_path):
    cap = cv2.VideoCapture(video_path)
    landmarks = []

    while True:
        ret, frame = cap.read()
        if not ret:
            break
        rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
        results = face_mesh.process(rgb)

        if results.multi_face_landmarks:
            face = results.multi_face_landmarks[0]
            points = [(lmk.x, lmk.y) for i, lmk in enumerate(face.landmark) if i in lip_landmark_ids]
            landmarks.append(points)

    cap.release()
    return np.array(landmarks)  # shape: (T, 20, 2)

def extract_mfcc(temp_wav_path, fps, total_frames):
    try:
        y, sr = librosa.load(temp_wav_path, sr=None)
        duration = total_frames / fps
        y = y[:int(sr * duration)]

        mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)
        mfcc = mfcc.T  # shape (n_frames, 13)

        # Align MFCC to video FPS using linear interpolation
        indices = np.linspace(0, len(mfcc) - 1, total_frames).astype(int)
        mfcc_aligned = mfcc[indices]
        return mfcc_aligned  # shape: (total_frames, 13)
    except Exception:
        return None

# Process each class
for cls in os.listdir(input_root):
    class_path = os.path.join(input_root, cls)
    if not os.path.isdir(class_path): continue

    out_frame_dir = os.path.join(output_root, cls, "frames")
    out_audio_dir = os.path.join(output_root, cls, "audio_features")
    os.makedirs(out_frame_dir, exist_ok=True)
    os.makedirs(out_audio_dir, exist_ok=True)

    for filename in tqdm(os.listdir(class_path), desc=f"Processing {cls}"):
        if not filename.endswith(".mp4"):
            continue

        vid_path = os.path.join(class_path, filename)
        temp_wav_path = "temp.wav"
        name_base = os.path.splitext(filename)[0]

        # Extract landmarks
        frames = extract_lip_landmarks_from_video(vid_path)
        if len(frames) < clip_len:
            # print(f"[SKIP] {filename} has only {len(frames)} frames.")
            continue

        # Extract aligned audio
        success = extract_audio_from_video(vid_path, temp_wav_path)
        if not success:
            print(f"[ERROR] Audio extract error in {filename}")
            continue

        fps = cv2.VideoCapture(vid_path).get(cv2.CAP_PROP_FPS)
        mfcc_full = extract_mfcc(temp_wav_path, fps, len(frames))
        if mfcc_full is None or mfcc_full.shape[0] < clip_len:
            print(f"[ERROR] MFCC extraction error in {filename}")
            continue

        # Save first valid clip of 150 frames
        lip_clip = frames[:clip_len]
        mfcc_clip = mfcc_full[:clip_len]

        # Save
        np.save(os.path.join(out_frame_dir, f"{name_base}_clip0_frame.npy"), lip_clip)
        np.save(os.path.join(out_audio_dir, f"{name_base}_clip0_af.npy"), mfcc_clip)


Processing real: 100%|███████████████████████████████████████████████████████████| 3397/3397 [1:19:00<00:00,  1.40s/it]
Processing fake: 100%|███████████████████████████████████████████████████████████████████████████████████████████████| 4206/4206 [1:32:51<00:00,  1.32s/it]
Processing .ipynb_checkpoints: 0it [00:00, ?it/s]


In [51]:
class LipSyncDataset(Dataset):
    def __init__(self, root_dir):
        self.data = []
        self.labels = []
        self.root_dir = root_dir
        classes = {'real': 0, 'fake': 1}
        
        for cls in classes:
            frame_dir = os.path.join(root_dir, cls, 'frames')
            audio_dir = os.path.join(root_dir, cls, 'audio_features')
            
            for fname in os.listdir(frame_dir):
                if not fname.endswith("_clip0_frame.npy"):
                    continue
                base = fname.replace("_clip0_frame.npy", "")
                frame_path = os.path.join(frame_dir, fname)
                audio_path = os.path.join(audio_dir, f"{base}_clip0_af.npy")
                
                if os.path.exists(audio_path):
                    self.data.append((frame_path, audio_path))
                    self.labels.append(classes[cls])

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        frame_path, audio_path = self.data[idx]
        frames = np.load(frame_path)              # (150, 20, 2)
        audio = np.load(audio_path)               # (150, 13)
        label = self.labels[idx]

        # To tensors
        frames = torch.tensor(frames, dtype=torch.float32)  # (150, 20, 2)
        audio = torch.tensor(audio, dtype=torch.float32)    # (150, 13)
        return frames, audio, torch.tensor(label)


In [63]:
import os
import numpy as np
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import Dataset, DataLoader, random_split
from tqdm import tqdm

# =====================
# Dataset Loader
# =====================
class LipSyncDataset(Dataset):
    def __init__(self, root_dir):
        self.data = []
        self.labels = []
        self.root_dir = root_dir
        classes = {'real': 0, 'fake': 1}
        
        for cls in classes:
            frame_dir = os.path.join(root_dir, cls, 'frames')
            audio_dir = os.path.join(root_dir, cls, 'audio_features')
            
            for fname in os.listdir(frame_dir):
                if not fname.endswith("_clip0_frame.npy"):
                    continue
                base = fname.replace("_clip0_frame.npy", "")
                frame_path = os.path.join(frame_dir, fname)
                audio_path = os.path.join(audio_dir, f"{base}_clip0_af.npy")
                
                if os.path.exists(audio_path):
                    self.data.append((frame_path, audio_path))
                    self.labels.append(classes[cls])

    def __len__(self):
        return len(self.data)

    def __getitem__(self, idx):
        frame_path, audio_path = self.data[idx]
        frames = np.load(frame_path)              # (150, 20, 2)
        audio = np.load(audio_path)               # (150, 13)
        label = self.labels[idx]

        frames = torch.tensor(frames, dtype=torch.float32)  # (150, 20, 2)
        audio = torch.tensor(audio, dtype=torch.float32)    # (150, 13)
        return frames, audio, torch.tensor(label)

# =====================
# Model Definition
# =====================
class LipSyncLSTMClassifier(nn.Module):
    def __init__(self):
        super().__init__()

        # Lip branch
        self.lip_lstm = nn.LSTM(input_size=40, hidden_size=64, batch_first=True)

        # Audio branch
        self.audio_lstm = nn.LSTM(input_size=13, hidden_size=64, batch_first=True)

        # Classifier
        self.fc = nn.Sequential(
            nn.Linear(128, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, 2)  # Real or Fake
        )

    def forward(self, lips, audio):
        B = lips.shape[0]
        lips = lips.view(B, 150, -1)  # (B, 150, 40)

        _, (h_lip, _) = self.lip_lstm(lips)      # (1, B, 64)
        _, (h_audio, _) = self.audio_lstm(audio) # (1, B, 64)

        fused = torch.cat([h_lip[-1], h_audio[-1]], dim=1)  # (B, 128)
        return self.fc(fused)

# =====================
# Training Setup
# =====================
def train_model():
    device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

    dataset = LipSyncDataset("processed_dataset")
    train_size = int(0.8 * len(dataset))
    val_size = len(dataset) - train_size
    train_set, val_set = random_split(dataset, [train_size, val_size])

    train_loader = DataLoader(train_set, batch_size=16, shuffle=True)
    val_loader = DataLoader(val_set, batch_size=16)

    model = LipSyncLSTMClassifier().to(device)
    criterion = nn.CrossEntropyLoss()
    optimizer = optim.Adam(model.parameters(), lr=1e-4)

    num_epochs = 50
    for epoch in range(num_epochs):
        # Training
        model.train()
        running_loss = 0.0
        train_correct = 0

        for lips, audio, labels in tqdm(train_loader, desc=f"Epoch {epoch+1}/{num_epochs} - Training"):
            lips, audio, labels = lips.to(device), audio.to(device), labels.to(device)

            optimizer.zero_grad()
            outputs = model(lips, audio)
            loss = criterion(outputs, labels)
            loss.backward()
            optimizer.step()

            running_loss += loss.item()
            train_correct += (outputs.argmax(1) == labels).sum().item()

        train_acc = train_correct / len(train_set)
        print(f"[Train] Epoch {epoch+1}: Loss = {running_loss:.4f}, Accuracy = {train_acc:.4f}")

        # Validation
        model.eval()
        val_loss = 0.0
        val_correct = 0
        with torch.no_grad():
            for lips, audio, labels in tqdm(val_loader, desc=f"Epoch {epoch+1}/{num_epochs} - Validation"):
                lips, audio, labels = lips.to(device), audio.to(device), labels.to(device)
                outputs = model(lips, audio)
                loss = criterion(outputs, labels)
                val_loss += loss.item()
                val_correct += (outputs.argmax(1) == labels).sum().item()

        val_acc = val_correct / len(val_set)
        print(f"[Val]   Epoch {epoch+1}: Loss = {val_loss:.4f}, Accuracy = {val_acc:.4f}")

    # Save model
    torch.save(model.state_dict(), "lipsync_deepfake_model.pth")
    print("Model saved as lipsync_deepfake_model.pth")

# Run training
if __name__ == "__main__":
    train_model()


Epoch 1/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 14.66it/s]


[Train] Epoch 1: Loss = 130.6889, Accuracy = 0.5458


Epoch 1/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 39.45it/s]


[Val]   Epoch 1: Loss = 32.7551, Accuracy = 0.5639


Epoch 2/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:13<00:00, 13.98it/s]


[Train] Epoch 2: Loss = 130.2756, Accuracy = 0.5571


Epoch 2/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.57it/s]


[Val]   Epoch 2: Loss = 32.5948, Accuracy = 0.5731


Epoch 3/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:14<00:00, 13.57it/s]


[Train] Epoch 3: Loss = 129.4233, Accuracy = 0.5663


Epoch 3/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 39.79it/s]


[Val]   Epoch 3: Loss = 32.5132, Accuracy = 0.5942


Epoch 4/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:13<00:00, 14.41it/s]


[Train] Epoch 4: Loss = 127.9113, Accuracy = 0.5844


Epoch 4/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.24it/s]


[Val]   Epoch 4: Loss = 32.1936, Accuracy = 0.5863


Epoch 5/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:13<00:00, 14.59it/s]


[Train] Epoch 5: Loss = 126.7912, Accuracy = 0.5917


Epoch 5/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 43.08it/s]


[Val]   Epoch 5: Loss = 31.8930, Accuracy = 0.6047


Epoch 6/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 14.79it/s]


[Train] Epoch 6: Loss = 125.0035, Accuracy = 0.6177


Epoch 6/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 43.18it/s]


[Val]   Epoch 6: Loss = 31.4754, Accuracy = 0.6140


Epoch 7/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.16it/s]


[Train] Epoch 7: Loss = 122.2092, Accuracy = 0.6326


Epoch 7/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.52it/s]


[Val]   Epoch 7: Loss = 30.8193, Accuracy = 0.6232


Epoch 8/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.05it/s]


[Train] Epoch 8: Loss = 120.0324, Accuracy = 0.6431


Epoch 8/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.45it/s]


[Val]   Epoch 8: Loss = 30.1078, Accuracy = 0.6430


Epoch 9/50 - Training: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.09it/s]


[Train] Epoch 9: Loss = 117.0254, Accuracy = 0.6600


Epoch 9/50 - Validation: 100%|█████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 39.01it/s]


[Val]   Epoch 9: Loss = 29.3758, Accuracy = 0.6667


Epoch 10/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 14.91it/s]


[Train] Epoch 10: Loss = 114.9988, Accuracy = 0.6577


Epoch 10/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.44it/s]


[Val]   Epoch 10: Loss = 29.1156, Accuracy = 0.6495


Epoch 11/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.29it/s]


[Train] Epoch 11: Loss = 113.0194, Accuracy = 0.6692


Epoch 11/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.74it/s]


[Val]   Epoch 11: Loss = 28.6125, Accuracy = 0.6746


Epoch 12/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.41it/s]


[Train] Epoch 12: Loss = 111.2083, Accuracy = 0.6748


Epoch 12/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.69it/s]


[Val]   Epoch 12: Loss = 28.4791, Accuracy = 0.6640


Epoch 13/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.58it/s]


[Train] Epoch 13: Loss = 108.2865, Accuracy = 0.6903


Epoch 13/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.40it/s]


[Val]   Epoch 13: Loss = 28.1062, Accuracy = 0.6719


Epoch 14/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 15.89it/s]


[Train] Epoch 14: Loss = 107.1535, Accuracy = 0.7002


Epoch 14/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.35it/s]


[Val]   Epoch 14: Loss = 27.6888, Accuracy = 0.6733


Epoch 15/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.02it/s]


[Train] Epoch 15: Loss = 104.8345, Accuracy = 0.7022


Epoch 15/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.43it/s]


[Val]   Epoch 15: Loss = 27.2032, Accuracy = 0.6733


Epoch 16/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.32it/s]


[Train] Epoch 16: Loss = 103.1308, Accuracy = 0.7094


Epoch 16/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.03it/s]


[Val]   Epoch 16: Loss = 27.0400, Accuracy = 0.6825


Epoch 17/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.33it/s]


[Train] Epoch 17: Loss = 100.1368, Accuracy = 0.7233


Epoch 17/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.02it/s]


[Val]   Epoch 17: Loss = 26.9736, Accuracy = 0.6785


Epoch 18/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.18it/s]


[Train] Epoch 18: Loss = 98.5429, Accuracy = 0.7338


Epoch 18/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 43.06it/s]


[Val]   Epoch 18: Loss = 26.4237, Accuracy = 0.6838


Epoch 19/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.56it/s]


[Train] Epoch 19: Loss = 99.5320, Accuracy = 0.7233


Epoch 19/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 35.90it/s]


[Val]   Epoch 19: Loss = 26.7182, Accuracy = 0.6891


Epoch 20/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:12<00:00, 15.59it/s]


[Train] Epoch 20: Loss = 98.7577, Accuracy = 0.7266


Epoch 20/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.74it/s]


[Val]   Epoch 20: Loss = 26.9901, Accuracy = 0.6904


Epoch 21/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.42it/s]


[Train] Epoch 21: Loss = 96.0934, Accuracy = 0.7325


Epoch 21/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.81it/s]


[Val]   Epoch 21: Loss = 25.7416, Accuracy = 0.6996


Epoch 22/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.39it/s]


[Train] Epoch 22: Loss = 94.2535, Accuracy = 0.7421


Epoch 22/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.61it/s]


[Val]   Epoch 22: Loss = 25.6873, Accuracy = 0.7022


Epoch 23/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.47it/s]


[Train] Epoch 23: Loss = 92.2767, Accuracy = 0.7507


Epoch 23/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 38.11it/s]


[Val]   Epoch 23: Loss = 25.1484, Accuracy = 0.7088


Epoch 24/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.69it/s]


[Train] Epoch 24: Loss = 91.7756, Accuracy = 0.7556


Epoch 24/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.12it/s]


[Val]   Epoch 24: Loss = 25.3549, Accuracy = 0.7141


Epoch 25/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.76it/s]


[Train] Epoch 25: Loss = 90.6486, Accuracy = 0.7625


Epoch 25/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.08it/s]


[Val]   Epoch 25: Loss = 25.2351, Accuracy = 0.7101


Epoch 26/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.87it/s]


[Train] Epoch 26: Loss = 87.2860, Accuracy = 0.7728


Epoch 26/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.81it/s]


[Val]   Epoch 26: Loss = 25.0900, Accuracy = 0.7141


Epoch 27/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.97it/s]


[Train] Epoch 27: Loss = 87.4194, Accuracy = 0.7777


Epoch 27/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.39it/s]


[Val]   Epoch 27: Loss = 25.0960, Accuracy = 0.7141


Epoch 28/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.84it/s]


[Train] Epoch 28: Loss = 85.6841, Accuracy = 0.7754


Epoch 28/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.80it/s]


[Val]   Epoch 28: Loss = 25.1850, Accuracy = 0.7128


Epoch 29/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.05it/s]


[Train] Epoch 29: Loss = 85.6028, Accuracy = 0.7800


Epoch 29/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.04it/s]


[Val]   Epoch 29: Loss = 25.0256, Accuracy = 0.7207


Epoch 30/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.03it/s]


[Train] Epoch 30: Loss = 84.1859, Accuracy = 0.7810


Epoch 30/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.41it/s]


[Val]   Epoch 30: Loss = 24.5538, Accuracy = 0.7312


Epoch 31/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.86it/s]


[Train] Epoch 31: Loss = 82.5587, Accuracy = 0.7929


Epoch 31/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.71it/s]


[Val]   Epoch 31: Loss = 24.5013, Accuracy = 0.7325


Epoch 32/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.05it/s]


[Train] Epoch 32: Loss = 82.5557, Accuracy = 0.7823


Epoch 32/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.56it/s]


[Val]   Epoch 32: Loss = 24.3057, Accuracy = 0.7404


Epoch 33/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.98it/s]


[Train] Epoch 33: Loss = 81.1588, Accuracy = 0.7952


Epoch 33/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.98it/s]


[Val]   Epoch 33: Loss = 24.6324, Accuracy = 0.7325


Epoch 34/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.00it/s]


[Train] Epoch 34: Loss = 80.2687, Accuracy = 0.7939


Epoch 34/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.14it/s]


[Val]   Epoch 34: Loss = 24.1994, Accuracy = 0.7404


Epoch 35/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.99it/s]


[Train] Epoch 35: Loss = 79.3391, Accuracy = 0.7968


Epoch 35/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.59it/s]


[Val]   Epoch 35: Loss = 24.4181, Accuracy = 0.7404


Epoch 36/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.08it/s]


[Train] Epoch 36: Loss = 77.6535, Accuracy = 0.8018


Epoch 36/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.59it/s]


[Val]   Epoch 36: Loss = 24.2245, Accuracy = 0.7444


Epoch 37/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.93it/s]


[Train] Epoch 37: Loss = 79.1598, Accuracy = 0.8005


Epoch 37/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 43.48it/s]


[Val]   Epoch 37: Loss = 24.5593, Accuracy = 0.7418


Epoch 38/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.17it/s]


[Train] Epoch 38: Loss = 81.7618, Accuracy = 0.7988


Epoch 38/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.56it/s]


[Val]   Epoch 38: Loss = 24.9047, Accuracy = 0.7431


Epoch 39/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.09it/s]


[Train] Epoch 39: Loss = 77.3703, Accuracy = 0.8084


Epoch 39/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 38.67it/s]


[Val]   Epoch 39: Loss = 23.8789, Accuracy = 0.7563


Epoch 40/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.04it/s]


[Train] Epoch 40: Loss = 75.7309, Accuracy = 0.8150


Epoch 40/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.34it/s]


[Val]   Epoch 40: Loss = 24.1401, Accuracy = 0.7576


Epoch 41/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.02it/s]


[Train] Epoch 41: Loss = 74.0006, Accuracy = 0.8123


Epoch 41/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.20it/s]


[Val]   Epoch 41: Loss = 23.6502, Accuracy = 0.7470


Epoch 42/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.05it/s]


[Train] Epoch 42: Loss = 72.5308, Accuracy = 0.8186


Epoch 42/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.56it/s]


[Val]   Epoch 42: Loss = 23.7119, Accuracy = 0.7444


Epoch 43/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.07it/s]


[Train] Epoch 43: Loss = 72.9567, Accuracy = 0.8203


Epoch 43/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.11it/s]


[Val]   Epoch 43: Loss = 23.7509, Accuracy = 0.7602


Epoch 44/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.08it/s]


[Train] Epoch 44: Loss = 72.4795, Accuracy = 0.8255


Epoch 44/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.87it/s]


[Val]   Epoch 44: Loss = 23.6898, Accuracy = 0.7576


Epoch 45/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.12it/s]


[Train] Epoch 45: Loss = 71.0809, Accuracy = 0.8216


Epoch 45/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.82it/s]


[Val]   Epoch 45: Loss = 23.9328, Accuracy = 0.7628


Epoch 46/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.97it/s]


[Train] Epoch 46: Loss = 71.2485, Accuracy = 0.8262


Epoch 46/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.30it/s]


[Val]   Epoch 46: Loss = 23.8584, Accuracy = 0.7549


Epoch 47/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.90it/s]


[Train] Epoch 47: Loss = 70.4717, Accuracy = 0.8239


Epoch 47/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 40.22it/s]


[Val]   Epoch 47: Loss = 23.7226, Accuracy = 0.7589


Epoch 48/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 17.07it/s]


[Train] Epoch 48: Loss = 70.2881, Accuracy = 0.8265


Epoch 48/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 41.97it/s]


[Val]   Epoch 48: Loss = 23.7904, Accuracy = 0.7628


Epoch 49/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.99it/s]


[Train] Epoch 49: Loss = 69.3722, Accuracy = 0.8285


Epoch 49/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 42.05it/s]


[Val]   Epoch 49: Loss = 23.8594, Accuracy = 0.7628


Epoch 50/50 - Training: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 190/190 [00:11<00:00, 16.90it/s]


[Train] Epoch 50: Loss = 69.2596, Accuracy = 0.8295


Epoch 50/50 - Validation: 100%|████████████████████████████████████████████████████████████████████████████████████████████| 48/48 [00:01<00:00, 37.67it/s]

[Val]   Epoch 50: Loss = 23.3876, Accuracy = 0.7694
Model saved as lipsync_deepfake_model.pth





In [1]:
import os
import cv2
import numpy as np
import torch
import torch.nn as nn
import librosa
from moviepy.editor import VideoFileClip
import mediapipe as mp

# ------------------------------
# Define model again (should match training)
# ------------------------------
class LipSyncLSTMClassifier(nn.Module):
    def __init__(self):
        super().__init__()

        # Lip branch
        self.lip_lstm = nn.LSTM(input_size=40, hidden_size=64, batch_first=True)

        # Audio branch
        self.audio_lstm = nn.LSTM(input_size=13, hidden_size=64, batch_first=True)

        # Classifier
        self.fc = nn.Sequential(
            nn.Linear(128, 128),
            nn.ReLU(),
            nn.Dropout(0.5),
            nn.Linear(128, 2)  # Real or Fake
        )

    def forward(self, lips, audio):
        B = lips.shape[0]
        lips = lips.view(B, 150, -1)  # (B, 150, 40)

        _, (h_lip, _) = self.lip_lstm(lips)      # (1, B, 64)
        _, (h_audio, _) = self.audio_lstm(audio) # (1, B, 64)

        fused = torch.cat([h_lip[-1], h_audio[-1]], dim=1)  # (B, 128)
        return self.fc(fused)

# ------------------------------
# Load trained model weights
# ------------------------------
model = LipSyncLSTMClassifier()
model.load_state_dict(torch.load("lipsync_deepfake_model.pth", map_location=torch.device('cpu')))
model.eval()

# ------------------------------
# MediaPipe for lip landmarks
# ------------------------------
mp_face_mesh = mp.solutions.face_mesh
lip_landmarks = list(range(61, 81))  # 20 lip landmarks

def extract_lip_landmarks(video_path, max_frames=150):
    cap = cv2.VideoCapture(video_path)
    lips = []

    with mp_face_mesh.FaceMesh(static_image_mode=False, max_num_faces=1) as face_mesh:
        while len(lips) < max_frames:
            ret, frame = cap.read()
            if not ret:
                break
            rgb = cv2.cvtColor(frame, cv2.COLOR_BGR2RGB)
            results = face_mesh.process(rgb)
            if results.multi_face_landmarks:
                for face_landmarks in results.multi_face_landmarks:
                    points = []
                    for idx in lip_landmarks:
                        lm = face_landmarks.landmark[idx]
                        points.extend([lm.x, lm.y])  # 2 values per landmark
                    lips.append(points)
                    break
        cap.release()

    lips = np.array(lips)
    if len(lips) < max_frames:
        pad = np.zeros((max_frames - len(lips), 40))
        lips = np.vstack([lips, pad])
    else:
        lips = lips[:max_frames]
    return lips  # shape [150, 40]

# ------------------------------
# Extract audio features (MFCC)
# ------------------------------
def extract_audio_from_video(video_path, temp_wav_path="temp.wav"):
    try:
        clip = VideoFileClip(video_path)
        clip.audio.write_audiofile(temp_wav_path, verbose=False, logger=None)
        return temp_wav_path
    except Exception as e:
        print(f"[ERROR] Audio extract failed: {e}")
        return None

def extract_audio_features(video_path, max_frames=150):
    temp_wav_path = extract_audio_from_video(video_path)
    if temp_wav_path is None:
        return np.zeros((max_frames, 13))  # Adjusted for n_mfcc=13

    y, sr = librosa.load(temp_wav_path, sr=None)
    mfcc = librosa.feature.mfcc(y=y, sr=sr, n_mfcc=13)  # ✅ correct number of MFCCs
    mfcc = mfcc.T  # [T, 13]

    if len(mfcc) < max_frames:
        pad = np.zeros((max_frames - len(mfcc), 13))
        mfcc = np.vstack([mfcc, pad])
    else:
        mfcc = mfcc[:max_frames]
    return mfcc

# ------------------------------
# Inference function
# ------------------------------
def predict(video_path):
    lips = extract_lip_landmarks(video_path)  # [150, 40]
    audio = extract_audio_features(video_path)  # [150, 13]

    lips_tensor = torch.tensor(lips, dtype=torch.float32).unsqueeze(0)   # [1, 150, 40]
    audio_tensor = torch.tensor(audio, dtype=torch.float32).unsqueeze(0) # [1, 150, 13]

    with torch.no_grad():
        output = model(lips_tensor, audio_tensor)
        probs = torch.softmax(output, dim=1)
        pred = torch.argmax(probs, dim=1).item()
        conf = probs[0, pred].item()
        print(f"Prediction: {'FAKE' if pred == 1 else 'REAL'} (Confidence: {conf:.2f})")

# ------------------------------
# Run on a test video
# ------------------------------
if __name__ == "__main__":
    test_video = "fake/fake2.mp4"  # Replace with your video path
    predict(test_video)


[ERROR] Audio extract failed: 'NoneType' object has no attribute 'write_audiofile'
Prediction: FAKE (Confidence: 1.00)
