**0. 라이브러리 / 모델 준비**

In [16]:
"""
Step 1 - Face Identity Verification
-----------------------------------
1. 기존 회원(예: 3명)의 얼굴·음성 평균 임베딩을 미리 계산해둔다.
2. 로그인 입력(영상 1개)에서 얼굴 이미지 + 오디오를 추출한다.
3. 각각의 임베딩과 비교하여 유사도 계산 후 총합 점수를 산출한다.
4. 임계값(threshold) 이상이면 로그인 성공으로 판정한다.
"""

!pip install deepface==0.0.93 speechbrain==0.5.16 moviepy==1.0.3 librosa==0.10.2.post1 soundfile==0.12.1 tf-keras -q

In [17]:
import cv2, numpy as np
import torch
from deepface import DeepFace
import numpy as np
from speechbrain.pretrained import EncoderClassifier
from moviepy.editor import VideoFileClip
import imageio.v2 as iio
import soundfile as sf
import librosa
import tempfile
from pathlib import Path
import os
from google.colab import drive

**1. 얼굴/음성 임베딩 함수**

In [18]:
def get_face_embedding(img_path):
    """
    얼굴 이미지 1장을 ArcFace 모델로 임베딩
    """
    rep = DeepFace.represent(
        img_path=img_path,
        model_name="ArcFace",
        detector_backend="opencv",
        enforce_detection=False
    )
    emb = np.array(rep[0]["embedding"], dtype=np.float32)
    return emb

In [19]:
device = "cuda" if torch.cuda.is_available() else "cpu"

spk_encoder = EncoderClassifier.from_hparams(
    source="speechbrain/spkrec-ecapa-voxceleb",
    run_opts={"device": device},
    savedir="pretrained_models/speechbrain_ecapa"
)

def get_voice_embedding(wav_path):
    """
    음성 파일에서 ECAPA-TDNN 임베딩을 추출
    """
    wav, sr = sf.read(wav_path)
    if wav.ndim > 1:
        wav = wav.mean(axis=1)
    if sr != 16000:
        wav = librosa.resample(wav, orig_sr=sr, target_sr=16000)
    wav_t = torch.tensor(wav, dtype=torch.float32, device=device).unsqueeze(0)
    with torch.no_grad():
        emb = spk_encoder.encode_batch(wav_t).squeeze().cpu().numpy()
    return emb.astype(np.float32)

In [20]:
def get_face_mean(folder_path):
    """
    폴더 안의 여러 얼굴 이미지를 임베딩하고 평균 벡터를 계산합니다.
    """
    embs = []
    for fname in os.listdir(folder_path):
        if fname.lower().endswith('.jpg'):
            path = os.path.join(folder_path, fname)
            emb = get_face_embedding(path)
            embs.append(emb)

    mean_emb = np.mean(np.array(embs), axis=0)
    return mean_emb

In [21]:
def get_voice_mean(folder_path):
    """
    폴더 안의 여러 음성 파일을 임베딩하여 평균 벡터를 계산합니다.
    """
    embs = []
    for fname in os.listdir(folder_path):
        if fname.lower().endswith('.wav'):
            path = os.path.join(folder_path, fname)
            emb = get_voice_embedding(path)
            embs.append(emb)

    mean_emb = np.mean(np.array(embs), axis=0)
    return mean_emb

**2. 사용자 정보 평균 임베딩 계산**

In [31]:
drive.mount('/content/drive')
base_dir = "/content/drive/MyDrive/mm_security_data"

ww_faces  = os.path.join(base_dir, "ww_face")
ww_voices = os.path.join(base_dir, "ww_voice")
jm_faces  = os.path.join(base_dir, "jm_face")
jm_voices = os.path.join(base_dir, "jm_voice")
hr_faces  = os.path.join(base_dir, "hr_face")
hr_voices = os.path.join(base_dir, "hr_voice")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [32]:
ww_face_mean = get_face_mean(ww_faces)
jm_face_mean = get_face_mean(jm_faces)
hr_face_mean = get_face_mean(hr_faces)

ww_voice_mean = get_voice_mean(ww_voices)
jm_voice_mean = get_voice_mean(jm_voices)
hr_voice_mean = get_voice_mean(hr_voices)

In [34]:
user_emb_mean = {
    "Wooin Ban": {"face": ww_face_mean, "voice": ww_voice_mean},
    "Jaemin Woo": {"face": jm_face_mean, "voice": jm_voice_mean},
    "Haerin Jung": {"face": hr_face_mean, "voice": hr_voice_mean},
}

**3. 입력 영상과의 유사도 계산**

In [25]:
def cosine_similarity(a, b):
    """
    두 벡터(임베딩) 사이의 코사인 유사도를 계산
    1에 가까울수록 같은 사람, 0에 가까울수록 다른 사람
    """
    a = np.asarray(a, np.float32)
    b = np.asarray(b, np.float32)
    return float(np.dot(a, b) / (np.linalg.norm(a) * np.linalg.norm(b) + 1e-8))

In [26]:
def extract_face_from_video(video_path):
    """
    영상의 중간 프레임 하나를 이미지로 저장하고 경로를 반환
    """
    clip = VideoFileClip(video_path)
    t = clip.duration / 2
    frame = clip.get_frame(t)
    tmp_img = Path(tempfile.mkstemp(suffix=".jpg")[1])
    iio.imwrite(tmp_img.as_posix(), frame)
    return tmp_img.as_posix()

In [27]:
def extract_audio_from_video(video_path):
    """
    영상의 오디오를 wav 파일로 추출
    """
    clip = VideoFileClip(video_path)
    tmp_wav = Path(tempfile.mkstemp(suffix=".wav")[1])
    clip.audio.write_audiofile(tmp_wav.as_posix(), verbose=False, logger=None)
    return tmp_wav.as_posix()

**4. 로그인 입력에 대한 Identification**

In [28]:
def verify_identity(video_path, user_emb_mean=user_emb_mean, weight_face=0.5, threshold=0.7):

    # 로그인 영상에서 얼굴/음성 임베딩 추출
    face_img = extract_face_from_video(video_path)
    login_face = get_face_embedding(face_img)
    login_wav = extract_audio_from_video(video_path)
    login_voice = get_voice_embedding(login_wav)


    # 2. 각 사용자와의 유사도 계산 (얼굴과 음성을 같은 비율로 고려)
    results = []
    for name, emb in user_emb_mean.items():
        f_sim = cosine_similarity(emb["face"], login_face)
        v_sim = cosine_similarity(emb["voice"], login_voice)
        total = weight_face * f_sim + (1 - weight_face) * v_sim
        results.append((name, f_sim, v_sim, total))

    result_ments = [ f"{r[0]} 님의 유사도 점수: 얼굴 = {r[1]:.3f}, 음성 = {r[2]:.3f}, 총합 = {r[3]:.3f}" for r in results ]

    # 3. 가장 점수가 높은 유저를 로그인 시도자로 판단
    best = max(results, key=lambda x: x[3])

    if best[3] >= threshold:
        identity = f"{best[0]} 님이 로그인하셨습니다."
    else:
        identity = "❌ 시스템에 등록되지 않은 사용자입니다."

    print(identity)
    print("\n".join(result_ments))

In [29]:
# verify_identity(save_path)

**test: random input**

In [35]:
test_dir = "/content/drive/MyDrive/mm_security_data/test_path"
video1 = os.path.join(test_dir, "haerin_video1.mp4")
video2 = os.path.join(test_dir, "man_video1.mp4")
video3 = os.path.join(test_dir, "woman_video1.mp4")

verify_identity(video1)
print("\n")
verify_identity(video2)
print("\n")
verify_identity(video3)

Haerin Jung 님이 로그인하셨습니다.
Wooin Ban 님의 유사도 점수: 얼굴 = 0.685, 음성 = 0.422, 총합 = 0.553
Jaemin Woo 님의 유사도 점수: 얼굴 = 0.658, 음성 = 0.151, 총합 = 0.405
Haerin Jung 님의 유사도 점수: 얼굴 = 0.909, 음성 = 0.553, 총합 = 0.731


❌ 시스템에 등록되지 않은 사용자입니다.
Wooin Ban 님의 유사도 점수: 얼굴 = 0.130, 음성 = 0.158, 총합 = 0.144
Jaemin Woo 님의 유사도 점수: 얼굴 = 0.151, 음성 = 0.153, 총합 = 0.152
Haerin Jung 님의 유사도 점수: 얼굴 = 0.049, 음성 = 0.099, 총합 = 0.074


❌ 시스템에 등록되지 않은 사용자입니다.
Wooin Ban 님의 유사도 점수: 얼굴 = 0.649, 음성 = 0.339, 총합 = 0.494
Jaemin Woo 님의 유사도 점수: 얼굴 = 0.615, 음성 = 0.218, 총합 = 0.416
Haerin Jung 님의 유사도 점수: 얼굴 = 0.908, 음성 = 0.335, 총합 = 0.621


In [46]:
from getpass import getpass
import os

os.environ['GH_USER'] = "Haeling"
os.environ['GH_TOKEN'] = getpass('GitHub PAT 입력: ')

GitHub PAT 입력: ··········


In [47]:
!git config --global user.name "Haeling"
!git config --global user.email "junghaerin@gmail.com"

In [48]:
!git clone https://${GH_USER}:${GH_TOKEN}@github.com/Haeling/Multimodal-Security.git
%cd Multimodal-Security

!git checkout -b feature/step1

# !cp /content/identify1.ipynb .
# !git add identify1.ipynb
# !git commit -m "update"
# !git push origin feature/step1

Cloning into 'Multimodal-Security'...
remote: Enumerating objects: 7, done.[K
remote: Counting objects: 100% (7/7), done.[K
remote: Compressing objects: 100% (5/5), done.[K
remote: Total 7 (delta 0), reused 7 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (7/7), 10.49 KiB | 5.24 MiB/s, done.
/content/Multimodal-Security
Switched to a new branch 'feature/step1'
cp: cannot stat '/content/identify1.ipynb': No such file or directory
fatal: pathspec 'identify1.ipynb' did not match any files
On branch feature/step1
nothing to commit, working tree clean
Total 0 (delta 0), reused 0 (delta 0), pack-reused 0
remote: 
remote: Create a pull request for 'feature/step1' on GitHub by visiting:[K
remote:      https://github.com/Haeling/Multimodal-Security/pull/new/feature/step1[K
remote: 
To https://github.com/Haeling/Multimodal-Security.git
 * [new branch]      feature/step1 -> feature/step1


In [51]:
!cp "/content/drive/MyDrive/Colab Notebooks/identify1.ipynb" /content/Multimodal-Security/


In [52]:
%cd /content/Multimodal-Security
!git add identify1.ipynb
!git commit -m "update"
!git push origin feature/step1

/content/Multimodal-Security
[feature/step1 663b4f4] update
 1 file changed, 1 insertion(+)
 create mode 100644 identify1.ipynb
Enumerating objects: 4, done.
Counting objects: 100% (4/4), done.
Delta compression using up to 2 threads
Compressing objects: 100% (3/3), done.
Writing objects: 100% (3/3), 4.89 KiB | 4.89 MiB/s, done.
Total 3 (delta 1), reused 0 (delta 0), pack-reused 0
remote: Resolving deltas: 100% (1/1), completed with 1 local object.[K
To https://github.com/Haeling/Multimodal-Security.git
   e1f7a62..663b4f4  feature/step1 -> feature/step1
