### <b>배우 정보 추출 및 특징 벡터 추출 자동화</b> ###

#### Step 1. 배우 정보 API를 활용하여 <b>특정한 배우</b> 정보 출력

In [None]:
import requests
import json

# 배우 정보 API URL (ID 1인 배우 정보 가져오기)
actor_id = 1
url = f"http://52.78.226.136:4000/actor/{actor_id}"

try:
    # API 요청 보내기
    response = requests.get(url)

    # 상태 코드 확인
    if response.status_code == 200:
        actor_data = response.json()  # JSON 데이터 파싱
        print("배우 정보:")
        print(json.dumps(actor_data, indent=4))
    else:
        print(f"API 요청 실패: 상태 코드 {response.status_code}")
except requests.exceptions.RequestException as e:
    print(f"요청 중 오류 발생: {e}")

In [None]:
import requests
import json
from IPython.display import display, HTML

# 배우 정보 API URL
actor_id = 1
url = f"http://52.78.226.136:4000/actor/{actor_id}"

try:
    # API 요청 보내기
    response = requests.get(url)

    if response.status_code == 200:
        data = response.json()

        if data.get("success") and "data" in data:
            actor = data["data"]
            profile = actor.get("actorProfile", {})
            images = actor.get("profileImages", [])

            # 배우 주요 정보
            actor_info = f"""
            <h2>배우 정보</h2>
            <p><strong>이름:</strong> {profile.get('nameKo', 'N/A')}</p>
            <p><strong>나이:</strong> {profile.get('age', 'N/A')}세</p>
            <p><strong>키:</strong> {profile.get('height', 'N/A')}cm</p>
            <p><strong>몸무게:</strong> {profile.get('weight', 'N/A')}kg</p>
            <p><strong>성별:</strong> {'남성' if profile.get('gender') == 'male' else '여성'}</p>
            """

            # 프로필 이미지 출력 (최대 3개)
            image_html = "<h3>프로필 사진</h3>"
            for img in images[:3]:  # 최대 3장만 출력
                image_html += f'<img src="{img["imageUrl"]}" width="150" style="margin-right:10px;">'

            # HTML 출력
            display(HTML(actor_info + image_html))

        else:
            print("배우 정보를 찾을 수 없습니다.")

    else:
        print(f"API 요청 실패: 상태 코드 {response.status_code}")

except requests.exceptions.RequestException as e:
    print(f"요청 중 오류 발생: {e}")

In [None]:
import requests
from IPython.display import display, HTML

# 배우 정보 API URL
actor_id = 1
url = f"http://52.78.226.136:4000/actor/{actor_id}"

try:
    # API 요청 보내기
    response = requests.get(url)

    if response.status_code == 200:
        data = response.json()

        if data.get("success") and "data" in data:
            actor = data["data"]
            profile = actor.get("actorProfile", {})
            details = actor.get("actorDetails", {})

            # 경력, 자기소개 줄바꿈 처리
            career = details.get("career", "N/A").replace("\n", "<br>")
            bio = details.get("bio", "N/A").replace("\n", "<br>")

            # 배우 메인 정보
            main_info = """
            <h2>📌 메인 정보</h2>
            <ul>
                <li><strong>이름:</strong> {}</li>
                <li><strong>나이:</strong> {}세</li>
                <li><strong>키:</strong> {}cm</li>
                <li><strong>몸무게:</strong> {}kg</li>
                <li><strong>성별:</strong> {}</li>
            </ul>
            """.format(
                profile.get("nameKo", "N/A"),
                profile.get("age", "N/A"),
                profile.get("height", "N/A"),
                profile.get("weight", "N/A"),
                "남성" if profile.get("gender") == "male" else "여성"
            )

            # 배우 부가 정보
            extra_info = """
            <h2>📌 부가 정보</h2>
            <ul>
                <li><strong>경력:</strong><br> {}</li>
                <li><strong>특기:</strong> {}</li>
                <li><strong>자기소개:</strong><br> {}</li>
            </ul>
            """.format(
                career,
                details.get("specialSkills", "N/A"),
                bio
            )

            # HTML 출력
            display(HTML(main_info + extra_info))

        else:
            print("배우 정보를 찾을 수 없습니다.")

    else:
        print(f"API 요청 실패: 상태 코드 {response.status_code}")

except requests.exceptions.RequestException as e:
    print(f"요청 중 오류 발생: {e}")

#### Step 2. <b>다수의 배우</b> 정보 출력

In [None]:
import requests
from IPython.display import display, HTML

# 배우 정보 API URL (1~30번 배우)
actor_ids = range(1, 11)
base_url = "http://52.78.226.136:4000/actor/{}"

# HTML을 저장할 리스트
html_blocks = []

for actor_id in actor_ids:
    try:
        response = requests.get(base_url.format(actor_id))

        if response.status_code == 200:
            data = response.json()

            if data.get("success") and "data" in data:
                actor = data["data"]
                profile = actor.get("actorProfile", {})
                details = actor.get("actorDetails", {})

                # 경력, 자기소개 줄바꿈 처리
                career = details.get("career", "N/A").replace("\n", "<br>")
                bio = details.get("bio", "N/A").replace("\n", "<br>")

                # 배우 메인 정보
                main_info = """
                <h2>📌 배우 {}</h2>
                <h3>메인 정보</h3>
                <ul>
                    <li><strong>이름:</strong> {}</li>
                    <li><strong>나이:</strong> {}세</li>
                    <li><strong>키:</strong> {}cm</li>
                    <li><strong>몸무게:</strong> {}kg</li>
                    <li><strong>성별:</strong> {}</li>
                </ul>
                """.format(
                    actor_id,
                    profile.get("nameKo", "N/A"),
                    profile.get("age", "N/A"),
                    profile.get("height", "N/A"),
                    profile.get("weight", "N/A"),
                    "남성" if profile.get("gender") == "male" else "여성"
                )

                # 배우 부가 정보
                extra_info = """
                <h3>부가 정보</h3>
                <ul>
                    <li><strong>경력:</strong><br> {}</li>
                    <li><strong>특기:</strong> {}</li>
                    <li><strong>자기소개:</strong><br> {}</li>
                </ul>
                <hr>
                """.format(
                    career,
                    details.get("specialSkills", "N/A"),
                    bio
                )

                # 리스트에 HTML 추가
                html_blocks.append(main_info + extra_info)

            else:
                html_blocks.append(f"<h2>📌 배우 {actor_id}</h2><p>배우 정보를 찾을 수 없습니다.</p><hr>")

        else:
            html_blocks.append(f"<h2>📌 배우 {actor_id}</h2><p>API 요청 실패 (상태 코드: {response.status_code})</p><hr>")

    except requests.exceptions.RequestException as e:
        html_blocks.append(f"<h2>📌 배우 {actor_id}</h2><p>요청 중 오류 발생: {e}</p><hr>")

# 최종 출력
display(HTML("".join(html_blocks)))

#### 실험 1. <b>gogamza/kobart-summarization</b>

In [None]:
# 모델과 문장 분리를 위한 토크나이저를 불러옵니다.
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration
tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-summarization")
model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-summarization")

# 요약하고자 하는 기사를 입력합니다.
# 기사원문: http://news.heraldcorp.com/view.php?ud=20211127000015
news_text = "세계가 ‘오미크론(Omicron)’ 공포에 빠졌다. 코로나19 델타변이도 잡지 못해 전전긍긍하는데 세계보건기구(WHO)가 또 다른 ‘우려 변이(variant of concern)’로 오미크론을 지정하면서다. 항체를 무력화 수 있는 돌연변이가 많은 걸로 파악되는 오미크론이 코로나19 백신엔 어떤 영향을 미칠지를 보려면 추가 연구가 필요한 상황이다. 각 국은 서둘러 국경의 빗장을 걸고 있다. 미국과 유럽 등 글로벌 증시를 폭락시킨 오미크론은 현재로선 어디로 튈지 모르는 변이여서 두려움을 더하고 있다."

# 토크나이저를 사용하여 뉴스기사 원문을 모델이 인식할 수 있는 토큰형태로 바꿔줍니다.
input_ids = tokenizer.encode(news_text)

import torch

# 모델에 넣기 전 문장의 시작과 끝을 나타내는 토큰을 추가합니다.
input_ids = [tokenizer.bos_token_id] + input_ids + [tokenizer.eos_token_id]
input_ids = torch.tensor([input_ids])

summary_text_ids = model.generate(
    input_ids=input_ids,
    bos_token_id=model.config.bos_token_id,
    eos_token_id=model.config.eos_token_id,
    length_penalty=1.0, # 길이에 대한 penalty값. 1보다 작은 경우 더 짧은 문장을 생성하도록 유도하며, 1보다 클 경우 길이가 더 긴 문장을 유도
    max_length=128,     # 요약문의 최대 길이 설정
    min_length=32,      # 요약문의 최소 길이 설정
    num_beams=4,        # 문장 생성시 다음 단어를 탐색하는 영역의 개수
)

print(tokenizer.decode(summary_text_ids[0], skip_special_tokens=True))

In [None]:
import requests
# import torch
# from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

# KoBART 요약 모델 로드
# tokenizer = PreTrainedTokenizerFast.from_pretrained("gogamza/kobart-summarization")
# model = BartForConditionalGeneration.from_pretrained("gogamza/kobart-summarization")

# 배우 정보 API URL (1~10번 배우)
actor_ids = range(1, 11)
base_url = "http://52.78.226.136:4000/actor/{}"

# 최종 정리된 텍스트 저장 리스트
actor_texts = []

def summarize_text(text):
    """KoBART 모델을 이용해 텍스트 요약"""
    input_ids = tokenizer.encode(text, truncation=True, max_length=512)  # 모델 입력 최대 길이 제한
    input_ids = [tokenizer.bos_token_id] + input_ids + [tokenizer.eos_token_id]
    input_ids = torch.tensor([input_ids])

    summary_ids = model.generate(
        input_ids=input_ids,
        bos_token_id=model.config.bos_token_id,
        eos_token_id=model.config.eos_token_id,
        length_penalty=1.0,
        max_length=128,  # 요약문의 최대 길이
        min_length=32,   # 요약문의 최소 길이
        num_beams=4      # 빔 서치 사용
    )

    return tokenizer.decode(summary_ids[0], skip_special_tokens=True)

for actor_id in actor_ids:
    try:
        response = requests.get(base_url.format(actor_id))

        if response.status_code == 200:
            data = response.json()

            if data.get("success") and "data" in data:
                actor = data["data"]
                profile = actor.get("actorProfile", {})
                details = actor.get("actorDetails", {})

                # 📌 메인 정보 (단순 문자열 합치기)
                main_info = f"{profile.get('nameKo', 'N/A')}, {profile.get('age', 'N/A')}세, {profile.get('height', 'N/A')}cm, {profile.get('weight', 'N/A')}kg, {'남성' if profile.get('gender') == 'male' else '여성'}"

                # 📌 부가 정보 (요약 모델 사용)
                extra_text = f"경력: {details.get('career', 'N/A')}. 특기: {details.get('specialSkills', 'N/A')}. 자기소개: {details.get('bio', 'N/A')}"
                summary = summarize_text(extra_text)

                # 최종 텍스트 저장
                actor_texts.append(f"메인 정보: {main_info}. 부가 정보: {summary.strip()}") # 불필요한 공백 제거 이후 출력

            else:
                actor_texts.append(f"배우 {actor_id}: 정보 없음")

        else:
            actor_texts.append(f"배우 {actor_id}: API 요청 실패 (상태 코드 {response.status_code})")

    except requests.exceptions.RequestException as e:
        actor_texts.append(f"배우 {actor_id}: 요청 중 오류 발생 - {e}")

# 결과 출력
for text in actor_texts:
    print(text)

#### 실험 2. <b>digit82/kobart-summarization

In [None]:
import requests
import torch
from transformers import PreTrainedTokenizerFast, BartForConditionalGeneration

# KoBART 요약 모델 로드 (성능 개선된 digit82/kobart-summarization 사용)
tokenizer = PreTrainedTokenizerFast.from_pretrained("digit82/kobart-summarization")
model = BartForConditionalGeneration.from_pretrained("digit82/kobart-summarization")

# 배우 정보 API URL (1~10번 배우)
actor_ids = range(1, 11)
base_url = "http://52.78.226.136:4000/actor/{}"

# 최종 정리된 텍스트 저장 리스트
actor_texts = []

def summarize_text(text):
    """KoBART 모델을 이용해 텍스트 요약"""
    text = text.replace("\n", " ")  # 줄바꿈 제거
    raw_input_ids = tokenizer.encode(text, truncation=True, max_length=512)
    input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

    summary_ids = model.generate(
        torch.tensor([input_ids]),
        num_beams=4,
        max_length=512,  # 요약문의 최대 길이
        eos_token_id=1  # 종료 토큰
    )

    return tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)

for actor_id in actor_ids:
    try:
        response = requests.get(base_url.format(actor_id))

        if response.status_code == 200:
            data = response.json()

            if data.get("success") and "data" in data:
                actor = data["data"]
                profile = actor.get("actorProfile", {})
                details = actor.get("actorDetails", {})

                # 📌 메인 정보 (단순 문자열 합치기)
                main_info = f"{profile.get('nameKo', 'N/A')}, {profile.get('age', 'N/A')}세, {profile.get('height', 'N/A')}cm, {profile.get('weight', 'N/A')}kg, {'남성' if profile.get('gender') == 'male' else '여성'}"

                # 📌 부가 정보 (요약 모델 사용)
                extra_text = f"경력: {details.get('career', 'N/A')}. 특기: {details.get('specialSkills', 'N/A')}. 자기소개: {details.get('bio', 'N/A')}"
                summary = summarize_text(extra_text)

                # 최종 KoCLIP 입력 포맷
                actor_texts.append(f"메인 정보: {main_info}. 부가 정보: {summary}")

            else:
                actor_texts.append(f"배우 {actor_id}: 정보 없음")

        else:
            actor_texts.append(f"배우 {actor_id}: API 요청 실패 (상태 코드 {response.status_code})")

    except requests.exceptions.RequestException as e:
        actor_texts.append(f"배우 {actor_id}: 요청 중 오류 발생 - {e}")

# 결과 출력
for text in actor_texts:
    print(text)

* 기본값(Default)으로 "미상"이라는 문자열이 들어가도록 설정

In [None]:
# 배우 정보 API URL (1~10번 배우)
actor_ids = range(1, 11)
base_url = "http://52.78.226.136:4000/actor/{}"

# 최종 정리된 텍스트 저장 리스트
actor_texts = []

def summarize_text(text):
    """KoBART 모델을 이용해 텍스트 요약"""
    text = text.replace("\n", " ")  # 줄바꿈 제거
    raw_input_ids = tokenizer.encode(text, truncation=True, max_length=512)
    input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

    summary_ids = model.generate(
        torch.tensor([input_ids]),
        num_beams=4,
        max_length=512,  # 요약문의 최대 길이
        eos_token_id=1  # 종료 토큰
    )

    return tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)

for actor_id in actor_ids:
    try:
        response = requests.get(base_url.format(actor_id))

        if response.status_code == 200:
            data = response.json()

            if data.get("success") and "data" in data:
                actor = data["data"]
                profile = actor.get("actorProfile", {})
                details = actor.get("actorDetails", {})

                # 📌 메인 정보 (자연스러운 문장으로 개선)
                name = profile.get('nameKo', '이름 없음')
                gender = "남성" if profile.get('gender') == 'male' else "여성"
                age = profile.get('age', '미상')
                height = profile.get('height', '미상')
                weight = profile.get('weight', '미상')

                main_info = f"배우 {name}, 성별: {gender}, 나이: {age}, 키: {height}cm, 몸무게: {weight}kg"

                # 📌 부가 정보 (요약 모델 사용)
                extra_text = f"경력: {details.get('career', '정보 없음')}. 특기: {details.get('specialSkills', '정보 없음')}. 자기소개: {details.get('bio', '정보 없음')}"
                summary = summarize_text(extra_text)

                # 최종 KoCLIP 입력 포맷
                actor_texts.append(f"메인 정보: {main_info}. 부가 정보: {summary}")

            else:
                actor_texts.append(f"배우 {actor_id}: 정보 없음")

        else:
            actor_texts.append(f"배우 {actor_id}: API 요청 실패 (상태 코드 {response.status_code})")

    except requests.exceptions.RequestException as e:
        actor_texts.append(f"배우 {actor_id}: 요청 중 오류 발생 - {e}")

# 결과 출력
for text in actor_texts:
    print(text)

* KoCLIP의 입력으로 들어가기 위해 최대 길이 50으로 제한
* 원본 문자열과 요약 문자열을 함께 출력

In [None]:
# 배우 정보 API URL (1~10번 배우)
actor_ids = range(1, 11)
base_url = "http://52.78.226.136:4000/actor/{}"

# 최종 정리된 텍스트 저장 리스트
actor_texts = []

def summarize_text(text):
    """KoBART 모델을 이용해 텍스트 요약 (KoCLIP에 맞게 50자 제한)"""
    text = text.replace("\n", " ")  # 줄바꿈 제거
    raw_input_ids = tokenizer.encode(text, truncation=True, max_length=512)
    input_ids = [tokenizer.bos_token_id] + raw_input_ids + [tokenizer.eos_token_id]

    summary_ids = model.generate(
        torch.tensor([input_ids]),
        num_beams=4,
        max_length=50,  # KoCLIP 제한에 맞춰 50자로 요약
        eos_token_id=1  # 종료 토큰
    )

    return tokenizer.decode(summary_ids.squeeze().tolist(), skip_special_tokens=True)

for actor_id in actor_ids:
    try:
        response = requests.get(base_url.format(actor_id))

        if response.status_code == 200:
            data = response.json()

            if data.get("success") and "data" in data:
                actor = data["data"]
                profile = actor.get("actorProfile", {})
                details = actor.get("actorDetails", {})

                # 📌 메인 정보 (자연스러운 문장으로 개선)
                name = profile.get('nameKo', '이름 없음')
                gender = "남성" if profile.get('gender') == 'male' else "여성"
                age = profile.get('age', '미상')
                height = profile.get('height', '미상')
                weight = profile.get('weight', '미상')

                main_info = f"배우 {name}, 성별: {gender}, 나이: {age}, 키: {height}cm, 몸무게: {weight}kg"

                # 📌 부가 정보 (요약 모델 사용)
                extra_text = f"경력: {details.get('career', '정보 없음')}. 특기: {details.get('specialSkills', '정보 없음')}. 자기소개: {details.get('bio', '정보 없음')}"
                summary = summarize_text(extra_text)

                # 최종 KoCLIP 입력 포맷
                actor_texts.append(f"메인 정보: {main_info}. 부가 정보: {summary}")

                # 📌 콘솔 출력 (요약 전후 비교)
                print("=" * 80)
                print(f"🎭 배우 {name} (ID: {actor_id})")
                print(f"📌 원본 부가 정보:\n{extra_text}\n")
                print(f"📌 요약된 부가 정보 (KoCLIP 입력):\n{summary}")
                print("=" * 80 + "\n")

            else:
                actor_texts.append(f"배우 {actor_id}: 정보 없음")

        else:
            actor_texts.append(f"배우 {actor_id}: API 요청 실패 (상태 코드 {response.status_code})")

    except requests.exceptions.RequestException as e:
        actor_texts.append(f"배우 {actor_id}: 요청 중 오류 발생 - {e}")

# 최종 결과 출력
for text in actor_texts:
    print(text)

#### <b>KoCLIP</b> 모델을 활용한 특징 벡터 추출

In [None]:
import requests
import torch
import pandas as pd
from transformers import AutoModel, AutoProcessor

# KoCLIP 모델 로드
repo = "Bingsu/clip-vit-large-patch14-ko"
model = AutoModel.from_pretrained(repo)
processor = AutoProcessor.from_pretrained(repo)

# 배우 정보 API URL (1~10번 배우)
actor_ids = range(1, 11)
base_url = "http://52.78.226.136:4000/actor/{}"

# 최종 데이터 저장 리스트
actor_data = []

for actor_id in actor_ids:
    try:
        response = requests.get(base_url.format(actor_id))

        if response.status_code == 200:
            data = response.json()

            if data.get("success") and "data" in data:
                actor = data["data"]
                profile = actor.get("actorProfile", {})

                # 📌 메인 정보 생성
                name = profile.get('nameKo', '이름 없음')
                gender = "남성" if profile.get('gender') == 'male' else "여성"
                age = profile.get('age', '미상')
                height = profile.get('height', '미상')
                weight = profile.get('weight', '미상')

                main_info = f"배우 {name}, 성별: {gender}, 나이: {age}, 키: {height}cm, 몸무게: {weight}kg"

                # 📌 KoCLIP 모델을 사용해 텍스트 특징 벡터 추출
                inputs = processor(text=[main_info], return_tensors="pt", padding=True)
                with torch.inference_mode():
                    outputs = model.get_text_features(**inputs)

                text_feature_vector = outputs.squeeze().tolist()  # 512차원 벡터 변환

                # 데이터 저장
                actor_data.append([actor_id, name, text_feature_vector])

                # 📌 콘솔 출력
                print("=" * 80)
                print(f"🎭 배우 {name} (ID: {actor_id})")
                print(f"📌 메인 정보: {main_info}")
                print(f"📌 특징 벡터 (512차원) 샘플: {text_feature_vector[:5]} ...")  # 일부만 출력
                print("=" * 80 + "\n")

            else:
                print(f"배우 {actor_id}: API 응답에 데이터 없음")

        else:
            print(f"배우 {actor_id}: API 요청 실패 (상태 코드 {response.status_code})")

    except requests.exceptions.RequestException as e:
        print(f"배우 {actor_id}: 요청 중 오류 발생 - {e}")

# 📌 CSV 저장 (배우 ID, 이름, 512차원 벡터)
df = pd.DataFrame(actor_data, columns=["actor_id", "name", "text_feature_vector"])
df.to_csv("actor_text_features.csv", index=False)
print("✅ CSV 저장 완료: actor_text_features.csv")

In [None]:
import torch
import pandas as pd
import requests
from transformers import AutoModel, AutoProcessor

# KoCLIP 모델 불러오기
repo = "Bingsu/clip-vit-large-patch14-ko"
model = AutoModel.from_pretrained(repo)
processor = AutoProcessor.from_pretrained(repo)

BATCH_SIZE = 32  # 배치 크기
TOTAL_ACTORS = 500  # 총 배우 수
FEATURE_DIM = 768  # KoCLIP 벡터 차원 (768여야 정상)

def extract_text_features(texts, actor_ids):
    """KoCLIP을 활용하여 텍스트 특징 벡터 추출"""
    inputs = processor(text=texts, return_tensors="pt", padding=True)

    with torch.inference_mode():
        outputs = model.get_text_features(**inputs)

    features = outputs.cpu().tolist()

    # 벡터 차원 검증
    for i, feature in enumerate(features):
        if len(feature) != FEATURE_DIM:
            print(f"🚨 [경고] 배우 {actor_ids[i]}: 벡터 크기 불일치 ({len(feature)}차원). 자동 수정")
            features[i] = feature[:FEATURE_DIM] + [0.0] * (FEATURE_DIM - len(feature))  # 768차원 맞춤

    return features

data = []
batch_texts = []
batch_actor_ids = []

for idx, actor_id in enumerate(range(1, TOTAL_ACTORS + 1), start=1):
    url = f"http://52.78.226.136:4000/actor/{actor_id}"
    response = requests.get(url)

    if response.status_code != 200:
        print(f"⚠️ [실패] 배우 {actor_id}: 서버 응답 실패 (HTTP {response.status_code})")
        continue  # 요청 실패 시 건너뜀

    actor_data = response.json().get("data", {})
    profile = actor_data.get("actorProfile", {})

    # 메인 정보 생성
    main_info = f"배우 {profile.get('nameKo', '알 수 없음')}, 성별: {profile.get('gender', '미상')}, 나이: {profile.get('age', '미상')}, 키: {profile.get('height', '미상')}cm, 몸무게: {profile.get('weight', '미상')}kg"

    batch_texts.append(main_info)
    batch_actor_ids.append(actor_id)

    # 현재 배우 처리 완료 로그
    print(f"✅ [완료] 배우 {actor_id}: '{main_info}' 처리됨")

    # 배치 크기만큼 쌓이면 KoCLIP 추론
    if len(batch_texts) == BATCH_SIZE:
        print(f"🔄 [배치 처리] {BATCH_SIZE}명 특징 벡터 추출 중...")
        feature_vectors = extract_text_features(batch_texts, batch_actor_ids)

        for i in range(BATCH_SIZE):
            data.append([batch_actor_ids[i], batch_texts[i]] + feature_vectors[i])

        # 현재 배치 벡터 크기 확인
        print(f"📌 [벡터 크기 확인] KoCLIP 벡터 차원: {len(feature_vectors[0])} (정상: {FEATURE_DIM})")

        batch_texts = []
        batch_actor_ids = []

# 남은 데이터 처리
if batch_texts:
    print(f"🔄 [배치 처리] 남은 {len(batch_texts)}명 처리 중...")
    feature_vectors = extract_text_features(batch_texts, batch_actor_ids)
    for i in range(len(batch_texts)):
        data.append([batch_actor_ids[i], batch_texts[i]] + feature_vectors[i])

    print(f"📌 [벡터 크기 확인] KoCLIP 벡터 차원: {len(feature_vectors[0])} (정상: {FEATURE_DIM})")

# CSV 저장
columns = ["actor_id", "main_info"] + [f"feature_{i}" for i in range(FEATURE_DIM)]
df = pd.DataFrame(data, columns=columns)
df.to_csv("actor_features.csv", index=False)

print("\n✅ 배우 500명의 특징 벡터가 CSV에 저장되었습니다.")

#### Python 및 JavaScript를 이용해 유사도 비교 결과 확인

In [None]:
import pandas as pd
import numpy as np
from sklearn.metrics.pairwise import cosine_similarity

# CSV 파일 로드
csv_path = "actor_features.csv"
df = pd.read_csv(csv_path)

# 특징 벡터만 추출
actor_ids = df["actor_id"].tolist()
main_infos = df["main_info"].tolist()
features = df.iloc[:, 2:].values  # 768차원 벡터 부분

# 특정 배우와 유사한 배우 찾기
def find_similar_actors(target_actor_id, top_n=3):
    if target_actor_id not in actor_ids:
        print(f"❌ 배우 {target_actor_id} 정보를 찾을 수 없습니다.")
        return

    # 해당 배우의 정보 가져오기
    idx = actor_ids.index(target_actor_id)
    target_vector = features[idx].reshape(1, -1)  # 1x768 형태
    target_info = main_infos[idx]

    # 모든 배우와의 코사인 유사도 계산
    similarities = cosine_similarity(target_vector, features)[0]

    # 본인 제외하고 유사한 배우 top_n 선정
    similar_indices = np.argsort(similarities)[::-1]  # 유사도 높은 순 정렬
    similar_indices = [i for i in similar_indices if actor_ids[i] != target_actor_id][:top_n]

    # 비교 대상 배우 정보 출력
    print(f"\n🎭 [유사도를 비교할 배우]")
    print(f"배우 {target_actor_id} - {target_info}")

    # 결과 출력
    print(f"\n🎭 [배우 {target_actor_id}와 유사한 배우 TOP {top_n}]")
    for rank, i in enumerate(similar_indices, start=1):
        print(f"{rank}. 배우 {actor_ids[i]} ({main_infos[i]}) - 유사도: {similarities[i]:.4f}")

# 비교할 배우 번호 설정
target_actor_id = 400  # 원하는 배우 번호 입력
find_similar_actors(target_actor_id)

In [None]:
js_code = """
const fs = require("fs");
const csv = require("csv-parser");
const cosineSimilarity = require("cosine-similarity");

const actorData = {}; // { actor_id: { mainInfo, features } }

fs.createReadStream("actor_features.csv")
  .pipe(csv())
  .on("data", (row) => {
    if (!row.actor_id || !row.main_info) return; // 필수 값 체크

    const actorId = parseInt(row.actor_id);
    const mainInfo = row.main_info;

    // 특징 벡터 추출
    const features = Object.keys(row)
      .filter((key) => key.startsWith("feature_"))
      .map((key) => Number(row[key]));

    if (features.length !== 768) {
      console.warn(`⚠️ 배우 ${actorId}의 특징 벡터 크기가 768이 아닙니다. 데이터 무시.`);
      return;
    }

    actorData[actorId] = { mainInfo, features };
  })
  .on("end", () => {
    console.log(`✅ 총 ${Object.keys(actorData).length}명의 배우 데이터 로드 완료!`);
    findSimilarActors(400); // 특정 배우와 유사한 배우 찾기 실행
  });

function findSimilarActors(targetActorId, topK = 3) {
  if (!actorData[targetActorId]) {
    console.error(`❌ 배우 ${targetActorId}의 데이터가 없습니다.`);
    return;
  }

  const targetMainInfo = actorData[targetActorId].mainInfo;
  console.log(`\n🔹 배우 ${targetActorId} (${targetMainInfo})\n`);

  const targetVector = actorData[targetActorId].features;
  const similarities = [];

  for (const [actorId, { mainInfo, features }] of Object.entries(actorData)) {
    if (parseInt(actorId) === targetActorId) continue;
    const similarity = cosineSimilarity(targetVector, features);
    similarities.push({ actorId: parseInt(actorId), mainInfo, similarity });
  }

  similarities.sort((a, b) => b.similarity - a.similarity);
  const topActors = similarities.slice(0, topK);

  console.log(`🎭 배우 ${targetActorId}와 가장 유사한 ${topK}명의 배우:`);
  console.table(topActors);
}
"""

# script.js 파일로 저장
with open("script.js", "w") as f:
    f.write(js_code)

print("✅ script.js 파일이 생성되었습니다.")

In [None]:
# 필요한 패키지 설치
!npm install csv-parser cosine-similarity

In [None]:
!node script.js