# 필수 라이브러리 설치

In [1]:
!pip install -U sentence-transformers faiss-cpu

Collecting faiss-cpu
  Downloading faiss_cpu-1.11.0-cp311-cp311-manylinux_2_28_x86_64.whl.metadata (4.8 kB)
Collecting nvidia-cuda-nvrtc-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_nvrtc_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_runtime_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.4.127 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cuda_cupti_cu12-12.4.127-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==9.1.0.70 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cudnn_cu12-9.1.0.70-py3-none-manylinux2014_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.4.5.8 (from torch>=1.11.0->sentence-transformers)
  Downloading nvidia_cublas_cu12-12.4.5.8-py3-none-manylinux2014_x86_6

# 깃허브에서 프로젝트 클론

In [2]:
!git clone https://jeongsy90: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@github.com/deyang0325/movie-reasoning-agent.git
%cd movie-reasoning-agent

Cloning into 'movie-reasoning-agent'...
remote: Enumerating objects: 21, done.[K
remote: Counting objects: 100% (21/21), done.[K
remote: Compressing objects: 100% (15/15), done.[K
remote: Total 21 (delta 0), reused 0 (delta 0), pack-reused 0 (from 0)[K
Receiving objects: 100% (21/21), 771.65 KiB | 7.72 MiB/s, done.
/content/movie-reasoning-agent


# 데이터 확인

In [3]:
import os

# movie-reasoning-agent 내부 폴더 확인
print("📁 현재 폴더 안의 파일 및 디렉토리:")
print(os.listdir())

# data_collector 폴더 안 내용 확인
print("\n📁 data_collector 폴더 내용:")
print(os.listdir("data_collector"))

📁 현재 폴더 안의 파일 및 디렉토리:
['README.md', 'data_collector', '.git']

📁 data_collector 폴더 내용:
['tmdb_korean_movies_2021.csv', 'tmdb_korean_movies_2024.csv', 'tmdb_korean_movies_2025.csv', 'README.md', 'requirements.txt', 'collect_movie_tmdb.py', 'tmdb_korean_movies_2023.csv', 'tmdb_korean_movies_2022.csv']


#CSV 불러오기 + 줄거리 컬럼

In [4]:
import pandas as pd

# 여러 파일 합쳐서 하나의 데이터프레임으로 만들기
dfs = []
for year in range(2021, 2026):
    path = f"data_collector/tmdb_korean_movies_{year}.csv"
    df = pd.read_csv(path)
    df["year"] = year  # 연도 메타태그 추가
    dfs.append(df)

movies_df = pd.concat(dfs, ignore_index=True)

# 데이터프레임의 기본 정보 보기
print("총 영화 수:", len(movies_df))
print("\n열(column) 목록:", movies_df.columns.tolist())
print("\n예시 1줄:")
print(movies_df.iloc[0])

총 영화 수: 3453

열(column) 목록: ['영화 ID', '제목', '원제', '개봉일', '줄거리', '장르', '국가', '제작사', '포스터 URL', '러닝타임', '평점', '투표수', '인기도', '감독', '주연', 'year']

예시 1줄:
영화 ID            1339078
제목          권리를 생산하는 일자리
원제          권리를 생산하는 일자리
개봉일           2021-01-01
줄거리                  NaN
장르                   NaN
국가                   NaN
제작사                  NaN
포스터 URL              NaN
러닝타임                  31
평점                   0.0
투표수                    0
인기도               0.0613
감독         Jang Ho-kyung
주연                   NaN
year                2021
Name: 0, dtype: object


# 줄거리 있는 영화만 필터링하고 문장 나누기

In [5]:
# 줄거리 결측치 제거
filtered_df = movies_df.dropna(subset=["줄거리"]).reset_index(drop=True)
print("줄거리 있는 영화 수:", len(filtered_df))

# 줄거리 목록 가져오기
summaries = filtered_df["줄거리"].tolist()
titles = filtered_df["제목"].tolist()
genres = filtered_df["장르"].tolist()
years = filtered_df["year"].tolist()

# 문장 단위로 나누기 (기본: 마침표 기준)
sentences = []
metas = []

for title, genre, year, summary in zip(titles, genres, years, summaries):
    for sent in summary.split(". "):
        if len(sent.strip()) > 5:  # 너무 짧은 문장 제외
            sentences.append(sent.strip())
            metas.append({
                "title": title,
                "genre": genre,
                "year": year
            })

print("전체 문장 수:", len(sentences))
print("예시:", sentences[0])

줄거리 있는 영화 수: 2609
전체 문장 수: 9101
예시: 연애와 인간관계에도 후기를 남길 수 있다면...?  포스트 코로나 시대, 비대면 만남이 일상화된 생활 속 자만추보다는 데이팅 어플이 익숙해져버린 미래


# 문장 임베딩 생성 (SentenceTransformer)

In [6]:
from sentence_transformers import SentenceTransformer

# LLaMA3 기반 sentence-transformer는 없으니 임시로 MiniLM 사용
model = SentenceTransformer('all-MiniLM-L6-v2')

# 벡터 생성
vectors = model.encode(sentences, show_progress_bar=True)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.5k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Batches:   0%|          | 0/285 [00:00<?, ?it/s]

# FAISS 인덱스 생성

In [7]:
import faiss
import numpy as np

# 벡터 차원 수 (예: 384차원)
dim = vectors.shape[1]

# FAISS 인덱스 생성 (L2 거리 기반)
index = faiss.IndexFlatL2(dim)

# 벡터들을 float32로 변환 후 추가
index.add(np.array(vectors).astype('float32'))

print("✅ FAISS 인덱스 생성 및 등록 완료!")

✅ FAISS 인덱스 생성 및 등록 완료!


# 사용자 질문으로 유사 문장 검색

In [11]:
# 🎯 사용자로부터 문장을 입력받고 전체 문장 기반으로 검색
query = input("🎯 보고 싶은 영화에 대해 설명해주세요 (예: 감동적인 가족 영화가 보고 싶어요): ")

# 문장 임베딩 및 검색
query_vec = model.encode([query]).astype('float32')
D_full, I_full = index.search(query_vec, k=5)

# 결과 출력 함수
def safe_print_result(idx):
    print(f"🎬 문장: {sentences[idx]}")
    try:
        print(f"📝 제목: {metas[idx]['title']}")
    except:
        print(f"📝 제목: [Index {idx} out of range]")
    try:
        print(f"🎭 장르: {metas[idx]['genre']}")
    except:
        print(f"🎭 장르: [Index {idx} out of range]")
    try:
        print(f"📅 연도: {metas[idx]['year']}")
    except:
        print(f"📅 연도: [Index {idx} out of range]")
    print("-" * 40)

print("🟡 전체 문장 기반 검색 결과")
for idx in I_full[0]:
    safe_print_result(idx)

🎯 보고 싶은 영화에 대해 설명해주세요 (예: 감동적인 가족 영화가 보고 싶어요): 감동적인 영화가 보고 싶어요
🟡 전체 문장 기반 검색 결과
🎬 문장: 영화감독 시연은 영원히 사랑하고 싶다
📝 제목: 잔존하다
🎭 장르: 다큐멘터리
📅 연도: 2024
----------------------------------------
🎬 문장: 휠체어 농구하면 장애인 농구로 알고 있다
📝 제목: 달팽이 농구단
🎭 장르: 드라마
📅 연도: 2024
----------------------------------------
🎬 문장: 진우도 준비하던 영화가 엎어진다
📝 제목: 오늘 출가합니다
🎭 장르: 드라마
📅 연도: 2023
----------------------------------------
🎬 문장: 도덕경에 빠져 무공 연마에 매진하던 장군보
📝 제목: 태극권: 악의 전령
🎭 장르: nan
📅 연도: 2021
----------------------------------------
🎬 문장: 복지관의 시설을 이용하는 노인 순례
📝 제목: 부모 바보
🎭 장르: 드라마
📅 연도: 2025
----------------------------------------


# 사용자 질문으로 유사 문장 검색(전체 쿼리, 키워드 추출)

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

# 🎯 사용자로부터 문장을 다시 입력받고 키워드 추출
query = input("🎯 보고 싶은 영화에 대해 설명해주세요 (예: 감동적인 가족 영화가 보고 싶어요): ")

# 키워드 추출 함수
def extract_keywords_tfidf(text, top_k=3):
    vectorizer = TfidfVectorizer(stop_words='english')
    X = vectorizer.fit_transform([text])
    scores = X.toarray()[0]
    indices = scores.argsort()[-top_k:][::-1]
    features = vectorizer.get_feature_names_out()
    return [features[i] for i in indices]

# 키워드 추출 및 병합
keywords = extract_keywords_tfidf(query)
keyword_query = " ".join(keywords)
print("📌 추출된 키워드:", keyword_query)

# 키워드 임베딩 및 검색
keyword_vec = model.encode([keyword_query]).astype('float32')
D_kw, I_kw = index.search(keyword_vec, k=5)

print("\n🔹 키워드 기반 검색 결과")
for idx in I_kw[0]:
    safe_print_result(idx)

🎯 보고 싶은 영화에 대해 설명해주세요 (예: 감동적인 가족 영화가 보고 싶어요): 감동적인 가족 영화가 보고 싶어요
📌 추출된 키워드: 영화가 싶어요 보고

🔹 키워드 기반 검색 결과
🎬 문장: 진우도 준비하던 영화가 엎어진다
📝 제목: 오늘 출가합니다
🎭 장르: 드라마
📅 연도: 2023
----------------------------------------
🎬 문장: 뷰티학과 캠퍼스 커플이었던 대로와 조아
📝 제목: 지금 이대로가 조아
🎭 장르: 드라마, 로맨스
📅 연도: 2024
----------------------------------------
🎬 문장: 떠밀리듯 시작한 촬영
📝 제목: 메소드연기
🎭 장르: 코미디
📅 연도: 2024
----------------------------------------
🎬 문장: 자취 생활 1년 차인 소호
📝 제목: 오늘도 참치마요
🎭 장르: nan
📅 연도: 2021
----------------------------------------
🎬 문장: 그는 관광객에게 야생 코뿔소를 보여 주고 돈을 번다
📝 제목: 버퍼존
🎭 장르: 다큐멘터리
📅 연도: 2023
----------------------------------------
