In [1]:
import os
import sys
from langchain_community.document_loaders.csv_loader import CSVLoader
from pathlib import Path
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
import os
from dotenv import load_dotenv
load_dotenv()
from langchain.document_loaders import CSVLoader
from langchain.text_splitter import TextSplitter
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.prompts import PromptTemplate
import pandas as pd
import networkx as nx
import math
import torch
import numpy as np
from sentence_transformers import SentenceTransformer
from sklearn.mixture import GaussianMixture
from sklearn.metrics.pairwise import cosine_similarity
from collections import defaultdict
import transformers
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline


# os.chdir('/Users/mac/AIworkspace/LLMWORKSPACE/RAG_Rec')
# Set the OpenAI API key environment variable
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')

  from tqdm.autonotebook import tqdm, trange


In [2]:
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")
device

device(type='cpu')

#  Raptor 기반 추천 시스템 실험 흐름 정리

이 실험은 영화 평점 데이터를 기반으로 사용자의 시청 패턴을 요약하고, 비슷한 사용자 집단을 찾아 추천하는 **2단계 필터링 기반 추천 시스템**입니다.  
사용자의 **장르별 시청 성향 요약 → 유사한 사용자 탐색 → 최신 시청 기록 기반 필터링 → 공통된 영화 추천** 흐름으로 구성됩니다.

---

##  1차 검색: 사용자 성향 기반 계층적 클러스터링 (Raptor Tree)

1. **사용자 영화 시청 패턴 요약 (Header 생성)**  
   - 6040명 사용자의 시청 데이터를 기반으로, 각 사용자의 **장르별 평균 평점**과 **시청 횟수**를 계산합니다.
   - 이 정보를 LLM에 입력하여 해당 사용자의 시청 성향을 자연어 형태로 요약한 **chunk header**를 생성합니다.
     - 예: `"Drama(4.5), Comedy(3.9), Action(4.2)..."`

2. **유사 사용자 클러스터링 (Raptor Tree 구축)**  
   - 사용자 header를 임베딩한 후, 계층적 클러스터링을 통해 유사한 사용자들을 **트리 구조로 그룹화**합니다.
   - 클러스터링은 다단계로 수행되며, 상위 레벨에서는 넓은 범위의 유사성을, 하위 레벨에서는 더 정밀한 유사성을 반영합니다.

3. **유사도 기반 검색 (트리 탐색)**  
   - 특정 사용자의 header 임베딩과 트리 내 클러스터 임베딩 간의 **cosine similarity**를 계산합니다.
   - 상위 레벨부터 탐색을 시작하여, **유사도 변화율이 특정 임계값(r)** 을 초과할 때까지 하위 레벨로 내려가며 탐색을 진행합니다.
   - 탐색이 멈춘 시점의 클러스터 내 유사 사용자들이 **1차 필터링 결과**입니다.

---

##  2차 검색: 최신 시청 기록 기반 필터링 및 추천

1. **최근 시청 기록 기반 유사 사용자 필터링**  
   - 1차 필터링된 유사 사용자 중, **target 사용자가 가장 최근에 본 영화**를 **같이 본 사용자**만 추려냅니다.

2. **해당 청크 및 주변 context 추출 (메타청킹 기반)**  
   - 필터링된 유저들이 본 청크 중, 최근 본 영화가 포함된 **chunk**와 **앞뒤 window size n 청크**를 함께 추출합니다.
   - 이 때 청크는 사용자의 **장르/평점 변화 시점**을 기준으로 분할된 **메타청크**입니다.

3. **공통 영화 기반 추천**  
   - 최종 필터링된 청크들로부터 **사용자-영화 그래프**를 생성합니다.
   - 그래프를 통해 **여러 사용자가 공통으로 본 영화 Top-10**을 추출합니다.
   - 이 중에서 **target 사용자가 이미 본 영화는 제외**하고, 나머지를 최종 추천 리스트로 구성합니다.

---

##  핵심 요약

- **1차 필터링**: 사용자 header를 기반으로 의미 기반 유사 사용자 탐색
- **2차 필터링**: 최근 시청 영화 기록으로 더욱 정밀하게 필터링
- **최종 추천**: 유사 사용자들이 공통적으로 본 영화를 기반으로 추천

# 1. 유저별로 시청기록 정리 후 header 생성

In [3]:
"""
영화 평점 데이터를 기반으로 사용자별 영화 시청 이력을 전처리하는 코드입니다.
각 사용자가 어떤 장르의 영화를 어떤 평점으로 시청했는지를 시간 순서대로 정리하고,
이를 바탕으로 사용자별 interaction 리스트를 생성합니다.
"""

# 1. 영화 정보 불러오기
file_path = "data/movies.dat"
df2 = pd.read_csv(file_path, delimiter="::", engine="python", header=None, encoding="latin1")
df2.columns = ["MovieID", "Title", "Genres"]  # 컬럼 이름 지정

# 2. 영화 평점 데이터 불러오기
file_path = "data/ratings.dat"
df = pd.read_csv(file_path, delimiter="::", engine="python", header=None, encoding="latin1")
df.columns = ["UserId", "MovieID", "Ratings", "timestamp"]  # 컬럼 이름 지정

# 3. 영화 정보와 평점 데이터를 MovieID를 기준으로 병합
new_df = df.merge(df2, on='MovieID')

# 4. 사용자 ID와 타임스탬프를 기준으로 정렬
df_sorted = new_df.sort_values(by=['UserId', 'timestamp']).reset_index(drop=True)

# 5. 각 영화 시청 기록을 "장르 (Rating: 평점)" 형식으로 변환
df_sorted['interaction'] = df_sorted.apply(
    lambda row: f"{row['Genres']} (Rating: {row['Ratings']})", axis=1
)

# 6. 사용자별로 interaction을 리스트 형태로 집계
user_interactions = df_sorted.groupby('UserId')['interaction'].apply(list).reset_index()

# 7. 컬럼명 명확하게 변경
user_interactions.columns = ['UserId', 'interaction_list']

In [4]:
"""
사용자별 시청 이력에서 장르별 평점 평균 및 시청 횟수를 추출하여 통계 정보를 생성합니다.
이 정보를 기반으로 LLM에게 입력할 수 있는 요약 형태의 텍스트를 구성합니다.
"""

from collections import defaultdict

# Step 2: 사용자별 장르 통계 정보 추출 함수 정의
def extract_genre_stats(interaction_list):
    """
    interaction_list: 사용자가 시청한 영화의 "장르 (Rating: 평점)" 형태의 리스트

    반환값:
        - avg_var_text: 장르별 평균 평점을 나타내는 문자열 (예: "Drama(4.2), Action(3.8)")
        - count_text: 장르별 시청 횟수를 나타내는 문자열 (예: "Drama(12), Action(8)")
    """
    genre_ratings = defaultdict(list)

    # 각 interaction 항목을 순회하며 장르별로 평점을 분리 저장
    for entry in interaction_list:
        genres, rating = entry.split(' (Rating: ')
        rating = float(rating.replace(')', ''))  # 괄호 제거 후 float 변환

        for genre in genres.split('|'):
            genre_ratings[genre].append(rating)

    # 장르별 평균 평점 계산 (소수점 2자리 반올림)
    avg = {g: round(pd.Series(r).mean(), 2) for g, r in genre_ratings.items()}

    # 장르별 시청 횟수 계산
    count = {g: len(r) for g, r in genre_ratings.items()}

    # 평균 평점 텍스트 생성
    avg_var_text = ', '.join([f"{g}({v})" for g, v in avg.items()])

    # 시청 횟수 텍스트 생성
    count_text = ', '.join([f"{g}({v})" for g, v in count.items()])

    return avg_var_text, count_text

# Step 3: 사용자별 통계 정보를 DataFrame에 적용
user_interactions[['avg_var_text', 'count_text']] = user_interactions['interaction_list'].apply(
    lambda x: pd.Series(extract_genre_stats(x))
)

# 최종적으로 사용할 열만 선택하여 정리
user_interactions_final = user_interactions[['UserId', 'avg_var_text', 'count_text']]

In [6]:
user_interactions_final

Unnamed: 0,UserId,avg_var_text,count_text
0,1,"Drama(4.43), Comedy(4.14), Sci-Fi(4.33), Roman...","Drama(21), Comedy(14), Sci-Fi(3), Romance(6), ..."
1,2,"Action(3.5), Adventure(3.74), Romance(3.71), S...","Action(56), Adventure(19), Romance(24), Sci-Fi..."
2,3,"Drama(4.0), Thriller(3.8), Comedy(3.77), Actio...","Drama(8), Thriller(5), Comedy(30), Action(23),..."
3,4,"Action(4.16), Adventure(3.83), Romance(4.0), S...","Action(19), Adventure(6), Romance(2), Sci-Fi(9..."
4,5,"Comedy(3.41), Horror(2.8), Drama(3.1), Thrille...","Comedy(56), Horror(10), Drama(104), Thriller(3..."
...,...,...,...
6035,6036,"Drama(3.51), Romance(3.35), Horror(2.99), Sci-...","Drama(372), Romance(122), Horror(74), Sci-Fi(1..."
6036,6037,"Action(3.64), Sci-Fi(3.69), Western(3.75), Dra...","Action(28), Sci-Fi(39), Western(4), Drama(98),..."
6037,6038,"Drama(3.89), Romance(4.17), War(4.0), Children...","Drama(9), Romance(6), War(4), Children's(1), C..."
6038,6039,"Drama(4.0), Thriller(4.14), Romance(3.8), War(...","Drama(28), Thriller(14), Romance(30), War(9), ..."


## llama 활용하여 각 유저별로 header 생성 
- 장르별 평균 평점 
- 장르별 분산 
- 시청횟수 

In [12]:
MY_HF_TOKEN = os.getenv('HUGGINGFACE_API_KEY')

'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'

In [11]:

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto"
    
)

pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer
)


### 현재 프롬프트
- 평점 + 시청횟수 => 둘다 높고 많으면 선호하는 장르 / 평점만 높고 횟수는 적으면 잠재 장르 

##### 추가할 수 있는 부분 
1. 다양한 장르를 골고르 => 시청횟수가 다 비슷하면 
2. 비선호하는 장르 고르기 
3. 분산을 통한 일관성 or 호불호 

In [3]:

# Function to Generate Concise Contextual Chunk Header Using CoT
def generate_chunk_header(avg_rating_text, count_text):
    system_message = (
        "You are an expert in analyzing movie viewing behavior. "
        "Your task is to analyze the user's movie preferences and generate a concise summary of their overall viewing pattern. "
        "Do NOT include specific rating numbers, viewing counts, or detailed explanations. "
        "Only provide a brief and meaningful summary of their primary preferences and emerging interests. "
        "Your final response should be 1-2 clear and natural sentences."
    )

    user_message = f"""
### INPUT DATA ###
1. **Genre Statistics (Average Rating):** {avg_rating_text}
2. **Genre Viewing Frequency (Count):** {count_text}

### OUTPUT FORMAT EXAMPLE ###
"This user enjoys emotional and family-oriented genres while occasionally exploring niche genres like Sci-Fi."

### RESPONSE ###
"""


    messages = [
        {"role": "system", "content": system_message},
        {"role": "user", "content": user_message},
    ]

    terminators = [
        pipeline.tokenizer.eos_token_id,
        pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
    ]

    outputs = pipeline(
        messages,
        max_new_tokens=512,
        eos_token_id=terminators,
        pad_token_id = terminators[0],
        do_sample=True,
        temperature=0.6,
        top_p=0.9
    )

    return outputs[0]['generated_text'][2]['content']



  from .autonotebook import tqdm as notebook_tqdm


In [89]:
user_interactions_final['chunk_header'] = user_interactions_final.apply(lambda row: generate_chunk_header(row['avg_var_text'], row['count_text']), axis=1)


In [10]:
# 유저별 헤더 데이터 불러오기
df= pd.read_csv('header_vanila.csv')

# 2.생성된 header를 활용하여 raptor에 적용

- 임베딩 모델 

In [4]:
import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.mixture import GaussianMixture
from sklearn.metrics.pairwise import cosine_similarity
# 만들어진 청크를 임베딩하는 클래스
class EmbeddingGenerator:
    def __init__(self, model_name='all-MiniLM-L6-v2'):
        device = 'cuda:0' if torch.cuda.is_available() else 'cpu'
        self.model = SentenceTransformer(model_name, device= device)
    
    def embed_texts(self, texts: list[str]) -> np.ndarray:
        # 텍스트 리스트를 임베딩 벡터로 변환하여 반환
        return self.model.encode(texts, convert_to_numpy=True, device='cuda' if torch.cuda.is_available() else 'cpu')


  from .autonotebook import tqdm as notebook_tqdm


- raptor 기반 검색

In [5]:
from sklearn.mixture import GaussianMixture
import numpy as np

class GMMClusterer:
    """
    Gaussian Mixture Model(GMM)을 이용해 클러스터링을 수행하는 클래스입니다.
    주로 텍스트 임베딩 벡터에 대해 사용되며, Raptor Tree 등에서 계층적 클러스터링에 활용됩니다.
    """
    def __init__(self, random_state=42):
        self.random_state = random_state

    def fit_predict(self, embeddings: np.ndarray, n_clusters: int) -> np.ndarray:
        """
        입력된 임베딩 벡터에 대해 GMM 기반 클러스터링을 수행하고, 각 데이터 포인트에 대해 클러스터 레이블을 반환합니다.

        Parameters:
        ----------
        embeddings : np.ndarray
            클러스터링에 사용할 텍스트 임베딩 벡터 (2차원 배열).
        n_clusters : int
            클러스터의 개수.

        Returns:
        -------
        np.ndarray
            각 데이터 포인트가 속한 클러스터의 레이블 배열.
        """
        # 각 계층마다 지정된 클러스터 수로 GMM 클러스터링 수행
        gmm = GaussianMixture(n_components=n_clusters, random_state=self.random_state)
        return gmm.fit_predict(embeddings)

In [6]:
from sklearn.metrics.pairwise import cosine_similarity
import numpy as np

class RaptorTree:
    """
    사용자의 요약된 텍스트(예: 장르 기반 헤더)를 계층적으로 클러스터링하여
    유사한 사용자를 탐색하기 위한 트리 구조를 생성하는 클래스.
    
    Parameters:
    ----------
    embedding_generator : object
        텍스트를 임베딩으로 변환해주는 클래스 (예: SentenceTransformer).
    clusterer : object
        클러스터링 알고리즘 (예: GMMClusterer).
    min_clusters : int
        각 레벨에서 최소 클러스터 개수.
    max_level : int
        트리의 최대 깊이.
    top_level_clusters : int
        최상위에서 시작할 클러스터 개수.
    """
    
    def __init__(self, embedding_generator, clusterer, min_clusters=2, max_level=5, top_level_clusters=100):
        self.embedding_generator = embedding_generator
        self.clusterer = clusterer
        self.min_clusters = min_clusters
        self.max_level = max_level
        self.top_level_clusters = top_level_clusters
        self.tree = {}  # 레벨별 클러스터 메타데이터 저장
        self.user_id_to_text = {}  # 유저 ID와 해당 텍스트 매핑

    def build_tree(self, texts: list[str], user_ids: list[str]):
        """
        계층적 클러스터링을 수행하여 Raptor Tree를 구성합니다.

        Parameters:
        ----------
        texts : list[str]
            사용자별 헤더 텍스트 리스트
        user_ids : list[str]
            텍스트와 매핑되는 사용자 ID 리스트

        Returns:
        -------
        dict
            트리 구조 (레벨별 클러스터 정보 딕셔너리)
        """
        self.user_id_to_text = dict(zip(user_ids, texts))
        current_texts = texts
        current_user_ids = user_ids
        current_level = 0
        parent_ids = None

        while len(current_texts) > 1 and current_level < self.max_level:
            embeddings = self.embedding_generator.embed_texts(current_texts)

            # 현재 단계에서 적절한 클러스터 수 계산
            n_clusters = max(
                self.min_clusters,
                min(len(current_texts) // 2, self.top_level_clusters // (current_level + 1))
            )

            cluster_labels = self.clusterer.fit_predict(embeddings, n_clusters=n_clusters)

            cluster_metadata = []
            next_level_texts = []
            next_level_user_ids = []

            for cluster_id in np.unique(cluster_labels):
                cluster_indices = np.where(cluster_labels == cluster_id)[0]
                cluster_texts = [current_texts[i] for i in cluster_indices]

                if len(cluster_texts) == 0:
                    continue

                if current_level == 0:
                    cluster_user_ids = [current_user_ids[i] for i in cluster_indices]
                else:
                    cluster_user_ids = []
                    for idx in cluster_indices:
                        child_cluster_id = current_user_ids[idx]
                        for child_meta in self.tree[current_level - 1]:
                            if child_meta["cluster_id"] == child_cluster_id:
                                cluster_user_ids.extend(child_meta["user_ids"])

                representative_text = max(cluster_texts, key=len)
                cluster_embeddings = embeddings[cluster_indices]
                mean_embedding = cluster_embeddings.mean(axis=0)

                metadata = {
                    "cluster_id": f"level_{current_level}_cluster_{cluster_id}",
                    "level": current_level,
                    "user_ids": cluster_user_ids,
                    "embedding": mean_embedding,
                    "parent_id": parent_ids if parent_ids else [],
                    "child_ids": None
                }

                cluster_metadata.append(metadata)
                next_level_texts.append(representative_text)
                next_level_user_ids.append(metadata["cluster_id"])

            self.tree[current_level] = cluster_metadata
            current_texts = next_level_texts
            current_user_ids = next_level_user_ids
            parent_ids = current_user_ids
            current_level += 1

        return self.tree

    def search_user_cluster(self, target_user_id: str, target_user_text: str, threshold=0.01):
        """
        계층적으로 클러스터를 탐색하여, 특정 유저와 가장 유사한 클러스터를 찾습니다.

        Parameters:
        ----------
        target_user_id : str
            검색 대상 사용자 ID
        target_user_text : str
            해당 사용자의 헤더 텍스트
        threshold : float
            유사도 변화율 임계값 (값이 클수록 상위에서 탐색 중단)

        Returns:
        -------
        tuple[str, list[str]]
            가장 유사한 클러스터 ID, 해당 클러스터 내 유사 사용자 목록 (본인 제외)
        """
        query_embedding = self.embedding_generator.embed_texts([target_user_text])[0]
        current_level = max(self.tree.keys())
        previous_similarity = None
        best_cluster = None

        while current_level >= 0:
            clusters = self.tree[current_level]
            clusters_filtered = []
            clusters_filtered_embeddings = []

            for cluster in clusters:
                cluster_user_ids = cluster["user_ids"]

                # 실제 사용자 텍스트만 추출 (클러스터 ID는 제외)
                texts_to_embed = [
                    self.user_id_to_text[uid]
                    for uid in cluster_user_ids
                    if uid != target_user_id and 'cluster' not in uid
                ]
                if not texts_to_embed:
                    continue

                embeddings_cluster = self.embedding_generator.embed_texts(texts_to_embed)
                mean_embedding = embeddings_cluster.mean(axis=0)

                clusters_filtered.append(cluster)
                clusters_filtered_embeddings.append(mean_embedding)

            if not clusters_filtered:
                break

            similarities = cosine_similarity([query_embedding], clusters_filtered_embeddings).flatten()
            best_idx = np.argmax(similarities)
            best_cluster = clusters_filtered[best_idx]
            current_similarity = similarities[best_idx]

            # 유사도 변화율이 threshold를 넘으면 멈춤
            if previous_similarity and abs(previous_similarity - current_similarity) / previous_similarity > threshold:
                break

            previous_similarity = current_similarity
            current_level -= 1

        best_cluster_users_excluded = [
            uid for uid in best_cluster["user_ids"] if uid != target_user_id
        ]
        return best_cluster["cluster_id"], best_cluster_users_excluded

- 클러스터 수를 늘리며 변화율의 증폭기간에서 멈춤 

In [8]:
# 임베딩 생성기 및 클러스터링 알고리즘 초기화
embedding_gen = EmbeddingGenerator()
clusterer = GMMClusterer()

# RAPTOR 트리 초기화
# min_clusters: 각 계층에서 최소 클러스터 개수
# max_level: 트리의 최대 깊이 (계층 수)
# top_level_clusters: 최상위 계층에서 생성할 최대 클러스터 수
# 계층이 내려갈수록 클러스터 개수는 줄어듦
raptor_tree = RaptorTree(
    embedding_gen, 
    clusterer,
    min_clusters=2,
    max_level=5,
    top_level_clusters=100
)

# 사용자 header 텍스트와 ID 리스트를 기반으로 트리 구조 생성
tree_structure = raptor_tree.build_tree(
    df.chunk_header.tolist(), 
    df.UserId.astype(str).tolist()
)

# 특정 사용자의 클러스터 검색 수행
# Self-exclusion 방식: 본인은 유사 사용자 집합에서 제외
target_user_id = "2"
target_user_text = df.loc[df.UserId == int(target_user_id), 'chunk_header'].iloc[0]

# 트리 탐색을 통해 유사한 클러스터 및 사용자 집합 탐색
# threshold: 유사도의 변화율이 해당 값 이상이면 탐색 종료
best_cluster_id, similar_users = raptor_tree.search_user_cluster(
    target_user_id, 
    target_user_text, 
    threshold=0.005
)

# 결과 출력
print(f"유저 {target_user_id}가 가장 유사한 클러스터: {best_cluster_id}")
print(f"해당 클러스터에 속한 유사 유저 목록 (본인 제외): {similar_users}")

유저 2가 가장 유사한 클러스터: level_2_cluster_16
해당 클러스터에 속한 유사 유저 목록 (본인 제외): ['46', '127', '304', '1089', '1302', '1424', '1610', '1726', '1927', '2101', '2126', '2146', '2263', '2297', '2363', '2441', '2514', '3144', '3352', '3460', '3567', '3636', '3673', '4000', '4031', '4109', '4160', '4587', '4690', '4874', '4892', '5040', '5069', '5469', '5703', '5895', '6034', '7', '277', '296', '431', '908', '1030', '1131', '1200', '1398', '1520', '1649', '1866', '2466', '2598', '2663', '3048', '3068', '3307', '3337', '3459', '3461', '3487', '3662', '3818', '3978', '4093', '4183', '4417', '4489', '4499', '4626', '5003', '5029', '5095', '5854', '5870', '5871', '5884', '5912', '5947', '6020', '185', '279', '422', '542', '633', '677', '700', '917', '1260', '1269', '1533', '1548', '1567', '1682', '2062', '2114', '2163', '2211', '2357', '2369', '2388', '2479', '2625', '2642', '2767', '2967', '3027', '3162', '3187', '3455', '3490', '3616', '3733', '3822', '3828', '3855', '4200', '4207', '4531', '4579', '5309'

- 1차 필터링 완료

In [12]:

len(similar_users) 

118

# 3. 2차 필터링 meta chunking

In [9]:
'''
메타 청크 해놓은 vectordb 불러오기
'''

embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")
vectorstore = FAISS.load_local(
    "vectorstore_index_ratings_min5_no",
    embeddings,
    allow_dangerous_deserialization=True  # 역직렬화 허용
)

  embeddings = HuggingFaceEmbeddings(model_name="sentence-transformers/all-MiniLM-L6-v2")


- 1차 검색과 2차 필터링(메타청킹) 한 것들의 교집합의 user들을 뽑음 

In [10]:
import ast
file_path = 'data/train_movie.csv'
data = pd.read_csv(file_path)

# 'movie_explain' 열의 문자열을 실제 리스트 형태로 변환
data['movie_explain'] = data['movie_explain'].apply(ast.literal_eval)

# 테스트용 정답 데이터셋 로드
file_path_test = 'data/test_movie.csv'
df_test = pd.read_csv(file_path_test)

# (1) 사용자의 최신 영화 구매 기록 가져오기
# 예시: 2번째 유저 (index=1)의 마지막 영화 기록
purchase_history = data.iloc[1]['movie_explain']

# (2) 정답 확인 (정답 평가용)
true_answer = df_test.iloc[1].movie_explain

# (3) 최신 구매 기록 중 마지막 영화를 쿼리로 설정
query = " ".join(purchase_history[-1:])  # 쿼리로 사용할 텍스트

# (4) 유사 사용자 리스트를 문자열 타입으로 변환
similar_users_str = set(map(str, similar_users))

# (5) FAISS 기반 벡터 검색기 설정
# top-k=500개의 유사한 문서를 검색
retriever = vectorstore.as_retriever(
    search_kwargs={
        "k": 500,
        # 필요 시 사용자 ID 기반 필터 추가 가능
    }
)

# (6) 최신 구매 영화(query)를 기반으로 문서 검색 수행
records = retriever.get_relevant_documents(query)

# (7) 검색된 문서들의 UserId 추출
record_user_ids = [str(record.metadata['UserId']) for record in records]

# (8) 검색 결과 중 유사 사용자와의 교집합 계산
intersection = similar_users_str.intersection(set(record_user_ids))

# (9) 검색된 문서 중 유사 사용자(similar_users)에 해당하는 것만 필터링
filtered_records = [
    record for record in records 
    if str(record.metadata['UserId']) in similar_users_str
]

"['1917 (Action|Adventure|Sci-Fi|Thriller) ratings: 3']"

In [39]:
len(filtered_records)
# 7명

7

In [12]:
from typing import List
from langchain.vectorstores import FAISS
from langchain.schema import Document

def get_documents_with_context(
    vectorstore: FAISS,
    filtered_records: List[Document],
    context_window: int = 1
) -> List[List[Document]]:
    """
    특정 유저의 검색된 문서를 기준으로, 해당 문서의 앞뒤 문맥(context)을 함께 수집합니다.

    예를 들어, 한 사용자의 청크 인덱스가 3이라면,
    context_window=1일 경우 인덱스 2, 3, 4에 해당하는 문서를 모두 포함하여 반환합니다.

    Args:
        vectorstore (FAISS): 전체 문서가 저장된 FAISS 벡터스토어 인스턴스
        filtered_records (List[Document]): 필터링된 검색 결과 (특정 유저들의 핵심 문서들)
        context_window (int): 앞뒤로 몇 개의 문서를 함께 가져올지 설정하는 윈도우 크기

    Returns:
        List[List[Document]]: 각 문서에 대해 해당 문서와 주변 문서들을 포함한 리스트의 리스트
    """
    
    # 전체 문서를 UserId, chunk_index 기준으로 저장
    all_docs = {}
    for doc in vectorstore.docstore._dict.values():
        user_id = str(doc.metadata['UserId'])
        chunk_idx = doc.metadata['chunk_index']
        
        if user_id not in all_docs:
            all_docs[user_id] = {}
        all_docs[user_id][chunk_idx] = doc
    
    # 각 문서에 대해 앞뒤 문맥 문서들을 포함한 결과 생성
    context_results = []
    
    for doc in filtered_records:
        current_user_id = str(doc.metadata['UserId'])
        current_chunk_index = doc.metadata['chunk_index']
        
        context_docs = []

        # 이전 문서 추가
        for i in range(current_chunk_index - context_window, current_chunk_index):
            if current_user_id in all_docs and i in all_docs[current_user_id]:
                context_docs.append(all_docs[current_user_id][i])
        
        # 현재 문서 추가
        context_docs.append(doc)
        
        # 이후 문서 추가
        for i in range(current_chunk_index + 1, current_chunk_index + context_window + 1):
            if current_user_id in all_docs and i in all_docs[current_user_id]:
                context_docs.append(all_docs[current_user_id][i])
        
        context_results.append(context_docs)
    
    return context_results

# 사용 예시: intersection 유저들의 청크 앞뒤 청크 추출
context_results = get_documents_with_context(
    vectorstore,
    filtered_records,
    context_window=1
)

In [13]:

flattened_results = [doc for sublist in context_results for doc in sublist]
record_summary = "\n".join([doc.page_content for doc in flattened_results])
record_summary

"3020 (Action|Drama) ratings: 5 292 (Action|Drama|Thriller) ratings: 3 1769 (Action|Thriller) ratings: 2 736 (Action|Adventure|Romance|Thriller) ratings: 2 1667 (Action|Drama) ratings: 4 434 (Action|Adventure|Crime) ratings: 3 511 (Action|Drama) ratings: 3 2126 (Action|Crime|Mystery|Thriller) ratings: 3 2094 (Action|Adventure|Sci-Fi) ratings: 3\n1544 (Action|Adventure|Sci-Fi|Thriller) ratings: 1 420 (Action|Comedy) ratings: 3 208 (Action|Adventure) ratings: 1 2409 (Action|Drama) ratings: 5 2410 (Action|Drama) ratings: 2\n2411 (Action|Drama) ratings: 5 2412 (Action|Drama) ratings: 2 1954 (Action|Drama) ratings: 5 2657 (Comedy|Horror|Musical|Sci-Fi) ratings: 2 2628 (Action|Adventure|Fantasy|Sci-Fi) ratings: 4\n1320 (Action|Horror|Sci-Fi|Thriller) ratings: 5 674 (Adventure|Sci-Fi) ratings: 4 2311 (Mystery|Sci-Fi) ratings: 4 1690 (Action|Horror|Sci-Fi) ratings: 4 2641 (Action|Adventure|Sci-Fi) ratings: 2 3300 (Action|Sci-Fi) ratings: 3 3033 (Comedy|Sci-Fi) ratings: 2 2094 (Action|Adventure

# 4. 그래프구조를 활용하여 가장 추출한 청크에서 공통으로 가장 많이 본 영화를 추출한다. 
- 이를 활용하여 generator의 프롬프트에 넣어 생성한다. 

In [14]:
import networkx as nx
import matplotlib.pyplot as plt
from collections import defaultdict
import re

def get_user_movies(data):
    """
    주어진 문서 리스트에서 사용자별로 시청한 영화 ID를 추출합니다.

    Args:
        data (List[Document]): 각 문서는 사용자와 영화 정보가 포함된 page_content를 가짐.

    Returns:
        dict: user_id를 키로, 해당 유저가 시청한 영화 ID 리스트를 값으로 가지는 딕셔너리.
    """
    user_movies = defaultdict(list)

    for doc in data:
        user_id = doc.metadata['UserId']
        page_content = doc.page_content

        # 정규식을 사용하여 영화 ID 추출 (형식: "영화ID (장르) ratings: N")
        movie_ids = re.findall(r'(\d+)(?= \()', page_content)
        user_movies[user_id].extend(movie_ids)

    return user_movies


def create_user_movie_graph(user_movies):
    """
    사용자-영화 관계를 나타내는 bipartite 그래프를 생성합니다.

    Args:
        user_movies (dict): 사용자별 영화 ID 리스트

    Returns:
        networkx.Graph: 사용자-영화 이분 그래프
    """
    G = nx.Graph()

    for user_id, movies in user_movies.items():
        user_node = f"User {user_id}"
        G.add_node(user_node, type='user')

        for movie_id in movies:
            movie_node = f"Movie {movie_id}"
            G.add_node(movie_node, type='movie')
            G.add_edge(user_node, movie_node)

    return G


def visualize_graph(G):
    """
    사용자-영화 그래프를 시각화하여 이미지 파일로 저장합니다.

    Args:
        G (networkx.Graph): 생성된 사용자-영화 그래프
    """
    plt.figure(figsize=(20, 15))

    users = [node for node in G.nodes() if G.nodes[node]['type'] == 'user']
    movies = [node for node in G.nodes() if G.nodes[node]['type'] == 'movie']

    pos = nx.spring_layout(G, k=0.5, iterations=50)

    nx.draw_networkx_nodes(G, pos, nodelist=users, node_color='lightblue', node_size=300, alpha=0.8)
    nx.draw_networkx_nodes(G, pos, nodelist=movies, node_color='lightgreen', node_size=200, alpha=0.8)
    nx.draw_networkx_edges(G, pos, alpha=0.5)
    nx.draw_networkx_labels(G, pos, font_size=8, font_weight="bold")

    plt.title("User-Movie Relationship Graph", fontsize=16)
    plt.axis('off')
    plt.tight_layout()
    plt.savefig('user_movie_graph.png', dpi=300, bbox_inches='tight')
    plt.close()


def extract_previous_movie_ids(purchase_history):
    """
    구매 기록에서 영화 ID만 추출합니다.

    Args:
        purchase_history (List[str]): 사용자의 영화 구매 기록

    Returns:
        set: 구매했던 영화들의 ID 집합
    """
    return set(re.findall(r'(\d+)(?=\s\()', ' '.join(purchase_history)))


def filter_movies_by_history(top_movies, previous_movie_ids):
    """
    이미 본 영화는 제외하고 추천할 영화를 필터링합니다.

    Args:
        top_movies (List[Tuple[str, int]]): (영화명, 시청 유저 수) 리스트
        previous_movie_ids (set): 사용자 과거 시청 영화 ID

    Returns:
        List[Tuple[str, int]]: 필터링된 추천 영화 리스트
    """
    filtered_movies = [
        (movie, count)
        for movie, count in top_movies
        if movie.split()[1] not in previous_movie_ids  # "Movie 1234" → "1234"
    ]
    return filtered_movies


def get_top_10_common_movies(G):
    """
    여러 유저들이 공통으로 많이 본 영화 Top-N을 추출합니다.

    Args:
        G (networkx.Graph): 사용자-영화 이분 그래프

    Returns:
        List[Tuple[str, int]]: 영화 ID와 시청 유저 수를 포함한 상위 영화 리스트
    """
    movies = [node for node in G.nodes() if G.nodes[node]['type'] == 'movie']
    movie_view_counts = {movie: len(list(G.neighbors(movie))) for movie in movies}
    top_10_movies = sorted(movie_view_counts.items(), key=lambda x: x[1], reverse=True)[:20]
    return top_10_movies


# --- 아래는 위 함수들을 이용한 실행 흐름 예시 ---

# 사용자별 영화 ID 추출
user_movies = get_user_movies(flattened_results)

# 사용자-영화 관계 그래프 생성
G = create_user_movie_graph(user_movies)

# 사용자 구매 이력에서 과거 시청 영화 ID 추출
previous_movie_ids = extract_previous_movie_ids(purchase_history)

# 사용자들이 많이 본 상위 영화 추출
top_movies = get_top_10_common_movies(G)

# 과거에 본 영화 제외한 추천 후보 필터링
filtered_movies = filter_movies_by_history(top_movies, previous_movie_ids)

# 최종 추천 결과 출력
for movie, count in filtered_movies:
    print(f"{movie}: watched by {count} users")

Movie 788: watched by 3 users
Movie 1573: watched by 3 users
Movie 2094: watched by 2 users
Movie 1320: watched by 2 users
Movie 329: watched by 2 users
Movie 1917: watched by 2 users
Movie 1779: watched by 2 users
Movie 173: watched by 2 users
Movie 3354: watched by 2 users
Movie 880: watched by 2 users
Movie 748: watched by 2 users
Movie 1580: watched by 2 users
Movie 1589: watched by 2 users
Movie 1748: watched by 2 users
Movie 802: watched by 2 users
Movie 3020: watched by 1 users


# 실험 시작

- raptor로 1차 검색 유저 필터링

In [61]:
import pandas as pd
import re

results = pd.DataFrame(columns=["UserId", "Hit", "Answer", "Recommended"])

#  상위 100명의 사용자에 대해 반복 평가 수행
for idx in range(100):
    # (1) 현재 유저 정보 불러오기
    target_user_id = str(idx + 1)  # UserId는 1부터 시작
    target_user_text = df.loc[df.UserId == int(target_user_id), 'chunk_header'].iloc[0]

    # (2) RAPTOR 트리 탐색 → 가장 유사한 클러스터 및 유사 유저 추출
    best_cluster_id, similar_users = raptor_tree.search_user_cluster(
        target_user_id, target_user_text, threshold=0.005
    )

    # (3) 최신 구매 영화 정보를 기반으로 검색 쿼리 생성
    purchase_history = data.iloc[idx]['movie_explain']
    query = " ".join(purchase_history[-1:])

    # (4) FAISS 기반 검색 수행
    records = retriever.get_relevant_documents(query)
    record_user_ids = [str(record.metadata['UserId']) for record in records]

    # (5) 검색 결과 중 유사 유저와 겹치는 유저만 필터링
    intersection = set(map(str, similar_users)).intersection(set(record_user_ids))
    filtered_records = [
        record for record in records
        if str(record.metadata['UserId']) in intersection
    ]

    # (6) 필터링된 문서에서 앞뒤 문맥 청크까지 포함한 문서 리스트 생성
    context_results = get_documents_with_context(vectorstore, filtered_records, context_window=1)
    flattened_results = [doc for sublist in context_results for doc in sublist]

    # (7) 사용자-영화 관계 그래프 구축
    user_movies = get_user_movies(flattened_results)
    G = create_user_movie_graph(user_movies)

    # (8) 상위 인기 영화 Top-N 추출 후, 과거 시청 영화는 제거
    top_movies = get_top_10_common_movies(G)
    filtered_movies = filter_movies_by_history(top_movies, extract_previous_movie_ids(purchase_history))

    # (9) 정답 영화 ID 추출 (Test Set에서)
    answer = df_test.iloc[idx].movie_explain
    answer_id = re.search(r"(\d+)", answer).group(1)

    # (10) 추천 영화 목록에서 영화 ID만 추출
    filtered_movie_ids = [re.search(r"(\d+)", movie).group(1) for movie, _ in filtered_movies]

    # (11) 추천 목록에 정답이 포함되어 있는지 여부 판단 (Hit = 1, Miss = 0)
    hit = 1 if answer_id in filtered_movie_ids else 0

    # (12) 결과 기록
    results = pd.concat([results, pd.DataFrame({
        "UserId": [target_user_id],
        "Hit": [hit],
        "Answer": [answer_id],
        "Recommended": [", ".join(filtered_movie_ids)]
    })], ignore_index=True)

In [62]:
results.to_csv('rapor_res.csv', index=False)

In [65]:
results.Hit.value_counts(normalize=True)

Hit
0    0.924669
1    0.075331
Name: proportion, dtype: float64

- 0.075

## 휴리스틱 - 수정할 수 있는 변수들 
- raptor 파라미터 : threshold, 
- faiss 검색 범위 k 
- window 확장 

In [15]:
import pandas as pd
import re

# (1) 실험할 파라미터 목록 정의
threshold_values = [0.001, 0.005, 0.01]  # RAPTOR 트리 탐색 정밀도 조절
faiss_k_values = [300, 500, 700]        # FAISS 검색 시 top-k 문서 수
window_values = [1, 2, 3]               # 메타청크 앞뒤 문맥 포함 범위

# 전체 실험 결과를 저장할 DataFrame 초기화
all_results = pd.DataFrame(columns=["UserId", "Hit", "Answer", "Recommended",
                                    "threshold", "faiss_k", "window"])

# (2) 모든 파라미터 조합에 대해 실험 반복
for threshold in threshold_values:
    for k_val in faiss_k_values:
        for window_size in window_values:
            # 각 파라미터 세팅별 결과 저장용 DataFrame
            results = pd.DataFrame(columns=["UserId", "Hit", "Answer", "Recommended"])

            # 100명의 유저에 대해 추천 및 평가 반복
            for idx in range(100):
                target_user_id = str(idx + 1)
                target_user_text = df.loc[df.UserId == int(target_user_id), 'chunk_header'].iloc[0]

                # (2-1) RAPTOR 트리로 유사 사용자 탐색 (threshold 적용)
                best_cluster_id, similar_users = raptor_tree.search_user_cluster(
                    target_user_id, 
                    target_user_text, 
                    threshold=threshold
                )

                # 최신 구매 영화 → 검색 쿼리로 사용
                purchase_history = data.iloc[idx]['movie_explain']
                query = " ".join(purchase_history[-1:])

                # (2-2) FAISS 검색기 설정 (top-k 변경)
                retriever_k = vectorstore.as_retriever(search_kwargs={"k": k_val})
                records = retriever_k.get_relevant_documents(query)

                # 유사 사용자 중 검색된 문서만 필터링
                record_user_ids = [str(record.metadata['UserId']) for record in records]
                intersection = set(map(str, similar_users)).intersection(set(record_user_ids))
                filtered_records = [
                    record for record in records
                    if str(record.metadata['UserId']) in intersection
                ]

                # (2-3) 메타청크 앞뒤 문맥 포함 (window 적용)
                context_results = get_documents_with_context(
                    vectorstore, filtered_records, context_window=window_size
                )
                flattened_results = [doc for sublist in context_results for doc in sublist]

                # (2-4) 사용자-영화 그래프 생성 및 공통 영화 추출
                user_movies = get_user_movies(flattened_results)
                G = create_user_movie_graph(user_movies)
                top_movies = get_top_10_common_movies(G)

                # (2-5) 이전 구매 영화는 추천에서 제거
                filtered_movies = filter_movies_by_history(
                    top_movies, extract_previous_movie_ids(purchase_history)
                )

                # (2-6) 정답(정답 영화 ID)과 추천 비교 → Hit 여부 계산
                answer = df_test.iloc[idx].movie_explain
                answer_id = re.search(r"(\d+)", answer).group(1)
                filtered_movie_ids = [re.search(r"(\d+)", movie).group(1) for movie, _ in filtered_movies]
                hit = 1 if answer_id in filtered_movie_ids else 0

                # (2-7) 단일 유저 결과 저장
                results = pd.concat([results, pd.DataFrame({
                    "UserId": [target_user_id],
                    "Hit": [hit],
                    "Answer": [answer_id],
                    "Recommended": [", ".join(filtered_movie_ids)]
                })], ignore_index=True)

            # (3) 각 파라미터 조합 결과에 파라미터 값 명시
            results["threshold"] = threshold
            results["faiss_k"] = k_val
            results["window"] = window_size

            # 전체 결과 병합
            all_results = pd.concat([all_results, results], ignore_index=True)

# (4) 파라미터 조합별 평균 Hit Rate 계산
grouped = all_results.groupby(["threshold", "faiss_k", "window"])
performance = grouped["Hit"].mean().reset_index(name="HitRate")

  all_results = pd.concat([all_results, results], ignore_index=True)


In [19]:
performance.to_csv('perform_100_thresholds_faiss_k_window_size.csv', index=False)

In [14]:
# pd.read_csv('perform_100_thresholds_faiss_k_window_size.csv')