In [1]:
import os
import sys
from langchain_community.document_loaders.csv_loader import CSVLoader
from pathlib import Path
from langchain_openai import ChatOpenAI,OpenAIEmbeddings
import os
from dotenv import load_dotenv
load_dotenv()
from langchain.document_loaders import CSVLoader
from langchain.text_splitter import TextSplitter
from langchain.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.prompts import PromptTemplate
import pandas as pd
import networkx as nx
import math

os.chdir('/Users/mac/AIworkspace/LLMWORKSPACE/RAG_Rec')
# Set the OpenAI API key environment variable
os.environ["OPENAI_API_KEY"] = os.getenv('OPENAI_API_KEY')

# 🎯 Raptor 기반 추천 시스템 실험 흐름 정리

이 실험은 영화 평점 데이터를 기반으로 사용자의 시청 패턴을 요약하고, 비슷한 사용자 집단을 찾아 추천하는 **2단계 필터링 기반 추천 시스템**입니다.  
사용자의 **장르별 시청 성향 요약 → 유사한 사용자 탐색 → 최신 시청 기록 기반 필터링 → 공통된 영화 추천** 흐름으로 구성됩니다.

---

##  1차 검색: 사용자 성향 기반 계층적 클러스터링 (Raptor Tree)

1. **사용자 영화 시청 패턴 요약 (Header 생성)**  
   - 6040명 사용자의 시청 데이터를 기반으로, 각 사용자의 **장르별 평균 평점**과 **시청 횟수**를 계산합니다.
   - 이 정보를 LLM에 입력하여 해당 사용자의 시청 성향을 자연어 형태로 요약한 **chunk header**를 생성합니다.
     - 예: `"Drama(4.5), Comedy(3.9), Action(4.2)..."`

2. **유사 사용자 클러스터링 (Raptor Tree 구축)**  
   - 사용자 header를 임베딩한 후, 계층적 클러스터링을 통해 유사한 사용자들을 **트리 구조로 그룹화**합니다.
   - 클러스터링은 다단계로 수행되며, 상위 레벨에서는 넓은 범위의 유사성을, 하위 레벨에서는 더 정밀한 유사성을 반영합니다.

3. **유사도 기반 검색 (트리 탐색)**  
   - 특정 사용자의 header 임베딩과 트리 내 클러스터 임베딩 간의 **cosine similarity**를 계산합니다.
   - 상위 레벨부터 탐색을 시작하여, **유사도 변화율이 특정 임계값(r)**을 초과할 때까지 하위 레벨로 내려가며 탐색을 진행합니다.
   - 탐색이 멈춘 시점의 클러스터 내 유사 사용자들이 **1차 필터링 결과**입니다.

---

##  2차 검색: 최신 시청 기록 기반 필터링 및 추천

1. **최근 시청 기록 기반 유사 사용자 필터링**  
   - 1차 필터링된 유사 사용자 중, **target 사용자가 가장 최근에 본 영화**를 **같이 본 사용자**만 추려냅니다.

2. **해당 청크 및 주변 context 추출 (메타청킹 기반)**  
   - 필터링된 유저들이 본 청크 중, 최근 본 영화가 포함된 **chunk**와 **앞뒤 window size n 청크**를 함께 추출합니다.
   - 이 때 청크는 사용자의 **장르/평점 변화 시점**을 기준으로 분할된 **메타청크**입니다.

3. **공통 영화 기반 추천**  
   - 최종 필터링된 청크들로부터 **사용자-영화 그래프**를 생성합니다.
   - 그래프를 통해 **여러 사용자가 공통으로 본 영화 Top-10**을 추출합니다.
   - 이 중에서 **target 사용자가 이미 본 영화는 제외**하고, 나머지를 최종 추천 리스트로 구성합니다.

---

##  핵심 요약

- **1차 필터링**: 사용자 header를 기반으로 의미 기반 유사 사용자 탐색
- **2차 필터링**: 최근 시청 영화 기록으로 더욱 정밀하게 필터링
- **최종 추천**: 유사 사용자들이 공통적으로 본 영화를 기반으로 추천

In [2]:
# 영화기록 데이터 
import pandas as pd
file_path = "data/movies.dat"
df2 = pd.read_csv(file_path, delimiter="::", engine="python", header=None,encoding="latin1")
df2.columns = ["MovieID", "Title", "Genres"]

file_path = "data/ratings.dat"
df = pd.read_csv(file_path, delimiter="::", engine="python", header=None,encoding="latin1")
df.columns = ["UserId", "MovieID", "Ratings","timestamp"]
new_df=df.merge(df2, on='MovieID')
df_sorted = new_df.sort_values(by=['UserId', 'timestamp']).reset_index(drop=True)


In [3]:
df_sorted

Unnamed: 0,UserId,MovieID,Ratings,timestamp,Title,Genres
0,1,3186,4,978300019,"Girl, Interrupted (1999)",Drama
1,1,1270,5,978300055,Back to the Future (1985),Comedy|Sci-Fi
2,1,1721,4,978300055,Titanic (1997),Drama|Romance
3,1,1022,5,978300055,Cinderella (1950),Animation|Children's|Musical
4,1,2340,3,978300103,Meet Joe Black (1998),Romance
...,...,...,...,...,...,...
1000204,6040,2917,4,997454429,Body Heat (1981),Crime|Thriller
1000205,6040,1921,4,997454464,Pi (1998),Sci-Fi|Thriller
1000206,6040,1784,3,997454464,As Good As It Gets (1997),Comedy|Drama
1000207,6040,161,3,997454486,Crimson Tide (1995),Drama|Thriller|War


In [10]:
# --- 2. 사용자별 interaction 문자열 생성 ---
df_sorted['interaction'] = df_sorted.apply(
    lambda row: f"{row['Genres']} (Rating: {row['Ratings']})", axis=1
)

# 사용자별 interaction 연결
user_interactions = df_sorted.groupby('UserId')['interaction'].apply(' → '.join).reset_index()


# 컬럼명 변경
user_interactions.columns = ['UserId', 'interaction_text']


# graph embedding 
- 노드를 유저와 장르만으로 
- 평점과 시청 횟수를 엔티티로

In [11]:
user_interactions

Unnamed: 0,UserId,interaction_text
0,1,Drama (Rating: 4) → Comedy|Sci-Fi (Rating: 5) ...
1,2,Action|Adventure (Rating: 4) → Action|Adventur...
2,3,Drama|Thriller (Rating: 3) → Comedy|Drama (Rat...
3,4,Action|Adventure|Romance|Sci-Fi|War (Rating: 3...
4,5,Comedy|Horror (Rating: 1) → Drama|Thriller (Ra...
...,...,...
6035,6036,Drama|Romance (Rating: 4) → Horror|Sci-Fi (Rat...
6036,6037,Action|Sci-Fi (Rating: 1) → Western (Rating: 3...
6037,6038,Drama|Romance|War (Rating: 3) → Children's|Com...
6038,6039,Drama (Rating: 4) → Drama|Thriller (Rating: 4)...


### 1. meta chunking

- 최소 조건 없는 청킹 

In [5]:
import pandas as pd

# --- 1. 청킹을 위한 함수 정의 ---
def chunk_user_interactions(user_df):
    chunks = []
    current_chunk = []
    prev_genres = set()
    prev_rating = None
    
    for idx, row in user_df.iterrows():
        current_genres = set(row['interaction'].split(" (Rating: ")[0].split(", "))  # 장르 추출
        current_rating = int(row['interaction'].split(" (Rating: ")[1].strip(")"))  # 평점 추출
        
        # 첫 번째 행은 무조건 새로운 청크로 시작
        if not current_chunk:
            current_chunk.append(row['interaction'])
            prev_genres = current_genres
            prev_rating = current_rating
            continue
        
        # 청킹 조건 확인
        genre_change = not current_genres.intersection(prev_genres)  # 이전 장르와 겹치는 부분이 없는 경우
        rating_change = abs(current_rating - prev_rating) >= 3  # 평점이 3 이상 차이나는 경우
        
        if genre_change and rating_change:
            chunks.append(" → ".join(current_chunk))  # 이전 청크 저장
            current_chunk = []  # 새로운 청크 시작
            
        # 현재 행을 청크에 추가
        current_chunk.append(row['interaction'])
        prev_genres = current_genres
        prev_rating = current_rating

    # 마지막 청크 추가
    if current_chunk:
        chunks.append(" → ".join(current_chunk))
    
    return chunks

# --- 2. 사용자별 청킹 적용 ---
chunked_interactions = user_interactions.groupby("UserId")["interaction_text"].apply(
    lambda x: chunk_user_interactions(pd.DataFrame({"interaction": x.iloc[0].split(" → ")}))
).reset_index()

# 청크를 DataFrame으로 변환
chunked_interactions = chunked_interactions.explode("interaction_text").reset_index(drop=True)

- 최소 2개 이상의 상호작용이 남도록 하는 코드 

In [4]:
import pandas as pd

# --- 1. 청킹을 위한 함수 정의 ---
def chunk_user_interactions(user_df):
    chunks = []
    current_chunk = []
    prev_genres = set()
    prev_rating = None
    
    for idx, row in user_df.iterrows():
        current_genres = set(row['interaction'].split(" (Rating: ")[0].split(", "))  # 장르 추출
        current_rating = int(row['interaction'].split(" (Rating: ")[1].strip(")"))  # 평점 추출
        
        # 첫 번째 행은 무조건 새로운 청크로 시작
        if not current_chunk:
            current_chunk.append(row['interaction'])
            prev_genres = current_genres
            prev_rating = current_rating
            continue
        
        # 청킹 조건 확인
        genre_change = not current_genres.intersection(prev_genres)  # 이전 장르와 겹치는 부분이 없는 경우
        rating_change = abs(current_rating - prev_rating) >= 3  # 평점이 3 이상 차이나는 경우
        
        if genre_change and rating_change and len(current_chunk) >= 2:  # 최소 2개 이상의 청크
            chunks.append(" → ".join(current_chunk))  # 이전 청크 저장
            current_chunk = []  # 새로운 청크 시작

        # 현재 행을 청크에 추가
        current_chunk.append(row['interaction'])
        prev_genres = current_genres
        prev_rating = current_rating

    # 마지막 청크 추가 (조건을 만족하는 경우만 추가)
    if len(current_chunk) >= 2:
        chunks.append(" → ".join(current_chunk))
    
    return chunks

# --- 2. 사용자별 청킹 적용 ---
chunked_interactions = user_interactions.groupby("UserId")["interaction_text"].apply(
    lambda x: chunk_user_interactions(pd.DataFrame({"interaction": x.iloc[0].split(" → ")}))
).reset_index()

# 청크를 DataFrame으로 변환
chunked_interactions = chunked_interactions.explode("interaction_text").reset_index(drop=True)


### 2. header 구성- LLM 활용

In [54]:
ci=chunked_interactions.iloc[:10]

- version1

In [68]:
import openai
import pandas as pd
import os

# --- 1. Set OpenAI API Key ---
client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# --- 2. Strict Few-shot Prompt Template ---
STRICT_PROMPT_TEMPLATE = """
### Example 1:
**Input:**
- Genre Flow: Action (Rating: 5) → Thriller (Rating: 4) → Drama (Rating: 2)
- Characteristics: The user prefers action and thriller genres and tends to give lower ratings to drama films.

**Output:** 
"Prefers action and thriller movies, often giving high ratings. Shows less interest in drama."

### Example 2:
**Input:**
- Genre Flow: Romance (Rating: 4) → Comedy (Rating: 5) → Fantasy (Rating: 3)
- Characteristics: The user enjoys romance and comedy films with lighthearted themes but rates fantasy lower.

**Output:** 
"Enjoys romance and comedy, favoring lighthearted themes. Less interest in fantasy."

### Example 3:
**Input:**
- Genre Flow: Sci-Fi (Rating: 5) → Horror (Rating: 4) → Mystery (Rating: 2)
- Characteristics: Strong preference for sci-fi and horror, with lower ratings for mystery.

**Output:** 
"Strong preference for sci-fi and horror. Mystery receives lower ratings."

### Example 4:
**Input:**
- Genre Flow: Drama (Rating: 3) → War (Rating: 4) → Documentary (Rating: 2)
- Characteristics: Prefers war and drama movies while rating documentaries lower.

**Output:** 
"Prefers war and drama. Less interested in documentaries."
"""

# --- 3. Function to Generate Concise Summaries ---
def generate_summary(chunk_text):
    prompt = f"""
{STRICT_PROMPT_TEMPLATE}

### Input:
- Genre Flow: {chunk_text}
- Characteristics: Summarize the user's movie preferences in **one or two sentences** with a focus on key trends.

### Output:
"""
    try:
        response = client.chat.completions.create(
            model="gpt-3.5-turbo",  # Use "gpt-4-turbo" if needed
            messages=[
                {"role": "system", "content": "Summarize movie viewing patterns in a **concise and structured** format."},
                {"role": "user", "content": prompt}
            ],
            max_tokens=50,  # Ensures concise responses
            temperature=0.5  # Reduces randomness
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        print(f"❌ OpenAI API Error: {e}")
        return None

# --- 4. Apply Summarization to Chunks ---
def generate_chunk_summaries(chunked_df):
    chunked_df["summary"] = chunked_df["interaction_text"].apply(generate_summary)
    return chunked_df

# --- 5. Run the Process ---
ci2 = generate_chunk_summaries(ci)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  chunked_df["summary"] = chunked_df["interaction_text"].apply(generate_summary)


- version2

In [80]:
import openai
import pandas as pd
import os

# --- 1. Set OpenAI API Key ---
client = openai.OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

# --- 2. Optimized Few-shot Prompt Template ---
COMPACT_PROMPT_TEMPLATE = """
### Example 1:
**Input:**
Action (Rating: 5) → Thriller (Rating: 4) → Drama (Rating: 2)

**Output:** 
"Prefers action and thriller. Less interest in drama."

### Example 2:
**Input:**
Romance (Rating: 4) → Comedy (Rating: 5) → Fantasy (Rating: 3)

**Output:** 
"Enjoys romance and comedy. Less interest in fantasy."
"""

# --- 3. Function to Generate Concise Summaries ---
def truncate_genre_flow(chunk_text, max_pairs=5):
    """Truncates genre flow to avoid excessive tokens."""
    genre_pairs = chunk_text.split(" → ")
    if len(genre_pairs) > max_pairs:
        genre_pairs = genre_pairs[:max_pairs]  # Keep only first N pairs
    return " → ".join(genre_pairs)

def generate_summary(chunk_text):
    truncated_text = truncate_genre_flow(chunk_text)

    prompt = f"""
{COMPACT_PROMPT_TEMPLATE}

### Input:
{truncated_text}

**Output:**
"""
    try:
        response = client.chat.completions.create(
            model="gpt-3.5-turbo",  # Use "gpt-4-turbo" if needed
            messages=[
                {"role": "system", "content": "Summarize movie viewing patterns concisely in a structured format."},
                {"role": "user", "content": prompt}
            ],
            max_tokens=40,  # Ensures short summaries
            temperature=0.5
        )
        return response.choices[0].message.content.strip()
    except Exception as e:
        print(f"❌ OpenAI API Error: {e}")
        return None

# --- 4. Apply Summarization to Chunks ---
def generate_chunk_summaries(chunked_df):
    chunked_df["summary"] = chunked_df["interaction_text"].apply(generate_summary)
    return chunked_df

c3= chunked_interactions.iloc[:100]
# --- 5. Run the Process ---
c4 = generate_chunk_summaries(c3)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  chunked_df["summary"] = chunked_df["interaction_text"].apply(generate_summary)


In [7]:
chunked_interactions.interaction_text[0]

"Drama (Rating: 4) → Comedy|Sci-Fi (Rating: 5) → Drama|Romance (Rating: 4) → Animation|Children's|Musical (Rating: 5) → Romance (Rating: 3) → Drama (Rating: 5) → Drama (Rating: 4) → Comedy|Drama (Rating: 5) → Drama (Rating: 4) → Drama (Rating: 5) → Animation (Rating: 3) → Action|Adventure|Fantasy|Sci-Fi (Rating: 4) → Adventure|Children's|Drama|Musical (Rating: 4) → Crime|Drama|Thriller (Rating: 4) → Action|Crime|Romance (Rating: 4) → Drama (Rating: 5) → Action|Drama|War (Rating: 5) → Drama (Rating: 5) → Musical (Rating: 4) → Musical (Rating: 5) → Drama (Rating: 4) → Animation|Children's (Rating: 4) → Drama (Rating: 5) → Children's|Comedy|Musical (Rating: 5) → Children's|Drama|Fantasy|Sci-Fi (Rating: 4) → Musical|Romance (Rating: 3) → Action|Adventure|Drama (Rating: 5) → Comedy|Fantasy (Rating: 4) → Thriller (Rating: 4) → Drama (Rating: 4) → Animation|Children's|Musical (Rating: 3) → Comedy (Rating: 4) → Children's|Drama (Rating: 4) → Animation|Children's|Comedy (Rating: 4) → Comedy (Ra

## 그래프 임베딩 활용 