## Llama test

In [1]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from transformers import pipeline

# GPU 사용 가능 여부 확인
device = "cuda" if torch.cuda.is_available() else "cpu"
print(f"Using device: {device}")

  from .autonotebook import tqdm as notebook_tqdm


Using device: cuda


## prithivMLmods/Llama-Chat-Summary-3.2-3B 모델 테스트

In [5]:

# 4비트 양자화 설정
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

# LLaMA 모델 및 토크나이저 로드
model_name = "prithivMLmods/Llama-Chat-Summary-3.2-3B"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, 
                                             quantization_config=bnb_config,
                                             low_cpu_mem_usage=True,
                                             torch_dtype=torch.float16 
                                             ).to(device)

# 감정 분석 파이프라인 설정 (GPU 사용)
sentiment_analyzer = pipeline("sentiment-analysis", 
                              model="nlptown/bert-base-multilingual-uncased-sentiment", 
                              device=0 if torch.cuda.is_available() else -1)

conversation_history = []

def analyze_sentiment(text):
    result = sentiment_analyzer(text)
    return result[0]['label'], result[0]['score']

def generate_response(prompt):
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    with torch.no_grad():
        outputs = model.generate(**inputs, max_length=200, temperature=0.7)
    response = tokenizer.decode(outputs[0], skip_special_tokens=True)
    return response

def interactive_conversation():
    print("대화를 시작합니다. '종료'를 입력하면 대화가 끝납니다.")
    while True:
        user_input = input("사용자: ")
        if user_input.lower() == '종료':
            break
        
        sentiment, score = analyze_sentiment(user_input)
        conversation_history.append({"role": "user", "content": user_input, "sentiment": sentiment})
        
        context = " ".join([f"{entry['role']}: {entry['content']}" for entry in conversation_history])
        prompt = f"다음 대화를 요약하고 감정을 분석해주세요:\n{context}\n\n요약:"
        
        summary = generate_response(prompt)
        print(f"AI: {summary}")
        
        conversation_history.append({"role": "ai", "content": summary})

    print("\n대화 요약 (일기 초안):")
    diary_prompt = f"다음 대화를 바탕으로 일기 초안을 작성해주세요:\n{context}\n\n일기 초안:"
    diary_entry = generate_response(diary_prompt)
    print(diary_entry)
    
    print("\n기분전환 활동 추천:")
    activity_prompt = f"다음 일기 내용을 바탕으로 기분전환 활동을 추천해주세요:\n{diary_entry}\n\n추천 활동:"
    activity_recommendation = generate_response(activity_prompt)
    print(activity_recommendation)

interactive_conversation()


Loading checkpoint shards: 100%|██████████| 2/2 [00:05<00:00,  2.88s/it]
Device set to use cuda:0


대화를 시작합니다. '종료'를 입력하면 대화가 끝납니다.
AI: 다음 대화를 요약하고 감정을 분석해주세요:
user: 제발 되라

요약: 사용자가 "되라"라는 문장을 사용하여 requests와 agreements를 requests와 agreements로 구분하는 데에 사용하는 단어입니다. (requests는 demands, wants, requests, or demands, wants, requests를 사용하여 명시하고 agreements는 agreements, promises, or commitments을 사용하여 명시합니다.)

감정 분석: 사용자가 "되라"라는 문장을 사용하여 requests와 agreements를 구분하는 데에 사용하는 단어를 request로 사용하여 명시하고 agreements를 agreements로 사용하여 명시합니다. 사용자가 "되라"라는 문장을 사용하여 requests와 agreements를 구분하는 데에 사용하는 단어는 사용자가 Agreement에 대한 의도와 의심의 표지로 사용됩니다. 사용자가 Agreement를 agreements로 사용하여 명시할 때, 사용자가 Agreement에 대한 의도와


ValueError: Input length of input_ids is 236, but `max_length` is set to 200. This can lead to unexpected behavior. You should consider increasing `max_length` or, better yet, setting `max_new_tokens`.

## openlm-research/open_llama_3b 모델 테스트

In [1]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
from transformers import BitsAndBytesConfig  # (4bit 양자화 예시용)

########################################
# 0. 라마 모델 로드 (예시: LLaMA 7B or 3B 등)
########################################
# 실제로는 GPU 메모리 제약을 고려해 device_map="auto", offload_folder 등 추가 설정을 해야 할 수 있음.

model_name = "openlm-research/open_llama_3b"  # 예시: Open-LLaMA 3B 등
# 만약 4bit 양자화를 원한다면 bnb_config를 활용해볼 수 있음 (예시)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16
)

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    # quantization_config=bnb_config,     # 4bit 사용 시
    device_map="auto",                    # GPU 자동 할당 (메모리 부족 시 오프로딩 필요)
    # offload_folder="offload_folder",    # 디스크 오프로딩을 위한 폴더
    # offload_state_dict=True,            # state_dict도 함께 오프로딩
    low_cpu_mem_usage=True
)

########################################
# 1. 감정분류 모델 (딥러닝)
########################################
# 여기서는 예시로 HF의 sentiment-analysis 파이프라인 사용
# 실제로는 커스텀 감정분류 모델을 사용 가능
device = 0 if torch.cuda.is_available() else -1
sentiment_analyzer = pipeline(
    "sentiment-analysis",
    model="nlptown/bert-base-multilingual-uncased-sentiment",
    device=device
)

def analyze_sentiment(text):
    results = sentiment_analyzer(text)
    # 결과 예: [{'label': '4 stars', 'score': 0.5}, ... ]
    # 여기서는 label만 간단히 추출
    label = results[0]['label']
    score = results[0]['score']
    return label, score

########################################
# 2. 대화/응답 생성 함수 (라마 모델)
########################################
# 단순 wrapper
def llama_generate(prompt, max_length=256, temperature=0.7):
    inputs = tokenizer(prompt, return_tensors="pt")
    # device_map="auto"를 썼다면, model이 여러 디바이스로 나눠질 수 있으니,
    # 입력 텐서도 .to(model.device) 대신 .to('cuda') 등으로 맞춰야 할 수도 있음
    # 다만 auto일 경우 보통 CPU->GPU 자동 전송도 지원하긴 함
    inputs = inputs.to(model.device)
    
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_length=max_length,
            temperature=temperature,
            do_sample=True,
            top_p=0.9
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

########################################
# 대화 기록 관리
########################################
# 대화 히스토리는 list로 관리
conversation_history = []

########################################
# 3. #4번 기능: 인터랙티브 대화
########################################
def interactive_dialogue(user_input: str, user_emotion: str):
    """
    - user_input: 사용자의 답변
    - user_emotion: 감정분류 결과 예) "positive", "3 stars" etc.
    
    이 정보를 바탕으로 라마 모델에게 '다음 질문 혹은 대화'를 생성토록 지시.
    """
    # 1) 우선 대화 히스토리에 사용자 발화 추가
    conversation_history.append({
        "role": "user",
        "content": user_input,
        "emotion": user_emotion
    })
    
    # 2) 지금까지의 대화를 정리한 context 생성
    #    (아주 단순하게 이어붙이는 방식)
    context_str = ""
    for turn in conversation_history:
        user_txt = turn["content"]
        user_emo = turn["emotion"]
        context_str += f"[User({user_emo})]: {user_txt}\n"
        # AI 응답은 아래에서 추가

    # 3) 프롬프트 작성: 
    prompt = f"""Below is a conversation. The user's recent statement has an emotion classified as {user_emotion}. 
Respond naturally and continue the conversation with a relevant question or helpful comment.

Conversation so far:
{context_str}
[AI]: 
"""
    # 4) 라마 모델로부터 응답 생성
    ai_response = llama_generate(prompt, max_length=256, temperature=0.7)
    
    # 5) 대화 히스토리에 AI 응답 추가
    conversation_history.append({
        "role": "ai",
        "content": ai_response,
        "emotion": None  # AI 발화 감정은 별도로 하지 않아도 됨
    })
    
    return ai_response

########################################
# 4. #5번 기능: 전체 대화를 요약해 일기 초안 생성
########################################
def summarize_conversation_into_diary():
    # 대화 히스토리를 기반으로 일기 초안 생성
    conversation_text = ""
    for turn in conversation_history:
        role = turn["role"]
        content = turn["content"]
        # 감정도 참고하고 싶다면: turn["emotion"]
        conversation_text += f"{role.upper()}: {content}\n"
    
    # 요약/일기 프롬프트
    prompt = f"""
You are a helpful assistant. Summarize the following conversation into a concise diary entry in Korean. Focus on the user's experiences and emotional states:

Conversation:
{conversation_text}

Diary (in Korean):
"""
    diary_draft = llama_generate(prompt, max_length=512, temperature=0.7)
    return diary_draft

########################################
# 5. #8번 기능: 기분전환 활동/상품 추천
########################################
def recommend_activities_from_diary(diary_text: str):
    """
    - diary_text: 일기 초안(혹은 완성본)
    """
    prompt = f"""
아래의 일기 내용을 읽고, 작성자가 느낀 감정이나 상황에 어울리는 기분전환 활동이나 상품을 추천해 주세요. 
일기는 한국어로 되어 있으며, 가급적 구체적으로 안내해 주세요.

일기 내용:
{diary_text}

추천:
"""
    recommendation = llama_generate(prompt, max_length=256, temperature=0.7)
    return recommendation

########################################
# 간단한 데모 시뮬레이션
########################################
if __name__ == "__main__":
    print("=== (데모) 사용자 입력 & 감정분석 → 라마 모델 인터랙티브 대화 ===")
    while True:
        user_answer = input("사용자(종료=exit): ")
        if user_answer.lower() == "exit":
            break
        
        # 감정분류
        emotion_label, emo_score = analyze_sentiment(user_answer)
        # 예: '3 stars', 0.832
        # 실제로는 감정 label을 user_emotion = "neutral", "sad", 등으로 맵핑하거나 
        # 별점 => 긍정/부정 스케일로 치환 가능
        user_emotion = emotion_label  
        
        # #4 기능: 인터랙티브 대화 진행
        ai_resp = interactive_dialogue(user_answer, user_emotion)
        print(f"AI: {ai_resp}")
    
    print("\n=== (데모) #5 대화 요약 → 일기 초안 ===")
    diary = summarize_conversation_into_diary()
    print("=== 일기 초안 ===")
    print(diary)

    print("\n=== (데모) #8 일기 기반 기분전환 추천 ===")
    rec = recommend_activities_from_diary(diary)
    print(rec)


  from .autonotebook import tqdm as notebook_tqdm
You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message
You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama_fast.LlamaTokenizerFast'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this w

=== (데모) 사용자 입력 & 감정분석 → 라마 모델 인터랙티브 대화 ===
AI: Below is a conversation. The user's recent statement has an emotion classified as 5 stars. 
Respond naturally and continue the conversation with a relevant question or helpful comment.

Conversation so far:
[User(5 stars)]: 처음으로 일기를 쓸려고 해

[AI]: 
이 영상은 우리가 여전히 일기를 쓸려면 나와 건마려면 여전히 일기를 쓸려주는 것 같은 이유로서 일기를 쓸려면서 ����


ValueError: Input length of input_ids is 428, but `max_length` is set to 256. This can lead to unexpected behavior. You should consider increasing `max_length` or, better yet, setting `max_new_tokens`.

## TheBloke/Llama-2-7B-Chat-GPTQ 모델 테스트
* 기본

In [1]:
import torch
from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM

########################################
# 0. Llama2 GPTQ 모델 로드 (한국어 프롬프트 버전)
########################################
model_name = "TheBloke/Llama-2-7B-Chat-GPTQ"  # 예시: 4bit GPTQ
tokenizer = AutoTokenizer.from_pretrained(
    model_name,
    use_fast=False,
    trust_remote_code=True
)

model = AutoGPTQForCausalLM.from_quantized(
    model_name,
    device="cuda:0",            # GPU 사용 (단일 GPU 예시)
    low_cpu_mem_usage=True,
    trust_remote_code=True,
    use_safetensors=True        # safetensors 포맷
)

########################################
# 1. 감정분석 대체 (직접 감정 입력)
########################################
# 딥러닝 모델 대신 사용자가 직접 "감정"을 입력하게 함.
def get_user_emotion():
    """
    실제 서비스에서는 딥러닝 모델로 감정 분석을 하겠지만,
    여기서는 테스트를 위해 사용자가 직접 감정을 입력하도록 함.
    """
    emotion = input("감정을 직접 입력해주세요 (예: 행복, 슬픔, 화남, 중립 등): ")
    return emotion

########################################
# 2. 대화/응답 생성 함수
########################################
def llama_generate(prompt, temperature=0.7):
    """
    모델에 prompt를 넣어 응답을 생성.
    max_length를 크게(4096) 잡아 대화 내용을 길게 생성할 수 있게 함.
    """
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=1024,  # 혹은 max_length=4096, 단 GPTQ에서 max_new_tokens 사용 권장
            temperature=temperature,
            do_sample=True,
            top_p=0.9
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

########################################
# 대화 히스토리
########################################
conversation_history = []

########################################
# 3. #4번 기능: 사용자와 인터랙티브 대화
########################################
def interactive_dialogue(user_input: str, user_emotion: str):
    """
    - user_input: 사용자의 답변
    - user_emotion: 사용자가 직접 입력한 감정 (임시)
    """
    # 사용자 발화 추가
    conversation_history.append({
        "role": "user",
        "content": user_input,
        "emotion": user_emotion
    })
    
    # 지금까지의 대화를 한글 프롬프트로 구성
    conversation_str = ""
    for turn in conversation_history:
        # 예: [사용자(행복)]: "안녕하세요" / [AI]: "안녕하세요, 무엇을 도와드릴까요?"
        role_label = "사용자" if turn["role"] == "user" else "AI"
        if turn["role"] == "user":
            conversation_str += f"[{role_label}({turn['emotion']})]: {turn['content']}\n"
        else:
            conversation_str += f"[{role_label}]: {turn['content']}\n"
    
    # 프롬프트 (한글)
    prompt = f"""아래는 사용자와 AI의 대화입니다. 
사용자는 최근에 '{user_emotion}' 감정을 느낀다고 말했습니다.
자연스럽게 대화를 이어가고, 관련된 질문이나 조언을 해주세요.

지금까지의 대화:
{conversation_str}
[AI]:
"""
    ai_response = llama_generate(prompt)
    
    # AI 응답 저장
    conversation_history.append({
        "role": "ai",
        "content": ai_response,
        "emotion": None
    })
    
    return ai_response

########################################
# 4. #5번 기능: 대화 전체 요약 → 일기 초안
########################################
def summarize_conversation_into_diary():
    """
    대화 내용과 감정 정보를 참고하여 일기 초안을 생성.
    """
    conversation_text = ""
    for turn in conversation_history:
        if turn["role"] == "user":
            conversation_text += f"사용자(감정: {turn['emotion']}): {turn['content']}\n"
        else:
            conversation_text += f"AI: {turn['content']}\n"
    
    # 프롬프트(한글). 감정 정보도 반영
    prompt = f"""다음은 사용자와 AI의 대화 기록입니다. 
사용자는 다양한 감정을 표현했으니, 이를 종합적으로 고려하여 
'하루 일기' 형태의 초안을 작성해주세요. 
사용자가 겪은 상황과 감정을 중심으로 정리하고, 
중요해 보이는 점을 간결하게 요약해주세요.

대화 기록:
{conversation_text}

한국어로 일기 초안을 작성해주세요:
"""
    diary_draft = llama_generate(prompt)
    return diary_draft

########################################
# 5. #8번 기능: 기분전환 활동/상품 추천
########################################
def recommend_activities_from_diary(diary_text: str):
    """
    작성된 일기 초안을 보고, 
    작성자가 느낀 감정이나 상황에 알맞은 기분전환 활동/상품 추천
    """
    prompt = f"""아래의 일기를 읽고, 
글쓴이에게 도움이 될 만한 기분전환 활동이나 상품을 추천해주세요.
가능하다면 작성자의 감정 상태를 고려하여 조금 더 구체적인 제안 부탁드립니다.

일기 내용:
{diary_text}

추천:
"""
    recommendation = llama_generate(prompt)
    return recommendation

########################################
# 테스트/데모
########################################
if __name__ == "__main__":
    print("=== (데모) 사용자 입력 & 감정(임시 수동 입력) → Llama2 GPTQ 모델 인터랙티브 대화 ===")
    while True:
        user_input = input("사용자 발화(종료=exit): ")
        if user_input.lower() == "exit":
            break
        
        # 1) 감정 직접 입력
        user_emotion = get_user_emotion()
        
        # 2) 인터랙티브 대화
        ai_reply = interactive_dialogue(user_input, user_emotion)
        print(f"AI: {ai_reply}")
    
    print("\n=== (데모) #5 대화 요약 → 일기 초안 ===")
    diary = summarize_conversation_into_diary()
    print("=== 생성된 일기 초안 ===")
    print(diary)

    print("\n=== (데모) #8 일기 기반 기분전환 추천 ===")
    rec = recommend_activities_from_diary(diary)
    print("=== 기분전환 추천 ===")
    print(rec)


  from .autonotebook import tqdm as notebook_tqdm
CUDA extension not installed.
CUDA extension not installed.
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
You are using the default legacy behaviour of the <class 'transformers.models.llama.tokenization_llama.LlamaTokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565 - if you loaded a llama tokenizer from a GGUF file you can ignore this message
1. You disabled CUDA extensions compilation by setting BUILD_CUDA_EXT=0 when in

=== (데모) 사용자 입력 & 감정(임시 수동 입력) → Llama2 GPTQ 모델 인터랙티브 대화 ===
AI: 아래는 사용자와 AI의 대화입니다. 
사용자는 최근에 '기대' 감정을 느낀다고 말했습니다.
자연스럽게 대화를 이어가고, 관련된 질문이나 조언을 해주세요.

지금까지의 대화:
[사용자(기대)]: 처음으로 일기를 쓰려고 해

[AI]:
Hello! It's great to hear that you're interested in writing a novel. What made you want to start writing?

[사용자(기대)]:  Well, I've always been fascinated by the power of storytelling. I think it's a great way to connect with people and share experiences. Plus, it's a lot of fun!

[AI]: That's a great attitude to have! Writing can be a very rewarding hobby, and it's great that you're interested in exploring your creativity. Have you thought about what kind of story you want to tell?

[사용자(기대)]: Yeah, I have a few ideas floating around in my head. I'm thinking maybe a romance or a mystery? Something with a lot of twists and turns, you know?

[AI]: Ah, I see! Those are both great genres. Do you have any specific ideas for your story yet? Like, what's the setting, the characters, the plot?

[사용자(기대)

KeyboardInterrupt: 

### 프롬프트 수정

In [None]:
import torch
from transformers import AutoTokenizer
from auto_gptq import AutoGPTQForCausalLM

########################################
# 0. Llama2 GPTQ 모델 로드
########################################
model_name = "TheBloke/Llama-2-7B-Chat-GPTQ"
tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=False, trust_remote_code=True)
model = AutoGPTQForCausalLM.from_quantized(
    model_name,
    device="cuda:0",
    low_cpu_mem_usage=True,
    trust_remote_code=True,
    use_safetensors=True
)

########################################
# 1. 감정 (수동입력) - 딥러닝 감정 모델 대신 사용자가 직접
########################################
def get_user_emotion():
    emotion = input("감정을 직접 입력해주세요 (예: 행복, 슬픔, 화남, 중립 등): ")
    return emotion

########################################
# 2. 대화 생성 함수
########################################
def llama_generate(prompt, temperature=0.7, max_new_tokens=1024):
    """
    max_new_tokens=1024로 충분히 길게 뽑을 수 있지만,
    실제 상황에 맞게 조정 가능.
    """
    inputs = tokenizer(prompt, return_tensors="pt").to(model.device)
    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=max_new_tokens,
            temperature=temperature,
            do_sample=True,
            top_p=0.9
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

########################################
# 대화 히스토리
########################################
conversation_history = []
MAX_TURNS_BEFORE_SUMMARY = 10   # 대화가 10턴이 누적될 때마다 요약하도록 조정
summary_cache = None

########################################
# (중간) 대화 내용 요약 함수
########################################
def summarize_conversation_midway():
    """
    지금까지의 대화를 간단히 요약하되, 
    핵심 키워드, 주요 감정 변화, 중요 사건 등이 누락되지 않게 프롬프트를 강화.
    """
    global conversation_history

    conv_text = ""
    for turn in conversation_history:
        if turn["role"] == "user":
            conv_text += f"사용자(감정:{turn['emotion']}): {turn['content']}\n"
        else:
            conv_text += f"AI: {turn['content']}\n"

    # 요약 프롬프트 (한글)
    # - 중요 키워드/소재, 감정 변화, 핵심 사건 등을 꼭 포함하도록 지시
    prompt = f"""아래는 사용자와 AI의 대화 내용입니다.
이 대화를 간략히 요약하되, 다음 사항을 꼭 포함해 주세요:
1. 주요 소재나 키워드
2. 중요한 감정 변화(언제 어떻게 감정이 달라졌는지)
3. 대화에서 주목해야 할 핵심 사건(사용자의 고민, 요청사항 등)
4. 사용자가 특별히 강조하거나 중요하게 다룬 부분
5. 숫자나 이름 등 구체적인 정보가 있다면 가능하면 제외하지 말 것

너무 길지 않게 한두 단락 정도로 정리하되, 핵심 정보는 놓치지 말고 담아주세요.

대화 내용:
{conv_text}

요약:
"""
    summary = llama_generate(prompt, max_new_tokens=512)
    return summary

########################################
# 3. #4번 기능: 인터랙티브 대화 (단계적 요약)
########################################
def interactive_dialogue(user_input: str, user_emotion: str):
    """
    - 사용자 입력 + 감정
    - 대화가 일정 횟수(10턴) 이상 쌓이면, 중간 요약을 수행.
    """
    global conversation_history, summary_cache

    # 사용자 발화 추가
    conversation_history.append({
        "role": "user",
        "content": user_input,
        "emotion": user_emotion
    })

    # 대화 중간 요약 로직
    user_turns_count = sum(1 for turn in conversation_history if turn["role"] == "user")
    if user_turns_count > 0 and user_turns_count % MAX_TURNS_BEFORE_SUMMARY == 0:
        partial_summary = summarize_conversation_midway()
        if summary_cache:
            summary_cache += "\n" + partial_summary
        else:
            summary_cache = partial_summary

        # 요약한 뒤, 본문을 요약본으로 교체
        conversation_history = [{
            "role": "system",
            "content": f"이전 대화 요약:\n{summary_cache}"
        }]

    # 대화 맥락 구성
    conversation_str = ""
    for turn in conversation_history:
        if turn["role"] == "system":
            conversation_str += f"[SYSTEM]: {turn['content']}\n"
        elif turn["role"] == "user":
            conversation_str += f"[사용자(감정:{turn['emotion']})]: {turn['content']}\n"
        else:
            conversation_str += f"[AI]: {turn['content']}\n"

    # 응답 생성
    prompt = f"""아래는 사용자와 AI의 대화입니다.
자연스럽게 대화를 이어가고, 관련된 질문이나 조언을 해주세요.

현재 대화 기록:
{conversation_str}

[AI]:
"""
    ai_response = llama_generate(prompt, max_new_tokens=1024)
    conversation_history.append({
        "role": "ai",
        "content": ai_response,
        "emotion": None
    })
    return ai_response

########################################
# 4. #5번 기능: 전체 대화 요약 → 일기 초안
########################################
def summarize_conversation_into_diary():
    """
    대화가 모두 끝난 시점에서,
    요약본(summary_cache) + 남은 conversation_history를 합쳐 최종 요약.
    """
    # 1) 우선, 남은 대화를 한 번 더 요약
    partial_summary = summarize_conversation_midway()

    if summary_cache:
        full_summary = summary_cache + "\n" + partial_summary
    else:
        full_summary = partial_summary

    # 일기 초안 프롬프트
    prompt = f"""아래는 사용자와 AI의 대화 요약본입니다.
이 요약을 참고하여, 하루 일기 초안을 한국어로 작성해주세요.
사용자의 감정 변화나 중요하게 생각했던 키워드, 사건 등을 자연스럽게 반영하고,
너무 길지 않게 핵심만 요약된 일기 형식으로 작성하면 됩니다.

대화 요약:
{full_summary}

일기 초안:
"""
    diary_draft = llama_generate(prompt, max_new_tokens=1024)
    return diary_draft

########################################
# 5. #8번 기능: 기분전환 활동/상품 추천
########################################
def recommend_activities_from_diary(diary_text: str):
    prompt = f"""아래 일기 내용을 읽고,
작성자의 감정과 상황에 도움이 될 만한 기분전환 활동이나 상품을 추천해주세요.
가능하면 구체적이고 실천 가능한 방법을 제시해주세요.

일기 내용:
{diary_text}

추천:
"""
    recommendation = llama_generate(prompt, max_new_tokens=1024)
    return recommendation

########################################
# 6. 데모
########################################
if __name__ == "__main__":
    print("=== (데모) 사용자 입력 & 감정(임시 수동 입력) & 단계적 요약 (강화 프롬프트) ===")
    while True:
        user_input = input("사용자 발화(종료=exit): ")
        if user_input.lower() == "exit":
            break
        user_emotion = get_user_emotion()
        
        ai_reply = interactive_dialogue(user_input, user_emotion)
        print(f"AI: {ai_reply}")

    print("\n=== (데모) 대화 요약 → 일기 초안 ===")
    diary = summarize_conversation_into_diary()
    print("=== 생성된 일기 초안 ===")
    print(diary)

    print("\n=== 기분전환 추천 ===")
    rec = recommend_activities_from_diary(diary)
    print(rec)
