In [1]:
# test_hyperclova_response.py
import os
import sys
sys.path.append('.')

from langchain_naver import ChatClovaX
from config import Config
import re
import json

def test_hyperclova_response():
    """HyperClova X 응답 테스트 및 분석"""
    
    # HyperClova X 초기화
    try:
        client = ChatClovaX(
            api_key=Config.HYPERCLOVA_X_API_KEY,
            model=Config.HYPERCLOVA_MODEL,
            max_tokens=3000,
            temperature=0.5,
            top_p=0.8
        )
        print("✅ HyperClova X 초기화 성공")
    except Exception as e:
        print(f"❌ HyperClova X 초기화 실패: {e}")
        return
    
    # 테스트용 프롬프트
    prompt = '''
당신은 한국 퇴직연금 전문 분석가입니다. 아래 지시사항을 정확히 따라 답변하세요.

**중요: 다섯 가지 제목을 반드시 사용하세요. 반드시 아래 양식 그대로 답변하세요. 각 섹션의 제목을 정확히 사용하세요.**

투자자 정보: 30세 위험중립형
경제상황: GDP 3.2%, 인플레이션 2.1%, 기준금리 3.5%

---

[매크로경제분석]
한국 경제 현황과 전망을 정확히 2-3문장으로 작성하세요.

[ETF시장동향]
국내 ETF 시장 트렌드를 정확히 2-3문장으로 작성하세요.

[투자전략]
30세 위험중립형 투자자를 위한 맞춤 투자 전략을 정확히 2-3문장으로 작성하세요.

[리스크요인]
주요 위험요인을 정확히 2-3문장으로 작성하세요.

[포트폴리오]
아래 JSON 형식으로만 답변하세요. 다른 설명은 추가하지 마세요.
8개 국내 ETF의 비중 합계는 반드시 1.0이 되어야 합니다.
{"KODEX 200": 0.20, "TIGER 200": 0.15, "KODEX 국고채10년": 0.25, "KODEX 단기채권": 0.15, "KODEX 2차전지산업": 0.10, "KODEX 골드선물(H)": 0.08, "TIGER 국내리츠": 0.07}

**주의사항:**
1. 각 섹션 제목은 대괄호 [] 안에 정확히 작성
2. 각 섹션 사이에 빈 줄 삽입
3. 포트폴리오는 JSON 형식만 사용
4. 추가 설명이나 서론/결론 금지
5. 지정된 문장 수 엄수
'''
    
    try:
        # API 호출
        print("🤖 HyperClova X API 호출 중...")
        response = client.invoke(prompt)
        
        print("=" * 80)
        print("📝 HyperClova X 원본 응답:")
        print("=" * 80)
        print(response.content)
        print("=" * 80)
        
        # 응답 분석
        analyze_response(response.content)
        
        # 파싱 테스트
        test_parsing(response.content)
        
        return response.content
        
    except Exception as e:
        print(f"❌ API 호출 실패: {e}")
        return None

def analyze_response(response_text):
    """응답 분석"""
    print("\n📊 응답 분석:")
    print(f"- 총 문자 수: {len(response_text)}")
    print(f"- 줄 수: {len(response_text.split(chr(10)))}")
    
    # 백슬래시 문제 해결
    double_newline_pattern = r'\n\n+'
    paragraph_count = len(re.split(double_newline_pattern, response_text))
    print(f"- 단락 수 (두 줄바꿈 기준): {paragraph_count}")
    
    # 섹션 헤더 찾기
    sections = ['매크로경제분석', 'ETF시장동향', '투자전략', '리스크요인', '포트폴리오']
    found_sections = []
    
    for section in sections:
        if f'[{section}]' in response_text:
            found_sections.append(section)
        elif section in response_text:
            found_sections.append(f"{section} (대괄호 없음)")
    
    print(f"- 발견된 섹션: {found_sections}")
    
    # JSON 패턴 찾기
    json_pattern = r'\{[^{}]*\}'
    json_patterns = re.findall(json_pattern, response_text)
    print(f"- JSON 패턴 수: {len(json_patterns)}")
    
    if json_patterns:
        print("- 발견된 JSON:")
        for i, pattern in enumerate(json_patterns):
            print(f"  {i+1}: {pattern}")

def test_parsing(response_text):
    """파싱 테스트"""
    print("\n🔍 파싱 테스트:")
    
    # 1. 줄바꿈 기반 블록 분할
    double_newline_pattern = r"\n\n+"
    blocks = re.split(double_newline_pattern, response_text.strip())
    
    print(f"📦 분할된 블록 수: {len(blocks)}")
    
    for i, block in enumerate(blocks):
        block = block.strip()
        if len(block) > 10:
            preview = block[:100] + '...' if len(block) > 100 else block
            print(f"블록 {i+1}: {preview}")
    
    # 2. 섹션별 분류 테스트
    sections = classify_blocks_test(blocks)
    
    print("\n📋 섹션 분류 결과:")
    for section_key, content in sections.items():
        print(f"- {section_key}: {len(content)} 문자")
        if content:
            preview = content[:100] + '...' if len(content) > 100 else content
            print(f"  내용: {preview}")
    
    # 3. 포트폴리오 추출 테스트
    portfolio = extract_portfolio_test(blocks)
    
    print(f"\n💼 포트폴리오 추출 결과: {len(portfolio)}개 ETF")
    for etf_name, weight in portfolio.items():
        print(f"- {etf_name}: {weight:.3f}")

def classify_blocks_test(blocks):
    """블록 분류 테스트"""
    sections = {
        'macro': '',
        'market': '',
        'strategy': '',
        'risk': ''
    }
    
    section_patterns = {
        'macro': [r'매크로경제분석', r'경제분석', r'경제상황', r'매크로'],
        'market': [r'ETF시장동향', r'시장동향', r'ETF동향', r'시장트렌드'],
        'strategy': [r'투자전략', r'투자방향', r'투자방법', r'전략'],
        'risk': [r'리스크요인', r'위험요인', r'리스크', r'위험']
    }
    
    for block in blocks:
        block = block.strip()
        if len(block) < 10:
            continue
        
        classified = False
        for section_key, patterns in section_patterns.items():
            for pattern in patterns:
                if re.search(pattern, block, re.IGNORECASE):
                    content = extract_content_from_block_test(block, pattern)
                    if content and len(content) > 20:
                        sections[section_key] = content
                        print(f"✅ {section_key}: {len(content)} 문자 분류")
                        classified = True
                        break
            if classified:
                break
        
        if not classified:
            print(f"❓ 분류되지 않은 블록: {block[:50]}...")
    
    return sections

def extract_content_from_block_test(block, header_pattern):
    """블록에서 내용 추출 테스트"""
    bracket_pattern = rf'\[?{header_pattern}\]?'
    content = re.sub(bracket_pattern, '', block, flags=re.IGNORECASE)
    
    # 앞뒤 특수문자 제거
    content = re.sub(r'^[\[\]\s\-\*\#]+', '', content)
    content = re.sub(r'[\[\]\s]+$', '', content)
    content = re.sub(r'\s+', ' ', content)
    
    return content.strip()

def extract_portfolio_test(blocks):
    """포트폴리오 추출 테스트"""
    portfolio = {}
    
    for block in blocks:
        if '포트폴리오' in block or '{' in block:
            json_patterns = [
                r'\{[^{}]*\}',
                r'\{.*?\}',
            ]
            
            for pattern in json_patterns:
                matches = re.findall(pattern, block, re.DOTALL)
                for match in matches:
                    try:
                        cleaned_json = clean_json_test(match)
                        portfolio_data = json.loads(cleaned_json)
                        
                        if isinstance(portfolio_data, dict) and len(portfolio_data) >= 5:
                            portfolio = portfolio_data
                            print(f"✅ JSON 파싱 성공: {len(portfolio_data)}개 항목")
                            break
                    except Exception as e:
                        print(f"❌ JSON 파싱 실패: {e}")
                        print(f"   원본: {match}")
                        print(f"   정제: {clean_json_test(match)}")
                        continue
    
    return portfolio

def clean_json_test(json_str):
    """JSON 정제 테스트"""
    original = json_str
    
    # 작은따옴표를 큰따옴표로
    json_str = json_str.replace("'", '"')
    
    # 키에 따옴표 추가 (없는 경우)
    key_pattern = r'([{,]\s*)([a-zA-Z가-힣][a-zA-Z가-힣0-9\s]*)\s*:'
    json_str = re.sub(key_pattern, r'\1"\2":', json_str)
    
    # 불필요한 공백 정리
    json_str = re.sub(r'\s+', ' ', json_str)
    
    # 마지막 쉼표 제거
    json_str = re.sub(r',\s*}', '}', json_str)
    
    print(f"JSON 정제: {original} -> {json_str}")
    
    return json_str.strip()

def save_response_to_file(response_text, filename="hyperclova_response.txt"):
    """응답을 파일로 저장"""
    try:
        with open(filename, 'w', encoding='utf-8') as f:
            f.write("=" * 80 + "\n")
            f.write("HyperClova X 응답 (원본)\n")
            f.write("=" * 80 + "\n")
            f.write(response_text)
            f.write("\n" + "=" * 80 + "\n")
        print(f"✅ 응답이 {filename}에 저장되었습니다.")
    except Exception as e:
        print(f"❌ 파일 저장 실패: {e}")

def debug_response_structure(response_text):
    """응답 구조 디버깅"""
    print("\n🔬 응답 구조 디버깅:")
    
    # 각 줄 분석
    lines = response_text.split('\n')
    print(f"총 {len(lines)}줄:")
    
    for i, line in enumerate(lines[:20]):  # 처음 20줄만 표시
        line_repr = repr(line)
        print(f"  {i+1:2d}: {line_repr}")
    
    if len(lines) > 20:
        print(f"  ... (나머지 {len(lines)-20}줄 생략)")
    
    # 빈 줄 위치 확인
    empty_lines = [i+1 for i, line in enumerate(lines) if line.strip() == '']
    print(f"\n빈 줄 위치: {empty_lines}")

if __name__ == "__main__":
    print("🧪 HyperClova X 응답 테스트 시작")
    print("=" * 80)
    
    response = test_hyperclova_response()
    
    if response:
        # 구조 디버깅
        debug_response_structure(response)
        
        # 파일로 저장
        save_response_to_file(response)
        
        print("\n" + "=" * 80)
        print("🎯 테스트 완료!")
        print("응답을 확인하여 파싱 로직을 개선하세요.")
        print("hyperclova_response.txt 파일도 확인해보세요.")
    else:
        print("❌ 테스트 실패")


🧪 HyperClova X 응답 테스트 시작
✅ HyperClova X 초기화 성공
🤖 HyperClova X API 호출 중...
📝 HyperClova X 원본 응답:
[매크로경제분석]  
현재 한국의 GDP는 3.2% 성장 중이며, 인플레이션율은 2.1%, 기준금리는 3.5%를 유지하고 있습니다. 이러한 경제 상황 속에서 한국은 안정적인 성장을 지속할 것으로 보이지만, 글로벌 경기 둔화와 같은 외부 요인에 따른 리스크도 존재합니다. 따라서 투자자들은 국내외 경제 동향을 주의 깊게 살펴보며 신중한 투자 결정을 내려야 할 것입니다.

[ETF시장동향]  
최근 국내 ETF 시장은 다양한 테마와 자산군에 대한 투자자들의 관심이 증가하고 있습니다. 특히 ESG(환경·사회·지배구조) 및 기술 관련 ETF들이 주목받고 있으며, 채권 및 부동산 등 안전자산에 대한 수요 또한 꾸준히 이어지고 있습니다. 이에 따라 국내 ETF 시장의 다변화가 가속화되고 있는 추세입니다.

[투자전략]  
30세 위험중립형 투자자에게는 균형 잡힌 포트폴리오 구성이 중요합니다. 주식과 채권의 비율을 조절하여 변동성에 대비하고, 특정 산업보다는 분산투자를 통해 리스크를 최소화하는 것이 좋습니다. 또한 장기적인 관점에서 ESG와 같은 테마를 고려하며 투자를 진행하는 것도 추천됩니다.

[리스크요인]  
한국 경제에서 주요 위험 요소로는 글로벌 공급망 이슈, 원자재 가격 상승, 그리고 금리 변동이 있습니다. 특히 미국 연준(Fed)의 금리 정책 변화는 국내 금융 시장에 큰 영향을 미칠 수 있으므로 지속적인 모니터링이 필요합니다. 더불어 인구 고령화 문제 역시 장기적으로 경제 성장에 부정적인 영향을 줄 가능성이 높습니다.

[포트폴리오]
```json
{
    "KODEX 200": 0.20,
    "TIGER 200": 0.15,
    "KODEX 국고채10년": 0.25,
    "KODEX 단기채권": 0.15,
    "KODEX 2차전지산업": 0.10,
    "KODEX 골드선물