In [1]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import os
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

model = ChatOpenAI(model="gpt-4o", openai_api_key=openai_api_key, temperature=0.0)

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "당신은 {ability} 에 능숙한 어시스턴트입니다. 20자 이내로 응답하세요",
        ),
        # 대화 기록을 변수로 사용, history 가 MessageHistory 의 key 가 됨
        MessagesPlaceholder(variable_name="history"),
        ("human", "{input}"),  # 사용자 입력을 변수로 사용
    ]
)
runnable = prompt | model  # 프롬프트와 모델을 연결하여 runnable 객체 생성


In [40]:
def summarize_retrieved_documents(filtered_results, query):
    """검색된 문서를 LLM을 활용하여 요약"""
    if not filtered_results:
        return ""

    document_texts = "\n\n".join([
        f"[유사도: {score:.2f}]\n{doc.page_content}" 
        for doc, score in filtered_results
    ])

    print(f'#################################################\ndocument_texts: \n{document_texts}')

    # LLM을 사용하여 문서 요약
    prompt = f"""
    다음은 이전 대화 내역에서 현재 질문 "{query}"와 관련성이 높은 부분들입니다. 이를 참고하여 다음 지침에 따라 요약해주세요:

    1. 현재 질문에 직접적으로 관련된 정보를 우선적으로 추출하세요.
    2. 코드 블록과 그 설명은 온전히 보존하세요.
    3. 유사도 점수가 높은 내용에 더 큰 가중치를 두세요.
    4. 정보를 다음 형식으로 구조화하세요:
    - 핵심 개념/용어 설명
    - 관련 코드 예시
    - 주요 인사이트/팁
    5. 기술적 정확성을 유지하면서 중복 정보는 제거하세요.
    6. 최신 대화 내용을 더 관련성 높게 처리하세요.

    {document_texts}
    """
    summarized_result = model.invoke(prompt)
    return summarized_result.content.strip()


In [41]:
from utils.vector_handler import initialize_vector_store

def search_similar_questions(internal_id, query, top_k=5, similarity_threshold=0.7):
    """벡터DB에서 사용자의 질문과 유사한 질문 검색"""
    vectorstore = initialize_vector_store(internal_id)  # 세션별 벡터스토어 로드
    
    # 🔎 유사도 점수와 함께 검색 실행
    search_results = vectorstore.similarity_search_with_score(query, k=top_k*2)  # 더 많은 결과를 가져와서 필터링
    
    # 유사도 점수가 threshold를 넘는 결과만 필터링
    filtered_results = []
    seen_content = set()  # 중복 콘텐츠 확인용 집합
    
    for doc, score in search_results:
        # FAISS의 score는 L2 거리이므로 코사인 유사도로 변환 (1 - score/2가 코사인 유사도의 근사값)
        cosine_sim = 1 - (score / 2)
        
        if cosine_sim >= similarity_threshold:
            # 콘텐츠 핵심 부분 추출 (사용자 질문 부분만)
            content_key = ""
            for line in doc.page_content.split('\n'):
                if "사용자 질문:" in line:
                    content_key = line.strip()
                    break
            
            # 중복 콘텐츠 건너뛰기
            if content_key and content_key in seen_content:
                continue
            
            # 가중치 계산 (콘텐츠 품질 기반)
            weight = 1.0
            if "validated_code: None" in doc.page_content or "코드 없음" in doc.page_content:
                weight *= 0.8  # 코드가 없는 경우 가중치 감소
            
            if "인사이트: None" in doc.page_content or "인사이트 없음" in doc.page_content:
                weight *= 0.9  # 인사이트가 없는 경우 가중치 감소
                
            if "실행된 코드:" in doc.page_content and "코드 없음" not in doc.page_content:
                weight *= 1.3  # 실행된 코드가 있는 경우 가중치 증가
                
            if "생성된 인사이트:" in doc.page_content and "인사이트 없음" not in doc.page_content:
                weight *= 1.2  # 인사이트가 있는 경우 가중치 증가
            
            # 최종 스코어 조정
            adjusted_score = cosine_sim * weight
            
            if content_key:
                seen_content.add(content_key)
            
            filtered_results.append((doc, adjusted_score))
    
    # 조정된 점수로 상위 결과 선택
    filtered_results.sort(key=lambda x: x[1], reverse=True)
    filtered_results = filtered_results[:3]  # 상위 top_k개만 유지
    
    # 결과가 있는 경우에만 컨텍스트 생성
    if filtered_results:
        retrieved_context = "\n\n".join([
            f"[유사도: {score:.2f}]\n{doc.page_content}" 
            for doc, score in filtered_results
        ])
    else:
        retrieved_context = ""
    retrieved_context = summarize_retrieved_documents(filtered_results, query)
    
    return retrieved_context

In [42]:
internal_id = "temp_KSW_20250225_1118"
query = "그래프 해석 가능할까요?"
retrieved_context = search_similar_questions(internal_id, query)

🔢 [initialize_vector_store] 벡터DB 로드 시작 (세션: temp_KSW_20250225_1118)
#################################################
document_texts: 
[유사도: 1.19]

            사용자 질문: 기준년월에 따른  CMIP의 추세를 알고 싶습니다.
            AI 응답: 분석이 완료되었습니다! 아래 결과를 확인해주세요.
            실행된 코드: ```python
import pandas as pd

# 기준년월별 변액종신CMIP의 평균 추세 계산
cmip_trend = df.groupby('기준년월')['변액종신CMIP'].mean().round(2)

# 결과 저장
analytic_results = {
    'CMIP_Trend': cmip_trend
}

# 집계성 데이터 출력
print(cmip_trend)
```
            분석 결과: {'CMIP_Trend': 기준년월
202405    17327.30
202406    17320.91
202407    17322.96
202408    17323.08
202409    17327.54
202410    17315.90
Name: 변액종신CMIP, dtype: float64}
            생성된 인사이트: 1. 주요 발견사항
   - CMIP(변액종신CMIP)의 추세를 분석한 결과, 2024년 5월부터 2024년 10월까지의 데이터에서 큰 변동 없이 비교적 안정적인 추세를 보이고 있습니다. CMIP 값은 17315.90에서 17327.54 사이에서 움직이고 있으며, 월별로 큰 변화는 관찰되지 않았습니다.

2. 특이점
   - 2024년 10월에 CMIP 값이 약간 감소한 17315.90을 기록하였으나, 이는 전체적인 추세에 큰 영향을 미치지 않는 수준입니다. 전반적으로 CMIP 값은 안정적인 수준을 유지하고 있습니다.

3. 추천 사항
   - CMIP의 

In [43]:
print(retrieved_context)

### 핵심 개념/용어 설명
- **그래프 해석**: 그래프 해석은 데이터를 시각적으로 표현하여 데이터 간의 관계나 패턴을 파악하는 과정입니다. 이를 통해 복잡한 데이터 세트를 더 쉽게 이해할 수 있습니다.
- **그래프 컴파일**: 그래프 컴파일은 데이터를 그래프로 변환하여 시각적으로 표현하는 과정입니다. Python에서는 Matplotlib, Seaborn, Plotly와 같은 라이브러리를 사용하여 그래프를 생성할 수 있습니다.

### 관련 코드 예시
```python
import pandas as pd

# 기준년월별 변액종신CMIP의 평균 추세 계산
cmip_trend = df.groupby('기준년월')['변액종신CMIP'].mean().round(2)

# 결과 저장
analytic_results = {
    'CMIP_Trend': cmip_trend
}

# 집계성 데이터 출력
print(cmip_trend)
```

### 주요 인사이트/팁
1. **데이터 준비**: 그래프에 사용할 데이터를 정리하고 필요한 형식으로 변환합니다.
2. **그래프 유형 선택**: 데이터의 특성과 분석 목적에 맞는 그래프 유형(예: 막대 그래프, 선 그래프, 산점도 등)을 선택합니다.
3. **레이블 및 제목 추가**: 그래프의 축, 제목, 범례 등을 추가하여 그래프의 의미를 명확히 합니다.
4. **스타일링**: 그래프의 색상, 폰트, 크기 등을 조정하여 가독성을 높입니다.

### 추가 인사이트
- CMIP(변액종신CMIP)의 추세를 분석한 결과, 2024년 5월부터 2024년 10월까지의 데이터에서 큰 변동 없이 비교적 안정적인 추세를 보이고 있습니다. CMIP 값은 17315.90에서 17327.54 사이에서 움직이고 있으며, 월별로 큰 변화는 관찰되지 않았습니다.
- CMIP의 안정적인 추세를 유지하기 위해 지속적인 모니터링과 외부 경제 환경 변화에 대한 민감도 분석이 필요합니다.


In [None]:
code = """
from statsmodels.stats.outliers_influence import variance_inflation_factor
import pandas as pd
import numpy as np

# 데이터프레임에서 수치형 변수만 선택
numeric_df = df.select_dtypes(include=[np.number])

# VIF 계산을 위해 결측값 처리 (임시로 평균값으로 대체)
numeric_df = numeric_df.fillna(numeric_df.mean())

# VIF 계산
vif_data = pd.DataFrame()
vif_data["feature"] = numeric_df.columns
vif_data["VIF"] = [variance_inflation_factor(numeric_df.values, i) for i in range(numeric_df.shape[1])]

# '변액종신CMIP' 컬럼의 VIF 값 확인
vif_value = vif_data[vif_data['feature'] == '변액종신CMIP']['VIF'].values[0]

# 결과 저장
analytic_results = {
    "VIF Analysis": vif_data.round(2).head().to_dict(orient='list'),
    "VIF of 변액종신CMIP": round(vif_value, 2)
}

print(vif_data.round(2))

"""
# 환경 설정
from dotenv import load_dotenv
import os
import pandas as pd
from ai_agent_v2 import DataAnayticsAssistant

# OpenAI API 키 로드
load_dotenv()
openai_api_key = os.getenv('OPENAI_API_KEY')

PROCESSED_DATA_PATH = "../output/stage1/processed_data_info.xlsx"
mart_name = "cust_intg"
def load_processed_data_info():
    """사전에 분석된 데이터 정보 로드"""
    if not os.path.exists(PROCESSED_DATA_PATH):
        return None
    else:
        # 모든 시트 로드
        return pd.read_excel(PROCESSED_DATA_PATH, sheet_name=mart_name)

# ✅ Streamlit 실행 시 데이터 로드
mart_info = load_processed_data_info()

# 어시스턴트 초기화
assistant = DataAnayticsAssistant(openai_api_key)


🔹 현재 접근 가능 마트 목록: ['cust_enroll_history', 'cust_intg', 'product_info']
✅ 그래프 컴파일 완료


  return 1 - self.ssr/self.centered_tss


        feature        VIF
0          고객ID       1.01
1         수익자여부       1.01
2        CB신용평점       1.01
3        CB신용등급       2.81
4         두낫콜여부       1.01
..          ...        ...
113    변액종신보유여부       1.01
114  변액종신최대납입회차       1.01
115   변액종신유지계약수       1.01
116  변액종신기납입보험료       1.01
117        기준년월  271226.19

[118 rows x 2 columns]


In [12]:
from datetime import datetime
import traceback
from langchain_core.prompts import ChatPromptTemplate
from typing import Dict, Any, Optional, List
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

# ✅ MongoDB 연결 설정
uri = "mongodb+srv://swkwon:1q2w3e$r@cluster0.3rvbn.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(uri, server_api=ServerApi('1'))
db = client["chat_history"]
collection = db["conversations"]

def get_recent_history_weighted(thread_id: str) -> str:
    """
    최근 5개의 대화 이력을 가져와, 최신 대화일수록 가중치를 높여서 Context로 구성.
    """
    existing_messages = collection.find({"internal_id": thread_id}).sort("timestamp", -1).limit(5)
    
    messages = []
    for document in existing_messages:
        messages.extend(document.get("messages", []))
    
    # 메시지를 질문-답변 쌍으로 그룹화
    message_pairs = []
    for i in range(0, len(messages), 2):
        if i + 1 < len(messages):  # 답변이 있는 경우만 쌍으로 추가
            message_pairs.append((messages[i], messages[i+1]))
    
    # 최신 5개의 질문-답변 쌍만 유지
    message_pairs = message_pairs[:5]
    
    # ✅ 가중치 설정 (최신 대화일수록 높게)
    weights = [2.0, 1.5, 1.2, 1.0, 0.8]  # 최신 질문-답변일수록 가중치를 높게 설정
    weights = weights[:len(message_pairs)]  # 쌍의 수에 맞게 조정
    
    weighted_context = ""
    for i, (question, answer) in enumerate(reversed(message_pairs)):  # 과거 → 최신 순서로 정렬
        # 질문 처리
        content = f"사용자 (가중치 {weights[i]}): {question['content']}\n"
        
        # 답변 처리
        content += f"어시스턴트 (가중치 {weights[i]}): {answer['content']}\n"

        # 코드가 있는 경우 추가
        if answer.get("validated_code"):
            content += f"실행된 코드:\n{answer['validated_code']}\n"
        
        # 분석 결과가 있는 경우 추가
        if answer.get("analytic_result"):
            content += f"분석 결과:\n{answer['analytic_result']}\n"
        
        # 인사이트가 있는 경우 추가
        if answer.get("insights"):
            content += f"생성된 인사이트:\n{answer['insights']}\n"
        
        weighted_context += content + "\n"

    return weighted_context


# ✅ 새로운 질문에 대해 Context 기반 질문 재구성
def handle_chat_response(assistant: Any, query: str, internal_id: str) -> Dict[str, Any]:
    """
    기존 질문-답변을 반영하여 새로운 질문을 재구성하고 응답을 생성
    """
    try:
        print("=" * 100)
        print(f"🤵 질문시각: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
        print(f"🤵 Context Window 처리 시작")

        # ✅ 최근 대화 내역 가져오기
        chat_history = get_recent_history_weighted(internal_id)
        # ✅ LLM에게 현재 질문이 어떤 흐름에서 나왔는지 인식시키기 위한 프롬프트
        prompt = ChatPromptTemplate.from_messages([
            ("system", """당신은 사용자의 질문 흐름을 파악하여, 현재 질문이 기존 대화 맥락에서 어떤 의미를 가지는지 분석하는 AI 비서입니다. 
            
            아래는 사용자의 최근 5개의 질문-답변 기록입니다. 
            이를 참고하여, 현재 질문이 어떤 의도로 이루어진 것인지 분석하고, 
            이전 코드 또는 분석 흐름을 유지하면서 어떻게 반영해야 하는지 결정하세요.
            
            - 기존 흐름을 유지하면서 현재 질문이 추가적으로 요구하는 것이 무엇인지 분석
            - 기존 코드 또는 분석이 필요한 경우, 어떤 부분을 수정해야 하는지 판단
            - 필요하면, 기존 결과 형식을 유지하면서 적절한 조정을 수행
            """),
            ("user", "### 최근 대화 기록\n{previous_context}"),
            ("user", "### 현재 질문\n{query}"),
            ("user", "### 분석해야 할 질문 의도 및 수정할 코드 영역\n(기존 흐름을 유지하며 반영할 사항을 요약해 주세요.)")
        ])

        # ✅ LLM을 활용하여 질문 의도를 분석
        model = assistant.llm
        analyzed_intent = model.invoke({
            "previous_context": previous_context,
            "query": query
        }).content.strip()

        # print(f"🤖 분석된 질문 의도:\n{analyzed_intent}")

        # # ✅ LLM을 활용하여 새로운 질문 재구성
        # prompt = ChatPromptTemplate.from_messages([
        #     ("system", """당신은 질문 흐름을 반영하여 질문을 자연스럽게 재구성하는 AI 비서입니다. 
            
        #     아래 분석된 질문 의도를 참고하여, 기존 흐름을 유지하면서 질문을 적절하게 보강하세요.
            
        #     - 질문 의도를 유지하면서 추가적인 설명을 보완
        #     - 필요하면, 분석 코드에 적용해야 하는 사항을 명확히 포함
        #     - 불필요한 확장은 지양하고, 사용자의 요청에 충실한 질문으로 보강
        #     """),
        #     ("user", "### 분석된 질문 의도\n{analyzed_intent}"),
        #     ("user", "### 보강된 질문\n(기존 흐름을 유지하면서 자연스럽게 강화된 질문을 작성)")
        # ])

        # final_query = model.invoke({
        #     "analyzed_intent": analyzed_intent
        # }).content.strip()

        # print(f"🤵 재구성된 질문:\n{final_query}")

        # # ✅ 최종 질문을 기반으로 LLM 호출
        # result = assistant.ask(final_query)
        # print(f"🤵 결과:\n{result}")

        # # ✅ 응답 데이터 정리
        # response_data = {
        #     "role": "assistant",
        #     "content": result.get("response", "응답을 생성할 수 없습니다."),
        #     "validated_code": result.get("validated_code"),
        #     "analytic_result": result.get("analytic_result"),
        #     "chart_filename": result.get("chart_filename"),
        #     "insights": result.get("insights"),
        #     "report": result.get("report"),
        #     "request_summary": result.get("request_summary"),
        # }

        # # ✅ MongoDB에 대화 이력 저장
        # collection.update_one(
        #     {"internal_id": internal_id},
        #     {
        #         "$push": {
        #             "messages": {
        #                 "$each": [
        #                     {
        #                         "role": "user", 
        #                         "content": query, 
        #                         "timestamp": datetime.now()
        #                     },
        #                     {
        #                         "role": "assistant",
        #                         "content": response_data["content"],
        #                         "validated_code": response_data["validated_code"],
        #                         "chart_filename": response_data["chart_filename"],
        #                         "insights": response_data["insights"],
        #                         "report": response_data["report"],
        #                         "request_summary": response_data["request_summary"],
        #                         "timestamp": datetime.now(),
        #                     }   
        #                 ]
        #             }
        #         }
        #     },
        #     upsert=True
        # )

        # return response_data

    except Exception as e:
        print(f"❌ 오류 발생: {traceback.format_exc()}")
        return { "role": "assistant", "content": f"❌ 오류 발생: {traceback.format_exc()}" }


In [16]:
chat_history = get_recent_history_weighted('temp_KSW_20250228_1715')
chat_history


'사용자 (가중치 2.0): 분석 결과를 보기가 어렵네요. 결과 데이터프레임을 transpose 해주세요~\n어시스턴트 (가중치 2.0): 분석이 완료되었습니다! 아래 결과를 확인해주세요.\n실행된 코드:\n```python\nimport pandas as pd\n\n# cust_enroll_history 데이터프레임의 전치\ncust_enroll_history_transposed = cust_enroll_history.transpose()\n\n# cust_intg 데이터프레임의 전치\ncust_intg_transposed = cust_intg.transpose()\n\n# 결과 저장\nanalytic_results = {\n    \'cust_enroll_history_transposed\': cust_enroll_history_transposed.head().round(2),\n    \'cust_intg_transposed\': cust_intg_transposed.head().round(2)\n}\n\n# 집계 데이터 출력\nprint(cust_enroll_history_transposed)\nprint(cust_intg_transposed)\n```\n생성된 인사이트:\n1. 주요 발견사항\n   - 데이터프레임의 전치를 통해 각 고객의 정보를 행 단위로 쉽게 비교할 수 있게 되었습니다. 이는 고객별로 가입한 보험 상품의 종류와 금액, 그리고 고객의 인구통계학적 특성을 한눈에 파악할 수 있도록 도와줍니다.\n   - `cust_enroll_history_transposed` 데이터프레임은 고객의 보험 가입 내역을, `cust_intg_transposed` 데이터프레임은 고객의 통합 정보를 담고 있습니다. 각각의 데이터프레임은 고객 ID를 기준으로 정렬되어 있어, 고객별로 데이터를 쉽게 추적할 수 있습니다.\n\n2. 특이점\n   - `cust_intg_transposed` 데이터프레임에서 일부 고객의 CB신용평점이 NaN으로 표시되어 있습니다. 이

In [13]:
res = handle_chat_response(assistant = '' , query = '데이터프레임 결과가 맘에안들어' ,internal_id='temp_KSW_20250228_1715')
print(res)

🤵 질문시각: 2025-02-28 19:12:53
🤵 Context Window 처리 시작
❌ 오류 발생: Traceback (most recent call last):
  File "C:\Users\user\AppData\Local\Temp\ipykernel_34780\1695025663.py", line 78, in handle_chat_response
    role = "사용자" if msg["role"] == "user" else "어시스턴트"
                       ~~~^^^^^^^^
TypeError: string indices must be integers, not 'str'

{'role': 'assistant', 'content': '❌ 오류 발생: Traceback (most recent call last):\n  File "C:\\Users\\user\\AppData\\Local\\Temp\\ipykernel_34780\\1695025663.py", line 78, in handle_chat_response\n    role = "사용자" if msg["role"] == "user" else "어시스턴트"\n                       ~~~^^^^^^^^\nTypeError: string indices must be integers, not \'str\'\n'}
