In [29]:
from langchain_core.prompts import ChatPromptTemplate, MessagesPlaceholder
from langchain_openai import ChatOpenAI
from dotenv import load_dotenv
import os
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

model = ChatOpenAI(model="gpt-4o", openai_api_key=openai_api_key, temperature=0.0)

prompt = ChatPromptTemplate.from_messages(
    [
        (
            "system",
            "당신은 {ability} 에 능숙한 어시스턴트입니다. 20자 이내로 응답하세요",
        ),
        # 대화 기록을 변수로 사용, history 가 MessageHistory 의 key 가 됨
        MessagesPlaceholder(variable_name="history"),
        ("human", "{input}"),  # 사용자 입력을 변수로 사용
    ]
)
runnable = prompt | model  # 프롬프트와 모델을 연결하여 runnable 객체 생성


In [23]:
from datetime import datetime
import traceback
import streamlit as st
from typing import Dict, Any, Optional, Union
from langchain.memory import ConversationBufferMemory
from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

# 사용자 패키지
from utils.vector_handler import save_chat_to_vector_db, search_similar_questions
from utils.thread_handler import rename_thread, save_thread
from common_txt import logo

# ✅ MongoDB Atlas 연결 설정
uri = "mongodb+srv://swkwon:1q2w3e$r@cluster0.3rvbn.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(uri, server_api=ServerApi('1'))
db = client["chat_history"]
collection = db["conversations"]

# ✅ 메모리 저장소 (thread_id별로 관리)
memory_store = {}

def get_memory(thread_id: str) -> ConversationBufferMemory:
    """
    특정 thread_id에 대한 ConversationBufferMemory를 반환.
    기존 데이터가 있으면 불러오고, 없으면 새로 생성.
    """
    if thread_id not in memory_store:
        memory_store[thread_id] = ConversationBufferMemory(memory_key=f"history_{thread_id}", return_messages=True)
    
        # ✅ MongoDB에서 이전 대화 기록 불러오기
        existing_messages = collection.find({"internal_id": thread_id}).sort("timestamp", 1)  # 시간순 정렬
        if existing_messages:
            for document in existing_messages:
                for msg in document.get("messages", []):
                    if msg["role"] == "user":
                        memory_store[thread_id].chat_memory.add_user_message(msg["content"])
                    elif msg["role"] == "assistant":
                        memory_store[thread_id].chat_memory.add_ai_message(msg["content"])

    return memory_store[thread_id]

# ✅ 채팅 응답 처리
def handle_chat_response(assistant: Any,query: str,internal_id: str) -> tuple[Optional[Dict[str, Any]], ConversationBufferMemory]:
    # print("="*100)
    # print(logo)
    # print("="*100)
    print(f"🤵 질문시각: {datetime.now().strftime('%Y-%m-%d %H:%M:%S')}")
    print(f"""🤵 새로운 질문 : "{query}"에 대한  Context Window 처리 시작""")

    # ✅ thread_id별 memory 가져오기
    memory = get_memory(internal_id)

    # ✅ 기존 대화 기록 가져오기
    messages = memory.load_memory_variables({}).get(f"history_{internal_id}", "")

    # 메시지 객체를 읽기 쉬운 대화 형식으로 변환
    previous_context = ""
    if messages:
        for msg in messages:
            if msg.type == 'human':
                previous_context += f"사용자: {msg.content}\n"
            elif msg.type == 'ai':
                previous_context += f"어시스턴트: {msg.content}\n"

    ##########################################################################################
    # ✅ Context Window 처리
    # ** 해당 쓰레드의 질문-답변 이력이 쌓여있는 벡터DB에서 사용자의 현재 질문과 유사한 질문 검색
    ##########################################################################################
    model = assistant.llm
    filtered_results = search_similar_questions(internal_id, query)
    if not filtered_results:
        # 검색 결과가 없을 경우 요약 과정 건너뛰기
        summarized_result = ""
    else:
        document_texts = "\n\n".join([
            f"[유사도: {score:.2f}]\n{doc.page_content}" 
            for doc, score in filtered_results
        ])

        # LLM을 사용하여 문서 요약 (검색된 문서가 있을 때만 실행)
        prompt = f"""
다음은 이전 대화 내역에서 현재 질문 "{query}"와 관련성이 높은 검색된 문서들입니다.
이를 참고하여 현재 질문과 직접 연결되는 핵심 내용을 요약하세요.

1. 질문과 직접적으로 연결되는 정보만 남기고 불필요한 내용은 제거
2. 검색된 문서에서 코드가 있다면 그대로 유지
3. 분석 결과나 중요한 인사이트는 정리해서 포함
4. 정보를 다음 형식으로 구조화:
    - 핵심 연관 내용
    - 관련 코드
    - 주요 인사이트(3줄 이내)

{document_texts}
        """
        summarized_result = model.invoke(prompt).content.strip()

    print(f"🤵 검색된 문서 요약:\n{summarized_result}")
    
    ##########################################################################################
    # ✅ Query Rewriting
    #  """ 기존 문맥과 검색된 문서를 반영하여 새로운 질문을 생성 """
    ##########################################################################################
    # 이전 대화 기록이 없고 검색된 문서도 없으면 원본 질문 그대로 사용
    if not previous_context or not summarized_result:
        final_query = query  
    # 이전 대화 기록이 있고 검색된 문서도 있으면 검색된 문서를 반영하여 새로운 질문을 생성
    else:
        prompt = f"""
당신은 사용자의 질문과 LLM의 답변 기록을 바탕으로 Context Window를 제공해주는 전문가입니다.
'검색된 문서 요약'은 사용자의 이전 대화 기록 중, 사용자의 원래 질문과의 연관성이 높은 질문들을 요약한 것입니다.
'사용자의 현재 질문'과 '검색된 문서 요약'을 바탕으로 사용자의 현재 질문을 재구성한 뒤 참고 사항을 제공해주세요.
단, '검색된 문서 요약'에 코드가 있을 경우 반드시 참고 사항에 넣어주세요.

[검색된 문서 요약]
{summarized_result}

[사용자의 현재 질문]
{query}

[재구성된 질문 및 참고 사항]
        """
        final_query = model.invoke(prompt).content.strip()

    print(f"🤵 재구성된 질문:\n{final_query}")

In [21]:
from pymongo import MongoClient
from datetime import datetime

# ✅ MongoDB 연결 설정
uri = "mongodb+srv://swkwon:1q2w3e$r@cluster0.3rvbn.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"
client = MongoClient(uri)
db = client["chat_history"]
collection = db["conversations"]

def get_memory(thread_id: str) -> ConversationBufferMemory:
    """
    특정 thread_id에 대한 ConversationBufferMemory를 반환.
    기존 데이터가 있으면 불러오고, 없으면 새로 생성.
    """
    # ✅ 특정 thread_id의 대화 이력 가져오기
    existing_messages = collection.find({"internal_id": thread_id}).sort("timestamp", -1).limit(5)  

    # ✅ 데이터 변환
    chat_history = []

    if existing_messages:
        for document in existing_messages:
            messages = document.get("messages", [])
            
            for i in range(len(messages) - 1):
                user_msg = messages[i]
                assistant_msg = messages[i + 1]

                # ✅ 사용자 질문과 AI 답변을 매칭
                if user_msg.get("role") == "user" and assistant_msg.get("role") == "assistant":
                    # 기본 응답 구조 생성
                    response_dict = {
                        "content": assistant_msg.get("content", "")
                    }
                    
                    # validated_code가 있는 경우에만 추가
                    if assistant_msg.get("validated_code"):
                        response_dict["code"] = assistant_msg["validated_code"]
                        response_dict["insights"] = assistant_msg.get("insights", "인사이트 없음")
                    
                    chat_history.append({
                        "query": user_msg.get("content", ""),
                        "response": response_dict
                    })
    return chat_history




In [16]:
thread_id = 'temp_KSW_20250227_1403'
existing_messages = collection.find({"internal_id": 'temp_KSW_20250227_1403'}).sort("timestamp", -1).limit(5)  
# 최근 5개만 가져오기

if existing_messages:
    for document in existing_messages:
        for msg in document.get("messages", []):
            print(msg.get('chart_filename'), '')
            print(msg.get('validated_code'), '')
            print(msg.get('insights'), '')
            print(msg.get('report'), '')
            print(msg.get('analytic_result'), '')
            print(msg.get('content'), '')
# memory_store

None 
None 
None 
None 
None 
특정 연령대(예: 20~30대)의 주요 금융 패턴을 분석해 주세요. 
../img/chart_20250227140558.png 
```python
# 특정 연령대(20~30대) 데이터 필터링
age_filtered_df = df[df['나이'].isin(['20대', '30대'])]

# 주요 금융 패턴 분석
# 1. 평균 CB신용평점
avg_credit_score = age_filtered_df['CB신용평점'].mean()

# 2. 성별에 따른 수익자 여부 비율
beneficiary_by_gender = age_filtered_df.groupby('성별')['수익자여부'].mean().round(2)

# 3. 운전코드명에 따른 변액기납입보험료 평균
avg_insurance_by_drive = age_filtered_df.groupby('운전코드명')['변액기납입보험료'].mean().round(2)

# 4. 변액종신보유여부에 따른 CB신용등급 평균
avg_credit_grade_by_life_insurance = age_filtered_df.groupby('변액종신보유여부')['CB신용등급'].mean().round(2)

# 5. 두낫콜여부에 따른 변액종신기납입보험료 평균
avg_life_insurance_by_donotcall = age_filtered_df.groupby('두낫콜여부')['변액종신기납입보험료'].mean().round(2)

# 결과 저장
analytic_results = {
    'avg_credit_score': round(avg_credit_score, 2),
    'beneficiary_by_gender': beneficiary_by_gender.head().to_dict(),
    'avg_insurance_by_drive': avg_insurance_by_drive.head().to_dict(),
    'avg_credit_grade_by_life_insura

In [24]:
# 환경 설정
from dotenv import load_dotenv
import os
import pandas as pd
from utils.Archive.ai_agent_v2 import DataAnayticsAssistant

# OpenAI API 키 로드
load_dotenv()
openai_api_key = os.getenv('OPENAI_API_KEY')

PROCESSED_DATA_PATH = "../output/stage1/processed_data_info.xlsx"
mart_name = "cust_intg"
def load_processed_data_info():
    """사전에 분석된 데이터 정보 로드"""
    if not os.path.exists(PROCESSED_DATA_PATH):
        return None
    else:
        # 모든 시트 로드
        return pd.read_excel(PROCESSED_DATA_PATH, sheet_name=mart_name)

# ✅ Streamlit 실행 시 데이터 로드
mart_info = load_processed_data_info()

# 어시스턴트 초기화
assistant = DataAnayticsAssistant(openai_api_key)
que= "df_top_products 는 무엇인지 다시 상세히 설명해주세요."
handle_chat_response(assistant, query = que, internal_id = "temp_KSW_20250227_1403")

🔹 현재 접근 가능 마트 목록: ['cust_enroll_history', 'cust_intg', 'product_info']
✅ 그래프 컴파일 완료
🤵 질문시각: 2025-02-27 14:32:00
🤵 새로운 질문 : "df_top_products 는 무엇인지 다시 상세히 설명해주세요."에 대한  Context Window 처리 시작
🤵 검색된 문서 요약:
- **핵심 연관 내용**: df_top_products에 대한 직접적인 설명은 제공되지 않았습니다. 그러나, 특정 연령대의 금융 패턴 분석과 관련된 데이터 처리 및 분석 방법이 제시되었습니다. 이는 df_top_products가 특정 연령대의 주요 금융 패턴을 분석하는 데 사용된 데이터프레임일 가능성을 시사합니다.

- **관련 코드**:
  ```python
  # 특정 연령대(20~30대) 데이터 필터링
  age_filtered_df = df[df['나이'].isin(['20대', '30대'])]

  # 주요 금융 패턴 분석
  # 1. 평균 CB신용평점
  avg_credit_score = age_filtered_df['CB신용평점'].mean()

  # 2. 성별에 따른 수익자 여부 비율
  beneficiary_by_gender = age_filtered_df.groupby('성별')['수익자여부'].mean().round(2)

  # 3. 운전코드명에 따른 변액기납입보험료 평균
  avg_insurance_by_drive = age_filtered_df.groupby('운전코드명')['변액기납입보험료'].mean().round(2)

  # 4. 변액종신보유여부에 따른 CB신용등급 평균
  avg_credit_grade_by_life_insurance = age_filtered_df.groupby('변액종신보유여부')['CB신용등급'].mean().round(2)

  # 5. 두낫콜여부에 따른 변액종신기납입보험료 평균
  avg_life_insurance_by_donotcall = a

In [4]:

from pymongo.mongo_client import MongoClient
from pymongo.server_api import ServerApi

uri = "mongodb+srv://swkwon:1q2w3e$r@cluster0.3rvbn.mongodb.net/?retryWrites=true&w=majority&appName=Cluster0"

# Create a new client and connect to the server
client = MongoClient(uri, server_api=ServerApi('1'))

# Send a ping to confirm a successful connection
try:
    client.admin.command('ping')
    print("Pinged your deployment. You successfully connected to MongoDB!")
except Exception as e:
    print(e)

Pinged your deployment. You successfully connected to MongoDB!


## RAG 테스트

In [15]:
from utils.vector_handler import initialize_vector_store

thread_id = 'new_chat'
query = 'columns_with_20_percent_missing 가 뭐라구 했죠?'
vectorstore = initialize_vector_store(thread_id)  # 세션별 벡터스토어 로드


# 🔎 검색 실행
search_results = vectorstore.similarity_search(query, k=2)
retrieved_context = "\n\n".join([doc.page_content for doc in search_results])
retrieved_context

''

In [21]:
VECTOR_DB_SESSION_PATH = './vector_db_session' 
vector_db_path = os.path.join(VECTOR_DB_SESSION_PATH, f"new_chat_vectorstore")

DDS = FAISS.load_local(vector_db_path, OpenAIEmbeddings(), allow_dangerous_deserialization=True)  # ✅ 신뢰할 수 있는 로컬 데이터이므로 허용

<langchain_community.vectorstores.faiss.FAISS at 0x24744a56fc0>

In [18]:
all_docs = vectorstore.docstore._dict
all_docs

for doc_id, doc in all_docs.items():
    print(f"\nDocument ID: {doc_id}")
    print(f"Content: {doc.page_content}")


Document ID: 94c4d233-b717-42f3-a7f4-a7b1e8916706
Content: 
