In [4]:
import json
import re
import time
from openai import OpenAI
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

client = OpenAI(api_key="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")

MAX_MESSAGES = 50
MAX_CONTEXT_LENGTH = 1024

# Preprocess text to clean and normalize it
def preprocess_text(text):
    return re.sub(r'\s+', ' ', text.strip())

# Manage the conversation history to maintain a fixed size
def manage_conversation(messages):
    if len(messages) > MAX_MESSAGES:
        archived_messages = messages[:-MAX_MESSAGES]
        save_conversation(archived_messages, filename="conversation_archive.json")
        return messages[-MAX_MESSAGES:]
    return messages

# Save conversation to a file
def save_conversation(messages, filename="conversation_history_3.json"):
    with open(filename, 'w', encoding='utf-8') as f:
        json.dump(messages, f, ensure_ascii=False, indent=2)

# Load conversation from a file
def load_conversation():
    try:
        with open('conversation_history_3.json', 'r', encoding='utf-8') as f:
            return json.load(f)
    except FileNotFoundError:
        return [{"role": "system", "content": "You are a helpful assistant."}]

# Retrieve relevant information using TF-IDF
def retrieve_relevant_info(query, messages, k=3):
    vectorizer = TfidfVectorizer()
    corpus = [preprocess_text(m['content']) for m in messages if m['role'] != 'system']
    tfidf_matrix = vectorizer.fit_transform(corpus)
    query_vec = vectorizer.transform([preprocess_text(query)])
    similarities = cosine_similarity(query_vec, tfidf_matrix)[0]
    top_k_indices = similarities.argsort()[-k:][::-1]
    return [messages[i]['content'] for i in top_k_indices]

# Limit the context length to avoid exceeding model input limits
def limit_context_length(context):
    if len(context) > MAX_CONTEXT_LENGTH:
        return context[:MAX_CONTEXT_LENGTH]
    return context

# Evaluate the response using four metrics
def evaluate_response(user_input, ai_response, relevant_context):
    metrics = {}

    # Faithfulness: Check how well the response aligns with the context
    metrics['faithfulness'] = 1 if ai_response in relevant_context else 0

    # Answer Relevancy: Check if the response is relevant to the query
    metrics['answer_relevancy'] = cosine_similarity(
        TfidfVectorizer().fit_transform([user_input, ai_response])
    )[0, 1]

    # Context Precision: Calculate the ratio of relevant information in retrieved context
    precision_terms = len(set(relevant_context.split()) & set(ai_response.split()))
    total_terms = len(set(relevant_context.split()))
    metrics['context_precision'] = precision_terms / total_terms if total_terms > 0 else 0

    # Context Recall: Calculate how much of the context was used in the response
    recall_terms = len(set(relevant_context.split()) & set(ai_response.split()))
    total_response_terms = len(set(ai_response.split()))
    metrics['context_recall'] = recall_terms / total_response_terms if total_response_terms > 0 else 0

    return metrics

# OpenAI request with retry logic
def openai_request_with_retry(request_func, max_retries=3):
    for attempt in range(max_retries):
        try:
            return request_func()
        except Exception as e:
            print(f"Retrying ({attempt + 1}/{max_retries}) due to error: {e}")
            time.sleep(2)
    raise Exception("OpenAI request failed after retries.")

# Main conversation loop
messages = load_conversation()

print("AI 어시스턴트와 대화를 시작합니다. 종료하려면 'quit'을 입력하세요.")

while True:
    user_input = input("You: ")

    if user_input.lower() == 'quit':
        print("대화를 종료합니다.")
        save_conversation(messages)

        user_response = {"conversation": messages}
        json_data = json.dumps(user_response)

        response = openai_request_with_retry(lambda: client.chat.completions.create(
            model="gpt-3.5-turbo",
            messages=[
                {"role": "system", "content": "사용자의 말 중 유용한 정보만 텍스트 추출하여 올바른 정보 문서로 작성하시오."},
                {"role": "user", "content": json_data}
            ]
        ))

        summarized_document = response.choices[0].message.content
        with open('summarized_document_3.txt', 'w', encoding='utf-8') as file:
            file.write(summarized_document)

        print("대화 내용이 요약되어 'summarized_document_3.txt' 파일로 저장되었습니다.")
        break

    messages.append({"role": "user", "content": user_input})
    messages = manage_conversation(messages)

    relevant_info = retrieve_relevant_info(user_input, messages)
    context = limit_context_length("\n".join(relevant_info))

    response = openai_request_with_retry(lambda: client.chat.completions.create(
        model="gpt-3.5-turbo",
        messages=[
            {"role": "system", "content": "You are a helpful assistant. Use the following context to answer the user's question."},
            {"role": "assistant", "content": context},
            {"role": "user", "content": user_input}
        ]
    ))

    ai_response = response.choices[0].message.content
    print("AI:", ai_response)

    # Evaluate the AI response
    metrics = evaluate_response(user_input, ai_response, context)
    print("Evaluation Metrics:", metrics)

    messages.append({"role": "assistant", "content": ai_response})
    save_conversation(messages)


AI 어시스턴트와 대화를 시작합니다. 종료하려면 'quit'을 입력하세요.
You: 제가 처음 데이터베이스를 접했던 시절, 관계형 데이터베이스(RDBMS)가 막 떠오르던 때였습니다. 데이터 관리를 수작업으로 하던 시기를 지나, SQL이라는 언어로 데이터를 구조화하고 쿼리할 수 있다는 것은 혁신적이었죠. 당시 처음 다룬 시스템은 Oracle이었고, 그 다음에는 MySQL과 SQL Server 같은 오픈소스 및 상용 소프트웨어로 점차 영역이 넓어졌습니다. 데이터를 저장한다는 단순한 개념이 비즈니스 프로세스를 혁신할 수 있다는 걸 깨달은 건 이때였습니다. 데이터베이스를 다룬 30여 년 동안 가장 중요한 것은 데이터 그 자체였습니다. 데이터는 비즈니스의 핵심이고, 데이터가 올바르게 저장되고 관리되지 않으면 조직 전체가 흔들릴 수 있습니다. 제가 늘 강조한 원칙은 다음과 같습니다:  정규화: 데이터를 중복 없이 구조화해 저장하는 것은 데이터 무결성을 유지하는 기본입니다. 백업과 복구 계획: 데이터 손실은 비즈니스의 중단을 의미합니다. 정기적인 백업과 복구 테스트는 필수입니다. 보안: 데이터 유출이나 손상은 기업의 신뢰를 저하시킵니다. 접근 권한 관리와 암호화는 절대 타협할 수 없는 요소입니다. 성능 최적화: 적절한 인덱싱과 쿼리 최적화는 시스템 속도와 사용자 만족도를 크게 좌우합니다.  처음엔 단일 서버에서 데이터를 관리하던 시절이었지만, 점점 기술이 발전하면서 분산 데이터베이스와 클라우드 기반 데이터베이스가 대세가 되었습니다. 특히, NoSQL의 등장과 빅데이터 기술은 관계형 데이터베이스가 한계에 부딪혔던 문제를 해결할 대안이었습니다.  NoSQL: 대규모 데이터와 유연한 스키마를 처리하기 위해 MongoDB, Cassandra 같은 NoSQL 데이터베이스가 등장했습니다. 관계형 데이터베이스와의 조화로운 사용이 중요합니다. 빅데이터: Hadoop과 Spark 같은 기술은 데이터를 저장하고 처리하는 방식을 근본적으로 바꿔놓았습니다. 정형 데이터뿐만 아니라 비정형 데이터