In [2]:
!pip install -q langchain pypdf sentence-transformers chromadb openai


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [1]:
!python --version

Python 3.10.10


## Multi-Query Retriever

In [245]:
import re
from typing import Iterator
from langchain_core.documents import Document
from langchain_community.document_loaders.helpers import detect_file_encodings
import pandas as pd
from langchain_community.document_loaders import CSVLoader
from datetime import datetime


class KaKaoTalkLoader(CSVLoader):
    def __init__(self, file_path: str, file_suffix:str, encoding: str = "utf8", **kwargs):
        super().__init__(file_path, encoding=encoding, **kwargs)
        # NOTE - choh(2024.04.05) - 파일 확장자 변수 추가
        self.file_suffix = file_suffix
    
    def anonymize_user_id(self, user_id, num_chars_to_anonymize=3):
        """
        비식별화 함수는 주어진 사용자 ID의 앞부분을 '*'로 대체하여 비식별화합니다.

        :param user_id: 비식별화할 사용자 ID
        :param num_chars_to_anonymize: 비식별화할 문자 수
        :return: 비식별화된 사용자 ID
        """
        # 비식별화할 문자 수가 사용자 ID의 길이보다 길 경우, 전체 ID를 '*'로 대체
        if num_chars_to_anonymize >= len(user_id):
            num_chars_to_anonymize = len(user_id) - 1
            return "*" * num_chars_to_anonymize

        # 앞부분을 '*'로 대체하고 나머지 부분을 원본 ID에서 가져옴
        anonymized_id = "*" * num_chars_to_anonymize + user_id[num_chars_to_anonymize:]

        return anonymized_id
    
    # NOTE - choh(2024.04.05) - 12시간제를 24시간제로 변환
    def process_time_to_24hr_format(self, date_obj, time_str):
        """
        대화 내용중에 시간 표시가 '오전 12:23', '오후 11:23'과 같이 12시간제로 되어 있는 경우, 
        이를 24시간제로 변환합니다.
        
        :param date_obj: 대화 내용의 날짜 정보가 담긴 datetime 객체
        :praam time_str: 대화 내용의 시간 정보가 담긴 문자열
        :return: 24시간제로 변환된 datetime 객체
        """
        
        # '오전/오후' 부분과 시간 부분을 분리합니다.
        period, time_part = time_str.split(' ', 1)
        
        # 시간 부분을 시와 분으로 다시 분리합니다.
        hour, minute = map(int, time_part.split(':'))
        
        # '오후'인 경우 12를 더하되, '오후 12시'는 제외합니다.
        if period == '오후' and hour != 12:
            hour += 12
        # '오전 12시'는 0시로 처리합니다.
        elif period == '오전' and hour == 12:
            hour = 0
        
        # date_obj과 결합하여 최종 datetime 객체를 생성합니다.
        # 여기서 datetime 함수는 위에서 임포트한 datetime 클래스를 사용합니다.
        combined_datetime = datetime(date_obj.year, date_obj.month, date_obj.day, hour, minute)
        
        # pandas의 to_datetime 함수를 사용하여 pandas.Timestamp 객체로 변환합니다.
        return pd.to_datetime(combined_datetime)
    
    # NOTE - choh(2024.04.05) - 대화목록의 날짜 변환 부분을 파싱
    def process_date(self, line: str) -> tuple:
        """
        -------- 2024년 4월 5일 화요일 -------- 형태의 날짜를 파싱하고,
        파싱 성공 여부와 함께 파싱된 날짜 또는 원래 문자열을 반환합니다.
        
        :param line: 날짜 문자열
        :return: (파싱 성공 여부, 파싱된 날짜 또는 원래 문자열)
        """
        # -------- 2024년 4월 5일 화요일 -------- 날짜가 이상태임
        date_match = re.match(r'[-]+ (\d+년 \d+월 \d+일) [^\d]+', line)
        if date_match:
            # 2024년 4월 5일, 형태의 날짜 추출
            date_pattern = re.compile(r'(\d+)년 (\d+)월 (\d+)일')
            match = date_pattern.search(date_match.group(1))
            if match:
                year, month, day = map(int, match.groups())
                return (True, pd.to_datetime(f"{year}-{month}-{day}"))
        return (False, line)

    # NOTE - choh(2024.04.05) - __read_file을 테스트 하기 위한 wrapper 함수
    def _read_file_test(self, csvfile) -> Iterator[Document]:
        """테스트를 위한 래퍼 함수"""
        return self.__read_file(csvfile)
    
    def __read_file(self, csvfile) -> Iterator[Document]:
        # NOTE - choh(2024.04.05) - TXT 형태의 대화 메세지 사전 처리
        if self.file_suffix == ".txt":
            
            # 전날 날짜 변수 초기화
            temp_date = None
            i = 0 # 행 번호
            for line in csvfile:
                
                # 이번 줄이 날짜가 맞으면 is_parsed=True, result는 날짜
                is_parsed, result = self.process_date(line)
                
                # 파싱한 문자열이 날짜 패턴에 맞으면, 날짜를 저장
                if is_parsed:
                    temp_date = result
                
                # 날짜가 아니면, 체팅이기 때문에, 체팅을 패턴 매칭
                else:
                    # 초기값 설정
                    user = None
                    time_12hr = None
                    message = None

                    # 대화 패턴 찾기
                    conversation_match = re.match(r'\[([^\]]+)\] \[([^\]]+)\] (.+)', line)
                    if conversation_match:
                        user_real = conversation_match.group(1)
                        time_12hr = conversation_match.group(2)
                        message = conversation_match.group(3).strip()
                        
                        # 시간을 24시간제로 변환                        
                        date = self.process_time_to_24hr_format(temp_date, time_12hr)
                        # 사용자 ID 비식별화
                        user = self.anonymize_user_id(user_real)
                        
                        content = f'"User: {user}, Message: {message}'
                        
                        metadata = {
                            "date":  date.strftime("%Y-%m-%d %H:%M:%S"),
                            "year": date.year,
                            "month": date.month,
                            "day": date.day,
                            "user": user,
                            "row": i,
                            "source": str(self.file_path),
                        }
                        i += 1 # 행 번호 증가
                        yield Document(page_content=content, metadata=metadata)
       
        
        # NOTE - choh(2024.04.05) - 기존 코드, csv 파일인 경우
        else:
            df = pd.read_csv(csvfile)
            df["Date"] = pd.to_datetime(df["Date"])
            df["Date_strf"] = df["Date"].dt.strftime("%Y-%m-%d %H:%M:%S").astype(str)
            for i, row in df.iterrows():
                date = row["Date"]
                user = self.anonymize_user_id(row["User"])
                content = f'"User: {user}, Message: {row["Message"]}'

                metadata = {
                    "date": row["Date_strf"],
                    "year": date.year,
                    "month": date.month,
                    "day": date.day,
                    "user": user,
                    "row": i,
                    "source": str(self.file_path),
                }
                yield Document(page_content=content, metadata=metadata)

    def lazy_load(self) -> Iterator[Document]:
        try:
            with open(self.file_path, newline="", encoding=self.encoding) as csvfile:
                yield from self.__read_file(csvfile)
      
        except UnicodeDecodeError as e:
            if self.autodetect_encoding:
                detected_encodings = detect_file_encodings(self.file_path)
                for encoding in detected_encodings:
                    try:
                        with open(
                            self.file_path, newline="", encoding=encoding.encoding
                        ) as csvfile:
                            yield from self.__read_file(csvfile)
                            break
                    except UnicodeDecodeError:
                        continue
            else:
                raise RuntimeError(f"Error loading {self.file_path}") from e
        except Exception as e:
            raise RuntimeError(f"Error loading {self.file_path}") from e

In [1]:
# Build a sample vectorDB
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_community.document_loaders import TextLoader
import kakaotalk_loader as kakao

file_path = "KakaoTalk_group.txt"
file_suffix = ".txt"  # Change to ".csv" if you're using a CSV file
loader = kakao.KaKaoTalkLoader(file_path, file_suffix, encoding="utf8")

# Load blog post
loader = WebBaseLoader("https://corin-e.tistory.com/entry/1-%EC%82%BC%EC%84%B1-%EC%B2%AD%EB%85%84-SW-%EC%95%84%EC%B9%B4%EB%8D%B0%EB%AF%B8%EC%8B%B8%ED%94%BC-SSAFY-%EC%82%BC%EC%88%98-%ED%9B%84%EA%B8%B0")
data = loader.load()

# Split
text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=30)
splits = text_splitter.split_documents(data)

# VectorDB
model_name = "jhgan/ko-sbert-nli"
encode_kwargs = {'normalize_embeddings': True}
ko_embedding = HuggingFaceEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs
)
# sk-proj-5g3W1SVHGnmBB7Y2HEMCT3BlbkFJUSvDENpVaFEdRNwZHWlH
# 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
open_key = "sk-proj-5g3W1SVHGnmBB7Y2HEMCT3BlbkFJUSvDENpVaFEdRNwZHWlH"
vectordb = Chroma.from_documents(documents=splits, embedding=ko_embedding)

USER_AGENT environment variable not set, consider setting it to identify your requests.
  warn_deprecated(
  from tqdm.autonotebook import tqdm, trange


In [2]:
from langchain.retrievers.multi_query import MultiQueryRetriever
from langchain.chat_models import ChatOpenAI

question = "작성자의 생각"

llm = ChatOpenAI(temperature=0, openai_api_key = open_key)
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)

  warn_deprecated(


In [3]:
# Set logging for the queries
import logging

logging.basicConfig()
logging.getLogger("langchain.retrievers.multi_query").setLevel(logging.INFO)

In [4]:
unique_docs = retriever_from_llm.get_relevant_documents(query=question)
len(unique_docs)

  warn_deprecated(
INFO:langchain.retrievers.multi_query:Generated queries: ['1. What are the thoughts of the author?', "2. What is the author's perspective?", "3. Can you provide insights into the author's mindset?"]


4

In [5]:
unique_docs

[Document(metadata={'description': '가드니의 블로그', 'language': 'ko', 'source': 'https://corin-e.tistory.com/entry/1-%EC%82%BC%EC%84%B1-%EC%B2%AD%EB%85%84-SW-%EC%95%84%EC%B9%B4%EB%8D%B0%EB%AF%B8%EC%8B%B8%ED%94%BC-SSAFY-%EC%82%BC%EC%88%98-%ED%9B%84%EA%B8%B0', 'title': '1) 삼성 청년 SW 아카데미(싸피, SSAFY) 삼수 후기'}, page_content='안녕하세요! 정보 공유 해주셔서 감사합니다.\n혹시 면접은 주말에 보셨을까요?ㅜㅜ\n밍밍수\n\n\n\n\n인덱스 : 0  1  2  3  4  5  6  7  8  9 10\n방  향 :    왼 ⋯\n코딩질문자\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\nCopyright © Kakao Corp. All rights reserved.\n\n\n\n관련사이트\n\n\n\n\n\n\n\n\n\n티스토리툴바\n🪨 🪨 🪨구독하기'),
 Document(metadata={'description': '가드니의 블로그', 'language': 'ko', 'source': 'https://corin-e.tistory.com/entry/1-%EC%82%BC%EC%84%B1-%EC%B2%AD%EB%85%84-SW-%EC%95%84%EC%B9%B4%EB%8D%B0%EB%AF%B8%EC%8B%B8%ED%94%BC-SSAFY-%EC%82%BC%EC%88%98-%ED%9B%84%EA%B8%B0', 'title': '1) 삼성 청년 SW 아카데미(싸피, SSAFY) 삼수 후기'}, page_content='각종 후기 (2) \n\n\n\n\n\n\n\n최근글과 인기글\n\n최근글\n인기글\n\n\n\n\n\n\n스프링 + MongoDB) @JsonProperty @JsonNaming 인식 안됨\

## 기본 Parent-document Retriever

In [121]:
from langchain.retrievers import ParentDocumentRetriever

In [122]:
from langchain.storage import InMemoryStore
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader
from langchain_community.vectorstores import Chroma
from langchain.embeddings import HuggingFaceEmbeddings


In [123]:
loaders = [
    loader = TextLoader('KakaoTalk_group.txt')
    # PyPDFLoader("/content/drive/MyDrive/강의 자료/[복지이슈 FOCUS 15ȣ] 경기도 극저신용대출심사모형 개발을 위한 국내 신용정보 활용가능성 탐색.pdf"),
    # PyPDFLoader("/content/drive/MyDrive/강의 자료/[이슈리포트 2022-2호] 혁신성장 정책금융 동향.pdf"),
]
docs = []
for loader in loaders:
    docs.extend(loader.load_and_split())

SyntaxError: invalid syntax. Maybe you meant '==' or ':=' instead of '='? (2736647683.py, line 2)

In [124]:
model_name = "jhgan/ko-sbert-nli"
encode_kwargs = {'normalize_embeddings': True}
ko_embedding = HuggingFaceEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs
)

In [151]:
# This text splitter is used to create the child documents
child_splitter = RecursiveCharacterTextSplitter(chunk_size=200)
# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="full_documents", embedding_function=ko_embedding
)
# The storage layer for the parent documents
store = InMemoryStore()
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
)

In [152]:
retriever.add_documents(docs, ids=None)

In [159]:
sub_docs = vectorstore.similarity_search("7월 29일 대화 내용")

In [160]:
print("글 길이: {}\n\n".format(len(sub_docs[0].page_content)))
print(sub_docs[0].page_content)

글 길이: 46


1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37


In [164]:
retrieved_docs = retriever.get_relevant_documents("7월 29일 대화 내용")

In [165]:
print("글 길이: {}\n\n".format(len(retrieved_docs[0].page_content)))
print(retrieved_docs[0].page_content)

글 길이: 46


1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37


## 본문의 Full_chunk가 너무 길때

In [166]:
# This text splitter is used to create the parent documents
parent_splitter = RecursiveCharacterTextSplitter(chunk_size=800)
# This text splitter is used to create the child documents
# It should create documents smaller than the parent
child_splitter = RecursiveCharacterTextSplitter(chunk_size=200)
# The vectorstore to use to index the child chunks
vectorstore = Chroma(
    collection_name="split_parents", embedding_function=ko_embedding
)
# The storage layer for the parent documents
store = InMemoryStore()

In [167]:
retriever = ParentDocumentRetriever(
    vectorstore=vectorstore,
    docstore=store,
    child_splitter=child_splitter,
    parent_splitter=parent_splitter,
)

In [168]:
retriever.add_documents(docs)

In [169]:
len(list(store.yield_keys()))

4

In [177]:
sub_docs = vectorstore.similarity_search("7월 29일 대화 내용")

In [178]:
print(sub_docs[0].page_content)

1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37


In [172]:
len(sub_docs[0].page_content)

46

In [173]:
retrieved_docs = retriever.get_relevant_documents("7월 29일 대화 내용")

In [174]:
print(retrieved_docs[0].page_content)

1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37


In [140]:
len(retrieved_docs[0].page_content)

150

## Self-querying

In [10]:
!pip install lark

Defaulting to user installation because normal site-packages is not writeable
Collecting lark
  Downloading lark-1.1.9-py3-none-any.whl.metadata (1.9 kB)
Downloading lark-1.1.9-py3-none-any.whl (111 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m111.7/111.7 kB[0m [31m1.4 MB/s[0m eta [36m0:00:00[0m [36m0:00:01[0m
[?25hInstalling collected packages: lark
Successfully installed lark-1.1.9

[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [None]:
from langchain.schema import Document
from langchain_community.vectorstores import Chroma

docs = [
    Document(
        page_content="A bunch of scientists bring back dinosaurs and mayhem breaks loose",
        metadata={"year": 1993, "rating": 7.7, "genre": "science fiction"},
    ),
    Document(
        page_content="Leo DiCaprio gets lost in a dream within a dream within a dream within a ...",
        metadata={"year": 2010, "director": "Christopher Nolan", "rating": 8.2},
    ),
    Document(
        page_content="A psychologist / detective gets lost in a series of dreams within dreams within dreams and Inception reused the idea",
        metadata={"year": 2006, "director": "Satoshi Kon", "rating": 8.6},
    ),
    Document(
        page_content="A bunch of normal-sized women are supremely wholesome and some men pine after them",
        metadata={"year": 2019, "director": "Greta Gerwig", "rating": 8.3},
    ),
    Document(
        page_content="Toys come alive and have a blast doing so",
        metadata={"year": 1995, "genre": "animated"},
    ),
    Document(
        page_content="Three men walk into the Zone, three men walk out of the Zone",
        metadata={
            "year": 1979,
            "director": "Andrei Tarkovsky",
            "genre": "thriller",
            "rating": 9.9,
        },
    ),
]
vectorstore = Chroma.from_documents(docs, ko_embedding)

In [None]:
from langchain.chains.query_constructor.base import AttributeInfo
from langchain.retrievers.self_query.base import SelfQueryRetriever
from langchain.chat_models import ChatOpenAI

metadata_field_info = [
    AttributeInfo(
        name="genre",
        description="The genre of the movie. One of ['science fiction', 'comedy', 'drama', 'thriller', 'romance', 'action', 'animated']",
        type="string",
    ),
    AttributeInfo(
        name="year",
        description="The year the movie was released",
        type="integer",
    ),
    AttributeInfo(
        name="director",
        description="The name of the movie director",
        type="string",
    ),
    AttributeInfo(
        name="rating", description="A 1-10 rating for the movie", type="float"
    ),
]
document_content_description = "Brief summary of a movie"
llm = ChatOpenAI(temperature=0, openai_api_key = "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")
retriever = SelfQueryRetriever.from_llm(
    llm,
    vectorstore,
    document_content_description,
    metadata_field_info,
    verbose = True
)

In [None]:
retriever.get_relevant_documents("what are some movies rated higher than 8.5")

## Time-weighted vector store Retriever

Scoring 방법 = *semantic_similarity + (1.0 - decay_rate) ^ hours_passed*

In [8]:
!pip install -q faiss-gpu


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m


In [9]:
from datetime import datetime, timedelta

import faiss
from langchain.docstore import InMemoryDocstore
from langchain.retrievers import TimeWeightedVectorStoreRetriever
from langchain.schema import Document
from langchain_community.vectorstores import FAISS


ModuleNotFoundError: No module named 'faiss'

In [None]:
# Initialize the vectorstore as empty
embedding_size = 768
index = faiss.IndexFlatL2(embedding_size)
vectorstore = FAISS(ko_embedding, index, InMemoryDocstore({}), {})
retriever = TimeWeightedVectorStoreRetriever(
    vectorstore=vectorstore, decay_rate=0.99, k=1
)

In [None]:
yesterday = datetime.now() - timedelta(days=1)
retriever.add_documents(
    [Document(page_content="영어는 훌륭합니다.", metadata={"last_accessed_at": yesterday})]
)
retriever.add_documents([Document(page_content="한국어는 훌륭합니다")])

In [None]:
# "Hello World" is returned first because it is most salient, and the decay rate is close to 0., meaning it's still recent enough
retriever.get_relevant_documents("영어가 좋아요")

## Ensemble Retriever

In [6]:
!pip install -q langchain pypdf sentence-transformers chromadb langchain-openai faiss-gpu --upgrade --quiet  rank_bm25 > /dev/null

In [12]:
from langchain.retrievers import BM25Retriever, EnsembleRetriever
from langchain_community.vectorstores import FAISS
from langchain.embeddings import HuggingFaceEmbeddings


In [62]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader('KakaoTalk_group.txt')
data = loader.load()

print(type(data))
print(len(data))

<class 'list'>
1


In [63]:
data[0].metadata

{'source': 'KakaoTalk_group.txt'}

In [64]:
from langchain_community.document_loaders import TextLoader

loader = TextLoader('KakaoTalk_group.txt')
data = loader.load()

print(type(data))
print(len(data))

<class 'list'>
1


In [65]:
model_name = "jhgan/ko-sbert-nli"
encode_kwargs = {'normalize_embeddings': True}
ko_embedding = HuggingFaceEmbeddings(
    model_name=model_name,
    encode_kwargs=encode_kwargs
)

In [66]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.document_loaders import PyPDFLoader

loaders = [
    # PyPDFLoader("./first.pdf"),
    # PyPDFLoader("./fsecond.pdf"),
    TextLoader('KakaoTalk_group.txt')
]
print(loaders)
docs = []
for loader in loaders:
    docs.extend(loader.load_and_split())

text_splitter = RecursiveCharacterTextSplitter(chunk_size=200, chunk_overlap=50)
texts = text_splitter.split_documents(docs)

[<langchain_community.document_loaders.text.TextLoader object at 0x7f2a717d6920>]


In [67]:
# initialize the bm25 retriever and faiss retriever
bm25_retriever = BM25Retriever.from_documents(texts)
bm25_retriever.k = 2



embedding = ko_embedding
faiss_vectorstore = FAISS.from_documents(texts, ko_embedding)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

In [68]:
# docs = ensemble_retriever.invoke("혁신정책금융과 극저신용대출모형의 차이")
docs = ensemble_retriever.invoke("7월 29일 대화내용")
for i in docs:

  print(i.metadata)
  print(":")
  print(i.page_content)
  print("-"*100)

{'source': 'KakaoTalk_group.txt'}
:
[김문희] [오후 11:23] 204조는 진짜 아무도 모르겟음
--------------- 2024년 7월 29일 월요일 ---------------
[진기] [오전 12:34] ㅋㅋㅋㅋㅋ
[진기] [오전 12:35] 방금까지 도커를 했지만 완료하지 못해 내일까지 완료하겠습니다...;
[진기] [오전 12:35] 204조는 한 번 찾아볼까요?
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
:
[김문희] [오전 8:51] https://youtu.be/T59SXQlneLY?si=bdY01AHKYja83Z6v
[진기] [오후 12:58] 예본아 카페야
[박예본] [오후 12:59] ㅇㅋㅇㅋ
[진현지] [오후 4:01] 파일: 아이디어 회의.pdf
--------------- 2024년 7월 14일 일요일 ---------------
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
:
--------------- 2024년 7월 10일 수요일 ---------------
[김문희] [오전 7:02] @all
## 셔틀버스안내
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
:
1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37
-----------------------------------------

In [69]:
faiss_vectorstore = FAISS.from_documents(texts, ko_embedding)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 4})

docs = faiss_retriever.invoke("7월 29일 대화내용")
for i in docs:

  print(i.metadata)
  print(":")
  print(i.page_content)
  print("-"*100)

{'source': 'KakaoTalk_group.txt'}
:
[김문희] [오전 8:51] https://youtu.be/T59SXQlneLY?si=bdY01AHKYja83Z6v
[진기] [오후 12:58] 예본아 카페야
[박예본] [오후 12:59] ㅇㅋㅇㅋ
[진현지] [오후 4:01] 파일: 아이디어 회의.pdf
--------------- 2024년 7월 14일 일요일 ---------------
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
:
1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
:
[박예본] [오후 2:28] 파일: ion.pptx
[김문희] [오후 5:22] https://padlet.com/dudgml1531/ssafy11-4f-s9vaadxudtxeusc4
--------------- 2024년 7월 5일 금요일 ---------------
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
:
--------------- 2024년 7월 25일 목요일 ---------------
[김문희] [오전 8:47] https://youtu.be/dBDkYofMUs4?si=mmDs4MSRbBSvEkMJ
[진기] [오전 8:56] https://youtu.be/-m_Kow1fDMo
-----

In [70]:
import os
os.environ["OPENAI_API_KEY"] = 'sk-proj-5g3W1SVHGnmBB7Y2HEMCT3BlbkFJUSvDENpVaFEdRNwZHWlH'

from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI

openai = ChatOpenAI(model_name="gpt-3.5-turbo", temperature = 0)

qa = RetrievalQA.from_chain_type(llm = openai,
                                 chain_type = "stuff",
                                 retriever = ensemble_retriever,
                                 return_source_documents = True)

query = "7월 29일 카카오톡 내용"
result = qa(query)
print(result['result'])

7월 29일에 김문희와 진기가 대화한 내용은 다음과 같습니다:

[김문희] [오후 11:23] 204조는 진짜 아무도 모르겟음
[진기] [오후 11:26] 이모티콘
[진기] [오후 11:36] 문희님이 가자면 가야조.. 저희가 무슨 선택권이 ㅜ
[김문희] [오후 11:36] 네 ?
[김문희] [오후 11:36] 이모티콘

이 날짜에 대화한 내용은 204조에 대한 언급과 함께 진기와 김문희가 대화를 주고받았습니다.


In [71]:
for i in result['source_documents']:
  print(i.metadata)
  print("-"*100)
  print(i.page_content)
  print("-"*100)

{'source': 'KakaoTalk_group.txt'}
----------------------------------------------------------------------------------------------------
1반 에이스 님과 카카오톡 대화
저장한 날짜 : 2024-07-29 13:47:37
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
----------------------------------------------------------------------------------------------------
[김문희] [오후 11:23] 204조는 진짜 아무도 모르겟음
--------------- 2024년 7월 29일 월요일 ---------------
[진기] [오전 12:34] ㅋㅋㅋㅋㅋ
[진기] [오전 12:35] 방금까지 도커를 했지만 완료하지 못해 내일까지 완료하겠습니다...;
[진기] [오전 12:35] 204조는 한 번 찾아볼까요?
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
----------------------------------------------------------------------------------------------------
[김문희] [오후 11:26] 이모티콘
[진기] [오후 11:36] 문희님이 가자면 가야조.. 저희가 무슨 선택권이 ㅜ
[김문희] [오후 11:36] 네 ?
[김문희] [오후 11:36] 이모티콘
--------------- 2024년 7월 8일 월요일 -----------

In [72]:
faiss_vectorstore = FAISS.from_documents(docs, ko_embedding)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 4})

qa = RetrievalQA.from_chain_type(llm = openai,
                                 chain_type = "stuff",
                                 retriever = faiss_retriever,
                                 return_source_documents = True)

query = "2024-07-28 에 [박상필]이 보낸 메세지"
result = qa(query)
print(result['result'])

죄송합니다, 2024-07-28에 [박상필]이 보낸 메시지에 대한 정보는 제공되지 않았습니다. 해당 대화 내용이 없는 것 같습니다.


In [73]:
for i in result['source_documents']:
  print(i.metadata)
  print("-"*100)
  print(i.page_content)
  print("-"*100)

{'source': 'KakaoTalk_group.txt'}
----------------------------------------------------------------------------------------------------
[박예본] [오후 2:28] 파일: ion.pptx
[김문희] [오후 5:22] https://padlet.com/dudgml1531/ssafy11-4f-s9vaadxudtxeusc4
--------------- 2024년 7월 5일 금요일 ---------------
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
----------------------------------------------------------------------------------------------------
--------------- 2024년 7월 25일 목요일 ---------------
[김문희] [오전 8:47] https://youtu.be/dBDkYofMUs4?si=mmDs4MSRbBSvEkMJ
[진기] [오전 8:56] https://youtu.be/-m_Kow1fDMo
----------------------------------------------------------------------------------------------------
{'source': 'KakaoTalk_group.txt'}
----------------------------------------------------------------------------------------------------
[김문희] [오전 8:51] https://youtu.be/T59SXQlneLY?si=bdY01AHKYja83Z6v
[진기] [오후 12:58] 예본아

## Long Context Reorder

In [None]:
from langchain.chains import LLMChain, StuffDocumentsChain
from langchain.prompts import PromptTemplate
from langchain_community.document_transformers import (
    LongContextReorder,
)
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain_openai import OpenAI

texts = [
    "바스켓볼은 훌륭한 스포츠입니다.",
    "플라이 미 투 더 문은 제가 가장 좋아하는 노래 중 하나입니다.",
    "셀틱스는 제가 가장 좋아하는 팀입니다.",
    "보스턴 셀틱스에 관한 문서입니다.", "보스턴 셀틱스는 제가 가장 좋아하는 팀입니다.",
    "저는 영화 보러 가는 것을 좋아해요",
    "보스턴 셀틱스가 20점차로 이겼어요",
    "이것은 그냥 임의의 텍스트입니다.",
    "엘든 링은 지난 15 년 동안 최고의 게임 중 하나입니다.",
    "L. 코넷은 최고의 셀틱스 선수 중 한 명입니다.",
    "래리 버드는 상징적 인 NBA 선수였습니다.",
]

# Create a retriever
retriever = Chroma.from_texts(texts, embedding=ko_embedding).as_retriever(
    search_kwargs={"k": 10}
)
query = "셀틱스에 대해 어떤 이야기를 들려주시겠어요?"

# Get relevant documents ordered by relevance score
docs = retriever.get_relevant_documents(query)
docs

In [None]:
reordering = LongContextReorder()
reordered_docs = reordering.transform_documents(docs)

# Confirm that the 4 relevant documents are at beginning and end.
reordered_docs

In [None]:
from langchain.chains import LLMChain, StuffDocumentsChain
from langchain.prompts import PromptTemplate
import os
os.environ["OPENAI_API_KEY"] = 'YOUR_API_KEY'

from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI

document_prompt = PromptTemplate(
    input_variables=["page_content"], template="{page_content}"
)

template = """Given this text extracts:
-----
{context}
-----
Please answer the following question:
{query}"""
prompt = PromptTemplate(
    template=template, input_variables=["context", "query"]
)
openai = ChatOpenAI(model_name="gpt-3.5-turbo", temperature = 0)

llm_chain = LLMChain(llm=openai, prompt=prompt)
chain = StuffDocumentsChain(
    llm_chain=llm_chain,
    document_prompt=document_prompt,
    document_variable_name="context"
)


In [None]:
reordered_result = chain.run(input_documents=reordered_docs, query=query)
result = chain.run(input_documents=docs, query=query)

print(reordered_result)
print("-"*100)
print(result)