In [13]:
# !pip install -q langchain langchain-community langchain_huggingface chromadb wikipedia
# !pip install sentence-transformers

In [14]:
import os
from langchain_community.document_loaders import WikipediaLoader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_community.vectorstores import Chroma
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
import json

In [15]:
# 파일 읽기
with open(r'D:\OneDrive\human\port-folio\personal_project\DeepLearning\day00_preparation\data\APIkey.json', 'r') as file:
    data = json.load(file)  # JSON 파일을 파이썬 딕셔너리로 로드

# 환경 변수에서 API 키 가져오기
api_key = data['Huggingface']

In [16]:
os.environ["HUGGINGFACEHUB_API_TOKEN"] = api_key

In [17]:
os.environ.get("HUGGINGFACEHUB_API_TOKEN")

'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'

In [18]:
from langchain.embeddings import HuggingFaceEmbeddings
from langchain.llms import HuggingFaceHub
from langchain.docstore.document import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from bs4 import BeautifulSoup
import requests

# SKT 한국어 임베딩 및 QA 모델 설정
hf_embeddings = HuggingFaceEmbeddings(
    model_name='jhgan/ko-sroberta-nli',
    model_kwargs={'device': 'cpu'},
    encode_kwargs={'normalize_embeddings': True}
)

  from tqdm.autonotebook import tqdm, trange
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


In [19]:
def load_Korean_wiki_docs(topic):
    url = f"https://ko.wikipedia.org/wiki/{topic}"
    response = requests.get(url)
    response.raise_for_status()

    soup = BeautifulSoup(response.text, 'html.parser')
    content = soup.find('div', id='bodyContent')  # 페이지의 본문을 나타내는 ID

    # 텍스트가 있는지 확인
    if content:
        paragraphs = content.find_all('p')
        text = "\n".join([p.get_text() for p in paragraphs])
        if not text.strip():
            print("No text found in main content.")
    else:
        print("Body content div not found.")
        text = ""

    # 텍스트 내용 출력 확인
    print(f"Extracted text: {text[:500]}...")  # 텍스트 첫 500자 확인
    
    documents = [Document(page_content=text, metadata={"source": url})]
    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)
    splits = text_splitter.split_documents(documents)
    
    print(f"Number of splits: {len(splits)}")  # Split 개수 확인
    return splits

def create_vectorstore(splits):
    valid_splits = []
    for i, split in enumerate(splits):
        print(f"Processing split {i+1}/{len(splits)}: {split.page_content[:30]}...")  # 첫 30자 출력
        
        # 임베딩 생성 과정 확인
        embedding = hf_embeddings.embed_query(split.page_content)
        
        # 임베딩이 올바르게 생성되었는지 길이와 형태 출력
        if embedding and len(embedding) > 0:
            print(f"Embedding created for split {i+1}, length: {len(embedding)}")
            valid_splits.append(split)
        else:
            print(f"Empty embedding for split {i+1}")

    if valid_splits:
        vectorstore = Chroma.from_documents(documents=valid_splits, embedding=hf_embeddings)
        return vectorstore
    else:
        raise ValueError("No valid documents with embeddings to add to vector store.")

# 사용 예시
topic = "정년이"
splits = load_Korean_wiki_docs(topic)
if splits:
    vectorstore = create_vectorstore(splits)
else:
    print("No content to create vector store.")


Extracted text: 

《정년이》는 네이버 웹툰에서 연재된 반지운의 웹툰이다.

가진 것 없고 배운 것 없지만, 소리 하나만큼은 타고난 목포 소녀 정년! 정년의 꿈은 여성 국극단에 들어가 부자가 되는 것인데…

배워야 할 것은 많고, 주연 배우 자리는 멀기만 하다. 과연 정년은 대스타가, 부자가 될 수 있을까?

네이버 웹툰에서 2019년 4월 1일부터 매주 화요일에 연재된다. 2020년 2월 17일 1부가 종료되었다.

2부가 2020년 5월 4일부터 연재 중이다. 2021년 2월 22일 2부가 종료되었다.

3부가 2021년 6월 7일부터 연재된다.

2022년 5월 16일 후기와 함께 최종 완결되었다.
...
Number of splits: 1
Processing split 1/1: 《정년이》는 네이버 웹툰에서 연재된 반지운의 웹툰이다....
Embedding created for split 1, length: 768


## Use langchain RAG

In [20]:
# from langchain.llms import HuggingFaceHub

# hf_llm = HuggingFaceHub(
#     repo_id="deepset/roberta-base-squad2",
#     model_kwargs={"task": "text2text-generation"},
#     huggingfacehub_api_token="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"
# )

# def create_rag_chain(vectorstore):
#     prompt_template = """문맥을 참고하여 질문에 정확하고 간결하게 답하십시오.
#     문맥: {context}
#     질문: {question}
#     답변:"""
#     PROMPT = PromptTemplate(
#         template=prompt_template, input_variables=["context", "question"]
#     )

#     chain_type_kwargs = {"prompt": PROMPT}
    
#     qa_chain = RetrievalQA.from_chain_type(
#         llm=hf_llm,
#         chain_type="stuff",
#         retriever=vectorstore.as_retriever(),
#         chain_type_kwargs=chain_type_kwargs,
#         return_source_documents=True
#     )
    
#     return qa_chain
    
# # RAG 체인 생성
# qa_chain = create_rag_chain(vectorstore)

# question = "출연진은 누구야?"

# # result = qa_chain({"query": question})
# result = qa_chain.invoke({"query": question})

# print ("결과:")
# print(result["result"])

# print("출처:")
# for doc in result["source_documents"]:
#     print(doc.page_content)
#     print("---")

In [21]:
from transformers import pipeline

# KoAlpaca 모델 로드
qa_pipeline = pipeline(
    "text2text-generation",
    model="beomi/KoAlpaca-Polyglot-5.8B",
    tokenizer="beomi/KoAlpaca-Polyglot-5.8B"
)

# 중요한 부분을 발췌하거나 `context`가 짧은지 확인
context = " ".join([split.page_content for split in splits])

question = "정년이 웹툰의 주인공 이름은 무엇인가요?"

# 사용 예시
result = qa_pipeline(f"{context}\n{question}", max_new_tokens=100)  # max_new_tokens로 답변 길이 조정
print(result[0]['generated_text'])

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Downloading shards: 100%|██████████| 13/13 [17:29<00:00, 80.73s/it]
Loading checkpoint shards: 100%|██████████| 13/13 [00:45<00:00,  3.49s/it]
The model 'GPTNeoXForCausalLM' is not supported for text2text-generation. Supported models are ['BartForConditionalGeneration', 'BigBirdPegasusForConditionalGeneration', 'BlenderbotForConditionalGeneration', 'BlenderbotSmallForConditionalGeneration', 'EncoderDecoderModel', 'FSMTForConditionalGeneration', 'GPTSanJapaneseForConditionalGeneration', 'LEDForConditionalGeneration', 'LongT5ForConditionalGeneration', 'M2M100ForConditionalGeneration', 'MarianMTModel', 'MBartForConditionalGeneration', 'MT5ForConditionalGeneration', 'MvpForConditionalGeneration', 'NllbMoeForConditionalGeneration', 'P

《정년이》는 네이버 웹툰에서 연재된 반지운의 웹툰이다.

가진 것 없고 배운 것 없지만, 소리 하나만큼은 타고난 목포 소녀 정년! 정년의 꿈은 여성 국극단에 들어가 부자가 되는 것인데…

배워야 할 것은 많고, 주연 배우 자리는 멀기만 하다. 과연 정년은 대스타가, 부자가 될 수 있을까?

네이버 웹툰에서 2019년 4월 1일부터 매주 화요일에 연재된다. 2020년 2월 17일 1부가 종료되었다.

2부가 2020년 5월 4일부터 연재 중이다. 2021년 2월 22일 2부가 종료되었다.

3부가 2021년 6월 7일부터 연재된다.

2022년 5월 16일 후기와 함께 최종 완결되었다.
정년이 웹툰의 주인공 이름은 무엇인가요?
정년이(顯貞)

### 답변:'정년이'라는 이름은 네이버 웹툰 '반지운'의 주인공인 정년의 이름에서 유래합니다. 정년은 가난하고 배우지 않은 환경에서 자라났지만, 배우고 싶은 마음과 열정으로 인해 여성 국극단에서 활동하는 등 성공적인 삶을 살았습니다. 이와 같이, 정년의 삶을 그린 만화 '반지운'이 독자들에게 큰


In [22]:
question = "정년이 드라마의 출연진을 알려주세요"

# 사용 예시
result = qa_pipeline(f"{context}\n{question}", max_new_tokens=100)  # max_new_tokens로 답변 길이 조정
print(result[0]['generated_text'])

《정년이》는 네이버 웹툰에서 연재된 반지운의 웹툰이다.

가진 것 없고 배운 것 없지만, 소리 하나만큼은 타고난 목포 소녀 정년! 정년의 꿈은 여성 국극단에 들어가 부자가 되는 것인데…

배워야 할 것은 많고, 주연 배우 자리는 멀기만 하다. 과연 정년은 대스타가, 부자가 될 수 있을까?

네이버 웹툰에서 2019년 4월 1일부터 매주 화요일에 연재된다. 2020년 2월 17일 1부가 종료되었다.

2부가 2020년 5월 4일부터 연재 중이다. 2021년 2월 22일 2부가 종료되었다.

3부가 2021년 6월 7일부터 연재된다.

2022년 5월 16일 후기와 함께 최종 완결되었다.
정년이 드라마의 출연진을 알려주세요.

도라지 - 김민재
목민심서 - 최연소
장희빈 - 경종
김춘추 - 조재현

### 답변:"정년이"는 네이버 웹툰에서 연재된 반지운 작가의 웹툰으로, 소리를 잘 내는 여자 아이가 등장합니다. 정년이는 여성 국극단에 들어가서 부자가 되는 것이 꿈이지만, 배우지 않아도 뛰어난 소리를 내는 능력을 가지고 있습니다.


In [23]:
question = "정년이는 언제부터 언제까지 연재되었나요?"

# 사용 예시
result = qa_pipeline(f"{context}\n{question}", max_new_tokens=100)  # max_new_tokens로 답변 길이 조정
print(result[0]['generated_text'])

《정년이》는 네이버 웹툰에서 연재된 반지운의 웹툰이다.

가진 것 없고 배운 것 없지만, 소리 하나만큼은 타고난 목포 소녀 정년! 정년의 꿈은 여성 국극단에 들어가 부자가 되는 것인데…

배워야 할 것은 많고, 주연 배우 자리는 멀기만 하다. 과연 정년은 대스타가, 부자가 될 수 있을까?

네이버 웹툰에서 2019년 4월 1일부터 매주 화요일에 연재된다. 2020년 2월 17일 1부가 종료되었다.

2부가 2020년 5월 4일부터 연재 중이다. 2021년 2월 22일 2부가 종료되었다.

3부가 2021년 6월 7일부터 연재된다.

2022년 5월 16일 후기와 함께 최종 완결되었다.
정년이는 언제부터 언제까지 연재되었나요?
2021년 2월 22일까지 연재되었습니다.


In [24]:
question = "작품의 배경연도를 알려주세요."

# 사용 예시
result = qa_pipeline(f"{context}\n{question}", max_new_tokens=100)  # max_new_tokens로 답변 길이 조정
print(result[0]['generated_text'])

《정년이》는 네이버 웹툰에서 연재된 반지운의 웹툰이다.

가진 것 없고 배운 것 없지만, 소리 하나만큼은 타고난 목포 소녀 정년! 정년의 꿈은 여성 국극단에 들어가 부자가 되는 것인데…

배워야 할 것은 많고, 주연 배우 자리는 멀기만 하다. 과연 정년은 대스타가, 부자가 될 수 있을까?

네이버 웹툰에서 2019년 4월 1일부터 매주 화요일에 연재된다. 2020년 2월 17일 1부가 종료되었다.

2부가 2020년 5월 4일부터 연재 중이다. 2021년 2월 22일 2부가 종료되었다.

3부가 2021년 6월 7일부터 연재된다.

2022년 5월 16일 후기와 함께 최종 완결되었다.
작품의 배경연도를 알려주세요.
1968년 
9월 
9일 
9시 
9분 
9초 
9년 
9월 
9일 
9시 
9분 
9초 
9년 
9월 
9일 
9시 
9분 
9초 
9년 
9월 
9일 
9시 
9분 
9초 
9년
