%pip install ollama

import ollama

res = ollama.chat(model='llama3-ko', messages=[
    {
        'role': 'user',
        'content': '코사인의 미분 공식에 대해 설명해줘'
    }
])
print(res['message']['content'])

In [2]:
from pypdf import PdfReader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document
from langchain.chat_models import ChatOllama
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_core.prompts.prompt import PromptTemplate
from docx import Document
import torch
import json
import faiss
from langchain.vectorstores import FAISS


ngrok = 'https://48fe-34-168-96-187.ngrok-free.app'
llm_model = ChatOllama(
    model='meta-llama-3.1',
    # num_predict=256,
    format='json',
    base_url=ngrok
    
)

device = 'cpu'

embedding_model = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs = {'device': device}, # 모델이 CPU에서 실행되도록 설정. GPU를 사용할 수 있는 환경이라면 'cuda'로 설정할 수도 있음
    encode_kwargs = {'normalize_embeddings': True}, # 임베딩 정규화. 모든 벡터가 같은 범위의 값을 갖도록 함. 유사도 계산 시 일관성을 높여줌
)


prompt_template = '''Use the following pieces of context to answer the question at the end.
If you don't find the answer in context, just say that '내용을 확인할 수 없습니다.', don't try to make up an answer.
If you find the answer in context, answer me only use korean.

context: {context}

Question: {question}
Helpful Answer:'''
rag_prompt = PromptTemplate.from_template(prompt_template)

vectorstore = FAISS.load_local(
    'test',
    embedding_model,
    allow_dangerous_deserialization=True,
)

In [7]:
doc = Document()
question = '미국 철강 제조업 수출에 대한 보고서를 만들어줘 `title`: str(보고서의 제목), `content`: list [보고서의 목차별 제목] 20글자 이내로 Respond using JSON only.'
# question = '국민건강보험법에서 직장가입자를 구분하는 기준에 대해서 보고서를 만들어줘 `title`: str(보고서의 제목), `content`: list [보고서의 목차별 제목] 20글자 이내로 Respond using JSON only.'
# question = ' text`: str(`1. Google AIStudio를 검색한 후 아래 사이트로 접속하고 로그인 -> ‘Gemini API 키 가져오기’ 클릭`에 대한 상세한 정보) resonse in JSON format. only use korean in answer'

memory = ConversationBufferMemory(
    memory_key='chat_history',
    return_messages=True,
)

conversation_chain = ConversationalRetrievalChain.from_llm(
    llm=llm_model,
    retriever=vectorstore.as_retriever(),
    condense_question_prompt=rag_prompt,
    memory=memory,
)
res = conversation_chain({'question': question})
# print(res['chat_history'][1].content)
response = res['chat_history'][1].content.replace('\n', '').lstrip().rstrip()
response = json.loads(response)
print(response)
doc.add_heading(response['title'])

for cont in response['content']:
    doc.add_paragraph(cont)

for cont in response['content']:
    question = f'`{cont}`에 대한 설명. key is `text`. Respond using JSON only.'

    memory = ConversationBufferMemory(
        memory_key='chat_history',
        return_messages=True,
    )

    conversation_chain = ConversationalRetrievalChain.from_llm(
        llm=llm_model,
        retriever=vectorstore.as_retriever(),
        condense_question_prompt=rag_prompt,
        memory=memory,
    )
    
    res = conversation_chain({'question': question})
    # print(res['chat_history'][1].content)
    response = res['chat_history'][1].content.replace('\n', '').lstrip().rstrip()
    response = json.loads(response)
    print(response)
    doc.add_heading(cont, level = 2)
    doc.add_paragraph(response['text'])
    
doc.save('test.docx')

{'title': '미국 철강 제조업 수출', 'content': ['제1장: 미국 철강 제조업의 현황과 전망', '제2장: 미국 철강 제조업의 수출 동향', '제3장: 미국 철강 제조업의 수출 시장 분석', '제4장: 미국 철강 제조업의 수출 경쟁력 강화 방안']}
{'text': '미국 철강 제조업은 2020년 2분기 기준으로 1,400만 톤의 생산량을 기록했으며, 이는 전년 동기보다 3.4% 감소했다. 미국 철강 제조업의 주요 업종은 강철 및 연합 강철, 스테인리스 강철, 알루미늄 및 기타 금속 제품이다. 미국 철강 제조업의 생산량은 2020년 2분기 기준으로 1,400만 톤을 기록했으며, 이는 전년 동기보다 3.4% 감소했다. 미국 철강 제조업의 주요 업종은 강철 및 연합 강철, 스테인리스 강철, 알루미늄 및 기타 금속 제품이다.'}
{'text': '미국 철강 제조업은 2020년 1분기부터 3분기까지 총 4분기에 걸쳐서 수출이 감소했다. 이는 코로나19 범유행으로 인해 세계 경제가 침체되었기 때문이다. 미국의 주요 철강 수출국가는 중국, 캐나다, 멕시코, 일본, 독일 등이다. 미국은 철강을 수출하는 데 있어 중국에 가장 큰 시장이다. 2020년 1분기에 미국이 중국으로 철강을 수출한 금액은 2억 5천만 달러였다. 그 다음으로는 캐나다로 철강을 수출한 금액이 1억 8천만 달러, 멕시코로 철강을 수출한 금액이 1억 4천만 달러, 일본으로 철강을 수출한 금액이 7천만 달러, 독일로 철강을 수출한 금액이 5천만 달러였다. 미국의 철강 수출은 코로나19 범유행 이후에도 꾸준히 증가하고 있다. 2020년 4분기에 미국이 중국으로 철강을 수출한 금액은 3억 2천만 달러, 캐나다로 철강을 수출한 금액은 1억 9천만 달러, 멕시코로 철강을 수출한 금액은 1억 5천만 달러, 일본으로 철강을 수출한 금액은 8천만 달러, 독일로 철강을 수출한 금액은 6천만 달러였다. 미국의 철강 수출은 코로나19 범유행 이후에도 꾸준히 증가하고 있다.'}
{'text': '미국 철강 제조

In [None]:
#pip install psycopg2
import psycopg2
from psycopg2 import pool

db = psycopg2.connect(
    user='postgres.vpcdvbdktvvzrvjfyyzm',
    password='Odvv8E1iChKjwai4',
    host='aws-0-ap-southeast-1.pooler.supabase.com',
    port=6543,
    dbname='postgres'
)

In [None]:
db.close()

In [None]:
db = psycopg2.connect(
    user='moai',
    password='smhrd1234',
    host='project-db-campus.smhrd.com',
    port=3310,
    dbname='moai'
)

In [None]:
%pip install -qU langchain_postgres

In [None]:
from langchain_core.documents import Document
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector

In [None]:
device='cpu'
from langchain_community.embeddings import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs = {'device': device}, # 모델이 CPU에서 실행되도록 설정. GPU를 사용할 수 있는 환경이라면 'cuda'로 설정할 수도 있음
    encode_kwargs = {'normalize_embeddings': True}, # 임베딩 정규화. 모든 벡터가 같은 범위의 값을 갖도록 함. 유사도 계산 시 일관성을 높여줌
)

In [None]:
vs = PGVector(
    embeddings=embedding_model,
    collection_name='test_docs',
    connection='postgresql+psycopg2://postgres.vpcdvbdktvvzrvjfyyzm:Odvv8E1iChKjwai4@aws-0-ap-southeast-1.pooler.supabase.com:6543/postgres',
    use_jsonb=True
)

In [None]:
vs.delete_collection()

In [None]:
uuid.uuid4().hex

In [None]:
from pypdf import PdfReader
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_sum = ''
file = './03.조건문.pdf'

reader = PdfReader(file)
for page in reader.pages: #페이지 별로 텍스트 추출
    text = page.extract_text()
    corrected_text = text.encode('utf-8', errors='ignore').decode('utf-8') #인코딩 오류 무시 및 텍스트 누적
    text_sum += corrected_text +'\n'

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)

In [None]:
splits = text_splitter.split_text(text_sum)

In [None]:
splits

In [None]:
vs.add_texts(splits)