%pip install ollama

import ollama

res = ollama.chat(model='llama3-ko', messages=[
    {
        'role': 'user',
        'content': '코사인의 미분 공식에 대해 설명해줘'
    }
])
print(res['message']['content'])

In [35]:
from pypdf import PdfReader
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_core.documents import Document
from langchain.chat_models import ChatOllama
from langchain.memory import ConversationBufferMemory
from langchain.chains import ConversationalRetrievalChain
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_core.prompts.prompt import PromptTemplate
from docx import Document
import torch
import json
import faiss
from langchain.vectorstores import FAISS
# from langchain_community.vectorstores import FAISS


ngrok = 'https://3e87-34-126-188-226.ngrok-free.app'
llm_model_json = ChatOllama(
    model='meta-llama-3.1',
    # num_predict=256,
    format='json',
    base_url=ngrok
)
llm_model = ChatOllama(
    model='meta-llama-3.1',
    # num_predict=256,
    # format='json',
    base_url=ngrok
)


device = 'cpu'

embedding_model = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs = {'device': device}, # 모델이 CPU에서 실행되도록 설정. GPU를 사용할 수 있는 환경이라면 'cuda'로 설정할 수도 있음
    encode_kwargs = {'normalize_embeddings': True}, # 임베딩 정규화. 모든 벡터가 같은 범위의 값을 갖도록 함. 유사도 계산 시 일관성을 높여줌
)


prompt_template = '''Use the following pieces of context to answer the question at the end.
If you don't find the answer in context, don't try to make up an answer.
If you find the answer in context, answer me only use korean.

context: {context}

Question: {question}
Helpful Answer:'''
rag_prompt = PromptTemplate.from_template(prompt_template)

vectorstore = FAISS.load_local(
    'test',
    embedding_model,
    allow_dangerous_deserialization=True,
)

In [40]:
doc = Document()
question = '''국민건강보험법에서 직장가입자를 구분하는 기준에 대한 보고서를 만들어줘 
    'title': '보고서의 제목',
    'content':list['보고서의 목차별 제목'] 20글자 이내,
    'summary': '보고서의 개요' 1000글자 이내
key is title, content, summary.
Respond using JSON only.'''
# question = '국민건강보험법에서 직장가입자를 구분하는 기준에 대해서 보고서를 만들어줘 `title`: str(보고서의 제목), `content`: list [보고서의 목차별 제목] 20글자 이내로 Respond using JSON only.'
# question = ' text`: str(`1. Google AIStudio를 검색한 후 아래 사이트로 접속하고 로그인 -> ‘Gemini API 키 가져오기’ 클릭`에 대한 상세한 정보) resonse in JSON format. only use korean in answer'

memory = ConversationBufferMemory(
    memory_key='chat_history',
    return_messages=True,
)

conversation_chain = ConversationalRetrievalChain.from_llm(
    llm=llm_model_json,
    retriever=vectorstore.as_retriever(),
    condense_question_prompt=rag_prompt,
    memory=memory,
)
res = conversation_chain({'question': question})
# print(res['chat_history'][1].content)
response = res['chat_history'][1].content.replace('\n', '').lstrip().rstrip()
response = json.loads(response)
print(response)
title = response['title']
doc.add_heading(title, level = 0)

doc.add_heading('목차', level = 1)
doc.add_paragraph('1. 개요')
doc.add_paragraph('2. 본문')
for n, cont in enumerate(response['content'], 1):
    doc.add_paragraph(f'\t2-{n}. {cont}')
    
doc.add_heading('1. 개요', level = 1)
doc.add_paragraph(response['summary'])

doc.add_heading('2. 본문', level = 1)
for n, cont in enumerate(response['content'], 1):
    question = f'''{title}라는 보고서의 {cont} 부분 상세 내용 markdown 형식으로'''

    memory = ConversationBufferMemory(
        memory_key='chat_history',
        return_messages=True,
    )

    conversation_chain = ConversationalRetrievalChain.from_llm(
        llm=llm_model,
        retriever=vectorstore.as_retriever(),
        condense_question_prompt=rag_prompt,
        memory=memory,
    )
    
    res = conversation_chain({'question': question})
    print(res['chat_history'][1].content)
    # response = res['chat_history'][1].content.replace('\n', '').lstrip().rstrip()
    # response = json.loads(response)
    # print(response)
    doc.add_heading(f'\t2-{n}. {cont}', level = 2)
    doc.add_paragraph(res['chat_history'][1].content)
    
    # if 'needed' in response:
    #     doc.add_paragraph('조사가 필요한 내용')
    #     for need in response['needed']:
    #         doc.add_paragraph('\t'+need)
    
doc.save('국민 건강 보험.docx')

OllamaEndpointNotFoundError: Ollama call failed with status code 404. Maybe your model is not found and you should pull the model with `ollama pull meta-llama-3.1`.

In [9]:
# evee_res = response
evee_res

{'title': '국민건강보험법 하의 직장가입자 구분 기준',
 'content': [{'title': '1. 적용 대상자',
   'content': '모든 사업장 근로자와 사용자, 공무원 및 교직원은 직장가입자가 됩니다(법 제6조제2항). 5인 미만의 사업장의 근로자는 소득파악의 어려움으로 인해 직장가입자에 포함되지 않았으나, 이후 모든 사업장 근로자를 직장가입자로 확대하였습니다.'},
  {'title': '2. 적용 범위',
   'content': '직장가입자 범위는 상근근로자와 비상근근로자 모두를 포함하며, 1개월 동안 소정근로시간이 60시간 미만인 단시간근로자도 포함됩니다.'},
  {'title': '3. 적용 제외 대상',
   'content': '직장가입자에서 제외되는 대상은 일용근로자, 병역법상 현역병, 전환복무된 사람 및 군간부후보생, 매월 보수 또는 보수에 준하는 급료를 받지 않는 공무원입니다.'},
  {'title': '4. 적용 범위',
   'content': '직장가입자 범위는 상근근로자와 비상근근로자 모두를 포함하며, 1개월 동안 소정근로시간이 60시간 미만인 단시간근로자도 포함됩니다.'},
  {'title': '5. 적용 제외 대상',
   'content': '직장가입자에서 제외되는 대상은 일용근로자, 병역법상 현역병, 전환복무된 사람 및 군간부후보생, 매월 보수 또는 보수에 준하는 급료를 받지 않는 공무원입니다.'},
  {'title': '6. 적용 범위',
   'content': '직장가입자 범위는 상근근로자와 비상근근로자 모두를 포함하며, 1개월 동안 소정근로시간이 60시간 미만인 단시간근로자도 포함됩니다.'},
  {'title': '7. 적용 제외 대상',
   'content': '직장가입자에서 제외되는 대상은 일용근로자, 병역법상 현역병, 전환복무된 사람 및 군간부후보생, 매월 보수 또는 보수에 준하는 급료를 받지 않는 공무원입니다.'}],
 'summary': '국민건강보험법은 직장가입자를 모든 사업

In [None]:
#pip install psycopg2
import psycopg2
from psycopg2 import pool

db = psycopg2.connect(
    user='postgres.vpcdvbdktvvzrvjfyyzm',
    password='Odvv8E1iChKjwai4',
    host='aws-0-ap-southeast-1.pooler.supabase.com',
    port=6543,
    dbname='postgres'
)

In [None]:
db.close()

In [None]:
db = psycopg2.connect(
    user='moai',
    password='smhrd1234',
    host='project-db-campus.smhrd.com',
    port=3310,
    dbname='moai'
)

In [None]:
%pip install -qU langchain_postgres

In [None]:
from langchain_core.documents import Document
from langchain_postgres import PGVector
from langchain_postgres.vectorstores import PGVector

In [None]:
device='cpu'
from langchain_community.embeddings import HuggingFaceEmbeddings

embedding_model = HuggingFaceEmbeddings(
    model_name="BAAI/bge-m3",
    model_kwargs = {'device': device}, # 모델이 CPU에서 실행되도록 설정. GPU를 사용할 수 있는 환경이라면 'cuda'로 설정할 수도 있음
    encode_kwargs = {'normalize_embeddings': True}, # 임베딩 정규화. 모든 벡터가 같은 범위의 값을 갖도록 함. 유사도 계산 시 일관성을 높여줌
)

In [None]:
vs = PGVector(
    embeddings=embedding_model,
    collection_name='test_docs',
    connection='postgresql+psycopg2://postgres.vpcdvbdktvvzrvjfyyzm:Odvv8E1iChKjwai4@aws-0-ap-southeast-1.pooler.supabase.com:6543/postgres',
    use_jsonb=True
)

In [None]:
vs.delete_collection()

In [None]:
uuid.uuid4().hex

In [None]:
from pypdf import PdfReader
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_sum = ''
file = './03.조건문.pdf'

reader = PdfReader(file)
for page in reader.pages: #페이지 별로 텍스트 추출
    text = page.extract_text()
    corrected_text = text.encode('utf-8', errors='ignore').decode('utf-8') #인코딩 오류 무시 및 텍스트 누적
    text_sum += corrected_text +'\n'

text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=200)

In [None]:
splits = text_splitter.split_text(text_sum)

In [None]:
splits

In [None]:
vs.add_texts(splits)