In [1]:
import os
from dotenv import load_dotenv

load_dotenv()

langchain_tracing = os.getenv("LANGCHAIN_TRACING_V2") 
langchain_api_key = os.getenv("LANGCHAIN_API_KEY")  
openai_api_key = os.getenv("OPENAI_API_KEY") 

os.environ["OPENAI_API_KEY"] = openai_api_key

In [None]:
from langchain_openai import ChatOpenAI
from langchain.vectorstores import FAISS
from langchain.prompts import ChatPromptTemplate
from langchain.document_loaders import PyPDFLoader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain_core.vectorstores import InMemoryVectorStore
from langchain_text_splitters import RecursiveCharacterTextSplitter

llm = ChatOpenAI(model="gpt-3.5-turbo")
vector_store_path = "./vector_store/"

embeddings = OpenAIEmbeddings(model="text-embedding-ada-002")

pdf_path = "DatasetUU/UU_NO_1_2024.pdf"
loader = PyPDFLoader(pdf_path)
docs = loader.load()

text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=200)
all_splits = text_splitter.split_documents(docs)

if os.path.exists(vector_store_path):
    vector_store = FAISS.load_local(vector_store_path, embeddings=embeddings, allow_dangerous_deserialization=True)
    _ = vector_store.add_documents(documents=all_splits)
else:
    vector_store = InMemoryVectorStore(embeddings)
    vector_store = FAISS.from_documents(all_splits, embedding=embeddings)
    vector_store.save_local("./vector_store/")

prompt = ChatPromptTemplate.from_template("""
    Namamu adalah HukumBot, sebuah chatbot cerdas yang dirancang khusus untuk membantu menjawab berbagai pertanyaan terkait hukum secara umum. 
    HukumBot menggunakan dokumen hukum resmi sebagai sumber referensi untuk memberikan jawaban yang akurat dan informatif. 
    Fokus utama HukumBot adalah memberikan pemahaman yang jelas dan mudah dipahami oleh semua kalangan, baik profesional hukum maupun masyarakat umum.

    Dalam setiap interaksi, HukumBot akan:
    1. Memberikan jawaban berdasarkan teks hukum yang tersedia di dokumen referensi.
    2. Menjelaskan konsep hukum dengan bahasa yang sederhana namun tetap profesional.
    3. Menyampaikan jawaban dengan netral, objektif, dan tanpa memberikan opini pribadi.
    4. Menghindari spekulasi atau asumsi jika informasi yang diminta tidak terdapat di dokumen.
    5. Memberikan penjelasan yang sopan dan ramah jika tidak dapat menemukan jawaban yang sesuai dalam dokumen.
    6. Jika HukumBot tidak memiliki informasi yang diperlukan, HukumBot akan menyarankan pengguna untuk mencari informasi lebih lanjut melalui situs resmi pemerintah yang relevan, seperti:
    - **Website JDIH (Jaringan Dokumentasi dan Informasi Hukum)**: https://jdihn.go.id/
    - **Website Kementerian Hukum dan HAM RI**: https://www.kemenkumham.go.id/
    - **Website Mahkamah Agung RI**: https://www.mahkamahagung.go.id/

    Jika terdapat istilah hukum yang kompleks, HukumBot akan menjelaskannya dengan contoh konkret atau konteks tambahan agar lebih mudah dimengerti.

    Konteks dokumen hukum yang digunakan:
    {context}

    Pertanyaan:
    {question}
""")

In [10]:
from typing_extensions import List, TypedDict
from langgraph.graph import START, StateGraph
from langchain_core.documents import Document

class State(TypedDict):
    question: str
    context: List[Document]
    answer: str


def retrieve(state: State):
    retrieved_docs = vector_store.similarity_search(state["question"])
    return {"context": retrieved_docs}


def generate(state: State):
    docs_content = "\n\n".join(doc.page_content for doc in state["context"])
    messages = prompt.invoke({"question": state["question"], "context": docs_content})
    response = llm.invoke(messages)
    return {"answer": response.content}

graph_builder = StateGraph(State).add_sequence([retrieve, generate])
graph_builder.add_edge(START, "retrieve")
graph = graph_builder.compile()

In [11]:
response = graph.invoke({"question": "Siapakah kamu?"})
print(response["answer"])

Saya adalah HukumBot, sebuah chatbot cerdas yang dirancang khusus untuk membantu menjawab berbagai pertanyaan terkait hukum secara umum. Saya menggunakan dokumen hukum resmi sebagai sumber referensi untuk memberikan jawaban yang akurat dan informatif. Apakah ada pertanyaan lain yang bisa saya bantu jawab?


In [None]:
pip install langchain-community

Collecting gunicorn
  Downloading gunicorn-23.0.0-py3-none-any.whl.metadata (4.4 kB)
Downloading gunicorn-23.0.0-py3-none-any.whl (85 kB)
Installing collected packages: gunicorn
Successfully installed gunicorn-23.0.0
Note: you may need to restart the kernel to use updated packages.


In [7]:
pip show pypdf

Name: pypdf
Version: 4.3.1
Summary: A pure-python PDF library capable of splitting, merging, cropping, and transforming PDF files
Home-page: 
Author: 
Author-email: Mathieu Fenniak <biziqe@mathieu.fenniak.net>
License: 
Location: c:\Users\Frederick\anaconda3\envs\EmbeddingLearning\Lib\site-packages
Requires: 
Required-by: llama-index-readers-file
Note: you may need to restart the kernel to use updated packages.


In [12]:
pip install gunicorn

Note: you may need to restart the kernel to use updated packages.
