# Interactive Introduction to ML and AI with a RAG-System

Based on a PDF containing a starter set of DND 5e character [sheets](https://dnd5echaractersheet.com/)


## sys admin

Create a .env file with the following content:

`OPENAI_API_KEY = "^<API_KEY>"`

In [1]:
import openai
import os
from dotenv import load_dotenv
from langchain.document_loaders import PyPDFLoader
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma
from langchain_community.document_loaders import TextLoader
from langchain_community.embeddings.sentence_transformer import (
    SentenceTransformerEmbeddings,
)

## Load PDF data
Loads the data and splits it into chunks.
Each chunk contains 1000 characters max with a max overlap of 100 characters.

In [2]:
text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
loader = PyPDFLoader("data/KAR.pdf")
chunks = loader.load_and_split(text_splitter)

### Check the chunks
get chunk content with: chunks[index].page_content

In [3]:
print(chunks[0])
print("The chunk contains " + str(len(chunks[2].page_content)) + " characters")

page_content='177.4001Reglement über die Anstellungsverhältnisse \nvon Kaderärztinnen und -ärzten in den Stadt -\nspitälern (Kaderärztinnen- und -ärzteregle -\nment, KAR)\nStadtratsbeschluss vom 26. Januar 2005 (91)  \nmit Änderung vom 16.  November 2016 (922)\nGestützt auf Art. 58, Art. 81 Abs. 1 und Art. 87 Abs. 1 des Perso -\nnalrechts (PR) vom 28. November 2001 wird folgendes Regle -\nment erlassen:\nArt. 1 Geltungsbereich\n1 Dieses Reglement gilt für die in den Stadtspitälern Waid und \nTriemli angestellten Kaderärztinnen und -ärzte, mit Ausnahme \nder Chefärztinnen und -ärzte.\n2 Als Kaderärztinnen und -ärzte im Sinne dieser Bestimmungen \ngelten Leitende Ärztinnen und Ärzte.1\n3 Die Vorsteherin bzw. der Vorsteher des Gesundheits- und Um -\nweltdepartements kann das Reglement auch für Kaderärztinnen \nund -ärzte in anderen städtischen Betrieben mit Spitalcharakter \nanwendbar erklären.\n4 Das Reglement gilt nicht für Kaderärztinnen und -ärzte in Ver -\nwaltungs- oder anderen nich

## Setup models

We need to prepare an embedding model to vectorise our chunks before storing them into our ChromaDB and a language model to generate answers to our questions.

In [4]:
# Load environment variables from .env file
load_dotenv()

# Access the API key using the variable name defined in the .env file
openai.api_key = os.getenv("OPENAI_API_KEY")

# Initialize the OpenAI chat model
llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.8)

# initialize the OpenAI embeddings model
embeddings = OpenAIEmbeddings()

### Load / Create Chroma DB

We check for the existence of the directory for 2 reasons:
1) We use Openai Embeddings and pay for the embedding generation
2) Chroma does not overwrite an existing database, but allows to upate it

In [6]:
if os.path.exists("chroma"):
    print("Loading Chroma from disk...")
    chroma_db = Chroma(persist_directory="chroma", embedding_function=embeddings)
else:
    chroma_db = Chroma.from_documents(documents=chunks,
                                    embedding=embeddings,
                                    persist_directory="chroma",
                                    collection_name="lc_chroma_demo")
    

Loading Chroma from disk...


In [14]:
chroma_db = Chroma.from_documents(documents=chunks,
                                    embedding=embeddings,
                                    persist_directory="chroma",
                                    collection_name="lc_chroma_demo")

In [11]:
if os.path.exists("chroma_db"):
    print("Loading Chroma")
    chroma_db =Chroma(persist_directory="chroma_db", embedding_function= embeddings )
else: 
    print("Creat new Chroma")
    chroma_db = Chroma.from_documents(chunks, embeddings, persist_directory="chroma_db")

Loading Chroma


### Test Your Database

In [12]:
query = "What is this document about?"

Simple Similarity Search

In [13]:
result = chroma_db.similarity_search(query)
print(result)

[Document(page_content='54 Bei der Ermittlung der Ist-Arbeitszeit sind Abwesenheiten mit \nLohnanspruch (infolge von Krankheit, Unfall, Militär- oder Zivil -\nschutzdienst, bezahltem Urlaub usw.) nicht als Arbeitszeit an -\nzurechnen, wenn sie auf geplante Ruhetage oder, bei Fehlen \neiner Planung, wenn sie auf Samstage, Sonntage sowie auf Fei -\ner- oder Betriebsferientage fallen.\nArt. 8 Inkonvenienzentschädigungen\nDie Vorsteherin bzw. der Vorsteher des Gesundheits- und Um -\nweltdepartements wird ermächtigt, Inkonvenienzentschädigungen \nunter Berücksichtung der kantonalen Regelungen festzusetzen.\nArt. 9 Schlussbestimmungen\n1 Dieses Reglement tritt auf den 1. Februar 2005 in Kraft.\n2 Mit dem Inkrafttreten dieses Reglements wird das Reglement \nüber die Anstellungsverhältnisse von Kaderärztinnen und -ärz -\nten in den Stadtspitälern vom 18.  Dezember 2002 aufgehoben.\nArt. 10 (aufgehoben)4 \n4 Fassung gem. STRB Nr. 922/2016 vom 16. November 2016; Inkraftsetzung \n1. Januar 2017.'

Similarity Search with Scores

In [None]:
result_with_scores = chroma_db.similarity_search_with_score(query)
print(result_with_scores)

In [None]:
chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=chroma_db.as_retriever())

In [None]:
response_file_path = "responses.txt"

In [None]:
response = chain.invoke(query)
print(response["result"])

with open(response_file_path, "a", encoding="utf-8") as response_file:
    response_file.write("1 \n"+response["query"] +"\n" +response["result"] + "\n")

print("Response appended to", response_file_path)

### Test some queries Yourself

In [None]:
def get_response(query:str):
    chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=chroma_db.as_retriever())
    response = chain.invoke(query)
    print(response["result"])
    print(response)

    with open(response_file_path, "a", encoding="utf-8") as response_file:
        response_file.write("// \n"+response["query"] +"\n" +response["result"] +"//"+ "\n")

    print("Response appended to", response_file_path)

In [None]:
get_response("Was ist der Inhalt des Dokumentes?")

In [14]:
import openai
import os
from dotenv import load_dotenv
from langchain.document_loaders import PyPDFLoader
from langchain.chains import RetrievalQA
from langchain_openai import ChatOpenAI
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.vectorstores import Chroma

chroma_db = None
llm = None

def initialise_AI():


    text_splitter = RecursiveCharacterTextSplitter(chunk_size=1000, chunk_overlap=100)
    loader = PyPDFLoader("data/Personalrecht.pdf")
    chunks = loader.load_and_split(text_splitter)

    # Load environment variables from .env file
    load_dotenv()

    # Access the API key using the variable name defined in the .env file
    openai.api_key = os.getenv("OPENAI_API_KEY")

    # Initialize the OpenAI chat model
    llm = ChatOpenAI(model_name="gpt-3.5-turbo", temperature=0.8)

    embeddings = OpenAIEmbeddings()
    
    if os.path.exists("chroma_db"):
        print("Loading Chroma")
        chroma_db =Chroma(persist_directory="chroma_db", embedding_function= embeddings )
    else: 
        print("Creat new Chroma")
        chroma_db = Chroma.from_documents(chunks, embeddings, persist_directory="chroma_db")
        
    return chroma_db, llm
        

def get_response(query:str):

    response_file_path = "responses.txt"

    chain = RetrievalQA.from_chain_type(llm=llm, chain_type="stuff", retriever=chroma_db.as_retriever())
    response = chain.invoke(query)
    print(response["result"])

    with open(response_file_path, "a", encoding="utf-8") as response_file:
        response_file.write("// \n" + response["query"] + "\n" + response["result"] + "//" + "\n")

    print("Response appended to", response_file_path)

    return response["result"]
  
        

# Call initialise_AI before get_response
chroma_db, llm = initialise_AI()
get_response("What is this document about?")


Loading Chroma
This document is a regulation regarding the employment conditions of senior physicians (Kaderärztinnen and -ärzte) in city hospitals, specifically the Waid and Triemli hospitals. It covers aspects such as working hours, honorarium regulations, and the scope of application of the regulation.
Response appended to responses.txt


'This document is a regulation regarding the employment conditions of senior physicians (Kaderärztinnen and -ärzte) in city hospitals, specifically the Waid and Triemli hospitals. It covers aspects such as working hours, honorarium regulations, and the scope of application of the regulation.'