# RAG with Ollama


> Note: Before proceeding further you need to download and run Ollama: https://ollama.com/.

This notebook demonstrates how to use the `rag` model with Ollama. 
Source: https://dev.to/mohsin_rashid_13537f11a91/rag-with-ollama-1049

* Import Libraries

In [1]:
from langchain_ollama import OllamaLLM
from langchain_ollama.embeddings import OllamaEmbeddings

from langchain_core.documents import Document
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain_chroma import Chroma
from langchain.chains import create_retrieval_chain
from langchain import hub
from langchain.chains.combine_documents import create_stuff_documents_chain
from uuid import uuid4

from datasets import load_dataset
import pandas as pd

* Loading The LLM (Language Model)

In [2]:
llm = OllamaLLM(model="llama3.2", base_url="http://127.0.0.1:11434")

* Setting Ollama Embeddings

In [3]:
embed_model = OllamaEmbeddings(
    model="llama3.2",
    base_url='http://127.0.0.1:11434'
)

* Loading Text

In [4]:
ds = load_dataset("GEODE/GeoEDdA")

In [5]:
#dfs = []
#for key in ds.keys():
#    dfs.append(pd.DataFrame({'dataset':key, 'text':ds[key]['text'], 'meta':ds[key]['meta']}))
#df = pd.concat(dfs, ignore_index=True)

#text = " ".join(df.text.to_list())

In [6]:
nb_docs = 5

In [7]:
ds['test']['text'][:nb_docs]

['COMPIEGNE, (Géog. mod.) ville de France, dans l\'île de France. Long. 20d. 29\'. 41". lat. 49d. 24\'. 59".',
 "HILPERHAUSEN, (Géog.) ville d'Allemagne en Franconie, sur la Werra, au comté de Henneberg, entre Cobourg & Smalcalde ; elle appartient à une branche de la maison de Saxe-Gotha. Long. 28. 15. lat. 50. 35. (D. J.)",
 "Patane ou Patany, (Géog. mod.) royaume des Indes dans la presqu'île de Malaca, sur la côte orientale, entre le royaume de Siam & de Paha. Les habitans sont en partie mahométans & en partie payens. Les Chinois font avec eux un grand commerce ; on n'y distingue que deux saisons, l'hiver & l'été; l'hiver dure pendant les mois de Novembre, Décembre & Janvier, pendant lesquels il pleut sans cesse. Les bois sont remplis d'éléphans, de sangliers & de guenons. Le royaume, dit Gervaise, releve du roi de Siam, & est gouverné par une reine qui ne peut se marier, mais qui peut avoir des amans tant qu'elle veut. La lubricité des femmes y est si grande, que les hommes sont con

* Option1: Splitting Text into Chunks

In [8]:
#chunks = ["ILLESCAS, (Géog.) petite ville d'Espagne, dans la nouvelle Castille, à six lieues au sud de Madrid.", 
#          "MULHAUSEN, (Géog.) ville impériale d'Allemagne, dans la Thuringe, sous la protection de l'électeur de Saxe, ce qui fait qu'elle est rangée parmi les villes de basse-Saxe ; elle a essuyé bien des calamités en divers tems. Henri le Lion la prit d'assaut en 1181, & la brûla. En 1366 un tremblement de terre en renversa la plus grande partie ; en 1442 un incendie ne lui fut guère moins funeste ; en 1525 elle fut assiegée par l'électeur de Saxe & le landgrave de Hesse, à cause des paysans révoltés qui s'en étoient emparés ; enfin après la paix de Westphalie, les divers partis l'ont ravagée tour-à-tour. Elle est située dans un pays fertile, sur la riviere d'Unstruth, à 5 milles de Nordhausen, 6 N. E. d'Eysenach, 10 N. O. d'Erford, 14 S. O. de Cassel. Long. 28. 14. lat. 51. 13. (D. J.)"
#            ]

In [9]:
chunks = []
#for doc in df.text.to_list():
for doc in ds['test']['text'][:nb_docs]:
    if len(doc) > 512:
        chunks.extend(RecursiveCharacterTextSplitter(chunk_size=512, chunk_overlap=128).split_text(doc))
    else:
        chunks.append(doc)

In [10]:
len(chunks)

7

* Option2: Splitting Text into Documents

In [11]:
docs = [Document(page_content=chunk, metadata={"head": ds['test']['meta'][index]["head"]}, id=index) for index, chunk in enumerate(ds['test']['text'][:nb_docs])]
docs

[Document(id='0', metadata={'head': 'COMPIEGNE'}, page_content='COMPIEGNE, (Géog. mod.) ville de France, dans l\'île de France. Long. 20d. 29\'. 41". lat. 49d. 24\'. 59".'),
 Document(id='1', metadata={'head': 'HILPERHAUSEN'}, page_content="HILPERHAUSEN, (Géog.) ville d'Allemagne en Franconie, sur la Werra, au comté de Henneberg, entre Cobourg & Smalcalde ; elle appartient à une branche de la maison de Saxe-Gotha. Long. 28. 15. lat. 50. 35. (D. J.)"),
 Document(id='2', metadata={'head': 'Patane ou Patany'}, page_content="Patane ou Patany, (Géog. mod.) royaume des Indes dans la presqu'île de Malaca, sur la côte orientale, entre le royaume de Siam & de Paha. Les habitans sont en partie mahométans & en partie payens. Les Chinois font avec eux un grand commerce ; on n'y distingue que deux saisons, l'hiver & l'été; l'hiver dure pendant les mois de Novembre, Décembre & Janvier, pendant lesquels il pleut sans cesse. Les bois sont remplis d'éléphans, de sangliers & de guenons. Le royaume, dit 

* Creating a Vector Store (Chroma) from Text

In [12]:
#vector_store = Chroma.from_texts(chunks, embed_model)

* Creating a Vector Store (Chroma) from Documents and persist the vector store to disk

In [13]:
vector_store = Chroma(
    collection_name="test_collection",
    embedding_function=embed_model,
    persist_directory="./chroma_langchain_db", 
)


uuids = [str(uuid4()) for _ in range(len(docs))]

vector_store.add_documents(documents=docs, ids=uuids)

['0ff4d9a8-c447-4fb1-b348-ca27b5994ae3',
 '614343f6-7ba9-4604-a5ee-7f9f83224ef9',
 '1c567a4c-c90a-487c-961f-0b8da9c86692',
 '7ee998be-fbdf-4ba5-b3da-0080ee8e1e57',
 '678e1f68-2d00-4243-a536-659732aac34d']

* Test a similarity search with the vector store

In [15]:
results = vector_store.similarity_search_with_score(query="Compiegne",k=1)
for doc, score in results:
    print(f"* [SIM={score:3f}] {doc.page_content} [{doc.metadata}]")

* [SIM=1.425834] COMPIEGNE, (Géog. mod.) ville de France, dans l'île de France. Long. 20d. 29'. 41". lat. 49d. 24'. 59". [{'head': 'COMPIEGNE'}]


* Creating a Retriever

In [16]:
retriever = vector_store.as_retriever()

* Creating a Retrieval Chain

In [17]:
chain = create_retrieval_chain(combine_docs_chain=llm,retriever=retriever)

* Retrieval-QA Chat Prompt

In [18]:
retrieval_qa_chat_prompt = hub.pull("langchain-ai/retrieval-qa-chat")



* Combining Documents

In [19]:
combine_docs_chain = create_stuff_documents_chain(
    llm, retrieval_qa_chat_prompt
)

* Final Retrieval Chain

In [20]:
retrieval_chain = create_retrieval_chain(retriever, combine_docs_chain)    

* Invoking the Retrieval Chain

In [21]:
response = retrieval_chain.invoke({"input": "Dans quel pays se situe Oostergo ?"})
print(response['answer'])

Je suis désolé, mais je n'ai pas trouvé d'informations sur un endroit appelé "Oostergo" dans le contexte fourni. Il est possible que cela soit une erreur de frappe ou un terme qui ne figure pas dans les informations fournies. Si vous pourriez fournir plus de contexte ou clarifier la question, je serais heureux d'essayer de vous aider à nouveau.


In [22]:
response = retrieval_chain.invoke({"input": "Quel est la localisation de COMPIEGNE (latitude / longitude) ?"})
print(response['answer'])

Selon les informations fournies, la localisation de COMPIEGNE est la suivante :

Latitude : 49°24'59''
Longueur : 20d. 29'

Ainsi, la localisation exacte de COMPIEGNE n'est pas spécifiée en longitudes décimales, mais plutôt en degrés, minutes et secondes.
