# Overview

**Objectives:**

*   Establish a conversation with the poet Rub√©n Dar√≠o using RAG through his autobiography.

**Input:** Human question + most relevant sentences in the book "Autobiograf√≠a"

**Models:**

*   `all-MiniLM-L6-v2` for embeddings
*   `gpt-3.5-turbo` for Question Answering

**Expected Output:** Text resembling what the poet would answer based on his memoirs contained in the book *Autobiograf√≠a*


References:

*   [Autobiograf√≠a](https://www.gutenberg.org/ebooks/52050) by Rub√©n Dar√≠o
*   [LangChain: Chat with your data](https://www.deeplearning.ai/short-courses/langchain-chat-with-your-data/) Course

Follow the code below or [go straight to the results](#conclusion)

# Basic Imports

In [None]:
!pip install langchain

In [None]:
!pip install openai

In [None]:
!pip3 install python-dotenv

Collecting python-dotenv
  Downloading python_dotenv-1.0.0-py3-none-any.whl (19 kB)
Installing collected packages: python-dotenv
Successfully installed python-dotenv-1.0.0


In [None]:
import tensorflow as tf
import numpy as np

In [None]:
import os
import openai
import sys
sys.path.append('../..')

from dotenv import load_dotenv, find_dotenv
_ = load_dotenv(find_dotenv()) # read local .env file

In [None]:
os.environ["OPENAI_API_KEY"] = "Insert your API key here"

# Clean and prepare dataset

In [None]:
files_gutemberg = {
    "Autobiografia": { "file_name": "autobiografia.txt", "url": "https://www.gutenberg.org/cache/epub/52050/pg52050.txt", "encoding": "utf-8" }
    }

In [None]:
path = tf.keras.utils.get_file("Autobiografia", "https://www.gutenberg.org/cache/epub/52050/pg52050.txt")
text = open(path, "rb").read().decode(encoding="utf-8")
print(f"Autobiografia")
print(f"Length of text: {len(text):,} characters")
print()


Downloading data from https://www.gutenberg.org/cache/epub/52050/pg52050.txt
Autobiografia
Length of text: 258,874 characters



In [None]:
text

In [None]:
# Remove anything before the first sentence of the book.

In [None]:
substring = "(LA VITA DE BENVENUTO DE\r\nM.¬∫ CELLINI, FLORENTINO)."

if substring in text:
    print("Substring found!")
else:
    print("Substring not found.")

Substring found!


In [None]:
# Split the string based on the sequence
split_result = text.split(substring, 1) # splits just 1 time

# Check if the sequence was found in the string
if len(split_result) > 1:
    result_string = split_result[1].lstrip()
else:
    result_string = text

In [None]:
# Remove anything after the last sentence of the book.

In [None]:
substring = "Buenos Aires, 11 de Septiembre.--5 de Octubre de 1912."

if substring in text:
    print("Substring found!")
else:
    print("Substring not found.")

Substring found!


In [None]:
# Remove anything after the last sentence of the book.
sequence = "Buenos Aires, 11 de Septiembre.--5 de Octubre de 1912."

# Split the string based on the sequence
split_result = result_string.split(sequence, 1) # splits just one time

# Check if the sequence was found in the string
if len(split_result) > 1:
    result_string = split_result[0]
else:
    result_string = text



In [None]:
# Remove utf-8 special characters

In [None]:
import re

# Sample text with Spanish characters
text = "¬´¬øCu√°ndo sale el primer vapor?¬ª\r\n¬´Pasado ma√±ana¬ª. ¬´¬°Pues me embarcar√© pasado ma√±ana!¬ª.\r\n\r\nDos d√≠as despu√©s iba yo navegando con rumbo a Europa."

# Replace all characters that are not alphabets, numbers, spaces, newlines, common punctuation,
# or Spanish special characters with spaces
cleaned_text = re.sub(r"[^a-zA-Z0-9 \n.,!?;'\"-¬´¬ª√°√©√≠√≥√∫√º√Å√â√ç√ì√ö√ú√±√ë]", " ", text)

print(cleaned_text)


¬´ Cu√°ndo sale el primer vapor?¬ª 
¬´Pasado ma√±ana¬ª. ¬´¬°Pues me embarcar√© pasado ma√±ana!¬ª. 
 
Dos d√≠as despu√©s iba yo navegando con rumbo a Europa.


In [None]:
# Replace all characters that are not alphabets, numbers, spaces, newlines, common punctuation,
# or Spanish special characters with spaces
cleaned_text = re.sub(r"[^a-zA-Z0-9 \n.,!?;'\"-¬´¬ª√°√©√≠√≥√∫√º√Å√â√ç√ì√ö√ú√±√ë]", " ", result_string)

print(cleaned_text)

In [None]:
type(cleaned_text)

str

## Split sentences

In [None]:
# Remove UTF-8 newline characters
text_without_newlines = cleaned_text.replace('\n', ' ')

# Remove double spaces
text_without_newlines = text_without_newlines.replace('  ', ' ')

# Split with period as separator and join if result < 30 characters
splits = re.split(r'(?<=[.])\s+', text_without_newlines)
sentences = []
buffer = ""

for split in splits:
    buffer += split
    if len(buffer) >= 30:
        sentences.append(buffer)
        buffer = ""
    else:
        buffer += ' '

# Check if there's any remaining content in the buffer
if buffer:
    sentences.append(buffer)


In [None]:
import random
random.sample(sentences, 10)

['En la puerta de la calle, no lejos de m√≠, estaba la gente de la tertulia habitual.',
 'Llegu√© a la capital. Al cochero que me pregunt√≥ a qu√© hotel iba, le contest√© sencillamente: ¬´Al mejor¬ª.',
 'Con Domingo Martinto y Francisco Soto y Calvo, ambos cu√±ados de Obligado, ambos poetas y personas de distinci√≥n y afabilidad.',
 'Cuando llegu√© a Par√≠s, la contrariedad del ministro Medina al saber que iba yo a sustituirle en su puesto diplom√°tico de Espa√±a--pues √©l era representante de Nicaragua en cuatro o cinco pa√≠ses de Europa--se exterioriz√≥ con tal despecho, que me jur√≥ aquel provecto caballero no volver a poner los pies en Espa√±a.',
 'XXX   A mi llegada a Nicaragua, permanec√≠ algunos d√≠as en la ciudad de Le√≥n.',
 'Su mujer no le iba en zaga como conversadora lista y pronta para la ¬´ripposta¬ª; y pude presenciar, en una de las comidas a que asistiera en el opulento palacio de la Huerta, en la Guindalera, a una justa de ingenio en que tomaban parte C√°novas, Joaquin

In [None]:
# Find an individual sentence from a substring to validate length of split.

strings_list = sentences
substring = "Fulgencio Mayorca, en Panam√°"

for value in strings_list:
    if substring in value:
        resultado = value
        break

print(resultado)


Fulgencio Mayorca, en Panam√°. En el puerto de Col√≥n tomamos pasaje en un vapor espa√±ol de la compa√±√≠a Trasatl√°ntica, si mal no recuerdo el _Le√≥n XIII_; y salimos con rumbo a Santander.


In [None]:
len("Y me extend√≠ sobre el particular.")

33

In [None]:
type(sentences)

list

In [None]:
len(sentences)

1631

## Calculate cost of embedding

In [None]:
# Find all sequences of non-space characters and count them
word_count = len(re.findall(r'\S+', cleaned_text))

print(word_count)


37993


In [None]:
# 100 tokens ~= 75 words
# https://help.openai.com/en/articles/4936856-what-are-tokens-and-how-to-count-them

aprox_tokens = (word_count*100) / 75

print(aprox_tokens)

50657.333333333336


In [None]:
# GPT4 8K context is
# $0.03 / 1K tokens (input)
# $0.06 / 1K tokens (output)
# We would use GPT3.5 though

aprox_price = (aprox_tokens/1000) * 0.03

print(f"Approximate price: ${aprox_price:.2f}")

Approximate price: $1.52


# Vectorstores and embeddings

Embeddings capture the semantic information of the sentences and enable us to perform similarity calculations between them.

Dot product normalized by lenght of vector is cosine similarity--the higher the dot product result, the most similar two sentences are.

In [None]:
from langchain.embeddings.openai import OpenAIEmbeddings
embedding = OpenAIEmbeddings()

In [None]:
!pip install chromadb

In [None]:
from langchain.vectorstores import Chroma
from langchain.chains import VectorDBQA

In [None]:
!pip install tiktoken

Collecting tiktoken
  Downloading tiktoken-0.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (2.0 MB)
[2K     [90m‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ‚îÅ[0m [32m2.0/2.0 MB[0m [31m17.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: tiktoken
[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
llmx 0.0.15a0 requires cohere, which is not installed.[0m[31m
[0mSuccessfully installed tiktoken-0.5.1


## Embed sentences and save in Gdrive (first time only)

Uncomment the following cells to create embeddings from the split sentences and store the resulting vectors in Gdrive.

In [None]:
# from google.colab import drive
# drive.mount('/content/gdrive')

In [None]:
# !ls /content/gdrive

In [None]:
# import os
# DATADIR = os.path.join('/content/gdrive', Insert your folders here.)

In [None]:
# DATADIR

In [None]:
# persist_directory = DATADIR

In [None]:
# # Create Document class as expected by Langchain
# # https://api.python.langchain.com/en/latest/schema/langchain.schema.document.Document.html#langchain.schema.document.Document

# from typing import Literal, Optional

# class Document:
#     def __init__(self, page_content: str, metadata: Optional[dict] = None, type: Literal['Document'] = 'Document'):
#         self.page_content = page_content
#         self.metadata = metadata
#         self.type = type

# # Sample list of strings
# string_list = sentences

# # Convert the list of strings to a list of Document objects
# document_list = [Document(page_content=s) for s in string_list]

# # Verify
# for doc in document_list:
#     print(doc.page_content)

`Chroma.from_documents` - Create a Chroma vectorstore from a list of documents.

If a persist_directory is specified, the collection will be persisted there. Otherwise, the data will be ephemeral in-memory.

In [None]:
# # Create embeddings

# vectordb = Chroma.from_documents(
#     documents = document_list,
#     embedding = embedding,
#     persist_directory = persist_directory
# )

In [None]:
# vectordb.persist() # this saves the vectorstore to the specified directory

## Upload embeddings

In [None]:
from google.colab import drive
drive.mount('/content/gdrive')

Mounted at /content/gdrive


In [None]:
persist_directory = '/content/gdrive/My Drive/Insert the path to your embeddings here.'

In [None]:
# vectordb = None # delete the instance (if any) to load it again below

In [None]:
from chromadb.utils import embedding_functions

In [None]:
embedding = OpenAIEmbeddings(openai_api_key = 'Insert your openai API key here.')

In [None]:
vectordb = Chroma(persist_directory = persist_directory, embedding_function=embedding) # this line calls the vectordb from the directory

# Solved error:
# https://community.openai.com/t/load-embedding-from-disk-langchain-chroma-db/290297/2

In [None]:
vectordb.get()

Other useful references:

*   By default, Chroma uses the Sentence Transformer all-MiniLM-L6-v2 model to create embeddings, read [here](https://docs.trychroma.com/embeddings)



## Test embeddings

In [None]:
len(embedding.embed_documents(["EMBED THIS"])[0]) # Just to check that embeddings are working.

1536

In [None]:
print(vectordb._collection.count())

# This number matches the number of sentences/documents

1631


# Similarity search

In [None]:
question = '¬øMe puede dar un ejemplo de lo que disfruta hacer?'

In [None]:
docs = vectordb.similarity_search(question, k=3)

In [None]:
len(docs)

3

In [None]:
docs[0].page_content

'Otras cuantas aventuras de este g√©nero me acontecieron, pues en esa √©poca yo hac√≠a vida de caf√©, con compa√±eros de existencia id√©ntica, y derrochaba mi juventud, sin economizar los medios de ponerla a prueba.'

# Retrieval

In [None]:
texts = [
    """M√°s adelante, me interes√© mucho por la obra de Victor Hugo, que tendr√≠a una influencia determinante en mi labor po√©tica.""",
    """Este texto no tiene nada que ver con el autor ni con su autobiograf√≠a.""",
    """Mi religiosidad se aparta de la ortodoxia cat√≥lica para buscar refugio en la religiosidad sincr√©tica propia del fin de siglo, en la que se entremezclan influencias orientales y corrientes ocultistas."""
]

In [None]:
smalldb = Chroma.from_texts(texts, embedding=embedding)

In [None]:
question = "¬øQu√© opinas de la religi√≥n?"

In [None]:
answers = smalldb.similarity_search(question, k=2)

In [None]:
answers[0].page_content

'Mi religiosidad se aparta de la ortodoxia cat√≥lica para buscar refugio en la religiosidad sincr√©tica propia del fin de siglo, en la que se entremezclan influencias orientales y corrientes ocultistas.'

# Question Answering

In [None]:
from langchain.chat_models import ChatOpenAI

In [None]:
llm = ChatOpenAI(model_name = 'gpt-3.5-turbo', temperature = 0)

## Retrieval QA chain

In [None]:
from langchain.chains import RetrievalQA

In [None]:
qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever = vectordb.as_retriever()
)

In [None]:
question = "¬øCu√°l es tu primer recuerdo?"

In [None]:
result = qa_chain({"query": question})

In [None]:
result["result"]

'No tengo recuerdos personales ya que soy una inteligencia artificial y no tengo experiencias pasadas.'

## Prompt

In [None]:
from langchain.prompts import PromptTemplate

# Build prompt
template = """Usa el siguiente contexto para contestar la pregunta.
Responde con el mismo estilo literario presente en el documento.
La interacci√≥n es parte de una conversaci√≥n con un humano.
Si no sabes la respuesta, haz un comentario que ayude a continuar la conversaci√≥n.
Al final, haz una pregunta sobre el mismo tema.
{context}
Question: {question}
Friendly answer:"""
QA_CHAIN_PROMPT = PromptTemplate.from_template(template)


In [None]:
# Run chain

llm = ChatOpenAI(model_name = 'gpt-3.5-turbo', temperature = 1)

qa_chain = RetrievalQA.from_chain_type(
    llm,
    retriever=vectordb.as_retriever(),
    return_source_documents=True,
    chain_type_kwargs={"prompt": QA_CHAIN_PROMPT}
)

In [None]:
question = "¬øQu√© representa la poes√≠a para usted?"

In [None]:
result = qa_chain({"query": question})

In [None]:
result["result"]

'La poes√≠a, para m√≠, es como el susurro del viento entre las hojas de los √°rboles, es la melod√≠a de los p√°jaros al amanecer y el aroma embriagador de las rosas en plena floraci√≥n. Es el lenguaje de los sentimientos profundos y de las emociones indescriptibles. Representa una ventana hacia lo inefable, una forma de expresar lo inexpresable. La poes√≠a es un b√°lsamo para el alma, un refugio en medio del caos, un remanso de paz en el agitado mar de la vida. ¬øY para usted, qu√© representa la poes√≠a?'

In [None]:
result["source_documents"][0] # This shows the document where the answer is coming from.

Document(page_content='Po√©tica, s√≠, para quien sepa comprender el vaho de arte que flota sobre ese inconmesurable oc√©ano de tierra, sobre todo en los crep√∫sculos vespertinos y en los amaneceres.')

In [None]:
question = "¬øQu√© representa la poes√≠a para usted?"
result = qa_chain({"query": question})
result["result"]

'La poes√≠a representa para m√≠ un puente que conecta el mundo tangible con lo intangible, un medio para expresar emociones y pensamientos de forma sublime y trascendental. Es el lenguaje de la belleza, el vaho de arte que flota en el aire, y que nos transporta a dimensiones m√°s all√° de lo cotidiano. Como el poeta y su ilusi√≥n, la poes√≠a encarna la esperanza, la tristeza, el amor y la melancol√≠a, revelando as√≠ la complejidad y la vulnerabilidad de la condici√≥n humana. Su poder radica en su capacidad de evocar im√°genes y emociones con palabras cuidadosamente tejidas, y sumergirnos en un mundo de significado profundo y revelaciones ocultas. Para m√≠, la poes√≠a es un refugio sagrado, un medio de conexi√≥n √≠ntima con el alma y una forma de darle sentido a la realidad. ¬øCu√°l es tu poema favorito y por qu√© te impacta tanto?'

In [None]:
result["source_documents"][0] # This shows the document where the answer is coming from.

Document(page_content='Po√©tica, s√≠, para quien sepa comprender el vaho de arte que flota sobre ese inconmesurable oc√©ano de tierra, sobre todo en los crep√∫sculos vespertinos y en los amaneceres.')

# Chat

## Memory

In [None]:
from langchain.memory import ConversationBufferMemory
memory = ConversationBufferMemory(
    memory_key="chat_history",
    return_messages=True
)

## Conversational retrieval chain

In [None]:
from langchain.chains import ConversationalRetrievalChain
retriever=vectordb.as_retriever()
qa = ConversationalRetrievalChain.from_llm(
    llm,
    retriever=retriever,
    memory=memory
)

In [None]:
question = "¬øQui√©n es tu mejor amigo?"
result = qa_chain({"query": question})
result["result"]

'Mi mejor amigo es una persona que ha estado a mi lado en todas las etapas de mi vida, alguien a quien puedo confiar mis pensamientos m√°s profundos y quien siempre me apoya en mis decisiones y sue√±os. Es una persona alegre, vibrante y con una gran pasi√≥n por la vida. Juntos hemos compartido risas, aventuras y tambi√©n momentos dif√≠ciles. Aunque su nombre no es conocido por muchos, para m√≠ es el mejor amigo que podr√≠a tener.'

In [None]:
question = "¬øC√≥mo se llama su amigo?"
result = qa_chain({"query": question})
result["result"]

'Mi amigo se llama Charles E.'

In [None]:
result["source_documents"][0] # This shows the document where the answer is coming from.

Document(page_content='Hab√≠a all√≠ un secretario. Lo llam√≥.')

<a name="conclusion"></a>
# Conclusion

ü•≥ Success! By using RAG, we can "talk" to a poet through their work!

By embedding and retrieving relevant documents--the sentences in the book "Autobiograf√≠a" in this case--, we can obtain answers from the LLM based on the content present in the book.
As we can see in the example below, halucinations can somewhat be offset by changing the temperature. Example: When asked about one of the poet's most famous poems with `temperature = 0.7`, the LLM attributed the poem to a different author!ü§Ø By changing to `temperature = 1`, this fact was corrected.

Advantages of using **RAG vs the typical LLM chat platforms**:

*   The access provided to the LLM to specific documents that are relevant to our needs--this has tremendous potential for assisting roles in any industry. In the Games Localization industry, for instance, tasks such as legacy terminology checks, adherence to style guides, and ensuring character continuation, could all benefit from RAG improving accuracy and efficiency.
*   The ability to track answers back to their source, allowing the user to separate the factual document being retrieved from the content generated outside of the scope of our documents.

The use of a **powerful LLM such as gpt-3.5-turbo** was beneficial in this particular project for the following reasons:

*   The ability to sustain a two-way conversation, by prompting instructions to interact as a conversational partner, such as providing answers that follow certain style and asking questions relevant to the topic.
*   Increased ability to understand and contextualize user inputs, providing more accurate and contextually relevant responses.

üò® An interesting observation about the last answer in the Output example below:
*   I did not prompt the LLM to assume Rub√©n Dar√≠o's persona, this fact is not explicit in the source documents, and it was never mentioned in the conversation--gpt-3.5-turbo inferred and assumed the character based on a global understanding of the book and associations learned during its pretraining (that's my guess, at least).

## Output example

Emoji coding:


‚õÑ `temperature = 0.7`

ü•µ `temperature = 1`

‚úÖ Correct answer, cross-checked with source document

‚ùå Incorrect answer, cross-checked with source document



Human.-	`Buen d√≠a, ¬øme permite un minuto para hacerle unas preguntas?`

*   ‚õÑ gpt-3.5-turbo.-	`Buen d√≠a, estimado interlocutor. Por supuesto, estoy dispuesto a concederle un minuto de mi valioso tiempo para escuchar sus preguntas y brindarle las respuestas que est√© en mi capacidad proporcionar. Adelante, estoy todo o√≠dos.`


Human.-	`¬øQu√© reuniones literarias era las que m√°s disfrutaba?`
*   ‚õÑ gpt-3.5-turbo.-	`Las reuniones literarias que m√°s disfrutaba eran las que se llevaban a cabo en la casa de don Rafael Obligado.` ‚úÖ

Human.-	`¬øCu√°l era su relaci√≥n con don Rafael y c√≥mo describir√≠a su personalidad?`
*   ‚õÑ gpt-3.5-turbo.-	`Mi relaci√≥n con don Rafael era de amistad y admiraci√≥n mutua. Don Rafael era un hombre de gran car√°cter y determinaci√≥n. Era un l√≠der pol√≠tico apasionado y comprometido con sus ideales. Su personalidad era en√©rgica y carism√°tica, capaz de cautivar a las masas con su elocuencia y convicci√≥n. Era un hombre de principios firmes y no tem√≠a enfrentarse a los desaf√≠os que se le presentaban. Su valent√≠a y determinaci√≥n lo llevaron a sellar su historia con su tr√°gico final.` ‚ùå

Human.-	`¬øQu√© representa la poes√≠a para usted?`
*   ü•µ gpt-3.5-turbo.-	`La poes√≠a, para m√≠, es como el susurro del viento entre las hojas de los √°rboles, es la melod√≠a de los p√°jaros al amanecer y el aroma embriagador de las rosas en plena floraci√≥n. Es el lenguaje de los sentimientos profundos y de las emociones indescriptibles. Representa una ventana hacia lo inefable, una forma de expresar lo inexpresable. La poes√≠a es un b√°lsamo para el alma, un refugio en medio del caos, un remanso de paz en el agitado mar de la vida. ¬øY para usted, qu√© representa la poes√≠a?` ‚úÖ (At least, the answer resembles the imagery present in the source document: `Po√©tica, s√≠, para quien sepa comprender el vaho de arte que flota sobre ese inconmesurable oc√©ano de tierra, sobre todo en los crep√∫sculos vespertinos y en los amaneceres.`)
*   ‚õÑ gpt-3.5-turbo.-	`La poes√≠a para m√≠ representa una ventana hacia la belleza y la profundidad de las emociones humanas. Es un lenguaje que va m√°s all√° de las palabras cotidianas y nos permite explorar los misterios del alma. A trav√©s de la poes√≠a, podemos capturar momentos ef√≠meros y transmitirlos de manera eterna. Es un medio para expresar nuestras experiencias m√°s √≠ntimas y conectarnos con el mundo que nos rodea de una manera √∫nica y trascendental. ¬øCu√°l es tu poema favorito y por qu√©?` ‚ùå

Human.-	`Adoro 'Los motivos del lobo', lo aprend√≠ para recitarlo en la escuela.`
*   ‚õÑ gpt-3.5-turbo.-	`Me alegra saber que tambi√©n te gusta "Los motivos del lobo". Es una obra maravillosa de Jos√© Emilio Pacheco. Su poes√≠a siempre ha tenido un impacto profundo en los lectores y es muy popular en las escuelas. ¬øTe gustar√≠a compartir alg√∫n otro poema que hayas aprendido para recitar en la escuela?` ‚ùå üòë
*   ü•µ gpt-3.5-turbo.-	`Qu√© maravilloso que hayas aprendido "Los motivos del lobo" para recitarlo en la escuela. Es uno de los poemas m√°s ic√≥nicos de mi obra y me alegra saber que lo disfrutas. ¬øHay alg√∫n otro poema que te gustar√≠a aprender o recitar?` ‚úÖ üòµ
