# Overview

**Objectives:**

Establish a conversation with the poet Rubén Darío through his book ["Autobiografía"](https://www.gutenberg.org/ebooks/52050).

  **Input:** Conversational prompt in Spanish (human)

  **Expected Output:** The sentence from the book "Autobiografía" that is most similar to a plausible answer to the input question


Models:

*   [google/flan-t5-xxl](https://huggingface.co/google/flan-t5-xxl) - Text2Text Generation
*   [intfloat/multilingual-e5-base](https://huggingface.co/intfloat/multilingual-e5-base) - Sentence Similarity

Follow the code below or [go straight to the results](#conclusion)


# Clean and prepare dataset (Sentences)

In [None]:
import numpy as np
import tensorflow as tf
import os

In [None]:
files_gutemberg = {
    "Autobiografia": { "file_name": "autobiografia.txt", "url": "https://www.gutenberg.org/cache/epub/52050/pg52050.txt", "encoding": "utf-8" }
    }

In [None]:
path = tf.keras.utils.get_file("Autobiografia", "https://www.gutenberg.org/cache/epub/52050/pg52050.txt")
text = open(path, "rb").read().decode(encoding="utf-8")
print(f"Autobiografia")
print(f"Length of text: {len(text):,} characters")
print()


In [None]:
text

'\ufeffThe Project Gutenberg eBook of Autobiografía\r\n    \r\nThis ebook is for the use of anyone anywhere in the United States and\r\nmost other parts of the world at no cost and with almost no restrictions\r\nwhatsoever. You may copy it, give it away or re-use it under the terms\r\nof the Project Gutenberg License included with this ebook or online\r\nat www.gutenberg.org. If you are not located in the United States,\r\nyou will have to check the laws of the country where you are located\r\nbefore using this eBook.\r\n\r\nTitle: Autobiografía\r\n\r\n\r\nAuthor: Rubén Darío\r\n\r\nRelease date: May 11, 2016 [eBook #52050]\r\n\r\nLanguage: Spanish\r\n\r\n\r\n\r\n*** START OF THE PROJECT GUTENBERG EBOOK AUTOBIOGRAFÍA ***\r\n\r\n\r\n\r\nProduced by Josep Cols Canals, Chuck Greif and the Online\r\nDistributed Proofreading Team at http://www.pgdp.net (This\r\nfile was produced from images generously made available\r\nby The Internet Archive/Canadian Libraries)\r\n\r\n\r\n\r\n\r\n\r\n\r\n\

In [None]:
# Remove anything before the first sentence of the book.

In [None]:
substring = "(LA VITA DE BENVENUTO DE\r\nM.º CELLINI, FLORENTINO)."

if substring in text:
    print("Substring found!")
else:
    print("Substring not found.")

Substring found!


In [None]:
# Split the string based on the sequence
split_result = text.split(substring, 1) # splits just 1 time

# Check if the sequence was found in the string
if len(split_result) > 1:
    result_string = split_result[1].lstrip()
else:
    result_string = text

In [None]:
result_string

'I\r\n\r\n\r\nTengo más años, desde hace cuatro, que los que exige Benvenuto para la\r\nempresa. Así doy comienzo a estos apuntamientos que más tarde han de\r\ndesenvolverse mayor y más detalladamente.\r\n\r\nEn la catedral de León, de Nicaragua, en la América Central, se\r\nencuentra la fe de bautismo de Félix Rubén, hijo legítimo de Manuel\r\nGarcía y Rosa Sarmiento. En realidad, mi nombre debía ser Félix Rubén\r\nGarcía Sarmiento. ¿Cómo llegó a usarse en mi familia el apellido Darío?\r\nSegún lo que algunos ancianos de aquella ciudad de mi infancia me han\r\nreferido, un mi tatarabuelo tenía por nombre Darío. En la pequeña\r\npoblación conocíale todo el mundo por Don Darío; a sus hijos e hijas por\r\nlos Daríos, las Daríos. Fué así desapareciendo el primer apellido, a\r\npunto de que mi bisabuela paterna firmaba ya Rita Darío; y ello,\r\nconvertido en patronímico llegó a adquirir valor legal, pues mi padre,\r\nque era comerciante, realizó todos sus negocios ya con el nombre de\r\nMa

In [None]:
# Remove anything after the last sentence of the book.

In [None]:
substring = "Buenos Aires, 11 de Septiembre.--5 de Octubre de 1912."

if substring in text:
    print("Substring found!")
else:
    print("Substring not found.")

Substring found!


In [None]:
# Remove anything after the last sentence of the book.
sequence = "Buenos Aires, 11 de Septiembre.--5 de Octubre de 1912."

# Split the string based on the sequence
split_result = result_string.split(sequence, 1) # splits just one time

# Check if the sequence was found in the string
if len(split_result) > 1:
    result_string = split_result[0]
else:
    result_string = text



In [None]:
result_string

'I\r\n\r\n\r\nTengo más años, desde hace cuatro, que los que exige Benvenuto para la\r\nempresa. Así doy comienzo a estos apuntamientos que más tarde han de\r\ndesenvolverse mayor y más detalladamente.\r\n\r\nEn la catedral de León, de Nicaragua, en la América Central, se\r\nencuentra la fe de bautismo de Félix Rubén, hijo legítimo de Manuel\r\nGarcía y Rosa Sarmiento. En realidad, mi nombre debía ser Félix Rubén\r\nGarcía Sarmiento. ¿Cómo llegó a usarse en mi familia el apellido Darío?\r\nSegún lo que algunos ancianos de aquella ciudad de mi infancia me han\r\nreferido, un mi tatarabuelo tenía por nombre Darío. En la pequeña\r\npoblación conocíale todo el mundo por Don Darío; a sus hijos e hijas por\r\nlos Daríos, las Daríos. Fué así desapareciendo el primer apellido, a\r\npunto de que mi bisabuela paterna firmaba ya Rita Darío; y ello,\r\nconvertido en patronímico llegó a adquirir valor legal, pues mi padre,\r\nque era comerciante, realizó todos sus negocios ya con el nombre de\r\nMa

In [None]:
# Remove utf-8 special characters

In [None]:
import re

# Sample text with Spanish characters
text = "«¿Cuándo sale el primer vapor?»\r\n«Pasado mañana». «¡Pues me embarcaré pasado mañana!».\r\n\r\nDos días después iba yo navegando con rumbo a Europa."

# Replace all characters that are not alphabets, numbers, spaces, newlines, common punctuation,
# or Spanish special characters with spaces
cleaned_text = re.sub(r"[^a-zA-Z0-9 \n.,!?;'\"-«»áéíóúüÁÉÍÓÚÜñÑ]", " ", text)

print(cleaned_text)


« Cuándo sale el primer vapor?» 
«Pasado mañana». «¡Pues me embarcaré pasado mañana!». 
 
Dos días después iba yo navegando con rumbo a Europa.


In [None]:
# Replace all characters that are not alphabets, numbers, spaces, newlines, common punctuation,
# or Spanish special characters with spaces
cleaned_text = re.sub(r"[^a-zA-Z0-9 \n.,!?;'\"-«»áéíóúüÁÉÍÓÚÜñÑ]", " ", result_string)

print(cleaned_text)

In [None]:
type(cleaned_text)

str

In [None]:
# Get the current working directory
current_directory = os.getcwd()

# Print the current working directory
print("Current working directory:", current_directory)

Current working directory: /content


In [None]:
# Save cleaned file in the working directory to get path

# Specify the file path where you want to save the file
file_path = "autobiografia.txt"

# Open the file in write mode ('w')
with open(file_path, 'w') as file:
    # Write the string to the file
    file.write(cleaned_text)

# The file is automatically closed when the 'with' block exits


# Invoke chat-like model

In [None]:
!pip install langchain

In [None]:
from langchain.prompts import PromptTemplate
from langchain.chains import LLMChain

In [None]:
!pip install huggingface_hub

In [None]:
from langchain.llms import HuggingFaceHub

In [None]:
from getpass import getpass
HUGGINGFACEHUB_API_TOKEN = getpass()

In [None]:
import os

os.environ["HUGGINGFACEHUB_API_TOKEN"] = HUGGINGFACEHUB_API_TOKEN

In [None]:
question = "¿Me puede dar un ejemplo?"

template = """Question: {question}

Answer: Responde detalladamente en español."""

prompt = PromptTemplate(template=template, input_variables=["question"])

# Good answers in Spanish with the following questions:
# ¿Cuántos continentes existen en la Tierra? La Tierra tiene 7 continentes.

In [None]:
repo_id = "google/flan-t5-xxl"

In [None]:
llm = HuggingFaceHub(
    repo_id=repo_id, model_kwargs={"temperature": 0.5, "max_length": 164}
)
llm_chain = LLMChain(prompt=prompt, llm=llm)

print(llm_chain.run(question))



Puedes darme un ejemplo?


# Invoke sentence similarity model

## Split data into sentences

In [None]:
!pip install transformers
!pip install sentence_transformers

In [None]:
# Remove UTF-8 newline characters
text_without_newlines = cleaned_text.replace('\n', ' ')

# Remove double spaces
text_without_newlines = text_without_newlines.replace('  ', ' ')

# Split with period as separator and join if result < 30 characters
splits = re.split(r'(?<=[.])\s+', text_without_newlines)
sentences = []
buffer = ""

for split in splits:
    buffer += split
    if len(buffer) >= 30:
        sentences.append(buffer)
        buffer = ""
    else:
        buffer += ' '

# Check if there's any remaining content in the buffer
if buffer:
    sentences.append(buffer)


In [None]:
sentences

In [None]:
import random
random.sample(sentences, 10)

['Creo que la llamada Sonia. LIII   Yo hacía mis obligatorias visitas a la Exposición.',
 'De ese vibrante grupo del Ateneo brotaron muchos versos, muchas prosas; nacieron revistas de poca vida, y en nuestras modestas comidas a escote, creábamos alegría, salud y vitalidad para nuestras almas de luchadores y de _réveurs_.',
 'Aun vive el buen maestro, que era entonces bastante joven, con fama de poeta, el licenciado Felipe Ibarra.',
 'Crisanto había tenido el talento de conseguir la representación, alternativamente y a veces al mismo tiempo, de casi todas las cinco repúblicas centroamericanas.',
 'Estaba remunerado con liberalidad.',
 'Cuando concluímos se nos invitó a pasar al lado del figón, a una cancha de bochas, o juego de bolos, perteneciente a un club, del cual se nos dijo que el conde era director.',
 'El coronel Ramírez murió y mi educación quedó únicamente a cargo de mi tía abuela.',
 'Es una página dolorosa de violencia y engaño, que ha impedido la formación de un hogar por m

In [None]:
strings_list = sentences
substring = "Fulgencio Mayorca, en Panamá"

for value in strings_list:
    if substring in value:
        resultado = value
        break

print(resultado)


Fulgencio Mayorca, en Panamá. En el puerto de Colón tomamos pasaje en un vapor español de la compañía Trasatlántica, si mal no recuerdo el _León XIII_; y salimos con rumbo a Santander.


In [None]:
len("Y me extendí sobre el particular.")

33

In [None]:
type(sentences)

list

In [None]:
len(sentences)

1631

## Embed sentences

In [None]:
!pip install sentence_transformers

In [None]:
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('intfloat/multilingual-e5-base')

(…)4899c414143008918db3fe2c8/.gitattributes:   0%|          | 0.00/1.53k [00:00<?, ?B/s]

(…)4143008918db3fe2c8/1_Pooling/config.json:   0%|          | 0.00/200 [00:00<?, ?B/s]

(…)246224899c414143008918db3fe2c8/README.md:   0%|          | 0.00/179k [00:00<?, ?B/s]

(…)6224899c414143008918db3fe2c8/config.json:   0%|          | 0.00/694 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

(…)99c414143008918db3fe2c8/onnx/config.json:   0%|          | 0.00/686 [00:00<?, ?B/s]

model.onnx:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

(…)918db3fe2c8/onnx/special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

(…)08918db3fe2c8/onnx/tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/1.11G [00:00<?, ?B/s]

(…)008918db3fe2c8/sentence_bert_config.json:   0%|          | 0.00/57.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

(…)43008918db3fe2c8/special_tokens_map.json:   0%|          | 0.00/280 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

(…)4143008918db3fe2c8/tokenizer_config.json:   0%|          | 0.00/418 [00:00<?, ?B/s]

(…)224899c414143008918db3fe2c8/modules.json:   0%|          | 0.00/387 [00:00<?, ?B/s]

In [None]:
## Uncomment this for first-time embedding only.
## Download resulting file to local and use next code cell as needed.

# embeddings = model.encode(sentences)
# np.save('embeddings_autobiografia.npy', embeddings)

In [None]:
# # Use this to load embeddings from local

# from google.colab import files
# files.upload()

{}

In [None]:
## Uncomment if you're loading from local

# embeddings = np.load('embeddings_autobiografia.npy')

Alternatively, you can use the embeddings stored in my github:

In [None]:
import requests
from io import BytesIO

url = "https://github.com/cepedayan/unruly-nightmares/raw/main/sentence_similarity/embeddings/embeddings_autobiografia.npy" #raw file url
response = requests.get(url)
data = BytesIO(response.content)

# Load the numpy array directly from the BytesIO stream
embeddings = np.load(data, allow_pickle=True)


In [None]:
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
query = "Puedes darme un ejemplo?"
query_embedding = model.encode([query])

# Calculate cosine similarities between the query and all sentences in the dataset
similarities = cosine_similarity(query_embedding, embeddings)[0]

# Get the index of the most similar sentence
most_similar_index = np.argmax(similarities)
most_similar_sentence = sentences[most_similar_index]

# print(f"Most similar sentence to '{query}' is: '{most_similar_sentence}'")

most_similar_sentence


'Para dónde? Para cualquier parte.'

In [None]:
similarities.shape

(1631,)

<a name="conclusion"></a>
# Conclusion

*   Sentence Similarity models can be used to "talk" to the document, the book
"Autobiografía" in this case, by retrieving the sentence with the highest cosine similarity in the vector space (embeddings).

*   On the other hand, Text2Text Generation models might not be suitable for open-ended text generation, depending on pretraining and finetuning.

  *   For our model "google/flan-t5-xxl" to output conversational text in the form of answers to questions like "How are you", we would need to finetune with a dataset that includes conversational interactions.
  *   The result is an interview more than a conversation, with stiff "answers" as they are presented verbatim from the source document.

Improvements needed:
*   Find a better chat-like model, with more conversational outputs. Models pretrained for Q&A tasks are not suitable for text generation purposes.
*   Add memory component and prevent Sentence Similarity model to output the same sentence twice during a simulated conversation.
*   We could add a third model at the end, to generate a question related to the current topic that resembles conversation.
*   Chain models using LangChain.

**OR**

*   Use LangChain to connect the vectorstore (embeddings) with a powerful model such as gpt-3.5-turbo that has been optimized for chat. See code [here](https://github.com/cepedayan/unruly-nightmares/tree/main/retrieval_augmented_generation)

## Output example

Human.- *¿Cómo se llama la persona más agradable que conoce?*

*   Autobiografía.txt.- *Era un amable y jovial filósofo.*

Human.- *¿Cómo se llamaba?*

*   Autobiografía.txt.- *Se llamaba con un nombre balzaciano, Sebastián Menmolth.*

Human.- *¿Cómo describiría su personalidad?*

*   Autobiografía.txt.- *Escribía una prosa profusa, llena de vitalidad y de color, de plasticidad y de música.*

Human.- *¿Qué le gusta hacer a usted, además de la escritura?*

*   Autobiografía.txt.- *Extraña y ardua mezcla de cosas para la cabeza de un niño.*

Human.- *¿Me puede dar un ejemplo?*

*   Autobiografía.txt.- *¿Para dónde? Para cualquier parte.*
