# Testing txtai embeddings

This notebook checks txtai embedding capabilities

We will use Don Quijote book from project Gutenberg

In [30]:
from txtai import Embeddings

In [31]:
# !curl https://www.gutenberg.org/cache/epub/2000/pg2000.txt -o ../input/Don_Quijote.txt

## Embeddings models

By default the model use is 'all-MiniLM-l6-v2' (https://neuml.github.io/txtai/models/). This model is light and its allowed even for commercial use. 

Here is the official Embedding page from txtai:  https://neuml.github.io/txtai/embeddings/

Short tutorial: [colab](https://colab.research.google.com/github/neuml/txtai/blob/master/examples/01_Introducing_txtai.ipynb#scrollTo=QxX9EtIc6Xzg)

Here is a table of some relevant models that can be used:


| Model | Dimensions | Size | Speed | Spanish Performance | English Performance | Multilingual Support | Memory Usage | Best Use Case |
|-------|------------|------|-------|-------------------|-------------------|-------------------|---------------|--------------|
| all-MiniLM-L6-v2 | 384 | ~80MB | Very Fast | Medium (6.5/10) | Excellent (9/10) | Limited | Low | English-focused projects with resource constraints |
| nli-mpnet-base-v2 | 768 | ~420MB | Medium | Medium (6/10) | Excellent (9.5/10) | Limited | High | High-precision English semantic tasks |
| paraphrase-multilingual-mpnet-base-v2 | 768 | ~1.1GB | Slow | Excellent (8.5/10) | Excellent (9/10) | Strong (100+ languages) | High | Production multilingual applications |
| LaBSE | 768 | ~1.5GB | Slow | Excellent (9/10) | Excellent (8.5/10) | Strong (109 languages) | Very High | Cross-lingual information retrieval |

Declare data in spanish and english to check how txtai embeddings works with different models

In [32]:
data_es = [
  "EEUU supera los 5 millones de casos confirmados de virus",
  "Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan",
  "La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán",
  "El Servicio de Parques Nacionales advierte del incremento de ataques de osos",
  "Hombre de Maine gana $1M con un billete de lotería de $25",
  "Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día"
]

data_en = [
  "US tops 5 million confirmed virus cases",
  "Canada's last fully intact ice shelf has suddenly collapsed, forming a Manhattan-sized iceberg",
  "Beijing mobilises invasion craft along coast as Taiwan tensions escalate",
  "The National Park Service warns against sacrificing slower friends in a bear attack",
  "Maine man wins $1M from $25 lottery ticket",
  "Make huge profits without work, earn up to $100,000 a day"
]

Create embeddings for english and spanish text

In [33]:
# Create an embedding for english text
en_beddings = Embeddings(path="sentence-transformers/nli-mpnet-base-v2")

In [None]:
# best model for spanish text: "sentence-transformers/all-MiniLM-L6-v2"
model1 = "sentence-transformers/all-mpnet-base-v2"
model2 = "sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2"
model3 = "sentence-transformers/paraphrase-MiniLM-L6-v2"

In [35]:
# Create an embedding for spanish text
#es_beddings = Embeddings(path="sentence-transformers/paraphrase-multilingual-mpnet-base-v2")
es_beddings = Embeddings(path= model1)

In [36]:
#es2_beddings = Embeddings(path="sentence-transformers/all-MiniLM-L6-v2")
es2_beddings = Embeddings(path= model2)

In [37]:
#es3_beddings = Embeddings(path="sentence-transformers/distiluse-base-multilingual-cased-v2")
es3_beddings = Embeddings(path= model3)

Lets check if we can retrieve the sentences with some queries

### English embeddings:

In [38]:
# English embeddings with english data

# Create an index for the list of text
en_beddings.index(data_en)

print("%-20s %s" % ("Query", "Best Match"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("feel good story", "climate change", "public health story", "war", "wildlife", "asia", "lucky", "dishonest junk"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = en_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_en[uid]))

Query                Best Match
--------------------------------------------------
feel good story      Maine man wins $1M from $25 lottery ticket
climate change       Canada's last fully intact ice shelf has suddenly collapsed, forming a Manhattan-sized iceberg
public health story  US tops 5 million confirmed virus cases
war                  Beijing mobilises invasion craft along coast as Taiwan tensions escalate
wildlife             The National Park Service warns against sacrificing slower friends in a bear attack
asia                 Beijing mobilises invasion craft along coast as Taiwan tensions escalate
lucky                Maine man wins $1M from $25 lottery ticket
dishonest junk       Make huge profits without work, earn up to $100,000 a day


In [39]:
# English embeddings with spanish data

# Create an index for the list of text
en_beddings.index(data_es)

print("%-20s %s" % ("Query", "Best Match"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("historia feliz", "cambio climático", "salud pública", "guerra", "vida salvaje", "asia", "suerte", "estafa"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = en_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_es[uid]))

Query                Best Match
--------------------------------------------------
historia feliz       El Servicio de Parques Nacionales advierte del incremento de ataques de osos
cambio climático     Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
salud pública        El Servicio de Parques Nacionales advierte del incremento de ataques de osos
guerra               El Servicio de Parques Nacionales advierte del incremento de ataques de osos
vida salvaje         El Servicio de Parques Nacionales advierte del incremento de ataques de osos
asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
suerte               Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
estafa               El Servicio de Parques Nacionales advierte del incremento de ataques de osos


### Spanish embeddings:

I have employed several models but all of them perform worse than "paraphrase-multilingual-mpnet-base-v2".

Additionally, it appears to be quite sensitive to words with or without capitalization and doesn't seem to work well with synonyms.

In [40]:
# Spanish embeddings with spanish data
# (paraphrase-multilingual-mpnet-base-v2)

# Create an index for the list of text
es_beddings.index(data_es)

print("%-20s %s" % ("Query", "Mejor coincidencia"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = es_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_es[uid]))

Query                Mejor coincidencia
--------------------------------------------------
historia feliz       Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
cambio climático     Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
salud pública        Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
enfermedades         EEUU supera los 5 millones de casos confirmados de virus
guerra               Hombre de Maine gana $1M con un billete de lotería de $25
vida salvaje         EEUU supera los 5 millones de casos confirmados de virus
Asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
suerte               Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
estafa               Se derrum

**Context**:
We can see that "salud pública" query doesn't math with virus story.

**Lower/upper case**:

It doesn't get the same answer with 'Asia' and 'asia'

**Synonyms**:

estafa and timo are synonyms but they don't match in this example

In [41]:
# Spanish embeddings with spanish data

#es2_beddings = Embeddings(path="sentence-transformers/all-MiniLM-L6-v2")

# Create an index for the list of text
es2_beddings.index(data_es)

print("%-20s %s" % ("Query", "Mejor coincidencia"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = es2_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_es[uid]))

Query                Mejor coincidencia
--------------------------------------------------
historia feliz       Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
cambio climático     Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
salud pública        El Servicio de Parques Nacionales advierte del incremento de ataques de osos
enfermedades         EEUU supera los 5 millones de casos confirmados de virus
guerra               La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
vida salvaje         El Servicio de Parques Nacionales advierte del incremento de ataques de osos
Asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
asia                 Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
suerte               Hombre de Maine gana $1M con u

In [42]:
# Spanish embeddings with spanish data

#es3_beddings = Embeddings(path="sentence-transformers/distiluse-base-multilingual-cased-v2")

# Create an index for the list of text
es3_beddings.index(data_es)

print("%-20s %s" % ("Query", "Mejor coincidencia"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = es3_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_es[uid]))

Query                Mejor coincidencia
--------------------------------------------------
historia feliz       Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
cambio climático     Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
salud pública        Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
enfermedades         Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
guerra               Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
vida salvaje         Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
Asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
suerte               Hombre de Maine gana $1M con un billete de lot

## Hybrid search

In [43]:
# Create an embeddings
en_beddings = Embeddings(hybrid=True, path="sentence-transformers/nli-mpnet-base-v2")

# Create an index for the list of text
en_beddings.index(data_en)

print("%-20s %s" % ("Query", "Best Match"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("feel good story", "climate change", "public health story", "war", "wildlife", "asia", "lucky", "dishonest junk"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = en_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_en[uid]))

Query                Best Match
--------------------------------------------------
feel good story      Maine man wins $1M from $25 lottery ticket
climate change       Canada's last fully intact ice shelf has suddenly collapsed, forming a Manhattan-sized iceberg
public health story  US tops 5 million confirmed virus cases
war                  Beijing mobilises invasion craft along coast as Taiwan tensions escalate
wildlife             The National Park Service warns against sacrificing slower friends in a bear attack
asia                 Beijing mobilises invasion craft along coast as Taiwan tensions escalate
lucky                Maine man wins $1M from $25 lottery ticket
dishonest junk       Make huge profits without work, earn up to $100,000 a day


Same results as with semantic search. Let's run the same example with just a keyword index to view those results.

In [44]:
# Create an embeddings
en_beddings = Embeddings(keyword=True)

# Create an index for the list of text
en_beddings.index(data_en)

print(en_beddings.search("feel good story"))
print(en_beddings.search("lottery"))

[]
[(4, np.float64(0.5234998733628726))]


See that when the embeddings instance only uses a keyword index, it can't find semantic matches, only keyword matches.

---

Now in spanish

In [45]:
# Create an embeddings
es_beddings = Embeddings(hybrid=True, path=model1)

# Create an index for the list of text
es_beddings.index(data_es)

print("%-20s %s" % ("Query", "Best Match"))
print("-" * 50)

# Run an embeddings search for each query
for query in ("historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"):
  # Extract uid of first result
  # search result format: (uid, score)
  uid = es_beddings.search(query, 1)[0][0]

  # Print text
  print("%-20s %s" % (query, data_es[uid]))

Query                Best Match
--------------------------------------------------
historia feliz       Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
cambio climático     Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan
salud pública        Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
enfermedades         EEUU supera los 5 millones de casos confirmados de virus
guerra               Hombre de Maine gana $1M con un billete de lotería de $25
vida salvaje         EEUU supera los 5 millones de casos confirmados de virus
Asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
asia                 La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán
suerte               Obtenga grandes ganancias sin trabajo, gane hasta $100000 al día
estafa               Se derrumba en Ca

In [46]:
# Create an embeddings
es_beddings = Embeddings(keyword=True)

# Create an index for the list of text
es_beddings.index(data_es)

print(es_beddings.search("historia feliz"))
print(es_beddings.search("lotería"))

[]
[(4, np.float64(0.48952295316444056))]


## Topic modeling

Topic modeling is enabled via semantic graphs. Semantic graphs, also known as knowledge graphs or semantic networks, build a graph network with semantic relationships connecting the nodes. In txtai, they can take advantage of the relationships inherently learned within an embeddings index.

In [47]:
# Create embeddings with a graph index
en_beddings = Embeddings(
  path="sentence-transformers/nli-mpnet-base-v2",
  content=True,
  functions=[
    {"name": "graph", "function": "graph.attribute"},
  ],
  expressions=[
    {"name": "category", "expression": "graph(indexid, 'category')"},
    {"name": "topic", "expression": "graph(indexid, 'topic')"},
  ],
  graph={
    "topics": {
      "categories": ["health", "climate", "finance", "world politics"]
    }
  }
)

en_beddings.index(data_en)
# It's a query, ex: "SELECT x,y,z FROM txtai"
en_beddings.search("select topic, category, text from txtai")

[{'topic': 'cases_million_us_confirmed',
  'category': 'finance',
  'text': 'US tops 5 million confirmed virus cases'},
 {'topic': 'ice_fully_has_sized',
  'category': 'climate',
  'text': "Canada's last fully intact ice shelf has suddenly collapsed, forming a Manhattan-sized iceberg"},
 {'topic': 'invasion_taiwan_beijing_along',
  'category': 'world politics',
  'text': 'Beijing mobilises invasion craft along coast as Taiwan tensions escalate'}]

In [49]:
# Create embeddings with a graph index
es_beddings = Embeddings(
  path=model1,
  content=True,
  functions=[
    {"name": "graph", "function": "graph.attribute"},
  ],
  expressions=[
    {"name": "category", "expression": "graph(indexid, 'category')"},
    {"name": "topic", "expression": "graph(indexid, 'topic')"},
  ],
  graph={
    "topics": {
      "categories": ["cambio climático", "finanzas", "guerra", "enfermedades"]
    }
  }
)

# historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", 
# "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"): 

es_beddings.index(data_es)
# It's a query, ex: "SELECT x,y,z FROM txtai"
es_beddings.search("select topic, category, text from txtai")

[{'topic': 'confirmados_eeuu_supera_millones',
  'category': 'finanzas',
  'text': 'EEUU supera los 5 millones de casos confirmados de virus'},
 {'topic': 'gran_derrumba_del_un',
  'category': 'guerra',
  'text': 'Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan'},
 {'topic': 'moviliza_capital_tensiones_costa',
  'category': 'cambio climático',
  'text': 'La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán'}]

In [50]:
# Create embeddings with a graph index
es2_beddings = Embeddings(
  path=model2,
  content=True,
  functions=[
    {"name": "graph", "function": "graph.attribute"},
  ],
  expressions=[
    {"name": "category", "expression": "graph(indexid, 'category')"},
    {"name": "topic", "expression": "graph(indexid, 'topic')"},
  ],
  graph={
    "topics": {
      "categories": ["cambio climático", "finanzas", "guerra", "enfermedades"]
    }
  }
)

# historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", 
# "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"): 

es2_beddings.index(data_es)
# It's a query, ex: "SELECT x,y,z FROM txtai"
es2_beddings.search("select topic, category, text from txtai")

[{'topic': 'confirmados_eeuu_supera_millones',
  'category': 'enfermedades',
  'text': 'EEUU supera los 5 millones de casos confirmados de virus'},
 {'topic': 'gran_derrumba_del_un',
  'category': 'finanzas',
  'text': 'Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan'},
 {'topic': 'moviliza_capital_tensiones_costa',
  'category': 'finanzas',
  'text': 'La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán'}]

In [51]:
# Create embeddings with a graph index
es3_beddings = Embeddings(
  path=model3,
  content=True,
  functions=[
    {"name": "graph", "function": "graph.attribute"},
  ],
  expressions=[
    {"name": "category", "expression": "graph(indexid, 'category')"},
    {"name": "topic", "expression": "graph(indexid, 'topic')"},
  ],
  graph={
    "topics": {
      "categories": ["cambio climático", "finanzas", "guerra", "enfermedades"]
    }
  }
)

# historia feliz", "cambio climático", "salud pública", "enfermedades", "guerra", 
# "vida salvaje", "Asia", "asia", "suerte", "estafa", "timo"): 

es3_beddings.index(data_es)
# It's a query, ex: "SELECT x,y,z FROM txtai"
es3_beddings.search("select topic, category, text from txtai")

[{'topic': 'confirmados_eeuu_supera_millones',
  'category': 'finanzas',
  'text': 'EEUU supera los 5 millones de casos confirmados de virus'},
 {'topic': 'gran_derrumba_del_un',
  'category': 'finanzas',
  'text': 'Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamaño de Manhattan'},
 {'topic': 'moviliza_capital_tensiones_costa',
  'category': 'guerra',
  'text': 'La capital china moviliza embarcaciones militares a lo largo de la costa mientras aumentan las tensiones con Taiwán'}]

---

## LLM orchestration

txtai is an all-in-one embeddings database. It is the only vector database that also supports sparse indexes, graph networks and relational databases with inline SQL support. In addition to this, txtai has support for LLM orchestration.

The [RAG pipeline](https://neuml.github.io/txtai/pipeline/text/rag/) is txtai's spin on retrieval augmented generation (RAG). This pipeline extracts knowledge from content by joining a prompt, context data store and generative model together.

The following example shows how a large language model (LLM) can use an embeddings database for context.

In [52]:
import torch
from txtai import RAG

In [53]:
def prompt(question):
  return [{
    "query": question,
    "question": f"""
Answer the following question using the context below.
Question: {question}
Context:
"""
}]

# Create embeddings
en_beddings = Embeddings(path="sentence-transformers/nli-mpnet-base-v2", content=True, autoid="uuid5")

# Create an index for the list of text
en_beddings.index(data_en)

# Create and run RAG instance
rag = RAG(en_beddings, "google/flan-t5-large", torch_dtype=torch.bfloat16, output="reference")
rag(prompt("What country is having issues with climate change?"))[0]

Device set to use mps


{'answer': 'Canada', 'reference': 'da633124-33ff-58d6-8ecb-14f7a44c042a'}

In [54]:
def prompt_es(question):
  return [{
    "query": question,
    "question": f"""    
Responde a la siguiente pregunta empleando el contexto siguiente.
Pregunta: {question}
Contexto:
"""
}]

# Create embeddings
es_beddings = Embeddings(path=model1, 
                         content=True, 
                         autoid="uuid5")

# Create an index for the list of text
es_beddings.index(data_es)

# Create and run RAG instance
rag_es = RAG(es_beddings, "google/flan-t5-large", torch_dtype=torch.bfloat16, output="reference")
rag_es(prompt_es("¿Qué país está teniendo problemas con el cambio climático?"))[0]

Device set to use mps


{'answer': 'Canadá', 'reference': 'b27bdf9b-9faa-579c-ad3d-7e19340f829b'}

In [55]:
pregunta = "¿Qué podría ser una estafa?"
out = rag_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿En que continente hay tensiones militares?"
out = rag_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Donde ha ocurrido la historia feliz?"
out = rag_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Qué podría ser un negocio fraudulento?"
out = rag_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿De que ciudad salen los barcos militares?"
out = rag_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Con que animal hay problemas?"
out = rag_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

¿Qué podría ser una estafa?:
{'answer': 'Obtenga grandes ganancias sin trabajo, gane hasta $100000 al da', 'reference': '633fe8e9-ae99-55fb-9679-e1e952d40da9'}
¿En que continente hay tensiones militares?:
{'answer': 'North America', 'reference': 'a80dbf5b-610e-524e-9aaf-a689b635f586'}
¿Donde ha ocurrido la historia feliz?:
{'answer': 'Maine', 'reference': 'f74d6263-3017-5a3c-96e8-9e565c0d1c7c'}
¿Qué podría ser un negocio fraudulento?:
{'answer': 'Pregunta: EEUU supera los 5 millones de casos confirmados de virus', 'reference': '18a11a13-f4f9-5c85-92d7-c51f4bd88411'}
¿De que ciudad salen los barcos militares?:
{'answer': 'Taiwán', 'reference': 'a80dbf5b-610e-524e-9aaf-a689b635f586'}
¿Con que animal hay problemas?:
{'answer': 'Hombre de Maine', 'reference': 'f74d6263-3017-5a3c-96e8-9e565c0d1c7c'}


In [56]:
def prompt_es(question):
  return [{
    "query": question,
    "question": f"""    
Responde a la siguiente pregunta empleando el contexto siguiente.
Pregunta: {question}
Contexto:
"""
}]

# Create embeddings
es2_beddings = Embeddings(path=model2, 
                         content=True, 
                         autoid="uuid5")

# Create an index for the list of text
es2_beddings.index(data_es)

# Create and run RAG instance
rag2_es = RAG(es2_beddings, "google/flan-t5-large", torch_dtype=torch.bfloat16, output="reference")
rag2_es(prompt_es("¿Qué país está teniendo problemas con el cambio climático?"))[0]

Device set to use mps


{'answer': 'Canadá', 'reference': 'b27bdf9b-9faa-579c-ad3d-7e19340f829b'}

In [57]:
pregunta = "¿Qué podría ser una estafa?"
out = rag2_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿En qué continente hay tensiones militares?"
out = rag2_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Donde ha ocurrido la historia feliz?"
out = rag2_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Qué podría ser un negocio fraudulento?"
out = rag2_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿De que ciudad salen los barcos militares?"
out = rag2_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Con que animal hay problemas?"
out = rag2_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

¿Qué podría ser una estafa?:
{'answer': 'El Servicio de Parques Nacionales advierte del incremento de ataques de osos El Servicio de Parques Nacionales advierte del incremento de ataques de osos EEUU supera los 5 millones de casos confirmados de virus', 'reference': '380b2477-b71b-5642-b108-549aa221f56b'}
¿En qué continente hay tensiones militares?:
{'answer': 'Pregunta: EEUU', 'reference': 'a80dbf5b-610e-524e-9aaf-a689b635f586'}
¿Donde ha ocurrido la historia feliz?:
{'answer': 'Canadá', 'reference': 'b27bdf9b-9faa-579c-ad3d-7e19340f829b'}
¿Qué podría ser un negocio fraudulento?:
{'answer': 'Obtenga grandes ganancias sin trabajo, gane hasta $100000 al da', 'reference': '633fe8e9-ae99-55fb-9679-e1e952d40da9'}
¿De que ciudad salen los barcos militares?:
{'answer': 'Pregunta: EEUU supera los 5 millones de casos confirmados de virus', 'reference': '18a11a13-f4f9-5c85-92d7-c51f4bd88411'}
¿Con que animal hay problemas?:
{'answer': 'osos', 'reference': '380b2477-b71b-5642-b108-549aa221f56b'}

In [58]:
# Create embeddings
es3_beddings = Embeddings(path=model3, 
                         content=True, 
                         autoid="uuid5")

# Create an index for the list of text
es3_beddings.index(data_es)

# Create and run RAG instance
rag3_es = RAG(es3_beddings, "google/flan-t5-large", torch_dtype=torch.bfloat16, output="reference")
rag3_es(prompt_es("¿Qué país está teniendo problemas con el cambio climático?"))[0]

Device set to use mps


{'answer': 'Maine', 'reference': '380b2477-b71b-5642-b108-549aa221f56b'}

In [59]:
pregunta = "¿Qué podría ser una estafa?"
out = rag3_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿En qué continente hay tensiones militares?"
out = rag3_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Donde ha ocurrido la historia feliz?"
out = rag3_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Qué podría ser un negocio fraudulento?"
out = rag3_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿De que ciudad salen los barcos militares?"
out = rag3_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

pregunta = "¿Con que animal hay problemas?"
out = rag3_es(prompt_es(pregunta))[0]
print(f"{pregunta}:\n{out}")

¿Qué podría ser una estafa?:
{'answer': 'Obtenga grandes ganancias sin trabajo, gane hasta $100000 al da', 'reference': '633fe8e9-ae99-55fb-9679-e1e952d40da9'}
¿En qué continente hay tensiones militares?:
{'answer': 'El Servicio de Parques Nacionales', 'reference': 'a80dbf5b-610e-524e-9aaf-a689b635f586'}
¿Donde ha ocurrido la historia feliz?:
{'answer': 'Se derrumba en Canadá una gran placa de hielo, formando un iceberg del tamao de Manhattan', 'reference': 'b27bdf9b-9faa-579c-ad3d-7e19340f829b'}
¿Qué podría ser un negocio fraudulento?:
{'answer': 'Hombre de Maine gana $1M con un billete de lotera de $25', 'reference': 'f74d6263-3017-5a3c-96e8-9e565c0d1c7c'}
¿De que ciudad salen los barcos militares?:
{'answer': 'La capital china', 'reference': 'a80dbf5b-610e-524e-9aaf-a689b635f586'}
¿Con que animal hay problemas?:
{'answer': 'Hombre de Maine', 'reference': 'f74d6263-3017-5a3c-96e8-9e565c0d1c7c'}
