In [1]:
import os
import sqlite3

from txtai.embeddings import Embeddings

# Create embeddings instance with a semantic graph
embeddings = Embeddings({
  "path": "sentence-transformers/all-MiniLM-L6-v2",
  "content": True,
  "functions": [
    {"name": "graph", "function": "graph.attribute"},
  ],
  "expressions": [
      {"name": "category", "expression": "graph(indexid, 'category')"},
      {"name": "topic", "expression": "graph(indexid, 'topic')"},
      {"name": "topicrank", "expression": "graph(indexid, 'topicrank')"}
  ],
  "graph": {
      "limit": 15,
      "minscore": 0.1,
      "topics": {
          "categories": ["Rascunho de carta",
                            "Carta",
                            "Nota",
                            "Cópia de carta",
                            "Prece",
                            "Evocação",
                            "Fragmento",
                            "Psicografia",
                            "Imagem",
                            "Discurso",
                            "Escritura",
                            "Comunicação",
                            "Diálogo",
                            "Prova de página",
                            "Inventário",
                            "Dissertação",
                            "Impresso",
                            "Anotação",
                            "Bilhete",
                            "Caderno de cartas"]
      }
  }
})

# Connection to database file
db_dir = os.path.abspath("/home/ematos/devel/kardec/kardec_laravel/database")
database_file = os.path.join(db_dir, "dataset.txtai.sqlite3")

db = sqlite3.connect(database_file)
cur = db.cursor()

# Select tagged sentences without a NLP label. NLP labels are set for non-informative sentences.
cur.execute("SELECT idSentence as id, sentence as text from sentence")

#for row in cur:
  # Unpack row
#  uid, text = row
#  print(uid)
#  print(text)
#  embeddings.index(uid, text)
embeddings.index(cur)
# Free database resources
db.close()

# Store reference to graph
graph = embeddings.graph

* 'underscore_attrs_are_private' has been removed


In [2]:
len(embeddings.graph.topics)

954

In [3]:
list(graph.topics.keys())[:5]

['de_e_o_que',
 'o_se_que_e',
 'senhor_de_morin_grupo',
 'bordeaux_o_que_para',
 'médium_senhor_senhora_desliens']

In [4]:
for x, topic in enumerate(list(graph.topics.keys())[:5]):
  print(graph.categories[x], topic)

Caderno de cartas de_e_o_que
Impresso o_se_que_e
Caderno de cartas senhor_de_morin_grupo
Caderno de cartas bordeaux_o_que_para
Cópia de carta médium_senhor_senhora_desliens


In [5]:
print(embeddings.search("select text from txtai where similar('viagem')", 1)[0]["text"])

No selvagem .


In [7]:
centrality = graph.centrality()

topics = list(graph.topics.keys())

for uid in list(centrality.keys())[:5]:
  topic = graph.attribute(uid, "topic")
  print(f"{topic} ({topics.index(topic)})")

que_é_espíritos_personalidades (900)
sua_é_seus_nas (938)
dúvida_que_é_será (890)
para_e_bem_não (768)
que_é_da_espíritos (874)


In [9]:
print(embeddings.search("select text from txtai where topic='sua_é_seus_nas'")[0]["text"])

Como a punição justa e merecida é inteiramente encontrada nas novas provas de cada reencarnação, o espírito poderia antever, entre cada uma delas, ou seja, durante a sua permanência no mundo espiritual, os seus sofrimentos futuros.
