In [16]:
import os
import sqlite3

from txtai.embeddings import Embeddings

# Create embeddings instance with a semantic graph
embeddings = Embeddings({
  "path": "sentence-transformers/all-MiniLM-L6-v2",
  "content": True,
  "functions": [
    {"name": "graph", "function": "graph.attribute"},
  ],
  "expressions": [
      {"name": "category", "expression": "graph(indexid, 'category')"},
      {"name": "topic", "expression": "graph(indexid, 'topic')"},
      {"name": "topicrank", "expression": "graph(indexid, 'topicrank')"}
  ],
  "graph": {
      "limit": 15,
      "minscore": 0.1,
      "topics": {
          "categories": ["Rascunho de carta",
                            "Carta",
                            "Nota",
                            "Cópia de carta",
                            "Prece",
                            "Evocação",
                            "Fragmento",
                            "Psicografia",
                            "Imagem",
                            "Discurso",
                            "Escritura",
                            "Comunicação",
                            "Diálogo",
                            "Prova de página",
                            "Inventário",
                            "Dissertação",
                            "Impresso",
                            "Anotação",
                            "Bilhete",
                            "Caderno de cartas"]
      }
  }
})

# Connection to database file
db_dir = os.path.abspath("/home/ematos/devel/kardec/kardec_laravel/database")
database_file = os.path.join(db_dir, "dataset.txtai.sqlite3")

db = sqlite3.connect(database_file)
cur = db.cursor()

# Select tagged sentences without a NLP label. NLP labels are set for non-informative sentences.
cur.execute("SELECT idSentence as id, sentence as text from sentence")

#for row in cur:
  # Unpack row
#  uid, text = row
#  print(uid)
#  print(text)
#  embeddings.index(uid, text)
embeddings.index(cur)
# Free database resources
db.close()

# Store reference to graph
graph = embeddings.graph

IndexError: tuple index out of range

In [7]:
len(embeddings.graph.topics)

1050

In [14]:
list(graph.topics.keys())

['o_de_que_e',
 'o_que_não_e',
 'que_de_não_o',
 'o_que_e_eu',
 'francos_de_o_que',
 'l_g',
 'bordeaux_o_que_de',
 'du_de_château_loir',
 'eu_o_que_me',
 'd',
 'de_não_que_se',
 'senhor_jourdan_morin_à',
 'allan_kardec_caligrafia_atribuída',
 'lyon_em_de_que',
 'amélie_minha_tua_carta',
 'que_de_eu_e',
 'de_e_os_que',
 'de_em_que_e',
 'lyon_que_não_de',
 'de_o_que_para',
 'rivail_hldrivail_galileu_reynaud',
 'volta_de_e_que',
 'de_pergunta_que_resposta',
 'o_que_não_eu',
 'que_de_o_do',
 'aceite_que_de_o',
 'logo_não_o_se',
 'de_paris_1865_janeiro',
 'de_1865_junho_abril',
 'que_de_tours_para',
 'k_moki_ak',
 'r',
 'senhora_médium_caussin_ebert',
 'desliens_senhor_médium______',
 'lembranças_todos_e_te',
 'de_outubro_paris_dezembro',
 'de_sainte_e_para',
 'e_o_que_um',
 'e_o_se_que',
 'ileg_carimbos_i_imperial',
 '3_2_4_5',
 'rua_senhor_de_martyrs',
 'o_que_família_de',
 's',
 'muito_bom_h_bem',
 'sim_resposta_pergunta_você',
 'rivail_senhor_senhora_paris',
 'amélie_adeus_boa_tua',
 'e

In [9]:
for x, topic in enumerate(list(graph.topics.keys())[:5]):
  print(graph.categories[x], topic)

Health o_de_que_e
Health o_que_não_e
Society & Culture que_de_não_o
Health o_que_e_eu
Society & Culture francos_de_o_que


In [13]:
print(embeddings.search("select text from txtai where similar('viagem')", 1)[0]["text"])

Fiquei contente em saber que sua viagem aqui “.


In [15]:
centrality = graph.centrality()

topics = list(graph.topics.keys())

for uid in list(centrality.keys())[:5]:
  topic = graph.attribute(uid, "topic")
  print(f"{topic} ({topics.index(topic)})")

topic_754 (679)
topic_740 (665)
topic_743 (668)
topic_807 (732)
topic_762 (687)
