<img align="right" src="images/tf.png" width="200"/>
<img align="right" src="images/huc.png" width="200"/>
<img align="right" src="images/logo.png" width="200"/>

---

To get started: consult [start](start.ipynb)

---

# Similar sentences

We explore the similar sentences in the letters of Descartes.

They have already been diagnosed and put in an *edge* feature by running
the notebook [parallels](../programs/parallels.ipynb).

# Incantation

The ins and outs of installing Text-Fabric, getting the corpus, and initializing a notebook are
explained in the [start tutorial](start.ipynb).

In [1]:
%load_ext autoreload
%autoreload 2

In [2]:
from tf.app import use

In [3]:
A = use("CLARIAH/descartes-tf:clone", checkout="clone", hoist=globals())

**Locating corpus resources ...**

Name,# of nodes,# slots/node,% coverage
,,,
volume,8.0,85241.88,100.0
letter,725.0,940.6,100.0
page,2884.0,236.45,100.0
postscriptum,56.0,46.79,0.0
opener,545.0,1.97,0.0
closer,541.0,13.1,1.0
address,86.0,15.22,0.0
head,725.0,23.37,2.0
p,8438.0,80.82,100.0


# Use the similar sentences module

You see an extra module **Similar Sentences** listed with one feature: `sim`.
It is in *italics*, which indicates it is an edge feature.

We count how many similar pairs their are, how many 100% similar pairs there are,
and how many more than 90% but not 100%.

In [4]:
query = """
sentence
-sim> sentence
"""
results = A.search(query)

  0.02s 519 results


We collect the 100% results, in bidirectional form.

In [5]:
query100 = """
sentence
<sim=100> sentence
"""
results100 = A.search(query100)

  0.01s 866 results


Let's show the 90+% pairs.

In [6]:
query90 = """
sentence
-sim>90> sentence
"""
results90 = A.search(query90)

  0.01s 468 results


Let's weed out the 100% pairs:

In [7]:
results100set = set(results100)

results = tuple(r for r in results90 if r not in results100set)
len(results)

35

We show some of these highly similar sentence pairs:

In [10]:
A.table(results, withNodes=True, end=2)

n,p,sentence,sentence.1
1,1 1018:4,"708667 Il faut observer que la ligne NM, qui est le milieu de la lame PNOM, doit être exactement parallèle à l'axe AB de la première machine, et que la ligne perpendiculaire qui tomberait de l'axe AB sur les planches GH et IK, tombe justement sur cette ligne NM. De plus, aux dernières figures, il faut que la même ligne NM, prolongée, passe justement par le centre de la roue Q, et se rencontre faire une ligne droite avec l'axe RS, sur lequel tourne le verre.","708696 Enfin vous dites qu'il faut aussi observer que la ligne NM, qui fait le milieu de la lame PNOM, doit être exactement parallèle à l'axe AB de la première machine, et que la ligne perpendiculaire qui tomberait de l'axe AB sur les planches GH et IK, tombe E justement sur cette ligne NM. De plus, aux dernières figures, il faut que la même ligne NM prolongée passe justement par le centre de la roue Q et se rencontre faire une ligne droite avec l'axe RS, sur lequel tourne le verre."
2,2 2122:10,"710499 Faisons après cela qu' A, l'un des bouts de cette corde, étant attaché ferme à quelque clou, l'autre C soit derechef soutenu par un homme; et il est évident que cet homme, en C, n'aura besoin, non plus que devant, pour soutenir le poids E, que de la force qu'il faut pour soutenir cent livres: à cause que le clou qui est vers A y fait le même office que l'homme que nous y supposions auparavant.","711979 Puis, si on suppose que A, l'un des bouts de cette corde, soit attaché ferme à quelque clou, et que l'autre C soit derechef soutenu par un homme, il est évident que cet homme en C n'aura besoin non plus que devant, pour soutenir ce poids E, que de la force qu'il faut pour soutenir 100 livres, à cause que le clou qui sera vers A y fera le même office que l'homme que nous y supposions auparavant."


Unfortunately, the generic mechanism of text-fabric does not show the passage of the second sentence of each similar pair.

We can make a display by hand, and also show the similarity:

In [11]:
for (i, (s1, s2)) in enumerate(results[0:10]):
    sim = dict(E.sim.f(s1))[s2]
    A.dm(f"### {i+1} similarity {sim}\n")
    letter1 = L.u(s1, otype="letter")[0]
    letter2 = L.u(s2, otype="letter")[0]
    A.plain(letter1)
    A.plain(s1)
    A.dm("---\n")
    A.plain(letter1)
    A.plain(s2)
    A.dm("---\n")
    A.dm("---\n")

### 1 similarity 96


---


---


---


### 2 similarity 92


---


---


---


### 3 similarity 97


---


---


---


### 4 similarity 95


---


---


---


### 5 similarity 96


---


---


---


### 6 similarity 93


---


---


---


### 7 similarity 97


---


---


---


### 8 similarity 92


---


---


---


### 9 similarity 98


---


---


---


### 10 similarity 98


---


---


---


## Edges: low-level

We can list all edges going out from a reference node.
What we see is tuple of pairs: the target node and the similarity between the reference node and that target node.

In [12]:
refNode1 = results[-1][0]
print(f"{refNode1=}")

E.sim.f(refNode1)

refNode1=720595


((720785, 98),)

Likewise, we can observe the nodes that target the reference node:

In [13]:
refNode2 = results[-1][1]
print(f"{refNode2=}")

E.sim.t(refNode2)

refNode2=720785


((720595, 98),)

Both sets of nodes are similar to the reference node and it is inconvenient to use both `.f()` and `.t()` to get the similar lines.

But there is another way:

In [14]:
E.sim.b(refNode1)

((720785, 98),)

In [15]:
E.sim.b(refNode2)

((720595, 98),)

---

# Contents

* **[start](start.ipynb)** intro and highlights
* **[search](search.ipynb)** turbo charge your hand-coding with search templates
* **[compute](compute.ipynb)** sink down a level and compute it yourself
* **[exportExcel](exportExcel.ipynb)** make tailor-made spreadsheets out of your results

Advanced

* **similar sentences** find similar sentences

CC-BY Dirk Roorda