# Aligner et comparer des textes -- approfondissement et exercices

In [None]:
import collatex
import time
import json
import lxml.etree as etree

Nous allons utiliser le fragment d'un poème de Catulle comme support pour tous nos exercices qui appliquent la partie précédente de l'atelier animée par Elisa. Commençons par charger nos textes:

In [None]:
# On va importer les textes: 1
with open("Catullus/TEXT-O1.txt", "r") as input_text:
    # On va supprimer les sauts de ligne qui ne nous intéressent pas pour l'exercice.
    texte_a = input_text.read().replace("\n", " ")

# et 2
with open("Catullus/TEXT-G2.txt", "r") as input_text:
    texte_b = input_text.read().replace("\n", " ")


# et 3
with open("Catullus/TEXT-Bodmer47-1.txt", "r") as input_text:
    texte_c = input_text.read().replace("\n", " ")

On peut imprimer le texte 3 pour vérifier qu'il est bien chargé:

In [None]:
print(text_3)

### Deuxième étape: on prépare la collation

On crée une instance Collation de notre librairie collatex, puis on ajoute chacun des textes

In [None]:
collation = collatex.Collation()
collation.add_plain_witness('O1', texte_a)
collation.add_plain_witness('G2', texte_b)
collation.add_plain_witness('Bodmer47', texte_c)

In [None]:
# Regardons le nombre de témoins de l'objet collation:
print(len(collation.witnesses))

Commençons par créer une table de collation simple.

In [None]:
result_table = collatex.collate(collation, segmentation=False)
print(result_table)

Le résultat est peu lisible car le texte est trop long. Passons à une table d'alignement verticale.

In [None]:
# On collationne avec une table de collation verticale cette fois
result_table = collatex.collate(collation, layout='vertical', segmentation=False)
print(result_table)

On choisit ici de collationer mot-à-mot, mais une collation plus globale est possible: c'est le paramètre `segmentation` qu'il faut alors changer.

In [None]:
result_table = collatex.collate(collation, layout='vertical', segmentation=True)
print(result_table)

On peut produire une sortie au format HTML (pages web) qui sera de meilleure facture: c'est fait avec l'argument `output` de notre méthode `collate`. Les options possibles sont `html`, `html2`, `json`, `table`, `xml`, `tei`, `csv`.

Commeçons par la sortie html simple:

In [None]:
# On collationne avec une table de collation verticale cette fois
result_table = collatex.collate(collation, layout='vertical', output="html", segmentation=False)

In [None]:
# On collationne avec une table de collation horizontale
result_table = collatex.collate(collation, layout='horizontal', output="html", segmentation=False)

On peut aussi proposer aussi une sortie qui mette en valeur les unités d'alignement avec variante formelle par une couleur particulière: c'est l'option `html2`

In [None]:
result_table = collatex.collate(collation, layout='horizontal', output="html2", segmentation=False)
print(result_table)

On peut enfin proposer une sortie au format XML, qui pourra ensuite être facilement convertie à une édition TEI.

In [None]:
result_table = collatex.collate(collation, layout='horizontal', output="tei", indent='True', segmentation=False)
print(etree.tostring(etree.fromstring(result_table), pretty_print=True).decode())