# Premiers pas avec CollateX
Enfin, nous allons commencer à utiliser CollateX !

Rappel :
- lire les cellules Markdown (ou écrire des notes)
- exécuter les cellules de Code précédées d'un `[x]:` avec le bouton ![run](images/jupyter-bouton1.png).

## Importer CollateX
CollateX est un module et ne fait pas partie des fonctions que l'on peut utiliser par défaut, il faut l'importer :

In [None]:
# ici * signifie que nous importons tout
from collatex import *

Est-ce que cela a marché ? 

Comme nous sommes dans Binder, tout est installé par défaut et il ne devrait pas y avoir de problème.

Pour une installation locale, voici des [instructions](https://github.com/automaticCollationLausanne2020/Materials/blob/master/installation.md#33-installing-the-python-levenshtein-library) (anglais).


## Créer un objet "Collation"

Nous créons une donnée de type "Collation" avec cette ligne de code un peu hermétique :

`collation = Collation()`

Ici, `collation` en minuscule est le nom de la variable, vous pouvez choisir n'importe quel nom. 

La fonction `Collation()` génère une "instance" d'un nouveau type de données - un objet de type "Collation" - qui a été créé spécialement pour CollateX.


In [None]:
collation = Collation()

## Ajouter des témoins
La variable `collation` (de type Collation) contiendra les témoins que nous souhaitons comparer.

Chaque témoin possède deux propriétés :
- un nom (ou sigle) pour l'identifier. Le nom peut être une seule lettre, un chiffre ou un nom plus long
- un texte qui sera collationné

Nous devons utiliser la méthode `add_plain_witness()`.

In [None]:
collation.add_plain_witness('A', 'Bladorthin, Dwarves, and Mr Baggins.')
collation.add_plain_witness('B', 'Bladorthin, dwarves and Mr Baggins, [...]')
collation.add_plain_witness('C', 'Gandalf, dwarves and Mr Baggins!')

In [None]:
# Nous pouvons compter les témoins dans notre objet Collation
len(collation.witnesses)

## Collationner

La fonction `collate()` prend comme argument l'objet `collation`, et va générer la collation à partir des témoins contenu dans cette Collation.

Nous allons sauvegarder le résultat dans une variable.

In [None]:
result = collate(collation)

## Voir le résultat
Utiliser la fonction `print()` - et voilà ! 

Vous avez réussi votre première collation 🥳

In [None]:
print(result)

Vous savez maintenant comment faire la collation la plus basique possible.

Mais la fonction `collate()` a d'autres options qui permettent de modifier l'aspect du résultat.

Voici deux de ces options :
- **layout** : soit "horizontal" (par défaut), soit "vertical"
- **segmentation** : soit `True` (par défaut), soit `False`

In [None]:
# layout change l'orientation de la table
result2 = collate(collation, layout='vertical')
print(result2)

In [None]:
# segmentation permet de rassembler (True) les tokens alignés ou séparer (False) chaque token
result3 = collate(collation, layout='vertical', segmentation=False)
print(result3)

## Récapitulatif et exercice

Avant de continuer avec la lecture des textes à partir de fichiers et les différents output de CollateX, reprenons ce que nous venons de voir dans un petit exercice.

**Tout d'abord**, placez-vous sur la cellule *A votre tour !* et changez le titre pour quelque chose comme "Mon test CollateX", afin que vous sachiez qu'il s'agit de votre propre code. Vous pouvez utiliser cette cellule Markdown, ou bien des commentaires dans le code, pour documenter ce que vous faites.

**Ensuite**, créez une cellule Code et copiez le code ci-dessous : c'est tout ce dont CollateX a besoin pour collationner quelques textes, les mêmes instructions que nous lui avons données précédemment mais rassemblées en une seule cellule.

**Maintenant**, exécutez la cellule une première fois et voyez les résultats.

**Apportez des modifications** et voyez comment le résultat change lorsque vous exécutez à nouveau la cellule. Changez une chose à la fois : de cette façon, si vous obtenez un message d'erreur, il sera plus facile de déboguer le code. Essayez les modifications suivantes :
  1. Changez le texte pour chaque témoin
  1. Ajouter un nouveau témoin
  2. Définissez l'option de segmentation sur True (vous verrez que cela revient à la supprimer)
  4. Il est également possible de changer le sigle de chaque témoin. Le sigle est l'abréviation utilisée pour désigner un témoin, ici « A », « B », « C ».

In [None]:
# résumé du code
from collatex import *
collation = Collation()
collation.add_plain_witness('A', 'Bladorthin, Dwarves, and Mr Baggins.')
collation.add_plain_witness('B', 'Bladorthin, dwarves and Mr Baggins, [...]')
collation.add_plain_witness('C', 'Gandalf, dwarves and Mr Baggins!')
result = collate(collation, layout='vertical', segmentation=False)
print(result)

### *A votre tour !*

## Formats d'input

Les deux formats possibles sont :
- texte brut
- JSON (deuxième partie du cours)

Il n'est pas possible d'utiliser le XML/TEI comme input, car c'est un format qui évolue et il y a une infinité d'encodages valides possibles. Pour CollateX, le choix a été fait de ne pas imposer un format rigide d'encodage TEI.

## Lecture à partir d'un fichier

Nous avons déjà vu comment introduire le texte brut dans le code Python juste avant, mais ce n'est pas pratique pour des textes plus longs.

Dans ce cas, nous pouvons lire le contenu d'un fichiers pour en extaire le texte d'un témoin.

On accède à un fichier par son chemin d'accès:

In [None]:
# chemin complet, sur un ordinateur
path_absolute = "D:/Documents/academia/collation_workshops/data/discworld.txt"

# chemin relatif, par rapport à où je me trouve maintenant 
path_relative = "data/Pratchett/discworld.txt"

Pour ouvrir le fichier et le lire, nous allons combiner la méthode `read()` avec la fonction `open()` qui prend en argument :
- le chemin d'accès
- `r` pour *read*, ce que l'on veut faire
- l'encodage du texte

In [None]:
# r = read, "lecture" 
# mais on peut ouvrir un fichier pour autre chose, comme l'écriture !
# il est important de préciser l'encodage du texte pour éviter les mauvaises surprises avec les caractères spéciaux
text = open('data/Pratchett/discworld.txt', 'r', encoding='utf-8').read()
print(text)

### Les bonnes pratiques

William J. Turkel et Adam Crymble, « Travailler avec des fichiers texte en Python », traduction par Sylvain Machefert, Programming Historian en français 1 (2019), https://doi.org/10.46430/phfr0005

[Cours de Python](https://python.sdv.univ-paris-diderot.fr/07_fichiers/) de l'université Paris Diderot.

[Tutoriel](https://www.codecademy.com/resources/docs/general/file-paths) sur les chemins d'accès (en anglais). 

In [None]:
# créer trois témoin pour une nouvelle collation à partir des fichiers
# remplacer "..." par le code qui permet de lire le fichier

# chemin 1 ex: data/Tolkien/bilbo-pryftan-frgmt.txt
wit1 = "texte 1"

# chemin 2 ex: data/Tolkien/bilbo-bladorthin-tpscr.txt
wit2 = "texte 2"

# chemin 3 ex: data/Tolkien/bilbo-edition-1995.txt
wit3 = "texte 3"

In [None]:
# créer une collation
tolkien = Collation()

# ajouter les témoins
tolkien.add_plain_witness("sigle1", wit1)

# collationner
result = collate(tolkien)
print(result)

## Formats de sortie (output)

Voici toutes les options pour l'argument `output` de la fonction `collate()`:

- table (par défaut)
- csv
- tsv
- xml
- tei
- html
- html2
- graph
- svg_simple
- svg
- json

In [None]:
# exercice: essayez chaque option d'output ! Laquelle préférez-vous ?
result = collate(collation, output="table")
print(result)

### Texte brut, CSV et TSV
Losrque nous ne donnons aucune indication à collatex, `table` est l'option par défaut.

Les outputs `csv` et `tsv` produisent le même résultat, avec des tokens séparés par des virgules (csv) ou des tabulations (tsv).

Mais ce n'est pas toujours très satisfaisant au niveau de la visualisation, les différences entre tokens ne sont pas faciles à repérer.

In [None]:
table = collate(collation, output='tsv')
print(table)

## XML et XML/TEI

De la même façon, on peut exporter la table de collation aux formats `xml`, ou `tei`, qui peuvent être ensuite post-processé avec du XSLT.

La différence principale entre les deux, c'est que le format TEI produit une version condensée de la table, en ne créant des éléments `<app>` qu'aux points de divergence des témoins (ce qu'on appelle aussi un apparat négatif).

In [None]:
table = collate(collation, output='xml')
print(table)

Le résultat en TEI est plus lisible lorsque l'on ajoute l'argument `indent` avec la valeur `True`:

In [None]:
table = collate(collation, output="tei", indent=True)
print(table)

### HTML

Il existe deux outputs HTML : `html` et `html2`. 

Le `html2` souligne en rouge les rangs qui contiennent une variante.

L'argument `layout` (horizontal et vertical) n'est disponible que pour `html`.

In [None]:
collate(collation, output="html2", segmentation=False)

## Graph

Il y a trois options possible pour le graph: `svg_simple` et `svg` (pour la visualisation uniquement), ainsi que `graph` (format GraphML pour réutilisation). 

L'output graph peut se réutiliser, par exemple avec [Stemmaweb](https://stemmaweb.net/)

> I recommend that you request CollateX results in its GraphML format, in order to preserve any detected reading transpositions. Do NOT use CollateX’s TEI-style parallel-segmentation output


In [None]:
# montre une seule forme de tokens, par défaut les formes normalisées
collate(collation, segmentation=False, output="svg_simple")

In [None]:
# montre les formes originales et normalisées en parallèle
collate(collation, segmentation=True, output="svg")

## Les combinaisons d'outputs et d'arguments

Dans le tableau suivant, les valeurs possibles du paramètre `output` sont répertoriées dans la colonne de gauche, et leur capacité à se combiner avec `layout`, `indent` et `segmentation` est indiquée (« oui » ~ « non »).

`output` | `layout` | `indent`| `segmentation`
----|----|----|---|
**table** | oui | non | oui
**html** |  oui | non | oui
**html2** | non | non | oui
**svg_simple** | non | non | oui
**svg** |  non | non | oui
**xml** | non | non | oui
**tei** | non | oui | non
**json**| non | non | oui


In [None]:
# résumé des options d'output - il manque svg_simple et svg !
help(collate)