In [None]:
!make all

import sys
import os
sys.path.insert(0, os.path.abspath('./src'))
from eddo import get_frequence
sys.path.insert(0, os.path.abspath('./src'))
from widget import ashMenu

# L’Analyse en Classification Hiérarchique (ACH) et la comparaison des manuscrits

L’**Analyse en Classification Hiérarchique (ACH)** est une méthode statistique qui permet de comparer et de regrouper des objets en fonction de leurs similarités. Appliquée à la **philologie classique**, elle peut être utilisée pour comparer des manuscrits entre eux et tenter de reconstruire leur histoire.

## Pourquoi utiliser l’ACH pour comparer des manuscrits ?



Les manuscrits anciens sont souvent des copies de copies, avec des erreurs, des corrections et des variantes introduites au fil du temps. L’ACH permet de **classer ces manuscrits en fonction de leur ressemblance** et peut aider à :

![ACH example](img/image.png "ACH example")



- **Visualiser les relations entre les manuscrits** sous forme d’un **arbre hiérarchique** (*dendrogramme*).  
  - L’a hauteur entre deux branche représente l’importance des décisions : plus les branches sont proches, plus l’algorithme est indécis sur la séparation entre les manuscrits.

- **Regrouper des familles de manuscrits** qui partagent des caractéristiques communes.
- **Faire des hypothèses sur l’évolution des textes**, en identifiant les manuscrits qui semblent être des copies d’une même source.


## Les limites de l’ACH dans ce contexte

L’ACH repose sur des **choix méthodologiques** qui influencent fortement les résultats :

### 1. Le choix des données en entrée


In [None]:

texts = {
    "1A": "Malgré sa taille imposante, le lion se penche avec une incroyable précision pour saisir la petite souris qui passe près de lui.",
    "1B": "Bien que son gabarit soit imposant, le lion s'incline avec une précision remarquable pour attraper la souris qui se faufile à proximité.",
    "1C": "En dépit de sa stature imposante, le lion se courbe avec une précision étonnante pour attraper la petite souris qui s'approche de lui.",
    "1D": "Nonobstant sa corpulence imposante, le lion se penche avec une précision éblouissante pour saisir la petite souris qui circule à ses côtés.",
    "3A": "La souris frémit de terreur alors que le lion s'approche, prêt à la dévorer en un seul coup de crocs.",
    "3B": "La souris tremble de terreur tandis que le lion s'approche, prêt à la saisir en un seul mouvement de mâchoires.",
    "3C": "Prise de frayeur, la souris frissonne alors que le lion s'approche, prêt à la capturer d'un seul coup de dent.",
    "3D": "Sous l'emprise de la peur, la souris frémit tandis que le lion s'approche, prêt à l'avaler d'un seul coup de crocs.",
    "4A": "La souris tente désespérément de fuir, mais elle se retrouve bientôt prise dans les griffes redoutables du lion affamé.",
    "4B": "La souris lutte désespérément pour s'échapper, mais elle se trouve bientôt enserrée dans les redoutables serres du lion vorace.",
    "4C": "Malgré ses efforts désespérés pour s'évader, la souris se retrouve rapidement enserrée dans les griffes menaçantes du lion affamé.",
    "4D": "Tentant vainement de fuir, la souris se voit rapidement capturée par les redoutables griffes du lion qui la guette avec avidité."
}


Que faut-il comparer ? Plusieurs options sont possibles :

- **Les variantes textuelles** :  
  - Faut-il compter **chaque mot différent** ?  



In [None]:
value=get_frequence(texts)
display(value)
ashMenu(value)

- Chaque **lettre** ?

In [None]:
value=get_frequence(texts,regex="\S")
display(value)
ashMenu(value)

  - Chaque **lemme** (forme de base d’un mot) ?  

In [None]:
value=get_frequence(texts,feature="lemma",model='fr_core_news_lg')
display(value)
ashMenu(value)

  - Chaque **partie du discours** ?  

In [None]:
value=get_frequence(texts,feature="pos",model='fr_core_news_lg')
display(value)
ashMenu(value)

  - Chaque **type d’erreur** ?  
  - Faut-il **pondérer** certaines erreurs plus que d’autres ? Est-ce normalisable à l’ensemble du corpus ?

- **Les passages entiers** :  
  - Comment quantifier leur similarité ?  
  - Doit-on simplement **compter la fréquence de chaque token** (unité de texte) ?  
  - Faut-il utiliser des calculs comme le **TF-IDF** (terme-fréquence inverse de la fréquence documentaire) pour normaliser la longueur des textes ?

### 3. Le traitement des omissions

Certains manuscrits sont incomplets. Il faut donc décider :

- Faut-il les **ignorer** ou les prendre en compte différemment ?
- Certaines distances, comme **Jaccard**, peuvent s’adapter, tandis que d’autres ne tolèrent pas les données manquantes.

### 4. Le choix de la méthode d’agrégation

L’ACH regroupe les manuscrits en fonction de différentes méthodes de liaison :

- **Single** (plus proche voisin)
- **Complete** (plus éloigné voisin)
- **Average** (moyenne des distances)
- **Weighted** (pondération)
- **Centroid** (centre de masse)
- **Median** (médiane)
- **Ward** (minimisation de la variance)

Chacune de ces méthodes influence la proximité entre les branches et donc l’interprétation des résultats.

### 5. L’interprétation des résultats

- L’ACH **ne reconstitue pas directement un stemma codicum** (arbre généalogique des manuscrits), mais propose **une classification statistique**.
- Un groupe proche dans le dendrogramme **ne signifie pas forcément qu’un manuscrit est la copie directe d’un autre**.

---

## Conclusion

L’ACH est un **outil puissant** pour **visualiser et analyser les relations entre manuscrits**, mais il ne remplace pas une **analyse philologique classique**. Son efficacité dépend du **choix des variantes analysées**, de la **mesure de distance utilisée** et des **méthodes de classification**. Il doit toujours être combiné avec une expertise philologique pour éviter des conclusions erronées.

Vous souhaitez un exemple concret ou un schéma explicatif ?