<a href="https://colab.research.google.com/github/OdysseusPolymetis/digital_classics_course/blob/main/1_cltk_import.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Import de textes via CLTK**

`cltk` est une excellente librairie python, qui peut traiter un très grand nombre de langues anciennes. Par défaut nous utiliserons la version de base, mais sachez qu'elle peut s'adosser désormais à des `Transformers` comme llama, chatgpt etc. Donc si vous avez des tâches bien particulières à exécuter, et que la lib de base ne suffit pas, il existe des améliorations sensibles. Vous trouverez tout sur l'utilisation du code [ici](https://docs.cltk.org/quickstart/).
<br><br>Si vous souhaitez connaître les langues qui sont dispos dans cltk, voici un code basique que vous pouvez copier coller dans une nouvelle cellule:
```python
from cltk import NLP
print(NLP.supported_languages)
```
Pour info, ce n'est qu'un extrait mais voilà une partie des langues que `cltk` peut traiter : Akkadien, Arabe, Araméen, Chinois classique, Copte, Gothique, Grec, Hindi, Latin, Moyen haut-allemand, Anglais, Français, Vieux slavon d’église, etc.

On commence par installer `cltk`. Il est fort probable qu'après cette première cellule, vous ayez à redémarrer l'environnement d'exécution, c'est normal, et faites-le.

In [None]:
!pip install -q cltk

Ensuite, on importe les librairies dont on a besoin.

In [None]:
from cltk.data.fetch import FetchCorpus as fetch
import os
import shutil
from google.colab import files

On choisit enfin quelle langue on veut pour les données de `cltk`.

In [None]:
corpus_downloader = fetch(language="lat")

Cette cellule vous montre les corpus qui sont théoriquement disponibles au téléchargement via CLTK. Parfois les listes ne sont pas forcément à jour.

In [None]:
corpus_downloader.list_corpora

Dans la cellule suivante, vous pouvez choisir le corpus qui vous intéresse, ce qui le téléchargera dans un premier temps dans Colab.

In [None]:
corpus_downloader.import_corpus("latin_proper_names_cltk")

La cellule qui suit localise le dossier qui contient vos corpus (à savoir `cltk_data`)

In [None]:
cltk_root = os.environ.get("CLTK_DATA", os.path.expanduser("~/cltk_data"))
print("Répertoire cltk_data :", cltk_root)

On vérifie ensuite que le dossier de data existe bien.

In [None]:
if not os.path.isdir(cltk_root):
    raise FileNotFoundError(f"Le dossier cltk_data n'existe pas à cet emplacement : {cltk_root}")

Ensuite, on crée un zip, qui va rassembler tous les corpus que vous avez dans `cltk_data` (c'est les deux cellules suivantes)

In [None]:
zip_base = "/content/cltk_data_all"
shutil.make_archive(zip_base, "zip", cltk_root)

In [None]:
zip_path = zip_base + ".zip"
print("Archive créée :", zip_path)

Et enfin, on télécharge le `.zip` pour l'avoir directement sur son ordinateur. Vous pouvez donc vous retrouver avec un grand nombre de textes directement sur ordinateur.

In [None]:
files.download(zip_path)