## Boucles

Sachant que la fonction et les paramètres `glob("../data/*.txt")` dans la première cellule retourne l'ensemble des fichiers disponibles finissant par `*.txt` dans `../data`:

1. Comptez le nombre de chaque mot dans chaque texte
2. Combien de mots ne sont présents que dans un texte ?

In [1]:
# Exécuter mais ne pas modifier.
from glob import glob

In [42]:
# On prépare les dictionnaores finaux
mots_total = {}
mots_par_texte = {}
# On boucle sur l'ensemble des fichiers
for file in glob("../data/*.txt"):
    print("Reading {}".format(file))
    with open(file) as fio:
        # On lit les fichiers
        texte = fio.read()
    # On trie
    mots = texte.lower().replace("'", " ").replace("-", " ").replace(",", " ")\
        .replace(".", " ").replace("’", " ").replace("?", " ").split()
    mots_par_texte[file] = {}
    for mot in set(mots):
        decompte = mots.count(mot)
        # Si le mot n'a pas encore été rencontré
        # On crée leur entrée
        if mot not in mots_total:
            mots_total[mot] = 0
        # On incrémente le nombre de mots
        mots_total[mot] += decompte
        # Cependant, il est forcément absent de mots_par_texte
        mots_par_texte[file][mot] = decompte
        
# On crée un dictionnaire où l'on stockera les mots n'apparaissant qu'une fois
mots_specifiques = {}
for mot in mots_total:
    dans_combien_texte = []
    for texte in mots_par_texte:
        if mot in mots_par_texte[texte]:
            dans_combien_texte.append(texte)
    if len(dans_combien_texte) == 1:
        mots_specifiques[mot] = dans_combien_texte

print("Il y a {} mots spécifiques à un texte, soit {:.2f}% des mots rencontrés".format(
    len(mots_specifiques),
    len(mots_specifiques) / len(mots_total) * 100
))
print(sorted(list(mots_specifiques.keys())))

Reading ../data/cid.v1071.1682.txt
Reading ../data/lettre.louisemichel.txt
Reading ../data/debat.folieamour.labbe.txt
Reading ../data/Ballade.XXVIII.dePisan.txt
Reading ../data/misanthrope.acte3.scene4.txt
Reading ../data/liaisons.118.txt
Reading ../data/lesdeuxamants.txt
Reading ../data/lanuitdelamort.michel.txt
Reading ../data/horace.txt
Il y a 3171 mots spécifiques à un texte, soit 83.05% des mots rencontrés
['#', '(bien', '(entre', '(ligne', '(vous', '*****************', '10', '16', '160d]', '161a]', '161b]', '17**', '1850', '23)', '290', '[bl', '[ne]', '[non', '[si]', '_', '_d', '_le', '_mille', '_paris', 'aama', 'abandonnai', 'abandonne', 'abandonner', 'abandonnerez', 'abattu', 'abimes', 'absence', 'absent', 'absente;', 'absolu', 'abuse', 'abîme', 'abîmer', 'accable', 'accablé', 'accablée', 'accepte', 'acceptent', 'accompagner', 'accompagné', 'accord', 'accordais', 'accorde', 'accordez', 'accoutumé', 'accroître', 'accueil', 'accuse', 'accusent', 'accuser', 'accès', 'achetez', 'ac

## De plein texte à TEI

À partir de la variage `text`, créer un fichier `lesdeuxamants.xml` qui soit de la TEI valide. Le corps du texte doit contenir une `div`, un `head`, des `lg`s et des `l`s. Les `l`s seront numérotées via l'attribut `n`.

In [1]:
# Exécuter mais ne pas modifier
with open("../data/lesdeuxamants.txt") as f:
    texte = f.read()
    # On crée un template pour plus tard, on remplira le contenu de 
    # {reste_du_contenu} plus tard
    contenu = """<TEI xmlns="http://www.tei-c.org/ns/1.0">
  <teiHeader>
      <fileDesc>
         <titleStmt>
            <title>Title</title>
         </titleStmt>
         <publicationStmt>
            <p>Publication information</p>        
         </publicationStmt>
         <sourceDesc>
            <p>Information about the source</p>
         </sourceDesc>
      </fileDesc>
  </teiHeader>
  <text>
      <body>
          {reste_du_contenu}
      </body>
  </text>
</TEI>
"""
    le_reste = []
    last_line_was_empty = False
    text_has_started = False
    for line in texte.split("\n"):
        if line.startswith("#"):
            line = line[1:]  # On enleve le #
            line = line.strip() # On supprime les espaces autours via strip
            le_reste.append("<head>"+line+"</head>")
            le_reste.append("<lg>")
        else:
                
            line = line.strip()
            if line: # Si on a une ligne qui n'est pas vide une fois les espaces en surplus supprimés
                le_reste.append("<l>"+line+"</l>")
                text_has_started = True
            elif text_has_started:
                if last_line_was_empty and le_reste[-1] != "</lg><lg>":
                    le_reste.append("</lg><lg>")
                last_line_was_empty = True
    
    if le_reste[-1] == "</lg><lg>":
        le_reste[-1] = "</lg>"
    else:
        le_reste[-1] = "</lg>"
    contenu = contenu.format(reste_du_contenu="\n".join(le_reste))
with open("../data/lesdeuxamants.xml", "w") as f:
    f.write(contenu)