# Le degré zéro du traitement de textes

## De quoi parle-t-on ?

Manipuler des textes dans leur version électronique grâce à des méthodes automatiques.

Quelques opérations basiques de manipulation :

In [None]:
# Majuscules
print('Monty Python'.upper())
# Substitution
print('Monty Python'.replace('Monty', 'Mighty'))
# Recherche
print('Monty Python'.find('yth'))

En quoi peut vraiment nous aider l’informatique ?

Exemple du découpage d’un texte en mots pour un agent humain :
- règles de segmentation différentes d’un individu à l’autre
- erreurs de comptage (distraction, inconstance…)
- long et fastidieux

Pour l’informatique, rien de tout cela (à part les perturbations fonctionnelles : électricité, plantages…)

## Complexité du dénombrement des mots dans un texte

Comparaison entre l’action manuelle et l’action automatique.

Comptez à la main le nombre de mots dans le texte suivant (*Le dormeur du val* de Rimbaud).

C’est un trou de verdure où chante une rivière  
Accrochant follement aux herbes des haillons  
D’argent ; où le soleil, de la montagne fière,  
Luit : c’est un petit val qui mousse de rayons.

Un soldat jeune, bouche ouverte, tête nue,  
Et la nuque baignant dans le frais cresson bleu,  
Dort ; il est étendu dans l’herbe, sous la nue,  
Pâle dans son lit vert où la lumière pleut.

Les pieds dans les glaïeuls, il dort. Souriant comme  
Sourirait un enfant malade, il fait un somme :  
Nature, berce-le chaudement : il a froid.

Les parfums ne font pas frissonner sa narine ;  
Il dort dans le soleil, la main sur sa poitrine  
Tranquille. Il a deux trous rouges au côté droit.

**Nombre de mots :** 121

Et pour l’informatique ?

In [None]:
import subprocess
print(subprocess.run("wc -w data/dormeur-du-val.txt", shell=True, stdout=subprocess.PIPE).stdout)

Pourquoi 122 ? D’où vient la différence ?

Intuitivement, on aurait conçu que le programme en comptabilise moins en considérant par exemple *berce-le* comme un seul.

Pour comprendre, analyser les résultats obtenus avec des vers spécifiques (1, 2, 11, 12) :

In [None]:
print(subprocess.run("echo 'C’est un trou de verdure où chante une rivière' | wc -w", shell=True, stdout=subprocess.PIPE).stdout)
print(subprocess.run("echo 'Accrochant follement aux herbes des haillons' | wc -w", shell=True, stdout=subprocess.PIPE).stdout)
print(subprocess.run("echo 'Nature, berce-le chaudement : il a froid.' | wc -w", shell=True, stdout=subprocess.PIPE).stdout)
print(subprocess.run("echo 'Les parfums ne font pas frissonner sa narine ;' | wc -w", shell=True, stdout=subprocess.PIPE).stdout)

| N° vers | Comptage manuel | Comptage auto | Diff |
| :------- | :-------------: | :-----------: | :--: |
| 1        | 10              | 9             | -1   |
| 2        | 6               | 6             | 0    |
| 11       | 7               | 7             | 0    |
| 12       | 8               | 9             | +1   |

**Raisons :**
- segmentation sur les espaces (typographie anglo-saxonne)
- mots doubles comptent pour un (*C’est*)

En conclusion, ne pas se fier aux algorithmes par défaut des programmes : ils sont configurés pour l’anglais.

## Dénombrer les mots d’un texte avec Python

Méthode `split()` découpe un texte en utilisant les espaces comme séparateurs.

Problème similaire à `wc` dans le *shell*.

**Solution :** supprimer les caractères faussement assimilés comme des mots.

Stratégie à développer :
1. lire le fichier
2. analyser le texte
3. remplacer les caractères non autorisés par des espaces
4. appliquer la segmentation

### Étape 1 : lire le fichier

In [None]:
def sequential_reader(file):
    """Reads a file not all at once but chunk by chunk.
    Useful to deal with large files.
    
    Keyword argument:
    file -- descriptor of a file
    """
    text = ''
    while True:
        chunk = file.read(50)
        if not chunk:
            break
        else:
            text += chunk
    return text

### Étape 2 : découper un fichier en mots

Cette étape prend en considération les spécificités du français.

In [None]:
def split_words(text):
    """Splits text into words according to French specifics.
    
    Keyword argument:
    text -- the text to split into words
    """
    # Authorized characters
    alpha = "azertyuiopqsdfghjklmwxcvbnéèàçùâêôîûäëïöü"
    alpha += alpha.upper()

    # A collection of authorized characters
    # The other ones will be replaced by a space
    collection = ""
    for ch in text:
        collection += ch if ch in alpha else " "

    # Splits the text
    return collection.split()

### Étape 3 : dénombrement

In [None]:
with open('./data/dormeur-du-val.txt') as file:
    text = sequential_reader(file)
    wordlist = split_words(text)
    print(len(wordlist))

Le résultat est correct !

## Aperçu de NLTK

**NLTK :** [*Natural Language ToolKit*](http://www.nltk.org/)

Boîte à outils pour le TAL, à installer pour l’invoquer.

In [None]:
import nltk

Nombreuses ressources à télécharger en fonction des besoins (copus, grammaires, tokenizeurs…)

In [None]:
# nltk.download()

Découpage du texte en mots grâce au sous-module `tokenize` :

In [None]:
from nltk.tokenize import word_tokenize
with open('data/dormeur-du-val.txt') as file:
    text = file.read()
    wordlist = word_tokenize(text)

**Question :** Combien de mots compte NLTK ? Expliquez.