# Chapitre 2 - Les fonctions et les fichiers

-- *A Python Course for the Humanities by Folgert Karsdorp and Maarten van Gompel*

---

Le chapitre précédent a, espérons-le, aiguiser votre appétit. Dans ce chapitre, nous allons nous concentrer sur l'une des tâches les plus importantes de la recherche en sciences humaines: le traitement du texte. L'un des objectifs du traitement de texte est de nettoyer vos données pour ensuite faire leur analyse. Un autre objectif banal consiste à convertir une collection de textes en un format différent: par exemple de fichiers textes vers fichiers XML TEI. Dans ce chapitre, nous allons vous fournir les outils nécessaires pour travailler avec des collections de textes, les nettoyer et effectuer quelques analyses de données rudimentaires sur eux.

## Lire des fichiers

Supposons que vous ayez un texte stocké sur votre ordinateur. Comment pouvons-nous lire ce texte en utilisant Python? Python fournit une fonction très simple appelée `open` avec laquelle on peut lire des textes. Dans le dossier `data`, vous trouverez quelques petits extraits de texte que nous utiliserons dans ce chapitre. Regardez-les si vous en avez l'envie. Nous pouvons ouvrir ces fichiers avec la commande suivante:

In [10]:
fichier_ouvert = open('data/cid.v1071.1682.txt')

Maintenant, affichons la variable `fichier_ouvert`. Que pensez-vous qu'il arrivera ? 

In [11]:
print(fichier_ouvert)

<_io.TextIOWrapper name='data/cid.v1071.1682.txt' mode='r' encoding='UTF-8'>


"Je pensais pas que ça ferait ça" est probablement ce qui vous passe à l'esprit. Python n'affiche pas le contenu du fichier mais seulement une mention mystérieuse d'un certain `TextIOWrapper`. Ce truc de `TextIOWrapper` est la façon de Python de dire qu'il a ouvert une connexion au fichier `data/cid.v1071.1682.txt`. 

Mais cela nous donne également des informations auxquelles nous devrions prêter attention. Regardez la partie qui commence `encoding=`. `UTF-8` est le modèle d'encodage des caractères du fichier (Vous pouvez en apprendre un peu plus sur la chaine Computerphile : https://www.youtube.com/watch?v=MijmeoH9LT4 ). Par défaut, Python3 (contrairement à Python 2) gère ses données en UTF-8. On aurait pu cependant faire ce qui suit:

In [12]:
encodage_latin = open('data/cid.v1071.1682.txt', encoding='latin')
print(encodage_latin)

<_io.TextIOWrapper name='data/cid.v1071.1682.txt' mode='r' encoding='latin'>


Vous avez pour `encodage_latin` `encoding='latin'` dans la description de ce `TextIOWrapper`. Vous devrez vous assurer de toujours spécifier votre encodage comme UTF-8 si vous travaillez avec des textes grecs dans Windows. Cependant, les systèmes Linux et Mac ne devraient pas en avoir besoin.

Maintenant, si nous voulons *lire* le contenu du fichier, nous devons ajouter la fonction `read` comme suit:

In [13]:
print(fichier_ouvert.read())

Il n'est pas temps encor de chercher le trépas :
Ton prince et ton pays ont besoin de ton bras.
La flotte qu'on craignait, dans ce grand fleuve entrée,
Croit surprendre la ville et piller la contrée.
Les Mores vont descendre, et le flux et la nuit
Dans une heure à nos murs les amène sans bruit.
La Cour est en désordre, et le peuple en alarmes :
On n'entend que des cris, on ne voit que des larmes.
Dans ce malheur public mon bonheur a permis
Que j'ai trouvé chez moi cinq cents de mes amis,
Qui sachant mon affront, poussés d'un même zèle,
Se venaient tous offrir à venger ma querelle.
Tu les as prévenus ; mais leurs vaillantes mains
Se tremperont bien mieux au sang des Africains.
Va marcher à leur tete où l'honneur te demande :
C'est toi que veut pour chef leur généreuse bande.
De ces vieux ennemis va soutenir l'abord :
Là, si tu veux mourir, trouve une belle mort ;
Prends-en l'occasion, puisqu'elle t'est offerte ;
Fais devoir à ton roi son salut à ta perte ;
Mais reviens-en plutôt les pal

`read` est une fonction qui fonctionne sur les objets` TextWrapper` et nous permet de lire le contenu d'un fichier dans Python. Assignons le contenu du fichier à la variable `texte`:

In [14]:
# Ajoutez `encoding='UTF-8'` si nécessaire
fichier_ouvert = open('data/cid.v1071.1682.txt') 
texte = fichier_ouvert.read()

La variable `texte` contient le contenu du fichier `data/cid.v1071.1682.txt` et nous pouvons le manipuler désormais comme n'importe quelle autre chaîne. Après avoir lu le contenu d'un fichier, le `TextWrapper` n'a plus besoin d'être ouvert. En fait, il est bon de le fermer dès que vous n'en avez plus besoin. Pour ce faire, il suffit d'utiliser la méthode `close()`:

In [15]:
fichier_ouvert.close()

---

#### Exercice

Juste pour récapituler certaines des choses que nous avons apprises dans le chapitre précédent. Pouvez-vous écrire un bloc de code qui définit la variable `nombre_de_e` et compte combien de fois la lettre *e* se trouve dans le « texte »? (Astuce: utilisez une boucle `for` et une instruction `if`).

Prenez aussi le temps de comprendre `assert` qui nous permet de vérifier vos travaux. 

In [16]:
nombre_de_e = 0
# Votre code ici

# Ce code vérifiera ce que vous avez écrit
assert nombre_de_e == 180, "On devrait trouver 180 'e'"

AssertionError: On devrait trouver 180 'e'

Enfin, il existe une autre syntaxe pour gérer un fichier à ouvrir et lire : il s'agit d'utiliser la déclaration `with` :

In [17]:
with open("data/cid.v1071.1682.txt") as fichier_cid:
    texte = fichier_cid.read()

Cette méthode a cela de particulier qu'elle ferme d'elle-même le fichier qui a été ouvert. Tout comme un `if`, le with concerne l'ensemble du bloc ouvert en-dessous du `with` et permet de faire des opérations sur le fichier. On remarque l'utilisation de `as` : en français, on traduirait cette ligne en `avec le fichier ouvert cid.v1071.1682.txt en tant que variable fichier_cid`.

Par ailleurs, les variables modifiées dans cet ensemble sont encore disponible à la fin. Mais le fichier sera clos. Pouvez-vous deviner ce qui se passera avec les lignes suivantes :

In [18]:
print(texte)
fichier_cid.read()

Il n'est pas temps encor de chercher le trépas :
Ton prince et ton pays ont besoin de ton bras.
La flotte qu'on craignait, dans ce grand fleuve entrée,
Croit surprendre la ville et piller la contrée.
Les Mores vont descendre, et le flux et la nuit
Dans une heure à nos murs les amène sans bruit.
La Cour est en désordre, et le peuple en alarmes :
On n'entend que des cris, on ne voit que des larmes.
Dans ce malheur public mon bonheur a permis
Que j'ai trouvé chez moi cinq cents de mes amis,
Qui sachant mon affront, poussés d'un même zèle,
Se venaient tous offrir à venger ma querelle.
Tu les as prévenus ; mais leurs vaillantes mains
Se tremperont bien mieux au sang des Africains.
Va marcher à leur tete où l'honneur te demande :
C'est toi que veut pour chef leur généreuse bande.
De ces vieux ennemis va soutenir l'abord :
Là, si tu veux mourir, trouve une belle mort ;
Prends-en l'occasion, puisqu'elle t'est offerte ;
Fais devoir à ton roi son salut à ta perte ;
Mais reviens-en plutôt les pal

ValueError: I/O operation on closed file.

`I/O Operation` signifie `Input/Output` et vise les méthodes de lecture et d'écriture de fichiers. Notre fichier ayant été clos après `with`, il n'est plus possible de le lire.

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `open()`
- `UTF-8`
- `.close()`
- `.read()`
- le fonctionnement de `TextIOWrapper`
- `with ___ as ___ :`
- `assert ___ , ___`

---

## Écrire notre première fonction

Dans l'exercice précédent, vous avez probablement écrit une boucle qui itère sur tous les caractères de `texte` et ajoute 1 à` nombre_de_e` chaque fois que le programme trouve la lettre *e*. Le comptage d'objets dans un texte ou dans une liste est chose courante.

Par conséquent, Python fournit la méthode `count`. Cette fonction prend comme argument l'élément que vous voulez compter. En utilisant cette fonction, la solution à l'exercice ci-dessus peut maintenant être réécrite comme suit:

In [19]:
nombre_de_e = texte.count("e")
print(nombre_de_e)

182


En fait, `count` prend comme argument toute chaîne que vous aimeriez trouver. Nous pourrions aussi bien compter combien de fois la conjonction `et` se produit:

In [20]:
print(texte.count("et"))

10


La chaîne `et` est trouvée 10 fois dans notre texte. Cela signifie-t-il que le mot *et* apparaît 10 fois dans notre texte? En fait non, *et* n'apparaît que 8 fois ... Pourquoi Python affiche-t-il 10?

Si nous voulons compter combien de fois le mot *et* apparaît dans le texte et non la chaîne «et», nous pouvons entourer *et* d'espaces, comme ceci:

In [21]:
print(texte.count(" et "))

8


Bien que cela l'affaire dans ce cas particulier, ce n'est pas très fiable pour compter les mots dans un texte. Que faire s'il y a des instances de *et* suivies d'une virgule ou d'un point ? Il nous faudrait alors interroger le texte plusieurs fois pour chaque contexte possible de *et* : `et`, ` et `, `et.`, `et,`, `et:`, etc. C'est pour cela que nous allons aborder ce problème en utilisant une méthode un peu plus sophistiquée.

Rappelez-vous, dans le chapitre précédent, nous avons vu la méthode `split`. Que fait cette méthode? La méthode `split` fonctionne sur une chaîne et divise une chaîne sur les espaces et retourne une liste de plus petites chaînes:

In [22]:
print(texte.split())

['Il', "n'est", 'pas', 'temps', 'encor', 'de', 'chercher', 'le', 'trépas', ':', 'Ton', 'prince', 'et', 'ton', 'pays', 'ont', 'besoin', 'de', 'ton', 'bras.', 'La', 'flotte', "qu'on", 'craignait,', 'dans', 'ce', 'grand', 'fleuve', 'entrée,', 'Croit', 'surprendre', 'la', 'ville', 'et', 'piller', 'la', 'contrée.', 'Les', 'Mores', 'vont', 'descendre,', 'et', 'le', 'flux', 'et', 'la', 'nuit', 'Dans', 'une', 'heure', 'à', 'nos', 'murs', 'les', 'amène', 'sans', 'bruit.', 'La', 'Cour', 'est', 'en', 'désordre,', 'et', 'le', 'peuple', 'en', 'alarmes', ':', 'On', "n'entend", 'que', 'des', 'cris,', 'on', 'ne', 'voit', 'que', 'des', 'larmes.', 'Dans', 'ce', 'malheur', 'public', 'mon', 'bonheur', 'a', 'permis', 'Que', "j'ai", 'trouvé', 'chez', 'moi', 'cinq', 'cents', 'de', 'mes', 'amis,', 'Qui', 'sachant', 'mon', 'affront,', 'poussés', "d'un", 'même', 'zèle,', 'Se', 'venaient', 'tous', 'offrir', 'à', 'venger', 'ma', 'querelle.', 'Tu', 'les', 'as', 'prévenus', ';', 'mais', 'leurs', 'vaillantes', 'main

---

#### Exercice

Tout ce que vous avez appris jusqu'ici devrait vous permettre d'écrire du code qui compte certains éléments apparaissant dans une liste. Écrivez un bloc de code qui définit la variable `nombre_de_resultats` et compte combien de fois le mot *à* (assigné à `a_compter`) apparaît dans la liste de mots appelée `mots`.

In [23]:
mots = texte.split()
a_compter = "la"
# Votre code ici

# Ce test ne devrait pas lancer d'erreur si tout va bien
assert nombre_de_resultats == 3, "Il devrait y avoir 6 résultats"

NameError: name 'nombre_de_resultats' is not defined

---

Nous allons voir cet exercice étape par étape. Nous aimerions savoir à quelle fréquence l'article défini *la* apparaît dans notre texte. Dans un premier temps, nous divisons la chaîne `texte` en une liste de mots:

In [24]:
mots = texte.split()

Puis on va appeler la méthode `count` sur `mots` afin de trouver le nombre de `la` dans `mots`:

In [25]:
a_compter = "la"
nombre_de_resultats = mots.count(a_compter)
print(nombre_de_resultats)

3


Bon. Très bien. Mais disons que nous nous intéressons aussi à `une`, pour faire des petites statistiques sur l'usage du défini et de l'indéfini. Il faudrait que l'on adapte les lignes précédentes pour chercher le mot `une`. Mais qu'arriverait-il si ensuite nous voulions aussi compter `l'`, `le`, `un`, etc. ? Cela serait insupportable, et honnêtement, on a pas créer les langages de programmation pour que nous ayons à répeter 100 fois la même chose, bien au contraire.

Donc ce qu'on aimerait, c'est avoir une fonction qui ferait ça. Et si on regarde bien, notre fonction aurait besoin de deux choses : un texte et un élément à compter. Et elle nous renverrait comme résultat un nombre d'occurrence. Les éléments dont a besoin la fonction sont appelés arguments ou paramètres (`arguments/args` ou `parameters/params`). Le résultat que la fonction nous donne est appelée valeur de retour (`return value`).

Dans ce chapitre et le précédent, on a vu pas mal de fonctions. Une fonction fait quelque chose, souvent grâce à des paramètres que vous lui donnez, et généralement elle renvoie un résultat.

On a aussi vu des méthodes. Les méthodes se différencient des fonctions dans leur rédaction : du côté des fonctions, on fait `len(chaine)`, du côté des méthodes, on fait `chaine.count(" et ")`. Nous verrons cela plus en détail beaucoup plus tard. Une méthode est une fonction un peu particulière mais est régie par le même vocabulaire : arguments, paramètres, valeurs de retour.

Bien sûr, on peut créer ses propres fonctions. Séparer ta tâche en une multiplicité de tâches est même une obligation en programmation : cela permet de lire les choses plus facilement et d'éviter des répétitions constantes. Les fonctions sont définies avec la déclaration `def` qui est suivie d'un nom de fonction et de paramètres puis du `:` :

```python
def fonction_avec_parametres(parametre1, parametre2, parametre3):
    # Le code de la fonction
    
def fonction_sans_parametre():
    # le code la fonction
```

Ces fonctions peuvent aussi avoir une valeur de retour. Cela permet d'accéder aux résultats calculés dans la fonction. Cette valeur de retour est renvoyée par la déclaration `return` :

```python
def carre(x):
    return x*x
```

Retour à notre problème. On veut écrire une fonction appelée `compter_dans_une_chaine`. Elle prend deux paramètres : 
1. un objet que l'on veut compter
2. une chaine dans laquelle on veut trouver cet élément

Elle retournera le nombre d'objets en tant qu'entier :

```python
def compter_dans_une_autre_chaine(aiguille, botte_de_foin):
    # En programmation, on utilise souvent aiguille et botte de foin 
    # (needle et haystack en anglais)
    # pour parler de chose à trouver et d'élément à trouver.
    # Ici, ce n'est pas forcément très clair cela dit !
```

Comprenez-vous la syntaxe et les différentes nouvelles déclarations au-dessus ? Maintenant, tout ce qui nous reste à faire est d'écrire le corps de cette fonction :

In [26]:
def compter_dans_une_autre_chaine(aiguille, botte_de_foin): 
    mots_de_foin = botte_de_foin.split()
    nombre_daiguilles = mots_de_foin.count(aiguille)               
    return nombre_daiguilles                         

Lisons la chose encore une fois :

1. D'abord on définit une fonction en utilisant def suivi du nom de la fonction et de parenthèses et de `:` (ligne 1);
2. La fonction prend deux arguments `aiguille` et `botte_de_foin` (ligne 1);
3. Dans cette fonction, on définit une variable `mots_de_foin` qui correspond à la chaîne découpée en mots (ligne 2);
4. Dans cette fonction, nous définissons ensuite une variable `nombre_daiguilles` et nous lui assignons le résultat de `count()` sur `mots_de_foin` et `aiguille` (ligne 3);
5. On retourne la valeur de la variable `nombre_daiguilles` (ligne 4).

Testons notre petite fonction! Nous allons compter combien de fois `"à"` apparaître dans notre `texte`:

In [27]:
print(compter_dans_une_autre_chaine("à", texte))

7


---

#### Exercice!

Utilisez la fonction que nous avons définie et afficher combien de fois le mot `mon` apparaît.

In [None]:
# votre code ici

## Le concept de scope et de portée

Vous trouverez souvent dans le cadre de documentation le terme de "portée" voire le terme de *"scope"*. Ce terme couvre le concept de capacité à accéder à des variables à différents endroits du code. Par exemple, on a définit dans le fonction au-dessus la variable `mots_de_foin`. Et elle fonctionne bien puisque la fonction retourne un résultat. Essayons ça :

In [28]:
print(compter_dans_une_autre_chaine("ton", texte))
print(mots_de_foin)

4


NameError: name 'mots_de_foin' is not defined

Une erreur familière ! La fonction `mots_de_foin` est dite inexistante. Pourtant, elle a bien existée puisque j'ai eu le résultat `4` au final.

En fait, les variables dans les fonctions ont une portée limitée à la fonction. Elle n'existe que dans le cadre de la fonction et ne sont pas accessibles ensuite. C'est pour cela que l'on utilise la déclaration `return` d'ailleurs, sinon, on ne pourrait pas avoir le résultat !

---

## Un fonction de décompte plus générale

Notre fonction `compter_dans_une_autre_chaine()` est un morceau utilie qui va nous permettre de limiter la répétition de notre code et de le rendre trop verbeux. 

Cela dit, il serait intéressant de savoir combien de fois chaque mot apparaît dans le texte, on pourrait utiliser une boucle, ajouter 1 pour chaque mot, etc. Mais cela serait vraiment long.

Il y a deux manières de faire cela rapidement, qui évite un tel problème :

### La version longue

Dans le chapitre précédent, vous vous êtes familiarisé-e avec la structure `dictionary`. Rappelez-vous qu'un dictionnaire se compose de clés et de valeurs et vous permet de récupérer rapidement une valeur. Nous allons utiliser un dictionnaire pour écrire la fonction `comptage` qui prend comme argument une liste et retourne un` dictionary` avec les mots comme clefs et en valeur le nombre de fois que ces mots sont dans la liste. Nous allons d'abord écrire du code sans la déclaration de fonction. Si cela fonctionne, nous l'ajouterons écrirons une fonction.

Nous commençons par définir une variable `decompte` qui est un dictionnaire vide:

In [None]:
decompte = {}

Ensuite, nous allons boucler tous les mots de notre liste `mots`. Pour chaque mot, nous vérifions si le dictionnaire le contient déjà. Si ce n'est pas le cas, nous appelons la méthode `count` de notre liste `mots` pour découvrir la fréquence d'apparition du mot.

In [None]:
for mot in mots:
# A chaque élément dans la variable `mots`, j'assigne la valeur dans une variable `mot`
    if mot not in decompte:
        # Si le mot n'est pas dans les clefs du dictionnaire decompte
        decompte[mot] = mots.count(mot)
        # Je assigne à la clef mot le nombre de fois que la valeur de `mot`
        #    apparaît dans `mots`
print(decompte)
print(decompte['mon'])

N'hésitez pas à relire le chapitre 1 si nécessaire .

Remarquez que l'on a rien fait si le mot était déjà dans notre dictionnaire. On n'a pas besoin puisque l'on a déjà fait le décompte !

Maintenant que notre code marche, on peut le transformer en fonction ! On définit la fonction `comptage` comme vu plus haut. On a besoin cette fois d'une seul argument :

In [29]:
def comptage(mots):  
    decompte = {}
    for mot in mots:
        if mot not in decompte:
            decompte[mot] = mots.count(mot)
    return decompte

Normalement, la répétition qui suit va être ennuyante, mais au cas où :

1. On définit une fonction `comptage()` via `def` en lui donnant un paramètre (`mots`)
2. Je crée un dictionnaire vide `decompte` qui me servira de réceptacle
3. Pour chaque élément dans la valeur `mots`, j'assigne sa valeur dans une variable `mot`
    1. Si le mot n'est pas dans les clefs du dictionnaire decompte, alors
        1. Je définis la cle du dictionnaire decompte représentée par `mot`
        2. J'y assigne comme valeur le nombre de fois qu'il apparaît dans la liste `mots`
4. Une fois la boucle finie, je renvoie le résultat de la boucle.

In [30]:
print(comptage(mots))
vocabulaire_cid = comptage(mots)
print('"mon" apparaît ' + str(vocabulaire_cid['mon']) + ' fois.')

{'mort': 1, "l'occasion,": 1, 'tremperont': 1, ':': 5, 'est': 2, 'comte': 1, 'avant': 1, 'craignait,': 1, 'il': 1, 'salut': 1, 'On': 1, 'suis-moi,': 1, 'Mores': 1, 'devoir': 1, 'et': 8, 'affront,': 1, 'mais': 1, "puisqu'elle": 1, 'chercher': 1, 'la': 3, 'flotte': 1, 'mieux': 1, 'tete': 1, 'désordre,': 1, 'cris,': 1, 'mains': 1, 'cents': 1, 'murs': 1, 'venaient': 1, 'temps': 2, 'mes': 1, 'Que': 2, 'pays': 1, "C'est": 2, 'perdre': 1, 'où': 1, 'ont': 1, 'trouve': 1, 'soutenir': 1, "qu'il": 1, 'prince': 1, 'discours,': 1, 'Chimène': 1, 'ma': 1, 'vont': 1, 'malheur': 1, 'les': 3, 'front.': 1, 'borne': 1, 'son': 2, 'combattre,': 1, 'voles.': 1, 'bande.': 1, "qu'on": 1, 'nos': 1, 'toi': 1, 'Je': 1, 'offerte': 1, 'bien': 1, 'venger': 2, 'Va': 1, 'va': 2, 'nuit': 1, 'moyen': 1, 'public': 1, 'montrer': 1, 'veux': 2, 'Si': 1, 'alarmes': 1, 'perd': 1, 'pas': 2, "n'est": 1, 'zèle,': 1, 'pardon,': 1, 'Il': 1, 'bruit.': 1, 'sang': 1, 'Croit': 1, 'Tu': 1, 'si': 1, "n'entend": 1, 'contrée.': 1, 'peuple

---

#### Exercice

Essayons de mettre en pratique ce que l'on a vu jusque là. On va lire le fichier `data/misanthrope.acte3.scene4.txt`, le convertir en liste de mot et assigner à la variable `compte_de_mais` le nombre de fois que mais apparaît dans le texte :

In [None]:
# Votre code ici

# Le test suivant ne devrait pas créer d'erreurs
assert compte_de_mais == 4, "Il y a 4 'mais'"

*Le nombre de lignes écrites par vous-mêmes ne devrait pas dépasser les 6 ou 7 lignes*

---

### Une alternative à la fonction de comptage : éviter les doublons avec `set`

Le problème de la fonction d'avant, c'est qu'elle passe sur certaines valeurs plusieurs fois et que l'on est obligé de faire un if pour que cela fonction correctement. On peut parler de code non-optimisé: une tâche est faite un bon nombre de fois sans avoir d'impact et prend du temps que l'on pourrait gagner.

Aussi, il serait bon de savoir quels sont les valeurs uniques de la liste de mots. Pour cela, on utilise le type `set()` :

In [31]:
x = ['a', 'a', 'b', 'b', 'c', 'c', 'c']
unique_x = set(x)
y = [1, 1, 4, 3, 1, 2, 2, 4]
print(unique_x)
print(set(y))

{'a', 'c', 'b'}
{1, 2, 3, 4}


Les sets sont des sortes de liste où les valeurs sont forcément unique. En transformant une liste en set, on supprime les doublons. Attention cependant, un set n'est pas ordonné et ne peut donc pas être accédé par des index :

In [None]:
unique_x[0]

Cependant, on peut lui ajouter des valeurs. Au lieu d'utiliser `append()` on utilise `add()` :

In [None]:
unique_x.add("test")
unique_x

A partir de cela, on peut faire une fonction plus simple:

In [32]:
def comptage2(mots):
    sans_doublon = set(mots)
    compteur = {}
    for mot in sans_doublon:
        compteur[mot] = mots.count(mot)
        print(mot)
    return compteur

On vérifie que cela marche :

In [34]:
decompte = comptage2(mots)
print(decompte["et"])

mort
l'occasion,
tremperont
devoir
est
comte
avant
craignait,
il
salut
On
Mores
et
affront,
mais
regagner
puisqu'elle
chercher
la
flotte
mieux
désordre,
cris,
mains
je
murs
Africains.
temps
mes
Que
pays
où
ont
trouve
perdre
prince
discours,
Chimène
ma
vont
malheur
les
front.
borne
son
combattre,
voles.
bande.
qu'on
nos
toi
bien
venger
surprendre
piller
Va
pour
va
nuit
moyen
public
alarmes
pas
n'est
zèle,
Il
bruit.
sang
Si
Les
Tu
montrer
si
n'entend
contrée.
leur
silence
de
l'honneur
La
plus
même
t'arrete
trop
offrir
descendre,
mon
généreuse
ennemis
cher
Se
en
C'est
chef
toi.
perte
voit
Prends-en
au
des
offerte
mourir,
a
Fais
Viens,
flux
Dans
plutôt
Ton
recouvre
te
paroles
l'aimes,
force
vainqueur,
que
ville
trouvé
leurs
entrée,
tu
à
sachant
suis-moi,
marcher
soutenir
bras.
gloire
grand
affront
demande
fleuve
le
prévenus
Croit
veut
pardon,
Qui
cinq
poussés
amène
amis,
ton
encor
revenir
ces
chez
as
;
trépas
larmes.
tous
vaillance
l'unique
heure
De
Cour
Mais
reviens-en
qu'il
par
bonheur
N

---

### Documenter une fonction : méthode Sphinx

Tout comme il est bien de documenter avec des # pourquoi vous faites certaines choses dans votre code, il est encore mieux de commenter ses fonctions. On distingue plusieurs méthodes de documentation : la documentation [reStructuredText (rst)](https://docs.python.org/devguide/documenting.html) et la documentation Google sont les plus communes. Voyons un exemple de la RST !

In [77]:
def comptage2(mots):
    """ Compte et stocke le décompte de chaque mot dans une liste de mots
    
    :param mots: Liste de mosts
    :type mots: list
    :returns: Dictionnaire où les clefs sont les mots et les valeurs le nombre d'occurrences
    :rtype: dict
    """
    sans_doublon = set(mots)
    compteur = {}
    for mot in sans_doublon:
        compteur[mot] = mots.count(mot)
    return compteur

Qu'avons-nous fait ?

1. Nous avons utilisé le commentaire en triple guillement `"""` qui permet de faire des commentaires en multilignes.
2. La première ligne est consacrée à la description de ce à quoi sert la fonction
3. On décrit un paramètre via `:param mots:` : la syntaxe est fixe `:param ` suivi du nom de mon paramètre et de `:` puis on décrite ce paramètre, ce qui est attendu
4. Quand cela fait sens, on peut compléter `:param mots:` par `:type mots:` qui donne le type de données attendues (`list`, `str`, `dict`, `int`, `TextIOWrapper`, etc.)
5. Une fois tous les paramètres décrits, on décrit ce qui est renvoyé après `:returns:`
6. Quand cela fait sens, on peut compléter `:returns:` par `:rtype:` (pour *returns type*) comme pour les paramètres.

### Exercice

Ecrire une fonction `statistiques_mots` qui prend un chemin de fichier et qui renvoie un dictionnaire de compte d'occurrences. Documentez votre fonction.

In [82]:
# Votre code ici


# Cette portion vérifie que votre code fonction
# En finissant la ligne par un "\", on échappe le saut de ligne
assert statistiques_mots("data/liaisons.118.txt")["et"] == 15, \
    "Il y a 52 occurrences de et dans le texte du fichier W"

----

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `def`
- paramètes et argument
- portée des variables (*scope*)
- documentation reStructuredText
- `set()`

---

## Nettoyer des données textuelles

Dans la section précédente, nous avons écrit du code pour calculer une distribution de fréquence des mots dans un texte stocké sur notre ordinateur. La méthode `split()` est une manière rapide pour diviser une chaîne en une liste de mots. Mais si nous regardons de plus près nos distributions de fréquence, nous remarquons beaucoup de bruit. Par exemple, le pronom *on* apparaît 1 fois, mais nous trouvons aussi `qu'on` survenant une fois. Et `et` et `Et` sont différents. Bien sûr, nous aimerions ajouter ces chiffres ensemble.

Il y a deux stratégies à suivre pour corriger nos distributions de fréquences. Le premier est de trouver une meilleure procédure pour diviser notre texte en mots. La seconde consiste à nettoyer notre texte et à passer ce résultat propre à la méthode `split`. Pour l'instant nous suivrons nous occuperons du deuxième.

Certains mots de notre texte sont en majuscules. Pour minuter ces mots, Python fournit la méthode `lower`. Il fonctionne sur des chaînes:

In [35]:
x = 'E'
x_lower = x.lower()
print(x_lower)

e


We can apply this function to our complete text to obtain a completely lowercased text, using:

In [None]:
text_lower = text.lower()
print(text_lower)

Cela résout notre problème de la compréhension des mots en majuscules, nous laissant avec le problème de la ponctuation. La méthode `replace` est justement la fonction que nous recherchons. Il prend deux arguments: (1) la chaîne que nous aimerions remplacer et (2) la chaîne qui servira de remplacmeent:

In [37]:
phrase = 'Mais. Arrêtez. De. Me. Couper. Dans. Mon. Élocution. S\'il. Vous. Plait'
sans_points = phrase.replace(".", "")
print(sans_points)

Mais Arrêtez De Me Couper Dans Mon Élocution S'il Vous Plait


Remarquez que pour supprimer les `.`, on a fourni une chaîne vide `""`. On aurait pu les remplacer par le mot `point`, mais cela ne nous aurait pas vraiment avancés.

---

#### Exercice

Nettoyez cette chaîne en supprimant les virgules, les points et les majuscules.

In [None]:
texte = "Les virgules, si on y pense, vraiment, je vous assure, sont superflues."
# Votre code ici

# Et on vérifie avec le test.
# Notez que si le copier coller est bien, il est mal de copier la chaîne en dessous au dessus.
# Le test marcherait mais cela serait un peu malhonnête.
print(texte == "les virgules si on y pense vraiment je vous assure sont superflues.")

---

Et si on voulait supprimer toute la ponctuation d'un texte, pas seulement les points et les virgules ? On va écrire une fonction `supprimer_ponctuation` qui va faire ce que son nom indique. Il y a plein de manières d'écrire cette fonction, on va vous en montrer deux. La première stratégie est de répeter `replace` sur la même chaîne en changeant à chaque fois la l'élément de ponctuation par une chaîne vide.

In [47]:
def supprimer_ponctuation(texte):
    """ Supprimer les caractères de ponctuation d'un texte
    
    :param texte: Texte à nettoyer
    :type texte: str
    :returns: Texte sans ponctuation
    :rtype: str
    """
    ponctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
    for marqueur in ponctuation:
        texte = texte.replace(marqueur, "")
    return texte

texte_court = "Les virgules, si l'on y pense, vraiment, je vous assure, sont superflues."
print(supprimer_ponctuation(texte_court))

Les virgules si lon y pense vraiment je vous assure sont superflues


L'autre stratégie qui permet d'arriver au même résultat n'utilise pas la fonction `replace`. Cela consiste à itérer sur la chaîne de caractère et de vérifier si ils sont acceptables:

In [38]:
def supprimer_ponctuation2(texte):
    """ Supprimer les caractères de ponctuation d'un texte
    
    :param texte: Texte à nettoyer
    :type texte: str
    :returns: Texte sans ponctuation
    :rtype: str
    """
    ponctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
    nouveau_texte = ""
    for charactere in texte:
        if charactere not in ponctuation:
            nouveau_texte += charactere
    return nouveau_texte


texte_court = "Les virgules, si l'on y pense, vraiment, je vous assure, sont superflues."
print(supprimer_ponctuation2(texte_court))

Les virgules si lon y pense vraiment je vous assure sont superflues


---

#### Exercice

Il est temps de faire votre propre fonction. A partir du test et de la documentation, compléter le code ci-dessous.

In [43]:
def nettoyer_texte(texte, ponctuation):
    """ Cette fonction transforme les majuscules en minuscules et supprime la ponctuation
    
    :param texte: Texte à nettoyer
    :type texte: str
    :param ponctuation: Charactères à supprimer
    :type ponctuation: str
    :returns: Texte sans les charactères et en minuscule
    :rtype: str
    """
    # Votre code ici
    
# Le test qui vérifie tout
texte_court = "Les virgules, il paraît, sont superflues. Les points - au contraire - ne le sont pas!"
assert nettoyer_texte(texte_court, "!,-.") == \
    "les virgules il paraît sont superflues les points  au contraire  ne le sont pas", \
    "Des caractères n'ont pas été supprimés ou transformés"

AssertionError: Des caractères n'ont pas été supprimés ou transformés

Et maintenant, tout ensemble ! On va :
- ouvrir le fichier `data/misanthrope.acte3.scene4.txt` et récupérer son texte,
- on supprimera la ponctuation
- on remplacera les apostrophes et les traits d'unions par des espaces
- on fera des statistiques d'occurrences

In [None]:
def separateur_de_texte(texte):
    """ Cette fonction remplace les apostrophes et les traits d'unions par des espaces
    
    :param texte: Texte à nettoyer
    :type texte: str
    :returns: Texte simplifié
    :rtype: str
    """

In [None]:
# Votre code ici


# Les tests
assert decompte["on"] == 3
assert decompte["moi"] == 2

### Aller plus loin : évaluer le temps d'une fonction

**Cette partie n'est pas nécessaire pour avancer dans le cours. Cependant, il peut être intéressant de se pencher sur comment on évalue les performances d'un morceau de code**

L'optimisation de code est une tâche extrêmement importante dans le développement d'une application. Par exemple, imaginons que nous offrions une possibilité de faire une recherche sans accent dans 10.000 fichiers à nos utilisateurs-rices en ligne. Chaque recherche va devoir ouvrir, convertir les fichiers en fichiers sans accents, convertir la recherche de notre utilisateur-rice. Autant dire que si votre code met plus de 20 secondes à trouver les résultats, votre utilisateur-rice ne fera pas beaucoup de recherches.

Il s'agit alors de pouvoir évaluer comment une fonction se comporte et combien de temps elle peut prendre en la comparant avec une autre méthode d'écriture. Vous trouverez ci-dessous un exemple de morceau de code qui permet de comparer deux fonctions. Amusez-vous avec la variable `nombre_diterations` !

In [54]:
# Ceci est un import. Nous verrons cela plus en détails plus tard mais il s'agit d'importer 
# la chose portant le nom 'default_timer' de la librairie timeit
from timeit import default_timer

# On met en place un nombre de répétitions. Comparer une seule itération serait peu correct.
nombre_de_repetitions = 10000

# On prend l'heure à la seconde fractionnelle près
temps_replacement_1 = default_timer()
# On boucle sur range(10000) : range sera un generator qui créera toute les valeurs
# entre 0 et 10000 exclu
for intervention in range(nombre_de_repetitions):
    # On supprime la ponctuation mais nous n'avons pas besoin du résultat donc on assigne
    # pas celui-ci à une variable
    supprimer_ponctuation(texte)
# On compare l'heure qu'il est avec l'heure que l'on avait avant.
# Cette comparaison est notre temps d'exécution
temps_replacement_1 = default_timer() - temps_replacement_1


temps_replacement_2 = default_timer()
for intervention in range(nombre_de_repetitions):
    supprimer_ponctuation2(texte)
temps_replacement_2 = default_timer() - temps_replacement_2


print("Temps pris par la fonction 1 pour "+ str(nombre_de_repetitions) +
      " itérations : " + str(temps_replacement_1))

print("Temps pris par la fonction 2 pour "+ str(nombre_de_repetitions) +
      " itérations : " + str(temps_replacement_2))


Temps pris par la fonction 1 pour 10000 itérations : 0.38698137200026395
Temps pris par la fonction 2 pour 10000 itérations : 1.7597832920000656


---

## Writing results to a file

We have accomplished a lot! You have learnt how to read files using Python from your computer, how to manipulate them, clean them up and compute a frequency distribution of the words in a text file. We will finish this chapter with explaining to you how to write your results to a file. We have already seen how to read a text from our disk. Writing to our disk is only slightly different. The following lines of code write a single sentence to the file `first-output.txt`.

In [None]:
outfile = open("first-output.txt", mode="w")
outfile.write("My first output.")
outfile.close()

Go ahead and open the file `first-output.txt` located in the folder where this course resides. As you can see it contains the line `My first output.`. To write something to a file we open, just as in the case of reading a file, a `TextIOWrapper` which can be seen as a connection to the file `first-output.txt`. The difference with opening a file for reading is the *mode* with which we open the connection. Here the mode says `w`, meaning "open the file for writing". To open a file for reading, we set the mode to `r`. However, since this is Python's default setting, we may omit it.

---

#### Quiz!

In the final quiz of this chapter we will ask you to write the frequency distribution over the words in `data/romans_gk.txt` to the file `data/romans-frequency-distribution.txt`. We will give you some code to get you started

In [None]:
# first open and read data/romans_gk.txt. Don't forget to close the infile
infile = open("data/romans_gk.txt")
text = infile.read() # read the contents of the infile
# close the file handler

# clean the text


# next compute the frequency distribution using the function counter

# now open the file data/romans-frequency-distribution.txt for writing

#The following lines will write the frequency distribution to a text file
for word, frequency in frequency_distribution.items():
    outfile.write(word + ";" + str(frequency) + '\n')
    
# close the outfile


---

Ignore the following, it's just here to make the page pretty:

In [None]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()

---

<p><small><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Python Programming for the Humanities</span> by <a xmlns:cc="http://creativecommons.org/ns#" href="http://fbkarsdorp.github.io/python-course" property="cc:attributionName" rel="cc:attributionURL">http://fbkarsdorp.github.io/python-course</a> is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Attribution-ShareAlike 4.0 International License</a>. Based on a work at <a xmlns:dct="http://purl.org/dc/terms/" href="https://github.com/fbkarsdorp/python-course" rel="dct:source">https://github.com/fbkarsdorp/python-course</a>.</small></p>