# Chapitre 2 - Les fonctions et les fichiers

-- *A Python Course for the Humanities by Folgert Karsdorp and Maarten van Gompel*

---

Le chapitre précédent a, espérons-le, aiguiser votre appétit. Dans ce chapitre, nous allons nous concentrer sur l'une des tâches les plus importantes de la recherche en sciences humaines: le traitement du texte. L'un des objectifs du traitement de texte est de nettoyer vos données pour ensuite faire leur analyse. Un autre objectif banal consiste à convertir une collection de textes en un format différent: par exemple de fichiers textes vers fichiers XML TEI. Dans ce chapitre, nous allons vous fournir les outils nécessaires pour travailler avec des collections de textes, les nettoyer et effectuer quelques analyses de données rudimentaires sur eux.

## Lire des fichiers

Supposons que vous ayez un texte stocké sur votre ordinateur. Comment pouvons-nous lire ce texte en utilisant Python? Python fournit une fonction très simple appelée `open` avec laquelle on peut lire des textes. Dans le dossier `data`, vous trouverez quelques petits extraits de texte que nous utiliserons dans ce chapitre. Regardez-les si vous en avez l'envie. Nous pouvons ouvrir ces fichiers avec la commande suivante:

In [7]:
fichier_ouvert = open('data/cid.v1071.1682.txt')

Maintenant, affichons la variable `fichier_ouvert`. Que pensez-vous qu'il arrivera ? 

In [8]:
print(fichier_ouvert)

<_io.TextIOWrapper name='data/cid.v1071.1682.txt' mode='r' encoding='UTF-8'>


"Je pensais pas que ça ferait ça" est probablement ce qui vous passe à l'esprit. Python n'affiche pas le contenu du fichier mais seulement une mention mystérieuse d'un certain `TextIOWrapper`. Ce truc de `TextIOWrapper` est la façon de Python de dire qu'il a ouvert une connexion au fichier `data/cid.v1071.1682.txt`. 

Mais cela nous donne également des informations auxquelles nous devrions prêter attention. Regardez la partie qui commence `encoding=`. `UTF-8` est le modèle d'encodage des caractères du fichier (Vous pouvez en apprendre un peu plus sur la chaine Computerphile : https://www.youtube.com/watch?v=MijmeoH9LT4 ). Par défaut, Python3 (contrairement à Python 2) gère ses données en UTF-8. On aurait pu cependant faire ce qui suit:

In [9]:
encodage_latin = open('data/cid.v1071.1682.txt', encoding='latin')
print(encodage_latin)

<_io.TextIOWrapper name='data/romans_1:14-23_gk.txt' mode='r' encoding='latin'>


Vous avez pour `encodage_latin` `encoding='latin'` dans la description de ce `TextIOWrapper`. Vous devrez vous assurer de toujours spécifier votre encodage comme UTF-8 si vous travaillez avec des textes grecs dans Windows. Cependant, les systèmes Linux et Mac ne devraient pas en avoir besoin.

Maintenant, si nous voulons *lire* le contenu du fichier, nous devons ajouter la fonction `read` comme suit:

In [10]:
print(fichier_ouvert.read())

Il n'est pas temps encor de chercher le trépas :
Ton prince et ton pays ont besoin de ton bras.
La flotte qu'on craignait, dans ce grand fleuve entrée,
Croit surprendre la ville et piller la contrée.
Les Mores vont descendre, et le flux et la nuit
Dans une heure à nos murs les amène sans bruit.
La Cour est en désordre, et le peuple en alarmes :
On n'entend que des cris, on ne voit que des larmes.
Dans ce malheur public mon bonheur a permis
Que j'ai trouvé chez moi cinq cents de mes amis,
Qui sachant mon affront, poussés d'un même zèle,
Se venaient tous offrir à venger ma querelle.
Tu les as prévenus ; mais leurs vaillantes mains
Se tremperont bien mieux au sang des Africains.
Va marcher à leur tête où l'honneur te demande :
C'est toi que veut pour chef leur généreuse bande.
De ces vieux ennemis va soutenir l'abord :
Là, si tu veux mourir, trouve une belle mort ;
Prends-en l'occasion, puisqu'elle t'est offerte ;
Fais devoir à ton roi son salut à ta perte ;
Mais reviens-en plutôt les pal

`read` est une fonction qui fonctionne sur les objets` TextWrapper` et nous permet de lire le contenu d'un fichier dans Python. Assignons le contenu du fichier à la variable `texte`:

In [13]:
# Ajoutez `encoding='UTF-8'` si nécessaire
fichier_ouvert = open('data/cid.v1071.1682.txt') 
texte = fichier_ouvert.read()

La variable `texte` contient le contenu du fichier `data/cid.v1071.1682.txt` et nous pouvons le manipuler désormais comme n'importe quelle autre chaîne. Après avoir lu le contenu d'un fichier, le `TextWrapper` n'a plus besoin d'être ouvert. En fait, il est bon de le fermer dès que vous n'en avez plus besoin. Pour ce faire, il suffit d'utiliser la méthode `close()`:

In [12]:
fichier_ouvert.close()

---

#### Exercice

Juste pour récapituler certaines des choses que nous avons apprises dans le chapitre précédent. Pouvez-vous écrire un bloc de code qui définit la variable `nombre_de_e` et compte combien de fois la lettre *e* se trouve dans le « texte »? (Astuce: utilisez une boucle `for` et une instruction `if`).

Prenez aussi le temps de comprendre `assert` qui nous permet de vérifier vos travaux. 

In [21]:
nombre_de_e = 0
# Votre code ici

# Ce code vérifiera ce que vous avez écrit
assert nombre_de_e == 180, "On devrait trouver 180 'e'"

AssertionError: On devrait trouver 180 'e'

Enfin, il existe une autre syntaxe pour gérer un fichier à ouvrir et lire : il s'agit d'utiliser la déclaration `with` :

In [33]:
with open("data/cid.v1071.1682.txt") as fichier_cid:
    texte = fichier_cid.read()

Cette méthode a cela de particulier qu'elle ferme d'elle-même le fichier qui a été ouvert. Tout comme un `if`, le with concerne l'ensemble du bloc ouvert en-dessous du `with` et permet de faire des opérations sur le fichier. On remarque l'utilisation de `as` : en français, on traduirait cette ligne en `avec le fichier ouvert cid.v1071.1682.txt en tant que variable fichier_cid`.

Par ailleurs, les variables modifiées dans cet ensemble sont encore disponible à la fin. Mais le fichier sera clos. Pouvez-vous deviner ce qui se passera avec les lignes suivantes :

In [27]:
print(texte)
fichier_cid.read()

Il n'est pas temps encor de chercher le trépas :
Ton prince et ton pays ont besoin de ton bras.
La flotte qu'on craignait, dans ce grand fleuve entrée,
Croit surprendre la ville et piller la contrée.
Les Mores vont descendre, et le flux et la nuit
Dans une heure à nos murs les amène sans bruit.
La Cour est en désordre, et le peuple en alarmes :
On n'entend que des cris, on ne voit que des larmes.
Dans ce malheur public mon bonheur a permis
Que j'ai trouvé chez moi cinq cents de mes amis,
Qui sachant mon affront, poussés d'un même zèle,
Se venaient tous offrir à venger ma querelle.
Tu les as prévenus ; mais leurs vaillantes mains
Se tremperont bien mieux au sang des Africains.
Va marcher à leur tête où l'honneur te demande :
C'est toi que veut pour chef leur généreuse bande.
De ces vieux ennemis va soutenir l'abord :
Là, si tu veux mourir, trouve une belle mort ;
Prends-en l'occasion, puisqu'elle t'est offerte ;
Fais devoir à ton roi son salut à ta perte ;
Mais reviens-en plutôt les pal

ValueError: I/O operation on closed file.

`I/O Operation` signifie `Input/Output` et vise les méthodes de lecture et d'écriture de fichiers. Notre fichier ayant été clos après `with`, il n'est plus possible de le lire.

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `open()`
- `UTF-8`
- `.close()`
- `.read()`
- le fonctionnement de `TextIOWrapper`
- `with ___ as ___ :`
- `assert ___ , ___`

---

## Écrire notre première fonction

Dans l'exercice précédent, vous avez probablement écrit une boucle qui itère sur tous les caractères de `texte` et ajoute 1 à` nombre_de_e` chaque fois que le programme trouve la lettre *e*. Le comptage d'objets dans un texte ou dans une liste est chose courante.

Par conséquent, Python fournit la méthode `count`. Cette fonction prend comme argument l'élément que vous voulez compter. En utilisant cette fonction, la solution à l'exercice ci-dessus peut maintenant être réécrite comme suit:

In [28]:
nombre_de_e = texte.count("e")
print(nombre_de_e)

180


En fait, `count` prend comme argument toute chaîne que vous aimeriez trouver. Nous pourrions aussi bien compter combien de fois la conjonction `et` se produit:

In [35]:
print(texte.count("et"))

10


La chaîne `et` est trouvée 10 fois dans notre texte. Cela signifie-t-il que le mot *et* apparaît 10 fois dans notre texte? En fait non, *et* n'apparaît que 8 fois ... Pourquoi Python affiche-t-il 10?

Si nous voulons compter combien de fois le mot *et* apparaît dans le texte et non la chaîne «et», nous pouvons entourer *et* d'espaces, comme ceci:

In [34]:
print(texte.count(" et "))

8


Bien que cela l'affaire dans ce cas particulier, ce n'est pas très fiable pour compter les mots dans un texte. Que faire s'il y a des instances de *et* suivies d'une virgule ou d'un point ? Il nous faudrait alors interroger le texte plusieurs fois pour chaque contexte possible de *et* : `et`, ` et `, `et.`, `et,`, `et:`, etc. C'est pour cela que nous allons aborder ce problème en utilisant une méthode un peu plus sophistiquée.

Rappelez-vous, dans le chapitre précédent, nous avons vu la méthode `split`. Que fait cette méthode? La méthode `split` fonctionne sur une chaîne et divise une chaîne sur les espaces et retourne une liste de plus petites chaînes:

In [37]:
print(texte.split())

['Il', "n'est", 'pas', 'temps', 'encor', 'de', 'chercher', 'le', 'trépas', ':', 'Ton', 'prince', 'et', 'ton', 'pays', 'ont', 'besoin', 'de', 'ton', 'bras.', 'La', 'flotte', "qu'on", 'craignait,', 'dans', 'ce', 'grand', 'fleuve', 'entrée,', 'Croit', 'surprendre', 'la', 'ville', 'et', 'piller', 'la', 'contrée.', 'Les', 'Mores', 'vont', 'descendre,', 'et', 'le', 'flux', 'et', 'la', 'nuit', 'Dans', 'une', 'heure', 'à', 'nos', 'murs', 'les', 'amène', 'sans', 'bruit.', 'La', 'Cour', 'est', 'en', 'désordre,', 'et', 'le', 'peuple', 'en', 'alarmes', ':', 'On', "n'entend", 'que', 'des', 'cris,', 'on', 'ne', 'voit', 'que', 'des', 'larmes.', 'Dans', 'ce', 'malheur', 'public', 'mon', 'bonheur', 'a', 'permis', 'Que', "j'ai", 'trouvé', 'chez', 'moi', 'cinq', 'cents', 'de', 'mes', 'amis,', 'Qui', 'sachant', 'mon', 'affront,', 'poussés', "d'un", 'même', 'zèle,', 'Se', 'venaient', 'tous', 'offrir', 'à', 'venger', 'ma', 'querelle.', 'Tu', 'les', 'as', 'prévenus', ';', 'mais', 'leurs', 'vaillantes', 'main

---

#### Exercice

Tout ce que vous avez appris jusqu'ici devrait vous permettre d'écrire du code qui compte certains éléments apparaissant dans une liste. Écrivez un bloc de code qui définit la variable `nombre_de_resultats` et compte combien de fois le mot *à* (assigné à `a_compter`) apparaît dans la liste de mots appelée `mots`.

In [46]:
mots = texte.split()
a_compter = "la"
# Votre code ici

# Ce test ne devrait pas lancer d'erreur si tout va bien
assert nombre_de_resultats == 3, "Il devrait y avoir 6 résultats"

---

Nous allons voir cet exercice étape par étape. Nous aimerions savoir à quelle fréquence l'article défini *la* apparaît dans notre texte. Dans un premier temps, nous divisons la chaîne `texte` en une liste de mots:

In [47]:
mots = texte.split()

Puis on va appeler la méthode `count` sur `mots` afin de trouver le nombre de `la` dans `mots`:

In [49]:
a_compter = "la"
nombre_de_resultats = mots.count(a_compter)
print(nombre_de_resultats)

3


Bon. Très bien. Mais disons que nous nous intéressons aussi à `une`, pour faire des petites statistiques sur l'usage du défini et de l'indéfini. Il faudrait que l'on adapte les lignes précédentes pour chercher le mot `une`. Mais qu'arriverait-il si ensuite nous voulions aussi compter `l'`, `le`, `un`, etc. ? Cela serait insupportable, et honnêtement, on a pas créer les langages de programmation pour que nous ayons à répeter 100 fois la même chose, bien au contraire.

Donc ce qu'on aimerait, c'est avoir une fonction qui ferait ça. Et si on regarde bien, notre fonction aurait besoin de deux choses : un texte et un élément à compter. Et elle nous renverrait comme résultat un nombre d'occurrence. Les éléments dont a besoin la fonction sont appelés arguments ou paramètres (`arguments/args` ou `parameters/params`). Le résultat que la fonction nous donne est appelée valeur de retour (`return value`).

Dans ce chapitre et le précédent, on a vu pas mal de fonctions. Une fonction fait quelque chose, souvent grâce à des paramètres que vous lui donnez, et généralement elle renvoie un résultat.

On a aussi vu des méthodes. Les méthodes se différencient des fonctions dans leur rédaction : du côté des fonctions, on fait `len(chaine)`, du côté des méthodes, on fait `chaine.count(" et ")`. Nous verrons cela plus en détail beaucoup plus tard. Une méthode est une fonction un peu particulière mais est régie par le même vocabulaire : arguments, paramètres, valeurs de retour.

Bien sûr, on peut créer ses propres fonctions. Séparer ta tâche en une multiplicité de tâches est même une obligation en programmation : cela permet de lire les choses plus facilement et d'éviter des répétitions constantes. Les fonctions sont définies avec la déclaration `def` qui est suivie d'un nom de fonction et de paramètres puis du `:` :

```python
def fonction_avec_parametres(parametre1, parametre2, parametre3):
    # Le code de la fonction
    
def fonction_sans_parametre():
    # le code la fonction
```

Ces fonctions peuvent aussi avoir une valeur de retour. Cela permet d'accéder aux résultats calculés dans la fonction. Cette valeur de retour est renvoyée par la déclaration `return` :

```python
def carre(x):
    return x*x
```

Retour à notre problème. On veut écrire une fonction appelée `compter_dans_une_chaine`. Elle prend deux paramètres : 
1. un objet que l'on veut compter
2. une chaine dans laquelle on veut trouver cet élément

Elle retournera le nombre d'objets en tant qu'entier :

```python
def compter_dans_une_autre_chaine(aiguille, botte_de_foin):
    # En programmation, on utilise souvent aiguille et botte de foin 
    # (needle et haystack en anglais)
    # pour parler de chose à trouver et d'élément à trouver.
    # Ici, ce n'est pas forcément très clair cela dit !
```

Comprenez-vous la syntaxe et les différentes nouvelles déclarations au-dessus ? Maintenant, tout ce qui nous reste à faire est d'écrire le corps de cette fonction :

In [50]:
def compter_dans_une_autre_chaine(aiguille, botte_de_foin): 
    mots_de_foin = botte_de_foin.split()
    nombre_daiguilles = mots_de_foin.count(aiguille)               
    return nombre_daiguilles                         

Lisons la chose encore une fois :

1. D'abord on définit une fonction en utilisant def suivi du nom de la fonction et de parenthèses et de `:` (ligne 1);
2. La fonction prend deux arguments `aiguille` et `botte_de_foin` (ligne 1);
3. Dans cette fonction, on définit une variable `mots_de_foin` qui correspond à la chaîne découpée en mots (ligne 2);
4. Dans cette fonction, nous définissons ensuite une variable `nombre_daiguilles` et nous lui assignons le résultat de `count()` sur `mots_de_foin` et `aiguille` (ligne 3);
5. On retourne la valeur de la variable `nombre_daiguilles` (ligne 4).

Testons notre petite fonction! Nous allons compter combien de fois `"à"` apparaître dans notre `texte`:

In [52]:
print(compter_dans_une_autre_chaine("à", texte))

7


---

#### Exercice!

Utilisez la fonction que nous avons définie et afficher combien de fois le mot `mon` apparaît.

In [53]:
# votre code ici

## Le concept de scope et de portée

Vous trouverez souvent dans le cadre de documentation le terme de "portée" voire le terme de *"scope"*. Ce terme couvre le concept de capacité à accéder à des variables à différents endroits du code. Par exemple, on a définit dans le fonction au-dessus la variable `mots_de_foin`. Et elle fonctionne bien puisque la fonction retourne un résultat. Essayons ça :

In [54]:
print(compter_dans_une_autre_chaine("ton", texte))
print(mots_de_foin)

4


NameError: name 'mots_de_foin' is not defined

Une erreur familière ! La fonction `mots_de_foin` est dite inexistante. Pourtant, elle a bien existée puisque j'ai eu le résultat `4` au final.

En fait, les variables dans les fonctions ont une portée limitée à la fonction. Elle n'existe que dans le cadre de la fonction et ne sont pas accessibles ensuite. C'est pour cela que l'on utilise la déclaration `return` d'ailleurs, sinon, on ne pourrait pas avoir le résultat !

---

## Un fonction de décompte plus générale

Notre fonction `compter_dans_une_autre_chaine()` est un morceau utilie qui va nous permettre de limiter la répétition de notre code et de le rendre trop verbeux. 

Cela dit, il serait intéressant de savoir combien de fois chaque mot apparaît dans le texte, on pourrait utiliser une boucle, ajouter 1 pour chaque mot, etc. Mais cela serait vraiment long.

Il y a deux manières de faire cela rapidement, qui évite un tel problème :

### La version longue

Dans le chapitre précédent, vous vous êtes familiarisé-e avec la structure `dictionary`. Rappelez-vous qu'un dictionnaire se compose de clés et de valeurs et vous permet de récupérer rapidement une valeur. Nous allons utiliser un dictionnaire pour écrire la fonction `comptage` qui prend comme argument une liste et retourne un` dictionary` avec les mots comme clefs et en valeur le nombre de fois que ces mots sont dans la liste. Nous allons d'abord écrire du code sans la déclaration de fonction. Si cela fonctionne, nous l'ajouterons écrirons une fonction.

Nous commençons par définir une variable `decompte` qui est un dictionnaire vide:

In [56]:
decompte = {}

Ensuite, nous allons boucler tous les mots de notre liste `mots`. Pour chaque mot, nous vérifions si le dictionnaire le contient déjà. Si ce n'est pas le cas, nous appelons la méthode `count` de notre liste `mots` pour découvrir la fréquence d'apparition du mot.

In [57]:
for mot in mots:
# A chaque élément dans la variable `mots`, j'assigne la valeur dans une variable `mot`
    if mot not in decompte:
        # Si le mot n'est pas dans les clefs du dictionnaire decompte
        decompte[mot] = mots.count(mot)
        # Je assigne à la clef mot le nombre de fois que la valeur de `mot`
        #    apparaît dans `mots`
print(decompte)
print(decompte['mon'])

{'On': 1, 'sang': 1, "j'ai": 1, 'De': 1, 'encor': 1, 'chef': 1, 'ces': 1, 'La': 2, 'vaillantes': 1, 'plus': 1, 'de': 4, 'nos': 1, 'revenir': 1, 'silence': 1, 'mais': 1, 'a': 1, 'si': 1, 'Porte-la': 1, 'montrer': 1, 'mort': 1, 'borne': 1, 'on': 1, 'venger': 2, 'ennemis': 1, 'toi': 1, 'Croit': 1, "d'un": 1, "n'est": 1, 'public': 1, 'son': 2, 'combattre,': 1, 'voles.': 1, 'Ton': 1, 'nuit': 1, 'marcher': 1, "l'unique": 1, 'bras.': 1, 'ce': 3, 'Qui': 1, 'suis-moi,': 1, 'Dans': 2, 'affront': 1, 'en': 5, 'pardon,': 1, 'pas': 2, "t'arrete": 1, 'avant': 1, 'palmes': 1, 'ta': 3, 'cinq': 1, 'descendre,': 1, 'coeur.': 1, 'où': 1, 'Ce': 1, 'perdre': 1, 'trépas': 1, 'même': 1, 'veut': 1, 'offerte': 1, 'Cour': 1, 'peuple': 1, 'au': 4, 'leurs': 1, 'cher': 1, 'permis': 1, 'trop': 1, 'Prends-en': 1, 'ville': 1, 'plutôt': 1, 'cris,': 1, 'par': 1, 'Fais': 1, ':': 5, 'Mores': 1, 'force': 1, 'comte': 1, 'entrée,': 1, 'et': 8, 'bande.': 1, 'alarmes': 1, 'mon': 2, 'vieux': 1, 'sans': 1, 'moyen': 1, 'mes': 1, 

N'hésitez pas à relire le chapitre 1 si nécessaire .

Remarquez que l'on a rien fait si le mot était déjà dans notre dictionnaire. On n'a pas besoin puisque l'on a déjà fait le décompte !

Maintenant que notre code marche, on peut le transformer en fonction ! On définit la fonction `comptage` comme vu plus haut. On a besoin cette fois d'une seul argument :

In [62]:
def comptage(mots):  
    decompte = {}
    for mot in mots:
        if mot not in decompte:
            decompte[mot] = mots.count(mot)
    return decompte

Normalement, la répétition qui suit va être ennuyante, mais au cas où :

1. On définit une fonction `comptage()` via `def` en lui donnant un paramètre (`mots`)
2. Je crée un dictionnaire vide `decompte` qui me servira de réceptacle
3. Pour chaque élément dans la valeur `mots`, j'assigne sa valeur dans une variable `mot`
    1. Si le mot n'est pas dans les clefs du dictionnaire decompte, alors
        1. Je définis la cle du dictionnaire decompte représentée par `mot`
        2. J'y assigne comme valeur le nombre de fois qu'il apparaît dans la liste `mots`
4. Une fois la boucle finie, je renvoie le résultat de la boucle.

In [64]:
print(comptage(mots))
vocabulaire_cid = comptage(mots)
print('"mon" apparaît ' + str(vocabulaire_cid['mon']) + ' fois.')

{'On': 1, 'sang': 1, "j'ai": 1, 'De': 1, 'encor': 1, 'chef': 1, 'ces': 1, 'La': 2, 'vaillantes': 1, 'plus': 1, 'de': 4, 'nos': 1, 'revenir': 1, 'silence': 1, 'mais': 1, 'a': 1, 'si': 1, 'Porte-la': 1, 'montrer': 1, 'mort': 1, 'borne': 1, 'on': 1, 'venger': 2, 'ennemis': 1, 'toi': 1, 'Croit': 1, "d'un": 1, "n'est": 1, 'public': 1, 'son': 2, 'combattre,': 1, 'voles.': 1, 'Ton': 1, 'nuit': 1, 'marcher': 1, "l'unique": 1, 'bras.': 1, 'ce': 3, 'Qui': 1, 'suis-moi,': 1, 'Dans': 2, 'affront': 1, 'en': 5, 'pardon,': 1, 'pas': 2, "t'arrete": 1, 'avant': 1, 'palmes': 1, 'ta': 3, 'cinq': 1, 'descendre,': 1, 'coeur.': 1, 'où': 1, 'Ce': 1, 'perdre': 1, 'trépas': 1, 'même': 1, 'veut': 1, 'offerte': 1, 'Cour': 1, 'peuple': 1, 'au': 4, 'leurs': 1, 'cher': 1, 'permis': 1, 'trop': 1, 'Prends-en': 1, 'ville': 1, 'plutôt': 1, 'cris,': 1, 'par': 1, 'Fais': 1, ':': 5, 'Mores': 1, 'force': 1, 'comte': 1, 'entrée,': 1, 'et': 8, 'bande.': 1, 'alarmes': 1, 'mon': 2, 'vieux': 1, 'sans': 1, 'moyen': 1, 'mes': 1, 

---

#### Exercice

Essayons de mettre en pratique ce que l'on a vu jusque là. On va lire le fichier `data/misanthrope.acte3.scene4.txt`, le convertir en liste de mot et assigner à la variable `compte_de_mais` le nombre de fois que mais apparaît dans le texte :

In [65]:
# Votre code ici

# Le test suivant ne devrait pas créer d'erreurs
assert compte_de_mais == 4, "Il y a 4 'mais'"

*Le nombre de lignes écrites par vous-mêmes ne devrait pas dépasser les 6 ou 7 lignes*

---

### Une alternative à la fonction de comptage

Let's train our function writing skills a little more. We are going to write another counting function, this time using a slightly different strategy. Recall our function `count_in_list`. It takes as argument a list and the item we want to count in that list. It returns the number of times this item occurs in the list. If we call this function for each unique word in `words`, we obtain a list of frequencies, quite similar to the one we get from the function `counter`. What would happen if we just call the function `count_in_list` on each word in `words`? 

In [None]:
x = ['a', 'a', 'b', 'b', 'c', 'c', 'c']
unique_x = set(x)
print(unique_x)

Using `set` we can iterate over all unique words in our word list and print the corresponding frequency:

In [None]:
def counter2(list_to_search):
    unique_words = set(list_to_search)
    for word in unique_words:
        print(word, count_in_list(word, list_to_search))

A final check to see whether our function behaves correctly:

In [None]:
counter2(words)

---

#### Quiz!

We have written two functions `counter` and `counter2`, both used to count for each unique item in a particular list how often it occurs in that list. Can you come up with some pros and cons for each function? Why is `counter2` better than `counter` or why is `counter` better than `counter2`?

*Double click this cell and write down your answer.*

---

## Text clean up

In the previous section we wrote code to compute a frequency distribution of the words in a text stored on our computer. The function `split` is a quick and dirty way of splitting a string into a list of words. However, if we look through the frequency distributions, we notice quite an amount of noise. For instance, the conjunction *γὰρ* occurs 5 times, but we also find `γὰρ⸃` occurring once.  And `ὁ` occurs once while the capitalized `Ὁ` also occurs 1 time. Of course we would like to add these counts together. As it appears, the tokenization of our text using `split` is fast and simple, but it leaves us with noisy and incorrect frequency distributions. 

There are essentially two strategies to follow to correct our frequency distributions. The first is to come up with a better procedure of splitting our text into words. The second is to clean-up our text and pass this clean result to the convenient `split` function. For now we will follow the second path.

Some words in our text are capitalized. To lowercase these words, Python provides the function `lower`. It operates on strings:

In [None]:
x = 'Ὁ'
x_lower = x.lower()
print(x_lower)

We can apply this function to our complete text to obtain a completely lowercased text, using:

In [None]:
text_lower = text.lower()
print(text_lower)

This solves our problem with miscounting capitalized words, leaving us with the problem of punctuation. The function `replace` is just the function we're looking for. It takes two arguments: (1) the string we would like to replace and (2) the string we want to replace the first argument with:

In [None]:
x = 'Please. remove. all. dots. from. this. sentence.'
x = x.replace(".", "")
print(x)

Notice that we replace all dots with an empty string written as `""`. 

---

#### Quiz!

Write code that to lowercase and remove all commas in the following short text:

In [None]:
short_text = "Commas, as it turns out, are so much overestimated."
# insert your code here

# The following test should print True if your code is correct 
print(short_text == "commas as it turns out are so much overestimated.")

---

We would like to remove all punctuation from a text, not just dots and commas. We will write a function called `remove_punc` that removes all (simple) punctuation from a text. Again, there are many ways in which we can write this function. We will show you two of them. The first strategy is to repeatedly call `replace` on the same string each time replacing a different punctuation character with an empty string. 

In [None]:
def remove_punc(text):
    punctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
    for marker in punctuation:
        text = text.replace(marker, "")
    return text

short_text = "Commas, as it turns out, are overestimated. Dots, however, even more so!"
print(remove_punc(short_text))

The second strategy we will follow is to show you that we can achieve the same result without using the built in function `replace`. Remember that a string consists of characters. We can loop over a string accessing each character in turn. Each time we find a punctuation marker we skip to the next character.

In [None]:
def remove_punc2(text):
    punctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
    clean_text = ""
    for character in text:
        if character not in punctuation:
            clean_text += character
    return clean_text

short_text = "Commas, as it turns out, are overestimated. Dots, however, even more so!"
print(remove_punc2(short_text))

---

#### Quiz!

1) Can you come up with any pros or cons for each of the two functions above?

*Write your answer here* (double click me)

2) Now it is time to put everything together. We want to write a function `clean_text` that takes as argument a text represented by string. The function should return this string with all punctuation removed and all characters lowercased.

In [None]:
def clean_text(text):
    # insert your code here
    
# The following test should print True if your code is correct 
short_text = "Commas, as it turns out, are overestimated. Dots, however, even more so!"
print(clean_text(short_text) == 
      "commas as it turns out are overestimated dots however even more so")

3) This last excercise puts everything together. We want you to open and read the file `data/romans_gk.txt` text once more, clean up the text and recompute the frequency distribution. Assign to `christou_counts` the number of times the genetive title *χριστοῦ* occurs in the text.

But before we do that, we need a slightly altered version of our `remove_punc` function that uses the Greek instead of the English punctuation (i.e., ’(.;)—⸂⸀⸁,·⸃) and a `clean_text` function that uses this new function.

In [None]:
def remove_punc_greek(text):
    punctuation = '’(.;)—⸂⸀⸁,·⸃'
    for marker in punctuation:
        text = text.replace(marker, "")
    return text

def clean_greek(text):
    return remove_punc_greek(text.lower())

In [None]:
# insert your code here

# The following test should print True if your code is correct 
print(christou_counts == 27)

---

## Writing results to a file

We have accomplished a lot! You have learnt how to read files using Python from your computer, how to manipulate them, clean them up and compute a frequency distribution of the words in a text file. We will finish this chapter with explaining to you how to write your results to a file. We have already seen how to read a text from our disk. Writing to our disk is only slightly different. The following lines of code write a single sentence to the file `first-output.txt`.

In [None]:
outfile = open("first-output.txt", mode="w")
outfile.write("My first output.")
outfile.close()

Go ahead and open the file `first-output.txt` located in the folder where this course resides. As you can see it contains the line `My first output.`. To write something to a file we open, just as in the case of reading a file, a `TextIOWrapper` which can be seen as a connection to the file `first-output.txt`. The difference with opening a file for reading is the *mode* with which we open the connection. Here the mode says `w`, meaning "open the file for writing". To open a file for reading, we set the mode to `r`. However, since this is Python's default setting, we may omit it.

---

#### Quiz!

In the final quiz of this chapter we will ask you to write the frequency distribution over the words in `data/romans_gk.txt` to the file `data/romans-frequency-distribution.txt`. We will give you some code to get you started

In [None]:
# first open and read data/romans_gk.txt. Don't forget to close the infile
infile = open("data/romans_gk.txt")
text = infile.read() # read the contents of the infile
# close the file handler

# clean the text


# next compute the frequency distribution using the function counter

# now open the file data/romans-frequency-distribution.txt for writing

#The following lines will write the frequency distribution to a text file
for word, frequency in frequency_distribution.items():
    outfile.write(word + ";" + str(frequency) + '\n')
    
# close the outfile


---

Ignore the following, it's just here to make the page pretty:

In [None]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()

---

<p><small><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Python Programming for the Humanities</span> by <a xmlns:cc="http://creativecommons.org/ns#" href="http://fbkarsdorp.github.io/python-course" property="cc:attributionName" rel="cc:attributionURL">http://fbkarsdorp.github.io/python-course</a> is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Attribution-ShareAlike 4.0 International License</a>. Based on a work at <a xmlns:dct="http://purl.org/dc/terms/" href="https://github.com/fbkarsdorp/python-course" rel="dct:source">https://github.com/fbkarsdorp/python-course</a>.</small></p>