# Chapitre 2 - Les fonctions et les fichiers

-- *A Python Course for the Humanities by Folgert Karsdorp and Maarten van Gompel*

---

Le chapitre précédent a, espérons-le, aiguisé votre appétit. Dans ce chapitre, nous allons nous concentrer sur l'une des tâches les plus importantes de la recherche en sciences humaines: le traitement du texte. L'un des objectifs du traitement de texte est de nettoyer vos données pour ensuite faire leur analyse. Un autre objectif banal consiste à convertir une collection de textes en un format différent: par exemple de fichiers textes vers fichiers XML TEI. Dans ce chapitre, nous allons vous fournir les outils nécessaires pour travailler avec des collections de textes, les nettoyer et effectuer quelques analyses de données rudimentaires sur eux.

## Lire des fichiers

Supposons que vous ayez un texte stocké sur votre ordinateur. Comment pouvons-nous lire ce texte en utilisant Python? Python fournit une fonction très simple appelée `open` avec laquelle on peut lire des textes. Dans le dossier `data`, vous trouverez quelques petits extraits de texte que nous utiliserons dans ce chapitre. Regardez-les si vous en avez l'envie. Nous pouvons ouvrir ces fichiers avec la commande suivante:

In [None]:
fichier_ouvert = open('data/cid.v1071.1682.txt')

Maintenant, affichons la variable `fichier_ouvert`. Que pensez-vous qu'il arrivera ? 

In [None]:
print(fichier_ouvert)

"Je ne pensais pas que ça ferait ça" est probablement ce qui vous passe à l'esprit. Python n'affiche pas le contenu du fichier, mais seulement une mention mystérieuse d'un certain `TextIOWrapper`. Ce truc de `TextIOWrapper` est la façon de Python de dire qu'il a ouvert une connexion au fichier `data/cid.v1071.1682.txt`. IO pour Input Open

Mais cela nous donne également des informations auxquelles nous devrions prêter attention. Regardez la partie qui commence `encoding=`. `UTF-8` est le modèle d'encodage des caractères du fichier (vous pouvez en apprendre un peu plus sur la chaîne Computerphile : https://www.youtube.com/watch?v=MijmeoH9LT4 ). Par défaut, Python3 (contrairement à Python 2) gère ses données en UTF-8. On aurait pu cependant faire ce qui suit:

In [None]:
encodage_latin = open('data/cid.v1071.1682.txt', encoding='latin')
print(encodage_latin)

Vous avez pour `encodage_latin` `encoding='latin'` dans la description de ce `TextIOWrapper`. Vous devrez vous assurer de toujours spécifier votre encodage comme UTF-8 si vous travaillez avec des textes grecs dans Windows. Cependant, les systèmes Linux et Mac ne devraient pas en avoir besoin.

Maintenant, si nous voulons *lire* le contenu du fichier, nous devons ajouter la fonction `read` comme suit:

In [None]:
print(fichier_ouvert.read())

`read` est une fonction qui fonctionne sur les objets` TextWrapper` et nous permet de lire le contenu d'un fichier dans Python. Assignons le contenu du fichier à la variable `texte`:

In [None]:
# Ajoutez `encoding='UTF-8'` si nécessaire
fichier_ouvert = open('data/cid.v1071.1682.txt') 
texte = fichier_ouvert.read()

La variable `texte` contient le contenu du fichier `data/cid.v1071.1682.txt` et nous pouvons le manipuler désormais comme n'importe quelle autre chaîne. Après avoir lu le contenu d'un fichier, le `TextWrapper` n'a plus besoin d'être ouvert. En fait, il est bon de le fermer dès que vous n'en avez plus besoin. Pour ce faire, il suffit d'utiliser la méthode `close()`:

In [None]:
fichier_ouvert.close()

---

#### Exercice

Juste pour récapituler certaines des choses que nous avons apprises dans le chapitre précédent. Pouvez-vous écrire un bloc de code qui définit la variable `nombre_de_e` et compte combien de fois la lettre *e* se trouve dans le « texte »? (Astuce: utilisez une boucle `for` et une instruction `if`).

Prenez aussi le temps de comprendre `assert` qui nous permet de vérifier vos travaux. 

In [None]:
nombre_de_e = 0
# Votre code ici
fichier_ouvert = open('data/cid.v1071.1682.txt') 
texte= fichier_ouvert.read()
for caractere in texte:
    if caractere  == "e":
        nombre_de_e= nombre_de_e+1 #aussi: nombre_de_e+= 1
print(nombre_de_e)

# Ce code vérifiera ce que vous avez écrit
assert nombre_de_e == 182, "On devrait trouver 182 'e'"

fichier_ouvert.close()

Enfin, il existe une autre syntaxe pour gérer un fichier à ouvrir et lire : il s'agit d'utiliser la déclaration `with` :

In [5]:
with open("data/cid.v1071.1682.txt") as fichier_cid:
    texte = fichier_cid.read()

Cette méthode a cela de particulier qu'elle ferme d'elle-même le fichier qui a été ouvert. Tout comme un `if`, le with concerne l'ensemble du bloc ouvert en dessous du `with` et permet de faire des opérations sur le fichier. On remarque l'utilisation de `as` : en français, on traduirait cette ligne en `avec le fichier ouvert cid.v1071.1682.txt en tant que variable fichier_cid`.

Par ailleurs, les variables modifiées dans cet ensemble sont encore disponibles à la fin. Mais le fichier sera clos. Pouvez-vous deviner ce qui se passera avec les lignes suivantes :

In [None]:
print(texte)#va s'afficher car stoqué dans la variable texte
fichier_cid.read()#erreur car mon fichier n'est plus ouvert

`I/O Operation` signifie `Input/Output` et vise les méthodes de lecture et d'écriture de fichiers. Notre fichier ayant été clos après `with`, il n'est plus possible de le lire.

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `open()`
- `UTF-8`
- `.close()`
- `.read()`
- le fonctionnement de `TextIOWrapper`
- `with ___ as ___ :`
- `assert ___ , ___`

---

## Écrire notre première fonction

La fonction a une valeur de retour, elle renvoie parfois une valeur que l'on peut stocker dans une variable.
Une fonction peut avoir des paramètres.
Paramètres séparés par des virgules. Quand un paramètre prend une valeur ou une variable, ça s'appelle un argument.

Dans l'exercice précédent, vous avez probablement écrit une boucle qui itère sur tous les caractères de `texte` et ajoute 1 à` nombre_de_e` chaque fois que le programme trouve la lettre *e*. Le comptage d'objets dans un texte ou dans une liste est chose courante.

Par conséquent, Python fournit la méthode `count`. Cette fonction prend comme argument l'élément que vous voulez compter. En utilisant cette fonction, la solution à l'exercice ci-dessus peut maintenant être réécrite comme suit:

In [None]:
nombre_de_e = texte.count("e")
print(nombre_de_e)

En fait, `count` prend comme argument toute chaîne que vous aimeriez trouver. Nous pourrions aussi bien compter combien de fois la conjonction `et` se produit:

In [None]:
print(texte.count("et"))

La chaîne `et` est trouvée 10 fois dans notre texte. Cela signifie-t-il que le mot *et* apparaît 10 fois dans notre texte? En fait non, *et* n'apparaît que 8 fois ... Pourquoi Python affiche-t-il 10?

Si nous voulons compter combien de fois le mot *et* apparaît dans le texte et non la chaîne «et», nous pouvons entourer *et* d'espaces, comme ceci:

In [None]:
print(texte.count(" et "))

Bien que cela l'affaire dans ce cas particulier, ce n'est pas très fiable pour compter les mots dans un texte. Que faire s'il y a des instances de *et* suivies d'une virgule ou d'un point ? Il nous faudrait alors interroger le texte plusieurs fois pour chaque contexte possible de *et* : `et`, ` et `, `et.`, `et,`, `et:`, etc. C'est pour cela que nous allons aborder ce problème en utilisant une méthode un peu plus sophistiquée.

Rappelez-vous, dans le chapitre précédent, nous avons vu la méthode `split`. Que fait cette méthode? La méthode `split` fonctionne sur une chaîne et divise une chaîne sur les espaces et retourne une liste de plus petites chaînes:

In [None]:
print(texte.split())

---

#### Exercice

Tout ce que vous avez appris jusqu'ici devrait vous permettre d'écrire du code qui compte certains éléments apparaissant dans une liste. Écrivez un bloc de code qui définit la variable `nombre_de_resultats` et compte combien de fois le mot *à* (assigné à `a_compter`) apparaît dans la liste de mots appelée `mots`.

In [None]:
mots = texte.split()
a_compter = "la"
# Votre code ici
nombre_de_resultats = mots.count(a_compter)
# Ce test ne devrait pas lancer d'erreur si tout va bien
assert nombre_de_resultats == 3, "Il devrait y avoir 6 résultats"

---

Nous allons voir cet exercice étape par étape. Nous aimerions savoir à quelle fréquence l'article défini *la* apparaît dans notre texte. Dans un premier temps, nous divisons la chaîne `texte` en une liste de mots:

In [None]:
mots = texte.split()

Puis on va appeler la méthode `count` sur `mots` afin de trouver le nombre de `la` dans `mots`:

In [None]:
a_compter = "la"
nombre_de_resultats = mots.count(a_compter)
print(nombre_de_resultats)

Bon. Très bien. Mais disons que nous nous intéressons aussi à `une`, pour faire des petites statistiques sur l'usage du défini et de l'indéfini. Il faudrait que l'on adapte les lignes précédentes pour chercher le mot `une`. Mais qu'arriverait-il si ensuite nous voulions aussi compter `l'`, `le`, `un`, etc. ? Cela serait insupportable, et honnêtement, on n’a pas créé les langages de programmation pour que nous ayons à répéter 100 fois la même chose, bien au contraire.

Donc ce qu'on aimerait, c'est avoir une fonction qui ferait ça. Et si on regarde bien, notre fonction aurait besoin de deux choses : un texte et un élément à compter. Et elle nous renverrait comme résultat un nombre d'occurrences. Les éléments dont a besoin la fonction sont appelés arguments ou paramètres (`arguments/args` ou `parameters/params`). Le résultat que la fonction nous donne est appelé valeur de retour (`return value`).

Dans ce chapitre et le précédent, on a vu pas mal de fonctions. Une fonction fait quelque chose, souvent grâce à des paramètres que vous lui donnez, et généralement elle renvoie un résultat.

On a aussi vu des méthodes. Les méthodes se différencient des fonctions dans leur rédaction : du côté des fonctions, on fait `len(chaîne)`, du côté des méthodes, on fait `chaîne.count(" et ")`. Nous verrons cela plus en détail beaucoup plus tard. Une méthode est une fonction un peu particulière, mais est régie par le même vocabulaire : arguments, paramètres, valeurs de retour.

Bien sûr, on peut créer ses propres fonctions. Séparer ta tâche en une multiplicité de tâches est même une obligation en programmation : cela permet de lire les choses plus facilement et d'éviter des répétitions constantes. Les fonctions sont définies avec la déclaration `def` qui est suivie d'un nom de fonction et de paramètres puis du `:` :

```python
def fonction_avec_parametres(parametre1, parametre2, parametre3):
    # Le code de la fonction
    
def fonction_sans_parametre():
    # le code la fonction
```

Ces fonctions peuvent aussi avoir une valeur de retour. Cela permet d'accéder aux résultats calculés dans la fonction. Cette valeur de retour est renvoyée par la déclaration `return` :

```python
def carre(x):
    return x*x
```

Retour à notre problème. On veut écrire une fonction appelée `compter_dans_une_chaine`. Elle prend deux paramètres : 
1. un objet que l'on veut compter
2. une chaîne dans laquelle on veut trouver cet élément

Elle retournera le nombre d'objets en tant qu'entier :

```python
def compter_dans_une_autre_chaine(aiguille, botte_de_foin):
    # En programmation, on utilise souvent aiguille et botte de foin 
    # (needle et haystack en anglais)
    # pour parler de chose à trouver et d'élément à trouver.
    # Ici, ce n'est pas forcément très clair cela dit !
```

Comprenez-vous la syntaxe et les différentes nouvelles déclarations au-dessus ? Maintenant, tout ce qui nous reste à faire est d'écrire le corps de cette fonction :

In [8]:
def compter_dans_une_autre_chaine(aiguille, botte_de_foin): 
    mots_de_foin = botte_de_foin.split()
    nombre_daiguilles = mots_de_foin.count(aiguille)               
    return nombre_daiguilles         #c'est la valeur qui est retournée, pas la variable   

In [16]:
nombre_de_a = compter_dans_une_autre_chaine("a", texte)
z = print(nombre_de_a)
print(z)
#car print ne fait qu'afficher, il n'y a pas de valeur de retour donc print(nombre_de_a) renvoie None
#d'où le résultat de print(z)
def x(b):
    s = "a" + b
y = x("e")
print(y)
#renvoie none car il n'y a pas de valeur de retour dans la fonction x: return retourne mais n'affiche pas,
#il faut un print après si on veut afficher la valeur de retour

1
None
None


Lisons la chose encore une fois :

1. D'abord on définit une fonction en utilisant def suivi du nom de la fonction et de parenthèses et de `:` (ligne 1);
2. La fonction prend deux arguments `aiguille` et `botte_de_foin` (ligne 1);
3. Dans cette fonction, on définit une variable `mots_de_foin` qui correspond à la chaîne découpée en mots (ligne 2);
4. Dans cette fonction, nous définissons ensuite une variable `nombre_daiguilles` et nous lui assignons le résultat de `count()` sur `mots_de_foin` et `aiguille` (ligne 3);
5. On retourne la valeur de la variable `nombre_daiguilles` (ligne 4).

Testons notre petite fonction! Nous allons compter combien de fois `"à"` apparaître dans notre `texte`:

In [7]:
print(compter_dans_une_autre_chaine("à", texte))

7


---

#### Exercice!

Utilisez la fonction que nous avons définie et afficher combien de fois le mot `mon` apparaît.

In [18]:
# votre code ici
print(compter_dans_une_autre_chaine("mon", texte))

2


## Le concept de scope / portée

Vous trouverez souvent dans le cadre de documentation le terme de "portée" voire le terme de *"scope"*. Ce terme couvre le concept de capacité à accéder à des variables à différents endroits du code. Par exemple, on a défini dans la fonction au-dessus la variable `mots_de_foin`. Et elle fonctionne bien puisque la fonction retourne un résultat. Essayons ça :

In [19]:
print(compter_dans_une_autre_chaine("ton", texte))
print(mots_de_foin)

4


NameError: name 'mots_de_foin' is not defined

Une erreur familière ! La fonction `mots_de_foin` est dite inexistante. Pourtant, elle a bien existé puisque j'ai eu le résultat `4` au final.

En fait, les variables dans les fonctions ont une portée limitée à la fonction. Elle n'existe que dans le cadre de la fonction et n’est pas accessible ensuite. C'est pour cela que l'on utilise la déclaration `return` d'ailleurs, sinon, on ne pourrait pas avoir le résultat !

---

## Un fonction de décompte plus générale

Notre fonction `compter_dans_une_autre_chaine()` est un morceau utile qui va nous permettre de limiter la répétition de notre code et de le rendre trop verbeux. 

Cela dit, il serait intéressant de savoir combien de fois chaque mot apparaît dans le texte, on pourrait utiliser une boucle, ajouter 1 pour chaque mot, etc. Mais cela serait vraiment long.

Il y a deux manières de faire cela rapidement, qui évitent un tel problème :

### La version longue

Dans le chapitre précédent, vous vous êtes familiarisé-e avec la structure `dictionary`. Rappelez-vous qu'un dictionnaire se compose de clés et de valeurs et vous permet de récupérer rapidement une valeur. Nous allons utiliser un dictionnaire pour écrire la fonction `comptage` qui prend comme argument une liste et retourne un` dictionary` avec les mots comme clefs et en valeur le nombre de fois que ces mots sont dans la liste. Nous allons d'abord écrire du code sans la déclaration de fonction. Si cela fonctionne, nous l'écrirons dans une fonction.

Nous commençons par définir une variable `decompte` qui est un dictionnaire vide:

In [20]:
decompte = {}

Ensuite, nous allons boucler tous les mots de notre liste `mots`. Pour chaque mot, nous vérifions si le dictionnaire le contient déjà. Si ce n'est pas le cas, nous appelons la méthode `count` de notre liste `mots` pour découvrir la fréquence d'apparition du mot.

In [21]:
for mot in mots:
# A chaque élément dans la variable `mots`, j'assigne la valeur dans une variable `mot`
    if mot not in decompte:
        # Si le mot n'est pas dans les clefs du dictionnaire decompte
        decompte[mot] = mots.count(mot)
        # Je assigne à la clef mot le nombre de fois que la valeur de `mot`
        #    apparaît dans `mots`
print(decompte)
print(decompte['mon'])

{'Madame,': 2, "j'ai": 1, 'beaucoup': 1, 'de': 14, 'grâces': 1, 'à': 9, 'vous': 10, 'rendre': 1, ':': 2, 'un': 8, 'tel': 1, 'avis': 3, "m'oblige,": 1, 'et': 16, 'loin': 1, 'le': 6, 'mal': 1, 'prendre,': 1, "j'en": 1, 'prétends': 1, 'reconnoître,': 1, "l'instant,": 1, 'la': 1, 'faveur,': 1, 'par': 1, 'aussi': 2, 'qui': 5, 'touche': 1, 'votre': 3, 'honneur': 1, ';': 9, 'comme': 2, 'je': 7, 'vois': 1, 'montrer': 1, 'mon': 2, 'amie': 1, 'en': 4, "m'apprenant": 1, 'les': 8, 'bruits': 1, 'que': 7, 'moi': 1, "l'on": 1, 'publie,': 1, 'veux': 1, 'suivre,': 1, 'tour,': 1, 'exemple': 1, 'si': 2, 'doux,': 1, 'avertissant': 1, 'ce': 2, "qu'on": 2, 'dit': 1, 'vous.': 1, 'En': 1, 'lieu,': 1, "l'autre": 1, 'jour,': 1, 'où': 2, 'faisois': 1, 'visite,': 1, 'trouvai': 1, 'quelques': 1, 'gens': 2, "d'un": 5, 'très-rare': 1, 'mérite,': 1, 'qui,': 1, 'parlant': 1, 'des': 6, 'vrais': 1, 'soins': 1, "d'une": 2, 'âme': 1, 'vit': 1, 'bien,': 1, 'firent': 1, 'tomber': 1, 'sur': 3, 'vous,': 2, 'madame,': 2, "l'en

N'hésitez pas à relire le chapitre 1 si nécessaire .

Remarquez que l'on n’a rien fait si le mot était déjà dans notre dictionnaire. On n'a pas besoin puisque l'on a déjà fait le décompte !

Maintenant que notre code marche, on peut le transformer en fonction ! On définit la fonction `comptage` comme vue plus haut. On a besoin cette fois d'un seul argument :

In [22]:
def comptage(mots):  
    decompte = {}
    for mot in mots:
        if mot not in decompte:
            decompte[mot] = mots.count(mot)
    return decompte

Normalement, la répétition qui suit va être ennuyante, mais au cas où :

1. On définit une fonction `comptage()` via `def` en lui donnant un paramètre (`mots`)
2. Je crée un dictionnaire vide `decompte` qui me servira de réceptacle
3. Pour chaque élément dans la valeur `mots`, j'assigne sa valeur dans une variable `mot`
    1. Si le mot n'est pas dans les clefs du dictionnaire decompte, alors
        1. Je définis la cle du dictionnaire decompte représentée par `mot`
        2. J'y assigne comme valeur le nombre de fois qu'il apparaît dans la liste `mots`
4. Une fois la boucle finie, je renvoie le résultat de la boucle.

In [23]:
print(comptage(mots))
vocabulaire_cid = comptage(mots)
print('"mon" apparaît ' + str(vocabulaire_cid['mon']) + ' fois.')

{'Madame,': 2, "j'ai": 1, 'beaucoup': 1, 'de': 14, 'grâces': 1, 'à': 9, 'vous': 10, 'rendre': 1, ':': 2, 'un': 8, 'tel': 1, 'avis': 3, "m'oblige,": 1, 'et': 16, 'loin': 1, 'le': 6, 'mal': 1, 'prendre,': 1, "j'en": 1, 'prétends': 1, 'reconnoître,': 1, "l'instant,": 1, 'la': 1, 'faveur,': 1, 'par': 1, 'aussi': 2, 'qui': 5, 'touche': 1, 'votre': 3, 'honneur': 1, ';': 9, 'comme': 2, 'je': 7, 'vois': 1, 'montrer': 1, 'mon': 2, 'amie': 1, 'en': 4, "m'apprenant": 1, 'les': 8, 'bruits': 1, 'que': 7, 'moi': 1, "l'on": 1, 'publie,': 1, 'veux': 1, 'suivre,': 1, 'tour,': 1, 'exemple': 1, 'si': 2, 'doux,': 1, 'avertissant': 1, 'ce': 2, "qu'on": 2, 'dit': 1, 'vous.': 1, 'En': 1, 'lieu,': 1, "l'autre": 1, 'jour,': 1, 'où': 2, 'faisois': 1, 'visite,': 1, 'trouvai': 1, 'quelques': 1, 'gens': 2, "d'un": 5, 'très-rare': 1, 'mérite,': 1, 'qui,': 1, 'parlant': 1, 'des': 6, 'vrais': 1, 'soins': 1, "d'une": 2, 'âme': 1, 'vit': 1, 'bien,': 1, 'firent': 1, 'tomber': 1, 'sur': 3, 'vous,': 2, 'madame,': 2, "l'en

---

#### Exercice

Essayons de mettre en pratique ce que l'on a vu jusque là. On va lire le fichier `data/misanthrope.acte3.scene4.txt`, le convertir en liste de mot et assigner à la variable `compte_de_mais` le nombre de fois que mais apparaît dans le texte :

In [24]:
# Votre code ici
with open ('data/misanthrope.acte3.scene4.txt') as fichier_misanthrope:
    texte_misanthrope = fichier_misanthrope.read()
    mots = texte_misanthrope.split()
    vocabulaire_misanthrope = comptage(mots)
    compte_de_mais = vocabulaire_misanthrope["mais"]

# Le test suivant ne devrait pas créer d'erreurs
assert compte_de_mais == 4, "Il y a 4 'mais'"

*Le nombre de lignes écrites par vous-mêmes ne devrait pas dépasser les 6 ou 7 lignes*

---

### Une alternative à la fonction de comptage : éviter les doublons avec `set`

Le problème de la fonction d'avant, c'est qu'elle passe sur certaines valeurs plusieurs fois et que l'on est obligé de faire un if pour que cela fonctionne correctement. On peut parler de code non optimisé: une tâche est faite un bon nombre de fois sans avoir d'impact et prend du temps que l'on pourrait gagner.

Aussi, il serait bon de savoir quelles sont les valeurs uniques de la liste de mots. Pour cela, on utilise le type `set()` :

In [28]:
x = ['a', 'a', 'b', 'b', 'c', 'c', 'c']
unique_x = set(x) #on caste x
y = [1, 1, 4, 3, 1, 2, 2, 4]
print(unique_x)
print(set(y))

{'a', 'b', 'c'}
{1, 2, 3, 4}


In [31]:
#souvent on fera ça
a = [1,2,3,4,2,3,6]
b = set(a)
c = list(b)

#ou plutôt
a = list(set([1,2,3,4,2,3,6]))

#un set est sous la forme {1,2,3}

Les sets sont des sortes de liste où les valeurs sont forcément uniques; ils sont itérables et muables. En transformant une liste en set, on supprime les doublons. Attention cependant, un set n'est pas ordonné et ne peut donc pas être accédé par des index :

In [27]:
unique_x[0]

TypeError: 'set' object is not subscriptable

Cependant, on peut lui ajouter des valeurs. Au lieu d'utiliser `append()` on utilise `add()` :

In [32]:
unique_x.add("test")
unique_x

{'a', 'b', 'c', 'test'}

À partir de cela, on peut faire une fonction plus simple:

In [33]:
def comptage2(mots):
    sans_doublon = set(mots)
    compteur = {}
    for mot in sans_doublon:
        compteur[mot] = mots.count(mot)
        print(mot)
    return compteur

On vérifie que cela marche :

In [34]:
decompte = comptage2(mots)
print(decompte["et"])

par
zèle
pitié
exacte
visite,
dévots
l'amour
suivre,
m'apprenant
trouvai
cette
aux
commun
extérieur,
discours
sentiment.
besoin,
exemple
avertissant
quoi
dehors
condamner
peine
si
cités
sagesse
quelques
bien,
défense,
qu'aux
commis
assurai
mon
étale
chacun
veux
autres,
avant
faut
affectation
fréquentes
dernier
qui,
vie
peu
beaucoup
vous.
des
où
très-rare
furent
sage
blanc
feriez
remettre,
mien
nudités
franchement,
parlant
Madame,
ce
elle
lieux
ombres
mot
intérêts.
un
l'autre
soins
pas
moins
d'honneur,
tous,
les
aigres
avoir
tout
j'ai
;
tomber
hauteur
tel
blâmé
veut
l'attribuer
regarder
Elle
a
tour,
l'innocence,
jetez
:
disoient-ils,
long
qu'encor
fort
du
mal
j'en
mettre
faisois
mieux
faire
sont
ne
autres
plus
grand
on
Dans
Pour
au
bon
leur
reste
éternels
ciel
lieu,
pour
doit
faveur,
mérite,
pris
innocentes
bon,
gens,
gens
médisance
d'une
raisonnable,
soi-même
trop
temps,
point.
couvrir
montrer
qui
est
moi
modèle
l'entretien.
ambigu
c'étoit
peut
cris
bien
soin
pruderie
d'indécence
préte

---

### Documenter une fonction : méthode Sphinx

Tout comme il est bien de documenter avec des # les lignes de votre code afin de mieux le comprendre, il est encore mieux de commenter ses fonctions. On distingue plusieurs méthodes de documentation : la documentation [reStructuredText (rst)](https://docs.python.org/devguide/documenting.html) et la documentation Google sont les plus communes. Voyons un exemple de la RST !

In [35]:
def comptage2(mots):
    """ Compte et stocke le décompte de chaque mot dans une liste de mots
    
    :param mots: Liste de mots
    :type mots: list
    :returns: Dictionnaire où les clefs sont les mots et les valeurs le nombre d'occurrences
    :rtype: dict
    """
    sans_doublon = set(mots)
    compteur = {}
    for mot in sans_doublon:
        compteur[mot] = mots.count(mot)
    return compteur

Qu'avons-nous fait ?

1. Nous avons utilisé le commentaire en triple guillemet `"""` qui permet de faire des commentaires en multilignes.
2. La première ligne est consacrée à la description de ce à quoi sert la fonction
3. On décrit un paramètre via `:param mots:` : la syntaxe est fixe `:param ` suivi du nom de mon paramètre et de `:` puis on décrite ce paramètre, ce qui est attendu
4. Quand cela fait sens, on peut compléter `:param mots:` par `:type mots:` qui donne le type de données attendues (`list`, `str`, `dict`, `int`, `TextIOWrapper`, etc.)
5. Une fois tous les paramètres décrits, on décrit ce qui est renvoyé après `:returns:`
6. Quand cela fait sens, on peut compléter `:returns:` par `:rtype:` (pour *returns type*) comme pour les paramètres.

### Exercice

Écrire une fonction `statistiques_mots` qui prend un chemin de fichier et qui renvoie un dictionnaire de compte d'occurrences. Documentez votre fonction.

In [65]:
# Votre code ici
def statistiques_mots(chemin):
    """Compte et stocke le décompte de chaque mot d'un fichier dans une liste
    
    :param chemin: fichier
    :type chemin: TextIOWrapper
    :returns: dictionnaire où les clefs sont les mots et les valeurs le nombre d'occurences
    :rtype: dict
    """
    with open(chemin) as f:
        f_o = f.read()
        mots = f_o.split()
        sans_doublons = set(mots)
        compteur = {}
        for mot in sans_doublons:
            compteur[mot] = mots.count(mot)
        return compteur
    
# Cette portion vérifie que votre code fonction
# En finissant la ligne par un "\", on échappe le saut de ligne
assert statistiques_mots("data/liaisons.118.txt")["et"] == 15, \
    "Il y a 52 occurrences de et dans le texte du fichier W"

{"l'amour": 1, 'sans': 1, 'tant': 2, 'recueillir,': 1, 'amie,': 1, 'augmente': 1, "l'amour,": 1, 'distrait-il': 1, 'près,': 1, 'encore,': 1, 'journées': 1, 'mauvais': 1, "d'abord": 1, 'peu': 3, 'envie': 1, 'Marquise': 1, 'avez': 1, "l'objet,": 1, "N'est-ce": 1, 'ici,': 1, "l'avoir": 1, 'aurais-je': 1, "C'est": 1, 'un': 2, 'moment': 1, 'MERTEUIL._': 1, 'tout': 8, 'précieux': 1, "j'ai": 2, "n'êtes": 1, 'quereller!': 1, 'jours': 1, 'adorable': 2, 'difficile': 1, 'deux': 2, 'savez,': 1, 'cru': 1, "j'en": 3, 'bonheur': 1, 'Les': 1, 'ne': 11, 'Dans': 1, 'au': 3, 'tout:': 1, 'chut!': 1, 'différence:': 1, 'dernière': 1, 'désoccupé,': 1, 'Aussi': 1, 'absence?': 1, 'raisonnable,': 1, 'présence?': 1, 'beau': 4, "m'intéressent": 1, 'cent': 1, 'peut': 2, 'aimables,': 1, 'pouvoir': 1, 'réserve!': 1, 'serait': 1, "J'aime": 1, 'suis': 2, 'comme': 1, 'écrire?': 1, "n'entendez-vous": 1, 'Chevalier': 1, 'semble': 1, 'ces': 1, "Quoiqu'on": 1, 'secrets': 1, 'lettre': 1, 'bonne': 1, 'vous,': 2, "n'ose": 1, 

----

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `def`
- paramètres et argument
- portée des variables (*scope*)
- documentation reStructuredText
- `set()`

---

## Nettoyer des données textuelles

Dans la section précédente, nous avons écrit du code pour calculer une distribution de fréquence des mots dans un texte stocké sur notre ordinateur. La méthode `split()` est une manière rapide pour diviser une chaîne en une liste de mots. Mais si nous regardons de plus près nos distributions de fréquence, nous remarquons beaucoup de bruit. Par exemple, le pronom *on* apparaît 1 fois, mais nous trouvons aussi `qu'on` survenant une fois. Et `et` et `Et` sont différents. Bien sûr, nous aimerions ajouter ces chiffres ensemble.

Il y a deux stratégies à suivre pour corriger nos distributions de fréquences. Le premier est de trouver une meilleure procédure pour diviser notre texte en mots. La seconde consiste à nettoyer notre texte et à passer ce résultat propre à la méthode `split`. Pour l'instant nous suivrons nous occuperons du deuxième.

Certains mots de notre texte sont en majuscules. Pour minuter ces mots, Python fournit la méthode `lower`. Il fonctionne sur des chaînes:

In [36]:
x = 'E'
x_lower = x.lower()
print(x_lower)

e


On peut appliquer cette fonction à notre texte complet pour obtenir un texte en minuscule de la même manière :

In [37]:
texte = "Les virgules, si on y pense, vraiment, je vous assure, sont SupErFlues."
texte_lower = texte.lower()
print(texte_lower)

les virgules, si on y pense, vraiment, je vous assure, sont superflues.


Cela résout notre problème de la compréhension des mots en majuscules, nous laissant avec le problème de la ponctuation. La méthode `replace` est justement la fonction que nous recherchons. Il prend deux arguments: (1) la chaîne que nous aimerions remplacer et (2) la chaîne qui servira de remplacement:

In [38]:
phrase = 'Mais. Arrêtez. De. Me. Couper. Dans. Mon. Élocution. S\'il. Vous. Plait'
sans_points = phrase.replace(".", "")
print(sans_points)

Mais Arrêtez De Me Couper Dans Mon Élocution S'il Vous Plait


Remarquez que pour supprimer les `.`, on a fourni une chaîne vide `""`. On aurait pu les remplacer par le mot `point`, mais cela ne nous aurait pas vraiment avancés.

---

#### Exercice

Nettoyez cette chaîne en supprimant les virgules, les points et les majuscules.

In [45]:
texte = "Les virgules, si on y pense, vraiment, je vous assure, sont superflues."
# Votre code ici
texte = texte.lower().replace(",", "").replace(".", "")

# Et on vérifie avec le test.
# Notez que si le copier coller est bien, il est mal de copier la chaîne en dessous au dessus.
# Le test marcherait mais cela serait un peu malhonnête.
print(texte == "les virgules si on y pense vraiment je vous assure sont superflues")

True


---

Et si on voulait supprimer toute la ponctuation d'un texte, pas seulement les points et les virgules ? On va écrire une fonction `supprimer_ponctuation` qui va faire ce que son nom indique. Il y a plein de manières d'écrire cette fonction, on va vous en montrer deux. La première stratégie est de répeter `replace` sur la même chaîne en changeant à chaque fois la l'élément de ponctuation par une chaîne vide.

In [46]:
def supprimer_ponctuation(texte):
    """ Supprimer les caractères de ponctuation d'un texte
    
    :param texte: Texte à nettoyer
    :type texte: str
    :returns: Texte sans ponctuation
    :rtype: str
    """
    ponctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
    for marqueur in ponctuation:
        texte = texte.replace(marqueur, "")
    return texte

texte_court = "Les virgules, si l'on y pense, vraiment, je vous assure, sont superflues."
print(supprimer_ponctuation(texte_court))

Les virgules si lon y pense vraiment je vous assure sont superflues


L'autre stratégie qui permet d'arriver au même résultat n'utilise pas la fonction `replace`. Cela consiste à itérer sur la chaîne de caractère et de vérifier s’ils sont acceptables:

In [47]:
def supprimer_ponctuation2(texte):
    """ Supprimer les caractères de ponctuation d'un texte
    
    :param texte: Texte à nettoyer
    :type texte: str
    :returns: Texte sans ponctuation
    :rtype: str
    """
    ponctuation = '!@#$%^&*()_-+={}[]:;"\'|<>,.?/~`'
    nouveau_texte = ""
    for charactere in texte:
        if charactere not in ponctuation:
            nouveau_texte += charactere
    return nouveau_texte

texte_court = "Les virgules, si l'on y pense, vraiment, je vous assure, sont superflues."
print(supprimer_ponctuation2(texte_court))

Les virgules si lon y pense vraiment je vous assure sont superflues


---

#### Exercice

Il est temps de faire votre propre fonction. À partir du test et de la documentation, compléter le code ci-dessous.

In [66]:
def nettoyer_texte(texte, ponctuation):
    """ Cette fonction transforme les majuscules en minuscules et supprime la ponctuation
    
    :param texte: Texte à nettoyer
    :type texte: str
    :param ponctuation: Charactères à supprimer
    :type ponctuation: str
    :returns: Texte sans les charactères et en minuscule
    :rtype: str
    """
    # Votre code ici
    nouveau_texte = ""
    for caractere in texte:
        if caractere not in ponctuation:
            charactere = caractere.lower()
            nouveau_texte += charactere
    return nouveau_texte

# Le test qui vérifie tout
texte_court = "Les virgules, il paraît, sont superflues. Les points - au contraire - ne le sont pas!"
assert nettoyer_texte(texte_court, "!,-.") == \
    "les virgules il paraît sont superflues les points  au contraire  ne le sont pas", \
    "Des caractères n'ont pas été supprimés ou transformés"

Et maintenant, tout ensemble ! On va :
- ouvrir le fichier `data/misanthrope.acte3.scene4.txt` et récupérer son texte,
- on supprimera la ponctuation
- on remplacera les apostrophes et les traits d'unions par des espaces
- on fera des statistiques d'occurrences

In [67]:
def separateur_de_texte(texte):
    """ Cette fonction remplace les apostrophes et les traits d'unions par des espaces
    
    :param texte: Texte à nettoyer
    :type texte: str
    :returns: Texte simplifié
    :rtype: str
    """
    nouveau_texte = ""
    ponctuation = '!@#$%^&*()_+={}[]:;"|<>,.?/~`'
    for caractere in texte:
        if caractere in ponctuation:
            nouveau_texte += caractere.replace(caractere, "")
        elif caractere == "'" or caractere == "-":
            nouveau_texte += caractere.replace(caractere, " ")
        else:
            nouveau_texte += caractere
    return nouveau_texte


In [79]:
# Votre code ici
with open('data/misanthrope.acte3.scene4.txt') as fichier_ouvert:
    texte = fichier_ouvert.read()
    texte_separe = separateur_de_texte(texte)
    mots = texte_separe.split()
    decompte={}
    for mot in mots:
        if mot not in decompte:
            decompte[mot] = mots.count(mot)
    decompte['on']
    decompte['moi']
    
    

# Les tests
assert decompte["on"] == 4
assert decompte["moi"] == 2

### Aller plus loin : évaluer le temps d'une fonction

**Cette partie n'est pas nécessaire pour avancer dans le cours. Cependant, il peut être intéressant de se pencher sur comment on évalue les performances d'un morceau de code**

L'optimisation de code est une tâche extrêmement importante dans le développement d'une application. Par exemple, imaginons que nous offrions une possibilité de faire une recherche sans accent dans 10.000 fichiers à nos utilisateurs-rices en ligne. Chaque recherche va devoir ouvrir, convertir les fichiers en fichiers sans accents, convertir la recherche de notre utilisateur-rice. Autant dire que si votre code met plus de 20 secondes à trouver les résultats, votre utilisateur-rice ne fera pas beaucoup de recherches.

Il s'agit alors de pouvoir évaluer comment une fonction se comporte et combien de temps elle peut prendre en la comparant avec une autre méthode d'écriture. Vous trouverez ci-dessous un exemple de morceau de code qui permet de comparer deux fonctions. Amusez-vous avec la variable `nombre_de_repetitions` !

In [51]:
# Ceci est un import. Nous verrons cela plus en détails plus tard mais il s'agit d'importer 
# la chose portant le nom 'default_timer' de la librairie timeit
from timeit import default_timer

# On met en place un nombre de répétitions. Comparer une seule itération serait peu correct.
nombre_de_repetitions = 100000

# On prend l'heure à la seconde fractionnelle près
temps_replacement_1 = default_timer()
# On boucle sur range(10000) : range sera un generator qui créera toute les valeurs
# entre 0 et 10000 exclu
for intervention in range(nombre_de_repetitions):
    # On supprime la ponctuation mais nous n'avons pas besoin du résultat donc on assigne
    # pas celui-ci à une variable
    supprimer_ponctuation(texte)
# On compare l'heure qu'il est avec l'heure que l'on avait avant.
# Cette comparaison est notre temps d'exécution
temps_replacement_1 = default_timer() - temps_replacement_1


temps_replacement_2 = default_timer()
for intervention in range(nombre_de_repetitions):
    supprimer_ponctuation2(texte)
temps_replacement_2 = default_timer() - temps_replacement_2


print("Temps pris par la fonction 1 pour "+ str(nombre_de_repetitions) +
      " itérations : " + str(temps_replacement_1))

print("Temps pris par la fonction 2 pour "+ str(nombre_de_repetitions) +
      " itérations : " + str(temps_replacement_2))


Temps pris par la fonction 1 pour 100000 itérations : 0.8248043200001121
Temps pris par la fonction 2 pour 100000 itérations : 0.9295966270001372


---

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.
- `lower()`
- `replace(__, __)`
- (Aller plus loin) `range()`

---

## Ecrire dans un fichier

On est arrivé loin ! Il reste bien sûr encore plein de choses à voir, mais bon... Réjouissons-nous du chemin déjà parcouru !

Regardons comment écrire simplement dans un fichier:


In [60]:
# On en profite pour rappeler et que les termes input et output sont très souvent utilisés
# en programmation

output = open("resultats/premier-resultat.txt", mode="w")
output.write("Mon premier résultat.")
output.close()

# Ou l'équivalent :
with open("resultats/deuxieme-resultat.txt", mode="w") as fichier_texte:
    fichier_texte.write("Mon 2eme résultat.")
    
#pour écrire à la suite dans un fichier
with open("resultats/deuxieme-resultat.txt", mode="r") as fichier_texte:
    texte = fichier_texte.read() #j'ai stocké le texte dans la variable texte pour ensuite l'appeler
with open("resultats/deuxieme-resultat.txt", mode="w") as fichier_texte:
    fichier_texte.write(texte + "Mon 2eme résultat.")
    
#autre méthode : mode a écrit à la suite dans un fichier: a réécrit toujours à la fin
with open("resultats/deuxieme-resultat.txt", mode="a") as fichier_texte:
    fichier_texte.write("\nMon 3eme résultat.")

Allez-y, ouvrez ces fichiers dans votre explorateur de fichiers. Vous verrez que les deux fichiers comportent les données ici définies.

Si on regarde bien, les syntaxes sont très proches de ce que l'on avait fait auparavant pour lire. La différence ? La définition du paramètre `mode` avec la valeur `w` (pour *write*, écrire). Sinon, le reste est le même : on ouvre, on ferme ou on utilise `with` qui le fait lui-même.

En fait, la lecture de fichier se fait en mode `r` pour *read* (lecture). Le type d'interaction à venir avec un fichier sera donc défini par le mode utilisé à son ouverture. Mais comment se fait-il que l'on puisse ne pas définir mode ?

#### Les arguments optionnels ou défauts de python

En fait, Python fournit pour ses arguments la possibilité de définir des valeurs par défaut à la création de la fonction, regardez plutôt :

In [61]:
def supprimer_ponctuation(texte, ponctuation='?,.!'):
    """ Supprimer les caractères de ponctuation d'un texte
    
    :param texte: Texte à nettoyer
    :type texte: str
    :param ponctuation: Caractères à supprimer
    :type ponctuation: str
    :returns: Texte sans ponctuation
    :rtype: str
    """
    for marqueur in ponctuation:
        texte = texte.replace(marqueur, "")
    return texte

a_tester = "Je. suis. fatigué. de. devoir. écrire. des. exemples, non ?"
assert supprimer_ponctuation(a_tester) == supprimer_ponctuation(a_tester, "?.,")
assert supprimer_ponctuation(a_tester) == supprimer_ponctuation(a_tester, ponctuation="?.,")
assert supprimer_ponctuation(a_tester) != supprimer_ponctuation(a_tester, ponctuation=",")

Ici, `ponctuation` a une valeur par défaut `'?,.!'`. Cela signifie que si l'on ne donne pas de valeur à cet argument, cette valeur sera fournie par la définition de la fonction.

Lisez la phrase précédente jusqu'à la comprendre.

Maintenant, on remarque que `ponctuation` peut-être soit utilisé en le donnant dans l'ordre original (en deuxième position) ou en utilisant son nom : Python fournit aussi pour les fonctions la possibilité d'utiliser les arguments nommés (aussi appelées arguments mots-clefs, `named argument`, `keyword argument` et en raccourci `kwargs`). Voyez plutôt :

In [62]:
assert supprimer_ponctuation(a_tester, ",?,") == \
    supprimer_ponctuation(texte=a_tester, ponctuation=",?,")
assert supprimer_ponctuation(a_tester, ",?,") == \
    supprimer_ponctuation(ponctuation=",?,", texte=a_tester)

Relisez bien ce qui vient d'être dit, prenez le temps. Il est très important de comprendre cela avant d'avancer.

---

#### Ce que l'on a appris

Pour finir cette section, voici un récapitulatif des concepts appris. Lisez la liste et posez des questions si certaines choses ne sont pas claires.

- `open(_, mode="w")`
- `.write()`
- *keyword arguments*
- valeurs par défaut dans les fonctions

---

#### Exercice

Dans cet exercice final, on va vous demander de calculer la distribution totale des mots dans l'intégralité d'*Horace* de Corneille. Le texte a été copié depuis le projet Théâtre Classique ( http://www.theatre-classique.fr/pages/programmes/edition.php?t=..%2Fdocuments%2FCORNEILLEP_HORACE.xml )

In [5]:
def ecrire_colonne(distribution, fichier):
    """ Ecrit dans un fichier chaque mot en clef de distribution avec la fréquence associée
    dans un fichier donné.
    
    :param distibution: Dictionnaire où la clef est un mot et la valeur le nombre d'occurrence
    :type distribution: dict
    :param fichier: Fichier ouvert pour l'écriture
    :type fichier: TextIOWrapper
    """
    fichier.write("Mot;Distribution\n")
    for mot, frequence in distribution.items():
        fichier.write(mot + ";" + str(frequence) + '\n')

# Ouvrir le fichier et stocker son contenu
with open("data/horace.txt") as fichier:
    horace = fichier.read()

# Nettoyer le texte de sa ponctuation
ponctuation = '!@#$%^&*()_-\'+={}[]:;"\\|<>,.?/~`'
for marqueur in ponctuation:
    horace = horace.replace(marqueur, " ")
    
#tout passer en minuscules
horace = horace.lower()

# Calculer la distribution
mots = horace.split()
distribution = {}
# je caste la liste de mots en set, et je ne le stocke pas dans la mémoire car c'est un set 
# (permet de supprimer les doublons; itérable; a une mémoire; non ordonné donc non indexable): 
# c'est la loi de Zipf, ça va plus vite ainsi
for mot in set(mots):
    distribution[mot] = mots.count(mot)

# Ouvrir le fichier `frequence_horace.csv` pour écrire
with open("resultats/frequence_horace.csv", "w") as f:

    # Utiliser la fonction ecrire_colonne pour écrire dans ce fichier
    ecrire_colonne(distribution, f)


In [1]:
#exo supplémentaire: passer de frequence_horace.csv à des fréquences relatives
#ouvrir le csv de la correction, ajouter une troisième colonne qui est la fréquence relative des termes
#fréquence relative = (fréquence mot)/(nombre de mots au total du texte)

import csv

f = open("resultats/frequence_horace.csv", "r")
f_ouvert  = csv.reader(f, delimiter = ";")
next(f_ouvert)
#calcul du nombre de lignes, début à -1 pour tenir compte de l'en-tête
i= -1
dict = {}
for row in f_ouvert:
    i += 1
    dict[row[0]] = row[1]
with open("resultats/frequence_horace_relative.csv", "w") as f_e:
    f_ecriture = csv.writer(f_e)
    #écriture de la ligne d'en-tête
    f_ecriture.writerow(["Mot,Distribution,Fréquence relative"])
    for item in dict.items():
        frequence_relative = int(item[1]) /  i
        bloc = [item[0]] + [item[1]] + [str(frequence_relative)]
        f_ecriture.writerow(bloc)
f.close()


In [4]:
#correction fréquence relative
import csv

def ecrire_colonne(distribution, fichier):
    """ Ecrit dans un fichier chaque mot en clef de distribution avec la fréquence associée
    dans un fichier donné.
    
    :param distibution: Dictionnaire où la clef est un mot et la valeur le nombre d'occurrence
    :type distribution: dict
    :param fichier: Fichier ouvert pour l'écriture
    :type fichier: TextIOWrapper
    """
    fichier.write("Mot;Distribution\n")
    for mot, frequence in distribution.items():
        fichier.write(mot + ";" + str(frequence) + '\n')

# Ouvrir le fichier et stocker son contenu
with open("data/horace.txt") as fichier:
    horace = fichier.read()

# Nettoyer le texte de sa ponctuation
ponctuation = '!@#$%^&*()_-\'+={}[]:;"\\|<>,.?/~`'
for marqueur in ponctuation:
    horace = horace.replace(marqueur, " ")
    
#tout passer en minuscules
horace = horace.lower()

# Calculer la distribution
mots = horace.split()
distribution = {}
# je caste la liste de mots en set, et je ne le stocke pas dans la mémoire car c'est un set 
# (permet de supprimer les doublons; itérable; a une mémoire; non ordonné donc non indexable): 
# c'est la loi de Zipf, ça va plus vite ainsi
for mot in set(mots):
    distribution[mot] = mots.count(mot)

distribution_relative = {}
total_mot = sum(list(distribution.values()))
#ou total_mot = len(mots)

for mot, freq in distribution.items():
    distribution_relative[mot] = freq / total_mot

# Ouvrir le fichier `frequence_horace.csv` pour écrire
with open("resultats/frequence_horace_relative_correction.csv", "w") as f:

    # Utiliser la fonction ecrire_colonne pour écrire dans ce fichier
    ecrire_colonne(distribution_relative, f)


---

---

<p><small><a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/"><img alt="Creative Commons License" style="border-width:0" src="https://i.creativecommons.org/l/by-sa/4.0/88x31.png" /></a><br /><span xmlns:dct="http://purl.org/dc/terms/" property="dct:title">Python Programming for the Humanities</span> by <a xmlns:cc="http://creativecommons.org/ns#" href="http://fbkarsdorp.github.io/python-course" property="cc:attributionName" rel="cc:attributionURL">http://fbkarsdorp.github.io/python-course</a> is licensed under a <a rel="license" href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Attribution-ShareAlike 4.0 International License</a>. Based on a work at <a xmlns:dct="http://purl.org/dc/terms/" href="https://github.com/fbkarsdorp/python-course" rel="dct:source">https://github.com/fbkarsdorp/python-course</a>.</small></p>