# Chapitre 5: Fonctions et fichiers

## Lecture/Écriture de fichiers

La source pour vos programmes vient souvent de fichiers sur votre disque, par exemple des corpus (un 'corpus' est une large collection de textes digitaux en linguistique). De la même manière, vous aurez souvent à écrire les résultats sur des fichiers de votre disque. Donc, lire et écrire des fichiers est souvent une partie essentielle de la programmation, et bien heureusement, c'est très simple en python. L'exemple suivant lit un fichier du disque:

In [None]:
f = open('data/austen-emma-excerpt.txt', 'rt', encoding='utf-8')
text = f.read()
f.close()
print(text)

Faites attention: la fonction `open()` ne retourne pas le fichier qui est sauvegardé dans le fichier text. Cela retourne seulement un objet fichier depuis lequel on peut lire le contenu via la fonction `read()`. On a donné trois arguments à la fonction `open()`:

* Le nom du fichier que l'on veut ouvrir
* Le mode, une combinaison de lettres, 'r' représente le mode de lecture (read) et 't' représente le mode plein-texte. Cela indique que l'on lit un fichier plein texte
* le dernier argument, un argument nommé (`encoding`), spécifie l'encoage du fichier texte.


>UTF-8

>You may wonder what an encoding is and what *utf-8* is. For anyone working with texts and computers this is vital to know. Internally, a computer knows no characters whatsoever: every piece of information is represented as numbers (which in turn are represented in a binary format, as zeroes and ones). An encoding specifies which numbers represent which characters. A famous and long-standing encoding scheme is ASCII, in which for example the letter 'A' is encoded using the number 65. ASCII however only has a very limited alphabet and can not encode a lot of writing systems. A modern-day encoding supporting countless writing systems is *unicode* and *utf-8* is a kind of unicode. This the type of encoding that you will want to use for your data whenever possible. Whenever you have a choice, you should use unicode!

Lire un fichier entier n'est pas toujours désirable, surtout avec de grands fichiers. L'exemple suivant lit chaque ligne une à une.


In [None]:
f = open('data/austen-emma-excerpt.txt','rt', encoding='utf-8')
for line in f:
    print(line)
    print("n")
f.close()

Le charactère de nouvelle ligne est peut-être quelqe chose de nouveau pour vous. Si vous travaillez avec des fichiers plein texte (typiquement des fichiers qui finissent par '.txt'), votre machine utilise un charactère spécial pour signaler qu'une nouvelle ligne commence. A l'intérieur, ces nouvelles lignes sont représentées par `"\n"`. Normalement, ces charactères sont visualiez sur votre écran comme si la touche entrée avait été appuyée. Regardons ce qui se passe ci-dessous:

In [None]:
s = "This is the first line.\nThis is the second line."
print(s)

Il existe un charactère d'encodage similaire pour la tabulation, `\t`. Vous pouvez utilisez ce charactère pour vous amuser avec l'indentation de votre résultat (e.g. une structure hiérarchisée):


In [None]:
s = "First line\n\t* Second line\n\t* Third line\n\t* Fourth line\nFifth line"
print(s)

Dans le code au-dessus pour lire le fichier Austen, la nouvelle ligne est déjà comprise avec la ligne originale qui la précédait dans le fichier: c'est pourquoi vous voyez toutes ces lignes vides en plus. Si vous souhaitez supprimer toutes les espaces blancs (nouvelles lignes, espaces mais aussi tabulations) en trop au début et à la fin de la chaîne en utilisant la fonction `strip()`:

In [None]:
s = "   strip me!    "
print(s.strip())

Maintenant, essayez d'adapter ce code qui lit le fichier Austen et faites en sorte que le code affiche chaque ligne sans les espaces la précédant et la suivant ! Est-ce que les indésirables doubles lignes ont disparu ?

In [None]:
f = open('data/austen-emma-excerpt.txt','rt', encoding='utf-8')
for line in f:
    print(line)
f.close()

Plutôt que d'afficher, on peut bien bien sûr faire ce que l'on veut avec le contenu d'un fichier. Comptons donc le nombre de lignes (mais notez qu'une ligne ne veut pas forcément dire une phrase).

In [None]:
count = 0
f = open('data/austen-emma-excerpt.txt', 'rt', encoding='utf-8')
for line in f:
    count += 1
f.close()
print(count)

#### Quiz

Lisez lie fichier `data/austen-emma-excerpt.txt` et comptez la longueur moyenne (en charactères) de ses lignes.

In [None]:
f = open('data/austen-emma-excerpt.txt', 'rt', encoding='utf-8')
# insert your code here
# important: always remember to properly close your files again!

- - -

Maintenant que nous sommes maîtres en l'art de lire les fichiers, passons à l'écriture de fichier, qui suit une logique similaire:

In [None]:
f = open('data/testoutput.txt', 'wt', encoding='utf-8')
f.write("Hello world!")
f.close()

Dans ce bloc de code, nous avons automatiquement créé un fichier appelé `testoutput.txt` dans le dossier `data`. Nous pouvons désormais écrire une simple ligne dans ce fichier puis le fermer. Remarquez que `w` dans `wt` est un ajout crucial: si vous l'aviez oublié, Python aurait ouvert un fichier en mode "lecture seule" et vous n'auriez pu écrire dedans ! L'argument `t` signifie encore une fois que nous écrirons dans le fichier en mode plein texte.

Si vous voulez que les données soient écrites sur des lignes multiples, vous devez encodez spécifiquement les nouvelles lignes. A la place de :
    

In [None]:
f = open('data/testouput.txt','wt', encoding='utf-8')
f.write("Hello world on the first line!")
f.write("Hello world on the second line!")
f.close()

Vous devez écrire:

In [None]:
f = open('data/testoutput.txt','wt', encoding='utf-8')
f.write("Hello world on the first line!\n")
f.write("Hello world on the second line!")
f.close()

Sinon vous auriez eu `Hello world!Hello world!` dedans, i.e. sans les sauts de ligne.

En dehors du mode lecture et écriture quand on gère des fichiers textes, il y a aussi le mode ajout en Python. Faites attentions: en mode écriture, vous écraserez les contenus existents du fichier. Cependant, si vous ouvrez un fichier en mode ajout (append), tout ce que vous écrirez sera ajouté à la fin du chier, sans supprimer aucun contenu du fichier existant. Pour rentrer dans ce mode, il vous faut spécifier `'at'` comme second paramètre de votre fonction pour ouvrir le fichier (`a` pour le mode ajout, `t` pour le texte)

#### Exercice

Lisez le fichier `data/austen-emma-excerpt-tokenised.txt` et écrivez dans le fichier  `words.txt` tous les mots apparaissant dans le texte (sans les doublons !), dans l'ordre alphabétique, un mot par ligne. De cette manière, vous pouvez déjà écrire un dictionaire ou la liste de mot d'un texte (pensez à utiliser les sets !)

In [None]:
# insert your code here

Vérifiez le résultat dans `words.txt` dans un éditeur de texte comme Sublime Text 2. (Utilisateurs windows : n'utilisez pas Notepad !)

---

## Importer des modules externes

La plupart des fonctionnalités que nous avons utilisées jusqu'ici sont simplement comprises dans le langage Python lui-même. Cependant vous devrez souvent utilisez des modules externes dans votre code. Un grand nombre de modules extrnes sont d'ors et déjà disponibles dans la bibliothèque standard python, pour réaliser des actions d'une grande variété. Il y a aussi par ailleurs un grand nombre de fournisseurs tiers de modules python.

Pour utiliser un module externe, il faut simplement l'importer explicitement. Avec le module `random` par exemple, on peut générer des nombres au hasard.

In [None]:
import random
print(random.randint(0, 100))

Notez la syntaxe utilisée : en utilisant le point, on indique à notre machine de chercher la fonction `randint()` à l'intérieur du module `random` que l'on vient d'inmporter. Vous pouvez importer un module entier ou simplement une fonction du module. On aurait pu importer une seule fonction comme suit:

In [None]:
from random import randint
print(randint(0, 100))

Dans ce cas, nous n'aurions pas à spécifier où la machine devrait trouver la fonction `randint()`. On peut aussi temporairement changer le nom de la fonction que vous importez:

In [None]:
from random import randint as gimme_a_random_number_please
print(gimme_a_random_number_please(0, 100))

---

## Fonctions

Jusqu'ici, vous avez vu beaucoup de fonction. En général, une fonction fera quelque chose pour vous, en fonction d'un nombre de paramètres que vous lui donnerez, et cela retournera générallement un résultat. Vous n'êtes pas limités à l'utilisations de fonctions des bibliothèques standards ou celles fournies par des tiers. Vous pouvez aussi écrire vos propres fonctions!

En fait, vous devez écrire vos propres fonctions. Séparer votre problème en sous-problèmes et écrire une fonction pour chacun d'entre eux est extrêmement important pour une programmation structurée. Dans le reste de ce chapitre, nous allons vous apprendre comment écrire vos propres fonctions et les réutilisez dans d'autres nouveaux programmes que vous écrirez !

Commençons par une fonction triviale. Les fonctions sont définies en utilisant le mot clef `def`, suivi du nom de la fonction et optionnellement des noms des paramètres que votre fonction prend.

    def some_name(optional_parameters):
        # here goes your functionality
        return my_result

La déclaration `return` retourne une valeur à l'exécuteur du code et finit toujours l'exécution de la fonction. Faites attention à l'indentation ici, il faut rendre clair à l'interpréteur Python quelles lignes appartiennent à notre fonction.

In [None]:
def multiply(x, y):
    result = x * y
    return result

# or in shorthand

def multiply(x, y):
    return x*y

# now that you defined this function, you can use it in the rest of your code:
z = multiply(2, 5)
print(z)

Désormais, définissons une fonction un peu plus avancée. La fonction suivante `count_articles()` compte le nombre d'articles (*the*, *a*, *an*) dans une liste de mot. Les mots sont passés à la fonction comme une liste de chaînes. Notez que la fonction elle-même se charge de réguler la casse, pour que l'on ne s'en occupe pas en dehors! Pouvez-vous changer `count_articles()` de telle sorte qu'elle accepterait une  chaîne entière et la couperait en chaînon en interne? De cette manière, l'utilisateur n'aurait pas à s'en occuper !

In [None]:
def count_articles(tokens):
    count = 0
    for token in tokens:
        if token.lower() in ('the', 'a', 'an'):
            count += 1
    return count
   
text = "A bit less trivial , this function counts the number of articles ( the , a , an ) in a list of words"
words = text.split()
print(count_articles(words))

Nous pouvons aussi aoir une fonction qui retourne de multiples valeurs en les combinant dans un tuple (le type ordonné et immutable que nous avons vu précédemment!). Python a une manière sympathique de découpler un tuple:

In [None]:
def count(text):
    words = text.split(" ")
    word_count = len(words)
    character_count = len(text)
    return word_count, character_count

word_count, character_count = count("To be or not to be , that is the question .")
print(word_count)
print(character_count)

Notez que votre fonction ne doit rien retourner explicitement. Si vous lancez l'example ci-dessous, vous verrez qu'une fonction "vide" return en réalité `None`.

In [None]:
def little_grey(doctor):
    print("Oh Dr", doctor, "!")

whatever = little_grey("Steamy")
print(whatever)

##### Portée de Variable

Toute variable que vous déclarez dans une fonction, ainsi que les paramètres passés à une fonction n'existeront uniquement à l'intérieur de la portée de cette fonction (`scope`), c'est-à-dire à l'intérieur de la fonction elle-même. Le code suivant produit une erreur, parce que la variable `x` n'existe pas à l'intérieur de la fonction.

In [None]:
def setx():
    x = 1

setx()
print(x)

Faites aussi attention à cela:

In [None]:
x = 0
def setx():
    x = 1
setx()
print(x)

En fait, le code produit deux `x` complètement différents !

Cependant, il est possible de lire une variable globale à l'intérieur d'une fonction, d'une manière strictement lecture-seule. Mais aussitôt que vous assignez quelque chose, cette variale deviendra une copie locale:

In [None]:
x = 1
def getx():
    print(x)
    
getx()

#### Exercice

Ecrivez une fonction `calculate_average(numbers)`, prenant un paramètre, une liste (ou tout autre traversable) contenant uniquement des nombres (en tout cas on l'espère), et returnant sa moyenne:

In [None]:
# write your function calculate_average here

# do not modify the code below, for testing only
numbers = [1, 2, 3, 4, 5]
av = calculate_average(numbers)
assert av == 3 # should be True if you did it correctly

#### Exercice Bonus

Ecrivez une fonction `textstats(filename)` qui, suivant un fichier, retourne un tuple de taille trois qui contient les informations statistiques générales sur le fichier: nombre de lignes, nombre de mots, nombre de caractères. Ne faites pas attention à la tokenization: vous pouvez juste couper au niveau des espaces.

In [None]:
# write your function textstats here 

## Scripts

Jusqu'à maintenant, nous avons utilisé le programme IPython pour écrire notre code Python. Nous avons seulement écrit des petits morceaux de codes, à la place d'écrire des scripts plus longs qui fournissent un ensemble de fonctionnalités. Désormais, écrivons notre propre script python indépendant. (Notez que c'est comme cela que vous ferez plus tard, au jour le jour).

Ouvrez "Sublime Text 3", un éditeur de texte populaire que nous utiliserons dans ce cours (http://www.sublimetext.com/). Créez un fichier -- cela peut se faire automatiquement quand vous ouvrez l'éditeur -- et sauvez le en tant que "script.py" dans un emplacement pratique (A partir de maintenant, nous estimerons que vous l'avez sauvé sur votre bureau. Notez que les fichiers Python prennent typiquement l'extension ".py"

Si vous travaillez dans un environnement de type Unix (Mac ou Linux), vous devriez ajouter la ligne suivante au tout début de votre script :

In [None]:
#!/usr/bin/env/ python

Cette ligne dit à votre ordinateur quel langage utiliser pour lancer le script -- dans ce cas, notre installation part défaut python3 sera utilisée. En termes techniques, le "#!" est appelé indication "shebang". Si vous travaillez sous windows, vous pouvez ajouter cette ligne aussi, mais elle ne servira à rien.

Maintenant, nous allons simplement ajouter une fonction à ce fichier. La fonction `fib()` nous donnera les premiers nombres de la célèbre suite de Fibonacci. La fonction n'affichera que les nombres qui seront plus petit que `upper`, c'est à dire le paramètre que l'on donne à la fonction:

In [3]:
def fib(upper):
    # write Fibonacci series up to upper
    "Print a Fibonacci series up to upper"
    a, b = 0, 1
    while b < upper:
        print(b)
        a = b
        b = a+b
    return

Ensuite, ajoutez une ligne qui appelle `fib()` pour `upper=2000`. N'oubliez pas de faire attention à l'indentation !

In [None]:
fib(2000)

Au lieu d'exécuter ce code en appuyant sur Ctrl + Entrée comme nous l'avons fait dans le cahier IPython jusqu'ici, nous allons maintenant apprendre à exécuter notre code différemment. Nous avons deux manières de procéder: facile et difficile. Lorsque vous travaillez avec un éditeur de code comme Sublime text, il y a souvent un moyen facile d'exécuter votre code. Dans Sublime, par exemple, vous pouvez d'abord enregistrer votre fichier avec une extension ".py", puis «construire» votre code en appuyant sur Ctrl + b (Windows, Unix) ou Commande + b (Mac OS X). Vous verrez alors que la sortie de votre script sera écrit sur votre écran dans Sublime.

Pour la deuxième option, vous pouvez utiliser une interface de ligne de commande ou de l'invité de commande. Attention: cela peut être assez effrayant au premier abord ... En général, vous devez toujours faire attention lorsque vous utilisez une interface de ligne de commande pour votre machine: uniquement les commandes que vous (plus ou moins) comprenez devrait être exécutées! Vous avez généralement un contrôle complet sur votre machine via une interface de ce type, de sorte que vous devez faire attention à ne pas supprimer tous les fichiers importants. (Vous pourriez par exemple involontairement supprimer votre système d'exploitation complet de votre disque dur avec une seule commande ...).

Nous allons d'abord traiter avec des instructions pour ce faire dans Mac OS X et les distributions Linux comme Ubuntu. Mac OS X et Linux ont tendance à se comporter de façon similaire parce qu'ils sont tous les deux systèmes d'exploitation basés sur 'Unix'.

- Sur un Mac, vous devez ouvrir votre application 'Terminal' en cliquant sur l'icône correspondante dans le dossier Applications> Utilitaires. Sinon, cliquez sur la loupe en haut à droite de votre écran (raccourci: touche Commande + Barre d'espace). Ensuite, tapez «Terminal» dans la case qui apparaît et appuyez sur Entrée lorsque votre Mac a trouvé l'application Terminal.
- Sur une installation Linux, d'abord ouvrir une fenêtre de ligne de commande en naviguant dans le terminal par l'intermédiaire du menu Applications> Accessoires> Terminal (Gnome) ou Dash> Plus Applications> Accessoires> Terminal (Unity). Sous Gnome et Unity, vous devez également être en mesure d'utiliser le raccourci clavier `Ctrl + Alt + T` pour ouvrir une fenêtre de la console.

Maintenant 'cd' (= Change Directory) dans le dossier qui contient votre fichier `script.py` (dans notre cas, cela voudrait dire:` cd ~ / Desktop`). Ensuite, exécuter notre script en tapant: python3 `script.py`. Avec cette commande, nous disons explicitement la machine pour exécuter ce script en utilisant `python` (au moins, la version par défaut de python3 installé sur votre machine). Normalement, la sortie du `print()`, devrait maintenant avoir été affiché sur votre fenêtre de la console. C'est bon ?

Cependant, parce que nous avons ajouté la «ligne shebang» en haut de `script.py`, nous aurions pu aussi utiliser la commande plus simple` ./script.py` (qui signifie tout simplement: 'exécuter ce programme').. Pour rendre le programme exécutable pleinement vous pourriez avoir à d'abord "chmod" votre fichier (changement de modes de dossier), en utilisant la commande `chmod +x script.py`. Avec cette commande, vous dites à votre machine, qu'il est sûr d'exécuter ce script. Pour plus d'infos sur ces scripts et les options qu'ils prennent, vous pouvez toujours exécuter la commande `man` (par exemple `man chmod`). Un bon tutoriel qui couvre les bases de l'interface de ligne de commande de bash sur les systèmes d'exploitation de type Unix est: http://praxis.scholarslab.org/tutorials/bash/.

En vertu d'un système d'exploitation Windows, vous pouvez simplement double-cliquez sur la fonction de script.py: en raison de l'extension `.py` votre OS sera automatiquement exécuter le script via l'interpréteur Python (notez que la ligne shebang est en réalité ignoré dans votre `script.py`). Sinon, allez dans Démarrer> Tous les programmes> Accessoires et cliquez sur Invite de commandes. Dans la recherche ou la commande exécuter, vous pouvez aussi taper `cmd` et appuyez sur Entrée. Cela va ouvrir une fenêtre de console DOS.

Naviguer vers le dossier qui vous tient script.py: dans notre cas, vous pouvez le faire via la commande: `cd C:\ documents and settings \ your_username \ desktop` ou simplement `cd desktop`. Ensuite, exécuter notre script en tapant: `python3 script.py` . Avec cette commande, nous disons explicitement la machine pour exécuter ce script en utilisant `python` (au moins sa version par défaut sur votre machine). Normalement, la sortie du `print ()`, devrait maintenant avoir été envoyé à votre fenêtre de la console. C'est bon ? Un bon tutoriel qui couvre les bases de l'interface de ligne de commande bash dans les systèmes d'exploitation basés sur DOS est: http://www.computerhope.com/issues/chusedos.htm

Vous pouvez maintenant importer également la fonctionnalité de `script.py` dans d'autres scripts! Supprimer (ou commenter via un hashtag) la ligne suivante, contenant l'appel de fonction réelle de `script.py`
ici.


In [None]:
fib(2000)

Créer un nouveau fichier appelé `main.py` dans le même répertoire, à savoir le dossier de votre bureau. Ajoutez la ligne de shebang sur le dessus, ainsi que la déclaration suivante qui va importer la fonctionnalité du module `script.py`. Notez que la syntaxe est entièrement la même que pour l'importation de l'une des fonctions «officielle» de la bibliothèque standard Python! Au lieu de lancer `script.py`, essayez maintenant de lancer` main.py` qui importera le `script.fib()`. Ça a fonctionné? Vous ne devez pas ajouter le '.py' de cette manière: votre ordinateur va comprendre cette extension lui-même.


In [None]:
#!/usr/bin/env python
import script
script.fib(upper=2000)

Notez que nous avons du être explicite sur l'endroit où notre interprète Python doit rechercher la fonction fib () en utilisant la syntaxe avec un point (`module.function()`). Si nous voulons être en mesure d'utiliser la version plus courte de l'appel de fonction, nous aurions utilisé pour instruction d'importation suivante:

In [None]:
from script import *

Pouvez-vous essayer maintenant essayer de lancer `main.py` à nouveau, mais maintenant, avec l'appel plus court `fib (upper = 2000) `, sans mentionner explicitement le module à partir de laquelle la fonction est originaire? Est-ce que le lancement fonctionne pour vous?

Maintenant vérifier les fichiers dans votre dossier Bureau: vous remarquerez qu'un fichier supplémentaire a été créé, à savoir `script.pyc`. (Si vous ne pouvez pas voir le fichier, notez que vous pouvez explicitement lister tous les fichiers dans le répertoire courant en utilisant la commande `ls` à la fois dans les systèmes d'exploitation Unix-like et Windows.) L'extension de ce nouveau fichier est synonyme de «fichier de Python Compilé». Ne vous inquiétez pas sur ce fichier - vous ne serez pas en mesure d'inspecter son contenu en utilisant un éditeur de texte de toute façon. Ce fichier contient le «bytecode» numérique qui sera exécuté par votre machine: il est cette version lisible par machine de votre code qui a été effectivement importés dans le module `main.py`. Vous pouvez ignorer ces fichiers, mais maintenant vous savez pourquoi ils sont là. (Soit dit en passant: noter qu'il n'y a pas de fichier `main.pyc` qui a été créé, car aucune fonctionnalité de ce fichier a été importé dans un autre module.)

Il est toujours une bonne idée de distribuer votre code sur un ensemble de modules. En termes techniques, votre code doit être aussi «modulaire» que possible, ce qui signifie que des fonctions similaires devraient être regroupés dans le même module. Cela vous aidera à garder votre code organisé en particulier lorsque vous travaillez sur un projet plus vaste. Si vous avez un ensemble de fonctions que vous utilisez pour les fichiers de chargement et l'analyse en Python, pourquoi ne pas regrouper sous le même module? De cette façon, vous pouvez organiser votre propre codage plus efficacement, ainsi que de partager et documenter votre code plus facilement.

Maintenant vous savez comment stocker et organiser votre code dans des fichiers et des modules séparés. Pourtant, beaucoup de programmeurs continuer à explorer leurs données en utilisant Python interactif » via un « interpréteur Python interactive »qui ressemble plus ou moins à l'environnement IPython sur lequel vous avez travaillé. Pour lancer un tel interprète, il suffit de taper dans `python3` dans votre console et appuyez sur Entrée. Cela permet de lancer une session de `Python live` dans votre console de ligne de commande où vous pouvez expérimenter avec vos données en tapant des commandes, un peu comme vous l'avez fait dans l'environnement IPython jusqu'ici. Essayez ceci! Il suffit de taper des lignes de code Python après le `>>>` dans l'invité et appuyez sur Entrée pour l'exécuter immédiatement.

---

# Exercices

``` Quand vous faites les exercices ci-dessous, n'écrivez pas votre code dans les cahiers IPython mais dans un fichier séparé à lancer dans l'invité de commandes (ou dans Sublime)```

Inspiré par *Think Python* de Allen B. Downey (http://thinkpython.com), *Introduction to Programming Using Python* by Y. Liang (Pearson, 2013). Certains de ces exercices sont repris de : http://www.ling.gu.se/~lager/python_exercises.html.

- Deux mots sont anagrammes si vous pouvez réorganiser les lettres de l'un à l'autre pour épeler l'autre. Ecrire une fonction appelée is_anagram qui prend deux chaînes et retourne True si ce sont des anagrammes.

- Aller au projet Gutenberg (http://www.gutenberg.org) et téléchargez votre livre préféré sans droits d'auteur au format texte brut. Faire un dictionnaire de fréquence des mots dans le roman. Trier les mots dans le dictionnaire par la fréquence et l'écrire dans un fichier texte appelé frequencies.txt. Assurez-vous que votre programme ne tient pas compte de capitalisation ainsi que des signes de ponctuation (indice: vérifier string.punctuation en ligne!). Rechercher sur le web afin de découvrir comment vous pouvez trier un dictionnaire - c'est pas facile, parce que vous pourriez avoir à importer d'un autre module.

- Réécrire le roman dans l'exercice précédent, en remplaçant le nom du personnage principal dans le roman par votre propre nom. (Utilisez la fonction replace () pour cela.) Donnez la nouvelle version du roman dans un fichier appelé starring_me.txt.

- Définir une fonction somme () et une fonction de multiplication () qui ajoutent et multiplient respectivement (respectivement) tous les numéros dans une liste de numéros. Par exemple, la somme ([1, 2, 3, 4]) devrait renvoyer 10, et se multiplier ([1, 2, 3, 4]) doit retourner 24.


- Un *hapax legomenon* (souvent abrégé hapax) est un mot qui se produit qu'une seule fois dans une langue, les oeuvres d'un auteur, ou dans un texte unique. Définir une fonction qui suivant le nom d'un fichier texte sera retournera tous ses hapax. Assurez-vous que votre programme ne tient pas compte de la capitalisation ainsi que des signes de ponctuation (indice: vérifier `string.punctuation` en ligne!). Essayez la fonction sur votre livre Gutenberg.

- A l'intérieur du même module que l'exercice précédent (soit un fichier qui se termine en .py), créer deux fonctions supplémentaires: l'un qui identifie les 'hapaxes dislegomena' (mots ayant lieu seulement deux fois) et une pour les "hapax trislegomena" (mots se produisant seulement trois fois) dans un fichier texte. Maintenant importer ces fonctions dans un autre script autonome et appeler les trois fonctions à partir de là. Encore une fois, les essayer sur votre livre Gutenberg.


- Ecrire un programme qui suivant un fichier texte va créer un nouveau fichier texte dans lequel toutes les lignes du fichier d'origine sont numérotés de 1 à n (où n est le nombre de lignes dans le fichier).

- Ecrire un script qui lance un dé à chaque fois que vous l'exécutez en générant un nombre aléatoire compris entre 1 et 6! Vous pouvez importer une fonctionnalité pour le faire via `random.randint()`.


- [Exercice avancée, impliquant éventuellement des expressions régulières: facultatif] * Un séparateur de phrase * est un programme capable de diviser un texte en phrases. L'ensemble standard d'heuristiques pour fractionner en phrases comprend (mais ne se limite pas à) les règles suivantes: les limites de la phrase se rencontrent sur un "." , "?" ou, "!" sauf que :

> - Les points suivis par un espace suivi par une lettre minuscule ne sont pas les limites de la phrase.
> - Les points suivis par un chiffre sans espace entre eux ne sont pas les limites de la phrase.
> - Les points suivis par des espaces puis une lettre majuscule, mais précédés par toute une courte liste de titres ne sont pas des limites. Les titres exemples comprennent M., Mme, Dr, et ainsi de suite.
> - Les points internes à une séquence de lettres sans espaces adjacents ne sont pas des limites, comme dans www.aptex.com ou e.g. (i.e.)
> - Les points suivis par certains types de ponctuation (virgules et notamment plusieurs points) ne sont probablement pas les limites de la phrase.

Vous pourriez vouloir vérifier les fonctions de chaîne, comme `.islower ()` et `.isalpha ()` dans la documentation officielle de Python en ligne. Votre tâche ici est d'écrire une fonction qui suivant le nom d'un fichier texte est capable d'écrire son contenu avec chaque phrase sur une ligne distincte dans un nouveau fichier dont le nom est également transmis comme argument à la fonction. La fonction se doit retourner une liste de phrases. Testez votre programme avec le court texte qui suit: "Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it. Did he mind? Adam Jones Jr. thinks he didn't. In any case, this isn't true... Well, with a probability of .9 it isn't." Le résultat dans le nouveau fichier devrait être:

Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it.

Did he mind?

Adam Jones Jr. thinks he didn't.

In any case, this isn't true...

Well, with a probability of .9 it isn't.


------------------------------

You've reached the end of Chapter 5! You can safely ignore the code below, it's only there to make the page pretty:

In [1]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()