# Chapitre 5: Fonctions et fichiers

## Lecture/Écriture de fichiers

La source pour vos programmes vient souvent de fichiers sur votre disque, par exemple des corpus (un 'corpus' est une large collection de textes digitaux en linguistique). De la même manière, vous aurez souvent à écrire les résultats sur des fichiers de votre disque. Donc, lire et écrire des fichiers est souvent une partie essentielle de la programmation, et bien heureusement, c'est très simple en python. L'exemple suivant lit un fichier du disque:

In [None]:
f = open('data/austen-emma-excerpt.txt', 'rt', encoding='utf-8')
text = f.read()
f.close()
print(text)

Faites attention: la fonction `open()` ne retourne pas le fichier qui est sauvegardé dans le fichier text. Cela retourne seulement un objet fichier depuis lequel on peut lire le contenu via la fonction `read()`. On a donné trois arguments à la fonction `open()`:

* Le nom du fichier que l'on veut ouvrir
* Le mode, une combinaison de lettres, 'r' représente le mode de lecture (read) et 't' représente le mode plein-texte. Cela indique que l'on lit un fichier plein texte
* le dernier argument, un argument nommé (`encoding`), spécifie l'encoage du fichier texte.


>UTF-8

>You may wonder what an encoding is and what *utf-8* is. For anyone working with texts and computers this is vital to know. Internally, a computer knows no characters whatsoever: every piece of information is represented as numbers (which in turn are represented in a binary format, as zeroes and ones). An encoding specifies which numbers represent which characters. A famous and long-standing encoding scheme is ASCII, in which for example the letter 'A' is encoded using the number 65. ASCII however only has a very limited alphabet and can not encode a lot of writing systems. A modern-day encoding supporting countless writing systems is *unicode* and *utf-8* is a kind of unicode. This the type of encoding that you will want to use for your data whenever possible. Whenever you have a choice, you should use unicode!

Lire un fichier entier n'est pas toujours désirable, surtout avec de grands fichiers. L'exemple suivant lit chaque ligne une à une.


In [None]:
f = open('data/austen-emma-excerpt.txt','rt', encoding='utf-8')
for line in f:
    print(line)
    print("n")
f.close()

Le charactère de nouvelle ligne est peut-être quelqe chose de nouveau pour vous. Si vous travaillez avec des fichiers plein texte (typiquement des fichiers qui finissent par '.txt'), votre machine utilise un charactère spécial pour signaler qu'une nouvelle ligne commence. A l'intérieur, ces nouvelles lignes sont représentées par `"\n"`. Normalement, ces charactères sont visualiez sur votre écran comme si la touche entrée avait été appuyée. Regardons ce qui se passe ci-dessous:

In [None]:
s = "This is the first line.\nThis is the second line."
print(s)

Il existe un charactère d'encodage similaire pour la tabulation, `\t`. Vous pouvez utilisez ce charactère pour vous amuser avec l'indentation de votre résultat (e.g. une structure hiérarchisée):


In [None]:
s = "First line\n\t* Second line\n\t* Third line\n\t* Fourth line\nFifth line"
print(s)

Dans le code au-dessus pour lire le fichier Austen, la nouvelle ligne est déjà comprise avec la ligne originale qui la précédait dans le fichier: c'est pourquoi vous voyez toutes ces lignes vides en plus. Si vous souhaitez supprimer toutes les espaces blancs (nouvelles lignes, espaces mais aussi tabulations) en trop au début et à la fin de la chaîne en utilisant la fonction `strip()`:

In [None]:
s = "   strip me!    "
print(s.strip())

Maintenant, essayez d'adapter ce code qui lit le fichier Austen et faites en sorte que le code affiche chaque ligne sans les espaces la précédant et la suivant ! Est-ce que les indésirables doubles lignes ont disparu ?

In [None]:
f = open('data/austen-emma-excerpt.txt','rt', encoding='utf-8')
for line in f:
    print(line)
f.close()

Plutôt que d'afficher, on peut bien bien sûr faire ce que l'on veut avec le contenu d'un fichier. Comptons donc le nombre de lignes (mais notez qu'une ligne ne veut pas forcément dire une phrase).

In [None]:
count = 0
f = open('data/austen-emma-excerpt.txt', 'rt', encoding='utf-8')
for line in f:
    count += 1
f.close()
print(count)

#### Quiz

Lisez lie fichier `data/austen-emma-excerpt.txt` et comptez la longueur moyenne (en charactères) de ses lignes.

In [None]:
f = open('data/austen-emma-excerpt.txt', 'rt', encoding='utf-8')
# insert your code here
# important: always remember to properly close your files again!

- - -

Maintenant que nous sommes maîtres en l'art de lire les fichiers, passons à l'écriture de fichier, qui suit une logique similaire:

In [None]:
f = open('data/testoutput.txt', 'wt', encoding='utf-8')
f.write("Hello world!")
f.close()

Dans ce bloc de code, nous avons automatiquement créé un fichier appelé `testoutput.txt` dans le dossier `data`. Nous pouvons désormais écrire une simple ligne dans ce fichier puis le fermer. Remarquez que `w` dans `wt` est un ajout crucial: si vous l'aviez oublié, Python aurait ouvert un fichier en mode "lecture seule" et vous n'auriez pu écrire dedans ! L'argument `t` signifie encore une fois que nous écrirons dans le fichier en mode plein texte.

Si vous voulez que les données soient écrites sur des lignes multiples, vous devez encodez spécifiquement les nouvelles lignes. A la place de :
    

In [None]:
f = open('data/testouput.txt','wt', encoding='utf-8')
f.write("Hello world on the first line!")
f.write("Hello world on the second line!")
f.close()

Vous devez écrire:

In [None]:
f = open('data/testoutput.txt','wt', encoding='utf-8')
f.write("Hello world on the first line!\n")
f.write("Hello world on the second line!")
f.close()

Sinon vous auriez eu `Hello world!Hello world!` dedans, i.e. sans les sauts de ligne.

En dehors du mode lecture et écriture quand on gère des fichiers textes, il y a aussi le mode ajout en Python. Faites attentions: en mode écriture, vous écraserez les contenus existents du fichier. Cependant, si vous ouvrez un fichier en mode ajout (append), tout ce que vous écrirez sera ajouté à la fin du chier, sans supprimer aucun contenu du fichier existant. Pour rentrer dans ce mode, il vous faut spécifier `'at'` comme second paramètre de votre fonction pour ouvrir le fichier (`a` pour le mode ajout, `t` pour le texte)

#### Exercice

Lisez le fichier `data/austen-emma-excerpt-tokenised.txt` et écrivez dans le fichier  `words.txt` tous les mots apparaissant dans le texte (sans les doublons !), dans l'ordre alphabétique, un mot par ligne. De cette manière, vous pouvez déjà écrire un dictionaire ou la liste de mot d'un texte (pensez à utiliser les sets !)

In [None]:
# insert your code here

Vérifiez le résultat dans `words.txt` dans un éditeur de texte comme Sublime Text 2. (Utilisateurs windows : n'utilisez pas Notepad !)

---

## Importer des modules externes

La plupart des fonctionnalités que nous avons utilisées jusqu'ici sont simplement comprises dans le langage Python lui-même. Cependant vous devrez souvent utilisez des modules externes dans votre code. Un grand nombre de modules extrnes sont d'ors et déjà disponibles dans la bibliothèque standard python, pour réaliser des actions d'une grande variété. Il y a aussi par ailleurs un grand nombre de fournisseurs tiers de modules python.

Pour utiliser un module externe, il faut simplement l'importer explicitement. Avec le module `random` par exemple, on peut générer des nombres au hasard.

In [None]:
import random
print(random.randint(0, 100))

Notez la syntaxe utilisée : en utilisant le point, on indique à notre machine de chercher la fonction `randint()` à l'intérieur du module `random` que l'on vient d'inmporter. Vous pouvez importer un module entier ou simplement une fonction du module. On aurait pu importer une seule fonction comme suit:

In [None]:
from random import randint
print(randint(0, 100))

Dans ce cas, nous n'aurions pas à spécifier où la machine devrait trouver la fonction `randint()`. On peut aussi temporairement changer le nom de la fonction que vous importez:

In [None]:
from random import randint as gimme_a_random_number_please
print(gimme_a_random_number_please(0, 100))

---

## Fonctions

Jusqu'ici, vous avez vu beaucoup de fonction. En général, une fonction fera quelque chose pour vous, en fonction d'un nombre de paramètres que vous lui donnerez, et cela retournera générallement un résultat. Vous n'êtes pas limités à l'utilisations de fonctions des bibliothèques standards ou celles fournies par des tiers. Vous pouvez aussi écrire vos propres fonctions!

En fait, vous devez écrire vos propres fonctions. Séparer votre problème en sous-problèmes et écrire une fonction pour chacun d'entre eux est extrêmement important pour une programmation structurée. Dans le reste de ce chapitre, nous allons vous apprendre comment écrire vos propres fonctions et les réutilisez dans d'autres nouveaux programmes que vous écrirez !

Commençons par une fonction triviale. Les fonctions sont définies en utilisant le mot clef `def`, suivi du nom de la fonction et optionnellement des noms des paramètres que votre fonction prend.

    def some_name(optional_parameters):
        # here goes your functionality
        return my_result

La déclaration `return` retourne une valeur à l'exécuteur du code et finit toujours l'exécution de la fonction. Faites attention à l'indentation ici, il faut rendre clair à l'interpréteur Python quelles lignes appartiennent à notre fonction.

In [None]:
def multiply(x, y):
    result = x * y
    return result

# or in shorthand

def multiply(x, y):
    return x*y

# now that you defined this function, you can use it in the rest of your code:
z = multiply(2, 5)
print(z)

Désormais, définissons une fonction un peu plus avancée. La fonction suivante `count_articles()` compte le nombre d'articles (*the*, *a*, *an*) dans une liste de mot. Les mots sont passés à la fonction comme une liste de chaînes. Notez que la fonction elle-même se charge de réguler la casse, pour que l'on ne s'en occupe pas en dehors! Pouvez-vous changer `count_articles()` de telle sorte qu'elle accepterait une  chaîne entière et la couperait en chaînon en interne? De cette manière, l'utilisateur n'aurait pas à s'en occuper !

In [None]:
def count_articles(tokens):
    count = 0
    for token in tokens:
        if token.lower() in ('the', 'a', 'an'):
            count += 1
    return count
   
text = "A bit less trivial , this function counts the number of articles ( the , a , an ) in a list of words"
words = text.split()
print(count_articles(words))

Nous pouvons aussi aoir une fonction qui retourne de multiples valeurs en les combinant dans un tuple (le type ordonné et immutable que nous avons vu précédemment!). Python a une manière sympathique de découpler un tuple:

In [None]:
def count(text):
    words = text.split(" ")
    word_count = len(words)
    character_count = len(text)
    return word_count, character_count

word_count, character_count = count("To be or not to be , that is the question .")
print(word_count)
print(character_count)

Notez que votre fonction ne doit rien retourner explicitement. Si vous lancez l'example ci-dessous, vous verrez qu'une fonction "vide" return en réalité `None`.

In [None]:
def little_grey(doctor):
    print("Oh Dr", doctor, "!")

whatever = little_grey("Steamy")
print(whatever)

##### Portée de Variable

Toute variable que vous déclarez dans une fonction, ainsi que les paramètres passés à une fonction n'existeront uniquement à l'intérieur de la portée de cette fonction (`scope`), c'est-à-dire à l'intérieur de la fonction elle-même. Le code suivant produit une erreur, parce que la variable `x` n'existe pas à l'intérieur de la fonction.

In [None]:
def setx():
    x = 1

setx()
print(x)

Faites aussi attention à cela:

In [None]:
x = 0
def setx():
    x = 1
setx()
print(x)

En fait, le code produit deux `x` complètement différents !

Cependant, il est possible de lire une variable globale à l'intérieur d'une fonction, d'une manière strictement lecture-seule. Mais aussitôt que vous assignez quelque chose, cette variale deviendra une copie locale:

In [None]:
x = 1
def getx():
    print(x)
    
getx()

#### Exercice

Ecrivez une fonction `calculate_average(numbers)`, prenant un paramètre, une liste (ou tout autre traversable) contenant uniquement des nombres (en tout cas on l'espère), et returnant sa moyenne:

In [None]:
# write your function calculate_average here

# do not modify the code below, for testing only
numbers = [1, 2, 3, 4, 5]
av = calculate_average(numbers)
assert av == 3 # should be True if you did it correctly

#### Exercice Bonus

Ecrivez une fonction `textstats(filename)` qui, suivant un fichier, retourne un tuple de taille trois qui contient les informations statistiques générales sur le fichier: nombre de lignes, nombre de mots, nombre de caractères. Ne faites pas attention à la tokenization: vous pouvez juste couper au niveau des espaces.

In [None]:
# write your function textstats here 

## Scripts

Up until now, we have been using the interactive IPython software to write our Python code. We have only been writing really small bits and pieces of code, however, instead of writing longer scripts that can provide a more significant batch of functionality. Now, let us make our first independent Python script together. (Note that this way of working will also resemble more closely your future day-to-day coding practice.)

Open 'Sublime Text 2', a popular text editor which we will use in this course (http://www.sublimetext.com/). Create a new file -- this might have happened automatically when you opened the editor -- and save it as "script.py" in a convenient location (here, we will assume that you have saved it in your Desktop folder. Note that files containing Python code typically take the ".py" extension.

If you are working in a UNIX-like environment (Mac or Linux), you should now add the following code on the very first line of your script:  

In [None]:
#!/usr/bin/env/ python

This line will tell your computer which language you want to use to run the script -- in this case, our default installation of Python 3 will be used. In technical terms, the "#!" is called a "shebang" indication. If you are working in MS Windows, you can add this 'shebang line' as well, but it will have no effect. 

Now, let's us add a simply Python function to this file. The `fib()` function will the first numbers in the famous Fibonacci series. The function will only print the items in the series that are smaller than `upper`, i.e. the parameter we pass to this function: 




In [3]:
def fib(upper):
    # write Fibonacci series up to upper
    "Print a Fibonacci series up to upper"
    a, b = 0, 1
    while b < upper:
        print(b)
        a = b
        b = a+b
    return

Next, add a line that actually calls the `fib()` function for `upper=2000`. (Don't forget to take care of the correct indentation!)

In [None]:
fib(2000)

Instead of executing this code by hitting ctrl+enter as we have done in the IPython notebook so far, we will now learn how to execute our code differently. We have two ways for doing this: an easy one, and a difficult one. When you work with a code editor like Sublime Text, there is often an easy way to execute your code. In Sublime, for instance, you can first save your file with a ".py" extension, and then 'build' your code by hitting Ctrl+b (Windows, Unix) or Command+b (Mac OS X). You will now see that the output of your script will be written to your screen in Sublime.

For the second option, you can use a command line interface or prompt. Watch out: this can be pretty scary at first... In general, you should always watch out when you use a command line interface to your machine: only execute commands that you (more or less) understand! You typically have complete control over your machine via such an interface, so you need to watch out not to remove any important files. (You could e.g. unintentionally delete your entire operating system from your hard drive with a single command...). 

First we will deal with instructions for doing this in Mac OS X and Linux-distributions such as Ubuntu. Mac OS X and Linux tend to behave similarly because they are both 'Unix-based' operating systems. 

- On a Mac,  you should open your 'Terminal'-application by clicking the relevant icon in the folder Applications > Utilities. Alternatively, click the magnifying glass in the top-right of your screen (shortcut: Command key+Spacebar). Next, type 'Terminal' in the box that appears and hit enter when your Mac has found the Terminal app.
- On a Linux installation, first open a command line window by navigating to the Terminal via Applications Menu > Accesories > Terminal (Gnome) or Dash > More Apps > Accessories > Terminal (Unity). Under both Gnome and Unity, you should also be able to use the keyboard shortcut `Ctrl+Alt+T` to open a console window.

Now 'cd' (= Change Directory) into the director that contains your `script.py` file (in our case that would mean: `cd ~/Desktop`). Next, execute our script by typing: `python3 script.py`. With this command, we explicitly tell the machine to execute this script using `python` (at least, the default version of Python3 installed on your machine). Normally, the output of the `print(), should now have been send to your console window. Has it?

However, because we added the 'shebang line' at the top of `script.py`, we could have also used the plainer command `./script.py` (which simply means: 'run this program'). To make the program fully executable you might have to "chmod" it first (CHange file MODes), using the command `chmod +x script.py`. With this command you tell your machine, that it is safe to execute this script. For additional info on these scripts and the options they take, you can always run the `man` command (e.g. `man chmod`). A good tutorial that covers the basics of the bash command line interface on Unix-like operating systems is: http://praxis.scholarslab.org/tutorials/bash/.

Under a Windows operating system, you can simply double-click the script.py function: because of the `.py` extension your OS will automatically run the script via Python interpreter (note that the `shebang line` is in reality ignored in your `script.py`). Alternatively, go to Start > All programs > Accessories and click on Command Prompt. In the Search or Run line, you can also type `cmd` and press enter. This will open a DOS console window.

Navigate to the folder that holds you script.py: in our case you could do this via the command: `cd C:\documents and settings\your_username\desktop` or simply `cd desktop`. Next, execute our script by typing: `python3 script.py`. With this command, we explicitly tell the machine to execute this script using `python` (at least it's default version on your machine). Normally, the output of the `print(), should now have been send to your console window. Has it? A good tutorial that covers the basics of the bash command line interface in DOS-based operating systems is: http://www.computerhope.com/issues/chusedos.htm

You can now also import the functionality from `script.py` in other scripts! Remove (or comment out via a hashtag) the following line, containing the actual function call from `script.py`


In [None]:
fib(2000)

Create a new file called `main.py` in the same directory, namely your Desktop folder. Add the shebang line on top, as well as the following statement which will import the functionality from the `script.py` module. Note that the syntax is entirely the same as for importing one of the 'official' functions from the Python Standard Library! Instead of running `script.py`, now try to run `main.py` which will import the `script.fib()` function. Does this work out? You don't have to add the '.py' by the way: your computer will figure out this extension itself.

In [None]:
#!/usr/bin/env python
import script
script.fib(upper=2000)

Note that we have to be explicit about where our Python interpreter should look for the fib() function using the syntax with a dot (`module.function()`). If we want to be able to use the shorter version of the function call, we should have used to following import statement:

In [None]:
from script import *

Can you now try try to run `main.py` again, but now with the shorter call `fib(upper=2000)`, witout explicitly mentioning the module from which the function originates? Does that work work out for you?

Now check out the files in your Desktop folder: you will notice that an additional file has been created, namely `script.pyc`. (If you can't see file, note that you can explicitly list all files in the current directory using the `ls` command in both Windows and Unix-like operating systems.) The extension of this new file stands for 'Compiled Python File'. Don't worry about this file -- you won't be able to inspect its contents using a text editor anyway. This file contains the numerical 'bytecode' that will be executed by your machine: it is this machine-readable version of your code that has actually been imported into the `main.py` module. You can safely ignore these files, but now you know what they are for. (By the way: note that there is no `main.pyc` file which has been created, because no functionality from this file has been imported into another module.)

It's always a good idea to distribute your code over a set of modules. In technical terms, your code should be as 'modular' as possible, meaning that similar functions should be grouped into the same module. This will help you keep your code organized especially when you are working on a larger project. If you have a set of functions that use you for loading and parsing files in Python, why not group under the same module? This way you can organize your own coding more efficiently, as well as share and document your code more easily.  

Now you know how how to store and organize your code in separate files and modules. Still, a lot of programmers continue to explore their data using 'interactive Python' via a so-called 'interactive Python interpreter' that more or less resembles the IPython envirionment you have been working in so far. To launch such an interpreter, just type in `python3` in your console and hit enter. This will launch a `live` Python session in your command line console where you can experiment with your data by typing in commands, much like you have done in the IPython environment so far. Try this out! Just type in lines of Python code after the `>>>` prompt and hit enter to execute it immediately.

---

# Exercises

```When you make the exercices below, don't write your code in the IPython notebook anymore but write in a separate file and run them from the command line! ```

Inspired by *Think Python* by Allen B. Downey (http://thinkpython.com), *Introduction to Programming Using Python* by Y. Liang (Pearson, 2013). Some exercises below have been taken from: http://www.ling.gu.se/~lager/python_exercises.html.

-  Two words are anagrams if you can rearrange the letters from one to spell the other. Write a function called is_anagram that takes two strings and returns True if they are anagrams.

-  Go to Project Gutenberg (http://www.gutenberg.org) and download your favorite out- of-copyright book in plain text format. Make a frequency dictionary of the words in the novel. Sort the words in the dictionary by frequency and write it to a text file called `frequencies.txt`. Make sure your program ignores capitalization as well as punctuation (hint: check out `string.punctuation` online!). Search the web in order to find out how you can sort a dictionary -- this is not easy, because you might have to import another module.

- Rewrite the novel in the previous exercise, by replacing the name of the principal character in the novel by your own name. (Use the `replace()` function for this.) Write the new version of novel to a file called `starring_me.txt`.

-  Define a function sum() and a function multiply() that sums and multiplies (respectively) all the numbers in a list of numbers. For example, sum([1, 2, 3, 4]) should return 10, and multiply([1, 2, 3, 4]) should return 24.


-  A *hapax legomenon* (often abbreviated to hapax) is a word which occurs only once in either the written record of a language, the works of an author, or in a single text. Define a function that given the file name of a text will return all its hapaxes. Make sure your program ignores capitalization as well as punctuation (hint: check out `string.punctuation` online!). Try out the function on your Gutenberg book.

- Inside the same module as the previous exercise (i.e. a file that ends in `.py`), create two additional functions: one that spots 'hapaxes dislegomena' (words occuring only twice) and one that spots 'hapaxes trislegomena' (words occuring only three times) in a text file. Now import these functions in another, standalone script and call all three functions from there. Again, try them out on your Gutenberg-file.

- Write a program that given a text file will create a new text file in which all the lines from the original file are numbered from 1 to n (where n is the number of lines in the file).

- Write a script that rolls a dice everytime you run it by generating a random integer between 1 and 6! You can import functionality for doing this via `random.randint()`.

- [Advanced exercise, possibly involving regular expressions: optional] A *sentence splitter* is a program capable of splitting a text into sentences. The standard set of heuristics for sentence splitting includes (but isn't limited to) the following rules: Sentence boundaries occur at one of "." (periods), "?" or "!", except that:

> - Periods followed by whitespace followed by a lowercase letter are not sentence boundaries.
> - Periods followed by a digit with no intervening whitespace are not sentence boundaries.
> - Periods followed by whitespace and then an uppercase letter, but preceded by any of a short list of titles are not sentence boundaries. Sample titles include Mr., Mrs., Dr., and so on.
> - Periods internal to a sequence of letters with no adjacent whitespace are not sentence boundaries, such as in www.aptex.com or e.g.
> - Periods followed by certain kinds of punctuation (notably comma and more periods) are probably not sentence boundaries.

You might want to check out string functions, like `.islower()` and `.isalpha()` in the official Python documentation online. Your task here is to write a function that given the name of a text file is able to write its content with each sentence on a separate line to a new file whose name is also passed as an argument to the function. The function itself should return a list of sentences. Test your program with the following short text: "Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it. Did he mind? Adam Jones Jr. thinks he didn't. In any case, this isn't true... Well, with a probability of .9 it isn't. The result written to the new file should be:

Mr. Smith bought cheapsite.com for 1.5 million dollars, i.e. he paid a lot for it.

Did he mind?

Adam Jones Jr. thinks he didn't.

In any case, this isn't true...

Well, with a probability of .9 it isn't.


------------------------------

You've reached the end of Chapter 5! You can safely ignore the code below, it's only there to make the page pretty:

In [1]:
from IPython.core.display import HTML
def css_styling():
    styles = open("styles/custom.css", "r").read()
    return HTML(styles)
css_styling()