# <center> Chapitre 7 : Tableaux </center>

On doit parfois traiter une grande quantité de données.
Par exemple, les noms d'une promotion de 100 étudiants ou
la vitesse du vent en 1000 points pour une prévision météo.
Définir autant de variables est peu efficace. On groupe
alors ces données dans un *tableau* :

In [None]:
nom = ["Sophie", "Martin", "Larry", "Ken", "Denis"]
vitesse  = [30.2, 37.4, 28.6, 21.1, 42.0, 18.5, 25.5]

On a défini un tableau de 5 chaînes de caractères puis un tableau
de 6 flottants. On écrit les éléments entre crochets,
séparés par des virgules. <br>
On parle également de *liste*. 

En Python, on peut aussi mélanger les types :

In [None]:
tab = ["Sophie", 30.2, False]

Cela n'est pas possible dans tous les langages.

## Accès aux éléments 
    
On accède à un élément par son *indice*, c'est-à-dire, sa position dans le tableau, en commençant à numéroter les cases à partir de 0.

In [None]:
print(nom[0])
print(tab[2])

c = (nom[3] + " " + nom[4])
print(c)

print((vitesse[0] + vitesse[1]) / 2)

- Sur ce thème : **Exercice 1, Questions 1 et 2, TD7**

## Modification et ajout d'un élément

On peut modifier un élément avec une affectation :

In [None]:
nom[2] = "Guido"
print(nom)

**Remarque :**  l'instruction 

In [None]:
nom[5] = "Guido"

produit unne erreur, car le tableau n'a que 5 éléments d'indices 0 à 4.
On obtient le message d'erreur `index out of range`.


###  Ajouter un élément : `append()`

Pour ajouter un élément, on utilise la *méthode* `append()` comme ceci :

In [None]:
nom.append("Guido")
print(nom)
print("nouveau : " + nom[5])

### Alias

L'instruction 

In [None]:
t=[0,0,0]
t2 = t

ne crée pas une *copie* mais un *alias* de `t`, c'est-à-dire
que `t2` et `t` désignent le même objet jusqu'à ce que l'un d'eux
soit réaffecté.

In [None]:
t[0] = 1
print(t)
print(t2)

t2[0] = 0
print(t)
print(t2)

t = [2,2,2]
print(t)
print(t2)

- Sur ce thème : **Exercice 5, TD7**

# Parcours d'un tableau

On utilise très souvent des boucles pour *parcourir* un tableau
et agir sur les éléments. <br>
Par exemple, pour afficher uniquement les élément d'indice pair :

In [None]:
i = 0
while i < 6:
    if i%2 == 0 :
        print(nom[i])
    i += 1

## Longueur d'un tableau `len()`

L'indice ne doit pas dépasser la taille du tableau sous peine d'être `out of range`
(cf. exemple ci-dessus). <br>
On peut vérifier la taille par la méthode `len()` comme pour les chaînes :

In [None]:
print(len(nom))

Le programme précédent peut alors être récrit sans risque d'erreur

In [None]:
i = 0
while i < len(nom):
    if i%2 == 0 :
        print(nom[i])
    i += 1

- Sur ce thème : **Exercice 1, Questions 3 et 4, Exercices 2 à 4, TD7**

## Tableaux et chaînes de caractères 

On a remarqué des points communs entre tableaux et chaînes de caractères.
Les chaînes seraient-elles des tableaux de caractères ? Pas tout à fait. <br>
Car si l'on peut lire une chaîne de caractères comme un tableau :

In [None]:
s = "Perceval"
print(s[0])

on ne peut pas en modifier les caractères :

In [None]:
s[0] = "G"

## Boucles de remplissage

On peut définir un tableau en écrivant un à un ses éléments,
comme dans le premier exemple, ou par une boucle :

In [None]:
impair = []
i = 0
while i < 15:
    if i%2 != 0:
        impair.append(i)
    i+=1
print(impair)

- Sur ce thème : **Exercie 6, TD7**

**Remarques :** 
* La méthode `strip()` permet supprimer tous les espaces notamment " " ou le retour chariot `\n` 
* Les éléments sont des chaînes de caractères par défaut.

- Sur ce thème : **Exercice 1, Question 5 et Exercices 7 et 8, TD7**

# Lecture et écriture dans les fichiers

L'outil informatique a été développé pour travailler sur de gros volumes de données rapidement. Pour cela il faut que les données soient accessible en mémoire des programmes. Quand le volume de données est important celles-ci ne sont pas saisies dans le programme mais le plus souvent lues dans des fichiers puis stockées dans des structures de données telles que les tableaux ou les dictionnaires. Savoir lire et écrire des données dans un fichier est donc indispensable.

Les fichiers permettent en effet de stocker de façon stable de l'information dans un système informatique. Ces fichiers peuvent prendre différents formats. Nous ne traiterons ici que trois types de fichiers, mais les règles présentées ici sont assez facilement généralisables à d'autres formats:
- les fichiers `texte` non formatés, c'est à dire des fichiers dont le contenu est directement lisible par un être humain qui ouvrirait le fichier avec un éditeur de texte simple et qui ne respecte pas de format particulier,
- les fichiers `CSV` qui sont des fichiers texte respectant un format particulier adapté aux données tabulaires,
- les fichiers `JSON` qui sont aussi des fichiers texte respectant un format particulier adapté aux données de type association cle/valeur.

De nombreux autres typs de fichiers existent dont certain sont dans un format binaire. Afin de lire ces fichiers il faut le plus souvent disposer d'une librairie adaptée proposant des fonctions de lecture appropriées au format. Dans ce cas, la documentation de librairie vous indiquera les fonctions d'intéraction existances et les structures de données qui leur sont associées.

## Généralités
Afin d'importer des données depuis un fichier vers la mémoire d'un programme informatique il faut:
- un sous-programme:
    - interagissant avec le système de fichier pour localiset le fichier dans la mémoire -sur un disque dur par exemple- et l'*ouvrir* afin de pouvoir lire/écrire son contenu,
    - permettant de naviguer dans le fichier i.e. déplacer le curseur de lecture/écriture -pour passer d'un caractère à l'autre, d'un mot à l'autre ou d'une ligne à l'autre, ...
    - permettant de stocker dans une variable de la mémoire du programme une donnée lue dans le fichier pour pouvoir le cas échéant l'utiliser dans le programme ou de lire une donnée d'une variable de la mémoire du programme pour l'écrire dans le fichier.
- dans le cas des fichiers formatés il faut aussi un algorithme permettant de lire le contenu du fichier en suivant son format et ainsi structurer dans la mémoire du programmes les différentes informations encodées dans le format.

**NB:** Les opérations de lecture/écriture sont exécutées à la position du curseur.

## Interaction avec le système de fichiers

Pour qu'un programme puisse utiliser les données inscrites dans un fichier, ce dernier doit pouvoir être *accessible* et *lu* par le programme. De façon symétrique, un programme souhaitant *sauvegarder* des données doit pouvoir accéder à l'emplacement du fichier les *écrire* des données dans celui-ci.

Dans le cas de la *lecture* comme dans le cas de *l'écriture*, le fichier est identifié par un chemin (appelé `path`) qui est composé de son nom précédé de la séquence des répertoires de l'arborescence du système de fichiers qu'il faut traverser pour l'atteindre. Le chemin peut être donné comme un chemin absolu ou relatif. On n'utilise ici que des chemins relatifs au répertoire contenant le notebook (qui est supposé contenir un répertoire `data/`).

La mécanique de la lecture et de l'écriture d'un fichier sont assez similaires et introduites ci-dessous:

La première étape consiste à ouvrir le fichier. Ceci est réalisé par la fonction `open()`. Cette fonction admet 2 paramètres:
- le premier paramètre est le nom du fichier. Il s'agit d'une chaîne de caractères qui indique le chemin du fichier (`path`).
- le second paramètre indique le mode d'ouverture du fichier. Il y a 4 modes d'ouverture de fichier possibles:

| Mode  | Description | Remarques |
|--------|-------------------|---------------|
|`r`     | Read - Valeur par défaut. Ouvre le fichier en lecture et renvoie une erreur si le fichier n'existe pas.| |
|`w`     | Write - Ouvre le fichier en lecture et crée le fichier si il ne le trouve pas.| **Attention** Si le fichier prééxiste, le contenu intial du fichier est écrasé par le nouveau contenu.|
|`a`     | Append - Ouvre le fichier en lecture et crée le fichier si il ne le trouve pas.| **Attention** Si le fichier prééxiste, le contenu intial du fichier est préservé, le nouveau contenu est écrit à la suite du contenu prééxistant.|
|`x`     | Create - Crée le fichier ou retourne une erreur si il existe déjà.| |

Cette fonction retourne un *objet fichier* qui doit être affecté à une variable. Cette variable représentera le fichier durant l'exécution de votre programme.

**NB:** Lors de l'ouverture d'un fichier, le curseur est automatiquement positionné au début du fichier i.e. devant le premier caratère.

Voici un exemple de procédure d'ouverture d'un fichier en lecture

In [1]:
# Définition du chemin vers le fichier
path = './files/lorem.txt'
# Définition du mode d'ouverture du fichier en lecture
mode = 'r'
# Ouverture du fichier et association du flux à une variable
f_input = open(path, mode)

A ce moment de l'exécution du programme une variable `f_input` est définie dans la mémoire et permet d'accéder au contenu du fichier en lecture au moyen de différentes fonctions.

**Bonne pratique** :  Tout fichier ouvert par un programme (en écriture comme en lecture) **DOIT** être fermé par le programme. Cette fermeture doit avoir lieu au plus tôt, dès que le programme n'a plus à écrire ou lire dans le fichier et dans tout les cas avant la fin de l'exécution du programme. La fermeture du fichier s'opère au moyen de la fonction `close` et du nom de la variable fichier. Il est conseillé d'écrire l'instruction `close` au même moment que l'instruction open':

In [2]:
f_input.close()

Entre l'ouverture et la fermeture du fichier, selon le mode d'ouverture choisie, le programmeur peut
- lire des données dans le fichier au moyen de la fonction `readline()`,
- écrire des données dans le fichier au moyen de la fonction `write()`.

Il est à noter que la fonction `readline()` ne retourne que des chaînes de caractères (de type `str`). De façon analogue, la focntion `write()` ne sait écrire (prendre en paramètre) que des chaînes de caractères (de type `str`).

### Écriture dans un fichier

L'écriture des données dans un fichier est une procédure séquentielle qui suit le modèle suivant:
- ouverture du fichier en écriture :

In [11]:
f_output = open( 'files/test_ecriture' , 'w')

Les plus curieux pourront remarquer que dès que cette instruction est évaluée, un fichier vide est créé à l'emplacement indiqué dans le système de fichier de l'ordinateur. Dès lors il est possible d'écrire dans ce fichier au moyen de la fonction `write` et de la variable de flux `f_output`. L'instruction suivante écrit la chaîne de caractère `'bonjour'` dans le fichier `files/test_ecriture'`:

In [12]:
f_output.write( 'Bonjour \n')

9

Il est possible que la chaîne `'bonjour'` ne soit pas écrite immédiatement dans le fichier. Certain langage procède à l'écriture effective dans le fichier que lorsqu'il y a suffisament de choses à écrire pour limiter les accès disque qui prennent du temps. Ces systèmes conservent les éléments à écrire dans un tampon et lorsque celui-ci est plein, alors il crit dans le fichier le contenu du tampon dans le fichier et vide le tampon. Il est possible de forcer l'écriture du tampon dans le fichier en utilisant la fonction `flush` (par exemple avec une instruction de la forme: `f_output.flush()`)

Dans tout les cas, lorsque le flux du fichier est fermé, le contenu du tampon est écrit dans le fichier. Ainsi après l'exécution de l'instruction `close` si vous ouvrez le fichier vous verrez qu'il contient la chaîne de caractère `'Bonjour \n'`.

In [10]:
f_output.close()

Il est possible d'écrire à la fin d'un fichier existant au moyen du mode d'ouverture `'a'`(pour append):

In [13]:
f_output = open( 'files/test_ecriture' , 'a')
i = 0
while( i < 10 ) :
    f_output.write( str(2 * i + 1) + '\n')
    i += 1
f_output.close()

A l'issue de ces deux opérations d'écriture dans ce même fichier `'files/test_ecriture'`, le contenu de celui-ci est le suivant:
```
Bonjour 
1
3
5
7
9
11
13
15
17
19
```

### Lecture dans un fichier

Afin de lire les données dans un fichier, on utlise la fonction `readline()`. Cette fonction lit le contenu du fichier *ligne à ligne*. A chaque appel, elle renvoie une ligne du fichier sous la forme d'une chaîne de caractères. Si l'on veut lire d'autre *types* de données il faut *caster* la valeur lue. Pour lire le contenu du fichier créé *supra*, on peut donc procèder de la façon suivante.

Tout d'abord on ouvre le fichier en lecture avec le mode `'r'`

In [33]:
# Ouverture du fichier en lecture
f_input = open( 'files/test_ecriture' , "r")

Puis on va lire séquentiellement son contenu. La première ligne est une chaîne de caractère:

In [34]:
ligne_1 = f_input.readline()

On peut vérifier que le contenu de la variable `ligne_1` est bien de type chaîne de caractère et que sa valeur, conformément au contenu du fichier est `'Bonjour \n'`.

In [35]:
print( type(ligne_1))

print( '<DEBUT>' + ligne_1 + '<FIN>')

<class 'str'>
<DEBUT>Bonjour 
<FIN>


Il est ensuite possible de lire le reste du contenu du fichier (constitués d'entiers) et par exemple de les stocker dans un tableau. Pour cela on va utiliser une boucle. Il s'agit donc de définir la condition d'arrêt de la boucle. De façon standart, on va lire le contenu du fichier tant qu'il y a un contenu. Lorsque le curseur de lecture sera à la fin du fichier, la fonction `readline` reverra une chaîne vide `''`.

Il s'agit donc de répéter des appels à la fonction `readline` tant que celle-ci revoie une chaîne de caractère différente de la chaîne vide.

**NB** Une ligne vide contient au minimum un caractère, le caractère non imprimé de retour à la ligne `'\n'`.

In [36]:
tab = []
i = 0
li = f_input.readline()
while( '' != li ) :
    tab += [ int(li) ]
    li = f_input.readline()

In [37]:
f_input.close()

On peut vérifier que le contenu du tableau est conforme au contenu du fichier:

In [38]:
print(tab)

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]


Vous noterez que lors de l'ajout de la valeur lu dans le fichier au tableau celle-ci est castée en entier (`int()`). Ceci est nécessaire si l'on souhaite que les valeur du tableau soient de entiers. Si on ne le fait pas, la fonction `readline` renvoyant comme valeur de retour une chaîne de caractère, les valeurs du tableau seraient des caractères.

**NB** Lors du cast de la chaîne de carctère `'1\n'` en entier, le caractère de retour à la ligne est ignoré.

### Lecture et ecriture formatée
Lorsque l'on souhaite importer dans un programme des données depuis un fichier formaté, il faut définir un programme de lecture qui tient compte du format. Soit le fichier `'files/planetes.csv'` suivant:
```
Planete , Distance au soleil en millions de km , Nombre de satellites
Mercure , 57.9 , 0
Venus , 108.2 , 0
Terre , 149.6 , 1
Mars , 227.9 , 2
Jupiter , 778.8 , 63
Saturne , 1434 , 60
Uranus , 2871 , 27
Neptune , 4495 , 13
```
Le format du fichier est `CSV` ce qui indique qu'il s'agit d'un tableau comportant potentiellement plusieurs lignes et sur chaque ligne les valeurs de chaque colonne sont séparées par une virgule (`,`).

Ici la première ligne ne contient pas de valeur, elle contient juste la description du type de données contenu dans chaque colonne. Comme on peut le constater le fichier contient donc 1 ligne de libellés et 8 lignes de données. Chaque ligne contient 3 colonnes. On se fixe pour objectif ici de créer 3 tableaux dans note programmes pour collecter le contenu de chaque colonne:
- le tableau `planetes` contiendra le nom des planétes (1ère colonne) sous forme d'une chaîne de caractères
- le tableau `distances` contiendra la distance des planétes au soleil (2ème colonne) sous forme de flotants
- le tableau `satellites` contiendra le nombre de satellites des planétes (3ème colonne) sous forme d'entiers.
Les informations de la première ligne ne seront pas mises en mémoire.

Pour lire le contenu de ce fichier nous devons donc développer un programme de lecture adapté au format. Lorsque chaque ligne suit le même format, il est conseiller de définir une fonction de *parsing* qui prend en paramètre une chaîne de caractère correspondant à la lecture d'une seule ligne (ce qui est la valeur retournée par `read`) et qui retourne sous forme structurée les valeurs des différentes colonnes. Cette fonction sera appelée pour chaque ligne contenant des données.

In [18]:
def parse_ligne_csv_planetes( ligne ) :
        c1, c2, c3 = ligne.split(',')
        return ( c1, float(c2), int(c3))

Ensuite il faut faire le programme de parsing du fichier complet. Cette fonction peut selon le choix du développeur prendre en charge l'ouverture et la fermeture du fichier, le paramètre de la fonction est alors le chemin vers le fichier. Cependant il est préférable de découpler les opérations d'ouverture et de fermeture du fichier des opérations de parsing. Nous ferons donc ici deux fonctions distinctes. Voici une proposition de fonction de parsing du contenu du fichier `CSV`.

In [23]:
def parse_file_csv_planetes( f_input ) :
    planetes = []
    distances = []
    satellites = []
    f_input.readline()               # cet appel sert a sauter la première ligne de libéllés
    li = f_input.readline()          # lecture de la première ligne de données
    while( '' != li ) :              # tant que la fin du fichier n'est pas atteinte
        p, d, s = parse_ligne_csv_planetes( li )  # parsing de ligne courante
        planetes += [ p ]            # mise en mémoire des données lues
        distances += [ d ]
        satellites += [ s ]
        li = f_input.readline()      # lecture de la ligne suivante
    return ( planetes, distances, satellites)

Voici une proposition de fonction de lecture du contenu du fichier CSV et de son appel dans un programme principal. `path` orrespond ici à l'emplacement dans le système du fichier du fichier à lire.

In [24]:
def read_csv_planetes( path ) :
    f_input = open( path , 'r')
    planetes, distances, satellites = parse_file_csv_planetes( f_input )
    f_input.close()
    return( planetes, distances, satellites )


planetes, distances, satellites = read_csv_planetes( 'files/planetes.csv' )

On peut vérifier que le programme s'est déroulé comme attendu en consultant le contenu des variables de stockages des données du fichier:

In [25]:
print( planetes )
print( distances )
print( satellites )

['Mercure ', 'Venus ', 'Terre ', 'Mars ', 'Jupiter ', 'Saturne ', 'Uranus ', 'Neptune ']
[57.9, 108.2, 149.6, 227.9, 778.8, 1434.0, 2871.0, 4495.0]
[0, 0, 1, 2, 63, 60, 27, 13]


- Sur ce thème : **Exercice 9, TD7**