NOMS: GOSSOT Jean-Baptiste GUERIN Léa GUERRE Soline FRATTINI Juliette

# TP : Les pays du monde  - Importation d'une table

## Présentation

Vous disposez d'un fichier nommé `pays.csv`.

Le format csv, pour Comma-Separated Values, est un format très simple. Il s'agit d'un fichier texte qui permet de stocker une table (tableau à deux dimensions utilisé dans les bases de données).

Si vous ouvrez ce fichier avec un éditeur de texte tel que le bloc-notes ou Geany, vous pourrez constater que le fichier contient plusieurs lignes. Chacune d'entre elles donne des informations sur un pays. Des points-virgules marquent le passage d'une colonne à l'autre.

```
AFG;Afghanistan;Asia;Southern and Central Asia;652090.00;1919;22720000;45.9;5976.00;NULL;Afganistan/Afqanestan;Islamic Emirate;Mohammad Omar;1;AF
NLD;Netherlands;Europe;Western Europe;41526.00;1581;15864000;78.3;371362.00;360478.00;Nederland;Constitutional Monarchy;Beatrix;5;NL
ANT;Netherlands Antilles;North America;Caribbean;800.00;NULL;217000;74.7;1941.00;NULL;Nederlandse Antillen;Nonmetropolitan Territory of The Netherlands;Beatrix;33;AN
ALB;Albania;Europe;Southern Europe;28748.00;1912;3401200;71.6;3205.00;2500.00;Shqipëria;Republic;Rexhep Mejdani;34;AL
DZA;Algeria;Africa;Northern Africa;2381741.00;1962;31471000;69.7;49982.00;46966.00;Al-Jaza’ir/Algérie;Republic;Abdelaziz Bouteflika;35;DZ
ASM;American Samoa;Oceania;Polynesia;199.00;NULL;68000;75.1;334.00;NULL;Amerika Samoa;US Territory;George W. Bush;54;AS
AND;Andorra;Europe;Southern Europe;468.00;1278;78000;83.5;1630.00;NULL;Andorra;Parliamentary Coprincipality;;55;AD
AGO;Angola;Africa;Central Africa;1246700.00;1975;12878000;38.3;6648.00;7984.00;Angola;Republic;José Eduardo dos Santos;56;AO
```

Ce qui correspond au tableau suivant (les entêtes de colonnes ont été rajoutés):

Code | Nom | Continent| Region | Aire | AnneeIndependance | Population | EsperanceVie | GNP | GNPAncien | NomLocal | FormeGouvernement | ChefEtat | Capitale | Code2
----|---------------------------------------------|--------------|--------------------------|-----------|------|-----------|-----|----------|----------|---------------------------------------------|---------------------------------------------|----------------------------------|-----|---
AFG |Afghanistan                                  |Asia          |Southern and Central Asia |652090.0   |1919  |22720000   |45.9 |5976.0    |NULL      |Afganistan/Afqanestan                        |Islamic Emirate                              |Mohammad Omar                     |1    |AF 
NLD |Netherlands                                  |Europe        |Western Europe            |41526.0    |1581  |15864000   |78.3 |371362.0  |360478.0  |Nederland                                    |Constitutional Monarchy                      |Beatrix                           |5    |NL 
ANT |Netherlands Antilles                         |North America |Caribbean                 |800.0      |NULL  |217000     |74.7 |1941.0    |NULL      |Nederlandse Antillen                         |Nonmetropolitan Territory of The Netherlands |Beatrix                           |33   |AN 
ALB |Albania                                      |Europe        |Southern Europe           |28748.0    |1912  |3401200    |71.6 |3205.0    |2500.0    |Shqipëria                                    |Republic                                     |Rexhep Mejdani                    |34   |AL 
DZA |Algeria                                      |Africa        |Northern Africa           |2381741.0  |1962  |31471000   |69.7 |49982.0   |46966.0   |Al-Jaza’ir/Algérie                           |Republic                                     |Abdelaziz Bouteflika              |35   |DZ 
ASM |American Samoa                               |Oceania       |Polynesia                 |199.0      |NULL  |68000      |75.1 |334.0     |NULL      |Amerika Samoa                                |US Territory                                 |George W. Bush                    |54   |AS 
AND |Andorra                                      |Europe        |Southern Europe           |468.0      |1278  |78000      |83.5 |1630.0    |NULL      |Andorra                                      |Parliamentary Coprincipality                 |                                  |55   |AD 
AGO |Angola                                       |Africa        |Central Africa            |1246700.0  |1975  |12878000   |38.3 |6648.0    |7984.0    |Angola                                       |Republic                                     |José Eduardo dos Santos           |56   |AO 



Notre objectif est de manipuler cette table à l'aide d'un programme en python.

Dans ce TP, nous allons commencer par apprendre à lire le fichier et à stocker les informations qu'il contient dans une structure de données adaptée.

## Lecture de fichier

Avant de chercher à lire le fichier `pays.csv`, nous allons voir comment on peut lire un fichier texte dans un programme python.  
Pour cela, vous allez créer un petit fichier texte dans le même dossier que ce notebook.  
Ce fichier se trouve sur une mémoire de stockage (disque dur, carte SD, clé USB,...). Pour avoir accès aux données qu'il contient et pouvoir traiter ces données, il faut commencer par les charger en mémoire vive.

### Ouverture du fichier
L'ouverture d'un fichier se fait grâce à la fonction `open`.  
Cette fonction prend en argument:
- un `str` contenant le chemin vers le fichier à ouvrir. Ce chemin peut être absolu ou relatif. Cet argument est obligatoire.
- un `str` indiquant le mode d'ouverture du fichier. Cet argument est facultatif.
- divers arguments facultatifs que nous ne détaillerons pas ici.

Un fichier peut être ouvert en lecture ou en écriture. Les modes d'ouverture possibles sont ainsi:
- `'r'` pour l'ouverture en lecture. C'est la valeur par défaut.
- `'w'` pour l'ouverture en écriture. Si le fichier n'existe pas, il sera créé. **S'il existe, il sera effacé et remplacé par ce qu'on va écrire.**
- `'a'` pour ouvrir un fichier en écriture. Si le fichier existe déjà, les données écrites seront ajoutées après les données existantes.

Par défaut, l'ouverture se fait en mode texte (la lecture produit des `str`, l'écriture fonctionne comme un `print` qui aurait lieu dans le fichier au lieu de la sortie écran).  
Si on ajoute `b` dans le mode d'ouverture, le fichier sera ouvert en mode binaire. On lira ainsi les octets constituants le fichier. Comme nous souhaitons lire un fichier texte, nous n'utiliserons pas ce mode pour l'instant.

La fonction renvoi un objet de type `file`. Il faut obligatoirement le stocker dans une variable pour avoir accès au fichier après l'ouverture.

Exemple d'utilisation de `open`:
```python
fichier = open("mon fichier.txt", "r")
```

Utilisez la cellule ci-dessous pour ouvrir votre fichier.

In [None]:
fichier = open("fichier test.txt", "r")

Attention, si le fichier n'existe pas, une erreur se produira. Dans un programme, cela provoquera l'arrêt du programme. Il existe cependant des manières de sécuriser l'opération pour éviter un plantage en cas de fichier introuvable.

### Lecture des données du fichier

Pour lire le fichier, on va appliquer des méthodes à l'objet `file` obtenu.

- La méthode `read` permet de lire un certain nombre de caractères dans le fichier.  
Elle prend en argument le nombre de caractères à lire. Si ce nombre est négatif, si on utilise `None` ou si on utilise la méthode sans argument, tout le fichier sera lu.  
La méthode renvoi un `str` de ce qu'elle a lu.
```python
a = fichier.read(10)    # stocke dans a les 10 premiers caractères du fichier
b = fichier.read()      # stocke dans b tous les caractères suivants
c = fichier.read(5)     # stocke un str vide dans c car on a déjà tout lu
```

- la méthode `readline` permet de lire une ligne du fichier.  
Elle s'arrête donc de lire dès qu'un saut de ligne est rencontré (ou dès qu'on atteint la fin du fichier).  
Cette méthode peut prendre en argument un nombre maximum de caractères à lire.  
Le saut de ligne est inclus dans le `str` renvoyé par la fonction. Ainsi, une ligne vide produira un `str` contenant uniquement un saut de ligne. On sait qu'on a atteint la fin du fichier quand la fonction renvoi un `str` vide (`""`).
```python
a = fichier.readline()  # stocke dans a la première ligne du fichier
b = fichier.readline()  # stocke dans b la ligne suivante
```

Utilisez la cellule suivante pour lire dans le fichier en utilisant les méthodes précédentes. N'oubliez pas d'afficher ce que vous avez lu.

In [None]:
a = fichier.read(None)
print(a)

En plus de ces méthodes, on peut utiliser une boucle `for` pour parcourir le fichier.  
Ainsi, le code suivant:
```python
for ligne in fichier:
    print(ligne)
```
va lire à chaque tour de boucle une nouvelle ligne du fichier et l'afficher à l'écran. (Vous remarquerez qu'il y a une ligne vide entre chaque ligne. En effet, le saut de ligne à la fin de la ligne lue est présent à la fin du `str` et la fonction `print` en ajoute automatiquement un après l'affichage).

### Fermeture du fichier

Une fois que l'on n'a plus besoin d'accéder au support de stockage, il est important de fermer le signaler. En effet, si on travaille sur un fichier en écriture, ce que l'on écrit n'est pas toujours immédiatement transféré au support de stockage (il peut y avoir différents tampons de mémoire). La fermeture du fichier va nous assurer que la totalité de ce que l'on veut écrire a bien été écrite.  
De plus, un fichier ouvert, que ce soit en écriture ou en lecture, ne peut pas être à nouveau ouvert par un autre programme.

Nous allons donc utiliser la méthode `close` pour fermer le fichier. Cette méthode ne prend pas d'argument et ne renvoi rien. Si on essaye d'accéder au fichier après avoir appelé cette méthode, cela provoquera une erreur. Il est toujours possible d'utiliser la fonction `open` pour ouvrir à nouveau le fichier.

```python
fichier.close()
```

Utilisez la cellule suivante pour fermer votre fichier (vous pouvez essayer d'accéder à son contenu ensuite pour voir que cela produit bien une erreur).

In [None]:
fichier.close()

## Manipuler des `str`

Nous savons maintenant lire un fichier texte. Il est dès lors possible de lire le fichier `pays.csv` pour obtenir des `str`. 

Plusieurs approches sont possibles. 

On peut ainsi lire le fichier un caractère à la fois et réagir aux points-virgules `";"` (changement de colonne de la table), aux sauts de ligne `"\n"` (changement de ligne de la table) et aux chaînes vides `""` (fin du fichier).  
On doit alors se charger de concaténer les caractères obtenus pour reconstituer les mots (ou nombres) de la table.

On peut aussi lire le fichier ligne par ligne. A l'intérieur d'une ligne, on peut alors parcourir le `str` obtenu pour le découper manuellement à chaque point-virgule, mais on peut aussi utiliser les fonctionnalités offertes par Python pour manipuler les `str`.

Ainsi, puisque nous devons séparer le contenu d'une ligne en différentes valeurs à chaque point-virgule rencontré, nous pouvons utilisé la méthode `split` des `str`. Cette méthode s'applique à un `str` et prend en argument un `str` représentant le séparateur qui sert à découper le texte. Elle renvoi une `list` de `str` correspondant aux différentes parties obtenues.

Exemple:

In [3]:
texte = "Bonjour"
morceaux = texte.split("o")
print(morceaux)

texte = "Appelée sans argument, la méthode split sépare le str selon ses espaces."
morceaux = texte.split()
print(morceaux)

['B', 'nj', 'ur']
['Appelée', 'sans', 'argument,', 'la', 'méthode', 'split', 'sépare', 'le', 'str', 'selon', 'ses', 'espaces.']


La cellule suivante contient le texte de la première ligne de la table. Faites en sorte d'obtenir une `list` de chaque cellule de cette ligne et affichez les éléments de cette `list` un par un sur des lignes séparées.

In [4]:
ligne = "AFG;Afghanistan;Asia;Southern and Central Asia;652090.00;1919;22720000;45.9;5976.00;NULL;Afganistan/Afqanestan;Islamic Emirate;Mohammad Omar;1;AF"
morceaux = ligne.split(";")

for element in morceaux:
    print([element])

['AFG']
['Afghanistan']
['Asia']
['Southern and Central Asia']
['652090.00']
['1919']
['22720000']
['45.9']
['5976.00']
['NULL']
['Afganistan/Afqanestan']
['Islamic Emirate']
['Mohammad Omar']
['1']
['AF']


## Type des données

Lorsque nous allons charger la table, il est nécessaire de stocker les données dans le bon type.

Les colonnes de cette table représentent, dans l'ordre: 
- Le code du pays : c'est un `str` de 3 caractères identifiant le pays. Nous verrons plus tard à quoi il peut servir.
- Le nom du pays (an anglais) : c'est aussi un `str`
- Le continent auquel appartient le pays: pour rester simple, nous utiliserons un `str`
- La région du monde (une sous-partie du continent): `str`
- La superficie (en km²) du pays: elle doit être un nombre à virgule, donc de type `float`
- L'année d'independance: c'est un nombre entier, on utilisera donc le type `int`
- La population: `int`
- L'espérance de vie: `float`
- Le PIB: `float`
- Le PIB précédent: `float`
- Le nom local (dans la langue locale): `str`
- La forme de gouvernement: `str`
- Le nom du chef d'état: `str`  (Si vous observez la table, vous comprendrez qu'elle date un peu)
- La capitale: il s'agit d'un nombre entier `int`. Nous verrons plus tard à quoi il sert
- Un deuxième code, de deux lettres: `str`  (il n'a pas d'utilité, mais il figurait dans les données récupérées)

Puisque les données lues depuis le fichier sont toutes de type `str`, il va falloir changer le type lorsque l'on voudra manipuler des nombres. En effet, on voudra prochainement faire des opérations sur les données.  
Par exemple, on voudra pouvoir répondre à une question telle que: "quelle est la population de l'Europe ?"  
Il faudra donc pouvoir additionner les populations de différents pays. Si les données sont sous forme de `str`, ne nous pourrons pas y arriver.

Il va donc nous falloir transformer certains `str` dans le bon type. Ainsi, tout ce qui sera lu dans la colonne "population" devra être stocké en mémoire sous forme d'`int`; la superficie, sous forme de `float`, etc...

Attention, certaines cellules de la table contiennent la valeur `NULL`. Dans ce cas, nous les transformeront en `None`.

Dans la cellule ci-dessous, faites en sorte d'obtenir une `list` représentant la première ligne de la table avec les bons types pour chaque cellule.  
Efforcez-vous de trouver un code élégant en utilisant une boucle et une liste des types voulus par colonne.

In [1]:
import csv

# Ouvrir le fichier CSV et créer un objet lecteur csv.reader
with open('pays.csv', newline='', encoding = "utf-8") as csvfile:
    reader = csv.reader(csvfile, delimiter=',')

    # Lire la première ligne de la table
    first_row = next(reader)

    # Définir la liste des types de données souhaités pour chaque colonne
    # Dans cet exemple, la première colonne est une chaîne de caractères et la deuxième colonne est un nombre décimal
    types = [str, float]

    # Convertir chaque cellule de la première ligne au type de données souhaité pour sa colonne
    converted_row = []
    for i in range(len(first_row)):
        converted_cell = types[i](first_row[i])
        converted_row.append(converted_cell)

print(converted_row)


['AFG;Afghanistan;Asia;Southern and Central Asia;652090.00;1919;22720000;45.9;5976.00;NULL;Afganistan/Afqanestan;Islamic Emirate;Mohammad Omar;1;AF']


## Représentation de la table

Nous allons maintenant chercher à charger la table entière en mémoire. Il va falloir trouver une structure permettant de stocker ses informations pour réussir à les manipuler facilement.

Nous allons donc créer une `list` des différents pays. Chaque élément de cette liste sera donc une ligne de la table.

Pour représenter une ligne, vous devrez choisir une manière de procéder:
- une ligne pourrait être représentée par une `list`
- une ligne pourrait être représentée par un `tuple`
- une ligne pourrait être représentée par un `namedtuple`

Il y a encore d'autres possibilités. Votre choix de représentation influera sur votre manière de manipuler les données de la table pour répondre à différentes questions dans un autre TP.

Utilisez la cellule suivante pour charger le fichier `pays.csv` dans une variable.

N'oubliez pas que les cellules doivent être du bon type.

In [2]:
import csv

# Définir les types de données souhaités pour chaque colonne
# Dans cet exemple, la première colonne est une chaîne de caractères, la deuxième colonne est une chaîne de caractères, la troisième colonne est une chaîne de caractères, etc.
types = [str, str, str, str, float, int, int,
         float, float, str, str, str, str, int, str]

# Ouvrir le fichier CSV et créer un objet lecteur csv.reader
with open('pays.csv', newline='', encoding='utf-8') as csvfile:
    reader = csv.reader(csvfile, delimiter=';')

    # Lire la première ligne de la table et la convertir en utilisant les types de données souhaités
    headers = next(reader)
    headers_converted = [types[i](headers[i]) for i in range(len(headers))]

    # Lire les lignes suivantes de la table et les convertir en utilisant les types de données souhaités
    rows = []
    for row in reader:
        if row[6] is None or row[6] == 'NULL':
            pop = None
        else:
            pop = int(row[6])
        row_converted = [types[i](row[i]) if row[i] !=
                         'NULL' else None for i in range(len(row))]
        row_converted[6] = pop
        rows.append(tuple(row_converted))

# Créer la liste des pays en combinant les en-têtes et les lignes
pays = [headers_converted] + rows






## Une première utilisation de la table

Maintenant que vous disposez d'une variable contenant l'intégralité des données de la table, vous allez l'utiliser, dans la cellule suivante, pour afficher tous les pays d'Europe.

In [3]:
# Afficher les noms des pays
for row in pays:
    if row[3] in ["Eastern Europe", "Southern Europe", "Western Europe", "Europe"]:
        print(row[1])


Netherlands
Albania
Andorra
Belgium
Bosnia and Herzegovina
Bulgaria
Spain
Gibraltar
Italy
Austria
Yugoslavia
Greece
Croatia
Liechtenstein
Luxembourg
Macedonia
Malta
Moldova
Monaco
Portugal
Poland
France
Romania
Germany
San Marino
Slovakia
Slovenia
Switzerland
Czech Republic
Ukraine
Hungary
Belarus
Holy See (Vatican City State)
Russian Federation


C'est déjà bien pour ce TP. Nous continuerons de manipuler la table la prochaine fois.