# Données en table, traitement et agrégation
***
# Activité 3 - Traiter les données CSV avec des tableaux et Python

|Thème|Durée|truc|
|:---:|:----:|:----:|
|traiter des fichiers CSV|30min|à compléter|

|Organisation du travail|
|:-------------------------|
|- remplir un tableau en python depuis un fichier CSV|
|- faire un tri sur les données|
|- traiter des données|

***

***
# Lire des données depuis un fichier CSV

Le format **CSV** (**C**omma **S**eparated **V**alues) en français, « valeurs séparées par des virgules » est un format informatique ouvert qui permet de stocker les données d'un tableau. <u>Un fichier CSV est un fichier texte</u>.     
Ce format est très facile à générer et à manipuler. Chaque ligne du fichier correspond à une ligne du tableau et les virgules correspondent aux séparations entre colonnes.

Les portions de texte séparées par une virgule correspondent aux contenus des cellules.
On peut très bien remplacer les virgules par des tabulations ou tout autre caractère.
Ce format est utilisé pour échanger de manière interopérable des données de tableurs, bases de données, annuaires, etc ... entre logiciels différents et/ou plateformes différentes.

**Script en langage python** 

Pour découvrir les commandes, nous nous servons d'un fichier csv simple enregistré dans le dossier courant du notebook.    
Il s'agit ici d'ouvrir le fichier `exemple1.csv`. A l'aide d'une boucle `for`, on affiche dans la console chaque ligne de texte contenue dans le fichier.

In [5]:
f=open('exemple1.csv','r')        # copie le texte dans la variable f

for ligne in f :            
    print(ligne)                  # lit la ligne suivante et la stocke dans la variable ligne
    
f.close()

Nom,Prenom,Date_Naissance

Dupont,Catherine,17/06/2001

Durand,Herve,11/04/1975

Tremblant,Julie,06/04/2005

Martin,François,11/12/1998



>>**Remarque pour l'enseignant**     
>>Pour le parcours de f, il y a deux possibilités à bien distinguer :
>>- soit on réalise le parcours avec l'instruction ```ligne= f.readligne()```     
>>- soit on réalise le parcours avec ```py for ligne in f: ```
>>
>>Mais il ne faut pas combiner les deux, au risque de sauter une ligne systématiquement.

In [2]:
type(f),type(ligne)

(_io.TextIOWrapper, str)

**Des commandes utiles en python pour utiliser un fichier**     
>Ouverture en lecture : 
```py 
f = open('nom.txt','r')
```    
>Ouverture en écriture : 
```py 
g = open('nom.txt','w') 
``` 
>Fermeture : 
```py 
f.close()     
``` 
>Ouverture et fermeture avec une structure de bloc : 
```py 
with open('nom.txt','r') as f :  
``` 
>Lire la ligne suivante : 
```py 
ligne = f.readline()
```   
>Parcourir toutes les lignes :
```py 
for ligne in f:
```
>Écrire dans le fichier :
```py 
g.write('message')
```
>Écrire dans le fichier avec passage à la ligne :
```py 
g.write('message\n')
```

***

# Manipuler un fichier CSV simple

Un peu de pratique est nécessaire avant de traiter les données de consommation électrique.     
Pour les trois exercices qui suivent, nous utiliserons un fichier .csv plus simple : `data.csv`

> **Exercice 1 : remplir une liste depuis un fichier csv**
>
> Ecris un programme qui "lit" le fichier `data.csv` et ajoute chaque ligne dans une liste, notée L.    
> On souhaite seulement conserver les lignes contenant des valeurs, pas leurs entêtes

In [4]:
L=[]
f=open('data.csv','r',encoding="utf-8")

for ligne in f :
    L.append(ligne.split(":"))          # plutôt qu'afficher, on ajoute chaque ligne à la liste L      
    
f.close()
print(L)

[['Nom', 'Prénom', 'Année de naissance', 'Note en français', 'Note en maths\n'], ['Vega', 'Maurice', '2001', '11', '20\n'], ['Malot', 'Brigitte', '2002', '13', '11\n'], ['Dutendas', 'Fabien', '2002', '8', '13\n'], ['Le Grand', 'Pauline', '2001', '18', '9\n'], ['Prava', 'Emma', '2001', '12', '7\n'], ['Tupin', 'Roger', '2001', '9', '14\n']]


faire un choix explicite

> **Exercice 2**
>
> Ecris une fonction :
- recevant en argument le nom d'un fichier .csv
- et retournant une liste dont les éléments correspondent aux lignes du fichier .csv  
>
> Teste la fonction sur le fichier data.csv ou exemple1.csv

In [None]:
def lireCSV(fichier):
    L=[]
    f=open(fichier,'r')
    for ligne in f :
        L.append(ligne.split(":")) 
    f.close()
    return L[1:len(L)]

print(lireCSV('data.csv'))

> **Exercice 3 : filtrer les éléments d'une liste**
>
> On souhaite extraire de la liste L les personnes nées en 2001, ainsi que les informations les concernant.    
> Ecrire un programme qui retourne une liste l contenant seulement les lignes concernant les personnes nées en 2001.
>

In [None]:
L=[]
f=open('data.csv','r')
for ligne in f :
    l=ligne.split(":")
    if l[2]=='2001':     # on teste la troisième "colonne" et on n'ajoute à la liste que celle égale à 2001
        L.append(l) 
f.close()

print(L[1:len(L)])

> **Exercice 4**
>
> Ecris une fonction :
- recevant une liste L, le numéro du champ et une condition `cond` à tester
- et retournant une liste constituée de tous les éléments de L vérifiant la condition `cond`
>

In [None]:
def filtrerCSV(fichier,numero,cle):
    L=[]
    f=open(fichier,'r')
    for ligne in f :
        l=ligne.split(":")
        if l[numero-1]==cle:
            L.append(l) 
    f.close()
    return L[1:len(L)]

print(filtrerCSV('data.csv',3,'2001'))

> **Exercice 5**
>
> Calcule la note moyenne obtenue en français par les personnes nées en 2001
>

In [None]:
L=filtrerCSV('data.csv',3,'2001')
n=len(L)
Somme=0
for i in range(n):
    Somme=Somme+int(L[i][3])
print(Somme/n)