# Traitement de données en table

## 1. Import du cvs dans python sous forme de liste de listes
  
La première étape est de charger notre fichier dans python.  
Nous allons utiliser une fonction qui prendra comme paramètre le nom du fichier csv (situé dans le même répertoire).  
Cette fonction retournera une liste, dans celle-ci, plusieurs listes. Une liste pour chaque ligne du fichier de données.  
Nous verons plus loin une autre fonction qui permettra de retourner une liste de dictionnaires.  
  

In [1]:
import csv

def charger_csv(nom_fic):
    """Fonction qui permet d'importer les données du fichier csv sous forme de liste de listes """
    liste = []  # resultat de la fonction
    # ouverture du fichier CSV
    with open(nom_fic,  # nom du fichier
              "r",  # ouverture en lecture
              newline="",  # évite les problèmes de codage du retour à la ligne
              encoding="utf-8-sig"  # permet de forcer la lecture en utf -8 (sig pour "UTF-8 codec with BOM signature")
              ) as csvfile:  # cvsfile est le fichier que l'on vient d'ouvrir
        # création du lecteur csv indiquant le caractère séparateur
        csv_reader = csv.reader(csvfile, delimiter=";")
        for enreg in csv_reader:  # boucle de parcours des enregistrements
            # enreg est une liste de str contenant chaque champ de l ' enregistrement
            # ajout de enreg dans la liste
            liste.append(enreg)
    return liste

In [2]:
liste_medailles = charger_csv("JO_Liste_Medaille_2012-2014.csv")

## 1.1 Manipulation des listes  
Ouvrez le fichier csv dans un éditeur de texte pour vous aider.  
 
Répondez aux questions ci-dessous :

In [None]:
# Question a. Que doit renvoyer la commande liste_medailles[0] ? 


In [None]:
# Question b. Que doit renvoyer la commande liste_medailles[0][3] ?  


In [None]:
# Question c. Quelle commande entrer pour obtenir comme retour : 'LAVILLENIE' ?


## 1.2 Les limites de ce type de structures de données.
Pour rechercher la discipline de liste_medailles[1] quelle information supplémentaire doit-on connaître ?

## 2. Import du cvs dans python sous forme de liste de dictionnaires
Pour palier au problème soulevé précédement, il est possible d'importer les données sous la forme d'une liste de dictionnaires.  
Chaque dictionnaire aura une liste de **clés** qui correspondent aux entêtes de notre csv (les données de la première ligne).  
Les **valeurs** correspondront aux données obtenues sur chaque ligne.  
*Exemple* : liste[0]['Epreuve'] est égal à '3000m steeple homme'  
La première ligne du fichier csv servant à générer nos **clés** est à ignorer lors du parcours des enregistrements.

## 2.1 Complétez la fonction ci-dessous.
La fonction ci-dessous est incomplète, complétez celle-ci.

In [3]:
def charger_csv_dict(nom_fic):
    """Fonction qui permet d'importer les données du fichier csv sous forme de liste de dictionnaires """
    liste = []  # resultat de la fonction
    # ouverture du fichier CSV
    with open(nom_fic,  # nom du fichier
              "r",  # ouverture en lecture
              newline="",  # évite les problèmes de codage du retour à la ligne
              encoding="utf-8-sig"  # permet de forcer la lecture en utf -8 (sig pour "UTF-8 codec with BOM signature")
              ) as csvfile:  # cvsfile est le fichier que l'on vient d'ouvrir
        # création du lecteur csv indiquant le caractère séparateur
        csv_reader = csv.reader(csvfile, delimiter=";")
        # permet de sauter la ligne d'entête si pas besoin
        csv_reader.__next__()
        for enreg in csv_reader:  # boucle de parcours des enregistrements
            # enreg est une liste de str contenant chaque champ de l ' enregistrement
            # ajout du score dans la liste
            liste.append(
            {
                'Fédération' : enreg[0],
                'Discipline' : enreg[1],
                'Epreuve' : enreg[2],
                'NOM' : enreg[3],
                'Prénom' : enreg[4],
                # COMPLETER LE CODE A PARTIR DE CETTE LIGNE
            }
            )
    return liste

In [4]:
liste_medailles_dict = charger_csv_dict("JO_Liste_Medaille_2012-2014.csv")

## 2.2 Testez votre fonction.  
**Après avoir compléter la fonction vu en 2.1** , complétez les 3 cellules suivantes pour tester votre fonction

In [None]:
#a. liste_medailles_dict[0]['Epreuve'] doit retourner '3000m steeple homme'  


In [None]:
#b. liste_medailles_dict[7]['MEDAILLE(S)'] doit retourner 'Argent'


In [5]:
#c. Que doit retrouner liste_medailles_dict[39]['Olympique/paralympique'] ? 
# Trouvez-le sans tricher, puis vérifiez avec une ligne de code !


# 3. Passons aux choses sérieuses !
Faisons le point ! Nous savons importer un fichier csv sous forme :
- de liste de listes
- de liste de dictionnaires (tableau de p-uplets)  

Nous savons aussi afficher une donnée dans ces listes.  
Allons plus loin, il est possible d'exploiter ses données via des traitements que nous effectuerons avec python.  
Plus tard (l'année prochaine) nous verrons que des languages peuvent servir à exploiter des bases de données relationnelles. (SQL par exemple ...)  
Pour les curieux : [lien vers l'article wikipedia sur les bases de données relationnelles](https://fr.wikipedia.org/wiki/Base_de_donn%C3%A9es_relationnelle)

## 3.1 Recherche de doublons.
Un première tâche est de vérifier que nos données ne contiennent pas de doublons.  
Normalement, en utilisant des données depuis data.gouv.fr on peut espérer que nos données soient "propres".  
Mais mieux vaut être prudent, on ne sait jamais !

**Créez, dans la cellule ci-dessous, une fonction qui prend comme entrée une liste et qui renvoie la liste des doublons. Cette liste sera vide si il n'y a aucun doublons.**

In [None]:
def liste_doublons(liste):
    """
    fonction qui prend comme entrée une liste
    et qui renvoie la liste des doublons.
    Cette liste sera vide si il n'y a aucun doublons.
    """
    doublons = []
    # A vous de compléter. Bonne chance !
    return doublons
    

In [None]:
# L'exemple ci-dessous doit revoyer ['alice', 'alice', 'david']
liste_doublons(['alice','alice','bob','charles','david','emy','david','fr','alice'])

In [None]:
# Charger le fichier csv qui s'appelle JO_Liste_Medaille_test_doublons.csv
# Affichez les éventuels doublons de cette liste


In [None]:
# Vérifier que la liste des médailles ne contient pas de doublons.


## 3.2 Recherches.
Les exercices suivant aurons pour but d'effectuer des recherches dans la table liste_medailles_dict


In [None]:
# Complétez la fonction suivante :
def nombre_medailles_fede(federation,liste):
    """
    Fonction qui en paramètre prend l'intitulé d'une fédération (voir csv)
    et la liste des médailles sous forme de liste de dictionnaires
    et qui retourne le nombre de médaille pour cette fédération
    """
    pass

In [6]:
# a. Vérifiez que le nombre de médaille en 'Athlétisme' est de 2.


In [None]:
# b. Trouvez le nombre de médaille en 'Handisport'


In [None]:
# Complétez la fonction suivante :
def nombre_medailles(champ,valeur,liste):
    """
    Fonction qui en paramètre prend l'intitulé le champs cible (par exemple 'NOM'),
    sa valeur cible (par exemple 'FOURCADE')
    et la liste des médailles sous forme de liste de dictionnaires
    et qui retourne le nombre de médaille correspondant
    """
    pass

In [None]:
# a. Vérfier que Martin FOURCADE a obtenu 3 médailles au J.O en 2014.


In [None]:
# b. Déterminer le nombre de médailles d'or de la france lors de ces 2 J.O
