# P2. Exploration Python

Le répertoire `/data` contient les résultats brutes des épreuves des jeux d'été et d'hiver pour une période donnée.

On s'intéresse dans le cadre de cette partie P2 à l'exploration des résultats des JO d'été (fichier : `summer-olympics.csv`) en s'appuyant sur le langage Python (standard library seulement).


---

## Préliminaire: Chargement des données
Le code fourni ci-dessous permet de charger en mémoire le fichier de données `summer-olympics.csv` dans la variable `data`

In [1]:
import csv
import time

filename = 'data/summer-olympics.csv'

ts = time.time()

data = []
with open(filename, newline='', encoding='utf-8') as csvfile:
    reader = csv.DictReader(csvfile, delimiter=',')
    for row in reader:
        data.append(row)
n_items = len(data)

te = time.time()
        
print(f"{filename} loaded into data ({n_items} items)")
print(f"done in {te - ts:.2f} s.")


data/summer-olympics.csv loaded into data (31165 items)
done in 0.10 s.


___

### Question 0: Où trouver la documentation du module `csv` ? de la fonction `csv.DictReader` ? 

In [2]:
help(csv)

Help on module csv:

NAME
    csv - CSV parsing and writing.

MODULE REFERENCE
    https://docs.python.org/3.8/library/csv
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    This module provides classes that assist in the reading and writing
    of Comma Separated Value (CSV) files, and implements the interface
    described by PEP 305.  Although many CSV files are simple to parse,
    the format is not formally defined by a stable specification and
    is subtle enough that parsing lines of a CSV file with something
    like line.split(",") is bound to fail.  The module supports three
    basic APIs: reading, writing, and registration of dialects.
    
    
    DIALECT REGISTRATION:
    
    Readers

In [3]:
help(csv.DictReader)

Help on class DictReader in module csv:

class DictReader(builtins.object)
 |  DictReader(f, fieldnames=None, restkey=None, restval=None, dialect='excel', *args, **kwds)
 |  
 |  Methods defined here:
 |  
 |  __init__(self, f, fieldnames=None, restkey=None, restval=None, dialect='excel', *args, **kwds)
 |      Initialize self.  See help(type(self)) for accurate signature.
 |  
 |  __iter__(self)
 |  
 |  __next__(self)
 |  
 |  ----------------------------------------------------------------------
 |  Data descriptors defined here:
 |  
 |  __dict__
 |      dictionary for instance variables (if defined)
 |  
 |  __weakref__
 |      list of weak references to the object (if defined)
 |  
 |  fieldnames



---
### Question 1: Quel est le type de la variable `data`? 

In [4]:
type(data)

list

### Question 2: Combien d'éléments contient la variable `data` ? 

In [5]:
len(data)

31165

### Question 2: Quel est le premier élément de `data` ? 

In [6]:
data[0]

{'Year': '1896',
 'City': 'Athens',
 'Sport': 'Aquatics',
 'Discipline': 'Swimming',
 'Athlete': 'HAJOS, Alfred',
 'Country': 'HUN',
 'Gender': 'Men',
 'Event': '100M Freestyle',
 'Medal': 'Gold'}

### Question 3: Quel est le dernier élément de data ? 

In [7]:
data[-1]

{'Year': '2012',
 'City': 'London',
 'Sport': 'Wrestling',
 'Discipline': 'Wrestling Freestyle',
 'Athlete': 'LIDBERG, Jimmy',
 'Country': 'SWE',
 'Gender': 'Men',
 'Event': 'Wg 96 KG',
 'Medal': 'Bronze'}

---
#### On définit la variable sample de la façon suivante :

In [8]:
sample = data[25215]

### Question 4: Que représente la variable `sample` ? 

In [9]:
sample

{'Year': '2004',
 'City': 'Athens',
 'Sport': 'Aquatics',
 'Discipline': 'Swimming',
 'Athlete': 'MANAUDOU, Laure',
 'Country': 'FRA',
 'Gender': 'Women',
 'Event': '100M Backstroke',
 'Medal': 'Bronze'}

### Question 5: Quel est le type de la variable `sample` ? 

In [10]:
type(sample)

dict

### Question 6: De quel sport / discipline / compétition (Event) est-il question  ? 

In [11]:
sample["Sport"]

'Aquatics'

In [12]:
sample["Discipline"]

'Swimming'

In [13]:
sample["Event"]

'100M Backstroke'

**Python: Dict / Dictionnaire**: collection d'infos par 'key / value pair' (clé / valeur) - un peu similaire avec format fichier JSON (+ infos à venir)

### Q1. Combien la France a remporté de médailles d'or aux JO de 1984 ?

```python
boucle: for
    
test: if / else
    
test: et / ou, test sur égalité (==)
    
liste
```

In [14]:
data = []
with open(filename, newline='', encoding='utf-8') as csvfile:
    reader = csv.DictReader(csvfile, delimiter=',')
    for row in reader:
        data.append(row)
n_items = len(data)

te = time.time()
        
print(f"{filename} loaded into data ({n_items} items)")
print(f"done in {te - ts:.2f} s.")


data/summer-olympics.csv loaded into data (31165 items)
done in 0.45 s.


In [15]:
selection = []
for e in data:
    if e['Year'] == '1984' and e['Country'] == 'FRA' and e['Medal'] == 'Gold':
        selection.append(e)
len(selection)

21

___

### Q15: Le nombre de médailles d’or par pays en 2012 (Maëlle)

**Pseudo-Algorithme**

- Effectuer une première sélection “liste_gold_2012” pour ne retenir que les médailles d’Or 2012
on passe de 31k items à 636 items

- Ensuite, à partir de la première sélection, rechercher tous les pays présent et ajouter cela dans la liste “liste_pays” en éliminant les doublons

- Pour chaque pays retenu, calculer le nb de médailles d’or obtenus en 2012 (C’est Q1 mais généralisé à un pays quelconque et une année donnée)


**Important ici et nouveauté à ce stade:** notion de fonction 

In [16]:
def calcul_nb_medailles(data, country, year):
    """
    Calculer le nb de médailles d'Or gagné 
    par un pays donné `country` 
    lors d'une olympiade donnée `year`
    """
    selection = []
    for e in data:
        if e['Year'] == year and e['Country'] == country and e['Medal'] == 'Gold':
            selection.append(e)
    reponse = len(selection)
    print(year, country, reponse)
    
    return reponse

In [17]:
calcul_nb_medailles(data, 'FRA', '1984')

1984 FRA 21


21

In [18]:
liste_pays = ['FRA', 'USA', 'GER', 'DEN', 'GRE']

In [19]:
for pays in liste_pays:
    calcul_nb_medailles(data, pays, '2012')

2012 FRA 30
2012 USA 147
2012 GER 45
2012 DEN 3
2012 GRE 0


In [20]:
# Effectuer une première sélection “liste_gold_2012” 
# pour ne retenir que les médailles d’Or 2012
# on passe de 31k items à 636 items

# Suggestion snippet Izak 
medaille_or_2012 = []
for md in data:
    if md["Year"] == '2012' and md["Medal"] == "Gold":
        medaille_or_2012.append(md)
len(medaille_or_2012)


636

In [21]:
# Ensuite, à partir de la première sélection, rechercher tous les pays présent et ajouter 
# cela dans la liste “liste_pays” en ne prenant pas en compte les doublons
liste_pays = []
for e in medaille_or_2012:
    if e["Country"] not in liste_pays:
        liste_pays.append(e["Country"])
len(liste_pays)

56

In [22]:
for p in liste_pays:
    r = calcul_nb_medailles(medaille_or_2012, p, '2012')


2012 USA 147
2012 CHN 56
2012 RUS 47
2012 TUN 2
2012 HUN 12
2012 RSA 6
2012 LTU 2
2012 NED 21
2012 FRA 30
2012 AUS 19
2012 CRO 15
2012 KOR 18
2012 ITA 16
2012 GBR 48
2012 ETH 3
2012 JAM 8
2012 ALG 1
2012  2
2012 KEN 2
2012 GRN 1
2012 DOM 1
2012 BAH 4
2012 GER 45
2012 POL 3
2012 TTO 1
2012 CZE 4
2012 UGA 1
2012 NZL 9
2012 KAZ 3
2012 CUB 5
2012 UKR 9
2012 IRL 1
2012 JPN 7
2012 NOR 15
2012 LAT 1
2012 COL 1
2012 DEN 3
2012 SUI 2
2012 VEN 1
2012 MEX 18
2012 BRA 14
2012 ROU 2
2012 CAN 1
2012 PRK 4
2012 SLO 1
2012 GEO 1
2012 ESP 6
2012 SWE 2
2012 BLR 3
2012 SRB 1
2012 TUR 1
2012 ARG 1
2012 IRI 5
2012 TPE 1
2012 UZB 1
2012 AZE 2


### Question i: 

--- 

Fin