# Traitement de données avec pandas 1 on 3: introduction à Pandas

Aujourd'hui nous allons commencer à analyser des données avec pandas :
* import un fichier csv et le lire sous forme de DataFrame ;
* sortir voir des indicateurs de forme de cette DataFrame ;
* considérer les colonnes, faire la différence entre une Series et une DataFrame ;
* analyser ces colonnes : moyenne, médiane, fréquence, etc ;
* extraire un sous échantillon ;
* traiter les valeurs manquantes ;
* analyse conditionnelles avec groupby et crosstab.

# Pandas

* Avec numpy, pandas (qui en est une adaption) est l'autre librairie la plus utilisée en data science. 
* Comme pour numpy tout s'imbrique très bien ... ceci sera plus clair avec plus de recul.
* Pandas permet de manipuler des données importantes (pas big data). 
* C'est en quelques sorte un Excel programatique.
* Il recommandé d'utiliser des aide-mémoire (cheat sheet en anglais).
* https://pandas.pydata.org/Pandas_Cheat_Sheet.pdf
* https://www.math.univ-toulouse.fr/~besse/Wikistat/pdf/st-tutor2-python-pandas.pdf
* Nous n'allons pas voir l'ensemble des fonctionnalités de pandas que je vous invite à voir chez vous : merge/concat/append, les dates et les formats de données assez particuliers, indexation/classement, metadonnées, les cut, etc

Avant toute chose, importez pandas :

In [1]:
import numpy as np

In [2]:
import pandas as pd

# Importer des données avec Pandas

* Nous allons utiliser les données de Kaggle (site de concours de Data Science) 
* https://www.kaggle.com/datasets
* Je vous propose d'utiliser cette donnée simple :
* https://www.kaggle.com/heesoo37/120-years-of-olympic-history-athletes-and-results
* Et je vous recommande (sur un autre fichier) de refaire des analyses avec une autre donnée pour vous familiariser.
* Pour info : La séance prochaine vous allez refaire ce cours avec d'autres données

Télécharez, dézipez le dossier et mettez le fichier atheletes_events.csv dans l'endroit où il y'a ce fichier notebook. Lisez le avec la fonction read_csv de la lib pd (donc : pd.read_csv(...) : https://pandas.pydata.org/pandas-docs/stable/generated/pandas.read_csv.html) avec pour argument le nom du fichier (ou son emplacement, mais le nom suffit si dans même dossier comme dans notre cas). Le séparateur ici est ',', soit la valeur par défault dans read_csv, mais attention des fois que ça change.

In [3]:
athlete_events_pd = pd.read_csv('athlete_events.csv')

In [4]:
athlete_events_pd

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
271111,135569,Andrzej ya,M,29.0,179.0,89.0,Poland-1,POL,1976 Winter,1976,Winter,Innsbruck,Luge,Luge Mixed (Men)'s Doubles,
271112,135570,Piotr ya,M,27.0,176.0,59.0,Poland,POL,2014 Winter,2014,Winter,Sochi,Ski Jumping,"Ski Jumping Men's Large Hill, Individual",
271113,135570,Piotr ya,M,27.0,176.0,59.0,Poland,POL,2014 Winter,2014,Winter,Sochi,Ski Jumping,"Ski Jumping Men's Large Hill, Team",
271114,135571,Tomasz Ireneusz ya,M,30.0,185.0,96.0,Poland,POL,1998 Winter,1998,Winter,Nagano,Bobsleigh,Bobsleigh Men's Four,


In [5]:
athlete_events_pd.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,


# Indicateur de forme

la variable contient un objet de type DataFrame

In [6]:
type(athlete_events_pd)

pandas.core.frame.DataFrame

In [7]:
number_of_rows = len(athlete_events_pd)

In [8]:
number_of_rows

271116

In [9]:
type(number_of_rows)

int

In [10]:
name_of_columns = list(athlete_events_pd)

In [11]:
name_of_columns

['ID',
 'Name',
 'Sex',
 'Age',
 'Height',
 'Weight',
 'Team',
 'NOC',
 'Games',
 'Year',
 'Season',
 'City',
 'Sport',
 'Event',
 'Medal']

In [12]:
type(name_of_columns)

list

In [13]:
number_of_columns = len(name_of_columns)

In [14]:
number_of_columns

15

In [15]:
type(number_of_columns)

int

In [16]:
print('athlete_events_pd dataframe contains', number_of_rows, 'rows and', number_of_columns, 'columns.')

athlete_events_pd dataframe contains 271116 rows and 15 columns.


# Colonnes : series et dataframe

In [17]:
name_of_columns

['ID',
 'Name',
 'Sex',
 'Age',
 'Height',
 'Weight',
 'Team',
 'NOC',
 'Games',
 'Year',
 'Season',
 'City',
 'Sport',
 'Event',
 'Medal']

Pour considérer une colonne particulière d'une df, vous pouvez l'isoler en mettant son nom en indice. Elle sera sous la forme de Series

In [18]:
athlete_events_pd_age = athlete_events_pd['Age']

In [19]:
athlete_events_pd_age

0         24.0
1         23.0
2         24.0
3         34.0
4         21.0
          ... 
271111    29.0
271112    27.0
271113    27.0
271114    30.0
271115    34.0
Name: Age, Length: 271116, dtype: float64

In [20]:
type(athlete_events_pd_age)

pandas.core.series.Series

In [21]:
len(athlete_events_pd_age)

271116

Bien qu'issu d'une df, une Séries est un objet completement différent. 

Pour créer une df avec certaines colonnes, il faut mettre en indice la liste des colonnes

In [22]:
target_columns = ['Age', 'Sex']

In [23]:
new_athlete_events_pd = athlete_events_pd[target_columns]

In [24]:
new_athlete_events_pd

Unnamed: 0,Age,Sex
0,24.0,M
1,23.0,M
2,24.0,M
3,34.0,M
4,21.0,F
...,...,...
271111,29.0,M
271112,27.0,M
271113,27.0,M
271114,30.0,M


In [25]:
type(new_athlete_events_pd)

pandas.core.frame.DataFrame

C'est comme si on mettait la variable en double crochets

In [26]:
athlete_events_pd[['Age', 'Sex']]

Unnamed: 0,Age,Sex
0,24.0,M
1,23.0,M
2,24.0,M
3,34.0,M
4,21.0,F
...,...,...
271111,29.0,M
271112,27.0,M
271113,27.0,M
271114,30.0,M


Attention, une Series n'est pas le même objet qu'une DataFrame à 1 colonne

In [27]:
athlete_events_pd[['Age']]

Unnamed: 0,Age
0,24.0
1,23.0
2,24.0
3,34.0
4,21.0
...,...
271111,29.0
271112,27.0
271113,27.0
271114,30.0


In [28]:
athlete_events_pd['Age']

0         24.0
1         23.0
2         24.0
3         34.0
4         21.0
          ... 
271111    29.0
271112    27.0
271113    27.0
271114    30.0
271115    34.0
Name: Age, Length: 271116, dtype: float64

Pour selectionner les individus avec leurs indices dans une Series, on utilise l'opérateur crochet, comme pour une liste

In [29]:
athlete_events_pd['Age'][0]

24.0

Qu'il est possible de stocker dans une variable

In [30]:
age_premier_athelete = athlete_events_pd['Age'][0]

In [31]:
age_premier_athelete

24.0

Une series peut une variable qui vit sans dataframe

In [32]:
age_series = athlete_events_pd['Age']

In [33]:
age_series.head()

0    24.0
1    23.0
2    24.0
3    34.0
4    21.0
Name: Age, dtype: float64

# Opérations sur lignes et apply

Pour faire une opérations entre deux séries, rien de plus simple.

In [34]:
athlete_events_pd['Age'] ** 2

0          576.0
1          529.0
2          576.0
3         1156.0
4          441.0
           ...  
271111     841.0
271112     729.0
271113     729.0
271114     900.0
271115    1156.0
Name: Age, Length: 271116, dtype: float64

Pour la stocker dans une nouvelle colonne

In [35]:
athlete_events_pd['square_age'] = athlete_events_pd['Age'] ** 2

In [36]:
athlete_events_pd['square_age'].head()

0     576.0
1     529.0
2     576.0
3    1156.0
4     441.0
Name: square_age, dtype: float64

N'oubliez pas les booleans

In [37]:
athlete_events_pd.Sport.isin(['Basketball', 'Football'])

0          True
1         False
2          True
3         False
4         False
          ...  
271111    False
271112    False
271113    False
271114    False
271115    False
Name: Sport, Length: 271116, dtype: bool

Pour des opérations avec une logique plus complexe, utilisez la methode apply : une fonction que vous appliquez à une colonne.

In [38]:
def compute_square_function(x):
    return x**2

In [39]:
athlete_events_pd['Age'].apply(compute_square_function).head()

0     576.0
1     529.0
2     576.0
3    1156.0
4     441.0
Name: Age, dtype: float64

Rendons l'opérations plus complexe : la carré si c'est supérieur à un threshold (30) et 0 sinon

In [40]:
def compute_conditional_square_function(x, threshold):
    if x > threshold:
        return x**2
    else:
        return 0

In [41]:
athlete_events_pd['Age'].apply(compute_conditional_square_function, threshold=30).value_counts().head()

0.0       229009
961.0       7559
1024.0      6246
1089.0      4800
1156.0      3985
Name: Age, dtype: int64

Si la fonction utilise plusieurs colonnes, on applique le apply sur la dataframe (et non plus la series) avec le parameter axis=1 (pour dire appliquer la fonction par ligne, comme sur np.mean). Mutiplions height et weight si l'age est supérieur à 30

In [42]:
def compute_conditional_mutiplication_function(x, threshold):
    if x['Age'] > threshold:
        return x['Height'] * x['Weight']
    else:
        return 0

In [43]:
athlete_events_pd.apply(compute_conditional_mutiplication_function, threshold=30, axis=1).value_counts().head()

0.0        229009
12600.0       239
11900.0       204
13500.0       176
12250.0       142
dtype: int64

# Analyser les colonnes

Première étape de l'analyse, de quel type de variable il s'agit ? Pour avoir le type de variables (objects = qualitatives et int/float = quantitatives) nous utilisons l'attibut d.types (.attribut(), comme append) :

In [44]:
athlete_events_pd.head()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,square_age
0,1,A Dijiang,M,24.0,180.0,80.0,China,CHN,1992 Summer,1992,Summer,Barcelona,Basketball,Basketball Men's Basketball,,576.0
1,2,A Lamusi,M,23.0,170.0,60.0,China,CHN,2012 Summer,2012,Summer,London,Judo,Judo Men's Extra-Lightweight,,529.0
2,3,Gunnar Nielsen Aaby,M,24.0,,,Denmark,DEN,1920 Summer,1920,Summer,Antwerpen,Football,Football Men's Football,,576.0
3,4,Edgar Lindenau Aabye,M,34.0,,,Denmark/Sweden,DEN,1900 Summer,1900,Summer,Paris,Tug-Of-War,Tug-Of-War Men's Tug-Of-War,Gold,1156.0
4,5,Christine Jacoba Aaftink,F,21.0,185.0,82.0,Netherlands,NED,1988 Winter,1988,Winter,Calgary,Speed Skating,Speed Skating Women's 500 metres,,441.0


In [45]:
athlete_events_pd.dtypes

ID              int64
Name           object
Sex            object
Age           float64
Height        float64
Weight        float64
Team           object
NOC            object
Games          object
Year            int64
Season         object
City           object
Sport          object
Event          object
Medal          object
square_age    float64
dtype: object

Pour analyser l'ensemble des colonnes numériques, on va utiliser l'attribut describe sur la sous dataframe avec les colonnes numériques. Idem pour les variables qualitatives.

In [46]:
numerical_variables = ['Age', 'Height', 'Weight', 'Year']

In [47]:
athlete_events_pd[numerical_variables].describe()

Unnamed: 0,Age,Height,Weight,Year
count,261642.0,210945.0,208241.0,271116.0
mean,25.556898,175.33897,70.702393,1978.37848
std,6.393561,10.518462,14.34802,29.877632
min,10.0,127.0,25.0,1896.0
25%,21.0,168.0,60.0,1960.0
50%,24.0,175.0,70.0,1988.0
75%,28.0,183.0,79.0,2002.0
max,97.0,226.0,214.0,2016.0


Ou describe avec l'option percentiles pour une variable quantitative pour changer les percentiles d'une vari

In [48]:
athlete_events_pd['Age'].describe(percentiles=[0.1, 0.9])

count    261642.000000
mean         25.556898
std           6.393561
min          10.000000
10%          19.000000
50%          24.000000
90%          33.000000
max          97.000000
Name: Age, dtype: float64

In [49]:
categorical_variables = ['Sex', 'Team', 'NOC', 'NOC', 'Games', 'Season', 'City', 'Sport', 'Event', 'Medal']

In [50]:
athlete_events_pd[categorical_variables].describe()

Unnamed: 0,Sex,Team,NOC,NOC.1,Games,Season,City,Sport,Event,Medal
count,271116,271116,271116,271116,271116,271116,271116,271116,271116,39783
unique,2,1184,230,230,51,2,42,66,765,3
top,M,United States,USA,USA,2000 Summer,Summer,London,Athletics,Football Men's Football,Gold
freq,196594,17847,18853,18853,13821,222552,22426,38624,5733,13372


Pour analyser en détail une variable numérique, appliquez lui l'attribut que vous voulez, par exemple .mean()

In [51]:
athlete_events_pd['Age'].mean()

25.556898357297374

In [52]:
atheles_age_mean = athlete_events_pd['Age'].mean()

In [53]:
atheles_age_mean

25.556898357297374

In [54]:
type(atheles_age_mean)

numpy.float64

In [55]:
athlete_events_pd['Age'].median()

24.0

In [56]:
athlete_events_pd['Age'].quantile(0.9)

33.0

Pour une variable quali, l'attribut value_counts() est le plus utilisé

In [57]:
athlete_events_pd['Team'].value_counts()

United States    17847
France           11988
Great Britain    11404
Italy            10260
Germany           9326
                 ...  
Kln                  1
Nrnberg              1
Breslau              1
Cuxhaven             1
Mignon-29            1
Name: Team, Length: 1184, dtype: int64

# Exercices

- Stocker le nombre d'observations dans une variable
- Stocker le nombre de colonnes dans une variable
- Stocker la colonne age dans une series
- Stocker une dataframe avec l'age et le sport
- Stocker l'age du 5 ème athlète dans une variable
- Stocker le sport du dernier athlètre dans une variable
- Créez une séries qui est égale à True si l'age est supérieur à 35 et False autrement
- Créez une séries qui est égale à True si le sexe est masculin et False autrement
- Créez une séries avec IMC= poids / (taille^2)
- Créez une séries avec IMC si le sport est dans le top 10 et 0 autrement
- Stocker l'age moyen dans une variabe
- Stocker le quantile à 90% du poids dans une variable
- Stocker le % du 3ème sport le plus présent dans une variable

# Sous échantillon

Disons qu'on veut le sous échantillons des athletes femmes

La première étape consiste toujours à créer un masque, soit une Series booléenne, qui est True pour les obs. qu'on veut incluer et False pour les autres. Le plus simple est avec un opérateur de comparaison.

In [58]:
women_atheletes_mask = athlete_events_pd['Sex'] == 'F'

In [59]:
type(women_atheletes_mask)

pandas.core.series.Series

In [60]:
women_atheletes_mask.value_counts()

False    196594
True      74522
Name: Sex, dtype: int64

Ensuite vous indicez votre DataFrame avec ce masque avec loc

In [61]:
women_athlete_events_pd = athlete_events_pd.loc[women_atheletes_mask]

In [62]:
print('athlete_events_pd dataframe contains', 
      len(women_athlete_events_pd), 
      'rows and', 
      len(list(women_athlete_events_pd)), 'columns.')

athlete_events_pd dataframe contains 74522 rows and 16 columns.


.loc vous permet aussi de remplacer. Admettons sur vous voulez remplacer les ages supérieurs à 50, à 50. Créons le masque

In [63]:
senior_mask = athlete_events_pd['Age'] > 50

In [64]:
senior_mask.value_counts()

False    269178
True       1938
Name: Age, dtype: int64

Appliquons le masque au .loc

In [65]:
athlete_events_pd.loc[senior_mask, 'Age'] = 50 

In [66]:
athlete_events_pd['Age'].describe()

count    261642.000000
mean         25.497841
std           6.099327
min          10.000000
25%          21.000000
50%          24.000000
75%          28.000000
max          50.000000
Name: Age, dtype: float64

# Les valeurs manquantes

Pour detecter les valeurs manquantes, on utilise l'attribut isnull()

In [67]:
athlete_events_pd.isnull().describe()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,square_age
count,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116
unique,1,1,1,2,2,2,1,1,1,1,1,1,1,1,2,2
top,False,False,False,False,False,False,False,False,False,False,False,False,False,False,True,False
freq,271116,271116,271116,261642,210945,208241,271116,271116,271116,271116,271116,271116,271116,271116,231333,261642


Medals est manquante pour beaucoup d'observations (True pour 23k). Regardons plus en détails avec l'option dropna=False (par défault True, comme tout à l'heure) de value_counts().

In [68]:
athlete_events_pd['Medal'].value_counts()

Gold      13372
Bronze    13295
Silver    13116
Name: Medal, dtype: int64

In [69]:
athlete_events_pd['Medal'].value_counts(dropna=False)

NaN       231333
Gold       13372
Bronze     13295
Silver     13116
Name: Medal, dtype: int64

Ce résultat semble normal car beaucoup d'atheletes n'ont pas de médaille. Explicitons le en mettons les valeurs nulles à 'no_medal' avec la fonction fillna()

In [70]:
athlete_events_pd['Medal'] = athlete_events_pd['Medal'].fillna('no_medal')

In [71]:
athlete_events_pd['Medal'].value_counts(dropna=False)

no_medal    231333
Gold         13372
Bronze       13295
Silver       13116
Name: Medal, dtype: int64

Nous voulons remplacer les valeurs manquantes pour l'Age, le Poids et le Weight. La moyenne est une bonne stratégie, or la moyenne est différente pour les hommes et les femmes. Pour ça nous devons calculer cela.

# Analyses conditionnelles

Pour analyser deux variables (Series) quali, utilisons pd.crosstab(Series1, Series2)

In [72]:
pd.crosstab(athlete_events_pd['Medal'],
            athlete_events_pd['Sport'])

Sport,Aeronautics,Alpine Skiing,Alpinism,Archery,Art Competitions,Athletics,Badminton,Baseball,Basketball,Basque Pelota,...,Table Tennis,Taekwondo,Tennis,Trampolining,Triathlon,Tug-Of-War,Volleyball,Water Polo,Weightlifting,Wrestling
Medal,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Bronze,0,141,0,98,51,1296,60,112,356,0,...,60,64,128,10,10,29,325,360,216,468
Gold,1,143,25,135,49,1339,54,112,365,2,...,54,40,106,10,10,43,322,350,217,413
Silver,0,144,0,120,56,1334,54,112,359,0,...,54,40,106,10,10,43,322,347,213,415
no_medal,0,8401,0,1981,3422,34655,1289,558,3456,0,...,1787,462,2522,122,499,55,2435,2789,3291,5858


Pour analyser deux variables quanti on utilise la correlation

In [73]:
athlete_events_pd[['Age', 'Height', 'Weight']].corr()

Unnamed: 0,Age,Height,Weight
Age,1.0,0.140002,0.213916
Height,0.140002,1.0,0.796213
Weight,0.213916,0.796213,1.0


Pour analyser une variable quanti en fonction d'une quali, utilisons groupby()

In [74]:
athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()

  """Entry point for launching an IPython kernel.


Unnamed: 0_level_0,Age,Height,Weight
Sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
F,23.710303,167.83974,60.021252
M,26.204091,178.858463,75.743677


## Exemple d'imputation avec crosstab

Utilisons ceci pour  notre problème d'imputation des valeurs manquantes des variables Age Height Weight. Quand une de ses valeurs est manquante, nous allons y mettre la moyenne par genre (H ou F) 

Note : Après la dataframe retournée après un groupby est indicé avec les modalité de la clé de répartition, ici c'est sex = F ou M (avant la dataframe était indicée par 1, 2, 3, etc)

In [75]:
age_F =  athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()['Age']['F']
age_M =  athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()['Age']['M']

height_F =  athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()['Height']['F']
height_M =  athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()['Height']['M']

weight_F =  athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()['Weight']['F']
weight_M =  athlete_events_pd.groupby(['Sex'])['Age', 'Height', 'Weight'].mean()['Weight']['M']

  """Entry point for launching an IPython kernel.
  
  after removing the cwd from sys.path.
  """
  import sys
  


Stockons les (remarque, quand l'indice en ligne est dispo, prenons le, ici 'F' au lieu de 'O')

In [76]:
print('Female mean Age is', round(age_F, 1),
      '\nMale mean Age is', round(age_M, 1),
      '\nFemale mean Height is', round(height_F, 1),
      '\nMale mean Height is', round(height_M, 1),
      '\nFemale mean Weight is', round(weight_F, 1),
      '\nMale mean Weight is', round(weight_M, 1))

Female mean Age is 23.7 
Male mean Age is 26.2 
Female mean Height is 167.8 
Male mean Height is 178.9 
Female mean Weight is 60.0 
Male mean Weight is 75.7


Imputons par sous echantillons. Dès qu'il y'a le mot sous échantillons, il y'a un masque à créer (boolean) à créer.

In [77]:
female_mask = athlete_events_pd['Sex'] == 'F'

In [78]:
female_mask.value_counts()

False    196594
True      74522
Name: Sex, dtype: int64

Pour agir sur un sous échantillons, utilisons la commande .loc

In [79]:
athlete_events_pd.loc[female_mask, 'Age'] = athlete_events_pd.loc[female_mask, 'Age'].fillna(age_F)
athlete_events_pd.loc[female_mask == False, 'Age'] = athlete_events_pd.loc[female_mask == False, 'Age'].fillna(age_M)

athlete_events_pd.loc[female_mask, 'Height'] = athlete_events_pd.loc[female_mask, 'Height'].fillna(age_F)
athlete_events_pd.loc[female_mask == False, 'Height'] = athlete_events_pd.loc[female_mask == False, 'Height'].fillna(age_M)

athlete_events_pd.loc[female_mask, 'Weight'] = athlete_events_pd.loc[female_mask, 'Weight'].fillna(age_F)
athlete_events_pd.loc[female_mask == False, 'Weight'] = athlete_events_pd.loc[female_mask == False, 'Weight'].fillna(age_M)

In [80]:
athlete_events_pd.isnull().describe()

Unnamed: 0,ID,Name,Sex,Age,Height,Weight,Team,NOC,Games,Year,Season,City,Sport,Event,Medal,square_age
count,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116
unique,1,1,1,1,1,1,1,1,1,1,1,1,1,1,1,2
top,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False,False
freq,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,271116,261642


# Exercice

Exercice 1:
- Generez une fausse dataframe avec une colonne A avec des valuers [1, 2] et une colonne B avec les valeurs [3, 4] en suivant la documentation ici 
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html
- Generez un réplicat synthétique de la données Athlethes (fake_athlethes) de 20 lignes et uniquement les colonnes Sex, Age, Height, Weight, Sport, 


Exercice 2:
* Imputez les Height et les Weights manquant avec la moyenne par Sex, vérifiez manuellement si le résultat est correct
* Imputez les Height et les Weights manquant avec la moyenne par Sex et par sport, testez manuellement si le résultat est correct, utilisez un dictionnaire
* Mettez le dernier code dans une fonction et dans un scipt.py
* Appliquez cette fonction à la dataframe athletes

Exercice 3:
* Selon le même process (test sur fausse donnée, vérif, fonction, fichier.py, application sur vrai donnée)
* Génerez une nouvelle colonne avec l'indice de masse corporelle avec apply

Exercice Bonus :
Avec statsmodels, faites un regression logisitique (medaille ou non) en fonction de l'IMC. Controlez ou ventilez par les autres variables : classe d'age (créez une variable qui indique si l'age est supérieur à X ou pas), sex, type de sport (créez une variable individuelle ou collective)

Exercice 4 :
* Selon le même process (générer fausse données, test sur fausse donnée, vérif, fonction, fichier.py, application sur vrai donnée)
* Créez une nouvelle dataframe qui donne le nombre de médailles par athlete


Exercice 5:
* Selon le même process (générer fausse données, test sur fausse donnée, vérif, fonction, fichier.py, application sur vrai donnée)
* Dans le dossier atheletes téléchargé, il y'a un fichier avec les symboles (NOC) et les dénomination des régions
* Ajoutez une colonne NOC_label qui contient la dénomination du NOC. Pour cela, deux méthodes possibles
- Utilisez pd.merge
- Utilisez pd.map (après avoir transformé la dataframe NOC en dictionnaire avec pd.to_dict)

Lisez :
* https://pandas.pydata.org/pandas-docs/dev/user_guide/10min.html
* https://scls.gitbooks.io/initiation-a-python-pour-le-traitement-de-donnees/content/04_pandas.html
* https://github.com/jvns/pandas-cookbook
            