# Exercice 17.6.5 : Analyse d'un jeu de données avec pandas
---
---
#### importations des modules

In [1]:
import os
import pandas as pd

---
---
## Téléchargement du jeu de données

In [2]:
if not os.path.exists("people.tsv"):
    print("Downloading people.tsv file")
    try:
        !wget https://python.sdv.univ-paris-diderot.fr/data-files/people.tsv
    except:
        print("Unable downloading file !")
    print("Done !")

Downloading people.tsv file
--2021-12-01 20:47:36--  https://python.sdv.univ-paris-diderot.fr/data-files/people.tsv
Resolving python.sdv.univ-paris-diderot.fr... 2001:660:3301:8003::54, 194.254.61.54
Connecting to python.sdv.univ-paris-diderot.fr|2001:660:3301:8003::54|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 253 [text/tab-separated-values]
Saving to: 'people.tsv'


2021-12-01 20:47:36 (7.54 MB/s) - 'people.tsv' saved [253/253]

Done !


---

## Chargement du jeu de données

In [3]:
people = pd.read_csv("people.tsv", sep="\t", index_col="name")

In [4]:
# Affichage des 6 première lignes de `people`
people.head(6)

Unnamed: 0_level_0,sex,size,age
name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
simon,male,175,33
clara,female,167,45
serge,male,181,44
claire,female,174,31
patrick,male,172,52
julie,female,168,37


In [5]:
print(f"Le dataframe people contient {people.shape[0]} lignes et "
      f"{people.shape[1]} colonnes")

Le dataframe people contient 12 lignes et 3 colonnes


---
## Sélection

In [6]:
# Détermination de la taille de Claire.
print(f"Claire fait {people.loc['claire']['size']} cm")

Claire fait 174 cm


In [7]:
people.loc[["claire"],["size"]]

Unnamed: 0_level_0,size
name,Unnamed: 1_level_1
claire,174


In [8]:
# Détermination de l'age de Baptiste.
print(f"Baptiste à {people.loc['baptiste']['age']} ans")

Baptiste à 39 ans


In [9]:
people.loc[["baptiste"],["age"]]

Unnamed: 0_level_0,age
name,Unnamed: 1_level_1
baptiste,39


In [10]:
# Affichage, en une seule commande, l'âge de Paul et Bob.
people.loc[["paul", "bob"], ["age"]]

Unnamed: 0_level_0,age
name,Unnamed: 1_level_1
paul,29
bob,33


---
## Statistiques descriptives et table de comptage
### Détermination de la moyenne et la valeur minimale de la taille et l'âge des individus.

In [11]:
print(f"La Taille moyenne des individus est de {people['size'].mean():.2f} cm")

La Taille moyenne des individus est de 173.75 cm


In [12]:
print(f"La taille minimum des individus est de {people['size'].min():.2f} cm")

La taille minimum des individus est de 159.00 cm


In [13]:
print(f"L'age moyen des individus est de {people['age'].mean():.0f} ans")

L'age moyen des individus est de 42 ans


In [14]:
print(f"L'age minimum des individus est de {people['age'].min()} ans")

L'age minimum des individus est de 29 ans


### Comptage du nombre de personnes en fonction du sexe.

In [15]:
print(f"Il y a {people[people['sex'] == 'female'].shape[0]} femmes "
      f"et {people[people['sex'] == 'male'].shape[0]} hommes")

Il y a 6 femmes et 6 hommes


---
## Statistiques par groupe

In [16]:
group = people.groupby(by="sex").mean()
print(f"La taille moyenne des femmes est de {group['size']['female']:.2f} cm et "
      f"l'age moyen est de {group['age']['female']:.0f} ans")
print(f"La taille moyenne des hommes est de {group['size']['male']:.2f} cm et "
      f"l'age moyen est de {group['age']['male']:.0f} ans")

La taille moyenne des femmes est de 168.00 cm et l'age moyen est de 46 ans
La taille moyenne des hommes est de 179.50 cm et l'age moyen est de 38 ans


In [17]:
group

Unnamed: 0_level_0,size,age
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
female,168.0,46.333333
male,179.5,38.333333


## Sélections par filtre

In [18]:
# Détermination du nombre d'individus qui mesurent plus de 1.80 m.
print(f"Il y a {people[people['size'] > 180].shape[0]} individus "
      "qui mesurent plus de 1,80 m")

Il y a 3 individus qui mesurent plus de 1,80 m


In [19]:
# Détermination de la femme qui à moins de 35 ans.
print("La femme de moins de 35 ans est "
      f"{people[(people['sex'] == 'female') & (people['age'] < 35)].index[0]}")

La femme de moins de 35 ans est claire


---
## Sélections et statistiques

In [20]:
# Détermination de l'âge moyen des individus qui mesurent plus de 1,80 m.
print("L'age moyen des individus qui meusurent plus de 1,80 m est de "
      f"{people[people['size'] > 180]['age'].mean():.0f} ans")

L'age moyen des individus qui meusurent plus de 1,80 m est de 35 ans


In [21]:
# Détermination de la taille maximale des femmes qui ont plus de 35 ans.
print("La taille maximale des femmes qui ont plus de 35 ans est de "
      f"{people[(people['sex'] == 'female') & (people['age'] > 35)]['size'].max()} cm")

La taille maximale des femmes qui ont plus de 35 ans est de 172 cm
