# 👩‍💻 Activité 3 : mathématiques pour l'analyse de données

<img src="https://cdn.pixabay.com/photo/2016/03/31/15/28/data-1293312_960_720.png" alt="maths" width="400"/>

#### [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management

### Code pour indiquer l'importance des notions traitées dans cette activité

- #### 🥇 : connaissance fondamentale pour l'analyse de données
- #### 🥈 : connaissance importante pour l'analyse de données
- #### 🥉 : connaissance moins importante pour l'analyse de données

## 🔍 Recherche d'informations

En recherchant sur le web, trouver les réponses aux questions suivantes :

### - Comment calculer la moyenne arithmétique ?
___
Pour calculer la moyenne arithmétique, il faut additionner toutes les valeurs des individus et diviser par le nombre d'individus.

$$\mu= \frac{1}{n}\sum_{i=1}^n x_i$$
___
### - Comment calculer la médiane ?
___
Il faut **classer** les individus par **ordre croissant**. Si le nombre d'individus est **impair**, la médiane correspond à la valeur de l'individu au **centre du jeu de données**. Si le nombre d'individus est **pair**, la médiane correspond à la **moyenne** des valeurs des deux individus au **centre du jeu de données**.

> ℹ️ Illustration avec les salaires. Pour obtenir le salaire médian, on classe les individus par salaire croissant et choisi le salaire du milieu (individus "central"):

<img src="https://cdn.pixabay.com/photo/2013/07/13/10/48/pawns-157818_960_720.png" alt="gens" width="400"/>

> Pour obtenir le salaire moyen, on somme tous les salaires et on divise par le nombre d'individus (le salaire que chacun aurait si les salaires étaient équitablement répartis):

<img src="https://cdn.pixabay.com/photo/2018/12/23/10/48/money-bag-3890909_960_720.png" alt="or" width="400"/>

___
### - Il existe deux manières d'analyser un jeu de données : soit du point de vue des individus, soit du point de vue des valeurs. Classer les élèments suivants qu'ils sont du point de vue des individus ou des valeurs : moyenne, écart-type, variance, médiane, coefficient d’aplatissement (kurtosis), coefficient d'asymétrie (skewness), quantiles, z-score, IQR, boîtes à moustaches (box plot), StandardScaler() de Scikit-Learn, RobustScaler() de Scikit-Learn
___
|Point de vue des individus|Point de vue valeurs|
|-|-|
|Médiane|Moyenne|
|Quantiles|Ecart-type|
|IQR|Variance|
|Boîtes à moustaches (box plot)|Coefficient d’aplatissement (kurtosis)|
|RobustScaler() de Scikit-Learn|Coefficient d'asymétrie (skewness)|
||z-score|
||StandardScaler() de Scikit-Learn|
___

## ✏️ Activités

- 🥇 Récupérer les données sur la répartition des salaires moyens (fichier CSV créé à l'activité N°2 - Figure 2) et calculer dans quelle tranche se situe le **salaire médian**

> ℹ️ La méthode de dataframe [`pandas.DataFrame.cumsum()`](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.cumsum.html) peut vous aider à trouver le salaire médian. Cette méthode permet de calculer la **somme cumulée** sur les colonnes d'un dataframe

In [1]:
import pandas as pd
import numpy as np

In [2]:
df = pd.read_csv("figure_2.csv")
df

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP)
0,Moins de 1 200,583943
1,De 1 200 à 1 300,613321
2,De 1 300 à 1 400,835135
3,De 1 400 à 1 500,969172
4,De 1 500 à 1 600,1052630
...,...,...
75,De 8 600 à 8 700,6138
76,De 8 700 à 8800,5772
77,De 8 800 à 8 900,5585
78,De 8 900 à 9 000,5408


In [3]:
df["Somme cumulée des effectifs (en EQTP)"] = df["Effectifs (en EQTP)"].cumsum()

In [4]:
df

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
0,Moins de 1 200,583943,583943
1,De 1 200 à 1 300,613321,1197264
2,De 1 300 à 1 400,835135,2032399
3,De 1 400 à 1 500,969172,3001571
4,De 1 500 à 1 600,1052630,4054201
...,...,...,...
75,De 8 600 à 8 700,6138,15173641
76,De 8 700 à 8800,5772,15179413
77,De 8 800 à 8 900,5585,15184998
78,De 8 900 à 9 000,5408,15190406


In [6]:
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()//2].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
9,De 2 000 à 2 100,706339,8353468


- Récupérer les données sur la répartition des salaires moyens (fichier **JSON** créé à l'activité N°2 - Figure 3) dans un **dataframe** Pandas

In [7]:
df_json = pd.read_json("figure_3.json")
df_json

Unnamed: 0,0,1,2
0,1er décile,1 343,11
1,2e décile,1 507,19
2,3e décile,1 655,23
3,4e décile,1 816,26
4,Médiane,2 005,27
5,6e décile,2 241,29
6,7e décile,2 562,32
7,8e décile,3 053,36
8,9e décile,4 033,43
9,95e centile,5 245,47


- 🥈 Vérifier les **plages d'appartenance** des **déciles** et des **centiles** présentés dans le tableau (le premier décile vaut 1343€, il doit être dans le plage "de 1300 à 1400")

In [8]:
# 1er décile : 1343€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
2,De 1 300 à 1 400,835135,2032399


In [9]:
# 2eme décile : 1507€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*2//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
4,De 1 500 à 1 600,1052630,4054201


In [10]:
# 3eme décile : 1655€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*3//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
5,De 1 600 à 1 700,1008034,5062235


In [11]:
# 4eme décile : 1816€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*4//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
7,De 1 800 à 1 900,863042,6864815


In [12]:
# 6eme décile : 2241€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*6//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
11,De 2 200 à 2 300,563387,9546987


In [13]:
# 7eme décile : 2562€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*7//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
14,De 2 500 à 2 600,407908,10911302


In [14]:
# 8eme décile : 3053€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*8//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
19,De 3 000 à 3 100,241899,12408814


In [15]:
# 9eme décile : 4033€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*9//10].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
29,De 4 000 à 4 100,97332,13900452


In [17]:
# 95eme centile : 5245€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*95//100].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
41,De 5 200 à 5 300,38848,14625880


In [18]:
# 99eme centile : 9638€
df[df["Effectifs (en EQTP)"].cumsum()>df["Effectifs (en EQTP)"].sum()*99//100].head(1)

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP)
79,Plus de 9 000,183314,15373720


- 🥉 Connaissant la **moyenne globale des salaires nets mensuels**, estimer le **salaire moyen** de la **catégorie "Plus de 9 000"**

In [19]:
df["salaire moyen"] = [600] + [1250+100*i for i in range(78)] + [np.nan]
df

Unnamed: 0,Salaires mensuels nets (en euros),Effectifs (en EQTP),Somme cumulée des effectifs (en EQTP),salaire moyen
0,Moins de 1 200,583943,583943,600.0
1,De 1 200 à 1 300,613321,1197264,1250.0
2,De 1 300 à 1 400,835135,2032399,1350.0
3,De 1 400 à 1 500,969172,3001571,1450.0
4,De 1 500 à 1 600,1052630,4054201,1550.0
...,...,...,...,...
75,De 8 600 à 8 700,6138,15173641,8650.0
76,De 8 700 à 8800,5772,15179413,8750.0
77,De 8 800 à 8 900,5585,15184998,8850.0
78,De 8 900 à 9 000,5408,15190406,8950.0


In [20]:
salaire_moyen = 2518
effectif_total = df["Effectifs (en EQTP)"].sum()
salaire_moyen_plus_9000 = (salaire_moyen*effectif_total - (df.iloc[:-1,1]*df.iloc[:-1,-1]).sum()) / df.iloc[-1,1]
salaire_moyen_plus_9000

16626.625407770272

___
*👨‍🏫 [Pierre-Loic BAYART](https://www.linkedin.com/in/pierreloicbayart/) - Formation développeur d'applications spécialisation data analyst - Webforce3 - Grenoble Ecole de Management*
___
Source images d'illustration :

    - Image par OpenClipart-Vectors de Pixabay