# IMS_3.01
- **Description** : Calcul de distributions à deux variables (conjointes, marginales, conditionnelles) et de leurs indicateurs de tendance centrale
- **Source** : Introduction à la méthode statistique - Catherine Pardoux  
- **Chapitre** :  3 - Distributions statistiques à deux caractères
- **Exercice** : 3.1  

## Enoncé
![Enonce IMS_3.01](../images/Enonces/IMS_3.01_enonce.PNG)

## Question 1
- Population : 30 000 assurés pour le risque "véhicules à moteur".
- Caractères étudiés : 
    - X : Puissance fiscale (en chevaux fiscaux)
    - Y : Kilométrage parcouru au cours de la dernière année (en milliers de km)
- Natures des caractères étudiés : 
    - X : Variable quantitative discrète
    - Y : Variable quantitative continue

*Cheval fiscal* : Il s’agit d’une unité de mesure du droit fiscal permettant d’établir la puissance théorique ou administrative d’un moteur. Cette unité de mesure permet de calculer la taxe fiscale à appliquer lors de l’immatriculation du véhicule. 

In [7]:
#from pathlib import Path

import pandas as pd
import numpy as np
import math
import re

DATA = "donnees.csv"

In [4]:
# Data Wrangling
def convert_string_column_to_numeric(colonne):
    colonne_string_avec_point = colonne.str.replace(",",".")
    colonne_numerique = pd.to_numeric(colonne_string_avec_point)
    colonne_numerique = colonne_numerique.fillna(0) # remplace NaN par 0
    return colonne_numerique

donnees = pd.read_csv(DATA, index_col=0)
labels_y = donnees.columns
for l in labels_y:
    donnees[l] = convert_string_column_to_numeric(donnees[l])
donnees

Unnamed: 0_level_0,< 10,[10:20[,[20:30[,[30:40[,>= 40
Y (milliers de km) X (chevaux fiscaux),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
<= 4,4.4,1.6,0.0,0.0,0.0
5-6,7.2,8.2,4.0,2.6,0.0
7-8,2.4,7.2,13.6,14.4,4.4
9-10,0.0,0.0,2.4,11.6,6.0
> 10,0.0,0.0,0.0,4.4,5.6


## Question 2
La distribution du kilométrage parcourue est appelée distribution marginale de Y.

In [5]:
# Création d'un dictionnaire avec key:y et value:valeur_marginale_de_y.
# On met cette valeur dans une liste pour faciliter la conversion dict -> dataframe
distribution_marginale_y =  {l:[donnees[l].sum()] for l in labels_y} 
distribution_marginale_y  = pd.DataFrame.from_dict(distribution_marginale_y, orient='index', columns=['f .j'])
distribution_marginale_y.T

Unnamed: 0,< 10,[10:20[,[20:30[,[30:40[,>= 40
f .j,14.0,17.0,20.0,33.0,16.0


### Calcul de la moyenne et ecart-type de la distribution marginale de Y


***Rappel - Moyenne pondérée variable quantitative continue*** 

![Rappel - Moyenne pondérée variable quantitative continue](../images/Rappels/rappel_moyenne_variable_quantitative_continue.PNG)

La question 2 de l'énoncé nous apprend :
- 1ere classe : \[2;10\[
- dernière classe : \[40;50\[  

On a donc pour chaque classe, les centres suivants :
- 1ere classe : 6
- 2eme classe : 15
- 3eme classe : 25
- 4eme classe : 35
- 5eme classe : 45

In [21]:
def centres_classes(list_bornes_classes):
    centres_classes = []
    # filtre les nombres d'une liste de bornes de classes
    for s in list_bornes_classes:
        deux_bornes =  re.findall("\d+",s)
        centre_classe = (float(deux_bornes[0]) + float(deux_bornes[1]))/2
        centres_classes.append(centre_classe)
    return centres_classes

bornes_classes = list(donnees.columns)
bornes_classes[0] = "2-10"
bornes_classes[-1] = "40-50"
distribution_marginale_y['Centre'] = centres_classes(bornes_classes)
distribution_marginale_y

Unnamed: 0,f .j,Centre
< 10,14.0,6.0
[10:20[,17.0,15.0
[20:30[,20.0,25.0
[30:40[,33.0,35.0
>= 40,16.0,45.0


In [7]:
def weighted_avg_and_std(values, weights):
    """
    Return the weighted average and standard deviation.

    values, weights -- Numpy ndarrays with the same shape.
    """
    average = np.average(values, weights=weights)
    # Fast and numerically precise:
    variance = np.average((values-average)**2, weights=weights)
    return (average, math.sqrt(variance))

moyenne_y, ecart_type_y = weighted_avg_and_std(distribution_marginale_y['Centre'], distribution_marginale_y['f .j'])
print("La moyenne de la distribution marginale de Y est de {} km et son ecart-type de {} km".format(moyenne_y, ecart_type_y))

La moyenne de la distribution marginale de Y est de 27.14 km et son ecart-type de 12.647545216365112 km


### Calcul de la médiane de la distribution marginale de Y

***Rappel - Médiane variable quantitative continue*** 

![Rappel - Médiane variable quantitative continue](../images/Rappels/rappel_mediane_variable_quantitative_continue.PNG)
![Rappel - Médiane variable quantitative continue 2](../images/Rappels/rappel_mediane_variable_quantitative_continue_2.PNG)

**Remarque** :
- **x <sub>i</sub>** : borne supérieure de la classe. Ex : x<sub>2</sub> = 20 milliers de km
- **f <sub>i</sub>** : fréquence d'une classe. Ex : f<sub>2</sub> = 17%
- **F <sub>i</sub>** : fréquence cumulée. Ex: F<sub>2</sub> = f<sub>1</sub> + f<sub>2</sub> = 14 + 17 = 31%

La médiane de la distribution marginale de Y est :

Me = 20 + 10 $\times$ $\frac{50 - 31}{20}$ = 29.5 milliers de km

## Question 3
La distribution du kilométrage parcouru par les possesseurs d'une voiture d'une puissance fiscale d'au plus 6 CV est appelée distribution conditionnelle de Y.
On peut la noter : Y | X<=6

### Distribution conjointe : Y ^ (X<=6)
> Utile pour calculer la distribution conditionnelle (numérateur)

In [15]:
dict_distribution_conjointe_y_x =  {l:[donnees[l]["<= 4"]+donnees[l]["5-6"]] for l in labels_y} 
distribution_conjointe_y_x  = pd.DataFrame.from_dict(dict_distribution_conjointe_y_x, orient='index', columns=['Frequence'])
distribution_conjointe_y_x.T

Unnamed: 0,< 10,[10:20[,[20:30[,[30:40[,>= 40
Frequence,11.6,9.8,4.0,2.6,0.0


### Fréquence marginale de X <= 6
> Utile pour calculer la distribution conditionnelle (dénominateur)

In [16]:
# Données avec fréquences marginales de X
donnees["Frequences marginales X"] = donnees.sum(axis=1)
donnees

Unnamed: 0_level_0,< 10,[10:20[,[20:30[,[30:40[,>= 40,Frequences marginales X
Y (milliers de km) X (chevaux fiscaux),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
<= 4,4.4,1.6,0.0,0.0,0.0,12.0
5-6,7.2,8.2,4.0,2.6,0.0,44.0
7-8,2.4,7.2,13.6,14.4,4.4,84.0
9-10,0.0,0.0,2.4,11.6,6.0,40.0
> 10,0.0,0.0,0.0,4.4,5.6,20.0


In [18]:
# Fréquence marginale de X <= 4
frequence_marginale_x_inf_4 = donnees["Frequences marginales X"]["<= 4"]
# Fréquence marginale de X = 5-6
frequence_marginale_x_5_6 = donnees["Frequences marginales X"]["5-6"]
#Fréquence marginale de X <= 6
frequence_marginale_x_inf_6 = frequence_marginale_x_inf_4 + frequence_marginale_x_5_6
frequence_marginale_x_inf_6

56.0

### Distribution conditionnelle : Y | X<=6

In [19]:
# Distribution conditionnelle (Y | X<=6) = Distribution conjointe (Y ^ (X<=6)) / Fréquence marginale (X <= 6)
distribution_conditionnelle_y =  {item[0]:[(item[1][0]/frequence_marginale_x_inf_6)*100] for item in dict_distribution_conjointe_y_x.items()} 
distribution_conditionnelle_y  = pd.DataFrame.from_dict(distribution_conditionnelle_y, orient='index', columns=['Frequence'])
distribution_conditionnelle_y.T

Unnamed: 0,< 10,[10:20[,[20:30[,[30:40[,>= 40
Frequence,20.714286,17.5,7.142857,4.642857,0.0


### Calcul de la moyenne et ecart-type de la distribution conditionnelle

In [20]:
distribution_conditionnelle_y['Centre'] = centre_classe
distribution_conditionnelle_y

Unnamed: 0,Frequence,Centre
< 10,20.714286,6
[10:20[,17.5,15
[20:30[,7.142857,25
[30:40[,4.642857,35
>= 40,0.0,45


In [21]:
moyenne_y_sachant_x_inf_6, ecart_type_y_sachant_x_inf_6 = weighted_avg_and_std(distribution_conditionnelle_y['Centre'], distribution_conditionnelle_y['Frequence'])
print("La moyenne de la distribution condtionnelle de Y sachant X <= 6 est de {} km et son ecart-type de {} km".format(moyenne_y_sachant_x_inf_6, ecart_type_y_sachant_x_inf_6))

La moyenne de la distribution condtionnelle de Y sachant X <= 6 est de 14.557142857142855 km et son ecart-type de 9.208126402082819 km
