# Test statistiques sur la valeur maximale du DOP #

Dans ce notebook, on va effectuer des tests statistiques sur les valeurs du DOP les plus présentes dans les images de voiture afin de voir si celles-ci suivent une loi normale.

## Test lorsque le temps est couvert en début de matinée ##

Les valeurs du DOP moyen par voiture répertoriées sont les suivantes :
y = (0.08627451 0.09019608 0.07058824 0.09019608 0.08235294 0.10588235
 0.09411765 0.09019608 0.09019608 0.09411765 0.0745098  0.08235294
 0.09803922 0.08627451 0.09019608 0.09019608 0.08627451 0.08627451
 0.07843137 0.08627451 0.08627451 0.08627451 0.09411765 0.08235294
 0.10588235 0.08235294 0.07843137 0.09019608 0.08627451 0.09803922
 0.07843137 0.08627451 0.09411765 0.09019608 0.09411765 0.08627451)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (0.07058823529411765, 0.07450980392156863, 0.0784313725490196, 0.0784313725490196, 0.0784313725490196, 0.08235294117647059, 0.08235294117647059, 0.08235294117647059, 0.08235294117647059, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09803921568627451, 0.09803921568627451, 0.10588235294117647, 0.10588235294117647)

Cette série contient donc n = 36 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 0.08812636165577344

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 0.007422610311949652

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 0.2074452790364063

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 1.02387463766257

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 0.001983425178350207

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 0.0018988062574394463

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.9573369735171227

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

W > W_0.05 cela implique que les données sont normalement distribuées.

## Test lorsque le temps est brumeux en fin d'après-midi ##

Les valeurs du DOP moyen par voiture répertoriées sont les suivantes :
y = (0.08627451 0.10196078 0.09411765 0.0627451  0.08627451 0.06666667
 0.0627451  0.08627451 0.08627451 0.0745098  0.0745098  0.07058824
 0.06666667 0.09019608 0.08627451 0.09803922 0.07058824 0.08627451
 0.09803922 0.07058824 0.07843137 0.09019608 0.08627451 0.09019608
 0.06666667 0.07843137 0.09803922)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (0.06274509803921569, 0.06274509803921569, 0.06666666666666667, 0.06666666666666667, 0.06666666666666667, 0.07058823529411765, 0.07058823529411765, 0.07058823529411765, 0.07450980392156863, 0.07450980392156863, 0.0784313725490196, 0.0784313725490196, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09411764705882353, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.10196078431372549)

Cette série contient donc n = 27 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 0.08177196804647784

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 0.011579451810018735

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = -0.09888537450451203

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = -0.9850999959694104

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant inférieur à 0, cela montre que la distribution qui a un pic plus plat et des extrémités moins épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 0.003620260013954747

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 0.00337715951111111

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.9328499881482061

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

W > W_0.05 cela implique que les données sont normalement distribuées.

## Test lorsqu'il y a du brouillard en début de matinée ##

Les valeurs du DOP moyen par voiture répertoriées sont les suivantes :
y = (0.07058824 0.09411765 0.09019608 0.09019608 0.09803922 0.09019608
 0.1254902  0.08627451 0.09803922 0.09803922 0.09803922 0.09411765
 0.09411765 0.08627451 0.08235294 0.08627451 0.08627451 0.09411765
 0.10588235 0.08627451 0.08627451 0.09019608 0.10196078 0.09803922
 0.10588235 0.08235294 0.09411765 0.09411765 0.09019608 0.09803922)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (0.07058823529411765, 0.08235294117647059, 0.08235294117647059, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.10196078431372549, 0.10588235294117647, 0.10588235294117647, 0.12549019607843137)

Cette série contient donc n = 30 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 0.09320261437908499

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 0.009427184173648519

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 1.0072501381415728

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 4.4563914087027

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 0.0026661540433166736

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 0.0024341647212610543

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.912987277446645

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

W < W_0.05 cela implique que les données ne sont pas normalement distribuées.

## Test pour toutes les valeurs de DOP confondues ##

Les valeurs du DOP moyen par voiture répertoriées sont les suivantes :
y = (0.0784313725490196, 0.0784313725490196, 0.10196078431372549, 0.08235294117647059, 0.09019607843137255, 0.09411764705882353, 0.09019607843137255, 0.10588235294117647, 0.08235294117647059, 0.09019607843137255, 0.08627450980392157, 0.09803921568627451, 0.08235294117647059, 0.06666666666666667, 0.09411764705882353, 0.09803921568627451, 0.09019607843137255, 0.0784313725490196, 0.08627450980392157, 0.09019607843137255, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.08627450980392157, 0.08627450980392157, 0.07450980392156863, 0.09803921568627451, 0.07058823529411765, 0.09803921568627451, 0.09411764705882353, 0.08627450980392157, 0.09803921568627451, 0.07058823529411765, 0.06666666666666667, 0.09803921568627451, 0.08627450980392157, 0.08627450980392157, 0.09411764705882353, 0.09411764705882353, 0.09803921568627451, 0.0784313725490196, 0.09803921568627451, 0.06274509803921569, 0.08627450980392157, 0.07450980392156863, 0.08235294117647059, 0.10588235294117647, 0.09019607843137255, 0.08235294117647059, 0.09411764705882353)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (0.06274509803921569, 0.06666666666666667, 0.06666666666666667, 0.07058823529411765, 0.07058823529411765, 0.07450980392156863, 0.07450980392156863, 0.0784313725490196, 0.0784313725490196, 0.0784313725490196, 0.0784313725490196, 0.08235294117647059, 0.08235294117647059, 0.08235294117647059, 0.08235294117647059, 0.08235294117647059, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.08627450980392157, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09019607843137255, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09411764705882353, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.09803921568627451, 0.10196078431372549, 0.10588235294117647, 0.10588235294117647)

Cette série contient donc n = 30 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 0.08776470588235297

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 0.010071333427929596

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = -0.5719043365512355

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = -0.011793144254877763

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant inférieur à 0, la distribution est étalée à gauche de la médiane, la moyenne de la distribution est donc inférieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant inférieur à 0, cela montre que la distribution qui a un pic plus plat et des extrémités moins épaisses que la loi normale ;
* Au final les deux coefficients étant proches de 0, la loi est très susceptible d'être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 0.005071587850826606

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 0.004810972801384081

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.9486127309418394

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

W > W_0.05 cela implique que les données sont normalement distribuées.