# Test statistiques sur la valeur maximale de l'AOP #

Dans ce notebook, on va effectuer des tests statistiques sur les valeurs de l'AOP les plus présentes dans les images de voiture afin de voir si celles-ci suivent une loi normale.

## Test pour l'AOP lorsqu'il y a du brouillard en début de matinée ##

Pour effectuer ce test, j'ai sélectionné 36 voitures différentes (distances plus ou moins éloignées de la caméra, orientations différentes, modèles différents) parmi les acquisitions que j'ai effectuées avec la caméra polarimétrique. J'ai ensuite calculé l'AOP de ces voitures afin d'obtenir l'AOP moyen pour chacune des voitures. C'est sur cette liste de valeurs de l'AOP moyen que je vais effectuer les tests statistiques pour voir si les valeurs suivent une loi normale. Cette expérience a pour but de voir si les voitures peuvent être caractérisées une valeur spécifique de l'AOP.

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (94.  81.  80. 126.  61. 126.  62. 126.  95.  80. 126. 142. 127.  94. 125.  62. 126.  93. 126.  61.  61.  61.  93. 151. 127.  63.  94. 126. 126. 126. 127.  62. 126.  61. 126.  62.)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (61.0, 61.0, 61.0, 61.0, 61.0, 62.0, 62.0, 62.0, 62.0, 63.0, 80.0, 80.0, 81.0, 93.0, 93.0, 94.0, 94.0, 94.0, 95.0, 125.0, 126.0, 126.0, 126.0, 126.0, 126.0, 126.0, 126.0, 126.0, 126.0, 126.0, 126.0, 127.0, 127.0, 127.0, 142.0, 151.0)

Cette série contient donc n = 36 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 100.13888888888889

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 29.228175882735126

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = -0.15643786139085264

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = -1.4535884221788669

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant inférieur à 0, la distribution est étalée à gauche de la médiane, la moyenne de la distribution est donc inférieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant inférieur à 0, cela montre que la distribution qui a un pic plus plat et des extrémités moins épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 30754.30555555557

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 25525.81382399999

Les valeurs de alpha sont trouvables à ce lien : http://www.biostat.ulg.ac.be/pages/Site_r/normalite_files/Table-alpha.pdf

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.82999155282142

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

La valeur de W_0.05 est trouvable au lien suivant : http://www.biostat.ulg.ac.be/pages/Site_r/normalite_files/table-W.png

Si W > W_0.05 cela implique que les données ne sont pas normalement distribuées.

W < W_0.05 cela implique que les données ne sont pas normalement distribuées ce qui confirme bien la conclusion tirée par le calcul des coefficients d'assymétrie et d'applatissement.

## Test pour l'AOP lorsque le temps est ensoleillé en fin d'après-midi ##

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (63.  63.  63.  63. 127.  63.  63. 127.  63.  63. 127.  63.  63. 127. 63.  63.  63.  63. 127.  63.  63.)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 63.0, 127.0, 127.0, 127.0, 127.0, 127.0)

Cette série contient donc n = 21 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 78.23809523809524

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 27.258733439997435

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 1.4272586524804571

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 0.05501096491228008

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 15603.809523809521

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 8330.285916159999

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.533862317625

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

W < W_0.05 cela implique quque les données ne sont pas normalement distribuées.

## Test pour l'AOP lorsque le temps est couvert en fin de matinée ##

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (127. 191.  63. 127. 127. 191. 127. 127. 127. 127. 127. 127. 127. 191. 127. 126. 127. 191.  63. 127. 127. 127. 127. 127.  63. 127. 127. 191. 127.  63. 127. 127.  63. 127. 126.)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (63.0, 63.0, 63.0, 63.0, 63.0, 126.0, 126.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 127.0, 191.0, 191.0, 191.0, 191.0, 191.0)

Cette série contient donc n = 35 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 126.94285714285714

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 34.210226421886404

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 0.00546949438600046

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 1.0144977923043452

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 40961.8857142857

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 29382.622264960002

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.7173161526280183

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

W < W_0.05 cela implique que les données ne sont pas normalement distribuées.