# Résultat des tests statistiques effectués #

Dans ce notebook, je vais expliquer les tests statistiques effectués sur les données récoltées afin de vérifier si les valeurs de l'AOP et le DOP suivent une loi normale pour les différents éléments d'une scène routière. Dans un premier temps, je vais m'intéresser aux voitures.

## Test pour l'AOP lorsqu'il y a du brouillard en début de matinée ##

Pour effectuer ce test, j'ai sélectionné 36 voitures différentes (distances plus ou moins éloignées de la caméra, orientations différentes, modèles différents) parmi les acquisitions que j'ai effectuées avec la caméra polarimétrique. J'ai ensuite calculé l'AOP de ces voitures afin d'obtenir l'AOP moyen pour chacune des voitures. C'est sur cette liste de valeurs de l'AOP moyen que je vais effectuer les tests statistiques pour voir si les valeurs suivent une loi normale. Cette expérience a pour but de voir si les voitures peuvent être caractérisées une valeur spécifique de l'AOP.

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (101, 88, 105, 99, 82, 102, 93, 97, 101, 86, 92, 102, 98, 106, 92, 93, 107, 99, 104, 95, 115, 91, 92, 124, 91, 96, 105, 96, 102, 98, 107, 91, 98, 83, 99, 104)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (82, 83, 86, 88, 91, 91, 91, 92, 92, 92, 93, 93, 95, 96, 96, 97, 98, 98, 98, 99, 99, 99, 101, 101, 102, 102, 102, 104, 104, 105, 105, 106, 107, 107, 115, 124)

Cette série contient donc n = 36 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 98.16666666666667

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 8.294911425419537

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 0.6581859694627143

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 1.8595402358829434

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 2477.0000000000005

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 2205.902846361601

Les valeurs de alpha sont trouvables à ce lien : http://www.biostat.ulg.ac.be/pages/Site_r/normalite_files/Table-alpha.pdf

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.8905542375299155

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

La valeur de W_0.05 est trouvable au lien suivant : http://www.biostat.ulg.ac.be/pages/Site_r/normalite_files/table-W.png

Si W < W_0.05 cela implique que les données ne sont pas normalement distribuées.

Ici W < W_0.05 cela implique que les données ne sont pas normalement distribuées ce qui confirme bien la conclusion tirée par le calcul des coefficients d'assymétrie et d'applatissement.

## Test pour l'AOP lorsque le temps est ensoleillé en fin d'après-midi ##

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (83, 80, 86, 74, 81, 58, 76, 86, 74, 76, 93, 77, 78, 87, 81, 74, 77, 63, 96, 90, 79)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (58, 63, 74, 74, 74, 76, 76, 77, 77, 78, 79, 80, 81, 81, 83, 86, 86, 87, 90, 93, 96)

Cette série contient donc n = 21 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 75.58276643990926

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 8.693834967372526

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = -0.4882698363119909

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 1.4186062893418048

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant inférieur à 0, la distribution est étalée à gauche de la médiane, la moyenne de la distribution est donc inférieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 1587.2380952380945

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 1279.6517237284004

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.8062128344622711

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

Si W > W_0.05 cela implique qu'on ne peut pas dire que les données ne sont pas normalement distribuées.

## Test pour l'AOP lorsque le temps est couvert en fin de matinée ##

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (120, 128, 96, 108, 95, 104, 103, 103, 118, 118, 111, 110, 113, 141, 130, 115, 114, 124, 109, 118, 109, 105, 98, 115, 99, 113, 123, 144, 122, 97, 101, 99, 99, 112, 103)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (95, 96, 97, 98, 99, 99, 99, 101, 103, 103, 103, 104, 105, 108, 109, 109, 110, 111, 112, 113, 113, 114, 115, 115, 118, 118, 118, 120, 122, 123, 124, 128, 130, 141, 144)

Cette série contient donc n = 35 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 111.91428571428571

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 11.946000953269264

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 0.8679439214640967

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 0.7843838070466278

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 4994.742857142855

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 4679.202982089999

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.9368256016219912

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

Si W > W_0.05 cela implique qu'on ne peut pas dire que les données ne sont pas normalement distribuées.

## Test pour le DOP lorsqu'il y a du brouillard en début de matinée ##

Les valeurs de l'AOP moyen par voiture répertoriées sont les suivantes :
y = (40, 34, 26, 27, 29, 28, 60, 27, 30, 27, 33, 26, 36, 43, 28, 26, 23, 34, 31, 28, 37, 28, 62, 20, 23, 36, 36, 24, 28, 32)

Lorsque cette liste est triée cela donne les valeurs suivantes :
y = (20, 23, 23, 24, 26, 26, 26, 27, 27, 27, 28, 28, 28, 28, 28, 29, 30, 31, 32, 33, 34, 34, 36, 36, 36, 37, 40, 43, 60, 62)

Cette série contient donc n = 30 valeurs

On va tout d'abord calculer la moyenne de la série :
mean = somme(yi)/n
mean = 32.06666666666667

On calcule ensuite la variance :
sd = sqrt(somme(yi-mean)²/(n-1))
sd = 9.305673299420928

On va maintenant calculer les coefficients d'assymétrie de d'applatissement permettant d'avoir une idée au préalable de si les données suivent une loi normale ou non :

On calcule d'abord le coeffcient d'assymétrie :
CA = n/((n-1)(n-2))xsomme(((yi-mean)/sd)^3)
CA = 2.087577144056244

On calcule ensuite le coefficient d'applatissement :
CApp = n(n+1)/((n-1)(n-2)(n-3))xsomme(((yi-mean)/sd)^4)-3(n-1)²/((n-2)(n-3))
CApp = 5.021788959980142

En interprétant ces coefficients calculés on peut en tirer les conclusions suivantes :
* Le coeffcient d'assymétrie étant supérieur à 0, la distribution est étalée à droite de la médiane, la moyenne de la distribution est donc supérieure à la médiane de celle-ci ;
* Le coefficient d'applatissement étant supérieur à 0, cela montre que la distribution qui a un pic moins plat et des extrémités plus épaisses que la loi normale ;
* Au final les deux coefficients étant éloignés de 0, la loi est très susceptible de ne pas être normale.

Pour vérifier ou invalider cette conclusion, je vais procéder au test statistique de Shapiro-Wilk qui permet de tester si un jeu de données suit une loi normale. Ici ce test est applicable car n < 50.

La première étape consiste à trier les données par ordre croissant.

La deuxième étape consiste à calculer la moyenne des observations.

La troisième étape consiste à calculer la somme des écarts à la moyenne :
S² = somme(yi-mean)²
S² = 2597.866666666667

La quatrième étape consiste à calculer b² qui est un autre estimateur de la variance des données ce qui se fait en plusieurs parties :

1 - Calcul de d :
di = y(n-i+1) - y(i)

2 - Calcul de k :
Si n est pair alors k = n/2
Sinon k = (n-1)/2

3 - Calcul de b² :
b² = (somme(alpha(j)xd(j))²
b² = 2063.766783689999

La cinquième étape consiste à calculer W :
W = b²/S²
W = 0.7944082774417467

La sixième et dernière étape consiste à comparer la valeur de W avec la valeur de W_0.05.

Si W < W_0.05 cela implique que les données ne sont pas normalement distribuées.