# <center>Workshop statistique et régression linéaire</center>
![logo_cesi.png](attachment:logo_cesi.png)

Ce workshop a pour objectif de vous accompagner dans la mise en oeuvre des notions de statistiques prédictives et plus particulièrement les tests d'hypothèse et la régression linéaire.
<div style="text-align:right">
Concepteur : Nassim HADDAM
</div>

# 1. Régression linéaire sur un seul modèle
L'objectif de ce travail est de pouvoir faire des prédictions sur le trafic en ville. Comme d'habitude, commençons par importer les bibliothèques nécessaires pour effectuer notre étude, ainsi que la collection qui nous intéresse.

In [37]:
from pymongo import MongoClient
import pprint
import matplotlib.pyplot as plt
import matplotlib.dates as mdates
import pandas as pd
import numpy as np

# créer le client qui va se connecter à la base de données et récupérer la collection véhicules
client = MongoClient("mongodb+srv://dataUser:ORACLE@clusterdataproject.pow6j.mongodb.net/test")
db = client['db_data_project']
collection_trafic_stamped = db['vehicules_stamped']

## 1.1 Vérification des hypothèses de la régression linéaire
Après avoir importé toutes les bibliothèques, vous devez écrire le code qui permettra d'afficher le trafic moyen au matin et au soir pour nous assurer que la relation est bien linéaire en fonction du temps. La première étape consiste à récupérer les données à partir de la collection `vehicules_stamped`. Vous pouvez le faire en utilisant uniquement des requêtes avec `pymongo` ou alors en utilisant `python`. Dans les cellules ci-dessous, la variable `vehicules_par_minutes` devra contenir le nombre moyen de véhicules passant dans la ville pour chaque minute de chaque heure de la journée. Sur quoi la somme de la moyenne devra donc porter ?  
<em>À COMPLÉTER</em>

D'abord avec `pymongo`, vous aurez à utiliser la fonction [aggregate](https://docs.mongodb.com/manual/reference/method/db.collection.aggregate/) ainsi que les [mots clés](https://www.tutorialspoint.com/mongodb-query-to-search-for-records-only-in-a-specific-hour) correspondants :

In [30]:
# Execution de la requetre en utilisant pymongo
vehicules_par_minutes = list(collection_trafic_stamped.aggregate(
    [
        {
            "$group":
                {
                    "_id" : {"$substr" : ['$timestamps', 11 ,5 ]},
                    "nb_vehicules" : { "$avg" : "$nb_vehicules"} ,
                }
        } ,
        {
            "$sort" : {"_id" : 1}
        }
    ]
))

for i in vehicules_par_minutes[:4]: 
    print(i)
# Liste contenant le trafic pour chaque minute de chaque heure
trafics = [trafic["nb_vehicules"] for trafic in vehicules_par_minutes]
print("Traffic pour les 4 premières minutes : ", trafics[0:4])

{'_id': '07:00', 'nb_vehicules': 29.9768}
{'_id': '07:01', 'nb_vehicules': 30.9452}
{'_id': '07:02', 'nb_vehicules': 30.926}
{'_id': '07:03', 'nb_vehicules': 31.7464}
Traffic pour les 4 premières minutes :  [29.9768, 30.9452, 30.926, 31.7464]


Ensuite avec `python`, n'oubliez pas la classe [datetime.datetime](https://docs.python.org/3/library/datetime.html) et ses différentes méthodes (comme la méthode `date.strftime`). Dans ce qui suit, la variable `dates` devra contenir la liste des dates distinctes et `vehicules_par_minutes` un dictionnaire qui associe à chaque heure-minute le nombre moyen de véhicules passant dans la ville. La collection devra être parcourue pour le calcul de la somme des passages des véhicules dans la ville :

In [36]:
# Execution de la requete en utilisant python et datetime.datetime
# Extraction des dates dinstinctes
dates = [ i for i in collection_trafic_stamped.find({},{"timestamps" : 1 , "_id" : 0})]
#A COMPLETER
# Initialisation de vehicules_par_minutes
vehicules_par_minutes = dict((i.timestamps) for i in dates , (i.nb_vehicules) for i in nb_vehicules)
#A COMPLETER

# Parcours de la collection et calcul de la somme du trafic
# for trafic in collection_trafic_stamped.find():
#A COMPLETER

# nb_jours = 5
# nb_data_points = nb_jours*len(collection_trafic_stamped.distinct("num_arete"))
# trafics = \
#A COMPLETER
# print("Traffic pour les 4 premières minutes :", trafics[0:4])

vehicules_par_minutes[0:5]

SyntaxError: Generator expression must be parenthesized (<ipython-input-36-e3b14ab53c19>, line 6)

Affichez le résultat avec [matplotlib](https://www.python-course.eu/matplotlib.php). Comme il est dit au début de cette partie, on veut afficher le trafic moyen au matin et au soir. Vous pouvez même afficher les heures au niveau des axes en utilisant la classe [DateFormatter](https://matplotlib.org/api/dates_api.html#matplotlib.dates.DateFormatter) et la fonction `pd.date_range` pour générer un intervalle de dates :

In [4]:
# Les dates du matin
xs = \
#A COMPLETER
# Le données de trafic au matin
ys = \
#A COMPLETER
fig, axes = plt.subplots(2)
# Traitements sur l'affichage au matin
axes[0].xaxis.set_major_locator(mdates.HourLocator(interval = 1))
axes[0].xaxis.set_minor_locator(mdates.MinuteLocator(interval = 15))
axes[0].xaxis.set_major_formatter(mdates.DateFormatter('%H:%M'))
axes[0].set(ylabel="trafic")
axes[0].plot(xs,ys,"o")

# Les dates du soir
xs = \
#A COMPLETER
ys = \
#A COMPLETER
# Traitements sur l'affichage au soir
#A COMPLETER

fig.suptitle('Trafic moyen au matin et au soir.')
plt.show()

La valeur du trafic moyen semble linéaire en fonction du temps. Mais souvenez-vous que la moyenne porte sur toutes les arêtes. La question qui se pose alors est de savoir si la linéarité est préservée <I> par arête </I> du graphe. Nous souhaiterions avoir une idée globale sur la linéarité du trafic au niveau des arêtes. Comme on ne pourra pas afficher le trafic pour toutes les arêtes du graphe (il y en a quand même 500), on devra afficher les cas extrêmes ainsi que le cas médian pour avoir une idée globale du trafic.

Pour cela, écrivez le code permettant d'afficher l'arête plus congestionnée, la moins congestionnée ainsi que l’arête médiane au matin en affichant aussi le nombre de véhicules qui passent en moyenne sur ces deux arêtes.

In [5]:
vehicules_par_arete = list(db.vehicules_stamped.aggregate([
#A COMPLETER
]))
print("Le résultat retourné par la requete (max,median,min):")
print(vehicules_par_arete[0], vehicules_par_arete[249], vehicules_par_arete[-1])

Affichez ensuite pour ces trois arêtes les données de trafic entre 7h00 et 9h00 :

In [6]:
arete_mediane = vehicules_par_arete[249]["_id"]
arete_max, arete_min = vehicules_par_arete[0]["_id"], vehicules_par_arete[-1]["_id"]
vehicules_arete_mediane = db.vehicules_stamped.aggregate([
#A COMPLETER
vehicules_arete_max = db.vehicules_stamped.aggregate([
#A COMPLETER
vehicules_arete_min = db.vehicules_stamped.aggregate([
#A COMPLETER

# Traitements relatif a l'arete la plus congestionnée
# Extraction des dates
xs = \
#A COMPLETER
# Duplication des dates sur les 5 jours
xs = \
#A COMPLETER
# Données de trafic pour l'arete la plus congestionnée
trafics = \
#A COMPLETER
# Données matinales
ys = \
#A COMPLETER
# Affichage relatif a l'arete la plus congestionnée
#A COMPLETER

# Traitements relatif a l'arete médiane
trafics = \
#A COMPLETER
ys = \
#A COMPLETER
# Affichage relatif a l'arete médiane
#A COMPLETER

# Traitements relatif a l'arete la moins congestionnée
trafics = \
#A COMPLETER
ys = \
#A COMPLETER
# Affichage relatif a l'arete la moins congestionnée
#A COMPLETER

plt.show()

Alors, qu’observez-vous par rapport à la relation ente le temps et le trafic au niveau des arrêtes affichées ? Y-a-t-il un lien entre cette relation et la congestion du trafic ? Que pouvez-vous conclure sur le trafic au niveau de la ville ?
<em>À COMPLÉTER</em>


Il semble, donc, raisonnable d'effectuer une régression linéaire sur les arêtes afin de prédire le trafic. Mais nous devons tout d'abord vérifier si les données respectent bien les conditions théoriques pour faire une régression linéaire. Une simple observation visuelle peut parfois s’avérer trompeuse. Il faut donc [vérifier](https://www.statsmodels.org/devel/examples/notebooks/generated/regression_diagnostics.html) les conditions relatives à la régression simple :
<ul>
    <li>La variable à prédire est <b>linéaire</b> en fonction de la variable d'entrée. Un exemple de données qui ne sont pas linéaires est donné ci-dessous.
    
</li>
    </ul> 
   
![non_lineaire.png](attachment:non_lineaire.png)

<ul>
    <li>Les résidus suivent une <b>loi Normale</b> centrée et de meme variance. L'image exemple ci-dessous issue d'un <a href="http://digfir-published.macmillanusa.com/psbe4e/psbe4e_ch10_2.html">site web</a> en est une illustration.</li>
</ul>

![normale.jpg](attachment:normale.jpg)

<ul>
    <li>L'écart entre la variable à prédire et la droite de régression est <b>décorrélé</b> de la variable en entrée. En termes techniques, cela veut dire que les <b>résidus</b> (les termes d'écarts entre la droite de régression et les vraies valeurs) sont décorrélés des prédicteurs. Un <a href="https://en.wikipedia.org/wiki/Heteroscedasticity#/media/File:Hsked_residual_compare.svg">exemple classique</a> où cette condition n'est pas respéctée est celui où les résidus ont tendence à s'accroitre quand la variable d'entrée s'accroit.</li>
    <li>Les résidus sont <b>décorrélés</b> entres eux. On dit, dans ce cas là, qu'il n'y a pas <b>d'autocorrélation</b> entre les observations de la variable à prédire. Ceci n'est pas le cas quand les données sont, par exemple, périodiques.</li>
</ul>

![periodique.png](attachment:periodique.png)

Question <b>importante</b> ! Pouvez-vous résumer en une seule phrase, les hypothèses que doit vérifier la régression linéaire ? 
<em>À COMPLÉTER</em>

Passons maintenant aux choses sérieuses. A l'aide de la classe [statsmodels.api.OLS](https://www.statsmodels.org/devel/generated/statsmodels.regression.linear_model.OLS.html) il est possible de définir un modèle de régression linéaire et d'entrainer votre modèle avec les données. La documentation autour de la [régression linéaire](https://www.statsmodels.org/devel/regression.html) vous sera aussi utile.

Vous devez évaluer, ensuite, la qualité de la régression linéaire en utilisant :
<ul>
    <li>Les fonctions définies dans la classe `statsmodels.api.OLS`.</li>
    <li>Manuellement, en utilisant directement les formules statistiques.</li>
</ul>

Puisqu'on a déjà montré visuellement que les données sont linéaires en fonction de l'entrée. On commencera par vérifier que la variance des résidus est constante. Pour cela, nous devons afficher les résidus en fonction de la variable d'entrée.

<b>Note :</b> Vous pouvez utiliser les ressources suivantes pour vérifier ces hypothèses :

[Ressource 1](https://magoosh.com/statistics/how-to-perform-a-heteroskedasticity-test/)
[Ressource 2](http://www.jybaudot.fr/Inferentielle/testsnormalite.html)

In [7]:
import statsmodels.api as sm
import statsmodels.stats.api as sms
from scipy import stats
import pylab as py

# En premier lieu le modèle devra etre entrainé avant de l'évaluer
# Les données au format date sont converties en minutes
X = [(date.hour-7)*60+date.minute for date in xs]
# Ajout de la colonne correspondant à la constante
X = \
#A COMPLETER
# Entrainement du modèle
regressor_OLS = \
#A COMPLETER
# Predictions avec le modèle
y_pred = \
#A COMPLETER

# Affichage des résidus
fig, ax = plt.subplots()
ax.scatter(X[:,1], #Les résidus
           regressor_OLS.resid, alpha=0.3)
ax.set(title="Résidus de la régression linéaire.", xlabel="Temps", ylabel="Residus")
plt.show()

Les résidus semblent se comporter de manière assez cohérente. Mais, il vaut mieux appliquer un test statistique sur la variance pour montrer qu'elle est vraiment constante. On prend ici un seuil de 0.05 (cela vaut aussi pour tous les tests à suivre). Les tests sont appliqués grace à `statsmodels.api`.

In [8]:
print("Test d'homogeneite (H0 : La variance des residus est homogène)")
print('p valeur de Goldfeld–Quandt test est: ',
#A COMPLETER
print('p valeur of Breusch–Pagan test est: ', 
#A COMPLETER
print('p valeur de White test est: ', 
#A COMPLETER



Le risque est fixé habituellement à $\alpha=0.05$, la procédure à suivre est que si la [p-valeur](https://fr.wikipedia.org/wiki/Valeur_p) est inférieure à $\alpha=0.05$ alors on dit que le test rejette l'hypothèse nulle. Si on a le contraire, on en conclut que le test n'arrive pas à rejeter l'hypothèse nulle. Normalement, la p-valeur est ici supérieure à 0.5. Que pouvez vous en conclure ? 
<em>À COMPLÉTER</em>


Testons maintenant la normalité des résidus. Vous pouvez afficher la [qq-plot](https://www.geeksforgeeks.org/qqplot-quantile-quantile-plot-in-python/) pour avoir un rendu visuel sur la normalité des résidus. Cette [courbe](https://fr.wikipedia.org/wiki/Diagramme_quantile-quantile) permet de comparer les quantiles de la loi normale avec les quantiles de l'échantillon. Si les points s'alignent bien sur la droite $y=x$, cela constitue une indication que l'échantillon suit réellement une loi Normale.

In [9]:
from scipy import stats
import pylab as py

#A COMPLETER



Une alternative à la qq-plot consiste à faire des tests statistiques sur la normalité des résidus grâce à `stats`.

In [10]:
print("Test de normalite (H0 : les donnees suivent une loi Normale)")
print('p valeur de Jarque-Bera test est: ', 
#A COMPLETER
print('p value de Shapiro-Wilk test est: ', 
#A COMPLETER


On s'intéresse maintenant à l'autocorrélation des résidus. Cette étape est importante car nous disposons de données temporelles (qui risquent d'être auto-corrélées). Comme d'habitude, on veut avoir une indication graphique sur l'autocorrélation des résidus. Pour cela, on doit afficher la [fonction d'autocorrélation](https://www.statsmodels.org/stable/generated/statsmodels.graphics.tsaplots.plot_acf.html). Vous devez aussi effectué un test statistique pour confirmer/infirmer vos conclusions. La fonction d'autocorrélation est définie dans ce [lien](http://perso.ens-lyon.fr/lise.vaudor/autocorrelation-de-series-temporelles-ou-spatiales/) comme suit:

<div>
L'autocorrélation (ou l'autocovariance) d'une série fait référence au fait que dans une série temporelle ou spatiale, la mesure d'un phénomène à un instant t peut être corrélée aux mesures précédentes (au temps $t − 1$, $t − 2$, $t − 3$, etc.) ou aux mesures suivantes (à $t + 1$, $t + 2$, $t + 3$, ...). Une série autocorrélée est ainsi corrélée à elle-même, avec un décalage (lag) donné.
Voici la définition mathématiques de l'autocovariance et de l'autocorrélation pour une variable $X_t$ de moyenne $μ$ et d'écart-type $σ$.
    
Autocovariance de $X$ pour un décalage de $k$:
    
$\gamma_k = E((X_t-\mu)(X_{t+k}-\mu))$
    
Autocorrélation de X pour un décalage de k:

$\rho_k = \frac{\gamma_k}{\sigma^2}$
</div>

Affichez dans la cellule suivante la fonction d'autocorrélation grâce à la fonction [`tsaplots.plot_acf`](https://www.statsmodels.org/dev/generated/statsmodels.graphics.tsaplots.plot_acf.html) ainsi que le résultat du test statistique sur l'autocorrélation avec le test de [Ljung-Box](https://www.statsmodels.org/stable/generated/statsmodels.stats.diagnostic.acorr_ljungbox.html).

In [11]:
from statsmodels.graphics import tsaplots

# Affichage de la fonction d'autocorrelation
#A COMPLETER
plt.show()

print("Resultat du test d'auto-correlation (H0 : pas d'autocorrelation)")
#A COMPLETER


In [12]:
import statsmodels.api as sm
import statsmodels.stats.api as sms

fig, ax = plt.subplots()
# Affichage du nuage de point
#A COMPLETER
ax.set(title="Régression linéaire l'arete la moins congéstionnée.", xlabel="Temps", ylabel="Trafic")
# Affichage du nuage de point
#A COMPLETER
plt.show()

On peut apprécier visuellement que le modèle capture globalement les variations dans les données. Mais pour nous en assurer, il faut afficher la valeur du coefficient de détermination. Le coefficient de détermination (R2) est le rapport entre la somme des carrés expliqués et la somme des carrés totaux. Il représente littéralement la proportion des variations dans les données expliquées par le modèle de régression. Plus ce rapport est grand, plus la régression est de meilleure qualité. Le coefficient prend toujours une valeur strictement comprises entre 0 et 1. Comment peut-on interpréter le coefficient de détermination si celui-ci vaut 0 ? si celui-ci vaut 1 ?
<em>À COMPLÉTER</em>

En revanche, le coefficient de déterminations à lui seul ne suffit pas pour conclure que la régression est pertinente car il n'est pas toujours facile à interpréter quand il est relativement faible. Pour cela, on a recours à des tests statistiques qui permettent de vérifier avec un seuil de confiance donné la pertinence de la régression linéaire, les tests les plus utilisés sont:
<ul>
    <li>Le test de Student qui sert à tester si les paramètres de la droite sont significativement différent de zéro. Il est appliqué individuellement aux paramètres de la droite. Concernant un coefficient donné du modèle, si l'hypothèse nulle est rejetée, cela veut dire que ce coefficient est non nul, et donc que le modèle linéaire a du sens pour la variable associée à ce coefficient. </li>
    <li>Le test de Fisher qui sert à évaluer la qualité globale de la régression. Ce test revient à vérifier si au moins l'un des paramètres de la droite est non nul.</li>
</ul>
Dans le cas où l'on a une variable seulement, ces deux tests sont considérés comme équivalents car la qualité globale de la régression dépend essentiellement de l'estimation de la pente.

Affichez la valeur de R2 puis effectuez les tests de Fisher et Student sur le modèle et affichez le résultat obtenu par ces tests. Faites les tests en utilisant la classe `statsmodels.api.OLS`, puis refaites ces tests en utilisant les formules correspondant à la méthode des moindres carrés.

In [13]:
print("Evaluation de la regression lineaire en utilisant la classe statsmodels :")
print("Les parametres de la regression sont ", 
#A COMPLETER
print("La valeur du R2 est ", 
#A COMPLETER
print("f_value ", 
#A COMPLETER
      " f_pvalue",
#A COMPLETER
print("Le resultat des t-tests ")
print("p valeurs ", 
#A COMPLETER
      " t valeurs ", 
#A COMPLETER

print("\nEvaluation de la regression en utilisant les formules : ")
# Calcul manuel des paramètres de la regression
slope = \
#A COMPLETER
intercept = \
#A COMPLETER
print("Terme constant et pente ", intercept, slope)

# Calcul de la statistique de fischer pour evaluer la regression
n_obs, k = len(X[:,1]), 1
# somme des ecarts expliques
sce = \
#A COMPLETER
# sommes des ecarts totaux
sct = \
#A COMPLETER
# somme des ecarts residuels
scr = \
    sct-sce
F = \
#A COMPLETER
print("Le coefficient de R2 ", sce/sct)
print("Valeur du F-test ", F)

#A COMPLETER
t0 = \
#A COMPLETER
print("Valeur de t0 ", t0)

#A COMPLETER
t1 = \
#A COMPLETER
print("Valeur du t1 ", t1)

Vous êtes censés obtenir des p-valeurs < 0.05. Que concluez-vous de l'affichage précédent? Commentez sur la valeur du R2 et des tests statistiques.
<em>À COMPLÉTER</em>


# 2. Régression linéaire sur plusieurs modèles
Vous devez maintenant définir un modèle complet permettant de prédire le trafic des arêtes en fonction du temps. Il convient ici d'afficher la proportion de modèles pour lesquelles les tests de Student et de Fischer invalident l'hypothèse nulle à un seuil de 0.05. Vous pouvez expérimenter avec différents types de modèles, par exemple:
<ul>
    <li>En proposant un modèle linéaire pour chaque arête.</li>
    <li>En rajoutant une variable « arête » au modèle, et en proposant ensuite un modèle linéaire pour chaque groupe d’arêtes.</li>
</ul>

On peut même unifier ces deux approches. C’est ce qui a été fait dans la cellule qui suit. Le code ci-dessous divise l’ensemble des arêtes en plusieurs intervalles en se basant sur l’indice des arêtes dans la table. À chaque groupe d’arêtes est associé un modèle qui se charge de prédire le trafic en fonction du temps pour ces arêtes. Par conséquent, pour chaque modèle de régression on aura le biais, la variable du temps, et une variable binaire qui signifie pour quelle arête du groupe on veut prédire le trafic. Si l’arête est présente dans le groupe cette variable vaut 1, elle vaut 0 sinon.

Complétez le code suivant pour pouvoir faire des tests. Il vous est juste demandé de remplir les lignes associées à l’ajout de constantes dans le jeu de données, à l’entrainement du modèle ainsi que la récupération des p-valeurs après l’entrainement du modèle. Le code affichera ensuite, la proportion de modèles ou les t-tests et les F-tests invalident l’hypothèse nulle. Notons qu’on a un t-test pour chaque variable du modèle de chaque modèle et un F-test pour chaque modèle et que c’est la proportion de modèles ou le test conclue à un effet qui sera affichée.

Quel type de modèle donne les meilleurs résultats en terme de puissance prédictive ? Quel est son inconvénient ? Justement, quel est le nombre de paramètres total par type de modèle ?
<em>À COMPLÉTER</em>


In [22]:
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder

# Nombre d'aretes dans la ville
nb_aretes = 500
# Nombre de modèles
nb_regression_models = 250
# Nombre d'aretes pris en charge par chaque modèle
nb_aretes_per_model = nb_aretes/ nb_regression_models
# Les modèles de regression
regression_models = [None]*nb_regression_models
for i in range(nb_regression_models):
    #print(i)
    num_premiere_arete, num_derniere_arete = i*nb_aretes_per_model, (i+1)*nb_aretes_per_model-1 
    # Lecture des données du trafic matinales sur les aretes dans l'intervalle
    # [num_premiere_arete, num_derniere_arete]
    X = list(db.vehicules_stamped.aggregate([
        {"$match":{"num_arete":{"$gte":num_premiere_arete, "$lte":num_derniere_arete}}},
        {"$project":{"temps":{"heures":{"$hour":"$date"}, 
                              "minutes":{"$minute":"$date"}},
                    "nb_vehicules":1,"num_arete":1}},
        {"$match":{"temps.heures":{"$lte":9, "$gte":7}}}]))
    # Conversion en minutes des données de trafic
    X = [[trafic["num_arete"],
                60*(trafic["temps"]["heures"]-7)+trafic["temps"]["minutes"], 
                trafic["nb_vehicules"]] for trafic in X]
    # Transformation de la colone "num_arete" en colonne binaire associée à chaque arete
    ct = ColumnTransformer(transformers=[('encoder', OneHotEncoder(), [0])], 
                           remainder="passthrough")
    X = ct.fit_transform(X)
    if isinstance(X, np.ndarray) is False:
        X = X.toarray()
    else :
        X = np.array(X, dtype = int)
   # Vecteur du trafic réel par arete et par minute
    ys = X[:,-1]
    # Matrice contenant l'échantillon des données, les colonnes sont la minute et l'arete
    X = X[:, 1:-1]
    
    # Ajout de la constante dans la matrice
    X = \
#A COMPLETER
    # Entrainement du modèle
    regression_models[i] = \
#A COMPLETER
# seuil des tests
seuil = 0.05
# nombre de variables par modèle
nb_regressors = int(nb_aretes_per_model+1)
# Compteur du nombre de t-tests concluant de l'effet des variables par modèle
cpts_ts = [[0]*nb_regressors for i in range(nb_regression_models)]
# Compteur du nombre de F-tests conclusifs sur les modèles
cpts_f = [0]*nb_regression_models
for i in range(nb_regression_models):
    # Les p-valeurs des t-tests
    pvalues_t_test = \
#A COMPLETER
    # Les p-valeurs des F-tests
    pvalue_f_test = \
#A COMPLETER
    for j in range(len(pvalues_t_test)):
        if pvalues_t_test[j] < seuil:
            cpts_ts[i][j] += 1
            #print("p-valeur associee a la variable "+str(j)+" est "+str(pvalues_t_test [j]))
    if pvalue_f_test < seuil:
        cpts_f[i] += 1
        #print("p-valeur du f-test est "+str(pvalue_f_test))
print("Proportion de succes associee aux t-tests ", 
      [sum(
              [cpts_ts[i][j] for i in range(nb_regression_models)]
          )/nb_regression_models for j in range(nb_regressors)])
print("Proportion de succes associee aux f-tests ", sum(cpts_f)/nb_regression_models)
print("Tous les tests sont completees.")