# Introduction aux régressions linéaires sur Python : Correction

Ceci est un cours d'introduction aux régressions linéaires sur Pyhton. L'objectif est de pouvoir importer des données, effectuer des régressions linéaires, de comprendre et savoir interpréter les sorties de Python mais aussi de vérifier l'adéquation du modèle.

## Support

Pour ce tutoriel, Jupyter Notebook sera utilisé.

## Gestion et création de cellules

Sur un notebook, vous pouvez écrire du texte et des cellules de code en Python.
Pour transformer une cellule de code en texte, cliquez sur la cellule et appuyez sur Echap + M. Pour faire l'inverse, sélectionnez la zone de texte et appuyez sur Echap + Y.
Pour éxecuter le code d'une cellule, appuyez sur Ctrl + Enter.
Pour éxecuter et créer une nouvelle cellule Maj + Enter .


## Importer les packages

In [1]:
#load libraries
import numpy as np         # linear algebra
import pandas as pd        # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
from scipy import stats
import statsmodels.api as sm 
import statsmodels.formula.api as smf #permet de faire régression liéaire avec les mêmes formules que sur R


### 1) Importer des données

Pour importer des données, vous pouvez les télécharger localement et les ouvrir en précisant le chemin d'accès ou directement les ouvrir à partir d'un dépot Github.
Dans ce TP, nous allons nous intéresser à un sous-échantillon de la cohorte Paquid. 
Cette cohorte a été constituée dans le but d’étudier le vieillissement cérébral normal et pathologique chez des 
sujets de plus de 65 ans, vivant à domicile en Gironde et en Dordogne. Les sujets ont été tirés au 
sort sur les listes électorales entre 1988 et 1990.

Les sujets inclus dans l’étude ont été interrogés à l’aide d’un questionnaire standardisé lors de la 
visite initiale (T0), et lors des suivis à 1 an, 3 ans, 5 ans et 8 ans après la visite initiale. 
A chaque visite, des informations concernant les caractéristiques sociodémographiques, les conditions de 
vie, l’état de santé et les performances intellectuelles des sujets ont été recueillies. Pour évaluer 
les performances cognitives, plusieurs tests psychométriques ont été utilisés, parmi lesquels : le 
Mini Mental State Examination (MMSE) mesurant la performance cognitive globale, le test de 
rétention visuelle de Benton, le test d’Isaac utilisé pour explorer l’évocation lexicale, le test de 
barrages de Zazzo et le test de raisonnement logique simple de Wechsler.
Dans cet exercice, nous nous intéressons au test de **Wechsler** nécessite une bonne capacité 
d’attention et présente une composante vitesse. Il se présente sous la forme d’une table qui sert 
de modèle et décrit neuf paires constituées d’un chiffre et d’un symbole, et d’une seconde table qui 
ne comporte que des chiffres et des cases vides. En se servant du modèle qui figure en haut de la 
feuille, le sujet doit compléter le plus de cases possible dans la seconde table en écrivant le 
symbole correspondant sous chaque chiffre proposé. Le score total est le nombre de cases 
correctement remplies en 90 secondes ; le score maximum est 93.
L’objectif principal de cette étude est d’étudier la relation entre le score du test de Wechsler à la 
visite initiale et différentes caractéristiques des sujets.

Les données sont dans le fichier *cweschler.txt*. Il contient des informations sur 501 sujets :

* ayant effectués les cinq tests précités à T0, T1, T3 et T5,
* ayant été vus à T8 et non déments à T8,
* n’étant ni sourds, ni aveugles ;
* n’étant pas confinés au lit ;
* n’ayant pas eu d’AVC, ni de traumatismes crâniens pendant les 5 premières années de suivi.

Les variables disponibles sont les suivantes :

numero : numéro d’identification

*age* : âge à T0 (en années)

*sexe* : sexe
* 0=hommes
* 1=femmes

metier : profession
* 0=femme au foyer
* 1=ouvrier agricole
* 2=exploitant agricole
* 3=employé de service
* 4=ouvrier
* 5=artisan-commerçant
* 6=autres employés
* 7=profession intellectuelle

*codew0* : score au test de Wechsler à T0

*comvin* : consommation de vin déclarée à T0
* 0=non buveur
* 1=1/4 de litre /jour
* 2=1/2 litre /jour ou plus

*certif *: niveau d’études
* 0=sans certificat d’études primaire
* 1=avec certificat d’études primaire

**Indice : utiliser read_csv de panda**

## Statistiques descriptives

### 2) Décrire la distribution de l'âge et du score à l'aide de graphiques appropriés
**Indice : Utiliser hist de matplotlib**

### 3) Décrire numériquement toutes les variables
**Indices :**
* Utiliser dataset-quanti.describe() pour les variables quantitatives du dataset 
* Utiliser quali.value_counts() pour une variable qualitative du dataset (1 variable à la fois)

## Régression linéaire simple

### 3) Estimer l'association brute entre le score au test de Wechsler et l'âge (en quantitatif)
#### a) Sur papier : 
###### i) Ecrire l'équations du modèle

##### ii) Donner les conditions d'applications de ce modèle et ce qu'elles signifient concrètement ici

##### iii) Donner l'interprétation des coefficients de l'équation
#### b) A partir des données :
##### i) Tracer les graphiques nécessaires pour étudier les conditions d'application de modèle
**Indices :**
* utiliser  hist de matplotlib 
* utiliser scatter de matplotlib


##### ii) Estimer le coefficient de corrélation de Pearson entre les deux variables
**Indice : utiliser pearsonr de scipy**

##### iii) Estimer le modèle
**Indices :**
* pour faire le modèle : utiliser smf.ols(formula='Y ~  X ', data=data) 
* Pour l'estimer, utiliser fit
* Pour obtenir les résultats, afficher (print) du résumé du modèle (summary)


##### iv) Présenter dans un tableau les résultats
##### v) Interprétation des résultats

### 4) Estimer l'association brute entre le score et le sexe 

#### a) Ecrire sur papier l'équation du modèle
#### b) Estimer le modèle et interpréter les résultats

### 5) Estimer l'association brute entre le score et le niveau d'étude

#### a) Sur papier, écrire l'équation du modèle
#### b) Estimer le modèle et interpréter les résultats

## Régresssion linéaire multiple : association entre le score et la consommation de vin, ajustée sur l'âge et le niveau d'éducation
### a) Sur papier, écrire l'équation du modèle

### b) Estimer le modèle et interpréter les résultats


### c) Etudier l'adéquation du modèle à partir des résidus
**Indices :**
* La fonction resid permet de calculer les résidus à partir d'un modèle fitté
* Utiliser la fonction qqplot de statsmodel.api
* Utiliser scatter et hist de matplotlib

### d) Etude d'interaction
 Etudier si l’association entre la consommation de vin et le score à T0 diffère chez les hommes 
et chez les femmes de même âge et de même niveau d’éducation.
#### i) Ecrire sur papier l'équation du modèle
#### ii) Estimer le modèle avec l'interaction nécessaire, interpréter pour la consommation de vin

#### iii)Présenter les résultats du modèle 
avec interaction dans un tableau sur Word, même si l’interaction est non significative, et commenter les résultats