# Introduction aux régressions linéaires sur Python partie 2 

Ceci est un cours d'introduction aux régressions linéaires sur Python. L'objectif est de pouvoir importer des données, effectuer des régressions linéaires, de comprendre et savoir interpréter les sorties de Python mais aussi de vérifier l'adéquation du modèle.

## Support

Pour ce tutoriel, Jupyter Notebook sera utilisé.

## Gestion et création de cellules

Sur un notebook, vous pouvez écrire du texte et des cellules de code en Python.
Pour transformer une cellule de code en texte, cliquez sur la cellule et appuyez sur Echap + M. Pour faire l'inverse, sélectionnez la zone de texte et appuyez sur Echap + Y.
Pour éxecuter le code d'une cellule, appuyez sur Ctrl + Enter.
Pour éxecuter et créer une nouvelle cellule Maj + Enter .


## Importer les packages

In [2]:
#load libraries
import numpy as np         # linear algebra
import pandas as pd        # data processing, CSV file I/O (e.g. pd.read_csv)
import matplotlib.pyplot as plt
from scipy import stats #permet régression linéaire simple
import statsmodels.api as sm 
import statsmodels.formula.api as smf #permet de faire régression liéaire avec les mêmes formules que sur R
from statsmodels.regression.linear_model import OLS #permet régression linéaire multiple

1) Importer des données
Pour importer des données, vous pouvez les télécharger localement et les ouvrir en précisant le chemin d'accès ou directement les ouvrir à partir d'un dépot Github.

Les données de l’exercice proviennent d’un sous-échantillon de la cohorte ANRS CO13 HEPAVIH. 
Cette cohorte a été initiée en 2005 dans le but d’étudier l’histoire naturelle de la co-infection par le VIH 
et le virus de l’hépatite C (VHC). Les inclusions dans la cohorte sont fermées depuis 2016, mais les 
participants inclus sont toujours suivis. Les critères d’inclusion dans la cohorte étaient un âge
supérieur à 18 ans et un suivi dans un des centres hospitaliers participants à la cohorte. 
Dans cet exercice, nous nous intéressons en particulier au score FIB-4 qui est un score qui a été 
validé pour évaluer l’atteinte hépatique chez les participants co-infectés par le VIH et le VHC. Ce 
score est calculé en fonction de plusieurs facteurs biologiques (ASAT, ALAT et plaquettes) et de l’âge 
du participant. Ce score peut être catégorisé pour le diagnostic de la fibrose. Les participants ayant un 
score inférieur à 1,45 sont catégorisés comme n’ayant pas de fibrose ou une fibrose légère, entre 1,45 
et 3,25 une fibrose modérée, et ceux avec un score supérieur à 3,25 comme ayant une fibrose 
avancée ou une cirrhose. Dans cet exercice, nous ne nous intéresserons qu’à une seule mesure de 
FIB4 chez les patients guéris du VHC au cours du suivi, ou non guéris mais suivis au-delà du 1er
janvier 2014. Il s’agit de la première mesure disponible après i) la guérison du VHC pour les patients 
guéris du VHC au cours du suivi, ou ii) après le 1er janvier 2014 pour les participants non-guéris du 
VHC au cours du suivi.
Les données sont fournies dans le fichier FIB4.csv. Les variables disponibles et leurs codages sont 
présentés dans le tableau ci-dessous.

 *ID* Numéro d’identifiant
 
 *Sexe* Sexe 
* 1 : Hommes
* 2 : Femmes

*Age* Age au moment de la mesure du FIB-4 Année

*FIB4* Valeur de FIB-4 Réel allant potentiellement de 0 à 3

*RVS* Guérison du VHC
* 0 : Non guéris
* 1 : Guéris

*alc* Consommation d’alcool déclarée par le participant
* 0 : Jamais
* 1 : Ancienne
* 2 : Actuelle

*CD4* Valeur de CD4 Cellules/mm3

**Indice : utiliser read_csv de panda**

## Statistiques descriptives
### 2)Représenter graphiquement la distribution de l’âge, du score FIB-4 et des valeurs de CD4 et commentez la figure.
**Indice : Utiliser hist de matplotlib**

### 3) Décrire numériquement toutes les variables
#### a) Variable quantitative
#### b) Variable catégorielle
**Indices :**
* Utiliser dataset-quanti.describe() pour les variables quantitatives du dataset 
* Utiliser quali.value_counts() pour une variable qualitative du dataset (1 variable à la fois)

## Régression linéaire simple

### 3) Estimer l'association brute entre  le score FIB-4 et l’âge
#### a) Sur papier : 
###### i) Ecrire l'équations du modèle


##### ii) Donner les conditions d'applications de ce modèle et ce qu'elles signifient concrètement ici

##### iii) Donner l'interprétation des coefficients de l'équation
#### b) A partir des données :
##### i) Estimer le coefficient de corrélation de Pearson entre les deux variables
**Indice : utiliser pearsonr de scipy**

##### iii) Estimer le modèle
**Indices :**
* pour faire le modèle : utiliser smf.ols(formula='Y ~  X ', data=data) 
* Pour l'estimer, utiliser fit
* Pour obtenir les résultats, afficher (print) du résumé du modèle (summary)

### 4) Estimer l'association brute entre le score et la guérison du VHC 
#### a) Ecrire sur papier l'équation du modèle

#### b) Estimer le modèle et interpréter les résultats

### 5) Estimer l'association brute entre le score et la consommation d'alcool
#### a) Sur papier, écrire l'équation du modèle

#### b) Estimer le modèle et interpréter les résultats

## Régresssion linéaire multiple : association entre le score et la consommation d'alcool, ajustée sur l'âge, le sexe et la guérison au VHC
### a) Sur papier, écrire l'équation du modèle

### b) Estimer le modèle et interpréter les résultats

### c) Discutez la différence entre l’effet de la consommation d’alcool estimé par ce modèle et celui estimé à la question précédente.
### d) Vérifier l’adéquation de ce modèle.
**Indices :**
* La fonction resid permet de calculer les résidus à partir d'un modèle fitté
* Utiliser la fonction qqplot de statsmodel.api
* Utiliser scatter et hist de matplotlib

### e) Présentez les résultats de ce modèle dans un tableau.

### d) Etude d'interaction
L’association entre le score FIB-4 et la valeur de CD4 diffère t’elle statistiquement significativement en fonction de la guérison du VHC ?
#### i) Ecrire sur papier l'équation du modèle

#### ii) Estimer le modèle avec l'interaction nécessaire