<a href="https://colab.research.google.com/github/Cours-EDUlib/FAS-ISDS/blob/main/module-7/Applications/7-1_syntaxe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Module 7: Les statistiques et la science des données appliquées
##Application 1: régression linéaire simple avec VI continue
###Syntaxe de l'exemple présenté

In [None]:
#Téléchargement des packages nécessaires
library (tidyverse)
install.packages("rsq")
require(rsq)
library(ggplot2)
install.packages("descr")
require(descr)

Pour ce premier exemple, nous utilisons une base de données qui est composée de données concernant les États américains. On s'intéresse précisément au taux de chômage et au taux de décrochage scolaire au sein de chacun des états. Nous essaierons de voir s'il y a une relation entre ces deux variables. 

In [None]:
path_to_csv = 'https://github.com/Cours-EDUlib/FAS-ISDS/blob/main/module-7/Applications/7-1-2_donnees.csv?raw=true' #Téléchargement de la base de données depuis github

bd <- read_csv(path_to_csv) #Enregistrement de la base de données dans l'ojet "bd"
bd #Lecture des données

Voici les variables à l'étude dans cet exemple:
- jbs170: taux de chômage par état en pourcentage
- scs134: taux de décrochage scolaire par état en pourcentage

Commençons par produire quelques statistiques descriptives de base pour se familiariser avec les variables à l’étude:
  - La moyenne
  - La médiane
  - Le minimum
  - Le maximum
  - l'écart-type

In [None]:
#Statistiques descriptives

summary(bd$scs134)
sd(bd$scs134)

summary(bd$jbs170)
sd(bd$jbs170)

Interprétation:

Le taux de décrochage scolaire varie de 4,3% à 19,1%, avec une moyenne de 10,28% et un écart-type de 2,75% autour de la moyenne. Du côté du taux de chômage, il varie de 2,7% et 15,2%, avec une moyenne de 5,02% et un écart-type de 1,84%. 

Par la suite, nous produisons des histogrammes, pour vérifier si les variables respectent le postulat de normalité de distribution. 

In [None]:
#Histogramme pour vérification du postulat de normalité

ggplot(bd, aes(x=jbs170)) +
  geom_histogram(binwidth=1, fill="#69b3a2", color="#e9ecef", alpha=0.9) +
    ggtitle("Distribution: taux de chômage") +
    theme(
      plot.title = element_text(size=20)
    )

ggplot(bd, aes(x=scs134)) +
  geom_histogram(binwidth=1, fill="#69b3a2", color="#e9ecef", alpha=0.9) +
    ggtitle("Distribution: taux de décrochage scolaire") +
    theme(
      plot.title = element_text(size=20)
    )

Interprétation:

Pour le taux de chômage, la distribution n’est pas tout à fait normale, surtout en raison d’un état qui semble avoir un taux de chômage beaucoup plus élevé que l'ensemble des autres (autour de 15). En faisant abstraction de cet état, le reste de la distribution semble normale, avec des résultats qui varie entre 2,5 et 7,5%. On considère donc que le postulat est respecté.

Pour le taux de décrochage scolaire, l'histogramme montre une distribution très proche d’une distribution normale: le postulat est respecté.

Les deux variables sont distribuées assez normalement, donc on peut les utiliser pour faire une analyse de régression linéaire. 

Enfin, pour avoir un aperçu de la relation entre les variables, nous produisons un graphique de dispersion, ou nuage de points.

In [None]:
#Nuage de points
ggplot(bd, aes(x=scs134, y=jbs170)) + 
    geom_point()

Interprétation:

Le nuage de point représente la relation entre le taux de décrochage scolaire, la variable indépendante placée sur l’axe des X, et le taux de chômage, la variable dépendante placée sur l’axe des Y. Chaque point représente un état. On aperçoit  une tendance générale positive, où le taux de chômage augmente avec le taux de décrochage scolaire. Donc plus le taux de décrochage est élevé, plus le taux de chômage l’est également et vice-versa. Toutefois, quelques points semblent s’éloigner du nuage de tendance générale, dont une donnée au sommet du graphique qui semble correpondre à une donnée extrême (voir capsule 7.2).

Nous pouvons finalement passer à l’analyse de régression en tant que telle.

On produit également les résidus standardisés pour compléter les statistiques de résidus automatiquement produites par la procédure glm.

In [None]:
#Faire la régression linéaire

reglineaire <- glm(jbs170 ~ scs134, data = bd, family="gaussian")
summary(reglineaire)

Interprétation:

La régression linéaire sert à qualifier, par une droite, le nuage de points produit auparavant. On s'attendait donc à observer une relation significative positive. Lorsque le taux de décrochage scolaire est élevé, on peut s’attendre à un taux de chômage élevé également.

La constante nous indique que dans un état hypothétique au taux de décrochage de 0, le taux de chômage serait de 2,86%. Le coefficient de la variable indépendante, nous prouve l'existence d'une relation positive, de sorte que le taux de chômage augmente d’environ 0,21% pour chaque augmentation d’une unité du taux de décrochage scolaire. La relation est donc faible, mais positive, et surtout significative (p < 0.05). Ces résultats sont cohérents avec ce qu’on a observé dans le nuage de point précédemment.


In [None]:
#Calcul du r-carré
rsq(reglineaire)

Interprétation:

Environ 10% de la variance du taux de chômage est expliqué par le taux de décrochage scolaire.