<a href="https://colab.research.google.com/github/Cours-EDUlib/FAS-ISDS/blob/main/module-6/Applications/6-4_syntaxe.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Les statistiques et la science des données appliquées
##Application 4: régression logistique simple avec VI catégorielle
###Syntaxe de l'exemple présenté

In [None]:
#Téléchargement des packages nécessaires
library (tidyverse)
install.packages("rsq")
require(rsq)
library(ggplot2)
install.packages("descr")
require(descr)

In [None]:
path_to_csv = 'https://github.com/Cours-EDUlib/FAS-ISDS/blob/main/module-6/Applications/6-4_donnees.csv?raw=true' #Téléchargement de la base de données depuis github

bd <- read_csv(path_to_csv) #Enregistrement de la base de données dans l'ojet "bd"
bd #Lecture des données

Voici les variables à l'étude dans cet exemple:
- FEPRES: accord de l'individu à voter pour une femme candidate à la présidence (USA) (0 = non, 1 = oui)
- femme: genre de l'individu ( 0 = homme, 1 = femme)
- sei: statut socioéconomqiue (score de 0 à 100)

Nous allons d'abord examiner la relation entre la variable FEPRES et femme.

Commençons par produire quelques statistiques descriptives de base (fréquences) pour se familiariser avec les variables à l'étude.

In [None]:
#Fréquences et distribution VI régions

freq(bd$FEPRES)
freq(bd$femme)

Interprétation:

Le tableau de fréquence, accompagné d’un graphique à barres par défaut, nous montre qu’une très forte majorité de l’échantillon, 93,5% pour être exact, s’est prononcé en accord avec le fait de voter pour une femme à la présidence. On peut aussi observer que l’échantillon est assez bien divisé entre hommes et femmes, même si on a un peu plus de femmes (55% de l’échantillon).

In [None]:
reglog <- glm(FEPRES ~ femme, data = bd, family="binomial")
summary(rstandard(reglog))
summary(reglog)

Interprétation:

Il n’y a pas de données extrêmes, puisque les résidus sont inclus dans l’intervalle de 3 écart-types au-dessus et au-dessous de la moyenne.

La constante ou intercept est à 2,5 et le coefficient non standardisé pour la variable femme est de 0,39 et les deux sont significatifs au seuil de 0,001.

Rappel des équations en lien avec la régression logistique :

- Calcul de probabilité : $ prob(evenement) = \frac {1} {1 + e^{-(B0+B1(X))}} $

- Calcul de la cote :  $ \frac {prob(evenement)} {prob(non-evenement)} $




Commençons par la probabilité. Dans l’équation, on remplace le B0 par le coefficient de la ligne « intercept », et le B1 par le coefficient de la VI femme.

Probabilité d'être en accord avec le fait de voter pour une femme à la présidence si X=1 (femme) : 0,945

Probabilité d'être en accord avec le fait de voter pour une femme à la présidence si X=0 (homme) : 0,921

Cote si X=1 (femme): 17,18

Cote si X=0 (homme): 11,65

Rapport de cote: 17,18/11,65 = 1,47

La probabilité qu’une femme soit d’accord avec le fait de voter pour une femme à la présidence est de 94,5%. la probabilité qu’un homme soit d’accord avec le fait de voter pour une femme à la présidence est de 92,1%, 2 points de pourcentage de moins que pour les femmes. En fonction du rapport de cotes, les femmes ont 1,47 fois plus de chances d’être en accord avec le fait de voter pour femme à la présidence que les hommes.

Nous allons maintenant examiner la relation entre la variable FEPRES et sei.

Commençons par produire quelques statistiques descriptives de base pour se familiariser avec la VI:
  - La moyenne
  - La médiane
  - Le minimum
  - Le maximum
  - l'écart-type

In [None]:
#Statistiques descriptives

summary(bd$sei)
sd(bd$sei, na.rm=TRUE)

In [None]:
#Histogramme
ggplot(bd, aes(x=sei)) +
  geom_histogram(binwidth=5, fill="#69b3a2", color="#e9ecef", alpha=0.9) +
    ggtitle("Distribution: statut socioéconomique") +
    theme(
      plot.title = element_text(size=20)
    )

Interprétation:

Notons la présence de 123 données manquantes. Le statut socioéconomique varie de 17,10 à 97,20, avec une moyenne de 47,85 et un écart-type de 18,99. L’histogramme montre une certaine asymétrie dans la distribution, mais on peut quand même réaliser la régression logistique.

In [None]:
reglog2 <- glm(FEPRES ~ sei, data = bd, family="binomial")
summary(rstandard(reglog2))
summary(reglog2)

Interprétation:

On confirme qu’il n’y a pas de données extrêmes grâce au résidus standard. La constante ou intercept est à 2,14 et le coefficient non standardisé pour la variable sei est de 0,011, tous deux significatifs au seuil de 0,001.

Probabilité d'être en accord avec le fait de voter pour une femme à la présidence si X=47: 0,943

Probabilité d'être en accord avec le fait de voter pour une femme à la présidence si X=90: 0,958

Cote si X=47: 16,5

Cote si X=90: 22,8

Rapport de cote: 22,8/16,5 = 1,39

Les individus au statut socioéconomique de 90 ont 1,39 plus de chance d’être en accord de voter pour une femme à la présidence que la moyenne des Américains. 

###Bonus

Représentation visuelle des probabilités prédites

In [None]:
#Nouvelle base de données sans les données manquantes
bd2 <- bd[!is.na(bd$sei),]
bd2

In [None]:
#Calcul des probabilités prédites
bd2$pred2 <- predict(reglog2, type="response")
summary(bd2$pred2)

In [None]:
#Nuage de points
ggplot(bd2, aes(x=sei, y=pred2)) + 
    geom_point()