In [None]:
devtools::unload("htmltools")
install.packages("htmltools", repos = "http://cran.us.r-project.org")
library(htmltools)
# Janvier 2023: Ces lignes peuvent être nécessaires pour forcer la mise à jour du package htmltools dans Colab. Cette procédure permet de régler des problèmes d'incompatilité entre les packages installés ci-dessous et la version R installée par défaut dans Colab
# Les problèmes de compatibilité suite à des mises à jours de packages et de la version R installée par défaut sont courants et peuvent être plus difficiles à régler dans Colab que dans RStudio. 

In [None]:
install.packages("questionr", dep = TRUE)
install.packages("car", dep = TRUE)
install.packages("mnormt", dep = TRUE)
install.packages("psych", dep = TRUE)
require(questionr)
require(car)
require(mnormt)
require(psych)
data(hdv2003)
bd <- hdv2003



---



# Statistiques descriptives univariées

### Fonction générique summary() 
*   Fournit les principales mesures de tendance centrale et de dispersion d’une distribution avec quartiles 
*   C’est une fonction dont le comportement s’adapte au type d’objet
*   Élimine d'emblée valeurs manquantes

In [None]:
summary(bd)

In [None]:
summary(bd$age)

In [None]:
summary(bd$occup)

In [None]:
str(bd)

### Autres fonctions utiles

In [None]:
# Fonctions diverses permettant d'explorer les indicateurs de centralité et de dispersion pour variable quantitative
# Toujours ajouter na.rm=T en argument

median(bd$heures.tv, na.rm=TRUE)
mean(bd$heures.tv, na.rm=TRUE)
max(bd$heures.tv, na.rm=TRUE)
min(bd$heures.tv, na.rm=TRUE)
sum(bd$heures.tv, na.rm=TRUE)
range(bd$heures.tv, na.rm=TRUE)
var(bd$heures.tv, na.rm=TRUE)
sd(bd$heures.tv, na.rm=TRUE)
quantile(bd$heures.tv, na.rm=TRUE)

In [None]:
# Fonctions de normalité

skew(bd$heures.tv, na.rm=TRUE) # package psych
kurtosi(bd$heures.tv, na.rm=TRUE) # package psych
qqPlot(bd$heures.tv) # package car


In [None]:
# Fonctions de transformation -> normalité & rang

log(bd$age)     # Logarithme (, base=10)
sqrt(bd$age)    # Racine carrée
scale(bd$age, center = TRUE, scale = TRUE)    # Centrage et réduction avec la fonction scale (Zscore)

In [None]:
## La très utile fonction apply

### Pour appliquer une fonction sur plusieurs variables à la fois
apply(bd[,c("age", "heures.tv","freres.soeurs")], MARGIN=2, FUN=scale)

# c() indique les variables à utiliser
# MARGIN=2: calcul à travers les participants (colonnes), =1 est à travers les rangées
# FUN=scale: la fonction à appliquer, pourrait être n'importe laquelle comme moyenne, somme, variance...

## Table de fréquences

### Fonction table() - Tableaux d'effectifs 

In [None]:
tb1<-table(bd$freres.soeurs)    # var numérique

In [None]:
tb2<-table(bd$qualif)            # var quali (résultat pareil à summary())

# Exclu NA par défaut, sinon il faut utiliser l’argument useNA ="always" ou "ifany"

### Autres fonctions utiles


In [None]:
prop.table(tb2)

In [None]:
# Afficher en % et arrondir

round((prop.table(tb2))*100) 

In [None]:
# Fonction freq (package questionr)

freq(bd$occup) # affiche les NA par défaut

### Nombreux arguments utiles possibles

freq(bd$occup, cum = FALSE, total = TRUE, sort = "inc", digits = 0, exclude = NA)

  # cum: afficher ou non les % cumulés
  # total: ajouter les effectifs totaux
  # sort: trier le tableau par fréquence croissante (sort="inc") ou décroissante (sort="dec")
  # digits: arrondir
  # exclude: exclure valeurs manquantes



---



# Statistiques descriptives bivariées

## Tableaux croisées

### Fonction table() et cie.
*   1er argument var horizontale (dép.), 2e var verticale (ind.)

In [None]:
tb <-table(bd$qualif, bd$sexe) # pour une table à plus de deux niveaux, simplement ajouter une variable additionnelle


In [None]:
# Ajouter les totaux des effectifs

addmargins(tb)    

In [None]:
# % Totaux 

prop(tb)    
prop_table(tb)         

In [None]:
# % Totaux, Arguments 1 pour % en rangées, 2 pour % en colonnes

prop.table(tb)    

In [None]:
# % en ligne

rprop(tb)         


In [None]:
# lprop et cprop de questionr pour %

cprop(tb, percent = T)    # % en colonnes. Argument percent pour afficher les %

In [None]:
lprop(tb, percent = T)    # % en lignes

### Comparer des groupes : by() et tapply() 

Les très pratiques fonctions by() et tapply() (variante de la fonction apply)permettent d'appliquer une fonction sur une variable quantitative (1er) selon les modalités d'une variable catégorielle (2iem)


In [None]:
by(bd$age, bd$sexe, mean)

In [None]:
tapply(bd$age, bd$sexe, mean)

In [None]:
tapply(bd$relig, bd$sexe, table) 

In [None]:
tapply(bd$relig, bd$sexe, freq)