<a href="https://colab.research.google.com/github/Cours-EDUlib/FAS-ISDS/blob/amelioration-de-la-structure-du-repertoire/module-5/5_1_statistiques_descriptives.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Installation et chargement des modules nécessaires
install.packages("questionr", dep = TRUE)
install.packages("car", dep = TRUE)
install.packages("psych", dep = TRUE)
install.packages("Hmisc", dep = TRUE)
library(car)
library(questionr)
library(psych)
library(Hmisc)


# Téléchargement de la base de données hdv2003 du module questionr
# (Extrait de l'enquête "Histoire de vie" de l'Insee - https://www.insee.fr/fr/statistiques/2532244)
data(hdv2003)

# Copie de la base de données dans un objet (datatable) nommé bd
bd <- hdv2003

#Statistiques descriptives

#1. Statistiques descriptives univariées

##1.1. Fonction générique summary() 
*   Fournit les principales mesures de tendance centrale et de dispersion d’une distribution avec quartiles 
*   C’est une fonction dont le comportement s’adapte au type d’objet
*   Élimine d'emblée les valeurs manquantes

In [None]:
summary(bd) # Résumé de la base de données 

In [None]:
summary(bd$age) # Résumé d'une variable quantitative

In [None]:
summary(bd$occup) # Résumé d'une variable qualitative

##1.2. Autres fonctions pour indicateurs individuels

In [None]:
# Fonctions diverses permettant d'explorer les indicateurs de centralité et de dispersion pour variable quantitative
# Toujours ajouter na.rm=T en argument

median(bd$heures.tv, na.rm=TRUE)

In [None]:
mean(bd$heures.tv, na.rm=TRUE)

In [None]:
max(bd$heures.tv, na.rm=TRUE)

In [None]:
min(bd$heures.tv, na.rm=TRUE)

In [None]:
sum(bd$heures.tv, na.rm=TRUE)

In [None]:
range(bd$heures.tv, na.rm=TRUE)

In [None]:
var(bd$heures.tv, na.rm=TRUE)

In [None]:
sd(bd$heures.tv, na.rm=TRUE)

In [None]:
quantile(bd$heures.tv, na.rm=TRUE)

### Fonctions de normalité

In [None]:
skew(bd$heures.tv, na.rm=TRUE) # module psych

In [None]:
kurtosi(bd$heures.tv, na.rm=TRUE) # module psych

### Fonctions de transformation: normalité & rang

In [None]:
bd$age.log <- log(bd$age, base=10)     # Logarithme (, base=10)

In [None]:
bd$age.sqrt <- sqrt(bd$age)    # Racine carrée

In [None]:
bd$age.scale <- scale(bd$age, center = TRUE, scale = TRUE)    # Standardisation: centrage et réduction (Zscore)

##1.3. La très utile fonction apply()

In [None]:
# Pour appliquer une fonction sur plusieurs variables à la fois
apply(bd[ ,c("age", "heures.tv","freres.soeurs")], na.rm=TRUE, MARGIN=1, FUN=mean)

## c() indique les variables à utiliser dans le calcul
## MARGIN=2: calcul à travers les participants (ici moyenne de colonnes), =1 est à travers les rangées
## FUN=mean: la fonction à appliquer, pourrait être n'importe laquelle comme somme, variance...

##1.4. Table de fréquences

### Fonction table() - Tableaux d'effectifs 

In [None]:
table(bd$freres.soeurs)    # var numérique

In [None]:
tb.cat <- table(bd$qualif) # var quali (résultat pareil à summary())

## Exclu NA par défaut, sinon il faut utiliser l’argument useNA ="always" ou "ifany"
## On place la table dans un nouvel objet pour pouvoir lui appliquer d'autres opérations

### Autres fonctions pertinentes


In [None]:
prop.table(tb.cat) # Appliquée à une table pour transformer les valeurs en proportions

In [None]:
# Afficher en % et arrondir

round((prop.table(tb.cat))*100) 

In [None]:
# Fonction freq (module questionr)

freq(bd$qualif) # affiche les NA par défaut

In [None]:
# Fonction freq: nombreux arguments utiles possibles

freq(bd$qualif, cum = TRUE, total = TRUE, sort = "inc", digits = 0, exclude = NA)

## cum: afficher ou non les % cumulés
## total: ajouter les effectifs totaux
## sort: trier le tableau par fréquence croissante (sort="inc") ou décroissante (sort="dec")
## digits: arrondir
## exclude: exclure valeurs manquantes



---



#2. Statistiques descriptives bivariées

##2.1. Tableaux croisées

### Fonction table() et cie.
*   1er argument var en ligne (x), 2e var en colonne (y)

In [None]:
tb <-table(bd$trav.satis, bd$sexe) 

## pour un tableau à plus de deux niveaux, simplement ajouter une virgule puis variable additionnelle

In [None]:
tb # Tableau de distribution de la satisfaction au travail selon le sexe

In [None]:
# Ajouter les totaux des effectifs

addmargins(tb)    

In [None]:
# % Totaux 
prop(tb)       

In [None]:
# % Totaux

prop.table(tb, margin = 2)    

## margin = 1 pour proportion en rangées
## margin 2 = pour proportion en colonnes
## *100

In [None]:
# rprop et cprop de questionr pour %

cprop(tb, percent = TRUE)    # % en colonnes

## Argument percent pour afficher les %

In [None]:
rprop(tb, percent = TRUE, digits = 0)    # % en lignes

## Argument digits pour arrondir

###2.2. Comparer des groupes : by() et tapply() 

*   Les très pratiques fonctions by() et tapply() (variante de la fonction apply)
*   Permettent d'appliquer une fonction sur une variable quantitative (1er) selon les modalités d'une variable catégorielle (2iem)


In [None]:
by(bd$age, bd$sexe, mean, na.rm=TRUE)

In [None]:
tapply(bd$age, bd$sexe, mean, na.rm=TRUE)

In [None]:
tapply(bd$relig, bd$sexe, table) 

In [None]:
tapply(bd$relig, bd$sexe, freq)

###2.3. Fonction xtabs - Notation formule

* Repose sur l'utilisation de la notation formule qui définit les relations entre les variables : NomFonction(VD ~ VI).
* Puisque le tableau croisé n'attribue pas de rôle spécifique aux variables, on place les deux variables après le tilde: ~ x + y.
* On indique le nom du tableau après la virgule.

In [None]:
xtabs (~ sexe + occup, bd)



---

