# Exercice d'échantillonage

Cet exercice a comme but d'illustrer le calcul de la moyenne et de l'écart-type pour une population respectivement un échantillon de cette population. Pour l'échantillon, nous calculons également les intervalles de confiance pour la moyenne et l'écart-type.

## Préparation des données

Pour cet exercice, nous allons calculer la proportion de la population âgée moins de 20 ans pour l'ensemble des 1365 régions Z05 suisses. Le fichier d'origine se trouve dans `data/demo.xlsx`. Nous avons converti ce fichier en format TSV (_Tab-Separated Values_) que nous utilisons pour lire les données avec R:

In [1]:
d = read.csv(file="demo.tsv", sep="\t")

et calculer la proportion des moins de 20 ans:

In [2]:
d$jeunes = (d$P0004M + d$P0004F + d$P0509M + d$P0509F + d$P1014M + d$P1014F + d$P1519M + d$P1519F) / (d$PTOT)

Nous pouvons afficher quelques valeurs de statistique descriptive pour cette nouvelle variable:

In [3]:
summary(d$jeunes)

   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
0.07416 0.18890 0.21150 0.21020 0.23280 0.33100 

ainsi que le nombre d'unités spatiales:

In [4]:
length(d$jeunes)

Pour cet exercice, nous faisons une sélection aléatoire de 100 unités spatiales:

In [5]:
de = d[sample(1:nrow(d), 100, replace=FALSE),]

_(il n'est pas nécessaire de comprendre comment cette sélection fonctionne exactement au niveau du code; généralement on ne procède pas de cette façon étant donné qu'on ne travaille pas sur un échantillon si on a toutes les données à disposition)_

## Moyenne et écart-type

Voici la moyenne de la proportion de jeunes sur la base de notre échantillon (les valeurs varient d'une fois à l'autre puisqu'il s'agit d'un échantillon aléatoire):

In [6]:
mean(de$jeunes)

à comparer avec la moyenne sur l'ensemble de la population:

In [7]:
mean(d$jeunes)

L'écart-type de notre échantillon de 100 unités spatiales peut être calculé très simplement dans R:

In [8]:
sd(de$jeunes)

tandis que l'écart-type sur l'ensemble de la population doit être calculé manuellement:

In [9]:
sqrt(mean(d$jeunes^2) - mean(d$jeunes)^2)

En effet, R utilise dans la fonction `sd` (standard deviation = écart-type) la formule pour l'écart-type d'un échantillon.

## Intervalle de confiance

En plus de l'estimation de la moyenne de la proportion des jeunes sur la base de notre échantillon, nous pouvons estimer l'intervalle dans lequel la _vraie valeur_ se trouve avec une certaine probabilité.

Nous supposons ici que la variable de la proportion des jeunes suit une loi normale (respectivement une loi de Student). Ainsi, l'intervalle de confiance pour une probabilité de 95% peut être calculée comme suit:

In [10]:
m = mean(de$jeunes)
s = sd(de$jeunes)
n = length(de$jeunes)
erreur = qt(0.975, df=n-1) * s / sqrt(n)
left = m - erreur
right = m + erreur

Et pour afficher l'intervalle, y compris la moyenne:

In [11]:
c(left, m, right)

La _moyenne de la population_ pour la proportion de jeunes dans les régions Z05 en Suisse se situe donc avec une probabilité de 95% dans l'intervalle 19.58% à 20.97%. (P.S. Les valeurs exactes peuvent varier d'une fois à l'autre en fonction de l'échantillon aléatoire.)

Dans notre cas spécial, nous connaissons en fait la vraie valeur de la population, qui est de 21.01%, et donc un peu en dehors de l'intervalle (ce qui arrive en moyenne 1 fois sur 20).

On peut aussi calculer l'intervalle avec une probabilté de 99%:

In [12]:
erreur = qt(0.995, df=n-1) * s / sqrt(n)
left = m - erreur
right = m + erreur
c(left, m, right)

et l'intervalle est dans ce cas de 19.35% à 21.20%. Et la vraie valeur de 21.01% se situe du coup à l'intérieur de cette intervalle.