<center>
<a href="https://www.horizon-university.tn/" ><img src="logohoriz.png" style="float:left; max-width: 120px; display: inline" alt="HORIZON"/></a> 
</center>

# <a href="https://cran.r-project.org/"><img src="https://cran.r-project.org/Rlogo.svg" style="max-width: 40px; display: inline" alt="R"/></a> 

# Start <a href="https://cran.r-project.org/"><img src="https://cran.r-project.org/Rlogo.svg" style="max-width: 40px; display: inline" alt="R"/></a> pour statisticien

**Résumé** Ce tutoriel introduit le logiciel libre R, son environnement et décrit les premières commandes nécessaires au démarrage d'une utilisation de méthodes statistiques avec ce logiciel. Les notions d'estimation, de variabilité et de loi d'un estimateur sont illustrées par des simulations. Les autres tutoriels abordent des fonctionnalités plus complexes.
## Premières commandes
Entrer les lignes ci-dessous dans la fenêtre de RStudio ou cliquer pour exécuter la cellule.

In [None]:
# Ceci est un commentaire
2+2

In [None]:
sqrt(2)

In [None]:
a = exp(2)  # création d'une variable scalaire
b = a + pi 
b           # affichage de la valeur

In [None]:
# liste des variables
ls()

## Types de variables
La *principale difficulté* dans l'utilisation de R réside dans l'identification des types d'objets manipulés.

In [None]:
# Vecteur
x = 1:10  # définition d'une séquence
x

In [None]:
y = 2*x + 3
y[5] ; y[1:3] ; y[-3]  # composants d'un vecteur

In [None]:
# Matrice 
A = matrix(1:15,ncol=5); A
B = matrix(1:15,nc=5,byrow=TRUE) ; B
A[1,3] ; A[,2] ; A[2,] ; A[1:3,1:3] # composants

In [None]:
# Liste 
x=list(mat=A, texte="testliste",vec=y)
x[[2]] ; x$vec # composants

In [None]:
# Base de donnée ou data frame
# Tableau contenant des vecteurs de types 
# éventuellement différents
taille = c(147, 132, 156, 167, 156, 140) 
poids = c( 50, 46, 47, 62, 58, 45)
sexe = c("M","F","F","M","M","F")
H = data.frame(taille,poids,sexe)
H

In [None]:
summary(H)

In [None]:
plot(H$poids,H$taille)

D'autres fonctionnalités de R sont vues dans les différents scénarios proposées sur le site [Wikistat](http://wikistat.fr/).

## Variables et nombres aléatoires
Tout en complétant la connaissance de R, cette section propose d'illustrer, par des simulations, les propriétés des estimateurs élémentaires (moyenne, écart-type, histogramme. 
###Estimation
Générer *n* valeurs aléatoires d'une variable *Y* selon une loi normale de moyenne 80 et d'écart-type 5. Décrire sommairement cette série de valeurs. Associer les quantités calculées avec leur traduction en anglais *mean*, *median*, *standard error*, *standard déviation*, s*tandard error mean*.

In [None]:
n=10
Y=rnorm(n,80,5)  # génération
mean(Y)     # moyenne
sd(Y)       # écart-type

In [None]:
sd(Y)/sqrt(length(Y)) # écart-type de la moyenne

In [None]:
summary(Y)  # quartiles et moyenne

In [None]:
boxplot(Y)  # diagramme boîte

In [None]:
# histogramme de la densité
hist(Y, probability=T, col="blue")

In [None]:
# estimation par la méthode du noyau
hist(Y, probability=T, col="blue")
lines(density(Y), col="red", lwd=2)

In [None]:
# tracer la loi théorique
x=1:100
# Graphes
hist(Y, probability=T, col="blue")
lines(density(Y), col="red", lwd=2)
curve(dnorm(x,mean=80,sd=5),add=TRUE,col="green",lwd=2)

### Loi des grands nombres
Une moyenne et un écart-type sont la réalisation d'une variable aléatoire appelée *estimateur* ; ce sont des estimations.  
Refaire les calculs et graphiques en posant $n=10, n=1000, n=10000$ ; comparer les résultats obtenus, notamment les estimations des indicateurs par rapport aux valeurs théoriques. Etudier leur comportement en fonction de la  taille $n$ de l'échantillon.

In [None]:
n=100
# matrice de nombres aléatoires de 
# 10 colonnes et n lignes
Y=matrix(rnorm(n*10,80,5),n,10)
# moyenne de chaque colonne
apply(Y,2,mean) 

In [None]:
mean(apply(Y,2,mean)) # moyenne des moyennes

In [None]:
# écart-type de chaque colonne
apply(Y,2,sd)
mean(apply(Y,2,sd))   # moyenne des écarts-types

Faire varier *n=10, 100, 1000* et comparer les résultats obtenus.

### Théorème de la limite centrale
La simulation proposée illustre le résultat fondamental du théorème de la limite centrale : une somme de variables aléatoires indépendantes et de même loi converge vers une variable aléatoire de loi gaussienne.
Le programme ci-dessous exécute les opérations suivantes :

- initialisation par des *0* d'un vecteur de taille *n=1000µ,
- chaque valeur de ce vecteur est une variable aléatoire *X* obtenue par la somme de *N* variables suivant une loi uniforme sur l'intervalle *[0, 1]*, 
- estimation de la densité de *X*
- comparaison avec la loi théorique limite qui est la loi gaussienne de moyenne *N/2* et de variance *N/12*. 


In [None]:
n=1000
N=12
X=rep(0,n)  
# n itérations
for (i in 1 : n) X[i]=sum(runif(N))
# histogramme
hist(X, col="blue", probability=T) 
# estimation par méthode su noyau
lines(density(X), col="red", lwd=2) 
x=X
sigma2=N/12
curve(dnorm(x,mean=N/2,sd=sqrt(sigma2)),add=T, col="green", lwd=2) 

Faire varier *N=4, 8, 12, 20$. Remarquer que la convergence est très rapide. Ceci "justifie" la pratique qui revient à considérer que la loi d'un estimateur est gaussienne lorsque *n* est "suffisamment" grand avec *n>30*.