# Introduction à R

Ceci est un notebook. Le notebook est un document interactif, qui permet de mélanger du texte et des lignes de code (ici du code R). Il est possible d'exécuter le code, de le modifier, et d'ajouter (ou de supprimer) des cellules de code ou de commentaire. Vous avez la possibilité d'enregistrer les modifications par le bouton correspondant dans la barre à outils en haut.

Dans la cellule de code suivante, vous voyez des instructions en R. Pour les exécuter, il faut d'abord cliquer dans la cellule pour la sélectionner, puis appuyer sur la flèche vers la droite dans la barre à outils ou taper ctrl+Enter.

In [1]:
x <- 17
x
y <- x + 3
y

Vous voyez que R exécute les instructions et que les résultats s'affichent juste en-dessous de la cellule. 

Les variables **x** et **y** sont désormais définies et connues de R. Dans la suite, vous pouvez les utiliser et travailler avec. Autrement dit, les notebooks sont un moyen pour exécuter du code progressivement. (Bien sûr, il est aussi possible d'exécuter les instructions d'un script R  au fur et à mesure, mais c'est plus joli dans un notebook.)

Maintenant, c'est à vous. Dans la cellule suivante, calculez le carré de **y** et exécutez l'instruction.

Au fur et à mesure que vous exécutez des cellules de code, vous voyez apparaître des numéros entre crochets à gauche de la cellule. Ces numéros vous aident à garder une trace de l'ordre dans lequel vous exécutez les cellules. Juste pour voir, revenez à la première cellule de code et modifiez la valeur de **y**. Puis, réexécutez la cellule. Cela change la sortie de la première cellule, mais pas de la deuxième (alors que la valeur de **y** a changé). Les numéros entre chrochets vous permettent donc de vous répérer plus facilement.

Parfois, quand on vient d'exécuter plein de cellules, on perd un peu le contrôle, et on ne sait plus quelles sont les valeurs actuelles des différentes variables. Dans ce cas, il vaut mieux reprendre à zéro. Pour cela, sélectionnez **Kernel** en haut de la page et choisissez **Restart**. Vous pouvez observer que tous les numéros entre crochets disparaissent ainsi que toutes les sorties en-dessous des cellules de code. Un **Restart** du **Kernel** revient alors à supprimer tous les objets créés.

Vous pouvez modifier un notebook comme bon vous semble. Par exemple, pour ajouter une cellule, cliquez sur le symbole **+** dans la barre à outils. Cela crée une nouvelle cellule juste en-dessous de la dernière cellule sélectionnée. Par défaut, il s'agit d'une cellule de code dans laquelle vous pouvez écrire des instructions en R. Si la nouvelle cellule doit contenir du texte, il suffit de modifier son type par le menu déroulant en changeant **Code** en **Markdown**. Le **Markdown** permet d'écrire du texte, le formatage est très simple. Si cela vous intéresse, double-cliquez sur les cellules de type **Markdown** dans ce notebook pour voir comment ajouter un titre, mettre du texte **en gras** ou *en italique*, créer une liste etc. N'oubliez pas qu'il faut aussi exécuter les cellules **Markdown**.

# Les vecteurs

Nous avons déjà vu comment définir une variable qui stocke une valeur numérique. En statistique, on aura plutôt besoin de **vecteurs** de valeurs numériques. On peut en créer par la fonction **c( )** (**c** comme *concaténer*):

In [2]:
vec1 <- c(5,8,3)
vec1

On peut également  concaténer des vecteurs :

In [3]:
vec2 <- c(vec1,0,vec1)
vec2

Voici quelques exemples de calcul avec des vecteurs :

In [4]:
vec1+2

In [5]:
5*vec1

In [6]:
vec1+vec1

In [7]:
vec1*vec1

In [8]:
vec1^2

Vous constatez que c'est très simple. Mais attention aux dimensions des vecteurs :

In [9]:
vec1+vec2

"la taille d'un objet plus long n'est pas multiple de la taille d'un objet plus court"

Vous constatez que malgré le message d'erreur (prenez l'habitude de les lire !), R produit un résultat. Ici, R répète le vecteur **vec1** deux fois afin de créer un vecteur de la taille du vecteur **vec2**. C'est une technique courante de R lorsque les dimensions ne correspondent pas : répéter l'objet le plus petit jusqu'à ce que le calcul souhaité fasse sens. (Mais assurez-vous que ça correspond bien au calcul que vous souhaitez faire !).




## Fonctions mathématiques pour les vecteurs

En R il existe un grand nombre de fonctions mathématiques prédéfinies et très utiles en pratique.
Voici une liste de fonctions pour vecteurs :
 - **sum**
 - **prod**
 - **length**
 - **min**
 - **max**
 - **which.min**
 - **which.max**
 - **sort**
 - **order**
 - **mean**
 - **var**
 - **sd**
 - **median**

### Entraînement 1

Essayez de comprendre chacune des fonctions ci-dessus. Pour cela, créez une nouvelle cellule, définissez quelques vecteurs jouets, appliquez les fonctions ci-dessus et essayez de comprendre la sortie.  Si vous n'arrivez pas à comprendre une fonction, consultez l'aide en utilisant la fonction **help()** ou la commande **?** suivi du nom de la fonction qui vous intéresse. 

# Le type des données

R n'est pas limité à des variables de type numérique. L'instruction **typeof(x)** permet de connaître le type ou mode de l'objet  **x**. Énumérons maintenant les principaux types de données.

## Type numérique (*numeric*)

Parmi les objets de type numérique, on distingue deux types : les entiers (*integer*) et les réels (*real* ou *double*). Définissons deux variables et vérifions leur type :



In [10]:
var.a <- 1.7
typeof(var.a)

In [11]:
var.b <- -3
typeof(var.b)

Les variables **var.a** et **var.b** sont de type *double*.
Afin d'obtenir une variable de type *integer*, il faut forcer le type en utilisant la fonction **as.integer**.
 L'intérêt du type *integer* est que
son stockage prend moins de place en mémoire. 

In [12]:
var.c <- as.integer(var.b)
typeof(var.c)


## Type booléen ou logique (*logical*)
R sait répondre à certaines questions simples, pas avec "oui" ou "non", mais avec **TRUE** ou **FALSE**.
Voici quelques exemples :

Tester l'égalité entre les valeurs de var.a et var.b


In [13]:
var.a==var.b 

Tester si var.a est plus grand que var.b

In [14]:
var.a>var.b 

Ces réponses sont des objets de type logique.
Le type logique ne peut prendre que les valeurs
**TRUE** et **FALSE** (il n'y a pas de valeur du genre "je ne sais pas" ou "peut-être"). 
On appelle les questions des exemples ci-dessus des *conditions logiques*, car le résultat  est de type logique.

De même, le résultat renvoyé par des fonctions qui testent le type d'un objet  **x** (commençant par **is.**) est de type logique :

In [15]:
is.numeric(var.b)

In [16]:
is.integer(var.b)

In [17]:
var.x <- FALSE
is.logical(var.x)

**TRUE** et **FALSE** peuvent être saisis de manière plus succincte en tapant
respectivement  **T** et  **F**.

Lorsque cela se révèle nécessaire, ce type de données est naturellement
converti en type numérique sans qu'il y ait à le spécifier : **TRUE** vaut 1 et
**FALSE** vaut 0. Cela est illustré par les exemples suivants.

In [18]:
TRUE + FALSE

In [19]:
TRUE/2 - var.b

In [20]:
(TRUE + T)^2 + FALSE*F + T*FALSE + F

## Type chaînes de caractères (*character*)
Toute information mise entre guillemets (simple **'** ou double **"**) correspond
à une chaîne de caractères :

In [21]:
string1 <- "I love maths"
string1

In [22]:
typeof(string1)

In [23]:
string2 <- 'Moi aussi !'
string2

In [24]:
is.character(string2)

## Conversion de type
Les conversions de type sont possibles grâce aux fonctions commençant par **as.**

Il faut cependant être prudent quant à la signification de ces conversions.  R retourne toujours un résultat à une instruction de conversion même si cette dernière n'a pas de sens.   Voici quelques exemples :

Conversion vers une chaîne de caractères

In [25]:
as.character(2.3) 

Conversion depuis une chaîne de caractères

In [26]:
string3 <- "2.3"
as.numeric(string3) 

Conversion depuis une chaîne de caractères

In [27]:
as.integer(string3)

Conversion impossible

In [28]:
as.integer(string1)

"NAs introduits lors de la conversion automatique"

# Structure des données
 R offre la possibilité d'organiser les différents types de données définies précédemment. En statistique nous travaillons beaucoup avec des vecteurs et des tableaux (dataframes) présentés ici. Les listes seront traitées ultérieurement.

## Les vecteurs

Cette structure de données est la plus simple. Elle représente une **suite de
données de même type**. Nous avons déjà vu les vecteurs de type numérique, mais il y a également des vecteurs de type logique ou de type chaîne de caractères :

In [29]:
vec.num <- c(1,4,9,2,0)
vec.num

In [30]:
vec.char <- c("R","c'est","trop","facile","!")
vec.char

Un vecteur de type logique peut être obtenu par une condition logique appliquée à un ou plusieurs vecteurs (de type numérique ou chaîne  de caractère). Exemple :

In [31]:
vec.logique <- (vec.num>=4)
vec.logique

Dans cet exemple  les éléments du vecteur **vec.num** sont comparés un à un à la valeur 4 et le résultat est reporté dans le vecteur **vec.logique**.

Dans l'exemple suivant, une comparaison élément par élément de deux vecteurs est effectuée :

In [32]:
vec.char2 <- c("R","c'est pas","mon","truc","!")
vec.char2
vec.logique2 <- (vec.char == vec.char2)
vec.logique2

### Conversion automatique 

Par définition, tous les éléments d'un vecteur sont de même type.
Lorsqu'on 
mélange des données de  types différents lors de la création d'un vecteur, R se charge d'opérer
une conversion implicite vers le type de données le plus général comme vous
pouvez le constater dans les exemples ci-dessous.

In [33]:
c(3,TRUE,7)

In [34]:
c(3,T,"7")

## Suites régulières

On peut  créer des vecteurs particuliers grâce à des suites régulières.  


### Entraînement 2
Exécutez les commandes suivantes et utilisez l'aide afin de comprendre 
- l'utilisation des  deux-points **:** , 
- la fonction **seq** et ses arguments **length** et **by**,
- la fonction **rep** et ses arguments **times** et **each**.

In [35]:
2:5

In [36]:
.5:4

In [37]:
12:-4

In [38]:
seq(2,6)

In [39]:
seq(2,6,by=.2)

In [40]:
seq(2,6,length=4)

In [41]:
rep(1,5)

In [42]:
rep(1:3,times=4)

In [43]:
rep(1:3,each=4)

## Les tableaux (*dataframe*)

*Attention : Pour que les commandes de cette partie s'exécutent correctement, il faut enregistrer les fichiers **monfichier.txt**, **monfichier2.txt** et **monfichier3.txt** dans le même dossier où ce notebook est enregistré.*

Le tableau ou *dataframe* est l'objet de référence en statistique, car il permet de gérer les observations de plusieurs variables sur une collection d'individus.
Conceptuellement, c'est une
matrice dont les lignes correspondent aux individus et les colonnes aux variables
(ou caractères) mesurées sur ces derniers.
 Chaque colonne représente une
variable particulière dont tous les éléments sont du même type, mais chaque colonne peut avoir un type différent. 


On peut créer un tableau de données en utilisant la fonction **data.frame**, mais le plus souvent on obtient un tableau comme résultat d'une importation de données.
En pratique, les données d'une expérience statistique sont généralement enregistrées dans un fichier ASCII (fichier *.txt*)  sous forme de tableau en utilisant un logiciel comme Excel.
  R permet de lire des fichiers externes pour les analyser par la suite. 
  
Considérons le fichier **monfichier.txt** qui contient le   tableau de données suivant :

La fonction **read.table** permet de lire et d'importer sous R les données. Si  le fichier *monfichier.txt* est  enregistré dans le répertoire de travail, l'importation des données sous  R se fait par l'instruction

In [44]:
MesDonnees <- read.table(file= "monfichier.txt")

Il est indispensable de mettre le nom du fichier entre guillemets " (ou entre apostrophes ') pour indiquer à  R  qu'il s'agit d'une chaîne de caractères. 

Désormais le tableau de données est disponible sous R dans l'objet nommé **MesDonnees**.




In [45]:
MesDonnees

V1,V2,V3,V4,V5,V6,V7,V8
1,33,170,70,1,0,0.52,occas
2,33,177,67,2,0,0.42,occas
2,53,164,63,1,0,0.65,non
2,42,169,76,1,1,0.48,occas
2,53,152,54,0,0,0.45,occas


**V1,...,V8** sont les noms des colonnes par défaut :

In [46]:
names(MesDonnees)

On peut les modifier par l'instruction suivante :

In [47]:
names(MesDonnees) <- c('sexe', 'age', 'taille', 'poids', 'tabac','sport', 'mesure', 'alcool')
MesDonnees

sexe,age,taille,poids,tabac,sport,mesure,alcool
1,33,170,70,1,0,0.52,occas
2,33,177,67,2,0,0.42,occas
2,53,164,63,1,0,0.65,non
2,42,169,76,1,1,0.48,occas
2,53,152,54,0,0,0.45,occas



Mais tous les tableaux de données n'ont pas la forme du tableau ci-dessus.  Plusieurs options permettent de paramétrer précisément l'importation de données afin de pouvoir gérer différents formats de tableaux. 

Souvent la première ligne indique les noms des colonnes comme dans le tableau suivant :



Pour importer ce tableau (enregistré dans le répertoire de travail sous le nom *monfichier2.txt*), on rajoute l'option **header=TRUE** :

In [48]:
MesDonnees2 <- read.table(file= "monfichier2.txt", header=TRUE)
MesDonnees2

ï..sexe,age,taille,poids,tabac,sport,mesure,alcool
1,33,170,70,1,0,0.52,occas
2,33,177,67,2,0,0.42,occas
2,53,164,63,1,0,0.65,non


Le contenu de la première ligne n'est alors  pas considéré comme des valeurs de mesure, mais comme des noms de variables.

Dans l'exemple précédent, les différentes valeurs sont séparées par la tabulation (**\t**), mais d'autres caractères peuvent être utilisés comme *séparateur*  afin de pouvoir  distinguer les valeurs entre elles. Voici par exemple le tableau du fichier *monfichier3.txt* :



On indique le séparateur (ici **;**) au logiciel avec  l'option **sep =";"** :

In [49]:
MesDonnees3 <- read.table(file= "monfichier3.txt", header=TRUE, sep =";")
MesDonnees3

ï..SEXE,AGE,taille,poids,tabac,SPORT,mesure,alcool
1,33,170,70,1,0,0.52,occas
2,33,177,67,2,0,0.42,occas
2,53,164,63,1,0,0.65,non


En toute  généralité, pour l'importation des données, il est primordial de commencer par ouvrir et  regarder le fichier texte de départ afin de bien déterminer les options nécessaires pour que l'importation sous  R se fasse correctement.


### Entraînement 3
On considère un tableau de données qui  renseigne quelques caractéristiques de cathédrales anglaises. Plus précisément, le tableau contient le nom de la cathédrale, son style  d'architecture (gothique ou romane) et   les dimensions de celle-ci (en pied).
- Ouvrez RStudio et changez le répertoire de travail.
- Rendez-vous sur Moodle, téléchargez le tableau *cathedral.txt* et enregistrez-le dans votre répertoire de travail. 
- Afin d'importer le tableau sous R, ouvrez d'abord le fichier *cathedral.txt* pour déterminer les options de la fonction **read.table( )** (notamment  *header*  et *sep*). 
- Retournez dans RStudio et  importez les données sous forme d'un dataframe, que vous nommez  **cath**.
-  Pour vous familiariser avec le tableau de données, 
    * utiliser la fonction  **class( )** pour vérifier le type de l'objet  **cath**,
    * utilisez les fonctions  **nrow( )**, **ncol( )** ou **dim( )** pour connaître le nombre de variables  et le nombre de cathédrales de ce  jeu de données,
    * utilisez  la fonction **names( )** pour connaitre les  noms des variables
    
## Manipulation d'un dataframe

Afin d'illustrer certaines commandes pour les dataframes, nous chargeons par la commande suivante le jeu de données **ToothGrowth** (disponible dans la librairie datasets) :

In [50]:
library(datasets)
head(ToothGrowth)

len,supp,dose
4.2,VC,0.5
11.5,VC,0.5
7.3,VC,0.5
5.8,VC,0.5
6.4,VC,0.5
10.0,VC,0.5


La fonction **head()** permet d'afficher les 5 premières lignes d'un dataframe (c'est pratique notamment quand le tableau est très grand).


Ce jeu de données est le résultat d'une étude sur l'impact de la vitamine C sur la croissance des dents. Dans le cadre de cette étude, 60 cochons ont reçu des doses variées de vitamine C (0.5, 1 ou 2 mg/jour), soit sous forme de jus d'orange (**OJ**), soit sous forme d'acide ascorbique (**VC**). À la fin de l'étude, la longueur des dents des cochons a été mesurée.


L'accès aux variables (colonnes) d'un tableau se fait avec le symbole $ et le nom de la variable :




In [51]:
ToothGrowth$len

Notez que  **ToothGrowth\$len** est un objet de type vecteur.

Pour accéder à une colonne, on peut aussi utiliser la commande suivante à l'aide des crochets. Par exemple, 

In [52]:
ToothGrowth[,1]

**Attention !** Cette commande n'est pas très intéressante pour accéder à une colonne, il est plus pratique d'utiliser le symbole $ et le nom de la variable. Elle est intéressante pour accéder à plusieurs colonnes en même temps ou supprimer une colonne

In [53]:
ToothGrowth[,1:2]
ToothGrowth[,-1]

len,supp
4.2,VC
11.5,VC
7.3,VC
5.8,VC
6.4,VC
10.0,VC
11.2,VC
11.2,VC
5.2,VC
7.0,VC


supp,dose
VC,0.5
VC,0.5
VC,0.5
VC,0.5
VC,0.5
VC,0.5
VC,0.5
VC,0.5
VC,0.5
VC,0.5


L'accès aux lignes se fait avec les crochets :

In [54]:
ToothGrowth[1:3,]

len,supp,dose
4.2,VC,0.5
11.5,VC,0.5
7.3,VC,0.5


On peut également afficher certaines lignes et certaines colonnes.

In [55]:
ToothGrowth[9:12,c(1,3)]

Unnamed: 0,len,dose
9,5.2,0.5
10,7.0,0.5
11,16.5,1.0
12,16.5,1.0


Comme pour les colonnes on peut également supprimer des lignes en utilisant le signe moins.
En indexant avec un vecteur de type logique, on peut également sélectionner des parties d'un tableau :

In [56]:
vec_TFF <- rep(c(TRUE,FALSE,FALSE),times=20)
ToothGrowth[vec_TFF,1]

Pour connaître le nombre de cochons traités au jus d'orange, on crée d'abord un vecteur logique qui vaut **TRUE** si et seulement si l'élément correspondant de la deuxième colonne (variable **supp**) est égal à **OJ**, et ensuite on calcule la somme de ce vecteur logique qui correspond au nombre de cochons traités au jus d'orange :

In [57]:
vec_logiq_OJ <- ToothGrowth$supp=='OJ'
print(vec_logiq_OJ)
sum(vec_logiq_OJ)

 [1] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[13] FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE FALSE
[25] FALSE FALSE FALSE FALSE FALSE FALSE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[37]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE
[49]  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE  TRUE


Afin de rajouter une nouvelle variable à un tableau existant, on fait comme si cette colonne existait et on lui affecte des valeurs :

In [58]:
ToothGrowth$nouv_var <- vec_TFF
head(ToothGrowth)
typeof(ToothGrowth$nouv_var)

len,supp,dose,nouv_var
4.2,VC,0.5,True
11.5,VC,0.5,False
7.3,VC,0.5,False
5.8,VC,0.5,True
6.4,VC,0.5,False
10.0,VC,0.5,False


# Générer des pseudo-variables aléatoires

En R il existe des fonctions qui génèrent des réalisations de variables aléatoires d'une loi donnée. Par exemple, la commande suivante génère 10 réalisations de la loi uniforme $U[0,1]$:

In [59]:
runif(10)

Exécutez la commande de nouveau et constatez que les valeurs changent ! En fait, la fonction **runif( )** est un générateur de *pseudo-variables aléatoires*. On dit *pseudo*, parce qu'on a l'impression que ce sont des  réalisations d'une vraie variable aléatoire. (C'est tout un champ de recherche de fabriquer des générateurs de pseudo-variables aléatoires (c'est-à-dire des algorithmes) qui imitent au mieux le vrai aléa.)

De même, il existe un générateur de (pseudo-)réalisations de la loi normale standard :

In [60]:
rnorm(5)

Vous avez constaté que l'argument des fonctions **runif** et **rnorm** est le nombre de réalisations souhaité.

Pour générer des réalisations de la loi normale $\mathcal N(\mu,\sigma^2)$ de moyenne $\mu$ et de variance $\sigma^2$, on utilise toujours la fonction **rnorm( )** avec deux arguments supplémentaires pour indiquer les valeurs souhaitées des paramètres de la loi normale. Notez qu'en R   ce sont les valeurs de la moyenne $\mu$ et de l'**écart-type** $\sigma$ (et non de la variance $\sigma^2$) qu'il faut passer à la fonction **rnorm( )**. Ainsi, on obtient $20$ réalisations de la loi normale $\mathcal N(-5,2)$ par les instructions :

In [61]:
n <- 20
mu <- -5
sig <- sqrt(2)
rnorm(n,mu,sig)

# Exercices


Pour les exercices, il est préférable d'écrire toutes vos commandes dans un script R. Pour le faire proprement, il y a quelques petites démarches préparatives à faire.

- Tout d'abord,  créez un nouveau dossier (nommé, par exemple, *TPstatistique*) dans lequel vous allez enregistrer tous les fichiers associés à ce cours. 
- Ensuite, changez le  répertoire de travail pour ce nouveau dossier. Pour cela, cliquez dans RStudio sur *Session* $\rightarrow$ *Set Working Directory*  $\rightarrow$ *Choose Directory* et puis sélectionnez votre dossier  *TPstatistique*.
- Ouvrez un nouveau script: *File* $\rightarrow$ *New File* $\rightarrow$ *R Script*
- Ecrivez en première ligne du script un commentaire du genre *'# Exercice 3 du TP 1'*. Rappel: tout commentaire commence par le symbole #, et c'est du texte qui ne sera pas interprété par R lors de l'exécution de cette ligne.
- Enfin, cliquez sur le bouton dans la barre à outils pour enregistrer le script dans votre dossier *TPstatistique*. Choisissez un nom de fichier à peu près intelligent, comme p. ex. *exo_TP_1*.



## Exercice 1
Pour  les données des cathédrales :
- Combien de cathédrales sont de style roman ?
- Affichez les noms de toutes les cathédrales romanes.
- Les dimensions des cathédrales dans le tableau sont renseignées en pied. Sachant qu'un pied correspond à 0,3048 mètres, transformez les dimensions en mètres.
- Quelle est la longueur moyenne des cathédrales ? Et la longueur moyenne des cathédrales romanes ?
- Affichez toutes les cathédrales dont la nef est plus haute que 22 mètres.
- Ajoutez au tableau une colonne avec le rapport longueur/hauteur.
- Appliquez la fonction **summary** au tableau et observez la sortie.



## Exercice 2

La moyenne empirique est un estimateur de la moyenne. Vérifions empiriquement la qualité de cet estimateur par des simulations.

- Considérons la loi normale $\mathcal N(10,1)$. Générez un échantillon de taille 20 et calculez la moyenne empirique et la variance empirique associées. Comparez le résultat à la moyenne et à la variance théoriques. Répétez plusieurs fois les mêmes instructions afin de vérifier si la valeur de la moyenne empirique est à peu près stable sur des échantillons différents.
- Faites la même chose pour la loi normale $\mathcal N(10,10)$ et des échantillons de taille $20$. Qu'observez vous ?




## Exercice 3
Soient $X_1,X_2,\dots$ des variables aléatoires indépendantes de loi normale standard. Posons $Y_k = \sum_{i=1}^kX_i^2$.
Souvenez-vous que la loi de $Y_k$ est la loi du khi-deux $\chi^2_k$ à $k$ degrés de liberté.

D'après le théorème central limite, on a
$$\sqrt{\frac k2}\left(\frac1k \sum_{i=1}^kX_i^2 -1\right)=
\frac1{\sqrt{ 2k}} (Y_k-k) \stackrel{\mathcal L}{\longrightarrow}\mathcal N(0,1),\qquad k\to\infty.$$
On en déduit que la loi de $Y_k$ est approximativement la loi normale $\mathcal N(k,2k)$ pour $k$ suffisamment grand :
$$\chi^2_k\approx\mathcal N(k,2k).$$

 Le but de cet exercice est de vérifier empiriquement à partir de quelle valeur de $k$ cette approximation est bonne. Plus précisément, nous allons comparer la moyenne et la variance de la loi de $Y_k$ aux valeurs théoriques correspondantes de la loi normale  $\mathcal N(k,2k)$. 

En R on génère $n$ réalisations de la loi du khi-deux $\chi^2_d$ à $d$ degrés de liberté par la commande **rchisq(n,d)**.

- Pour chaque $k$ dans $\{1, 10, 100,1000\},$ générez un échantillon de taille $1000$ de la loi $\chi^2_k$, et comparez la moyenne empirique associée  à la  moyenne de la loi normale $\mathcal N(k,2k)$. Commentez.
- Même question pour la variance empirique $s_{\mathbf x}^2$:  pour chaque $k$ dans $\{1, 10, 100,1000\},$ générez un échantillon de taille $1000$ de la loi $\chi^2_k$, et comparez la variance empirique associée  à la variance de la loi normale $\mathcal N(k,2k)$. Commentez.
- Ajoutez un commentaire dans votre script avec un résumé de vos conclusions.
