# TP1 : suite de l'introduction

## IV. Statistiques et calcul matriciel
Le but de cet exercice est:

- De jouer avec les matrices,
- De savoir appliquer une fonction le long des colonnes / lignes d'une matrice,
- De jouer avec deux lois statistiques de base: la loi normale et exponentielle,
- De savoir dériver quelques statistiques de base d'un jeu de donnée.
- De manipuler quelques fonctions d'affichage de base

### IV.1 Création d'une jeu de donnée "climatique" idéalisé

Nous allons commencer par créer une fonction qui va générer notre jeu de donnée. Nous voulons créer une matrix `X` tel que:
- La première colonne suive une loi normale $\mathcal{N}(\mu = 0,\sigma^2=1)$ (similaire à des températures)
- La seconde colonne suive une loi exponentielle $\mathcal{E}(\lambda=2)$ (vaguement similaire à des précipitations).

À l'aide de la documentation des fonctions `base::matrix`, `stats::rnorm` (attention la loi normale attend l'écart type en paramètre) et `stats::rexp`, construire une fonction `generate_idealized_climate_data` qui prend en entrée un entier `n` (le nombre d'observations de notre jeu de donnée) et qui renvoie une matrix `X` avec les caractéristiques précédentes.


In [None]:
####################################
## Écrire votre réponse entre ici...

generate_idealized_climate_data = function( n )
{
	X = matrix( nrow = n , ncol = 2 )
	X[,1] = stats::rnorm( n , mean = 0 , sd = 1 )
	X[,2] = stats::rexp( n , rate = 2 )
	return(X)
}
	
	
## ... et la
####################################

***Question*** Générer un jeu de donnée `X` contenant 10000 observations, et utiliser la fonction `utils::head` pour afficher les premières lignes.

In [None]:
####################################
## Écrire votre réponse entre ici...

X = generate_idealized_climate_data(10000)

print(utils::head(X))

## ... et la
####################################

***Question*** Il est commode de donner des noms aux colonnes, utilisez la fonction `base::colnames` pour intituler la colonne contenant la loi normale `"T"` (comme température), et la colonne contenant la loi exponentielle `"Pr"` (comme précipitation).

In [None]:
####################################
## Écrire votre réponse entre ici...

base::colnames(X) = base::c( "T" , "Pr" )

print(utils::head(X))

## ... et la
####################################

### IV.2 Afficher les séries temporelles
#### IV.2.1 Selection de sous ensemble avec des matrices

***Questions*** Tester chacun des codes suivants pour en comprendre le fonctionnement (n'hésitez pas à prendre une matrice plus petite pour mieux comprendre):

- `X[3,2]`
- `X[,1]`
- `X[,2]`
- `X[-base::c(2,5),]`
- `X[12]`

Comment sont stockées les données pour une matrice ?

In [None]:
####################################
## Écrire votre réponse entre ici...

# X[3,2] : selectionne l'élément de la 3eme ligne / 2eme colonne
# X[,1] : selectionne la 1ere colonne
# X[,2] : selectionne la 2eme colonne
# X[-base::c(2,5),] : affiche X en en supprimant la 2eme et 5eme ligne
# X[12] : transforme la matrix en un vecteur 1d en "collant" les 2 colonnes et selection le 12 element


## ... et la
####################################

#### IV.2.2 Afficher les séries temporelles sur graphique

Quand on étudie un jeu de donnée, l'une des premières choses à faire est de l'afficher pour voir sa forme. Le but ici est d'afficher:

- La série qui suit une loi normale
- La série qui suit une loi exponentielle
- La structure de dépendance entre nos deux séries, i.e. la première colonne VS la deuxième colonne

La fonction qui permet d'afficher est la fonction `graphics::plot`.

***Question*** Lire la documentation de la fonction `graphics::plot` et afficher les 3 graphiques précédent. Utiliser de la couleur, et donner un nom aux axes.

In [None]:
##################################################################################################################
## Ce bout de code est spécifique à jupyter, il permet de controler la taille en "pixel" de la sortie graphique
## Il faudra le réutiliser avant chaque graphique
nrow = 1 ## Nombre de lignes de sous-graphique
ncol = 3 ## Nombre de colonnes de sous-graphique
base::options( repr.plot.width = 6 * ncol , repr.plot.height = 6 * nrow )
graphics::par( mfrow = base::c(nrow,ncol) ) ## On construit un graphique découpé en nrow * ncol fenêtres
##
##################################################################################################################

####################################
## Écrire votre réponse entre ici...

graphics::plot( X[,1] , col = "red" , xlab = "time" , ylab = "T" )
graphics::plot( X[,2] , col = "red" , xlab = "time" , ylab = "Pr" )
graphics::plot( X[,1] , X[,2] , col = "red" , xlab = "T" , ylab = "Pr" )


## ... et la
####################################

### IV.3 Quelques statistiques
***Question*** Pour avoir une première idée des caractéristiques de notre jeu de donnée, appelez la fonction `summary` sur la matrix `X`.

In [None]:
####################################
## Écrire votre réponse entre ici...

print(summary(X))

## ... et la
####################################

### IV.4 Retrouvons ces statistiques

Le but de cette section est de retrouver les statistiques renvoyées par la fonction `summary`.

***Question*** La moyenne est donné par la fonction `base::mean`. Utilisez cette fonction sur `X`. Quel est le problème ? Vous avez estimé la moyenne de quoi ?

In [None]:
####################################
## Écrire votre réponse entre ici...

print(base::mean(X)) ## Affiche la moyenne de tout, i.e. mélange T et Pr

## ... et la
####################################

Pour résoudre ce problème, nous voulons appliquer la fonction `base::mean` sur chaque colonne. Ceci peut être réalisé par la fonction `base::apply`. Elle prend les arguments suivants:

- `X` : la matrice le long de laquelle on veut appliquer la fonction `FUN`
- `MARGIN` : si on applique le long des lignes (1) ou des colonnes (2)
- `FUN` : la fonction à appliquer
- `...` : tout arguments supplémentaires à donner à `FUN`.

 ***Question*** Utilisez la fonction `base::apply` pour retrouver la moyenne de chaque colonne.

In [None]:
####################################
## Écrire votre réponse entre ici...

print( base::apply( X , 2 , base::mean ) )

## ... et la
####################################

***Question*** avec les fonctions `base::min`, `base::max`, `stats::quantile` et `stats::sd`, retrouver les minima, maxima, 1er et 3eme quartile, la médiane et l'écart type.

***Question bonus*** Sauriez vous le faire avec une boucle sur les fonctions ?

In [None]:
####################################
## Écrire votre réponse entre ici...

for( FUN in list(base::min,base::max,stats::sd,function(x) { stats::quantile(x,probs = base::c(0.25,0.75)) }) )
	print( base::apply( X , 2 , FUN ) )

## ... et la
####################################

### IV.5 Afficher un histogramme
***Objectif*** Afficher un histogramme de chaque colonne et la comparer à la densité de probabilité.

Utilisez les fonctions `graphics::hist`, `graphics::lines`, `stats::dnorm` et `stats::dexp` pour afficher cote à cote les histogrammes de chaque colonne et les densités correspondantes de chaque loi.

In [None]:
####################################
## Écrire votre réponse entre ici...

##################################################################################################################
## Ce bout de code est spécifique à jupyter, il permet de controler la taille en "pixel" de la sortie graphique
## Il faudra le réutiliser avant chaque graphique
nrow = 1 ## Nombre de lignes de sous-graphique
ncol = 2 ## Nombre de colonnes de sous-graphique
base::options( repr.plot.width = 6 * ncol , repr.plot.height = 6 * nrow )
graphics::par( mfrow = base::c(nrow,ncol) ) ## On construit un graphique découpé en nrow * ncol fenêtres
##
##################################################################################################################

ddist = list( dnorm , function(x) { dexp(x,rate=2) } )
for( i in 1:2 )
{
	x = base::seq( base::min(X[,i]) , base::max(X[,i]) , length = 50 )
	graphics::hist( X[,i] , breaks = x , col = grDevices::rgb(1,0,0,0.5) , freq = FALSE , main = base::colnames(X)[i] , xlab = base::colnames(X)[i] )
	graphics::lines( x , ddist[[i]](x) , col = "red" )
}


## ... et la
####################################

## V. Manipulation des dataframe
***Objectif*** Utiliser les dataframe pour étudier les températures et précipitations moyennes sur la France.

### V.1. Chargement des données

À l'aide de la fonction `read.csv`, charger le fichier EOBS_FR.csv dans une variable `data` tel que:
- Les deux colonnes contiennent la température et les précipitations,
- Les colonnes soient nommées,
- Les colonnes sont indexées par les dates,

Indices : lire la doc de la fonction `read.csv`, attention aux mot clés `header` et `row.names`.


In [None]:
####################################
## Écrire votre réponse entre ici...

data = read.csv( "data/EOBS_FR.csv" , row.names = 1 )

## ... et la
####################################

***Question*** Afficher un résumé des statistiques du jeu de données.

In [None]:
####################################
## Écrire votre réponse entre ici...

print(summary(data))

# ... et la
####################################

### V.2. Selection de sous ensemble

Executez le code suivant, et comprennez en le fonctionnement:

~~~
subset( data , format.Date( row.names(data) , "%m" ) %in% base::c("06","07","08") )
~~~


In [None]:
####################################
## Écrire votre réponse entre ici...

data_JJA = subset( data , format.Date( row.names(data) , "%m" ) %in% base::c("06","07","08") )
## Permet de récupérer uniquement les Juin/ Juillet / Aout

## ... et la
####################################

***Questions*** Affichez un résumé des statistiques pour chaque saison.

In [None]:
####################################
## Écrire votre réponse entre ici...

data_DJF = subset( data , format.Date( row.names(data) , "%m" ) %in% base::c("12","01","02") )
data_MAM = subset( data , format.Date( row.names(data) , "%m" ) %in% base::c("03","04","05") )
data_JJA = subset( data , format.Date( row.names(data) , "%m" ) %in% base::c("06","07","08") )
data_SON = subset( data , format.Date( row.names(data) , "%m" ) %in% base::c("09","10","11") )

print(summary(data_DJF))
print(summary(data_MAM))
print(summary(data_JJA))
print(summary(data_SON))


## ... et la
####################################

***Questions*** Sur un graphique (avec beaucoup de subplot), afficher les histogrammes des températures et précipitations pour chaque saison, ainsi que la température VS les précipitations. Commentez ces graphes

*Tips*: `for( df in list(...) )` vous permet de faire une boucle sur les éléments dans la `list`.

In [None]:
####################################
## Écrire votre réponse entre ici...

##################################################################################################################
## Ce bout de code est spécifique à jupyter, il permet de controler la taille en "pixel" de la sortie graphique
## Il faudra le réutiliser avant chaque graphique
nrow = 4 ## Nombre de lignes de sous-graphique
ncol = 3 ## Nombre de colonnes de sous-graphique
base::options( repr.plot.width = 6 * ncol , repr.plot.height = 6 * nrow )
graphics::par( mfrow = base::c(nrow,ncol) ) ## On construit un graphique découpé en nrow * ncol fenêtres
##
##################################################################################################################

for( df in list(data_DJF,data_MAM,data_JJA,data_SON) )
{
	x = base::seq( base::min(df[,1]) , base::max(df[,1]) , length = 80 )
	graphics::hist( df[,1] , breaks = x , col = grDevices::rgb(1,0,0,0.5) , xlab = "Tm" , freq = FALSE , main = "Histogram of Tm" )
	
	x = base::seq( base::min(df[,2]) , base::max(df[,2]) , length = 80 )
	graphics::hist( df[,2] , breaks = x , col = grDevices::rgb(1,0,0,0.5) , xlab = "Pr" , freq = FALSE , main = "Histogram of Pr" )
	
	graphics::plot( df[,1] , df[,2] , col = "red" , xlab = "Tm" , ylab = "Pr" )
}


## ... et la
####################################

### V.3 Quelques manipulations supplémentaires

En utilisant la fonction `subset`:
- Construire un dataframe ne contenant que les jours sans pluies (disons Pr < 0.1), nommée `data_sec`,
- Construire un dataframe contenant les jours très pluvieux (> 3eme quartile) avec une température d'au moins 20C, nommée `data_tropic`,
- Construire un dataframe contenant les jours sans pluies et avec des températures négatives, nommée `data_polair`,

Refaire les mêmes extractions sans la fonction `subset`.


In [None]:
####################################
## Écrire votre réponse entre ici...

## Avec la fonction subset
data_sec    = subset( data , data$Pr < 0.1 )
data_tropic = subset( data , data$Tm > 20 & data$Pr > stats::quantile(data$Pr,0.75) )
data_polair = subset( data , data$Tm < 0 & data$Pr < 0.1 )

## Sans la fonction subset
data_sec2    = data[data$Pr < 0.1,]
data_tropic2 = data[data$Tm > 20 & data$Pr > stats::quantile(data$Pr,0.75),]
data_polair  = data[data$Tm < 0 & data$Pr < 0.1,]

## ... et la
####################################