# INTRODUCTION

*Note : cette introduction et les exercices suivants s'inspirent des Tutoriels de Simon Ejdemyr, disponible (en anglais) ici: https://sejdemyr.github.io/r-tutorials/statistics/. *

Pourquoi utiliser R ? Parce que c'est un outil puissant et gratuit d'analyse de données. Parce que cela vous servira pour toute demande d'analyse de données - même si on ne vous fournit pas d'accès au logiciel. Parce que cela ressemble à Python et que c'est le futur. Parce que vous serez encore plus à l'aise si vous choisissez ensuite le master 2 Fintech. 

# 1. Structure des données dans R. 

Il existe 4 types d'objets: scalaires, caractères (strings), vecteurs, dataframes (données). 

Pour créer des objets on utilise l'opérateur de création: $<-$

### 1.1 Scalaires

In [None]:
#création du scalaire nommé a
a <- 9

In [None]:
#pour le voir 
a

In [None]:
#de même on crée b
b <- a+1
b

In [None]:
#on peut écraser b en le redéfinissant
b<-b-a


In [None]:
#que contient alors b?
#réponse: 
b

### 1.2 Strings (caractères)

In [None]:
#création d'un objet 'caractères'
c <- "Hello world"
#pour le voir: 
c

In [None]:
#connaître le type (class) d'un objet:
class(c)
class(a)

### 1.3 Vecteurs

In [None]:
#création d'un vecteur v
v <- c(1, 2, 3, 4)
#le voir
v
#obtenir des informations
class(v)
length(v)
mean(v)

In [None]:
#on peut utiliser des scalaires pour former des vecteurs
v <- c(b, 2, a) 
v

In [None]:
#aussi des caractères
v_string <- c("cat", "dog")
v_string

In [None]:
#extraire un élément d'un vecteur peut être très utile
#par exemple pour extraire le second élément de v_string:
v_string[2]


In [None]:
#et le sauver
n2<-v_string[2]
n2

### 1.4 Data frames

Les 'data frames' sont très utiles. Il faut les comprendre comme des bases de données dans lesquelles chaque colonne représnete une variable et chaque ligen représente une unité d'observation. 

On peut créer un data frame, mais le plus souvent on travaillera sur un dataframe existant qu'on ouvrira avec R. 

Commençons par créer un data frame avec les noms des patients d'un hôpital, leur taille en centimètres, et le nombre de jours passés à l'hôpital.

In [None]:
#création du data frame ou base de données
nom <- c("Matthieu", "Sonia", "Bilel", "Sasha", "Ingrid")
taille <- c(176, 175, 167, 154, 170)
jours <- c(2, 4, 5, 1, 1)
df_patients <- data.frame(nom, taille, jours)   #piecing vectors together

In [None]:
#on peut voir la base de données:
df_patients

Voici la base avec trois vecteurs: un vecteur contenant des caractères (qualitatif), deux vecteurs contenant des scalaires (quantitatifs). Chaque colonne est une variable et chaque ligne une observation individuelle. 

On peut créer le dataframe directement sans passer par la création séparée de chaque vecteur:

In [None]:
df_patients <- data.frame(nom = c("Matthieu", "Sonia", "Bilel", "Sasha", "Ingrid"), 
                          taille = c(176, 175, 167, 154, 170), 
                          jours = c(2, 4, 5, 1, 1))
df_patients

On peut faire différentes opérations, que l'on va lister ci-dessous.

In [None]:
#connaître la taille d'un data frame: 
dim(df_patients)

In [None]:
#créer une variable, par exemple si le patient est allergique aux antibiotiques:
df_patients$allergie<-c(0,0,0,0,1)
df_patients

In [None]:
#extraire et sauvegarder un élément d'un data frame, par exemple le nombre de nuits d'hôpital de Sonia:
df_patients[2, 3]
#NOTE, on aurait aussi pu sélectionner à patir de la variable qui est un vecteur
df_patients$jours[2]

In [None]:
#extraire une ligne entière, par exemple les informations concernant Sonia:
df_patients[2,]


In [None]:
#extraire une colonne entière, par exemple les informations sur la taille:
df_patients[,2]
#NOTE, on peut aussi appeler le vecteur directement:
df_patients$taille

In [None]:
#on peut modifier une information
df_patients[4, 2] <- 168       #redéfinir la taille de Sasha dans le data frame
df_patients$taille[4] <- 168   #idem, autre manière de le faire à partir du vecteur
df_patients

### Exercice 1

Créez 4 scalaires. Chaque scalaire est l'âge des membres d'une famille. Nommez les comme bon vous semble. Avec R, calculez: l'âge total des membres de la famille, et leur âge moyen. Calculez la différence d'âge entre le plus jeune et le plus vieux. 

Créez un vecteur qui contient les 4 scalaires. Avec R, recalculez les mêmes informations: l'âge total des membres de la famille, et leur âge moyen. Calculez la différence d'âge entre le plus jeune et le plus vieux. 

Quel âge auront les membres de votre famille dans 10 ans? (on peut ajouter un nombre n à un vecteur v en écrivant v+n). 

Créez un dataframe qui contient trois variables : le nom des membres de votre famille fictive, leur âge et leur genre.
Utilisez R pour connaître le type/la nature de ces objets. 

Ajoutez une variable au data frame qui donne en quelle année les membres de votre famille vont avoir 100 ans. Calculez aussi la moyenne d'âge des femmes de la famille. 

# 2. Lire des données

On utilise des données fournies par Simon Ejdemyr. Certes, nous savons maintenant créer des objets simples sur R, mais le plus souvent nous allons travailler avec des données existantes. 

Les données ont différents formats, et R est capable de lire la plupart de ces formats. 

Pour lire des données nous auront besoin: 
- de spécifier où le fichier se trouve sur l'ordinateur (working directory, ou répertoire de travail)
- d'exécuter une commande qui va lire le fichier depuis le répertoire de travail.


### 2.1 Définir le répertoire de travail

Deux manières: le faire manuellement sur Rstudio, ou inclure une ligne de code dans le script R.
Il est recommandé d'inclure une ligne systématiquement pour éviter toute erreur.

- Manuellement: **Session –> Set Working Directory –> Choose Directory… ** et on choisit le dossier où se trouvent les données. 
- Ligne de code: **setwd("chemin")** où **chemin** est l'adresse du dossier où se trouvent les données. 

### 2.2 Lire les données depuis le répertoire

R peut lire tout type de données. ici notre fichier est un .csv. Voici la syntaxe pour lire ce type de fichier. Nous verrons par la suite d'autres commandes pour d'autres types de données. 

In [None]:
world <- read.csv("TD1_world_small.csv")
#Note: ici nous n'avons pas défini de répertoire car les données sont dans le même serveur que le notebook en ligne. 
#Sur Rstudio il ne faudra pas manquer l'étape 2.1 !

Inspectons un peu notre base: 

In [None]:
class(world)
dim(world)
head(world) #revient à écrire: world[1:6, ]
summary(world)

### Exercice 2 

1. Télécharger TD1_world_small.csv. L'enregistrer dans un répertoire de travail qui vous servira pour le TD tout le semestre (pas sur le bureau !). 

2. Ouvrir Rstudio. Ouvrir et enregistrer un script nommé TD1 dans le même dossier. Définir le répertoire de travail. 

3. Enfin, écrire la ligne de code qui permettra de lire la base à partir de Rstudio. 

# 3. Installer et charger les packages (progiciels)

R est un logiciel open-source, ce qui signifie que chacun d'entre nous peut écrire un progiciel ou package pour étendre ses fonctionnalités. Nous ferons usage de certains progiciels en classe. Pour utiliser un progiciel / package, il faut :
- l'installer si ce n'est pas déjà fait.
- le charger, car à chaque fois que l'on ferme R, les progiciels ne seront plus en mémoire. 

### 3.1 Installer un package

Des packages sont souvent utilisés, comme plyr, dplyr, ou ggplot2. pour installer ces packages, on écrira dans le script : 

**install.packages("plyr")**

Pour plusieurs packages en même temps on écrira: 

**install.packages(c("plyr","dplyr","ggplot2"), dep=T)**

### 3.2 Charger un package

On écrira dans le script : 

**library(plyr)**

**library(dplyr)**

**library(ggplot2)**

### Exercice 3
Installer et charger les packages **plyr**, **dplyr**, **ggplot2**.