# Section 1 - Premiers pas en R 

## <span style="color: steelblue">1. Introduction à R et RStudio</span>
## <span style="font-family:Calibri">1.1 Généralités</span>

<font size=3 color=grey>
 1.1.1. Un peu d'histoire<br>
 1.1.2. Installer R et RStudio (sans droits d'administrateur)<br>
 1.1.3. R en local / R en serveur<br>
</font>

## <span style="font-family:Calibri">1.2 Les librairies et leur installation</span>
## <span style="font-family:Calibri">1.3 Quelques bons papiers pour apprendre et comprendre R</span>

## <span style="color: steelblue">2. Operations élémentaires sur les données (R)</span>
## <span style="font-family:Calibri">2.1. Charger les données</span>

<font size=3 color=grey>
 2.1.1. Definir le repertoire de travail<br>
 2.1.2. Les types de fichiers lisibles en R<br>
 2.1.3. Telecharger un fichier (download.file)<br>
 2.1.4. Fichiers plats (csv/txt)<br>
 2.1.5. Fichier excel<br>
 2.1.6. Fichiers JSon (JavaScript Object Notation)<br>
</font>

## <span style="font-family:Calibri">2.2. Les types de données en R </span>

<font size=3 color=grey>
 - les vecteurs atomiques<br>
 - les dataframes<br>
 - les datatables<br>
 - les listes<br>
</font>
<br><br><br><br>

# <span style="color: steelblue">1. Introduction à R et RStudio</span>

L'objectif de cette section est de permettre à chacun de partir sur une même base de connaissance du langage R

# <span style="font-family:Calibri">1.1 Généralités</span>

### 1.1.1. Un peu d'histoire

 - R  : analyse statistiques (1993)
 - dérivé du S (1975) - John Chambers (laboratoires BELL).
 - Rstudio (2008) : environnement de developpement qui s'appuie sur le moteur R installé.
 - Tout 2 Open Source



### 1.1.2. Installer R et RStudio (sans droits d'administrateur)

Rappels installation sans droits d'admin.<br>
Nota : RStudio doit être installé sur au moins 1 poste avec droits, puis le repertoire copiable


### 1.1.3. R en local / R en serveur

 - version locale / version serveur (idem SAS, ...)
 - Disponible sur BigBox3 (necessite un keytab). Egalement Axalab pour Telematics ou CloudApp coté AGPC
 - Aujourd'hui difficile d'utilisation (serveurs lents, et pas d'accès direct au datalake)
 

<br><br><br><br><br><br>

<br>
<br>

# <span style="font-family:Calibri">1.2 Les librairies et leur installation</span>

- La grande majorité des packages s'installent tres simplement depuis le repository CRAN

In [None]:
install.packages("ggplot2", repos = "http://cran.us.r-project.org")

In [None]:
install.packages("ggplot2")                      # dans RStudio, le miroir CRAN est deja indiqué

In [None]:
install.packages("ggplot2", dependencies = TRUE) # Default : c("Depends", "Imports", "LinkingTo").
                                                 # TRUE    : c("Depends", "Imports", "LinkingTo", "Suggests") 

<br><br>
- Obtenir de l'<b>aide</b> sur une fonction : ?[fonction] ou vignette('[package]')

In [None]:
?install.packages

In [None]:
vignette('printr') #un peu long depuis Jupyter, mais vous pouvez le tester sous RStudio

<br><br><br><br>
- <b>Autres sources </b>: 
 - Packages developpés par la communauté : Github (devtools::install_github() ), ou Gitlab en interne axa : <br>
    exemple : http://agpc-ds.cloudapp.net/Mohamed-achref/EmailAddressTM/tree/master
 - Possibilité d'acceder aux paquets de dev sur Github (ex ci après)
 - <span style="font-family:Wingdings; font-size:30px; color:#CC2222;">N</span>  Souvent : pb proxy Axa...

In [None]:
# exemple d'un paquet sympa de visualisation en Rmarkdown
install.packages('printr', type = 'source', repos = c('http://yihui.name/xran', 'http://cran.rstudio.com'))

In [None]:
library(devtools)
dev_mode(on=T)                      # on passe en mode developpement
install_github("hadley/ggplot2")    # on installe la version de developpement de ggplot2
dev_mode(on=F)                      # on sort du mode developpement et on retourne donc a notre version stable de ggplot2

Une fois la librairie telechargée, elle se loade très simplement : 

In [None]:
library(ggplot2)
library(printr)

A noter options pour eviter trop de verbiage a l'installation (à combiner pour obtenir qque chose....)

In [None]:
suppressPackageStartupMessages(library(ggplot2))
library(data.table, verbose = FALSE, quietly = TRUE, warn.conflicts = FALSE)

<br><br><br>
# <span style="font-family:Calibri">1.3 Quelques bons papiers pour apprendre et comprendre R</span>

H.Wickham - Advanced R : http://adv-r.had.co.nz/  
G.Grolemund - H.Wickham : http://r4ds.had.co.nz/  
E.Paradis - R pour les débutants : http://bit.ly/1OZrF9Z   
A.Charpentier - Statistiques de l'assurance : http://bit.ly/1TUkS8z  
J.Chiquet - Aide mémoire : http://julien.cremeriefamily.info/doc/teachings/commandes_r.pdf  
Kauffmann - Aide mémoire : https://cran.r-project.org/doc/contrib/Kauffmann_aide_memoire_R.pdf  
P.Burns - R Inferno : http://www.burns-stat.com/pages/Tutor/R_inferno.pdf
<br>

et bien sur stackoverflow, R-Bloggers, ... ET ds4a@SLACK !<br><br><br>

<img src="http://upload.dinhosting.fr/J/O/V/Rworld.jpg" height="50" align="left">




<br><br><br><br>


# <span style="color: steelblue">2. Operations élémentaires sur les données (R)</span>


# <span style="font-family:Calibri">2.1. Charger les données</span>

 - !! R charge les données en RAM. 


### 2.1.1. Definir le repertoire de travail et gerer l'environnement R
<table border = 1 align=left>
<tr>
 <td colspan = 2 bgcolor=grey><b><font color="white">repertoire de travail</td></b></font>
 <td colspan = 2 bgcolor=grey><b><font color="white">environnement</font></td></b></font>
</tr>
<tr>
 <td>**setwd** </td>
 <td>definit le repertoire de travail</td>
 <td></td>
 <td></td>
</tr>
<tr>
 <td>**getwd** </td>
 <td>recupere le repertoire courant</td>
 <td></td>
 <td></td>
</tr>
<tr></tr>
<tr>
 <td>**file.exist** </td>
 <td>verifie l'existence d'un fichier dans le repertoire courant</td>
 <td>**ls()**</td>
 <td>liste les elements de l'espace de travail R </td>
</tr>
<tr>
 <td>**dir.create** </td>
 <td>cree un répertoire</td>
 <td>**rm()**</td>
 <td>supprimer les elements de l'espace de travail R</td>
</tr>
<tr>
 <td>**list.files** </td>
 <td>liste l'ensemble des fichiers du repertoire mentionné</td>
 <td>**gc()**</td>
 <td>vide la "corbeille" de l'espace de travail R </td>
</tr>
</table>


<u><b><font color = blue> - GERER LE REPERTOIRE DE TRAVAIL</b>

In [1]:
dir <- "C:/R/05_Training/Axa_Training" ; dir

In [2]:
setwd(dir)                                           # definit mon repertoire de travail

In [3]:
getwd()                                              # permet de connaitre le repertoire courant de travail

In [4]:
list.files(dir,  all.files = TRUE)                   # liste tous les fichiers présents dans le repertoire dir

In [None]:
list.files(dir, pattern = "Jour")                    # liste tous les fichiers présents dans le repertoire dir 
                                                     #(on peut utiliser length() pour compter le nbe de fichiers)

In [None]:
newdir <- "Data"    
if (!file.exists(newdir)) {dir.create(newdir)}      # Si le repertoire nommé dir n'existe pas, R le crée

<br><u><b><font color = blue> - GERER L'ENVIRONNEMENT R</b>

In [None]:
test <- "a supprimer"
ls()  # indique les elements en mémoire du moteur R

In [None]:
rm(list = "test") ; ls()

In [None]:
 rm(list = ls()) ; ls()

<br><br>
### 2.1.2. Les types de fichiers lisibles en R

R est capable de lire (plus ou moins bien) de nombreux types de fichiers.

<img src="http://upload.dinhosting.fr/e/a/n/2_R_manip_types_fichiers.png" height="100" align="left">


<br><br><br>
### 2.1.3. Telecharger un fichier (download.file)

In [None]:
fileUrl <- "http://bano.openstreetmap.fr/data/bano-75.csv"
download.file(fileUrl, destfile = "Data/bano_75.csv")

In [None]:
(dir.data <- paste0(dir, "/data"))

In [None]:
# verifions la présence du fichier : 
dir.data <- "C:/R/05_Training/Axa_Training/Data"
list.files(dir.data, pattern = "75.csv", all.files = TRUE)


<br><br>

### 2.1.4. Fichiers plats (csv/txt)

Plusieurs fonctions permettent le chargement des fichiers csv.



<div style="border: 0px solid #1b70b8; padding: 3px; background-color: #1b70b8;">
<font color = "white" size = 3> read.csv</font>

 - possibilité de limiter le nombre de lignes chargées (nrow=n)
 - format US : separateur **","** et decimales **"."**
 - preciser l'**entête** avec **header**
 - interpretation par défaut des caracteres comme des facteurs (option **stringAsFactors**)

In [None]:
setwd(dir.data)
read.csv("bano_75.csv", nrow=3)     # affichage des premiers lignes du fichier (quand on n'a pas la description)

In [None]:
DF.bano <- read.csv("bano_75.csv", header = FALSE, sep=",", dec = ".", stringsAsFactors = FALSE)
head(DF.bano, 3)

# renommage des colonnes : 
names(DF.bano) <- c("clef", "adr.num", "adr.rue", "adr.cp", "adr.ville", "source", "lat", "lon")
head(DF.bano, 3)

In [None]:
(mon_vecteur <- c("clef", "adr.num", "adr.rue", "adr.cp", "adr.ville", "source", "lat", "lon")  )

In [None]:
str(DF.bano)

<div style="border: 0px solid #1b70b8; padding: 3px; background-color: #1b70b8;">
<font color = "white" size = 3> read.csv2</font>

- Format EU : exemple csv formatté, créé en SAS. <b>separateur est un point-virgule</b> et <b>decimale virgule</b><br>
- **read.csv2** equivalent a read.csv(sep=";", dec = ",")

In [None]:
setwd(dir.data)
DF.rabais <- read.csv("rabaisAUTO.csv", nrow = 10)
DF.rabais

In [None]:
setwd(dir.data)
system.time(DF.rabais <- read.csv2("rabaisAUTO.csv", stringsAsFactors = FALSE))
head(DF.rabais)

<div style="border: 0px solid #1b70b8; padding: 3px; background-color: #1b70b8;">
<font color = "white" size = 3> fread</font>

read.csv() est une fonction classique de chargemenet de csv, car elle fait partie des packages de base.<br>
Toutefois, <b>fread()</b>, du package <b>data.table</b>, propose un chargement beaucoup plus rapide, ce qui peut être salutaire pour de grosses BDD

In [None]:
library(data.table)
setwd("C:/R/05_Training/Axa_Training/Data")
system.time(DF.rabais <- fread("rabaisAUTO.csv", stringsAsFactors = FALSE))
head(DF.rabais)

In [None]:
library(data.table)
system.time(DF.rabais <- fread("rabaisAUTO.csv", stringsAsFactors = TRUE, data.table=FALSE))

<br><br>
### 2.1.5. Fichier excel

On peut facilement interagir avec un fichier excel.  
Plusieurs packages existent, comme <b>XLConnect</b> ou <b>xlsx</b>. <br>
=> demande <u>une version de Java a jour</u>.

=> utiliser plutot <b>library(openxlsx)


In [None]:
install.packages("openxlsx")

In [None]:
library(openxlsx)

dir.data <- "C:/R/05_Training/Axa_Training/Data"



In [None]:

read.xlsx(paste0(dir.data, "/Emblem_model_glm.xlsx"), namedRegion = "EMBLEMFac10", colNames = FALSE)



In [None]:
(XLS <- read.xlsx(paste0(dir.data, "/Emblem_model_glm.xlsx"), rows = (7:38), cols = (1:2))  )

In [None]:
names(XLS)[2] <- "coef"

In [None]:
XLS

Pour sauvegarder en .xlsx, on peut utiliser write.xlsx, a une petite operation un peu fastidieuse prêt :   
1/ Installer RTools.exe (pas besoin des droits d'admin) dans c:/R/Tools/RTools/  
2/ Qd OK, dans RStudio, executer la commande suivante : 

Vous pourrez ensuite lancer votre operation de sauvegarde sans encombre

In [None]:
write.xlsx(head(DF.rabais), file = "montest.xlsx")

Sans installation convenable de RTools et de parametrage de la variable d'environnement, vuos aurez cette erreur :

<br><br><br>
### 2.1.6. Fichiers JSon (JavaScript Object Notation)

JSon est un format de données dérivé du langage JavaScript.<br>
Il permet de représenter de l’information structurée (comme XML)


In [None]:
library(jsonlite, warn.conflicts = FALSE)
setwd(dir.data)
AxaDrive <- jsonlite::fromJSON("AxaDrive.json")
head(AxaDrive$events)

### 2.1.7 Fichier .Rdata

Les datasets R peuvent être sauvés (puis loadés) directement au format interne .Rdata : 

In [None]:
DF.head <- head(DF.rabais)
save(DF.head, file = "head_rabais.Rdata")

Note importante : le nom .Rdata est juste un container de donnée : a l'interieur de ce nom de fichier, le data.frame conserve le nom qu'il portait quand vous l'avez sauvé (dans noter cas, DF.head).  
Pour connaitre le nom du dataset que vous loadez, ajouter l'option <b>verbose = TRUE</b> dans load

In [None]:
load("head_rabais.Rdata", verbose = TRUE)

<br>
### D'autres fichiers sont exploitables, comme le XML, les pdf, ... Une séance dédiée a la collecte de data abordera ulterieurement ces cas particuliers (mais oh combien utiles)
<br>




# <span style="font-family:Calibri">2.2. Les types de données en R </span>

<i>(Extrait de Advanced R - Hadley Wickham)</i>

- Classement par dimension et homogeneité/heterogeneité : <br>
- Homogène : tous les éléments sont du même type (string, logique, numerique..) <br>

<table border=1 align = "left">
<tr>
  <td width=70 align=center style='color:#FFFFFF; background-color:#FFFFFF;'>
  dim </td>
  <td width=70 align=center style='color:#FFFFFF; background-color:#5A5A5A;'>
  Homogene</td>
  <td width=70 align=center style='color:#FFFFFF; background-color:#5A5A5A;'>
  Heterogene</td>
</tr>
<tr>
 <td>1 dimension</td>
 <td>Atomic vector</td>
 <td>List</td>
</tr>
<tr>
 <td>2 dimensions</td>
 <td>matrix</td>
 <td>data.frame, data.table</td>
</tr>
<tr>
 <td>n dimensions</td>
 <td>array</td>
 <td> </td>
</tr>
</table>




<br><br>
### 2.2.1. Jouer avec les types de données principaux

Les types que vous serez amenés le plus frequemment à utiliser sont 
 - les vecteurs atomiques
 - les listes, dont les data.frame/data.table


 - <b><font size=3 color=#DD00DD><u>Les vecteurs atomiques </b></u></font>

- tous les elements du meme type
- par défaut : type general = type le moins contraignant




In [None]:
test <- c(34, "12", 34)
str(test)

In [None]:
(vect.habitat <- c("appartement", "maison"))

(vect.qualite <- factor(c("locataire", "proprietaire")))
(vect.capital <- c(  seq(from = 10000, to=100000, by=10000))    )

# on rajoute une option pour eviter la notation scientifique en e+2
options(scipen=5, digits = 3)

<br>

 - <b><font size=3 color=#DD00DD><u>Les dataframes</b></u>
 
- <u>liste</u> à 2 dimensions
- structurées comme une table de données classique.
- partage les propriétés des listes et des matrices (accès par ligne et par colonne)
- structure d'appel : <b>DF[i, j]</b> <font color='red'>ATTENTION la virgule est imperative !! </font>
- si on ne manipule que des lignes, on aura un appel type <b>DF[i, ]</b>
- si on ne manipule que des colonnes, on aura un appel type <b>DF[, j]</b>
 
 <table border = 1>
 <tr>
 <td> 
 <font color="444444"><b>Les lignes  </b></font><br>
 Pour filtrer suivant des lignes, on peut utiliser : <br>
 - <b>DF[i, ]</b>      : iem ligne <br>
 - DF[(i:k), ]  : selection des lignes entre la ieme et la kieme <br>
 - DF[DF$macolonne == "val", ] : selection des lignes telles que ma colonne vaut "val" <br>

 </td>
 <td> 
 <font color="444444"><b>Les colonnes </b></font><br>
 Pour appeler une colonne d'un dataframe, on peut utiliser indifferemment :  <br>
 - soit <b>DF[, j]</b> si la colonne voulue est la jeme,  <br>
 - soit DF[, "macolonne"] ou DF[, c("macolonne1", "macolonne2)"] <br>
 - soit plus simplement l'operateur <b>$</b> : DF\$macolonne <br>
 </td>
 </tr>

 </table>
 



In [1]:
(10:30)

<br>
Création de 2 data.frames : 
 - le 1er tres simple grace à data.frame()
 - le second à l'aide d'expand.grid qui crée le produit cartesien des vecteurs proposé


In [None]:
DF.1 <- data.frame(habitat = vect.habitat,
                   qualite = vect.qualite,
                   nb = c(20, 30)) 

DF.2 <- expand.grid(vect.habitat, vect.qualite, vect.capital)



<br>

Pour en savoir plus sur ces dataframes, on peut utiliser les fonctions de base suivantes :

<table border = 1>
<tr>
 <td>**str** </td>
 <td>contenu du dataframe </td>
</tr>
<tr>
 <td>**class, typeof**</td>
 <td>indique la classe et le type de l'objet consideré (est ce une liste ? un numerique ? une data.table ?...)</td>
</tr>
<tr>
 <td>**dim, nrow, ncol**</td>
 <td>dimensions du dataframe</td>
</tr>
<tr>
 <td>**names, colnames, rownames**</td>
 <td>pour accéder au nom des variables et des lignes du dataframe</td>
</tr>
<tr>
 <td>**summary**</td>
 <td>contenu du dataframe incluant des indicateurs standards quantiles/moyenne pour les numeriques</td>
</tr>
<tr>
 <td>**table**</td>
 <td>frequence par modalité pour une variable</td>
</tr> 

</table>
 

In [None]:
typeof(DF.1) ; str(DF.1)  ; head(DF.1)

In [None]:
# Affichage de la dimension data.frame, i,e, nbe de lignes, et nbe de colonnes
dim(DF.2)  ;  paste("Nbe de lignes :",nrow(DF.2))  ;  paste("Nbe de colonnes :", ncol(DF.2))


In [None]:
# Résumé du contenu du data.frame, mixte entre un freq (pour les var catégorielles) et un univariate (pour les numeriques)
summary(DF.2)

In [None]:
# frequence avec table :
table(DF.2$Var1, DF.2$Var2)

<br><br><br><u>Notion d'attributs

In [None]:
str(DF.2)  ;  head(DF.2, n=2)


- attributs supplementaires dans le DF créé par expand.grid.
- attributs = metadonnées qualifiant les elements du vecteur.
- interet pour des structures de listes compliquées, comme les PolygonDataFrame utilisés pour créer des cartes.

fonctions utiles : attributes(), attr(), structure()

In [None]:
attributes(DF.2)          # pour visualiser tous les attributs d'un coup

In [None]:
names(attributes(DF.2))   # nom des attributs

In [None]:
attr(DF.2, "names")       # contenu de l'attribut "names" contenant le nom des variables

Regardons rapidement la taille du data.Frame avec et sans les attributs : 

In [None]:
# Regardons la taille de cet objet
object.size(DF.2)

In [None]:
# Maintenant, supprimons les arguments et retestons la taille
attributes(DF.2) <- NULL
object.size(DF.2)

<br><br><br><u>Nommage des variables</u><br>
- par défaut, R a nommé lui memes les variables de DF.2 en var[i].
- Pour + de lisibilité, on peur renommer ces variables.

Fonction utiles : names(), colnames(), rownames()

In [None]:
names(DF.2) <- c("habitat", "qualite", "nb")
str(DF.2)

<br>
 - <b><font size=3 color=#DD00DD><u>Cas particulier des data.tables </b><br>
- Le format data.table est similaire a celui des data.frames. <br>
- Il s'agit d'un format specifique, utilisable apres installation de la librairie eponyme : 

In [None]:
library(data.table)

- Herite du type data.frame
- permet de traiter de + grosses données + vites

In [None]:
set.seed(1)
DT <- data.table(habitat = sample(vect.habitat, 10, replace=T),
                 qualite = sample(vect.qualite, 10, replace=T),
                 capital = sample(vect.capital, 10, replace=T),
                 valeur  = rnorm(n=10, mean = 100, sd = 5))

In [None]:
typeof(DT)  ; class(DT)

In [None]:
str(DT)

In [None]:
summary(DT)

 <br>
 <br>
 - <b><font size=3 color=#DD00DD><u>Les listes</b>

- la liste permet de stocker n'importe quel objet ( y compris des listes).<br>
- container de stockage tres utile.<br>
- les data.frames sont des listes particulieres


In [None]:
liste <- list(vect.habitat, vect.qualite, vect.capital, DF.1, DF.2, DT)

In [None]:
length(liste)

In [None]:
str(liste)

<br>
<br>
### 2.2.2. Famille des is. et as.

 - famille des is.[type] : determiner le type d'un objet
 - famille des as.[type] : considerer un objet sous un autre type

<br>
Executez le code ci-dessous :

In [None]:
f.typenum <- function(X) { temp.DF <- data.frame(numeric = sapply(X, is.numeric), 
                                                 double  = sapply(X, is.double),
                                                 string  = sapply(X, is.character)
                                                 )
                           rownames(temp.DF) <- X 
                           return(temp.DF)
}

Et testons la fonction sur les exemples suivants : 

In [None]:
Exemple.1 <- list(10, pi, "14")
Exemple.2 <- c(10, pi, "14")


In [None]:
f.typenum(Exemple.1)  #on retrouve le typage envisagé

In [None]:
f.typenum(Exemple.2)  #le vecteur atomique herite du typeage le moins contraignant, ie string

<br>
<br>
### 2.2.3. NULL, NA et NaN



 - <b>NULL</b> signifie qu'il n'y a pas de valeur
 - <b>NA</b> (Not Available) represente les valeurs manquantes
 - <b>NaN</b> (Not a Number) représente les valeurs impossible (par exemple une division par 0) 
 

 les fonctions liées de la famille is. sont <b>is.na(), is.nan()</b>.
Utiles pour specifier une condition comme !(is.na(x))

La fonction <b>na.omit()</b> renvoie directement l'objet privé de ses valeurs NA.

 Dans la plupart des operations de comptage ou de modélisation, une option <b>na.rm</b> est disponible pour preciser comment traiter les valeurs en NA.  
 Ex : mean(x, na.rm=TRUE)
 
 
 Enfin, <b>addNA()</b> permet de forcer les NA comme un niveau de facteur.  
=> utile pour gerer les operations de groupement ou autre sui gère mal les niveaux manquants...

In [None]:
a = factor(c(1,2,3,4,4,2,NA,3))
table(a)


In [None]:
a = addNA(a)
table(a)

<br><br><br>
<br>
<font color = "00FF44" size=5><b>A VOUS DE JOUER !!</b></font>

Nous allons utiliser le fichier chargé précédemment, contenant les rabais Auto consentis a l'affaire nouvelles.
Le dataframe s'appelle DF.rabais

In [5]:
library(data.table)
setwd("C:/R/05_Training/Axa_Training/Data")
system.time(DF.rabais <- fread("rabaisAUTO.csv", stringsAsFactors = TRUE, data.table=FALSE))
class(DF.rabais)

   user  system elapsed 
   1.39    0.08    1.61 

In [6]:
# EX: Afficher les 5 premières lignes de ce dataframe

## VOTRE REPONSE : 
head(DF.rabais, n=5)

Unnamed: 0,GTA,version,numpol2,nreg,sex,statut,crm,antivol,nbgar,primeht,segm,rabais,rabais2,permis2,age_permis2,agecond2,sinistres
1,ME37204,T,5474370904,66,M,A,B50A3+,O,6,456.81,0,100,autorise,<40,19-21,54-61,0
2,PE37102,T,5498785204,65,M,A,NONB50,O,6,892.18,B,95,autorise,<11,18,23-26,1
3,VW28046,T,5499839704,64,M,A,NONB50,O,4,361.71,M1,67,limite,<17,18,27-32,1
4,RE66213,T,5512094804,68,M,A,NONB50,O,6,390.53,M1,100,autorise,<11,19-21,27-32,0
5,PE07123,S,5571005104,67,M,A,B50A3+,N,2,143.23,B,100,autorise,<40,26++,62++,0


In [None]:
# EX: Afficher le contenu du dataframe (nom de champs, taille, classe)

## VOTRE REPONSE : 
str(DF.rabais)

In [2]:
# Transformer GTA, numpol2 en character : ces grandeurs n'ont rien a faire au format facteur :)

## VOTRE REPONSE : 
DF.rabais$GTA <- as.character(DF.rabais$GTA)
DF.rabais$numpol2 <- as.character(DF.rabais$numpol2)

In [None]:
# EX: Afficher des stats elementaires sur le contenu du dataframe

## VOTRE REPONSE : 
summary(DF.rabais)

Les macro stats fournies ci dessus laissent apparaitre plusieurs problemes : <br>
 - 1/ les versions de tarifs peuvent être regroupées : S et T sont des versions 2015, on peut donc regrouper les autres<br>
 - 2/ la region est conisderée comme un numerique<br>
 - 3/ On sait par experience que le segment H est plus cher que les segments M1 et M2. Néanmoins, l'ordre alphabetique ne retranscrit pas cet ordre.<br>
 - 4/ la variable rabais est considerée comme un facteur
 - 5/ Enfin, la variable rabais2 n'est pas non plus classée dans un ordre cohérent. On veut donc renommer : 
      - "autorisé" en "1.autorise"
      - "limite" en "2.limite"
      - "depasse" en "3.depasse"

Vous allez devoir traiter ces cas : 

In [None]:
# 1/ Regrouper les version anterieures a S ensemble, en une section "R et -" par exemple
# Pour cela, on doit deja connaitre l'ensemble des 8 modalités disponibles : on utilise la fonction table()

table(DF.rabais$version)

Pour eviter de perdre le dataframe original suite a une mauvaise manip, on crée un dataframe sauvegarde DF.rabais.svg


In [3]:
DF.rabais.svg <- DF.rabais

Pour mémoire, vous avez vu dans le descriptif du dataframe que version etait un facteur.
Cela signifie que la liste des modalités est figée. 
Pour la changer, il faut modifier le type, et repasser au format caracteres : 

In [4]:
# changement du type de la variable version
DF.rabais$version <- as.character(DF.rabais$version)

In [5]:
# on peut desormais créer la nouvelle modalité composite : 
DF.rabais[DF.rabais$version %in% c("M", "N", "O", "P", "Q", "R"),]$version <- "R et -"
DF.rabais$version <- as.factor(DF.rabais$version)

In [None]:
# EX: Verifier que l'operation a été correctement réalisée grace a table()

## VOTRE REPONSE : 
table(DF.rabais$version)

A noter une manière plus élégante de procéder : 
 - recuperer les niveaux du facteur grace a l'option levels() (nota : pour connaitre le nombre de niveau, il existe egalement une fonction nlevels()
 - creer un vecteur contenant les niveaux a modifier en retranchant ceux a conserver grace a la fonction setdiff()

In [6]:
(v.version.level <- levels(DF.rabais.svg$version) )

# je ne souhaite recuperer que les niveaux avant R : 
# j'utilise setdiff(X, Y), qui me permet de faire la difference X privé de Y
(v.version.level <- setdiff(v.version.level, c("R", "S", "T")) )


In [7]:
# sauvegarde des operations réalisées dans le dataframe de sauvegarde
DF.rabais.svg <- DF.rabais

In [8]:
# 2/ EX: modifier le type de region pour le transformer en facteur dans DF2.rabais

## VOTRE REPONSE : 
DF.rabais$nreg <- as.factor(DF.rabais$nreg)

In [None]:
# Assurez vous de la bonne realisation de l'operation (avec cummary par exemple, pour voir l'impact du changement de classe)

## VOTRE REPONSE : 
summary(DF.rabais)


In [9]:
# sauvegarde des operations réalisées dans le dataframe de sauvegarde
DF.rabais.svg <- DF.rabais

In [10]:
# 3/ EX: Renommer la modalité "H" de la variable segm en "ZH" pour obtenir un ordre alphabetique coherent avec la classe du vehicule
# vous pouvez vous appuyer sur le code réalisé en 1/

## VOTRE REPONSE : 
DF.rabais$segm <- as.character(DF.rabais$segm)
DF.rabais[DF.rabais$segm == "H", "segm"] <- "ZH"

In [11]:
# Verifier la bonne réalisation avec table() par exemple

## VOTRE REPONSE : 
table(DF.rabais$segm)


    0     A     B    M1    M2    ZH 
27554 17507 98290 90532 33686 22036 

In [12]:
# sauvegarde des operations réalisées dans le dataframe de sauvegarde
DF.rabais.svg <- DF.rabais

In [13]:
# 4/ Transformer rabais en double avec la fonction as.double

## VOTRE REPONSE :
DF.rabais$rabais <- as.double(DF.rabais$rabais)

In [14]:
# 5/ modifier la cible categorielle rabais2 telle que : ;
#      - "autorisé" en "1.autorise"
#      - "limite" en "2.limite"
#      - "depasse" en "3.depasse"


## VOTRE REPONSE :

table(DF.rabais$rabais2)
DF.rabais$rabais2 <- as.character(DF.rabais$rabais2)
 DF.rabais[DF.rabais$rabais2 == "autorise",]$rabais2 <-  "1.autorise"
 DF.rabais[DF.rabais$rabais2 == "limite",]$rabais2   <-  "2.limite"
 DF.rabais[DF.rabais$rabais2 == "depasse",]$rabais2  <-  "3.depasse"


autorise  depasse   limite 
  263129    16420    10056 

In [15]:
# Verifiez que votre réponse a fonctionné

## VOTRE REPONSE :
table(DF.rabais$rabais2)



1.autorise   2.limite  3.depasse 
    263129      10056      16420 

Pour sauvegarder votre dataframe dans un fichier csv afin de le reutiliser a la prochaine session : 

In [16]:
write.csv(DF.rabais, "rabaisAUTO2.csv", row.names = FALSE)

Vous pouvez egalement le sauver au format Rdata : 

In [17]:
save(DF.rabais, file = "rabaisAUTO_corr.Rdata")