# 2 Lecture de données

Les **données** sont l'élément essentiel dans l'analyse actuarielle. Nous avons aussi besoin de formater ces données afin d'appliquer nos modèles et obtenir les résultats désirés. Pour ce faire, nous devons faire ce qu'on appelle communément **ETL** dans le domaine du data warehouse.

> The process of extracting data from source systems and bringing it into the data warehouse is commonly called ETL, which stands for **extraction, transformation, and loading**.

> [Oracle](https://docs.oracle.com/cd/B19306_01/server.102/b14223/ettover.htm)

## 2.1 Comment acceder aux données

Vous avez alors deux choix;
1. Télécharger les données sur votre poste de travail (sur les machines laboratoire, ou personnelles)  
1.1 Télécharger le fichier zip  
1.2 Avec la commande `git clone ...`
2. Accéder aux données directement via SAS (voir la section...)
3. Accéder aux données du cours ACT3035 tel qu'expliqué dans la section [Inscription au cours ACT3035](http://nour.me/introduction-a-github.html)

### 2.1.1 Télécharger le fichier `.zip`

Vous pouvez télécharger ces données dans n'importe quel répertoire que vous désirez les conserver.
![download zip on github : ACT3035](https://s3.amazonaws.com/noureddine/git_zip.png)


### 2.1.2 En utilisant `git clone ...`
Si vous travaillez avec Linux ou Mac OS, comme mentionné dans [l'introduction du premier cours](http://nour.me/introduction-a-github.html), je déposerais les données utilisées dans le cadre du cours sur mon compte Github dans le répertoire [data](https://github.com/nmeraihi/data).

vous allez dans les répertoires dans lequel vous voulez sauvegarder ces données et taper les commandes suivantes: 
```bash
# On se met sur le bureau 
cd Desktop
# pour créer un répertoire dataACT3035 sur le bureau 
mkdir dataACT3035
# On se met dans ce répertoire 
cd dataACT3035
# On importe tout le répertoire que je partage avec sur GitHub 
git clone https://github.com/nmeraihi/data.git 
```

## 2.2 Lecture des données 
### 2.2.1 Localement
Une fois que vous avez vos données localement par l'une des deux options mentionnées ci-haut (.zip ou git clone), vous pouvez demander à SAS de lire vos données en lui spécifiant le chemin du fichier de données avec la commande suivante;

In [7]:
data demographics;
    infile 'data/mydata.txt';
    *infile '/home/nmeraihi1/my_content/lessons/data/mydata.txt';
    /*changer <nmeraihi1> par votre username de SAS OnDemand*/
    input Gender $ Age Height Weight;
run;

title "Apperçu des données";

proc print data=demographics;
run;

Obs,Gender,Age,Height,Weight
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166


### 2.2.2 Lecture web
Vous pouvez aussi demander à SAS de faire une lecture de données en lui donnant le lien web où se trouvent ces données, d'ailleurs cette méthode est la méthode la plus sûre d'avoir des données les plus à jour.

In [8]:
filename webdata url 
    "https://raw.githubusercontent.com/nmeraihi/data/master/mydata.txt";

data demographics;
    infile webdata;
    input Gender $ Age Height Weight;
    put _infile_;
run;

proc print data=demographics;
run;


Obs,Gender,Age,Height,Weight
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166


# 2.3 Types de fichiers de données

Maintenant que nous savons comment obtenir nos données, et nous savons aussi comment y accéder (localement ou en ligne), regardons quels types de fichiers que SAS peut lire.

## 2.3.1 Fichier `.txt`

La manière la plus commune de lire les données dans SAS est de les importer d'un fichier (.txt). Par défaut, SAS considère que les données sont séparées par un espace.

Il faut d'abord créer un _step_ du type `data`.

* Nous spécifions le chemin du fichier (_path_)

* Ensuite, nous spécifions le nom de chaque colonne.

* le signe $ signifie seulement la variable `Gender` est de type _character_ 

Regardons ce que ça donne;

```SAS
data demographics;
    infile 'data/mydata.txt'; /*Nous spécifions le chemin du fichier (path)*/
   
    
    input Gender $ Age Height Weight;  /*Ensuite, nous spécifions le nom de chaque colonne.*/ 
run;
```

In [9]:
title "Listing of data set DEMOGRAPHICS";
proc print data=demographics;
run;

Obs,Gender,Age,Height,Weight
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166


Chaque colonne représente une variable et chaque ligne représente une observation dans la base de données.

La colonne **Obs** représente le numéro (incrémenté) de chaque observation assigné à chaque ligne. Dans l'exemple ci-dessous, nous utilisons les données *mydata_triple.txt* qui reproduisent trois fois les données _mydata.txt_. Nous verrons que nous aurons 15 observations cette fois:

In [11]:
data demographics_triple;
    infile 'data/mydata_triple.txt';
    input Gender $ Age Height Weight;
run;
title "Les données DEMOGRAPHICS (en triple)";
proc print data=demographics_triple;
run;

Obs,Gender,Age,Height,Weight
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166
6,M,50,68,155
7,F,23,60,101
8,M,65,72,220
9,F,35,65,133
10,M,15,71,166


Nous pouvons créer des noms de variables ou les modifier si elles sont dans le fichier d'origine.

In [17]:
data demographics_variables;
    infile 'data/mydata.txt';
    input sexe $ âge grandeur poids;
run;
title "les noms de variables en français";
proc print data=demographics_variables nobs; /* nobs permet de ne pas afficher la colonne obs */
run;

sexe,âge,grandeur,poids
M,50,68,155
F,23,60,101
M,65,72,220
F,35,65,133
M,15,71,166


### Commencer la lecture des données à une ligne donnée
Nous pouvons forcer SAS de lire les données à partir d'une ligne donnée avec l'option `FIRSTOBS=...`

In [21]:
data mydata_commence_a_la_6;
    infile 'data/mydata_commence_a_la_6.txt';
    input sexe $ âge grandeur poids;
run;
title "Toutes les données à partir de la première observation";
proc print data=mydata_commence_a_la_6;
run;

Obs,sexe,âge,grandeur,poids
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166
6,commence,.,.,6
7,F,23,60,101
8,M,65,72,220
9,F,35,65,133
10,M,15,71,166


In [23]:
data mydata_commence_a_la_6;
    infile 'data/mydata_commence_a_la_6.txt' firstobs=6;
    input sexe $ âge grandeur poids;
run;
title "Nous forçons la lecture à partir de la 6e ligne";
proc print data=mydata_commence_a_la_6;
run;

Obs,sexe,âge,grandeur,poids
1,commence,.,.,6
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166
6,M,50,68,155
7,F,23,60,101
8,M,65,72,220
9,F,35,65,133
10,M,15,71,166


### Données manquantes
Les données manquantes sont un des plus grands défis que nous rencontrons lorsque nous travaillons avec les données. Que ce soit dans le domaine actuariel ou autre, nous avons souvent des lignes avec des valeurs vides. SAS interprète les points `<.>` comme des valeurs manquantes. 

Lorsque nous avons un petit jeu de données, nous pouvons corriger ces valeurs manquantes en remplaçant les points `<.>` par les valeurs désirées. Toutefois, cette solution**devient vite impossible à réaliser** lorsque nous sommes en présence de jeux de donnée avec un volume plus important. Nous verrons un peu plus dans le cours comment remédier à ce problème d'une manière plus efficace.

In [24]:
data mydata_donnee_manquante;
    infile 'data/mydata_donne_manquante.txt';
    input sexe $ âge grandeur poids;
run;
title "la variable poids est absente à la deuxième observation";
proc print data=mydata_donnee_manquante;
run;

Obs,sexe,âge,grandeur,poids
1,M,50,68,155
2,F,60,101,.
3,F,35,65,133
4,M,15,71,166


Nous avons qu'à ouvrir le fichier _mydata_donne_manquante.txt_ et  remplacer le point de la variable poids de la deuxième observation par sa vraie valeur

### Lecture d'une partie de la BD

Nous pouvons demander à SAS de lire une partie seulement des données, par exemple de l'observation #7 à #10 (inclusivement)

In [26]:
data mydata_commence_a_la_7;
    infile 'data/mydata_commence_a_la_6.txt' firstobs=7 OBS=10;
    input sexe $ âge grandeur poids;
run;
title "à partir de la 7eme ligne jusqu'a la 10";
proc print data=mydata_commence_a_la_7;
run;

Obs,sexe,âge,grandeur,poids
1,F,23,60,101
2,M,65,72,220
3,F,35,65,133
4,M,15,71,166


## 2.3.2 Lecture des fichiers `.csv`

En pratique, les fichiers de données sont pratiquement tout le temps produits sous format .csv (comma-separated values)

In [31]:
data demographics_csv_1;
    infile 'data/mydata.csv' dsd;
    input Gender $ Age Height Weight;
run;
title "Listing of data set DEMOGRAPHICS (avec CSV)";
proc print data=demographics_csv_1 nobs;
run;

Gender,Age,Height,Weight
M,50,68,155
F,23,60,101
M,65,72,220
F,35,65,133
M,15,71,166


### l'option **dsd**

Cette option possède deux fonctions principales;
1. Si les deux caractères qui délimitent les données se suivent (exemple 20,30,,50), SAS va traiter ceci comme 20 30 . 50
2. Avec l'option dsd, si nous avons comme exemple "George Bush, Jr." le mot "Jr" ne serait pas séparé du "George Bush".

### autre façon d'importer un fichier .csv
On peut aussi spécifier le nom du fichier

In [32]:
filename mydata 'data/mydata.csv';
data demographics_csv_2;
    infile mydata dsd;
    input Gender $ Age Height Weight;
run;
title "Listing of data set DEMOGRAPHICS (avec CSV)";
proc print data=demographics_csv_2 nobs;
run;

Gender,Age,Height,Weight
M,50,68,155
F,23,60,101
M,65,72,220
F,35,65,133
M,15,71,166


### Séparateur différent de ","

In [33]:
data mydata_2_points;
    infile 'data/mydata_2_points.csv' dsd dlm=':' ;
    input sexe $ âge grandeur poids;
run;
title "séparateurs :";
proc print data=mydata_2_points;
run;

Obs,sexe,âge,grandeur,poids
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166


## Saisie des données (lecture libre)

Parfois, il est pratique de saisir les données directement dans le code. Nous ne sommes pas obligés de les mettre dans un fichier externe.

In [34]:
data demographic_saisies;
    input Gender $ Age Height Weight;
    datalines;
F 50 68 155 
F 23 60 101
M 65 72 220 
F 35 65 133
M 15 71 166
;

title "données saisies";
proc print data=demographic_saisies;
run;

Obs,Gender,Age,Height,Weight
1,F,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166


### On peut aussi saisir les données sous format .csv (avec séparateurs)

In [35]:
*remarquons le 'infile' + 'datalines';
data demographics_saisies_en_csv;
infile datalines dsd;
input Gender $ Age Height Weight;
datalines;
"M",50,68,155
"F",23,60,101
"M",65,72,220
"F",35,65,133
"M",15,71,166
;


title "données saisies";
proc print data=demographics_saisies_en_csv;
run;

Obs,Gender,Age,Height,Weight
1,M,50,68,155
2,F,23,60,101
3,M,65,72,220
4,F,35,65,133
5,M,15,71,166


## Raw Data à partir des colonnes fixes

Soit les données suivantes dans le fichier `bank.txt`

00110/21/1955M   1145  
00211/18/2001F  18722  
00305/07/1944M 123.45  
00407/25/1945F -12345  

Ces données sont "collées", les colonnes ne sont pas séparées comme nous l'avons vu précédemment par des espaces, points-virgules ou autres. Nous devons alors préciser à SAS où chaque variable commence et s'arrête.

In [41]:
data financial;
    infile 'data/bank.txt';
    input 
        Subj $ 1-3
        DOB $ 4-13
        Gender $ 14
        Balance 15-21;
run;

title "Listing of FINANCIAL";
proc print data=financial nobs;
run;

Subj,DOB,Gender,Balance
1,10/21/1955,M,1145.0
2,11/18/2001,F,18722.0
3,05/07/1944,M,123.45
4,07/25/1945,F,-12345.0


Autre façon de fixer les colonnes;

In [43]:
data financial_2;
    infile 'data/bank.txt';
    input 
        @1 Subj $3.
        @4 DOB mmddyy10.
        @14 Gender $1.
        @15 Balance 7.;
run;

title "Listing of FINANCIAL";
proc print data=financial_2 nobs;
run;

Subj,DOB,Gender,Balance
1,-1533,M,1145.0
2,15297,F,18722.0
3,-5717,M,123.45
4,-5273,F,-12345.0


Remarquons que la variable DOB (date of birth), ça ne ressemble pas à un format Date ?! Nous pouvons spécifier le format voulu avec la méthode `format`. Nous verons cette méthode plus en détail dans les prochains cours.

In [45]:
title "Listing of FINANCIAL";
proc print data=financial_2;
    format DOB mmddyy10.
    Balance dollar11.2
    nobs;
run;

Obs,Subj,DOB,Gender,Balance
1,1,10/21/1955,M,"$1,145.00"
2,2,11/18/2001,F,"$18,722.00"
3,3,05/07/1944,M,$123.45
4,4,07/25/1945,F,"$-12,345.00"


### Syntax de l'option format
DOLLARw.d
1. w specifies the width of the output field. (Default:	6, Range:	2-32)
2. d specifies the number of digits to the right of the decimal point in the numeric value. This argument is optional. (Range:	0-31 Requirement:	must be less than w)

On peut accéder à tous les formats dans la bibliothèque de SAS:
![](https://s3.amazonaws.com/libapps/accounts/2515/images/sas_help_formats-informats.png)

### Canadian $

Et si nous voulions avoir le format monétaire en canadien français  

[pour plus d'infos](http://morgan.dartmouth.edu/Docs/sas92/support.sas.com/documentation/cdl/en/nlsref/61893/HTML/default/a003090801.htm)

In [77]:
title "Listing of FINANCIAL";
options locale=French_Canada;
proc print data=financial_2 ;
    format DOB date9.
    Balance nlmnyi15.2;
run;

Obs.,Subj,DOB,Gender,Balance
1,1,21OCT1955,M,"1 145,00 CAD"
2,2,18NOV2001,F,"18 722,00 CAD"
3,3,07MAY1944,M,"123,45 CAD"
4,4,25JUL1945,F,"(12345,00 CAD)"


## Format dans la procédure

In [46]:
data list_example;
    informat 
        Subj $3.
        Name $20.
        DOB mmddyy10.
        Salary dollar8.;
    infile 'data/list.csv' dsd;
    input 
        Subj
        Name
        DOB
        Salary;
    format DOB date9. Salary dollar8.;
run;

proc print data=list_example ;
run;

Obs,Subj,Name,DOB,Salary
1,1,Christopher Mullens,12NOV1955,"$45,200"
2,2,Michelle Kwo,12SEP1955,"$78,123"
3,3,Roger W. McDonald,01JAN1960,"$107,200"
