# **Chapitre 1 : Introduction et premiers pas**


## **_Pr√©ambule : langage de programmation_**

Un langage de programmation est une mani√®re conventionnelle de produire des **programmes informatiques**, ayant pour but de transmettre des **instructions √† un ordinateur**. D'une mani√®re similaire √† une langue naturelle, un langage de programmation est compos√© d'un alphabet, d'un vocabulaire, de r√®gles de grammaire, etc.

Malheureusement, le processeur d'un ordinateur ne comprend qu'un seul langage : le **langage machine**. Ce langage est dit de *bas niveau*, car au plus proche de la machine, ce qui le rend impossible √† comprendre et √† parler/√©crire par l'humain (proche du binaire). C'est pour cela qu'une multitude de langages dits de plus *haut niveau* ont √©t√© cr√©√©s, chacun r√©pondant √† des usages plus ou moins sp√©cifiques, et plus ou moins proches de l'anglais.

On appelle **code source** les instructions √©crites dans un langage de programmation. Celui-ci est le plus souvent sous la forme d'un ensemble de fichiers textes portant une extension explicite (ex : `fichier.R` pour R, `fichier.py` pour Python).

La **traduction** d'un langage de programmation vers le langage machine peut se faire de deux mani√®res, divisant les langages de programmation en deux grandes cat√©gories :

* Les langages **compil√©s**, dont le code source, une fois compl√®tement √©crit, est traduit via ce qu'on appelle un compilateur en code cible, ex√©cutable par un ordinateur (ex : Java, C/C++)
* Les langages **interpr√©t√©s**, dont les lignes de codes sont traduites et ex√©cut√©es au fur et √† mesure par ce qu'on appelle un interpr√©teur (ex : R, Python, JavaScript)

## **1. R : quoi et pourquoi ?**

**R** est un langage de programmation interpr√©t√©, cr√©√© en 1992 par *Ross Ihaka* et *Robert Gentleman* √† l'Universit√© d'Auckland en Nouvelle-Z√©lande. Il est bas√© sur le langage S (*John Chambers*, 1976). Essentiellement orient√© vers la manipulation de donn√©es, les statistiques et la production de graphiques, ses atouts sont nombreux :

* **Open-source** : disponible gratuitement pout tous et pour tous usages (m√™me commerciaux)
* **Multi-plateforme** : compatible Windows, Apple OSX et Linux
* **Populaire** : dispose d'une √©norme communaut√© d'entre-aide en ligne, et est utilis√© dans un nombre toujours croissant d'organismes publics/priv√©s (comp√©tences recherch√©es ++ sur les sites de recrutement). R est en train de devenir le standard de l'analyse statistique
* **Puissant** : peut traiter de grandes quantit√©s de donn√©es efficacement, contrairement √† Excel par exemple
* **Versatile** : peut √™tre utilis√© pour tous les usages li√©s √† la donn√©e (ex : statistiques, graphiques, cartographie, applications web, rapports, machine learning/IA, etc.)
* **Reproducibilit√©** : sa nature de langage de programmation permet de reproduire les r√©sultats d'une √©tude ou d'une analyse en partageant les codes sources ; tr√®s utile pour les analyses r√©currentes p√©riodiquement (ex : analyses d'activit√©)

### 1.1 Quid d'Excel et des autres solutions ?

**STATA/SPSS/MATLAB** : payant, et beaucoup (beaucoup) moins de possibilit√©s. Popularit√© en d√©clin.

**SAS** : m√™me chose qu'au-dessus, mais (beaucoup) plus cher.

**Microsoft Excel** : outil puissant de visualisation et de traitement de donn√©es. Il est relativement polyvalent et intuitif √† l'utilisation, et a l'avantage d'√™tre connu de tous. Il est n√©anmoins tr√®s rapidement limit√© pour une pratique rigoureuse et/ou avanc√©e :

* Peu adapt√© aux "grosses" donn√©es : ralentissements, d√©filement infini pour acc√©der aux zones d'int√©r√™t
* Options limit√©es, rigides et peu esth√©tiques pour la production de graphiques et de rapports
* Tr√®s sensible aux maladresses, et aucun moyen de revenir en arri√®re une fois les modifications faites et le tableur ferm√©
* Automatisation des t√¢ches laborieuse et limit√©e (langage VBA uniquement limit√© aux applications de l'√©cosyst√®me Microsoft Office)
* Obligation de modifier les donn√©es d'origine pour modifier un tableau (tr√®s mauvaise pratique)

### 1.2 RStudio et Jupyter

Bien que l'on puisse utiliser utiliser R via l'interface graphique par d√©faut, celle-ci est un peu aust√®re et ne poss√®de que tr√®s peu de fonctionnalit√©s ajout√©es au langage. La tr√®s grande majorit√© des utilisateurs pr√©f√®re utiliser un **environnement de d√©veloppement** (IDE, pour integrated development environment), qui permet notamment d'augmenter la productivit√© des d√©veloppeurs via une interface plus intuitive, un √©diteur de texte ad√©quat avec auto-compl√©tion, ainsi que des outils d'automatisation et d'aide √† la r√©solution de bugs. Les deux IDE les plus utilis√©s sont :

* **RStudio** : un IDE enti√®rement d√©velopp√© autour du langage R et une int√©gration parfaite de ses extensions (ex : RMarkdown/RNotebook pour produire des rapports, Shiny pour r√©aliser et d√©ployer des applications web). De loin le plus utilis√© et le plus adapt√© √† R.
* **Jupyter** : un IDE multi-langages (Julia, Python, et R initialement, maintenant bien plus que √ßa), tr√®s pratique pour un environnement o√π les utilisateurs utilisent diff√©rents langages. √âgalement un bon outil p√©dagogique pour les cours/TP, car il permet d'√©crire et de d'ex√©cuter directement des lignes de code dans un environnement interactif, qu'on appelle un notebook ; le cours que vous √™tes en train de lire a √©t√© enti√®rement √©crit avec Jupyter. **Colab** est un √©quivalent disponible en ligne d√©velopp√© par Google, et pr√©sente l'avantage de n'avoir rien √† installer.

## **2. Installation**

Pour un usage classique, l'IDE que je vous recommande d'utiliser est RStudio. Plus que deux petites √©tapes avant de pouvoir mettre les mains dans le cambouis :

1. [T√©l√©chargez et installez R](https://cran.r-project.org/mirrors.html)
2. [T√©l√©chargez et installez la version open-source de RStudio Desktop](https://rstudio.com/products/rstudio/)

Dans la suite de ce cours, tout le code que vous lirez aura √©t√© √©crit dans les "cellules de code" de l'interface Jupyter, qui sont reconnaissables par leur encadrement et leur fond gris√©. L'√©quivalent dans RStudio est ce qu'on appelle la **console** (en Anglais "console" ou "CLI" pour command-line interface). Tout ce qui sera √©crit dans les cellules qui suivent peut donc √™tre copi√©-coll√© dans la console de RStudio, les r√©sultats retourn√©s par l'ordinateur s'affichant √† la ligne.

INCLURE CAPTURE D'ECRAN RSTUDIO

## **3. Premier(s) programme(s)**

Traditionnellement, et ce quel que soit le langage de programmation, on commence par apprendre √† afficher le message "Hello, World!" dans la console. Avec R c'est facile, il suffit de taper la commande suivante : `print("Hello, World!")` et valider soit en appuyant sur la touche `Entr√©e` de votre clavier.

In [1]:
print("Hello, World!")

[1] "Hello, World!"


La fonction `print()` permet d'afficher sur la console la valeur de l'objet compris entre parenth√®ses. Dans notre cas, nous avions directement mis le message "Hello, World!" dans la fonction et R nous l'a donc affich√©. Le `[1]` qui pr√©c√®de indique l'indice de position de l'√©l√©ment affich√© ; en effet, R fonctionne en **vecteurs**, qui sont des sortes de groupes d'objets que nous verrons plus en d√©tail par la suite. Dans notre cas nous ne voulions afficher qu'un seul objet, mais R le consid√®re en r√©alit√© comme un vecteur d'objets de longueur √©gale √† 1.

Afin de se familiariser avec un autre concept fondamental de R, on va r√©√©crire notre programme d'une autre mani√®re mais toujours dans le but d'afficher le m√™me r√©sultat √† la console. Les √©tapes de cette variante sont dans l'ordre :

1. Stocker le message dans un **"contenant"** qu'on appelle une **variable** dans R
2. Afficher le contenu de cette variable √† l'aide de la commande `print()`

Avant cela, trois remarques pour nous aider :

* Dans R, pour **assigner** une valeur √† une variable, on utilise l'op√©rateur `<-`, avec le **nom** de l'objet du c√¥t√© de la pointe de la fl√®che, et sa valeur de l'autre c√¥t√© (ex : `x <- 34` ou encore `foo <- "bar"`).
* Une **cha√Æne de caract√®res** (mot, phrase) doit toujours entour√©e de **guillemets** (`'simples'`ou `"doubles"`) pour √™tre consid√©r√©e comme telle. Lorsque R voit un mot ou une lettre sans guillemets, il l'interpr√™te comme le nom d'une variable √† aller chercher dans son r√©pertoire.
* Entre chaque commande, il faut aller √† la ligne.

In [2]:
salutations <- "Hello, World!"
print(salutations)

[1] "Hello, World!"


Avant de l'afficher √† l'√©cran, on a donc d'abord assign√© la cha√Æne de caract√®res `"Hello, World!"` √† la variable `salutations`. En coulisses, R a stock√© le message dans un espace de la m√©moire de l'ordinateur, et l'a appel√© `salutations` pour pouvoir le retrouver plus facilement par la suite. 

Si cet espace avait **d√©j√† √©t√© occup√©** par un autre objet, R l'aurait supprim√© et **remplac√©** par notre message sans nous pr√©venir ; il est de bon ton de v√©rifier que l'on a pas d√©j√† stock√© de donn√©e importante dans la m√™me variable auparavant :

In [4]:
salutations <- "Hello, World!"
salutations <- "Good bye, World!"
print(salutations)

[1] "Good bye, World!"


Sur ce, bravo, vous avez √©crit vos premiers programmes ! Enfin j'esp√®re que vous avez fait l'effort de r√©√©crire les commandes dans la console de votre IDE, car c'est en pratiquant que l'on apprend üôÇ