# **Chapitre 1 : Introduction et premiers pas**


## **_Préambule : langage de programmation_**

Un langage de programmation est une manière conventionnelle de produire des **programmes informatiques**, ayant pour but de transmettre des **instructions à un ordinateur**. D'une manière similaire à une langue naturelle, un langage de programmation est composé d'un alphabet, d'un vocabulaire, de règles de grammaire, etc.

Malheureusement, le processeur d'un ordinateur ne comprend qu'un seul langage : le **langage machine**. Ce langage est dit de *bas niveau*, car au plus proche de la machine, ce qui le rend impossible à comprendre et à parler/écrire par l'humain (proche du binaire). C'est pour cela qu'une multitude de langages dits de plus *haut niveau* ont été créés, chacun répondant à des usages plus ou moins spécifiques, et plus ou moins proches de l'anglais.

On appelle **code source** les instructions écrites dans un langage de programmation. Celui-ci est le plus souvent sous la forme d'un ensemble de fichiers textes portant une extension explicite (ex : `fichier.R` pour R, `fichier.py` pour Python).

La **traduction** d'un langage de programmation vers le langage machine peut se faire de deux manières, divisant les langages de programmation en deux grandes catégories :

* Les langages **compilés**, dont le code source, une fois complètement écrit, est traduit via ce qu'on appelle un compilateur en code cible, exécutable par un ordinateur (ex : Java, C/C++)
* Les langages **interprétés**, dont les lignes de codes sont traduites et exécutées au fur et à mesure par ce qu'on appelle un interpréteur (ex : R, Python, JavaScript)

## **1. R : quoi et pourquoi ?**

**R** est un langage de programmation interprété, créé en 1992 par *Ross Ihaka* et *Robert Gentleman* à l'Université d'Auckland en Nouvelle-Zélande. Il est basé sur le langage S (*John Chambers*, 1976). Essentiellement orienté vers la manipulation de données, les statistiques et la production de graphiques, ses atouts sont nombreux :

* **Open-source** : disponible gratuitement pout tous et pour tous usages (même commerciaux)
* **Multi-plateforme** : compatible Windows, Apple OSX et Linux
* **Populaire** : dispose d'une énorme communauté d'entre-aide en ligne, et est utilisé dans un nombre toujours croissant d'organismes publics/privés (compétences recherchées ++ sur les sites de recrutement). R est en train de devenir le standard de l'analyse statistique
* **Puissant** : peut traiter de grandes quantités de données efficacement, contrairement à Excel par exemple
* **Versatile** : peut être utilisé pour tous les usages liés à la donnée (ex : statistiques, graphiques, cartographie, applications web, rapports, machine learning/IA, etc.)
* **Reproducibilité** : sa nature de langage de programmation permet de reproduire les résultats d'une étude ou d'une analyse en partageant les codes sources ; très utile pour les analyses récurrentes périodiquement (ex : analyses d'activité)

### 1.1 Quid d'Excel et des autres solutions ?

**STATA/SPSS/MATLAB** : cher, et beaucoup moins de possibilités. Popularité en déclin.

**SAS** : pareil, mais encore plus cher. Choisir SAS, c'est ruiner son GH/Institution/Laboratoire et forcer ses internes à utiliser des solutions qui les limiteront plus tard.

**Microsoft Excel** : outil puissant de visualisation et de traitement de données. Il est relativement polyvalent et intuitif à l'utilisation, et a l'avantage d'être connu de tous. Il est néanmoins très rapidement limité pour une pratique rigoureuse et/ou avancée :

* Peu adapté aux "grosses" données : ralentissements, défilement infini pour accéder aux zones d'intérêt
* Options limitées, rigides et peu esthétiques pour la production de graphiques et de rapports
* Très sensible aux maladresses, et aucun moyen de revenir en arrière une fois les modifications faites et le tableur fermé
* Automatisation des tâches laborieuse et limitée (langage VBA uniquement limité aux applications de l'écosystème Microsoft Office)
* Obligation de modifier les données d'origine pour modifier un tableau (très mauvaise pratique)

### 1.2 RStudio et Jupyter

Bien que l'on puisse utiliser utiliser R via l'interface graphique par défaut, celle-ci est un peu austère et ne possède que très peu de fonctionnalités ajoutées au langage. La très grande majorité des utilisateurs préfère utiliser un **environnement de développement** (IDE, pour integrated development environment), qui permet notamment d'augmenter la productivité des développeurs via une interface plus intuitive, un éditeur de texte adéquat, ainsi que des outils d'automatisation et d'aide à la résolution de bugs. Les deux IDE les plus utilisés sont :

* **RStudio** : un IDE entièrement développé autour du langage R et une intégration parfaite de ses extensions (ex : RMarkdown/RNotebook pour produire des rapports, Shiny pour réaliser et déployer des applications web). De loin le plus utilisé et le plus adapté à R.
* **Jupyter** : un IDE multi-langages (Julia, Python, et R initialement, maintenant plus que ça), très pratique pour un environnement où les utilisateurs utilisent différents langages comme à l'Entrepôt de Données de Santé de l'AP-HP. Également un bon outil pédagogique pour les cours/TP, car il permet d'écrire et de d'exécuter directement des lignes de code dans un environnement interactif, qu'on appelle un notebook (le support que vous êtes actuellement en train de lire). **Colab** est un équivalent disponible en ligne, et présente l'avantage de n'avoir rien à installer.

Ce cours a été écrit avec Jupyter pour des raisons pédagogiques et de disponibilité sur les serveurs de l'AP-HP, mais les commandes sont transposables telles quelles dans RStudio, qui est l'outil que je recommande d'utiliser au quotidien.

## **2. Installation**

Pour ce cours il n'y a rien à installer car vous pouvez réaliser les exercices directement dans les cellules de code du notebook Jupyter/Colab. Mais si vous souhaitez par la suite mettre en place un environnement de travail R sur votre ordinateur personnel, suivez les instructions suivantes :

1. [Télécharger et installer R](https://cran.r-project.org/mirrors.html)
2. [Télécharger et installer la version open-source de RStudio Desktop](https://rstudio.com/products/rstudio/)

_NB : Dans la suite du tutoriel, nous programmerons dans les cellules de code de l'interface Jupyter. L'équivalent dans RStudio est ce qu'on appelle la console (en Anglais "console" ou "CLI" pour command-line interface). Tout ce qui aura été écrit dans les cellules qui suivent pourront donc être copiées-collées dans la console de RStudio, les résultats retournés par l'ordinateur s'affichant à la ligne._

## **3. Premier(s) programme(s)**

Traditionnellement, quel que soit le langage de programmation, on commence par apprendre à afficher le message "Hello, World!". Pour R c'est très facile, il suffit de taper dans la cellule vide ci-après la commande suivante : `print("Hello, World!")` et valider soit en appuyant sur `Maj` + `Entrée`, soit en cliquant sur le bouton ▶ dans la barre de navigation de Jupyter.

In [30]:
# Mettre un symbole "#" en début d'une ligne de code permet d'écrire des commentaires
# sans qu'ils ne soient pris en compte lors de l'exécution. On appelle cela "commenter" du code.
# La commande qui figure en dernière ligne de cette cellule permet d'afficher la solution à la
# question posée, précédée du symbole ">", ainsi que le résultat de la commande à la ligne suivante.
# Essayez de "décommenter" cette commande en retirant le symbole "#" et en validant la cellule :

# source("solutions/01_intro_helloworld_1.R", echo=TRUE)

Si tout s'est bien passé, il devrait s'être affiché le message suivant en-dessous de la cellule :

    [1] "Hello, World!"
    
La fonction `print()` permet d'afficher sur la console la valeur de l'objet compris entre parenthèses. Dans notre cas, nous avions directement mis le message dans la fonction et R nous l'a donc affiché. Le `[1]` qui précède indique le numéro de l'élément affiché. En effet, R fonctionne en **vecteurs**, qui sont des groupes d'objets ; dans notre cas nous ne voulions qu'afficher un objet unique, mais R le considère comme un vecteur d'objets de longueur égale à 1.

**Exercice** 

On aurait pu obtenir le même résultat de la manière suivante :

1. Assigner le message à un "contenant" (qu'on appelle un **objet** ou une **variable** dans R)
2. Afficher la valeur de l'objet à l'aide de la commande `print()`

Comment feriez vous en R ? À vous de jouer dans la cellule ci-après, à l'aide de ces précisions :

* Dans R, pour assigner une valeur à un objet, on utilise l'opérateur `<-`, avec le nom de l'objet du côté de la pointe de la flèche et sa valeur de l'autre côté (ex : `x <- 34` ou encore `foo <- "bar"`)
* Une chaîne de caractères (mot, phrase) est toujours entourée de guillemets (`'simples'`ou `"doubles"`). Lorsque R voit un mot ou une lettre sans guillemets, il l'interprête comme le nom d'un objet à aller chercher.
* Entre chaque commande, il faut aller à la ligne

In [25]:
# Pour la solution, décommentez la ligne suivante (retirez le "#") :
# source("solutions/01_intro_helloworld_2.R", echo=TRUE)

Bravo, vous avez écrit vos premiers programmes !

[Retour au sommaire](00_master.ipynb) <br>
Cours suivant : [Types d'objets et de données](02_types.ipynb)