R pour Statistique et Science des Données
L'objectif de ces tutoriels, proposés sous forme de calepins (jupyter notebooks), est d'introduire les principaux concepts et fonctionnalités du langage R en insistant sur ceux indispensable au statisticien, maintenant data scientist. Syntaxe, objets et classes, fonctions graphiques, techniques de préparation (munging ou wrangling) des données puis leur analyse en enchaînant phases d'exploration et de modélisation ou apprentissage (machine / statistique). Des exemples plus détaillés sur des données spécifiques (en R et en python) sont proposés sur wikistat.fr ainsi que dans les autres dépôts de ce site. Les méthodes sont exposées dans les vignettes de wikistat.
Les documents sont des calepins (notebooks) au format .ipynb à télécharger et ouvrir dans Jupyter. Il suffit pour cela de cloner le dépôt dans son propre environnement GitHub ou de télécharger l'archive zippée.
Tutoriels d'initiation à R
Cal1-start-R
Démarrrer avec R pour statisticien novice.Cal2-intro-R
Introduction à R, ses objets, sa syntaxe.Cal3-graph-R
Quelques graphiques avec R.Cal4-program-R
Eléments de programmation en R.
Pourquoi R?
Le logiciel R sous licence GNU est facile à installer à partir de la page du CRAN ou d'un site miroir; ils contiennent toutes les ressources nécessaires à l'utilisateur de R, débutant ou expérimenté: fichiers d'installation, mises à jour, librairies, FAQ, newsletter, documentation... Il est le logiciel le plus utilisé de la communauté statistique académique et aussi de plus en plus dans les services R&D des entreprises industrielles en concurrence avec les logiciels commerciaux. Son utilisation nécessite un apprentissage à travers des tutoriels comme par exemple ceux de ce dépôt mais il est facile de démarrer à partir de quelques notions de base sur son utilisation; de Start-R.
Dans sa structure, R est un langage de programmation interprété d'une syntaxe voisine à celle du langage C et capable de manipuler des objets complexes sous forme de matrice, scalaire, vecteur, liste, facteur et aussi data frame. Proposant donc une programmation matricielle, il offre des fonctionnalités analogues à Matlab et dispose également d'une très riche librairie de quasiment toutes les procédures et méthodes statistiques de la littérature. Plus précisément, toutes les recherches récentes sont d'abord développées et diffusées à l'aide de ce logiciel par la communauté scientifique.
Il existe de nombreuses librairies (cf. Rcmdr
) d'interface graphique par menu mais celles-ci sont contraignantes, trop limitées dans les choix et options, elles ne peuvent éviter une utilisation par lignes de commandes; autant s'y mettre tout de suite, c'est le choix fait ici.
Il existe également un environnement de programmation ou IDE*: RStudio relativement efficace; à l'utilisateur de faire ses choix.
La présentation des tutoriels privilégie assez unanimement le format des calepins (notebook) Jupyter qui autorisent une exécution automatique et offrent la capacité d'intégrer chronologiquement des résutlats numériques, graphiques, des commentaires, au sein du même fichier.
C'est l'outil à privilégier pour promouvoir et diffuser les analyses statistiques d'une recherche scientifique reproductible.
- Installer la dernière version de R
Puis au choix
- Installer RStudio
- Copier, coller ou entrer successivement les commandes des tutoriels,
OU
- Installer Python
- Installer le noyau IRkernel. Dans le salles du CSN de l'INSA, exécuter les commandes suivantes après avoir ouvert R dans un terminal (pas Rstudio):
R
install.packages(c('repr', 'IRdisplay', 'evaluate', 'crayon', 'pbdZMQ', 'devtools', 'uuid', 'digest'))
library(devtools)
withr::with_libpaths(new = "~/R/libs/", install_github('IRkernel/IRkernel'))
IRkernel::installspec()
quit() # quitter R
jupyter notebook
Dans les deux cas
- Exécuter les cellules en analysant syntaxe et résultats
- Répondre aux questions, faire les exercices proposés