-
Notifications
You must be signed in to change notification settings - Fork 7
/
jour3.html
167 lines (153 loc) · 7.74 KB
/
jour3.html
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
<!DOCTYPE html>
<html>
<head>
<title>Introduction à R</title>
<meta charset="utf-8">
<meta http-equiv="x-ua-compatible" content="ie=edge">
<meta name="viewport" content="width=device-width, initial-scale=1">
<link rel="stylesheet" href="jour3_files/rmdshower/node_modules/shower-ribbon/styles/screen-4x3.css">
<link rel="stylesheet" href="jour3_files/rmdshower/style-common.css">
<link rel="stylesheet" href="jour3_files/rmdshower/style-ribbon.css">
<link rel="stylesheet" href="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.5.1/katex.min.css">
<script src="https://cdnjs.cloudflare.com/ajax/libs/KaTeX/0.5.1/katex.min.js"></script>
<script src="jour3_files/rmdshower/auto-render.min.js" type="text/javascript"></script>
</head>
<body class="shower list">
<header class="caption">
<h1>Introduction à R</h1>
<p>Open Data France et datactivi.st</p>
</header>
<section id="introduction-a-r-le-couteau-suisse-de-la-data-science" class="slide level2">
<h2>Introduction à R, le couteau suisse de la data science</h2>
<p>
</p>
<p>
</p>
Jour 3
<p>
</p>
<p>
</p>
<p>
Joël Gombin et Samuel Goëta (datactivi.st)
</p>
<p>
Retrouvez les matériaux sur : <a href="www.github.com/datactivist/IntroR_ODF" class="uri">www.github.com/datactivist/IntroR_ODF</a>
</p>
<p>
Pad collaboratif : <a href="https://frama.link/formationR_pad3" class="uri">https://frama.link/formationR_pad3</a>
</p>
</section>
<section id="ce-quon-a-deja-appris" class="slide level2">
<h2>Ce qu’on a déjà appris</h2>
<ul>
<li class="fragment next">l’écosystème dans lequel s’inscrit R</li>
<li class="fragment next">importer des données</li>
<li class="fragment next">préparer des <em>tidy data</em></li>
<li class="fragment next">commencer à transformer les données</li>
</ul>
</section>
<section id="ce-quon-a-deja-appris-1" class="slide level2">
<h2>Ce qu’on a déjà appris</h2>
<p><img src="img/data-science-model.png" width="90%" style="display: block; margin: auto;" /></p>
</section>
<section id="objectifs-de-la-journee" class="slide level2">
<h2>Objectifs de la journée</h2>
<ul>
<li class="fragment next">être autonome sur l’import (<code>read_*</code>), le nettoyage et la transformation (<code>mutate</code>) des données</li>
<li class="fragment next">savoir pivoter (<code>gather</code> et <code>spread</code>), filtrer (<code>filter</code>) et agréger (<code>group_by</code> + <code>summarise</code>) des données</li>
<li class="fragment next">savoir fusionner (<code>join</code>) deux jeux de données</li>
<li class="fragment next">obtenir une première visualisation de ses données (<code>ggplot2</code>)</li>
</ul>
</section>
<section id="consolidation-des-acquis-de-la-journee-dhier" class="titleslide slide level1"><h2 class="shout">Consolidation des acquis de la journée d’hier</h2></section><section id="exercice" class="slide level2">
<h2>Exercice</h2>
<ul>
<li class="fragment next">sélectionner un jeu de données (par exemple <a href="https://frama.link/reserve" class="uri">https://frama.link/reserve</a>)</li>
<li class="fragment next">s’assurer que le jeu de données est “tidy”</li>
<li class="fragment next">transformer le jeu de données comme nécessaire pour exploitation</li>
</ul>
</section>
<section id="pivoter-gather-et-spread" class="titleslide slide level1"><h2 class="shout">Pivoter (<code>gather</code> et <code>spread</code>)</h2></section><section id="le-probleme" class="slide level2">
<h2>Le problème</h2>
<p><img src="img/tidy-9.png" width="90%" style="display: block; margin: auto;" /></p>
</section><section id="le-probleme-1" class="slide level2">
<h2>Le problème</h2>
<p>Utile parce que :</p>
<ul>
<li class="fragment next">format demandé par telle fonction/logiciel…</li>
<li class="fragment next">(ré)agrégation de données</li>
<li class="fragment next">nettoyage de données</li>
<li class="fragment next">etc. etc.</li>
</ul>
</section><section id="pivoter-un-jeu-de-donnees" class="slide level2">
<h2>Pivoter un jeu de données</h2>
<ul>
<li class="fragment next">Reprendre le jeu de données “présidentielle” d’hier</li>
<li class="fragment next">si on veut le jeu de données au format “long” ?</li>
<li class="fragment next">large vers long => <code>gather</code></li>
<li class="fragment next">long vers large => <code>spread</code></li>
</ul>
</section>
<section id="filtrer-filter" class="titleslide slide level1"><h2 class="shout">Filtrer (<code>filter</code>)</h2></section><section id="le-probleme-2" class="slide level2">
<h2>Le problème</h2>
<p>Utile pour :</p>
<ul>
<li class="fragment next">ne sélectionner que certains cas</li>
<li class="fragment next">enlever des cas non pertinents</li>
<li class="fragment next">travailler sur un sous-ensemble (spatial, temporel…) du jeu de données</li>
</ul>
</section><section id="filtrer-un-jeu-de-donnees" class="slide level2">
<h2>Filtrer un jeu de données</h2>
<ul>
<li class="fragment next">Reprendre le jeu de données “présidentielle” d’hier</li>
<li class="fragment next">ne conserver que les communes d’Ile-de-France (ou de votre région !)</li>
<li class="fragment next">ne conserver que les communes dans lesquelles Le Pen obtient plus de 20 % des inscrits</li>
<li class="fragment next">etc.</li>
</ul>
</section>
<section id="agreger-group_by-summarise" class="titleslide slide level1"><h2 class="shout">Agréger (<code>group_by</code> + <code>summarise</code>)</h2></section><section id="le-probleme-3" class="slide level2">
<h2>Le problème</h2>
<ul>
<li class="fragment next">On veut regrouper des observations par un ou plusieurs critères</li>
</ul>
</section><section id="agreger-un-jeu-de-donnees" class="slide level2">
<h2>Agréger un jeu de données</h2>
<ul>
<li class="fragment next">Reprendre le jeu de données “présidentielle” d’hier</li>
<li class="fragment next">Calculer les résultats par département</li>
<li class="fragment next">Calculer les résultats par zones d’emploi !</li>
</ul>
</section>
<section id="fusionner-left_join" class="titleslide slide level1"><h2 class="shout">Fusionner (<code>left_join</code>)</h2></section><section id="le-probleme-4" class="slide level2">
<h2>Le problème</h2>
<p>On veut rapprocher des données issues de deux tables différentes</p>
</section><section id="fusionner-deux-jeux-de-donnees" class="slide level2">
<h2>Fusionner deux jeux de données</h2>
<ul>
<li class="fragment next">Reprendre le jeu de données “présidentielle” d’hier</li>
<li class="fragment next">Y adjoindre le code de la zone d’emploi de chaque commune (source : <a href="http://www.insee.fr/fr/methodes/default.asp?page=zonages/zones_emploi.htm" class="uri">http://www.insee.fr/fr/methodes/default.asp?page=zonages/zones_emploi.htm</a>) : <a href="https://frama.link/ze_csv" class="uri">https://frama.link/ze_csv</a></li>
</ul>
</section>
<section id="visualiser-ggplot2" class="titleslide slide level1"><h2 class="shout">Visualiser (<code>ggplot2</code>)</h2></section><section id="le-probleme-5" class="slide level2">
<h2>Le problème</h2>
<p>Avoir des données, c’est bien, les voir, c’est mieux !</p>
</section><section id="visualiser-des-donnees" class="slide level2">
<h2>Visualiser des données</h2>
<ul>
<li class="fragment next">Distribution de l’abstention</li>
<li class="fragment next">Distribution du vote Le Pen</li>
<li class="fragment next">Corrélation entre les deux ?</li>
</ul>
</section>
<!--
To hide progress bar from entire presentation
just remove “progress” element.
-->
<!-- <div class="progress"></div> -->
<script src="jour3_files/rmdshower/node_modules/shower/node_modules/shower-core/shower.min.js"></script>
<!-- Copyright © 2015 Yours Truly, Famous Inc. -->
<!-- Photos by John Carey, fiftyfootshadows.net -->
<script>renderMathInElement(document.body);</script>
</body>
</html>