You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
Copy file name to clipboardExpand all lines: content/evaluation/_index.md
+68-4Lines changed: 68 additions & 4 deletions
Display the source diff
Display the rich diff
Original file line number
Diff line number
Diff line change
@@ -6,15 +6,79 @@ weight: 90
6
6
slug: evaluation
7
7
---
8
8
9
+
Résumé :
10
+
9
11
* A la fin du semestre, les étudiants rendront un projet informatique par __groupe de 2-3 personnes.__
10
12
* Ce projet dont le __sujet est libre__ devra comporter
11
13
- Un jeu de données (de préférence collecté par le groupe ou a minima enrichi)
12
14
- De la visualisation
13
15
- De la modélisation
14
16
* La __date du rendu__ est fixée au : XXX
15
-
* Au mois de janvier 2021, auront lieu des __soutenances__
16
-
*Le __projet doit utiliser `git` et être disponible sous
17
+
* Au mois de décembre 2020, auront lieu des __soutenances__
18
+
*__Le projet doit utiliser `Git` et être disponible sous
17
19
[github](https://github.com/) <ahref="https://github.com"class="github"><iclass="fab fa-github"></i></a> ou [gitlab](https://gitlab.com/)__ <ahref="https://gitlab.com"class="gitlab"><iclass="fab fa-gitlab"></i></a>
18
20
(dépôt public ou dépôt privé à partager avec le chargé de TD)
19
-
* Des idées de sujets seront communiquées ultérieurement.
20
-
Les étudiants sont invités à proposer des sujets qui leur plaisent, à faire valider par le chargé de TD.
21
+
* Les étudiants sont invités à proposer des sujets qui leur plaisent, à faire valider par le chargé de TD.
22
+
23
+
## Attentes du projet
24
+
25
+
Le projet est une problématique à laquelle vous souhaitez répondre à
26
+
l’aide d’un ou de plusieurs jeu(s) de données.
27
+
28
+
Il faut donc dans un premier temps se pencher sur la recherche de problématisation et de contextualisation. Nous vous recommandons de prendre un sujet qui vous intéresse pour intéresser également le lecteur.
29
+
30
+
{{% panel status="hint" title="Exemples de sujets des années précédentes" icon="fa fa-lightbulb" %}}
31
+
* Pourquoi les employés quittent l’entreprise ?
32
+
* Quelles primes d’insécurité pour les emplois temporaires ?
33
+
* Que peut-on dire des derniers mots d’un condamné à mort ?
34
+
* Comment améliorer la performance d’une équipe de NBA ?
35
+
* Peut-on déduire le nombre de restaurant autour d’une station velib ?
36
+
* Quels sont les déterminants des prix des concerts en ile de France ?
37
+
* Analyse de sentiments sur les compagnies aériennes à partir de tweets
38
+
* Qu’est ce que votre assiette dit de vous ?
39
+
* Titanic : l’inégalité face au naufrage
40
+
{{% /panel %}}
41
+
42
+
Trois dimensions doivent être présentes dans le projet.
43
+
Pour chacune de ces parties, il est possible d’aller plus ou moins loin. Il est recommandé d’aller loin sur au moins une des 3 dimensions.
44
+
45
+
46
+
### La récupération et le traitement des données
47
+
48
+
Ces données peuvent être directement disponibles sous la forme de fichiers txt, csv … ou provenir de sites internet (scrapping, API). Plus le travail sur la récupération de données est important (par exemple scrapping sur plusieurs sites), plus la partie obtiendra de points. Si le jeu de données utilisé est un téléchargement d’un jeu propre existant, il faudra chercher à le compléter d’une manière ou d’une autre pour obtenir des points sur cette partie.
49
+
50
+
Vous obtiendrez vraisemblablement des données qui ne sont pas « propres » du premier coup : mettez en place des protocoles de nettoyage pour obtenir à la fin de cette étape un ou des jeux de données fiable et robuste pour mener ensuite votre analyse. C’est également le moment de créer des variables plus appréhendables, mieux identifiées etc.
51
+
52
+
### L’analyse descriptive et la représentation graphique
53
+
54
+
La présence de statistiques descriptives est indispensable dans le projet. De la description de la base aux premières grandes tendances des données, cette partie permet d’avoir une vision globale des données : le lien avec la problématique, comment elle permet d’y répondre, quels sont les premiers éléments de réponse… Chaque résultat doit être interprété : pas la peine de faire un describe et de ne pas le commenter.
55
+
En termes de représentation graphique, plusieurs niveaux sont envisageables. Vous pouvez simplement représenter vos données en utilisant matplotlib, aller plus loin avec seaborn ou scikit-plot, (voire D3.js pour les plus motivés). La base d’une bonne visualisation est de trouver le type de graphique adéquat pour ce que vous voulez montrer (faut-il un scatter ou un line pour représenter une évolution ?) et de le rendre visible : une légende qui a du sens, des axes avec des noms etc. Encore une fois, il faudra commenter votre graphique, qu’est ce qu’il montre, en quoi cela valide / contredit votre argumentaire ?
56
+
57
+
### La modélisation
58
+
59
+
Vient ensuite la phase de modélisation : un modèle peut être le bienvenu quand des statistiques descriptives ne suffisent pas à apporter une solution complète à votre problématique ou pour compléter / renforcer l’analyse descriptive. Le modèle importe peu (régression linéaire, random forest ou autre) : il doit être approprié (répondre à votre problématique) et justifié.
60
+
Vous pouvez aussi confronter plusieurs modèles qui n’ont pas la même vocation : par exemple une CAH pour catégoriser et créer des nouvelles variables / faire des groupes puis une régression.
61
+
Même si le projet n’est pas celui du cours de stats, il faut que la démarche soit scientifique et que les résultats soient interprétés.
62
+
63
+
64
+
## Format du rendu
65
+
66
+
Sur le format du rendu, vous devrez :
67
+
68
+
* Écrire un rapport sous forme de notebook
69
+
* Avoir un répertoire github avec le rapport. Les données utilisées doivent être accessibles également, dans le dépôt ou sur internet.
70
+
* Les dépôts Github où seul un *upload* du projet a été réalisé ne sont pas autorisés. Il faut utiliser effectivement le contrôle de version.
71
+
* Le code contenu dans le rapport devra être un maximum propre (pas de copier coller de cellule, préférez des fonctions)
72
+
73
+
Le test à réaliser : faire tourner toutes les cellules de votre notebook et ne pas avoir d’erreur est une condition sine qua non pour avoir la moyenne.
74
+
75
+
## Barême approximatif
76
+
77
+
* Données (collecte et nettoyage) : 4 points
78
+
* Analyse descriptive : 4 points
79
+
* Modélisation : 2 points
80
+
* Démarche scientifique tout au long du projet : 4 points
81
+
* Format du code (code propre et github) : 2 points
82
+
* Soutenance : 4 points
83
+
84
+
Le projet doit être réalisé en groupe de deux, voire trois.
0 commit comments