Permalink
Browse files

histoires

  • Loading branch information...
sdpython committed Dec 3, 2015
1 parent 0fd20c0 commit b2e3886cec4937d5073f893ae7c3e9b8c3434912
@@ -0,0 +1,16 @@
.. blogpost::
:title: Histoires de données
:keywords: data, données, répétition
:date: 2015-12-03
:categories: données
Deux petites histoires que j'ai ajoutées à ce site :
retranscrites ici :ref:`l-histoire_big_data`
(`première version <http://www.xavierdupre.fr/blog/2015-01-22_nojs.html>`_)
et :ref:`l-histoire_donnee_isolee`
(`première version <http://www.xavierdupre.fr/blog/2015-01-24_nojs.html>`_).
La première histoire explique en quoi le concept de répétition
est important en statistique. La seconde revient sur la moyenne
qui résume beaucoup trop brièvement cette répétition.
@@ -1,3 +1,4 @@
#-*- coding: utf-8 -*-
import sys
import os
import datetime
@@ -0,0 +1,115 @@
.. index:: Big Data, données
.. _l-histoire_big_data:
C'est quoi les données, c'est quoi le Big Data ?
================================================
**+10 ans**
Dans le film
`Bienvenue à Gattaca <https://fr.wikipedia.org/wiki/Bienvenue_%C3%A0_Gattaca>`_,
le héros joué par
`Ethan Hawke <https://fr.wikipedia.org/wiki/Ethan_Hawke>`_
doit non seulement faire disparaître ses traces
mais aussi laisser celles de celui dont il usurpe l'identité.
La moindre inattention peut jeter le doute voire dévoiler le stratagème.
Une empreinte digitale inattendue interpelle immédiatement.
Comme c'est inattendu, il faut lui trouver une explication.
La donnée : c'est une information juste avant qu'elle ne devienne
partie intégrante d'une histoire, juste avant qu'on l'interprète.
Et comme le suggère ce film, on en laisse partout et tout le temps.
On en génère tellement qu'on est forcé de ne pas y prêter trop attention.
La moindre connexion internet, la poussière sur le plancher,
la température de l'eau, la fuite d'air à la fenêtre. C'est une donnée dès
qu'on la décrit. Il y en a tellement qu'on les oublie rapidement.
C'est juste un fait divers.
**Mais pourquoi sont-elles si populaires maintenant ?**
Une des raisons est qu'elles restent plus longtemps.
La poussière sur mon plancher disparaît avec l'aspirateur. La connexion à un
site internet restent plusieurs mois dans plusieurs fichiers de plusieurs machines
différentes. Ces données numériques ont la vie dure. Ca n'explique pas
pourquoi elles sont populaires. Seulement, du fait qu'elles restent
plus longtemps, on a plus de temps pour les observer et leur donner du sens.
**Comment donne-t-on du sens aux données ?**
Les statistiques y sont pour beaucoup même si ce terme n'est pas une explication en soi.
`David Hume <https://fr.wikipedia.org/wiki/David_Hume>`_
dans
`Enquête sur l'entendement humain <https://fr.wikipedia.org/wiki/Enqu%C3%AAte_sur_l%27entendement_humain>`_
nous apporte quelques
éléments de réponses. Nous sommes tous très amnésiques mais une des
façons qui nous permet de retenir est la répétition. Une observation,
une donnée, commence à prendre du sens dès qu'elle se répète. Pour citer Hume :
De causes qui paraissent semblables, nous attendons des effets semblables.
Telle est la somme de toutes nos conclusions expérimentales.
Les marins utilisaient les étoiles pour se repérer. Ils ont su associer
la position d'une étoile dans le ciel (une donnée) de
la même étoile à la même position une année plus tard (la donnée est répétée).
C'est le début de la connaissance : chaque année, la même étoile
est à la même position dans le ciel. On peut l'utiliser pour se repérer.
**Et Big Data ?**
La somme des données qui se rapporte à la même personne est quasiment infini.
Seulement, aujourd'hui, elle persiste. Qu'en faire ?
C'est tellement énorme que ce serait comme découvrir toute la voie lactée
le même jour. Il faudrait une vie pour l'étudier... Sauf que...
on a maintenant des ordinateurs qui font plein de calculs très rapidement.
Alors on reprend notre cher Hume : on se répète beaucoup !
On fait presque tous les jours la même chose, et si ce n'est pas tous les jours,
c'est toutes les semaines. Nous avons une vie rythmée - au sens musical -.
Alors en comparant toutes les journées entre elles, et avec un bon ordinateur,
on arrive à déterminer les habitudes et les goûts de chacun.
**Et alors ?**
Et bien c'est d'abord très drôle. On porte un bracelet au poignet
qui enregistre les déplacements. On peut compter ses pas, enregistrer
son poids tous les jours. C'est un peu comme si découvrait qu'on
n'était plus intéressant que le voisin parce qu'on découvre plein
de choses sur soi-même. Et le voisin, il n'est plus aussi intéressant ?
Si si toujours, mais c'est lui qui nous montre sa courbe de poids,
alors ce n'est plus aussi drôle. Et puis, quand on mange un carré de chocolat,
on peut le mesurer tout de suite. Et ça c'est fun.
Autrefois si éphémères, les données sont quasi éternelles, et elles disent
beaucoup de choses. Votre enfant sera peut-être dans 25 ans archéologue numérique.
Les listes des relevés de cartes bleues pourraient permettre tout à la
fois d'ajuster un régime alimentaire mal équilibré qu'à prédire
la probabilité d'avoir un cancer (sauf si vous achetez toujours
tout y compris votre whisky préféré en liquide).
* Tu as vu le Monde aujourd'hui ? Les français prennent du poids à Noël !
* Incroyable, ils ont piraté ma balance numérique !
* Euh... tu es sûr ?
**Les données, d'accord... et le bruit alors ?**
C'est
`Agatha Christie <https://fr.wikipedia.org/wiki/Agatha_Christie>`_
qui nous apporte la réponse.
`Hercule Poirot <https://fr.wikipedia.org/wiki/Hercule_Poirot>`_
avait coutume de dire que le meurtrier est un homme parfaitement normal
qui cherche justement à l'être le seul jour où il ne l'est pas.
Il pense à chaque instant à gommer tout ce qui pourrait éveiller les soupçons.
S'il avait envie de manger une petite gâterie, il y renoncera car d'hatitude,
il prend un jambon beurre à midi. Le meurtrier évacuera pour une
journée toute fantaisie. Et pourtant, ce sont tous ces petits aléas
qui font qu'une journée est parfaitement normale, tous ces petits détails
qu'on n'est incapable de retenir, tous ces petits détails qui, parfois,
sont remarqués par votre collègue car justement ils sortent de l'ordinaire.
Mais si toute la journée, un meutrier pense à son crime, il n'y a plus de
relâchement possible et il va chercher à gommer ces petits aléas qui attirent
l'attention. En fin de compte, il aura paru tout à fait normal,
bien trop normal pour être vrai, d'après Hercule Poirot. Le bruit, ce
sont les fausses notes de la journée par rapport à une journée parfaitement
normale, fausses notes délicieuses pour toute personne sensée, fausses notes
malheureuses pour tout statisticien sensé.
@@ -0,0 +1,57 @@
.. index:: Big Data, données
.. _l-histoire_donnee_isolee:
La donnée isolée et la moyenne
==============================
**+10 ans**
Les données sont légions et n'attendent que
d'être intégrées à une histoire qui selon les personnes prend le
nom d'interprétation, de modèle, d'analyse, de synthèse.
Mais bien mystérieuse est la gestation de cette histoire.
Mon premier témoignage d'une avalanche de chiffres remonte sans doute à
`Matrix <https://fr.wikipedia.org/wiki/Matrix>`_
où un programmateur fascinant interprétait un déluge de bits en temps réel
sans aucune lampe stroboscopique dont tout humain normal aurait eu besoin
pour espérer y voir quelque chose.
Nous ne sommes pas vraiment capables de donner un sens à une telle diarrhée
numérique. Le plus souvent, on en fait la moyenne ou la médiane
et on en garde que ce seul chiffre qui devient la seule chose à raconter.
Personne n'aime affronter une tonne de chiffres mais savoir que celle-ci
a accouché d'un seul nombre qui résume le tout, ça rassure et c'est simple à retenir.
Le salaire médiane, le salaire moyen des ministres du gouvernement,
le nombre d'élèves moyens par classe, le taux de chômages (moyen), le QI moyen,
on fait une somme, on divise, on est content. On se sent même un peu
savant dès qu'on parle d'écart type, un peu plus encore si on évoque les corrélations.
Et puis tout de suite, comme ces moyennes ont un poids certain, on se compare à elle.
On est au dessus. On est heureux. On est en dessous, on se sent lésé.
Tout à coup, on sait où on se trouve. On se sait rien du voisin mais on sait tout
des français. Moi (donnée isolée) contre les autres (données agrégées),
un grand classique. Lorsqu'on est du bon côté, on se repose, du mauvais,
on a enfin trouvé l'objectif : la moyenne ou mieux encore, le premier
`quartile <https://fr.wikipedia.org/wiki/Quartile>`_.
Et puis patatras, j'ai calculé le taux moyen de guérison de deux hôpitaux pour
choisir le meilleur. Et je n'aurais pas pris toutes les données en considération,
j'aurais raté un morceau de l'histoire ? C'est
`Le paradoxe de Simpson <https://fr.wikipedia.org/wiki/Paradoxe_de_Simpson>`_.
* J'hésite entre deux hôpitaux, le premier a un taux de succès de 98%, le second 90%.
* Ah bon, tu hésites ?
* Allez, on y va.
Un peu plus tard.
* Tu lis quoi sur le fronton ?
* Euh... Chirurgie esthétique.
* Tu n'aurais pas pu le dire avant !
* Mais tu m'as dit de prendre le meilleur.
* Le meilleur pour ton type d'opération !
* J'ai oublié de regarder cette donnée.
@@ -5,20 +5,34 @@
Histoires pour réfléchir et rêver
=================================
**pour les petits**
pour les petits
+++++++++++++++
.. toctree::
:maxdepth: 1
la_poule_a_change
Quelques histoires interactives où le conteur a une place
importante :
histoires interactives
++++++++++++++++++++++
Quelques histoires où le conteur a une place importante :
* :ref:`l-donnes_cantine` (et ses réponses guidées : :ref:`l-donnes_cantine_sol`)
**pour les plus grands**
un peu plus de données
++++++++++++++++++++++
.. toctree::
:maxdepth: 1
big_data
donnees_isolees
un peu plus d'Histoire
++++++++++++++++++++++
.. toctree::
:maxdepth: 1
@@ -33,8 +33,7 @@ La première a eu lieu à Dunkerque le :ref:`25 mars 2015 <l-session_2015_03_25>
.. toctree::
:maxdepth: 1
blog <blog/main_0000.rst>
Parcours d'attraction dès 7 ans <sessions/sessions>
Parcours d'attraction <sessions/session_2015_03_25>
.. _l-contenu-range:

0 comments on commit b2e3886

Please sign in to comment.