---
jupyter:
  jupytext:
    text_representation:
      extension: .md
      format_name: markdown
      format_version: '1.3'
      jupytext_version: 1.16.0
  kernelspec:
    display_name: Python 3 (ipykernel)
    language: python
    name: python3
---

<!-- #region id="0089fbca" -->
# Table des matières
1. [Pourquoi la visualisation des données est-elle si efficace ?](#pourquoi-la-visualisation-des-données-est-elle-si-efficace-)
1. [Pourquoi visualiser les données?](#pourquoi-visualiser-les-données)
  1. [Comparaison des données](#comparaison-des-données)
  1. [Validation des hypothèses](#validation-des-hypothèses)
  1. [Détection et interprétation des tendances](#détection-et-interprétation-des-tendances)
  1. [Aide à prendre des décisions basées sur des faits](#aide-à-prendre-des-décisions-basées-sur-des-faits)
  1. [Identification des valeurs aberrantes](#identification-des-valeurs-aberrantes)
  1. [Simplification des données complexes](#simplification-des-données-complexes)
1. [Un incontournable!](#un-incontournable)
<!-- #endregion -->

<!-- #region colab_type="text" id="790fd68a" -->
La visualisation de données est un aspect très important de la « science des données », car elle permet d'avoir une meilleure compréhension de celles-ci et de mieux communiquer la sémantique qui y est contenue.

Ce module est une brève introduction sur le sujet. Les prochains modules discutent des deux librairies de visualisation de données en langage Python les plus connues; Matplotlib et Seaborn. Puisqu'une image vaut mille mots, chaque module contient beaucoup d'exemples avec quelques brèves explications. Au travers des exemples, nous allons voir quels outils sont les plus adaptés pour représenter certains types de données.

En avant-propos, nous vous invitons à visualiser l'excellente capsule de [John Rauser](https://twitter.com/jrauser) sur la perception neuroscientifique des graphiques :

<p>&nbsp;</p>

[![How humans see data](https://img.youtube.com/vi/fSgEeI2Xpdc/0.jpg)](https://www.youtube.com/watch?v=fSgEeI2Xpdc)
<!-- #endregion -->

<!-- #region id="626641c1" -->
# <a id=pourquoi-la-visualisation-des-données-est-elle-si-efficace->Pourquoi la visualisation des données est-elle si efficace ?</a>
<!-- #endregion -->

<!-- #region id="03e066d4" -->
On utilise la visualisation des données pour traduire des informations généralement numériques dans
un contexte visuel. Notre système visuel a évolué pendant des millions d'années afin d'exceller dans les tâches suivantes :

- la détection des structures (*Pattern Recognition*),
- la séparation des couleurs,
- la détection des orientations,
- l'estimation des distances,
- la détection du mouvement.
<!-- #endregion -->

<!-- #region id="f06e6dab" -->
<p>&nbsp;</p>

<div align="center">
    <img src= "../images/paleolithic-art.jpeg"  width="400" />
    <div>
    <font size="1.5">Image Source: https://courses.lumenlearning.com/zeliart101/chapter/prehistoric-art-paleolithic-origins/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="c46e90f3" -->
Les méthodes de visualisation tirent parti de ces forces en transformant les données sous forme de graphiques en
couleurs, en animations, en diagrammes de points (*scatter plots*) avec des marqueurs de diverses formes, tailles et couleurs, etc. Cela facilite grandement la compréhension des données par notre cerveau et lui permet d’en tirer des informations. Nos ancêtres ne chassaient pas les tableurs Excel!
<!-- #endregion -->

<!-- #region id="22249dac" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/spreadsheet-illustration.png"  width="700" />
    <div>
    <font size="1.5">Image Source: https://stackoverflow.com/questions/28897762/how-to-find-a-row-in-an-excel-sheet-using-excel-macro-vba/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="415db666" -->
# <a id=pourquoi-visualiser-les-données>Pourquoi visualiser les données?</a>
<!-- #endregion -->

<!-- #region id="ec24ecfe" -->
Il y a de nombreuses raisons pour cela dont voici les principales:
<!-- #endregion -->

<!-- #region id="4c66d9d8" -->
## <a id=comparaison-des-données>Comparaison des données</a>
<!-- #endregion -->

<!-- #region id="28959bd1" -->
- Les diagrammes statistiques permettent de synthétiser et de comparer entre elles des populations hétérogènes contenant
des milliers d'éléments.
<!-- #endregion -->

<!-- #region id="5aae02c3" -->
## <a id=validation-des-hypothèses>Validation des hypothèses</a>
<!-- #endregion -->

<!-- #region id="b0f278ef" -->
- Plusieurs étudiants et chercheurs font encore leur analyse des données au moyen d'indicateurs statistiques
courants (moyenne, écart-type), puis utilisent des tests d'hypothèses sans jamais regarder leurs données!
Un fichier Excel (ou CSV, txt, etc.) ne dit pas grand-chose au-delà des chiffres.
- Beaucoup de méthodes statistiques longtemps utilisées à la bourse et en finances reposaient
sur des hypothèses simplificatrices sur les distributions de données. Certains krachs boursiers (p. ex. en 2008)
observés au fil des ans en étaient les conséquences. Il faut
visualiser nos données pour vérifier la validité des hypothèses sur lesquelles on base nos décisions.
<!-- #endregion -->

<!-- #region id="8c4f2f79" -->
<p>&nbsp;</p>
<div align="center">
    <img src="../images/dow-jones-graph.gif"  width="500" />
    <div>
    <font size="1.5">Image Source: https://www.historyofthings.com/history-of-djia-dow-jones-industrial-average</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="9cb71aeb" -->
## <a id=détection-et-interprétation-des-tendances>Détection et interprétation des tendances</a>
<!-- #endregion -->

<!-- #region id="2daf2c6f" -->
- La détection des tendances permet d'établir des relations entre des variables.
- Elle tire parti de notre facilité à reconnaitre les structures dans les données.
- L'interprétation des tendances nous permet de mieux comprendre les phénomènes
mesurés, qu'ils soient physiques, biologiques, sociaux, etc.
- C'est la partie préférée des scientifiques. La figure suivante montre la confirmation
la détection d'ondes gravitationnelles.
<!-- #endregion -->

<!-- #region id="651a1a23" -->
<p>&nbsp;</p>

<div align="center">
    <img  src="../images/data-tendency-illustration.png"  width="500" />
    <div>
    <font size="1.5">Image Source: https://astronomy.stackexchange.com/questions/13726/how-to-derive-the-redshift-of-gw150914</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="f926b5bc" -->
## <a id=aide-à-prendre-des-décisions-basées-sur-des-faits>Aide à prendre des décisions basées sur des faits</a>
<!-- #endregion -->

<!-- #region id="8531bfd8" -->
- C'est la partie préférée des spécialistes en marketing, en sciences de la gestion, en politique, etc.
- On a droit à nos opinions, pas à nos faits. Que l'on apprécie ou non les conclusions que l'on
tire en observant nos données, elles sont basées sur le maximum d'information disponible et
synthétisée par la visualisation.
<!-- #endregion -->

<!-- #region id="3b92cecc" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/pyramide-des-âges.png"  width="700" />
    <div>
    <font size="1.5">Image Source: https://carlboileau.com/generation-x-y-z-revolution-demission-tranquille/</font>
    </div>
</div>

<!-- #endregion -->

<!-- #region id="4ee633b3" -->
## <a id=identification-des-valeurs-aberrantes>Identification des valeurs aberrantes</a>
<!-- #endregion -->

<!-- #region id="7c6978a5" -->
- Problème: erreurs de mesures. $\rightarrow$ Solution: les éliminer. 
- Problème: erreurs d'enregistrement des données. $\rightarrow$ Solution: corriger les entrées.
- Problème: anomalies sur une courbe. $\rightarrow$ Solution: investiguer! La figure suivante montre l'anomalie ayant mené à la confirmation de l'existence du boson de Higgs en physique des particules.
<!-- #endregion -->

<!-- #region id="37c25f1f" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/identification-anomalie.jpeg"  width="500" />
    <div>
    <font size="1.5">Image Source: https://physics.stackexchange.com/questions/253286/explanation-of-graphs-from-cern/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="9476bc47" -->
## <a id=simplification-des-données-complexes>Simplification des données complexes</a>
<!-- #endregion -->

<!-- #region id="9174655f" -->
- Identification des variables réellement importantes. Plus besoin de mesurer les autres.
- Réduction de la dimensionnalité des données. On cherche une plus grosse aiguille dans une petite botte de foin.

<!-- #endregion -->

<!-- #region id="19b280cd" -->
<p>&nbsp;</p>
<div align="center">
    <img src= "../images/needle-in-hay-stack.jpeg"  width="500" />
    <div>
    <font size="1.5">Image Source: https://pxhere.com/no/photo/480533/</font>
    </div>
</div>
<!-- #endregion -->

<!-- #region id="af96edd2" -->
# <a id=un-incontournable>Un incontournable!</a>
<!-- #endregion -->

<!-- #region id="1ff254e3" -->
La référence suivante est un incontournable (un ***must!***) pour ceux qui s'intéressent aux méthodes de
visualisation au fil des siècles. Il discute des forces et des faiblesses des méthodes encore
utilisées aujourd'hui, pour le meilleur et pour le pire.

<p>&nbsp;</p>

<div align="center">
    <img src= "../images/visual-display-book.gif"  width="300" />
    <div>
    <font size="1.5">Image Source: https://www.edwardtufte.com/tufte/books_vdqi/</font>
    </div>
</div>

[Edward Tufte](https://en.wikipedia.org/wiki/Edward_Tufte) a probablement écrit le meilleur livre
sur les différentes approches en visualisation et leur histoire. Il est fort à parier qu'on peut le trouver
dans la bibliothèque, ou sur l'ordinateur, d'au moins la moitié des concepteurs de
librairies en visualisation (Python, Matlab, R, SAS, etc.). Jetez-y un coup d'oeil!
<!-- #endregion -->
