In [1]:
(defun ipynb-rise-metadata (orig-func &rest args)
  (let ((data (apply orig-func args)))
    ;; now add the desired rise metadata. this is the second element
    (push '(rise . (("autolaunch" . "true"))) (cdr (second data)))
    data))

(advice-add 'ox-ipynb-export-to-buffer-data :around #'ipynb-rise-metadata )

## Data-Science : Quoi / Pourquoi / Comment ?



## Connaissances métier × Statistiques × Informatique



![img](obipy-resources/184c95a80de40307c4c2ad838874b78b706444af/9469356b12751676463c0ed96a48a9ae4d29d981.png)

Remarque :

Informatique ≠ "Computer science"



## La révolution informatique n'a pas encore eu lieu



[Cf. Révolution de l'imprimerie](https://www.computer.org/csdl/proceedings-article/icse/1999/21540584/12OmNvlxJz1).



## L'ordinateur comme outil pour comprendre



Extension du cerveau :

-   Percevoir
-   Traiter
-   Modéliser
-   Valider ses modèles
-   Prévoir

Maximisation de la bande passante entre l'ordinateur et le cerveau : visualisation.



### Percevoir



Acquisition / lecture de données



### Traitement de données



-   Gestion des différents formats de données
-   Fusion de différentes sources
-   Gestion des valeurs manquantes / aberrantes



### Modélisation



-   Modélisation descriptive / prédictive

-   Concepts → classes d'équivalences

-   Détermination d'une structure sous-jacente



### Valider ses modèles



#### Validation de modèles descriptifs



Cognition matérialiste et non idéaliste : plutôt que de s'intéresser à la *probabilité* d'évẽnements selon un modèle donné, on va s'intéresser à la *vraisemblance* de modèles selon des évènements observés.



#### Validation de modèles prédictifs



Un modèles prédictif doit être valide pour des données n'ayant pas servi à élaborer le modèle (compréhension de la structure sous-jacente vs. apprentissage par cœur).



### Prévisions



On cherche à minimiser le coût des erreurs de prévision : il y a souvent des compromis à faire (faux positifs vs faux négatifs).



### Compréhension ?



Corrélations ≠ Causalité L'analyse de données aide plutôt à poser les questions pertinentes qu'à donner des explications.

Cf. Connaissances métier !



## Statistiques



En pratique, les données suivent rarement les lois de distributions mathématiques pour lesquelles on a des démonstrations. *The proof of the pudding is in the eating.*



## Outils : Notebooks Python



### Python



Un langage **interprété** avec un écosystème extrêmement riche pour l'analyse de données. Pour des raisons de performance, on ne peut pas traiter de gros volumes de données **en** python, mais on peut traiter de gros volumes de données **avec** python, grâce à des bibliothèques (qui ne sont pas écrites en python).

![img](https://imgs.xkcd.com/comics/compiling.png)



## Coder vs développer des logiciels



On évite les deux principales difficultés du développement logiciel :

-   complexité algorithmique : on va sous-traiter les problèmes
    difficiles aux auteurs de bibliothèques
-   complexité architecturale : on ne va pas développer un logiciel
    destiné à être maintenu par une équipe sur la durée.



## Développement orienté StackOverflow



S'il s'agit surtout d'appeler correctement des fonctions de bibliothèques, on peut trouver facilement des bouts de codes en réponse aux mêmes questions / messages d'erreurs

![img](img/StackOverflow-Search.png)



## Quantité de bibliothèques disponibles



Apprentissage *Just In Time* (sur le tas) plutôt que *Just In Case* (au cas où).



## Pouvoir vs Savoir



Distinguer ce qu'on peut faire de ce qu'on sait faire : accepter d'expérimenter !



## Connaissances minimales essentielles



Niveaux de détails :

1.  **Ce qu'on veut faire**
2.  **Les concepts mis en jeu**
3.  **Les bibliothèques python qui les implémentent**
4.  Les fonctions de ces bibliothèques à utiliser
5.  Comment utiliser ces fonctions



### Ce qu'on veut faire



1.  Pouvoir lire des données
2.  Les nettoyer (valeurs manquantes/ aberrantes)
3.  Les décrire :
    -   mathématiquement (modèles)
    -   visuellement
4.  En inférer des propriétés :
    -   de la population dont les données disponibles constituent un échantillon
    -   de réalisations futures d'évènements dont les données disponibles constituent le passé
5.  Faire des prévisions sur de nouvelles données



### Lire des données



Notion de **DataFrame** (cf. feuille de calcul, table de SGDBR), avec un **index** et des **colonnes**, implémentés par la bibltiothèque [Pandas](https://pandas.pydata.org/).



### Nettoyer des données



Notion de **types** de données et de **valeurs manquantes**. Le volume de données impose d'utiliser des structures de données performantes implémentées par la bibliothère [Numpy](https://numpy.org/) (utilisée par [Pandas](https://pandas.pydata.org/)).



### Décrire des données



Attributs numériques ou catégoriels.



### Modélisation mathématiques



Notion de centiles et de **distribution**, avec ses *moments* : *moyenne*, *variance*, *skew* (asymétrie), *kurtosis* (acuité). Corrélations (*effect size*, *p-value*) implémentées par [SciPy](https://www.scipy.org/) et [Statsmodels](https://www.statsmodels.org/).



### Visualisation



Représenter graphiquement des données selon des attributs numériques ou catégoriels et pouvoir personnaliser / annoter / configurer les figures, grâce à [Seaborn](https://seaborn.pydata.org/) basé sur [Matplotlib](https://matplotlib.org/).



### Inférer des propriétés



Cf. Modélisation mathématiques, toujours avec [Statsmodels](https://www.statsmodels.org/).



### Prévision (machine learning)



Concepts :

-   Prévoir les valeurs d'attributs numériques (**régression**) ou catégoriels (**classification**)
-   Évaluer des prévisions numériques (**Root Mean Square Error**, **Mean Absolute Error**) ou catégorielles (comprimis **précision / rappel** , courbe **ROC**, **AUC**)
-   Utiliser des jeux de données d':
    1.  **apprentissage**
    2.  **validation**
    3.  **test**

Implémentés en python avec la bibliothèque [Scikit-learn](https://scikit-learn.org/stable/) (le nom du module Python est sklearn)



## Aspects pédagogiques



Objectifs :

-   devenir autonome donc autodidacte
-   apprendre le plus efficacement (donc rapidement) possible



## Courbe Apprentissage(charge cognitive)



    import matplotlib.pyplot as plt
    import numpy as np
    import scipy.stats as stats
    import math
    
    plt.xkcd()
    plt.figure(figsize=(20,10));
    plt.rc('font',size=32)
    
    #plt.rcParams['lines.linewidth'] = 10
    plt.rc('lines', linewidth = 10)
    
    mu = 0
    variance = 1
    sigma = math.sqrt(variance)
    x = np.linspace(mu - 3*sigma, mu + 3*sigma, 40)
    plt.plot(x, stats.norm.pdf(x, mu, sigma))
    plt.xlabel("intensite / charge cognitive")
    plt.ylabel("apprentissage")
    plt.tick_params(axis='x', which='both', bottom=False, top=False, labelbottom=False)
    plt.tick_params(axis='y', which='both', right=False, left=False, labelleft=False)
    for pos in ['right','top','bottom','left']:
        plt.gca().spines[pos].set_visible(False)
    plt.axvline(-1, color='k', linestyle='solid')
    plt.axvline(1, color='k', linestyle='solid')
    plt.text(-2.5,0.45,'Ennui')
    plt.text(1.5,0.45,'Stress')
    plt.annotate('Etes-vous ici?', xy=(0, 0.4), xytext=(-0.75, 0.2),c='red',
                arrowprops=dict(facecolor='red', arrowstyle='fancy, tail_width=0.8, head_length=2, head_width=1.8'))
    
    plt.show()

    <Figure size 1440x720 with 1 Axes>

![img](obipy-resources/184c95a80de40307c4c2ad838874b78b706444af/3cb0fb80f5dab5cb18dd4d4552a465bd2182518e.png)



## Dispositif pédagogique



-   Pour chacun des modules :
    1.  Tutoriel :
        -   interactif
        -   avec petits exercices
    2.  Travaux Pratiques : mise en œuvre plus ou moins (de plus en plus !) autonome
    3.  Mini quizz

-   En fin de session : Mini projet



## Des questions ?



(La bonne réponse est "Oui!" ☺)

> Si tu veux construire un bateau, ne rassemble pas tes hommes et femmes pour leur donner des ordres, pour expliquer chaque détail, pour leur dire où trouver chaque chose&#x2026; Si tu veux construire un bateau, fais naître dans le coeur de tes hommes et femmes le désir de la mer. &#x2014;Antoine de Saint-Exupéry

