<style>div.title-slide {    width: 100%;    display: flex;    flex-direction: row;            /* default value; can be omitted */    flex-wrap: nowrap;              /* default value; can be omitted */    justify-content: space-between;}</style><div class="title-slide">
<span style="float:left;">Licence CC BY-NC-ND</span>
<span>Thierry Parmentelat &amp; Arnaud Legout</span>
<span><img src="media/both-logos-small-alpha.png" style="display:inline" /></span>
</div>


# La data science en général et en Python en particulier

## Complément - niveau basique

### Qu'est-ce qu'un data scientist&nbsp;?

J'aimerais commencer cette séquence par quelques réflexions générales sur ce qu'on appelle data science. Ce mot valise, récemment devenu à la mode, et que tout le monde veut ajouter à son CV, est un domaine qui regroupe tous les champs de l'analyse scientifique des données. Cela demande donc, pour être fait sérieusement, de maîtriser :

 1. un large champ de connaissances scientifiques, notamment des notions de statistiques appliquées ;
 2. les données que vous manipulez ;
 3. un langage de programmation pour automatiser les traitements. 

#### Statistiques appliquées

Pour illustrer le premier point, pour quelque chose d'aussi simple qu'une moyenne, il est déjà possible de faire des erreurs. Quel intérêt de considérer une moyenne d'une distribution bi-modale&nbsp;? 

Par exemple, j'ai deux groupes de personnes et je veux savoir lequel a le plus de chance de gagner à une épreuve de tir à la corde. L'âge moyen de mon groupe A est de 55 ans, l'âge moyen de mon groupe B est de 30 ans. Il me semble alors pouvoir affirmer que le groupe B a plus de chances de gagner. 
Seulement, dans le groupe B il y a 10 enfants de 5 ans et 10 personnes de 55 ans et dans le groupe A j'ai une population homogène de 20 personnes ayant 55 ans. Finalement, ça sera sans doute le groupe A qui va gagner. 

Quelle erreur ai-je faite ? J'ai utilisé un outil statistique qui n'était pas adapté à l'analyse de mes groupes de personnes. Cette erreur peut vous paraître stupide, mais ces erreurs peuvent être très subtiles voire extrêmement difficiles à identifier. 


#### Connaissance des données 

C'est une des parties les plus importantes, mais largement sous
estimées : analyser des données sur lesquels on n'a pas d'expertise
est une aberration. Le risque principal risque est d'ignorer l'existence
d'un facteur caché, ou de supposer à tort l'indépendance des
données (sachant que nombre d'outils statistiques ne fonctionnent que
sur des données indépendantes). Sans rentrer plus dans le détail, je
vous conseille de lire cet article de [David Louapre sur le paradoxe
de Simpson](https://sciencetonnante.wordpress.com/2013/04/29/le-paradoxe-de-simpson/)
et [la vidéo associée](https://www.youtube.com/watch?v=vs_Zzf_vL2I),
pour vous donner l'intuition que travailler sur des données qu'on ne
maîtrise pas peut conduire à d'importantes erreurs d'interprétation. 

#### Maitrise d'un langage de programmation

Comme vous l'avez sans doute compris, le succès grandissant de la
data science est dû à la démocratisation d'outils informatiques comme
R, ou la suite d'outils disponibles dans Python, dont nous abordons
certains aspects cette semaine.

Il y a ici cependant de nouveau des difficultés. Comme nous allons le
voir il est très facile de faire des erreurs qui seront totalement
silencieuses, par conséquent, vous obtiendrez presque toujours un
résultat, mais totalement faux. Sans une profonde compréhension des
mécanismes et des implémentations, vous avez la garantie de faire
n'importe quoi.

Vous le voyez, je ne suis pas très encourageant, pour faire de la data
science vous devrez maîtriser la bases des outils statistiques,
comprendre les données que vous manipulez et maîtriser parfaitement
les outils que vous utilisez. Beaucoup de gens pensent qu'en faisant un
peu de R ou de Python on peut s'affirmer data scientist, c'est faux,
et si vous êtes, par exemple, journaliste ou économiste et que vos
résultats ont un impact politique, vous avez une vraie responsabilité 
et vos erreurs peuvent avoir d'importantes conséquences.

### Présentation de pandas

Numpy est l'outil qui permet de manipuler des tableaux en Python, et
pandas est l'outil qui permet d'ajouter des indexes à ces
tableaux. Par conséquent, pandas repose entièrement sur numpy et
toutes les données que vous manipulez en pandas sont des tableaux
numpy. 

Il est important de comprendre que le monde
de la data science en Python suit un autre paradigme que Python. Là où
Python favorise la clarté, la simplicité et l'uniformité, numpy and
pandas favorisent l'efficacité. La conséquence est une augmentation de
la complexité et une moins bonne uniformité. Aussi, personne ne joue
dans la communauté data science en Python le rôle de BDFL de Guido van Rossum.
Nous entrons donc largement dans une autre philosophie que celle de Python.

#### Erreurs classiques en numpy

Commençons par revenir rapidement sur numpy et en particulier sur des
erreurs fréquentes. 

In [None]:
import numpy as np

In [None]:
x = np.ones((3, 3), dtype=np.uint8)
print(x)

In [None]:
# changeons la première ligne de ce tableau
x[0,:] = [255, 256, 12.532]
print(x)

Comme on a créé un tableau d'entiers codés sur 8 bits,
chaque entier ne peut prendre qu'une valeur entre 0 et 255. Si on
dépasse 255, alors il n'y aura pas de message d'erreur, mais le calcul 
est fait silencieusement modulo 255. Vous remarquez aussi que si vous ajoutez un
float à un tableau d'entier, le float sera simplement tronqué pour
obtenir un entier. À nouveau, vous ne veoyez aucun avertissement, aucune erreur. 

Regardons maintenant ces autres cas :

In [None]:
# on peut ajouter une représentation str d'un entier 
# à un tableau d'entiers
x[0, 0] = '8'
print(x, x.dtype)

In [None]:
try:
    x[0, 0] = '8.1'
except ValueError as e:
    print(f"on ne peut pas ajouter une représentation sous forme" 
          f" de str d'un float: {e}")

In [None]:
try:
    x[0, 0] = 'c'
except ValueError as e:
    print(f"ni une chaîne de caractères: {e}")

Une autre erreur classique est d'utiliser les opérateurs logiques
booléens pour former un masque au lieu des opérateurs bitwises. Le
moyen mnémotechnique est de penser qu'un masque est formé de bits et
donc qu'il faut utiliser un opérateur logique bitwise, mais bon, ça aurait pu être implémenté autrement, et ce choix est discutable. 

In [None]:
a = np.random.randint(1, 10, size=(3, 3))
print(a)

In [None]:
# combien d'éléments pairs et supérieurs à 5

# l'opérateur logique booléen and ne marche pas
try:
    np.sum((a % 2 == 0) and (a > 5))
except ValueError as e:
    print(f"and ne marche pas ici : {e}")

# il faut utiliser l'opérateur bitwise et ne pas oublier les parenthèses
np.sum((a % 2 == 0) & (a > 5))

#### Les structures de données en pandas

Il y a deux structures de données principales en pandas, les Series et
les DataFrame. Une Series est un tableau à une dimension où chaque
élément est indexé avec essentiellement un autre array (souvent de
chaînes de caractères), et une DataFrame est un tableau à deux
dimensions ou les lignes et les colonnes sont indexées. La clef ici
est de comprendre que l'intérêt de pandas est de pouvoir manipuler les
tableaux numpy qui sont indexés, et le travail de pandas est de rendre
les opérations sur ces indexes très efficaces.

Vous pouvez bien sûr vous demander à quoi cela sert, alors regardons un petit exemple. Nous allons revenir sur les notions utilisées dans cet exemple, notre but ici est de vous montrer l'utilité de pandas sur un exemple.

In [None]:
# seaborn est un module pour dessiner des courbes qui améliore 
# sensiblement matplotlib, mais ça n'est pas ce qui nous intéresse ici.
# seaborn vient avec quelques jeux de données sur lesquels on peut jouer. 
import seaborn as sns

# chargeons un jeu de données qui représente des pourboires
tips = sns.load_dataset('tips')

# voici a quoi ressemble ces données. On a la note totale (total_bill), 
# le pourboire (tip), le sexe de la personne qui a fait le pourboire,
# si la personne est fumeur ou non fumeur (smoker), le jour du repas,
# le moment du repas (time) et le nombre de personnes à table (size)
tips.head()

On voit donc un exemple de données indexées, à la fois par des labels sur les
colonnes, et par un rang entier sur les lignes dans une DataFrame. C'est
l'utilisation de ces indexes qui va nous permettre de faire des
requêtes expressives sur ces données. 

In [None]:
# commençons par une rapide description statistique de ces données
tips.describe()

In [None]:
# prenons la moyennes par sexe
tips.groupby('sex').mean()

In [None]:
# et maintenant la moyenne par jour
tips.groupby('day').mean()

In [None]:
# et pour finir la moyenne par moment du repas
tips.groupby('time').mean()

Vous voyez qu'en quelques requêtes simples et intuitives (nous
reviendrons bien sûr sur ces notions) on peut grâce à la notion
d'index, obtenir des informations précieuses sur nos données. Vous
voyez qu'en l'occurrence, travailler directement sur le tableau numpy
aurait été beaucoup moins aisé. 

### Conclusion

Nous avons que la data science est une discipline complexe qui demande de nombreuses compétences. Une de ces compétences est la maîtrise d'un langage de programmation, et à cet égard la suite data science de Python qui se base sur numpy et pandas offre une solution très performante. 

Une dernière question à aborder&nbsp;: R ou la suite data science de Python&nbsp;?

Notre préférence va bien évidemment à la suite data science de Python parce qu'elle bénéficie de toute la puissance de Python. R est un langage dédié à la statistique qui n'offre pas la puissance d'un langage générique comme Python. Mais dans le contexte de la data science, R et la suite data science de Python sont deux excellentes solutions. À très grosse maille, la syntaxe de R est plus complexe que celle de Python, par contre, R est très utilisé par les statisticiens, il peut donc avoir une implémentation d'un nouvel algorithme de l'état de l'art plus rapidement que la suite data science de Python. 