# introduction

Cette partie vise à introduire l'élaboration d'une *pipeline* complète de données de la récolte des données brutes au déploiement des modèles statistiques, d'apprentissage automatique et/ou d'apprentissage profond en passant par le traitement des données brutes, la séparation des données nettoyées en, plusieurs sous-datasets pour l'entraînement des modèles et l'élaboration de *dashboards*. Ce guide sur les *pipelines* des séries temporelles se veut exhaustif pour permettre une étude aussi bien légère et rapide, mais aussi plus poussée comportant une compréhension fine de ce qu'est la science des données. Ce guide s'adapte donc aussi bien aux personnes voulant avoir les prérequis de base sur ce qu'est la science des données qu'aux personnes souhaitant approfondir leurs connaissances de base qui recherchent un réel guide / *mémento* de fonctions, modèles, concepts mathématiques permettant de devenir un réel expert en la matière. 

Ce guide inclut aussi des notions liées à la data science largement déployées en industrie. Bien ce ne soit pas le coeur du métier de *datascientist*, ce dernier se doit d'avoir une bonne compréhension des enjeux qui gravitent autour de son travail.

---
## 1. Structure d'un projet en *data science*.

## 2. Performance management

Cette partie est facultative est n'est pas sencée apparaître de base sur ce fichier. Cepedant, au fur et à mesure de mes projets, j'ai trouvé que le temps d'exécution de certains scripts (hors programmation GPU) pouvait prendre un temps considérable lorsque le dataset considéré est de grande taille. C'est pourquoi je rajoute cette partie, bien que facultative pour la pratique de la *data science*, elle peut devenir indispensable pour des *datasets* de grande taille, notament pour le scaling de big data en structure interne.

### 2.1 Les bases du multiprocessing

Sans rentrer dans les détails d'architecture des ordinateurs, le multiprocessing permet de répartir les calculs à réaliser par le processeur pour réaliser un script. En effet, au lieu de ne prioriser qu'un seul coeur du processeur pour effectuer cette tâche, le multiprocessing permet d'utiliser autant de coeurs que l'on souhaite (dans la limite de notre processeur) pour réaliser la tâche demandée, plus ou moins équitablement en fonction du script. Voici in exemple de multiprocessing :

In [1]:
import multiprocessing

def carre(x): # Fonction de pool
    return x * x

if __name__ == "__main__": # fonction principale
    with multiprocessing.Pool(processes=4) as pool:
        resultats = pool.map(carre, [1, 2, 3, 4, 5])
    
    print(resultats) 

[1, 4, 9, 16, 25]


Ce bloc de code permet d'utiliser quatres coeur pour 5 appels de fonction au total (si le processeur en possède au moins 4) pour calculer le carré des éléments de la liste, au lieu de n'utiliser qu'un coeur pour les 5 appels, comme le ferait le script suivant :

In [2]:
[carre(x) for x in [1,2,3,4,5]]

[1, 4, 9, 16, 25]

Ce qui permet de réduire grandement la vitesse d'exécution du script. 
Pour cet exemple, la taille de la liste étant trop petite pour voir la différence, il sera intéressant de voir, par la suite, que sur des échantillons très volumineux ou même des opérations beaucoup plus coûteuses en temps de calcul, on préférera les fonctions de pooling.

---
## 2 Récolte des données