# TimeSeries DataBase Evaluation Project

## I/ Objectifs du projet

Ce projet consiste à évaluer differentes bases de données orientées séries temporelles sur des cas d'utilisation liés à la mobilité, à l'éolien et à la gestion des réseaux d'énergie.

Dans ce projet nous avons évalué les parties principales suivantes: 
- le service de collecte de données en streaming, 
- la gestion de la qualité des données, 
- l'exploration et la visualisation des données,
- l'application de module de traitement des données et de machine learning. 

L'objectif de ce projet a été la construction d'une chaîne complète pour la simulation les réseaux d'énergie et la gestion des données. En comparant les fonctions et les bases de données différentes, on a pu comparer des résultats sur des cas de tests et offrir la possibilité d'appliquer et d'accélérer des modules maching learning.<br>

### Evaluations principales de la performance : 
- Quatres bases de données : MongoDB, KairosDB, InfluxDB et Warp10
- Test avec trois jeux de données
- Ingestion et validation des données en streaming
- Requêtes des données pour l'exploration et la visualisation
- Algorithmes d'analyse et de machine learning
- Accéleration du traitement des données avec Dask et Spark

#### Cinq mots clés : Séries temporelles - Streaming - Gestion des données - Database - Evaluation de la performance



## II/ Présentation des Bases de données de type Time Series étudiées

### A/ MongoDB

MongoDB est un système de gestion de base de données orienté documents, répartissable sur un nombre quelconque d'ordinateurs et ne nécessitant pas de schéma prédéfini des données.
#### 1) Présentation
- Caratéristiques principal : 
    - Base NoSQL
    - Modèle de données : Document
    - Systèmes distribués
    - Gestion manuel du temps 
- Ecosystem : 
    - Driver : JavaScript, Python, Ruby, Php, Java, Scala, etc...
    - Outils et cadres d'intégration : Hadoop, Spark, Wireshark, BI, etc...
    - Outils de Visualisation : MongoDB Compass, MongoDB Charts, Grafana
- Avantages
    - Flexibilité : MongoDB est une base de données sans schéma, qui signifie que nous pouvons avoir tout type de données dans un document séparé. 
    - Systèmes distribués & Disponibilité : Nous pouvons stocker une grande quantité de données en la distribuant à plusieurs serveurs connectés à l'application. Aussi, MongoDB utilise la réplication pour rendre les données plus durables.
    - Haute vitesse : MongoDB est une base de données orientée document. Il est facile d'accéder aux documents par indexation. Par conséquent, il fournit une réponse rapide aux requêtes.
- Inconvénient
    - Jointures non prises en charge
    - Utilisation élevée de la mémoire : L'absense de metadata et jointure entraînent une augmentation de l'utilisation inutile de la mémoire.
- Dificultés
    - Gestion des timestamps

#### 2) Notebook [TutoMongoDB](./mongodb.ipynb)

### B/ KairosDB
KairosDB est une base de données orientée séries temporelles distribuées rapide et fiable, principalement utilisée pour Cassandra comme stockage sous-jacent (HBase, H2 peut également être utilisé). Il est réécrit sur la base d'OpenTSDB. Cette recherche est un exemple d'utilisation de H2 pour le stockage de données.
#### 1) Présentation
- Caratéristiques principal :  
    - Base NoSQL
    - Modèle de données : Métrique 
    - Gestion temps dans la base
- Ecosystem : 
    - Driver : java
    - Outils et cadres d'intégration : Warp10
    - Outils de Visualisation : web GUI
- Avantages : 
    - Agrégateurs : Lors de la requête, utilisez l'agrégateurs pour traiter les points de données. L'agrégateur peut être facilement éditer et ajouter les fonctions désirées.
    - Transfert compressé : KairosDB prend en charge la compression gzip des données.
- Inconvénient
    - Structure de données : Un timestamp correspond à une valeur.
    - le REST API ne supporte que timestamp en millisecondes.
    - L'absense de driver aux autres languages.
- Dificultés
    - Réorganisation de la structure des données
    - Passer la dictionnaire de requête dans une terminal
    - Absense d'ecosystème
    
#### 2) Notebook [TutoKairosDB](./kairosdb.ipynb)

### C/ InfluxDB
InfluxDB est une base open source orientée séries temporelles (TSDB) développée par InfluxData. Il est écrit en Go et optimisé pour un stockage et une récupération rapides des données de séries temporelles dans des domaines tels que la surveillance des opérations, les mesures d'application et les données des capteurs.
#### 1) Présentation
- Caratéristiques principal : 
    - Base NoSQL
    - Modèle de données : Métrique 
    - Gestion temps dans la base
- Ecosystem : 
    - Driver : Arduino, C#, Go, JavaScript, Java, Php, Python, etc..
    - Outils et cadres d'intégration : Telegraf, Kapacitor, Spark
    - Outils de Visualisation : Chronograf, Grafana
- Avantages
    - Politiques de rétention : il fournit une façon facile pour ajuster la rétention des données vers le haut ou vers le bas pour éviter les plantages catastrophiques sur le disque.
- Inconvénient
    - Line protocol : moins flexible pour la structure des données
    - Stackage des fragments concernant la périodes de rétention : Lorsque les données sont supprimées en raison de l'expiration de la date de conservation, le fragment entier est perdu.
- Dificultés
    - Utilisaion des guillemets : difficile à écrire les requêtes et le passer dans une terminal

#### 2) Notebook [TutoInfluxDB](./influxdb.ipynb)

### D/ Warp10
La plateforme Warp 10 est conçue pour simplifier la gestion et le traitement des données de séries temporelles. Il comprend une base de données Geo Time Series et un moteur d'analyse complémentaire.

#### 1) Présentation
- Caratéristiques principal : 
    - Base NoSQL
    - Modèle de données : GTS (Geo Time Series)
    - Gestion du temps dans la base
- Ecosystem : 
    - Driver : Python
    - Outils et cadres d'intégration : Hadoop, Spark, Pig, Zeppelin, VSCode, StatsD, CollectD, Telegraf, etc...
    - Outils de Visualisation : Warp View
- Avantages
    - Gestion de GTS : pratique pour les données envoyées par capture
    - Environnement d'analyse : langage de programmation de flux de données appelé WarpScript offert plus de 1000 functions disponibles
- Inconvénient
    - L'absense de tuto et doc
- Dificultés
    - Installation
    - Configuration des plugins pour utiliser warp10 en python
    - Difficle d'exécuter warpscript en python
    - Préparation des donneés au format de GTS

#### 2) Notebook [TutoWarp10](./warp10.ipynb)



## III/ Présentation des jeux de données étudiés

### A/ Données SmartGrid

Données issues de la base de données hystorian

Il s'agit des données transmises par des capteurs du bâtiment  Cryolite.

Trois fichiers csv correspondant à :
- Un jour de collecte
- Une semaine de collecte
- Un mois de collecte

Une présentation plus détaillée des données se trouve dans le Notebook [SmartGridData](./smartgrid_data.ipynb)

### B/ Données Eolienne

Il s'agit de données collectées par des capteurs dans des éoliennes de la zone de Lacq.

Une présentation plus détaillée des données se trouve dans le Notebook [WindPropData](./windprop_data.ipynb)

### C/ Données de pollution

Il s'agit de données collectées par des capteurs de pollution dans des véhicules lors d'expérimentation de controle de pollution sur des profils de trajet.

Une présentation plus détaillée des données se trouve dans le Notebook [PolluantData](./polluant_data.ipynb)

## IV/ Présentation de l' architecture du framework données
<img src="img/schemaV2.PNG" width="800"/>

## V/ Collecte & préparation des données

La collecte des données en streaming est basée sur l'architectures suivantes :
- des producteurs de données simulant capteurs produisent et écrivent des données sur le topic d'un serveur Kafka
- des consommateurs de données collectent les données sur les topics, les valident, les corrigent puis les écrivent dans des base de données

<img src="img/consumer-group-kafka.png" width="800"/>

Le notebook [KafkaProducer](data_producer.ipynb) illustre les méchanismes de production de données et écriture sur des topics Kafka.

Le notebook [KafkaConsumer](data_consumer.ipynb) illustre les méchanismes de consommation de données à partir de topics Kafka, puis la validation, la corrections puis la mise en bases.

Tous ces mécanismes sont valider pour les 3 use cases:
- Données SmartGrid
- Données Eolienne
- Données de polution

## VI/ Exploration des données et visualisation

### A/ Outils de visualisation

- Graphana
- Outils spécifiques à chaque type de base
- Visdom

### B/ test de Visdom et Matplotlib

Le notebook [DataExploration](./visualiser.html) illustre les mécanismes de requétage des données stokées en base et comment visualiser ces données avec matplotlib ou des outils comme visdom dans des navigateurs web

## VII/ Analyse de données et Machine learning

Le notebook [MachineLearning](./data_analytics.html) illustre comment requéter des données pour appliquer des algorithmes d'analyse de données et de machine learning.

## VIII/ Performance

### A/ Dashboard Jaeger
<img src = "img/p_kairosdb_wp.png" width="800"/>

### B/ Analyse des performances des différentes bases en mode ingestion de données et requetes

Dans le tableau suivant nous comparons pour les jeux de données SmartGrid (SG1M) et WindProp (WP25)
- les temps d'insertion de données des jeux de données dans les 4 bases (insert)
- les temps de requetes de tous le jeux de données (allquery)
- les temps de requetes pour certains tags (select)

Les tests sont executés à partir du cluster LAB
Les bases sont situés sur le cluster Evoa
#### Mode local
1) Insert (en seconde)

| BucketSize\Database| MongoDB | KairosDB | InfluxDB | Warp10 |
| ----------- | ----------- |----------|----------|--------|
| SG1M 1000 | 10.87 | 64.35 | 49.21 | 55.03 |
| SG1M 2000 | 9.98 | 63.00 | 33.04 | 39.67 |
| SG1M 4000 | 9.50 | 61.46 | 23.56 | 24.58 |
| SG1M 8000 | 11.00 | 60.17 | 19.41 | 16.72 |
| SG1M 16000 | 9.86 | 59.10 | 18.44 | 12.88 |
| SG1M 32000 | 10.06  | 60.40 | 16.79 | 12.25 |
| ----------- | ----------- |----------|----------|--------|
|WP25 100 | 0.49 | 0.92 | 2.30 | 736.31 |
|WP25 200 | 0.43 | 1.46 | 1.58 | 373.40 |
|WP25 400 | 0.47 | 0.72  | 0.89 | 192.18 |
|WP25 800 | 0.51 | 0.71 | 0.60 | 101.31 |
|WP25 1600 | 0.50 | 1.22 | 0.46 | 50.95 |
|WP25 3200 | 0.56 | 0.67 | 0.42 | 30.70 |



2) Allquery (en seconde)

| BucketSize\Database| MongoDB | KairosDB | InfluxDB | Warp10 |
| ----------- | ----------- |----------|----------|--------|
| SG1M | 4.10 | 0.94 | 3.92 | 0.35 |
| WP25 | 0.56 | 0.02 | 0.13 | 0.12 |


#### Mode cluster-evoa

1) Insert (en seconde)

| BucketSize\Database| MongoDB | KairosDB | InfluxDB | Warp10 |
| ----------- | ----------- |----------|----------|--------|
| SG1M 1000 | 21.09 | 10.63 | 26.79 | 55.03 |
| SG1M 2000 | 18.93 | 8.35 | 24.21 | 39.67 |
| SG1M 4000 | 18.52 | 6.66 | 22.65 | 24.58 |
| SG1M 8000 | 17.72 | 6.02 | 20.61 | 16.72 |
| SG1M 16000 | 16.61 | 4.81 | 19.79 | 12.88 |
| SG1M 32000 | 16.22  | 3.97 | 17.75 | 12.25 |
| ----------- | ----------- |----------|----------|--------|
|WP25 100 | 0.76 | 0.95 | 0.79 | 2.98 |
|WP25 200 | 0.72 | 0.38 | 0.84 | 1.37 |
|WP25 400 | 0.65 | 0.23 | 0.43 | 0.99 |
|WP25 800 | 0.68 | 0.19 | 0.31 | 0.84 |
|WP25 1600 | 0.61 | 0.21 | 0.24 | 1.19 |
|WP25 3200 | 0.65 | 0.15 | 0.30 | 0.67 |


### C/ Accéleration des traitements de données avec Spark

Il s'agit d'accélérer le calcul de la courbe moyenne sur un jour des donnes collectés sur 1 mois de tous les capteurs du batiment Cryolite

Dans le notebook [SparkAnalytics](./data_analytics_pyspark.ipynb) nous illustrons le calcul des ces courbes sur le clusteur LAB avec Spark

### D/ Accéleration des traitements de données avec Dask

Il s'agit d'accélérer le calcul de la courbe moyenne sur un jour des donnes collectés sur 1 mois de tous les capteurs du batiment Cryolite

Dans le notebook [DaskAnalytics](./data_analytics_dask.ipynb) nous illustrons le calcul des ces courbes sur le clusteur LAB avec Spark


### E/ Comparaison Pandas, Spark et Dask 

On mesure le temps pour créer les clients Dask ou Spark sur le cluster LAB, le temps du calcul avec des dataframe Pandas, PySpark ou Dask et les temps totaux des tests.

| Test        | Pandas  | PySpark | Dask    |
| ----------- | --------|---------|---------|
| Client      | 0.      | 2.49    | 48.15   |
| Analytics   | 18.5    | 8.43    | 9.84    |
| Total       | 27.9    | 33.7    | 80.30   |

## IX/ Conclusion et perspectives

- Terminer les tests sur le cluster LAB
- Utilisation de nouveau cas d'utilisation métiers
- Valider des requetes plus compliqués (timestamp, expression avec des tags)
- Statistique directement avec fonction de requête évolué de la base de données
- ...