# IoT Micro demos


## Timeseries
Un modèle courant pour stocker et récupérer des données de type Time Series consiste à utiliser le modèle de document avec le modèle de conception bucket. Au lieu de stocker chaque mesure dans un seul document, plusieurs mesures sont stockées dans un seul document. Cela présente l'avantage de : 
 
* Réduire l'espace de stockage (car moins de données sont stockées plusieurs fois, par exemple l'identifiant de l'appareil et d'autres métadonnées, ainsi que de meilleurs taux de compression sur des documents plus volumineux)
* Réduire la taille de l'index (par taille de seau), de plus grandes parties de l'index s'inscriront dans la mémoire et augmenteront les performances
* Réduire les entrées-sorties par moins de documents (la lecture de séries chronologiques à l'échelle est généralement une charge liée aux entrées-sorties)

Dans ce notebook nous veront les principes de bases tel que
* Ingestion des données
* Indexation des données
* Requêtage des données

### Initialisation de la démo



In [12]:
# Installation des librairies non présentes
!pip3 install dnspython



In [13]:
# Chargement des librairies python
import pymongo
import os
import datetime
import bson
from bson.json_util import loads, dumps, RELAXED_JSON_OPTIONS
import random
from pprint import pprint

# Chaîne de connexion pour MongoDB Atlas
CONNECTIONSTRING = "mongodb+srv://XXXXX:YYYYYY@ZZZZZ.mongodb.net/iot_demo?retryWrites=true&w=majority"

# Etablissement de la connexion
client = pymongo.MongoClient(CONNECTIONSTRING)
db = client.iot_demo
collection = db.iot_raw

# Suppression de la collection afin d'avoir un environnement vierge
collection.drop()

## Ingestion des données

La requête suivante permettra de rechercher un document de l'appareil 4711 et où le nombre de mesures est inférieur à 3 entrées dans le bucket. En réalité, il s'agira d'un nombre plus élevé, par exemple 60 ou 100. La nouvelle mesure est poussée dans le tableau appelé m. 

En raison de l'option d'upsert, un nouveau document sera inséré, si aucun bucket disponible ne peut être trouvé. En augmentant le cnt d'une unité à chaque insertion, un nouveau document sera automatiquement créé une fois que le seau existant sera plein.

### Insersion des premières mesures
Le langage de requête MongoDB offre des opérateurs riches que nous utilisons ici pour regrouper automatiquement les données, c'est-à-dire que nous ne stockons pas chaque mesure individuelle dans un document, mais que nous stockons plusieurs mesures dans un tableau.

En utilisant upsert, nous démarrons automatiquement un nouveau bucket, c'est-à-dire que nous créons un nouveau document si aucun bucket avec de l'espace supplémentaire ne peut être trouvé. Sinon, nous poussons la nouvelle mesure dans le bucket.

La déclaration suivante trouvera un bucket ouvert pour l'appareil 4711, c'est-à-dire où le nombre de mesures est inférieur à 3 entrées dans le bucket. En réalité, il s'agira d'un nombre plus élevé, par exemple 60 ou 100. La nouvelle mesure est poussée vers le tableau appelé m, la taille du bucket est augmentée de un. Pour la dernière requête sur les plages de temps, nous stockons également l'horodatage minimal et maximal dans ce bucket.

In [14]:
# Horodatage de la mesure
# Note: Pour une meilleure lisibilité nous travaillons avec les objets datatime. 
# Pour une plus grande précision des temps, tel que la nanoseconde, il est 
# recommandé de travailler avec des valeurs décimales pour représenter les 
# secondes et les nanosecondes.
date = datetime.datetime.now()

# Ajout d'une mesure dans le bucket
collection.update_one({
  "device": 4711,
  "cnt": { "$lt": 3 }
},
{
  "$push": { 
    "m": {
      "ts": date,
      "temperature": random.randint(0,100),
      "rpm": random.randint(0,10000),
      "status": "operating"
    }
  },
  "$max": { "max_ts": date },
  "$min": { "min_ts": date },
  "$inc": { "cnt": 1 }
},
upsert=True);

Le document inséré resemble à ceci:

In [15]:
result = collection.find_one()

pprint(result)

{'_id': ObjectId('5fd1f81e4a618ba100500839'),
 'cnt': 1,
 'device': 4711,
 'm': [{'rpm': 3379,
        'status': 'operating',
        'temperature': 94,
        'ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000)}],
 'max_ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000),
 'min_ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000)}


### Ajout de mesures additionnelles
Insérons quelques données supplémentaires afin d'avoir plusieurs buckets (ici encore, nous utilisons une taille de bucket de 3, en réalité ce nombre sera beaucoup plus élevé). Nous insérons 4 mesures supplémentaires, de sorte qu'il y aura 2 documents avec respectivement 3 et 2 mesures.

In [16]:
for i in range(4):
    date = datetime.datetime.now()
    
    collection.update_one(
        {
            "device": 4711,
            "cnt": { "$lt": 3 }
          },
          {
            "$push": { 
              "m": {
                "ts": date,
                "temperature": random.randint(0,100),
                "rpm": random.randint(0,10000),
                "status": "operating",
                  "new_field": { "subfield1": "s1", "subfield2": random.randint(0,100)}
              }
            },
            "$max": { "max_ts": date },
            "$min": { "min_ts": date },
            "$inc": { "cnt": 1 }
          },
          upsert=True
    )


Le résultat de cette insersion est le suivant:

In [17]:
res = collection.find()

for doc in res:
    pprint(doc)

{'_id': ObjectId('5fd1f81e4a618ba100500839'),
 'cnt': 3,
 'device': 4711,
 'm': [{'rpm': 3379,
        'status': 'operating',
        'temperature': 94,
        'ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000)},
       {'new_field': {'subfield1': 's1', 'subfield2': 38},
        'rpm': 8703,
        'status': 'operating',
        'temperature': 51,
        'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 115000)},
       {'new_field': {'subfield1': 's1', 'subfield2': 64},
        'rpm': 435,
        'status': 'operating',
        'temperature': 71,
        'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 214000)}],
 'max_ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 214000),
 'min_ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000)}
{'_id': ObjectId('5fd1f81f4a618ba10050085e'),
 'cnt': 2,
 'device': 4711,
 'm': [{'new_field': {'subfield1': 's1', 'subfield2': 34},
        'rpm': 3006,
        'status': 'operating',
        'temperature': 85,
        'ts': datetime.date

## Stratégie d'indexation
Une bonne stratégie d'indexation est essentielle pour une interrogation efficace des données. Le premier index est obligatoire pour une recherche efficace des données timeseries dans l'historique. 

Le second est nécessaire pour une récupération efficace du courant, c'est-à-dire un bucket ouvert pour chaque appareil. Si tous les types d'appareils ont la même taille de bucket, il est possible de créer un index partiel, ce qui permet de ne conserver que les bucket ouverts dans l'index.

Pour des tailles de buckets différents, par exemple par type d'appareil, le type peut être ajouté à l'index. Les économies de mémoire et d'espace peuvent être énormes pour les grandes implémentations.

In [18]:
# Index efficace pour les requêtes par devices et date
result = collection.create_index([("device",pymongo.ASCENDING),
                         ("min_ts",pymongo.ASCENDING),
                         ("max_ts",pymongo.ASCENDING)])
print("Created Index: " + result)

# Index efficace pour récupérer les buckets ouverts par device
result = collection.create_index([("device",pymongo.ASCENDING),
                         ("cnt",pymongo.ASCENDING)],
                        partialFilterExpression={"cnt": {"$lt":3}})
print("Created Index: " + result)

Created Index: device_1_min_ts_1_max_ts_1
Created Index: device_1_cnt_1


Ces index vont être utilisés aussi bien lors de l'ingestion que lors de la restitution de données.
Dans un démo plus poussée nous pourrons revenir plus en détails dessus.
## Requêtage des données
Avec le pipeline d'agrégation, il est facile de requêter, filtrer et formater les données. 

Ci-dessous une requête permettant de récupérer 2 indicateurs (temperature et rpm). 

L'opération de tri doit utiliser le préfixe entier entièrement pour que l'opération soit effectuée sur l'index et non en mémoire.

In [19]:
result = collection.aggregate([
  { "$match": { "device": 4711 } },
  { "$sort": { "device": 1, "min_ts": 1 } },
  { "$unwind": "$m" },
  { "$sort": { "m.ts": 1 } },
  { "$project": { "_id": 0, "device": 1, "ts": "$m.ts", "temperature": "$m.temperature", "rpm": "$m.rpm" } }
]);
   
for doc in result:
    print(doc)

{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000), 'temperature': 94, 'rpm': 3379}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 115000), 'temperature': 51, 'rpm': 8703}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 214000), 'temperature': 71, 'rpm': 435}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 312000), 'temperature': 85, 'rpm': 3006}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 410000), 'temperature': 25, 'rpm': 6999}


Afin d'interroger une certaine période, l'étape suivante de $match peut être utilisée pour rechercher une certaine période 

(veuillez remplacer LOWER_BOUND et UPPER_BOUND par les valeurs ISODate appropriées).

In [20]:
LOWER_BOUND = datetime.datetime(2020, 12, 10, 10, 27, 42, 875000) 
UPPER_BOUND = datetime.datetime(2020, 12, 10, 10, 27, 43, 410000) 

result = collection.aggregate([
  { "$match": { "device": 4711, "min_ts": { "$lte": UPPER_BOUND }, "max_ts": { "$gte": LOWER_BOUND } } },
  { "$sort": { "device": 1, "min_ts": 1 } },
  { "$unwind": "$m" },
  { "$match": { "$and": [ { "m.ts": { "$lte": UPPER_BOUND } }, { "m.ts": { "$gte": LOWER_BOUND } } ] } },
  { "$project": { "_id": 0, "device": 1, "ts": "$m.ts", "temperature": "$m.temperature", "rpm": "$m.rpm" } }
]);

for doc in result:
    print(doc)

{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 42, 875000), 'temperature': 94, 'rpm': 3379}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 115000), 'temperature': 51, 'rpm': 8703}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 214000), 'temperature': 71, 'rpm': 435}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 312000), 'temperature': 85, 'rpm': 3006}
{'device': 4711, 'ts': datetime.datetime(2020, 12, 10, 10, 27, 43, 410000), 'temperature': 25, 'rpm': 6999}


### Comment expliquer cette requête
Nous voulons récupérer les données entre les timestamps 8 et 17 qui sont répartis sur 5 buckets:
```
(1) 1 2 3 4 5
(2) 6 7 8 9 10
(3) 11 12 13 14 15
(4) 16 17 18 19 20
(5) 21 22 23 
```
Nous pourrions utiliser une solution complexe telle que celle ci-dessous:
```
     min <= 8  and max >= 8   [ bucket (1) ]
 OR: min >= 8  and max <= 17  [ bucket (3) ]
 OR: min <= 17 and max >= 8   [ bucket (4) ]
```
La condition qui a été mise en place permet d'obtenir le même résultat et permet d'utiliser plus efficacement l'index et permet de sélectionner les buckets interressant:
```
     max >= 8
AND: min <= 17
```