<a href="https://colab.research.google.com/github/Fredfav/notebooks/blob/master/iot_timeseries_indexing_details.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# IoT Micro démos

## Stratégie d'indexation
Une bonne stratégie d'indexation est essentielle pour une interrogation efficace des données. 

Le premier index est obligatoire pour une recherche efficace des données time series dans l'historiques. 

Le second est nécessaire pour une récupération efficace du courant, c'est-à-dire un bucket ouvert pour chaque appareil. Si tous les types d'appareils ont la même taille de bucket, il est possible de créer un index partiel, ce qui permet de ne conserver que les bucket ouverts dans l'index. 

Pour des tailles de bucket différentes, par exemple par type d'appareil, le type peut être ajouté à l'index. Les économies d'espace et de mémoire peuvent être énormes pour les grandes implémentations.

Dans ce notebook nous verrons les index pour:
* ingestion des données
* requêtage des données

### Initialisation de la démo

In [1]:
# Installation des librairies non présentes
!pip3 install dnspython

Collecting dnspython
[?25l  Downloading https://files.pythonhosted.org/packages/f5/2d/ae9e172b4e5e72fa4b3cfc2517f38b602cc9ba31355f9669c502b4e9c458/dnspython-2.1.0-py3-none-any.whl (241kB)
[K     |█▍                              | 10kB 19.3MB/s eta 0:00:01[K     |██▊                             | 20kB 24.1MB/s eta 0:00:01[K     |████                            | 30kB 14.7MB/s eta 0:00:01[K     |█████▍                          | 40kB 13.3MB/s eta 0:00:01[K     |██████▊                         | 51kB 15.1MB/s eta 0:00:01[K     |████████▏                       | 61kB 13.1MB/s eta 0:00:01[K     |█████████▌                      | 71kB 10.6MB/s eta 0:00:01[K     |██████████▉                     | 81kB 11.5MB/s eta 0:00:01[K     |████████████▏                   | 92kB 12.6MB/s eta 0:00:01[K     |█████████████▌                  | 102kB 12.1MB/s eta 0:00:01[K     |███████████████                 | 112kB 12.1MB/s eta 0:00:01[K     |████████████████▎               | 122kB 

In [2]:
# Chargement des librairies python
import pymongo
import os
import datetime
import bson
from bson.json_util import loads, dumps, RELAXED_JSON_OPTIONS
import random
from pprint import pprint

# Chaîne de connexion pour MongoDB Atlas
CONNECTIONSTRING = "mongodb+srv://demo_user:mongodb@demo.mfctp.mongodb.net/iot_demo?retryWrites=true&w=majority"

# Etablissement de la connexion
client = pymongo.MongoClient(CONNECTIONSTRING)
db = client.iot_demo
collection = db.iot_raw

## Création des index
### Index pour l'ingestion des données
Créons maintenant l'index nécessaires pour l'ingestion des données:

In [3]:
# Index pour récupérer les buckets ouverts par device
result = collection.create_index([("device",pymongo.ASCENDING),
                         ("cnt",pymongo.ASCENDING)],
                        partialFilterExpression={"cnt": {"$lt":3}})
print("Created Index: " + result)

Created Index: device_1_cnt_1


Analysons le plan d'exécution d'un requête similaire à ce qui est utilisé lors de l'ingestion de données:

In [4]:
result = db.command("explain", 
                    { 
                        "find": collection.name,
                        "filter":{
                            "device": 4711,
                            "cnt": { "$lt": 3 }
                        }
                    }, 
                    verbosity="executionStats"
                   )

pprint(result["executionStats"]["executionStages"])

{'advanced': 0,
 'alreadyHasObj': 0,
 'docsExamined': 0,
 'executionTimeMillisEstimate': 0,
 'inputStage': {'advanced': 0,
                'direction': 'forward',
                'dupsDropped': 0,
                'dupsTested': 0,
                'executionTimeMillisEstimate': 0,
                'indexBounds': {'cnt': ['[-inf.0, 3)'],
                                'device': ['[4711, 4711]']},
                'indexName': 'device_1_cnt_1',
                'indexVersion': 2,
                'isEOF': 1,
                'isMultiKey': False,
                'isPartial': True,
                'isSparse': False,
                'isUnique': False,
                'keyPattern': {'cnt': 1, 'device': 1},
                'keysExamined': 0,
                'multiKeyPaths': {'cnt': [], 'device': []},
                'nReturned': 0,
                'needTime': 0,
                'needYield': 0,
                'restoreState': 0,
                'saveState': 0,
                'seeks': 1,
           

Le plan d'exécution montre que l'index basé sur `device` et `cnt` est utilisé. Une correspondance exacte sur l'appareil et une traversée de 0 à 3 pour cnt: 
```
'indexBounds': {
    'cnt': ['[-inf.0, 3)'], 
    'device': ['[4711, 4711]']
}
```
Ce sera une opération très efficace, car il n'y a généralement qu'un seul bucket ouvert par device. Seules quelques clés sont examinées dans l'index et un seul document est renvoyé :
```
'keysExamined': 1,
'nReturned': 1
```
### Index pour requêter des données
Avant de requêter les données, insérons quelques données:

In [9]:
# Horodatage de la mesure
# Note: Pour une meilleure lisibilité nous travaillons avec les objets datatime. 
# Pour une plus grande précision des temps, tel que la nanoseconde, il est 
# recommandé de travailler avec des valeurs décimales pour représenter les 
# secondes et les nanosecondes.
date = datetime.datetime.now()

# Ajout de quelques mesures
for i in range(10):
    date = datetime.datetime.now()
    
    collection.update_one(
        {
            "device": 4711,
            "cnt": { "$lt": 3 }
          },
          {
            "$push": { 
              "m": {
                "ts": date,
                "temperature": random.randint(0,100),
                "rpm": random.randint(0,10000),
                "status": "operating",
                  "new_field": { "subfield1": "s1", "subfield2": random.randint(0,100)}
              }
            },
            "$max": { "max_ts": date },
            "$min": { "min_ts": date },
            "$inc": { "cnt": 1 }
          },
          upsert=True
    )

Créons maintenant l'index nécessaires pour le requêtage des données:

In [10]:
# Index efficace pour les requêtes par device et par interval de temps
result = collection.create_index([("device",pymongo.ASCENDING),
                         ("min_ts",pymongo.ASCENDING),
                         ("max_ts",pymongo.ASCENDING)])
print("Created Index: " + result)

Created Index: device_1_min_ts_1_max_ts_1


Avec le pipeline d'agrégation, il est facile de requêter, filtrer et formater les données. 

Ci-dessous une requête permettant de récupérer 2 indicateurs (temperature et rpm). 

L'opération de tri doit utiliser le préfixe entier entièrement pour que l'opération soit effectuée sur l'index et non en mémoire.

In [11]:
result = collection.aggregate([
  { "$match": { "device": 4711 } },
  { "$sort": { "device": 1, "min_ts": 1 } },
  { "$unwind": "$m" },
  { "$sort": { "m.ts": 1 } },
  { "$project": { "_id": 0, "device": 1, "ts": "$m.ts", "temperature": "$m.temperature", "rpm": "$m.rpm" } }
]);
   
for doc in result:
    print(doc)

{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 504000), 'temperature': 99, 'rpm': 4492}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 526000), 'temperature': 97, 'rpm': 3774}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 546000), 'temperature': 79, 'rpm': 2461}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 566000), 'temperature': 95, 'rpm': 1259}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 586000), 'temperature': 17, 'rpm': 4929}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 606000), 'temperature': 66, 'rpm': 6384}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 626000), 'temperature': 67, 'rpm': 2734}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 647000), 'temperature': 13, 'rpm': 1597}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5, 58, 55, 666000), 'temperature': 61, 'rpm': 6842}
{'device': 4711, 'ts': datetime.datetime(2021, 6, 1, 5,

Afin d'interroger une certaine période, l'étape suivante de $match peut être utilisée pour rechercher une certaine période de temps.

(veuillez remplacer LOWER_BOUND et UPPER_BOUND par les valeurs ISODate appropriées ci-dessus).

In [12]:
LOWER_BOUND = datetime.datetime(2021, 6, 1, 5, 58, 55, 504000) # Replace with lower bound (copy & paste from results above)
UPPER_BOUND = datetime.datetime(2021, 6, 1, 5, 58, 55, 687000) # Replace with upper bound (copy & paste from results above)

result = db.command("explain", 
                    { 
                        "find": collection.name,
                        "filter":{
                            "device": 4711,
                            "min_ts": { "$lte": UPPER_BOUND },
                            "max_ts": { "$gte": LOWER_BOUND }
                        }
                    }, 
                    verbosity="executionStats"
                   )

pprint(result["executionStats"]["executionStages"])

{'advanced': 4,
 'alreadyHasObj': 0,
 'docsExamined': 4,
 'executionTimeMillisEstimate': 0,
 'inputStage': {'advanced': 4,
                'direction': 'forward',
                'dupsDropped': 0,
                'dupsTested': 0,
                'executionTimeMillisEstimate': 0,
                'indexBounds': {'device': ['[4711, 4711]'],
                                'max_ts': ['[new Date(1622527135504), new '
                                           'Date(9223372036854775807)]'],
                                'min_ts': ['[new Date(-9223372036854775808), '
                                           'new Date(1622527135687)]']},
                'indexName': 'device_1_min_ts_1_max_ts_1',
                'indexVersion': 2,
                'isEOF': 1,
                'isMultiKey': False,
                'isPartial': False,
                'isSparse': False,
                'isUnique': False,
                'keyPattern': {'device': 1, 'max_ts': 1, 'min_ts': 1},
                'keysE

Le plan d'exécution montre que l'index basé sur `device`, `min_ts` et `max_ts` est utilisé. Une correspondance exacte sur l'appareil
```
'indexBounds': {'device': ['[4711, 4711]'],
                'max_ts': ['[new Date(1607596062875), new '
                            'Date(9223372036854775807)]'],
                'min_ts': ['(true, new Date(1607596063410)]']}
```
Cela est une opération très efficace car seules 2 clés sont examinées et 2 documents sont renvoyés. 
```
'keysExamined': 2,
'nReturned': 2,
```
