# Visualisation des données

In [1]:
import visdom
import numpy as np
import sys
sys.path.append("../TimeSeriesTools")
import utils
from cerberus import Validator
import chart_studio.plotly as py
import plotly.express as px
import plotly.tools as tls
from plotly.subplots import make_subplots
import plotly.graph_objects as go
import pandas as pd
from datetime import datetime

## Connexion à la base MongoDB

In [2]:
import mongodb_utils
db_host= 'localhost'
port = '27018'
db_name='TimeSeriesBench'
mongodb_client = mongodb_utils.mongodb_connect(db_host, port)


Trying to connect to MongoDB server: localhost on port: 27018


In [3]:
import kairosdb_utils
global kairosdb_server 
kairosdb_server = "http://localhost:9080"

In [4]:
import influxdb_utils
db_host= 'localhost'
port = '8086'
db_name='TimeSeriesBench'
influxdb_client = influxdb_utils.influxdb_connect(db_host, port)

Trying to connect to InfluxDB server without proxy: localhost on port: 8086
connection sucess!


In [5]:
import warp10_utils
global warp10_server 
warp10_server = "http://localhost:8080"

## Lecture des données dans la base
Cette fonction est utilisée pour lire tous les documents dans la base de mongodb, mais il reste un problème : mongodb n'est pas une base de données spécialement conçue pour les données de séries temporaires, donc c'est possible d'exister certains données dédoublées avec même timestamps. Soit on définit un règle avant le stockage de mongodb pour supprimer ou modifier les données dédboulées, ou soit on le néglige.

In [6]:
def get_collection_scheme(db_name,scheme_name):
    db = mongodb_client[db_name]
    schemes_coll = db['schemes']
    scheme = schemes_coll.find({"name":scheme_name})
    return scheme

In [7]:
def mongodb_find_all_data(db_name,coll_name,scheme):
    data = mongodb_utils.get_all_data(mongodb_client,db_name,coll_name,scheme)
    return data

In [8]:
def mongodb_find_data_select_by_tags(db_name,coll_name,tags,scheme):
    data = mongodb_utils.get_data_select_by_tags(mongodb_client,db_name,coll_name,tags,scheme)
    return data

In [9]:
def kairosdb_find_all_data(db_name,coll_name,scheme):
    data = kairosdb_utils.get_all_data(kairosdb_server,db_name,coll_name,scheme)
    return data

In [10]:
def kairosdb_find_data_select_by_tags(db_name,coll_name,tags,scheme):
    data = kairosdb_utils.get_data_select_by_tags(kairosdb_server,db_name,coll_name,tags,scheme)
    return data

In [11]:
def influxdb_find_all_data(db_name,coll_name,scheme):
    data = influxdb_utils.get_all_data(influxdb_client,db_name,coll_name,scheme)
    return data

In [12]:
def influxdb_find_data_select_by_tags(db_name,coll_name,tags,scheme):
    data = influxdb_utils.get_data_select_by_tags(influxdb_client,db_name,coll_name,tags,scheme)
    return data

In [30]:
def warp10_find_data_select_by_tags(db_name,coll_name,tags,scheme):
    import json
    res = warp10_utils.get_data_select_by_tags(warp10_server,db_name,coll_name,tags)    
            
    nb_docs = 0
    data_list = []
    for r in res :
        for d in r:
            nb_docs += len(d['v'])
            for v in d['v']:
                data_list.append([v[0], json.loads(v[4])])
    tagname = 'TAG'
    for i,(k,v) in enumerate(tags.items()):
        tagname = tagname+'.'+v

    cols = [ k for k in scheme.keys()]
    results = []
    for d in data_list:
        data = d[0]
        str_value = str(id)+';'+str(d[0])+';'+tagname+';'+str(d[1][0])+';'+str(d[1][1])
        values = str_value.split(';')
        results.append({ cols[i]:values[i] for i in range(len(cols))})
    return results

## Conversion les dates des données à unix timestamp
Les objects de datetime ne peuvent pas directemant utilisés pour tracer l'axis X, donc il faut d'abord convertir les datetime à unix timestamp.

In [14]:
def to_unix_time(dt):
    epoch =  datetime.utcfromtimestamp(7200)
    return (dt - epoch).total_seconds() * 1000

In [None]:
def str_to_unix(date):
    dt = datetime.strptime(date, '%d/%m/%Y %H:%M:%S')
    epoch = datetime.utcfromtimestamp(0)
    return int((dt - epoch).total_seconds()) * 1000

## Nettoyage des données dans la base
Normalement cette étape est faite avant le stockage des données, vu que on ne sait pas encore les règles détaillés pour la validation les données, on insère quand même les données corruptibles dans la base. <br>
Dans cet exemple, la source des données contient une ligne de données qui manque trois champs pour tester la validation des données.<br>
Donc avant visualiser les courbes, on trouve d'abord les données corruptibles et les supprime. 
Les règles de validation temporaires sont : 
* tous les champs sont présentés
* les types des champs sont string sauf "_id" car cerberus ne connaît pas le type `bson.objectid.ObjectId`
* tous les champs ne sont pas string vide

In [15]:
def clean_data(scheme,data):
    from cerberus import Validator
    v = Validator(scheme)
    for index,item in enumerate(data,start=0):
        res = v.validate(item)
        if (res == False):
            print("corrupt data in line :",index,", error : ",v.errors)
            del data[index]

### Connecter à la base de test et affichhe le nombre total des données trouvées dans la collection désirée

In [16]:
scheme = get_collection_scheme(db_name,'SmartGrid')
scheme[0]

{'_id': ObjectId('5ed8af9859e948764cadceb2'),
 'name': 'SmartGrid',
 'value': {'_id': {'required': True},
  'timestamp': {'type': 'string', 'required': True, 'empty': False},
  'tagname': {'type': 'string', 'required': True, 'empty': False},
  'value': {'type': 'string', 'required': True, 'empty': False},
  'quality': {'type': 'string', 'required': True, 'empty': False}}}

In [17]:
%%time
coll_name='SmartGridCryolite20190101OneMonthV10000'
data = mongodb_find_all_data(db_name,coll_name,scheme[0]['value'])
print("number of docs",len(data))

3847990  documents found
number of docs 3847990
CPU times: user 18.1 s, sys: 2.04 s, total: 20.1 s
Wall time: 21.9 s


In [18]:
%%time
coll_name='SmartGridCryolite20190101OneMonthV10000'
tags = { 'Buiding' : 'CRY', 'Device' : 'CENTRALE_SOLAIRE', 'Measure' : 'CRY_act_prod_pow' }
data = mongodb_find_data_select_by_tags(db_name,coll_name,tags,scheme[0]['value'])
print("number of docs",len(data))

137920  documents found
number of docs 137920
CPU times: user 1.21 s, sys: 427 ms, total: 1.64 s
Wall time: 4.38 s


In [19]:
%%time
coll_name='SmartGridCryolite20190101OneMonthV10000'
tags = { 'Buiding' : 'CRY', 'Device' : 'CENTRALE_SOLAIRE', 'Measure' : 'CRY_act_prod_pow' }
data = kairosdb_find_data_select_by_tags(db_name,coll_name,tags,scheme[0]['value'])
#data = kairosdb_find_all_data(db_name,coll_name,scheme[0]['value'])
print("number of docs",len(data))

number of docs 27584
CPU times: user 112 ms, sys: 26 ms, total: 138 ms
Wall time: 2.79 s


In [20]:
%%time
coll_name='SmartGridCryolite20190101OneMonthV10000'
tags = { 'Buiding' : 'CRY', 'Device' : 'CENTRALE_SOLAIRE', 'Measure' : 'CRY_act_prod_pow' }
data = influxdb_find_data_select_by_tags(db_name,coll_name,tags,scheme[0]['value'])
print("number of docs",len(data))

number of docs 27584
CPU times: user 2.54 s, sys: 257 ms, total: 2.79 s
Wall time: 9.14 s


In [31]:
%%time
coll_name='SmartGridCryolite20190101OneMonthV10000'
tags = { 'Buiding' : 'CRY', 'Device' : 'CENTRALE_SOLAIRE', 'Measure' : 'CRY_act_prod_pow' }
data = warp10_find_data_select_by_tags(db_name,coll_name,tags,scheme[0]['value'])
print("number of docs",len(data))

REQUEST: //store read token in a variable
'BcquvKbk0Cd1Egb4ITqytPdXjN1kf6MTaK5hBEQfD.0rM61wEzV76nFogWt608XNQ8NCZYybDntMXSDugaTQx21jAv4qW59BM68wR.xUQxnMVwRW1Xe0q3eQw2l2swJxGe_uK2gwXGIydx_l5D5K.m8BfhSR0NQSz7Zx8ClQPhhRNFQocY_ZuV' 'Rt' STORE
[  $Rt   'SmartGridCryolite20190101OneMonthV10000'
  { 'Buiding' 'CRY' 'Device' 'CENTRALE_SOLAIRE' 'Measure' 'CRY_act_prod_pow' } NOW MINLONG 1 + ] FETCH
Status code: 200
number of docs 27584
CPU times: user 241 ms, sys: 17.8 ms, total: 258 ms
Wall time: 357 ms


### Nettoyer les données récupérées
Les informations des données corruptibles seront affichées dans la console :
* position (nbr de ligne)
* nom de champs qui a des problème
* message d'erreur, pourquoi cette partie de données n'est pas validée

In [None]:
clean_data(scheme[0]['value'],data)

In [None]:
%%time
df = pd.DataFrame(data)
df[0:5]

In [None]:
df['value']

In [None]:
df.tagname.unique()

In [None]:
df2 = df.loc[df['tagname'] == 'CRY.CENTRALE_SOLAIRE.CRY_act_prod_pow']
df2[0:10]

### Convertir les string d'heure à datetime object 

In [None]:
# convertir cas MongoDB
df['timestamp'] = df['timestamp'].apply(str_to_unix)

### Préparer la figure basée sur la bibliothèque `plotly`
Pour éviter les données dédoublées, on recupère les premières 5000 lignes comme la source de données du plot.<br>
Dans cet plot les courbes partagent les axis-X et axis-Y, donc on peut observer que les tendances des courbes ne sont pas très claire parce que les plages de valeur des colonnes de données sont très variées.<br>

In [None]:
# Cas MongoDB
x = df2['timestamp'].values
nb_pts = len(x)
nb_pts

In [None]:
y_value=[float(item) for item in df2["value"]]
y_quality=[float(item)/100 for item in df2["quality"]]

In [None]:
x = df['timestamp'].values
nb_pts = len(x)
nb_pts

In [None]:
y_value=[float(item) for item in df["value"]]
y_quality=[float(item)/100 for item in df["quality"]]

In [None]:
%matplotlib inline
#nb_pts=700000
fig = go.Figure()
fig.add_trace(go.Scatter(
                x=x,
                y=y_value,
                name="value",
                line_color='deepskyblue',
                opacity=0.8))

fig.add_trace(go.Scatter(
                x=x,
                y=y_quality,
                name="quality",
                line_color='dimgray',
                opacity=0.8))

# Use date string to set xaxis range
fig.update_layout(xaxis_range=[x[0],
                               x[nb_pts-1]],
                  title_text="smartgrid data series")
fig.show()

Cet plot contient trois subplots, dans la figure, les courbes partagent l'axis-X mais elles possèdent différents axis-Y.<br>
On remarque que les tendances des courbes sont plus évidentes que la figure précédente.

In [None]:
fig = make_subplots(
    rows=1, cols=1, shared_xaxes=True, vertical_spacing=0.02
)

fig.add_trace(go.Scatter(
                x=x,
                y=y_value,
                name="value",
                line_color='deepskyblue',
                line_width = 2,
                opacity=0.8),
              row=1, col=1)

fig.update_layout(height=1000, width=1000,
                  title_text="smartgrid data series")
fig.show()

### Initialiser visdom et envoyer le plot à visdom via requête Http post
Avant cette étape, il faut lancer le service de visdom dans le terminal.
```bash
> visdom
```
L'address du web UI de visdom sera affichée dans la console.

In [None]:
vis = visdom.Visdom()
vis.plotlyplot(fig, win="mywin3")

### Ajuster la taille de la fenêtre

In [None]:
vis.update_window_opts(win = "mywin3", opts=dict(width=1200, height=1500))

Après l'exécution de ce script, ouvrir le web UI de visdom, le plot est présenté dans une fenêtre intéractive.