In [46]:
from elasticsearch import Elasticsearch
from elasticsearch import helpers
import pandas as pd
import numpy as np
import json
from ssl import create_default_context
from datetime import datetime
from datetime import timedelta
#para request
import requests
from getpass import getpass
import parametros
import time

### Definiendo fechas para rangos de consultas

In [47]:
now = datetime.now()
ahora = str(now.strftime("%Y/%m/%d %H:%M"))
new_date = now - timedelta(days=6)
fecha_6 = str(new_date.strftime("%Y/%m/%d %H:%M"))
#url_hoy = str(now.strftime("%Y/%m/%d"))
fecha_hoy = str(now.strftime("%Y.%m.%d"))

## Leyendo datos del indice

In [48]:
context = create_default_context(cafile=parametros.cafile)
es = Elasticsearch(
    parametros.servidor,
    http_auth=(parametros.usuario_EC, parametros.password_EC),
    scheme="https",
    port=parametros.puerto,
    ssl_context=context,
)

## tomando fecha mas reciente del indice

Reglas definidas:
* Cuando no exista información ingestada aún, se asume como fecha maxima 2021/01/01 00:00, sin embargo el rango para hacer request será la fecha actual menos N días para el inicio, y una hora mas para el fin.
* Si existe información en el indice pero la maxima fecha en este es menor a la actual menos N días, se cambia su valor por esta ultima.

In [49]:
total_docs = 0
try:
    response = es.search(
        index=parametros.ohmyfi_consumos_index,
        body={"aggs" : {
                   "max_date": {"max": {"field": "fecha_inicio", "format": "yyyy/MM/dd HH:mm"}}
                }
             },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["aggregations"]
    fecha_max=response["aggregations"]["max_date"]['value_as_string']
    h_inicio = response["aggregations"]["max_date"]['value_as_string']
    h_fin = (datetime.strptime(h_inicio, '%Y/%m/%d %H:%M')+timedelta(hours=1)).strftime("%Y/%m/%d %H:%M")
except:
    fecha_max = fecha_6
    h_inicio = fecha_6
    h_fin = str((new_date+timedelta(hours=1)).strftime("%Y/%m/%d %H:%M"))

if fecha_6 > fecha_max:
    h_inicio = fecha_6
    h_fin = str((new_date+timedelta(hours=1)).strftime("%Y/%m/%d %H:%M"))
print("Fecha maxima en indice:", fecha_max,"| Fecha inicio:", h_inicio, " | Fecha fin:", h_fin)

Fecha maxima en indice: 2021/10/14 12:35 | Fecha inicio: 2021/10/14 12:35  | Fecha fin: 2021/10/14 13:35


## Leyendo la API consumos

* Se hace un bucle externo incrementando la fecha una hora.
* Se hace un bucle interno con un offset maximo de 10 paginas. LA API no tiene un tope.
* Si el offset por defecto de la API aumenta de 100 a otra cantidad, se debe ajustar la cantidad de bucles de offset

In [50]:
url2 = parametros.url_ohmyfi +'?/consumos/=&apiKey=' + parametros.ohmyfi_api_key 

In [51]:
url2

'https://www.ohmyfi.com/ApiOMF?/consumos/=&apiKey=okMOpLAkiYpafQKXhXirwUys'

In [52]:
datos_api = pd.DataFrame(columns=['idconexion','mac_usuario','lugar','idlugar','lugar_cod'
                                  ,'mac_ap','fecha_inicio','fecha_finalizacion'
                                  ,'tiempo_sesion_minutos','rango_hora'])

while h_inicio < ahora:
    offset = 1
    bandera = 1
    while bandera ==1 & offset < 50:
        if h_fin[11:16] == '00:59':
            h_inicio = h_fin[0:11] + '00:00'
        elif h_inicio[8:10] != h_fin[8:10]:
            h_inicio = h_inicio[0:11] + '23:00'
            h_fin = h_inicio[0:11] + '23:59'
        url = url2 + '&inicio=' + str(h_inicio) + '&final=' + str(h_fin) + '&offset=' + str(offset)
        r = requests.get(url, timeout=15)
        offset = offset + 1
        if r.status_code == 200:
            res = json.loads(r.text)
            print(url)
            datos_api = datos_api.append(res, ignore_index=True)
            datos_api.drop_duplicates(inplace=True)
        else:
            print("Se rompe bucle por error de request:",r.status_code)
            if r.status_code != 204:
                bandera = 2
                print("Error:",r.status_code,"URL:",url)
    h_inicio = h_fin
    h_fin = (datetime.strptime(h_inicio, '%Y/%m/%d %H:%M') + timedelta(hours=1)).strftime("%Y/%m/%d %H:%M")
    time.sleep(3)

https://www.ohmyfi.com/ApiOMF?/consumos/=&apiKey=okMOpLAkiYpafQKXhXirwUys&inicio=2021/10/14 12:35&final=2021/10/14 13:35&offset=1


In [53]:
url

'https://www.ohmyfi.com/ApiOMF?/consumos/=&apiKey=okMOpLAkiYpafQKXhXirwUys&inicio=2021/10/14 12:35&final=2021/10/14 13:35&offset=1'

In [54]:
datos_api.fillna('', inplace=True)

In [55]:
 datos_api

Unnamed: 0,idconexion,mac_usuario,lugar,idlugar,lugar_cod,mac_ap,fecha_inicio,fecha_finalizacion,tiempo_sesion_minutos,rango_hora,carga_mb,descarga_mb
0,2598940,90-63-3B-6D-84-82,VEREDA SANTA INES_AGUACHICA,5737,30204-ZGYO088,BC-E6-7C-4E-7E-7C,2021-10-14 12:35:04-05,2021-10-14 12:36:18-05,12333333333333333,12:35:04-05,36437930000000000,025389700000000000000
1,2594056,90-06-28-B2-3F-4B,MESA FERNANDEZ_SAN JUAN DE ARAMA,6590,39335-ZZZY527,BC-E6-7C-E8-CD-6,2021-10-14 12:35:05-05,2021-10-14 12:35:23-05,028333333333333333333,12:35:05-05,034107800000000000000,001717200000000000000
2,2594184,8C-F1-12-B1-9D-1C,SANTA INES_SAN MARCOS,8397,47538-ZIFV500,BC-A9-93-69-7C-C8,2021-10-14 12:35:20-05,2021-10-14 12:35:40-05,031666666666666666667,12:35:20-05,000353900000000000000,000067700000000000000
3,2594221,00-68-9F-75-F6-DE,EL ROBLE_SAHAGUN,6643,32212-ZZZY781,BC-E6-7C-E8-CE-AC,2021-10-14 12:35:26-05,2021-10-14 12:35:51-05,043333333333333333333,12:35:26-05,001277800000000000000,001205700000000000000
4,2598821,0C-CB-85-F5-89-DA,SAN CARLOS _ CASABIANCA,8053,48128-ZZZY237,BC-A9-93-0C-E1-F9,2021-10-14 12:35:28-05,2021-10-14 12:36:09-05,068333333333333333333,12:35:28-05,24969890000000000,004410700000000000000
5,2599194,78-00-9E-1E-90-1A,ETCR-PONDORES_FONSECA,8023,70151-ZGYO903,BC-E6-7C-E8-3E-6B,2021-10-14 12:35:38-05,2021-10-14 12:36:46-05,11333333333333333,12:35:38-05,001612200000000000000,001284800000000000000
6,2599796,7C-23-02-9D-1A-92,LA GLORIA_HATONUEVO,6522,37596-ZZZY738,BC-E6-7C-E8-CE-79,2021-10-14 12:35:41-05,2021-10-14 12:38:06-05,24166666666666667,12:35:41-05,29471110000000000,062595800000000000000
7,2599783,00-68-9F-75-F6-DE,EL ROBLE_SAHAGUN,6643,32212-ZZZY781,BC-E6-7C-E8-3E-73,2021-10-14 12:35:51-05,2021-10-14 12:37:40-05,18166666666666667,12:35:51-05,114616710000000000,026268000000000000000
8,2598873,8C-F1-12-B1-9D-1C,SANTA INES_SAN MARCOS,8397,47538-ZIFV500,BC-A9-93-69-7C-C8,2021-10-14 12:35:55-05,2021-10-14 12:36:12-05,028333333333333333333,12:35:55-05,000166000000000000000,000058800000000000000
9,2598817,B8-94-36-8D-9C-5E,BOCA TOCINO_JUAN DE ACOSTA,8991,22491-ZZZY037,BC-E6-7C-E7-FC-1C,2021-10-14 12:35:55-05,2021-10-14 12:36:08-05,021666666666666666667,12:35:55-05,042424900000000000000,001006400000000000000


In [56]:
 #datos_api.to_excel("consumo_crudo.xlsx")

### Validando y actualizando y formateando la duración de las sesiones

Se define:
* Una función para validar separador decimal. si es coma, lo pasa a punto. Si la cadena no es valoda, le pone 0
* Una función para validar el tipo de dato. Si no es entero, flotante o complejo, le asigna cero
* Un list comprehension para redondear a dos decimales y forzar el tipo de dato a flotante

In [57]:
import re
def get_separator(x):
    patron = re.compile('^(\-?\d+(\.\d+)?),\s*(\-?\d+(\.\d+)?)$') #patrón que debe cumplir
    if (not patron.match(x) is None):
        return x.replace(',','.')
    else:
        return '0'

def valida_numero(numero):
    if type(numero) not in (int, float, complex):
        return numero
    else:
        return 0
try:
    datos_api['tiempo_sesion_minutos'] = datos_api['tiempo_sesion_minutos'].apply(get_separator)
    datos_api['tiempo_sesion_minutos'] = datos_api.apply(lambda x: valida_numero(datos_api['tiempo_sesion_minutos']))
    datos_api['tiempo_sesion_minutos'] = pd.Series([round(val,2) for val in datos_api['tiempo_sesion_minutos'].astype(float)])
except:
    pass

### Dando formato a fecha y ajustando formato de MAC

In [58]:
try:
    datos_api['fecha_inicio'] = datos_api['fecha_inicio'].str[0:-3]
    datos_api['fecha_finalizacion'] = datos_api['fecha_finalizacion'].str[0:-3]
    datos_api['mac_ap'] = datos_api['mac_ap'].str.replace('-',':')
except:
    pass

In [59]:
datos_api

Unnamed: 0,idconexion,mac_usuario,lugar,idlugar,lugar_cod,mac_ap,fecha_inicio,fecha_finalizacion,tiempo_sesion_minutos,rango_hora,carga_mb,descarga_mb
0,2598940,90-63-3B-6D-84-82,VEREDA SANTA INES_AGUACHICA,5737,30204-ZGYO088,BC:E6:7C:4E:7E:7C,2021-10-14 12:35:04,2021-10-14 12:36:18,1.23,12:35:04-05,36437930000000000,025389700000000000000
1,2594056,90-06-28-B2-3F-4B,MESA FERNANDEZ_SAN JUAN DE ARAMA,6590,39335-ZZZY527,BC:E6:7C:E8:CD:6,2021-10-14 12:35:05,2021-10-14 12:35:23,0.28,12:35:05-05,034107800000000000000,001717200000000000000
2,2594184,8C-F1-12-B1-9D-1C,SANTA INES_SAN MARCOS,8397,47538-ZIFV500,BC:A9:93:69:7C:C8,2021-10-14 12:35:20,2021-10-14 12:35:40,0.32,12:35:20-05,000353900000000000000,000067700000000000000
3,2594221,00-68-9F-75-F6-DE,EL ROBLE_SAHAGUN,6643,32212-ZZZY781,BC:E6:7C:E8:CE:AC,2021-10-14 12:35:26,2021-10-14 12:35:51,0.43,12:35:26-05,001277800000000000000,001205700000000000000
4,2598821,0C-CB-85-F5-89-DA,SAN CARLOS _ CASABIANCA,8053,48128-ZZZY237,BC:A9:93:0C:E1:F9,2021-10-14 12:35:28,2021-10-14 12:36:09,0.68,12:35:28-05,24969890000000000,004410700000000000000
5,2599194,78-00-9E-1E-90-1A,ETCR-PONDORES_FONSECA,8023,70151-ZGYO903,BC:E6:7C:E8:3E:6B,2021-10-14 12:35:38,2021-10-14 12:36:46,1.13,12:35:38-05,001612200000000000000,001284800000000000000
6,2599796,7C-23-02-9D-1A-92,LA GLORIA_HATONUEVO,6522,37596-ZZZY738,BC:E6:7C:E8:CE:79,2021-10-14 12:35:41,2021-10-14 12:38:06,2.42,12:35:41-05,29471110000000000,062595800000000000000
7,2599783,00-68-9F-75-F6-DE,EL ROBLE_SAHAGUN,6643,32212-ZZZY781,BC:E6:7C:E8:3E:73,2021-10-14 12:35:51,2021-10-14 12:37:40,1.82,12:35:51-05,114616710000000000,026268000000000000000
8,2598873,8C-F1-12-B1-9D-1C,SANTA INES_SAN MARCOS,8397,47538-ZIFV500,BC:A9:93:69:7C:C8,2021-10-14 12:35:55,2021-10-14 12:36:12,0.28,12:35:55-05,000166000000000000000,000058800000000000000
9,2598817,B8-94-36-8D-9C-5E,BOCA TOCINO_JUAN DE ACOSTA,8991,22491-ZZZY037,BC:E6:7C:E7:FC:1C,2021-10-14 12:35:55,2021-10-14 12:36:08,0.22,12:35:55-05,042424900000000000000,001006400000000000000


In [60]:
indice = 'ohmyfi-consumopruebaingesta1'#+'-'+fecha_hoy

In [61]:
use_these_keys = ['idconexion', 'mac_usuario', 'lugar', 'idlugar', 'lugar_cod', 'mac_ap',
                   'fecha_inicio', 'fecha_finalizacion', 'tiempo_sesion_minutos',
                   'rango_hora','@timestamp']
def filterKeys(document):
    return {key: document[key] for key in use_these_keys }

Se define como _id del indice a la mac de usuario y la fecha de inicio de la conexión. De esta forma se evita duplicar el mismo elemento si se lee en dos corridas diferentes

In [62]:
timestamp = datetime.now()
#df = datos_api[(datos_api['fecha']>fecha_max)] 
datos_api['@timestamp'] = str(timestamp.isoformat())
def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice,
                "_id": f"{document['mac_usuario'] + '-' + document['fecha_inicio']}",
                "_source": filterKeys(document),
            }
salida = helpers.bulk(es, doc_generator(datos_api))
print("Fecha: ", now, " - Documentos insertados: ",salida[0])

Fecha:  2021-10-14 12:44:22.803698  - Documentos insertados:  29
