### ¿Qué hace este script?

#### Para cada AP:
* usuarios.usuariosConectados(corresponde al total de conexiones), usuarios.sesiones_Usuarios (Corresponde al total de usuarios)
* Información detallada de los dispositivos conectados en el rango de fecha procesado: usuarios.dispositivo.mac, usuarios.dispositivo.tipo, usuarios.dispositivo.marca, usuarios.dispositivo.tecnologia, usuarios.dispositivo.sisOperativo.

#### Para cada sitio: 
* Totales por características de dispositivos: usuarios.sistemaOperativoUsuarios, usuarios.tipoDispositivoUsuarios, usuarios.marcaTerminal, usuarios.tecnologiaTerminal, usuarios.totales.dispositivos (Este ultimo guarda el total)
* usuarios.usoServicioInternetSitio es la suma en Gb consumido discriminado por usuarios.detallesTecnologiasTerminales (Bandas 2.4 o 5 GHz)
* usuarios.conteoDispositivos el cual indica el total de dispositivos conectados (Es lo mismo que total de conexiones)
* usuarios.usuariosNuevos (Esta tenía antes Nuevos y Recurrentes, pero ahora solo tiene Nuevos por solicitud de BI)
* usuarios.totales.usuariosNuevos, tiene el total de usuarios nuevos (el script por el momento solo totaliza nuevos siempre y cuando no se corra historicos)

In [1]:
from elasticsearch import Elasticsearch, helpers
from ssl import create_default_context
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import parametros
import re
import random
import time

## Conectando a ElasticSearch

La ultima línea se utiliza para garantizar la ejecución de la consulta
* timeout es el tiempo para cada ejecución
* max_retries el número de intentos si la conexión falla
* retry_on_timeout para activar los reitentos

In [2]:
context = create_default_context(cafile=parametros.cafile)
es = Elasticsearch(
    parametros.servidor,
    http_auth=(parametros.usuario_EC, parametros.password_EC),
    scheme="https",
    port=parametros.puerto,
    ssl_context=context,
    timeout=60, max_retries=3, retry_on_timeout=True
)

### Calculando fechas para la ejecución

* Se calculan las fechas para asociar al nombre del indice
* fecha_hoy es usada para concatenar al nombre del indice principal previa inserción

In [3]:
now = datetime.now()
fecha_hoy = str(now.strftime("%Y.%m.%d"))

### nombre de indice donde se insertará

In [4]:
indice = parametros.usuarios_tablero12_index
indice_control = parametros.tableros_mintic_control

### Funcion para construir JSON compatible con ElasticSearch

In [5]:
def filterKeys(document):
    return {key: document[key] for key in use_these_keys }

### Trae la ultima fecha para control de ejecución

Cuando en el rango de tiempo de la ejecución, no se insertan nuevos valores, las fecha maxima en indice mintic no aumenta, por tanto se usa esta fecha de control para garantizar que incremente el bucle de ejecución

In [6]:
total_docs = 1
try:
    response = es.search(
        index= indice_control,
        body={
               "_source": ['usuarios.fechaControl'],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"jerarquia-tablero12"
                    }
                  }
                  ]
                }
              }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        fecha_ejecucion = doc["_source"]['usuarios.fechaControl']
except:
    fecha_ejecucion = '2021-05-01 00:00:00'
if response["hits"]["hits"] == []:
    fecha_ejecucion = '2021-05-01 00:00:00'
print("ultima fecha para control de ejecucion:",fecha_ejecucion)

ultima fecha para control de ejecucion: 2021-06-03 00:00:00


### leyendo indice semilla-inventario

En el script que ingesta semilla, trae la información de los centros de conexión administrados. Para el indice principal se requiere:
* site_id como llave del centro de conexión.
* Datos geográficos (Departamento, municipio, centro poblado, sede, energía, latitud, longitud,COD_ISO, id_Beneficiario).

In [7]:
t1=time.time()
total_docs = 10000
try:
    response = es.search(
        index= parametros.semilla_inventario_index,
        body={
               "_source": ['site_id','nombre_municipio', 'nombre_departamento', 'nombre_centro_pob', 'nombreSede' 
                           , 'energiadesc', 'latitud', 'longitud', 'COD_ISO','id_Beneficiario']
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
#     fields = {}
#     for num, doc in enumerate(elastic_docs):
#         source_data = doc["_source"]
#         for key, val in source_data.items():
#             try:
#                 fields[key] = np.append(fields[key], val)
#             except KeyError:
#                 fields[key] = np.array([val])

#     datos_semilla = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) #pd.DataFrame(fields)
    
    datos_semilla = pd.DataFrame([x["_source"] for x in elastic_docs])
    
except:
    exit()
    
t2=time.time()

In [8]:
datos_semilla

Unnamed: 0,nombreSede,longitud,latitud,COD_ISO,nombre_centro_pob,site_id,nombre_departamento,energiadesc,nombre_municipio,id_Beneficiario
0,C.E.R LA PAULINA,-7614525469,67048548,CO-ANT,LA PAULINA,22154-ZGYO176,ANTIOQUIA,RED INTERCONECTADA,VALDIVIA,22154
1,CENTRO EDUCATIVO RURAL EL CERRO,-7310716667,4225166667,CO-ANT,EL CERRO,20022-ZGYO177,ANTIOQUIA,RED INTERCONECTADA,FRONTINO,20022
2,C. E. R. MERCEDES YEPES,-75151177190,693848274,CO-ANT,VDA. LA MESETA,18787-,ANTIOQUIA,RED INTERCONECTADA,ANORÍ,18787
3,C. E. R. MEDIAS FALDAS,-7519442611,704797951,CO-ANT,VDA EL LIMÓN,18802-,ANTIOQUIA,TIENE ENERGÍA,ANORÍ,18802
4,C. E. R. ROSAURA ORTEGA,-7522730972,706272584,CO-ANT,BELLAVISTA,18804-ZGYO583,ANTIOQUIA,RED INTERCONECTADA,ANORÍ,18804
...,...,...,...,...,...,...,...,...,...,...
6942,ESCUELA SANTA ISABEL,-73138349330,639026335,CO-VAU,COMUNIDAD SANTA ISABEL,67733-,VAUPÉS,SOLUCIÓN SOLAR,PACOA,67733
6943,ESCUELA RURAL DE SAN LUIS DE PIEDRA ÑI,-7007416384,008164385,CO-VAU,COMUNIDAD DE SAN LUIS,70622-,VAUPÉS,SIN INFORMACIÓN,PACOA,70622
6944,ESCUELA RURAL DE SANTA ROSA,,,CO-VAU,COMUNIDAD DE SANTA ROSA,70623-,VAUPÉS,SIN INFORMACIÓN,PACOA,70623
6945,ESCUELA RURAL DE TOAKA,-7125103723,1007644476,CO-VAU,COMUNIDAD DE TOAKA,70624-,VAUPÉS,SIN INFORMACIÓN,PACOA,70624


### Cambiando nombre de campos y generando location

* Se valida latitud y longitud. Luego se calcula campo location
* Se renombran los campos de semilla

In [9]:
def get_location(x):
    patron = re.compile('^(\-?\d+(\.\d+)?),\s*(\-?\d+(\.\d+)?)$') #patrón que debe cumplir
    if (not patron.match(x) is None):
        return x.replace(',','.')
    else:
        #Código a ejecutar si las coordenadas no son válidas
        return 'a'
datos_semilla['latitud'] = datos_semilla['latitud'].apply(get_location)
datos_semilla['longitud'] = datos_semilla['longitud'].apply(get_location)
datos_semilla = datos_semilla.drop(datos_semilla[(datos_semilla["longitud"]=='a') | (datos_semilla["latitud"]=='a')].index)
datos_semilla['usuarios.location'] = datos_semilla['latitud'] + ',' + datos_semilla['longitud']
datos_semilla['usuarios.location']=datos_semilla['usuarios.location'].str.replace('a,a','')
datos_semilla.drop(columns=['latitud','longitud'],inplace=True)

In [10]:
datos_semilla = datos_semilla.rename(columns={'lugar_cod' : 'usuarios.centroDigitalUsuarios'
                                            , 'nombre_municipio': 'usuarios.nombreMunicipio'
                                            , 'nombre_departamento' : 'usuarios.nombreDepartamento'
                                            , 'nombre_centro_pob': 'usuarios.localidad'
                                            , 'nombreSede' : 'usuarios.nomCentroDigital'
                                            , 'energiadesc' : 'usuarios.sistemaEnergia'
                                            , 'COD_ISO' : 'usuarios.codISO'
                                            , 'id_Beneficiario' : 'usuarios.idBeneficiario'})

Se descartan los registros que tengan la latitud y longitud vacía o no valida

In [11]:
datos_semilla = datos_semilla.drop(datos_semilla[(datos_semilla["usuarios.location"]=='')].index)

### leyendo indice cambium-devicedevices

De esta formas se asocia las MAC de dispositivos de red INDOOR y OUTDOOR
* site_id para cruzar con las misma llave de semilla.
* datos del dispositivo: mac, status, ip.
* ap_group para identificar si la conexión es indoor/outdoor

In [12]:
t1=time.time()
total_docs = 30000
try:
    response = es.search(
        index= parametros.cambium_d_d_index,
        body={
                    "_source": ["site_id","mac","status","ip","ap_group"]
                  , "query": {
                    "match_all": {}
                  }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
#     fields = {}
#     for num, doc in enumerate(elastic_docs):
#         source_data = doc["_source"]
#         for key, val in source_data.items():
#             try:
#                 fields[key] = np.append(fields[key], val)
#             except KeyError:
#                 fields[key] = np.array([val])

#     datos_dev = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) #pd.DataFrame(fields)
    
    datos_dev = pd.DataFrame([x["_source"] for x in elastic_docs])
    
    
except:
    exit()
    
t2=time.time()

In [13]:
datos_dev

Unnamed: 0,ap_group,ip,site_id,mac,status
0,INDOOR-44745-ZGYO227,172.28.118.179,44745-ZGYO227,BC:E6:7C:5E:66:88,online
1,OUTDOOR,172.28.118.180,44745-ZGYO227,58:C1:7A:E9:C9:6F,online
2,OUTDOOR,172.28.118.181,44745-ZGYO227,58:C1:7A:E9:C8:5C,online
3,INDOOR_44747-ZGYO413,172.28.118.171,44747-ZGYO413,BC:E6:7C:ED:F2:4F,online
4,OUTDOOR,172.28.118.172,44747-ZGYO413,BC:E6:7C:4F:07:88,online
...,...,...,...,...,...
4930,OUTDOOR,172.25.84.77,37717-ZZZY751,BC:A9:93:0C:E3:1D,offline
4931,INDOOR_47123-ZGYO420,172.25.38.243,47123-ZGYO420,BC:E6:7C:ED:8A:EA,online
4932,,172.25.62.188,48314-ZZZY828,BC:A9:93:00:30:9C,offline
4933,,172.25.51.236,37609-ZGYO786,BC:E6:7C:E8:CE:51,offline


Se descartan registros con site_id vacios ya que no cruzarán en el merge y se limpian los NaN del dataframe.

In [14]:
datos_dev.dropna(subset=['site_id'], inplace=True)
datos_dev.fillna('', inplace=True)
datos_dev = datos_dev.drop(datos_dev[(datos_dev['site_id']=='')].index)

In [15]:
datos_dev['ap_group'] = datos_dev['ap_group'].str.split("-", n = 1, expand = True)[0]
datos_dev['ap_group'] = datos_dev['ap_group'].str.split("_", n = 1, expand = True)[0]
datos_dev['ap_group'] = datos_dev['ap_group'].str.split(".", n = 1, expand = True)[0]
datos_dev = datos_dev.drop(datos_dev[(datos_dev['ap_group']=='')].index)

Se toman solo los datos unicos con mac.

In [16]:
#datos_dev.drop_duplicates(subset=['site_id','mac'],inplace=True)
datos_dev = datos_dev.drop_duplicates('mac')

Se cambia el nombre a la mac del dispositivo de red para no confundir con la de dispositivos de usuario 

In [17]:
datos_dev= datos_dev.rename(columns={'mac' : 'usuarios.macRed','ap_group' : 'usuarios.apGroup'})

In [18]:
datos_dev

Unnamed: 0,usuarios.apGroup,ip,site_id,usuarios.macRed,status
0,INDOOR,172.28.118.179,44745-ZGYO227,BC:E6:7C:5E:66:88,online
1,OUTDOOR,172.28.118.180,44745-ZGYO227,58:C1:7A:E9:C9:6F,online
2,OUTDOOR,172.28.118.181,44745-ZGYO227,58:C1:7A:E9:C8:5C,online
3,INDOOR,172.28.118.171,44747-ZGYO413,BC:E6:7C:ED:F2:4F,online
4,OUTDOOR,172.28.118.172,44747-ZGYO413,BC:E6:7C:4F:07:88,online
...,...,...,...,...,...
4928,INDOOR,172.25.30.163,49318-ZZZY605,BC:E6:7C:EC:AA:C7,offline
4929,OUTDOOR,172.25.84.76,37717-ZZZY751,BC:A9:93:0C:7B:9D,offline
4930,OUTDOOR,172.25.84.77,37717-ZZZY751,BC:A9:93:0C:E3:1D,offline
4931,INDOOR,172.25.38.243,47123-ZGYO420,BC:E6:7C:ED:8A:EA,online


### Lectura de datos ohmyfi-detalleconexiones

Los datos que se toman son:
* fechahora (de cada conexión). fecha_control es lo mismo pero con el intervalo de 10 minutos
* Información del centro: lugar, lugar_cod.
* Información del dispositivo de usuario: mac_usuario, dispositivo, sistema_operativo.
* Información de usuario: tipodoc y documento

In [19]:
def trae_conexiones(fecha_ini,fecha_fin):
    total_docs = 5000000
    response = es.search(
        index= parametros.ohmyfi_d_c_index,
        body={
                "_source": ["fechahora","fecha_control","lugar","lugar_cod","mac_usuario", "dispositivo"
                            ,"sistema_operativo",'tipodoc','documento']
                , "query": {
                  "range": {
                    "fechahora": {
                      "gte": fecha_ini,
                      "lt": fecha_fin
                    }
                  }
              }
        },
        size=total_docs
    )
    elastic_docs = response["hits"]["hits"]
#     fields = {}
#     for num, doc in enumerate(elastic_docs):
#         source_data = doc["_source"]
#         for key, val in source_data.items():
#             try:
#                 fields[key] = np.append(fields[key], val)
#             except KeyError:
#                 fields[key] = np.array([val])

#     return pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) 

    return pd.DataFrame([x["_source"] for x in elastic_docs])

### Lanzando ejecución de consulta

* Se calcula rango en base a la fecha de control. Para este caso es de 10 minutos.
* Se ejecuta la función de consulta con el rango de fechas.
* Si no retorna datos se incrementa el rango y se ejecuta nuevamente. Este proceso se repite hasta conseguir datos o hasta que el rango de ejecución alcance la fecha y hora actual.


In [20]:
fecha_max_mintic = fecha_ejecucion
fecha_tope_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)-timedelta(seconds=1)).strftime("%Y-%m-%d %H:%M:%S")
datos_det_conex = trae_conexiones(fecha_max_mintic,fecha_tope_mintic)

if datos_det_conex is None or datos_det_conex.empty:
       while (datos_det_conex is None or datos_det_conex.empty) and ((datetime.strptime(fecha_max_mintic[0:10], '%Y-%m-%d').strftime("%Y-%m-%d %H:%M:%S")) < str(now.strftime("%Y-%m-%d %H:%M:%S"))):
            fecha_max_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
            fecha_tope_mintic = (datetime.strptime(fecha_tope_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
            datos_det_conex = trae_conexiones(fecha_max_mintic,fecha_tope_mintic)
else:
    pass

In [21]:
fecha_max_mintic,fecha_tope_mintic

('2021-06-03 00:00:00', '2021-06-03 23:59:59')

In [22]:
datos_det_conex['fecha'] = datos_det_conex['fecha_control'].str.split(" ", n = 1, expand = True)[0]
datos_det_conex.drop_duplicates(subset=["fecha_control","lugar","lugar_cod","mac_usuario", "dispositivo","sistema_operativo",'tipodoc','documento'],inplace=True)

In [23]:
datos_det_conex = datos_det_conex.rename(columns={'lugar_cod' : 'site_id'
                                                             ,'fechahora':'usuarios.fechaConexionUsuarios'
                                                             ,'dispositivo': 'usuarios.tipoDispositivoUsuarios'
                                                             , 'sistema_operativo': 'usuarios.sistemaOperativoUsuarios'})

Se corrigen valores errados de site_id en detalle conexiones

In [24]:
datos_det_conex['site_id'] = datos_det_conex['site_id'].str.replace("_","-")

In [25]:
datos_det_conex

Unnamed: 0,usuarios.fechaConexionUsuarios,mac_usuario,usuarios.tipoDispositivoUsuarios,lugar,documento,tipodoc,site_id,fecha_control,usuarios.sistemaOperativoUsuarios,fecha
0,2021-06-03 10:30:00,18:D2:76:1D:39:5E,Smartphone,VD PONDORITO,,,73821-ZGYO901,2021-06-03 10:30:00,Android,2021-06-03
1,2021-06-03 10:30:01,FE:0C:EB:01:16:93,Smartphone,VDA BUENOS AIRES_CHIMICHAGUA,100452895,CC,30442-ZGYO135,2021-06-03 10:30:00,Android,2021-06-03
2,2021-06-03 10:30:01,18:9E:2C:80:E6:53,Smartphone,"TOTARITO, ALVARADO",1110060130,TI,47905-ZGYO563,2021-06-03 10:30:00,Android,2021-06-03
3,2021-06-03 10:30:04,00:21:00:F0:FD:2B,PC,"LA INDIA, LANDAZURI",1079234675,CC,45770-ZGYO627,2021-06-03 10:30:00,Windows,2021-06-03
4,2021-06-03 10:30:05,F4:71:90:24:30:BF,Smartphone,"FLECHAS SABANAS, CHIN?",3207987611,Otra,31449-ZGYO730,2021-06-03 10:30:00,Android,2021-06-03
...,...,...,...,...,...,...,...,...,...,...
8753,2021-06-03 18:31:59,30:FC:EB:60:89:72,Smartphone,"SABANAGRANDE, CURUMANI",1064709558,TI,30546-ZGYO520,2021-06-03 18:30:00,Android,2021-06-03
8755,2021-06-03 18:32:00,08:78:08:0B:1B:E6,Smartphone,"VDA BADUMALITO, PUERTO LIBERTADOR",1003078936,CC,70175-ZZZY515,2021-06-03 18:30:00,Android,2021-06-03
8758,2021-06-03 18:32:01,14:1F:78:67:2F:E2,Smartphone,DIOS ME VE_CHIMICHAGUA,1095910977,TI,70348-ZGYO530,2021-06-03 18:30:00,Android,2021-06-03
8759,2021-06-03 18:32:02,74:4A:A4:CF:F4:68,Smartphone,VDA DE MARATHON_COLOSO,,,47103-ZZZY265,2021-06-03 18:30:00,Android,2021-06-03


### Se lee el indice all-cambium-device-client

* En este indice se guarda el detalle de los radio por fecha
* Detalle conexiones cruza con device clients. Con estos se calculan los totales por marca

In [26]:
def traeRadio(fecha_max2,fecha_tope2):
    total_docs = 100000
    response = es.search(
        index= 'all-'+parametros.cambium_d_c_index,
        body={
            "_source": ['mac', 'ap_mac', 'radio.band', 'radio.rx_bytes', 'radio.tx_bytes','fecha_control']
              , "query": {
                  "range": {
                    "fecha_control": {
                      "gte": fecha_max_mintic2,
                      "lt": fecha_tope_mintic2
                      #"gte": "2021-05-26 15:00:00",
                      #"lt": "2021-05-26 15:10:00"  
                    }
                  }
              }
        },
        size=total_docs
    )
    elastic_docs = response["hits"]["hits"]
    # fields = {}
    # for num, doc in enumerate(elastic_docs):
    #     source_data = doc["_source"]
    #     for key, val in source_data.items():
    #         try:
    #             fields[key] = np.append(fields[key], val)
    #         except KeyError:
    #             fields[key] = np.array([val])

    # datos_radio = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

    return pd.DataFrame([x["_source"] for x in elastic_docs])

    

In [27]:
fecha_max_mintic2 = fecha_ejecucion

fecha_tope_mintic2 = (datetime.strptime(fecha_max_mintic2, )+timedelta(days=1)-timedelta(seconds=1)).strftime("%Y-%m-%d %H:%M:%S")
datos_performance = traeRadio(fecha_max_mintic2,fecha_tope_mintic2)


if datos_performance is None or datos_performance.empty:
    while (datos_performance is None or datos_performance.empty) and ((datetime.strptime(fecha_max_mintic[0:10], '%Y-%m-%d').strftime("%Y-%m-%d %H:%M:%S")) < str(now.strftime("%Y-%m-%d %H:%M:%S"))):
        fecha_max_mintic2 = (datetime.strptime(fecha_max_mintic2, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        fecha_tope_mintic2 = (datetime.strptime(fecha_tope_mintic2, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        datos_performance = traeRadio(fecha_max_mintic2,fecha_tope_mintic2)
else:
    pass

In [28]:
fecha_max_mintic2,fecha_tope_mintic2

('2021-06-03 00:00:00', '2021-06-03 23:59:59')

Se cruza all-cambium-device-clients con cambium-devicedevices para obtener el site_id

In [29]:
datos_performance = datos_performance.rename(columns={'ap_mac':'usuarios.macRed', 'mac':'mac_usuario'})

In [30]:
usuarios_conectados_cambium = pd.merge(datos_performance,datos_dev, on ='usuarios.macRed', how='inner')

### Se lee la información de cambium device client

Esta lectura se usa para identificar: 
* Lecturas de consumo por dispositivo (radios rx y tx)
* Fabricante del dispositivo
* la mac del ap que luego se usa para identificar el ap group(Indoor/Outdoor)

In [31]:
t1=time.time()

total_docs = 30000000
response = es.search(
    index= parametros.cambium_d_c_index,
    body={
            "_source": ["mac","ap_mac", 'manufacturer','name',"radio.band",'radio.rx_bytes','radio.tx_bytes'],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"mac"
                    }
                  }
                  ]
                }
              }
    },
    size=total_docs
)
elastic_docs = response["hits"]["hits"]
# fields = {}
# for num, doc in enumerate(elastic_docs):
#     source_data = doc["_source"]
#     for key, val in source_data.items():
#         try:
#             fields[key] = np.append(fields[key], val)
#         except KeyError:
#             fields[key] = np.array([val])

# datos_dev_clients = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

datos_dev_clients = pd.DataFrame([x["_source"] for x in elastic_docs])

t2=time.time()

In [32]:
(t2-t1)/60

0.5534803986549377

In [33]:
df1=datos_dev_clients

In [34]:
(t2-t1)/60

0.5534803986549377

In [35]:
df2=datos_dev_clients

In [36]:
df1.equals(df2)

True

In [37]:
df1.shape

(220654, 7)

In [38]:
df2.shape

(220654, 7)

In [39]:
datos_dev_clients

Unnamed: 0,ap_mac,name,mac,radio.band,radio.rx_bytes,radio.tx_bytes,manufacturer
0,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,0E:9C:F2:E0:B3:1F,2.4GHz,1140,0,[Local MAC]
1,BC:E6:7C:5D:20:AE,SM-J260MU,F8:F1:E6:A3:0D:45,2.4GHz,147191582,160639234,Samsung Electronics Ltd
2,BC:A9:93:00:98:33,android-e7938e7,00:08:22:46:78:82,2.4GHz,32598,14222,InPro Comm
3,BC:E6:7C:EC:AA:DC,Galaxy-A01,A0:27:B6:62:78:47,2.4GHz,32466165,688148716,A0-27-B6
4,BC:E6:7C:EF:FD:DC,CPE,48:E2:44:32:E3:25,2.4GHz,12038,15384,Hon Hai Precision Ind Ltd
...,...,...,...,...,...,...,...
220649,BC:A9:93:10:52:84,HUAWEI_Y6II,14:A5:1A:DB:D7:45,2.4GHz,9879608,215274744,Huawei Technologies Ltd
220650,BC:E6:7C:5D:88:58,RedmiNote8-Redm,E8:5A:8B:A1:45:46,2.4GHz,238369,399117,Xiaomi Communications Ltd
220651,BC:E6:7C:5D:88:58,M2006C3LG-LOSIN,24:11:45:65:40:99,2.4GHz,777399,19289307,24-11-45
220652,BC:A9:93:64:07:19,CI-0205,F4:8C:50:80:FC:DC,5GHz,246261,359813,Intel Corporation


### Asociando datos de usuarios¶

Se realiza lectura por día procesado
lugar_cod se usa para cruzar con semilla por site_id
creado es la fecha de creación del usuario
tipodoc y documento corresponden a datos del usuario. Se usa para calcular totales

In [40]:
def traeRegistros(fecha_max,fecha_tope):
    total_docs = 10000
    response = es.search(
        index= parametros.ohmyfi_d_u_index,
        body={
                "_source": ['lugar_cod','tipodoc', 'documento', 'creado']
                  , "query": {
                  "range": {
                    "creado": {
                      "gte": fecha_max.split(' ')[0]+' 00:00:00',
                      "lt": fecha_tope.split(' ')[0]+' 23:59:59'
                      #"gte": "2021-06-01 00:00:00",
                      #"lt": "2021-06-01 23:59:59"  
                    }
                  }
              }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        source_data = doc["_source"]
        for key, val in source_data.items():
            try:
                fields[key] = np.append(fields[key], val)
            except KeyError:
                fields[key] = np.array([val])

    return pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

### Se realiza consulta de datos

* Se calcula rango en base a la fecha de control. Para este caso es de un día.
* Se ejecuta la función de consulta con el rango de fechas.
* Si no retorna datos se incrementa el rango y se ejecuta nuevamente. Este proceso se repite hasta conseguir datos o hasta que el rango de ejecución alcance la fecha actual.

In [41]:
fecha_max_mintic = fecha_ejecucion
fecha_tope_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)-timedelta(seconds=1)).strftime("%Y-%m-%d %H:%M:%S")
datos_registro = traeRegistros(fecha_max_mintic,fecha_tope_mintic)

if datos_registro is None or datos_registro.empty:
    while (datos_registro is None or datos_registro.empty) and ((datetime.strptime(fecha_max_mintic[0:10], '%Y-%m-%d').strftime("%Y-%m-%d %H:%M:%S")) < str(now.strftime("%Y-%m-%d %H:%M:%S"))):
        fecha_max_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        fecha_tope_mintic = (datetime.strptime(fecha_tope_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        datos_speed = traeRegistros(fecha_max_mintic,fecha_tope_mintic)
else:
    pass

In [42]:
fecha_max_mintic,fecha_tope_mintic

('2021-06-03 00:00:00', '2021-06-03 23:59:59')

In [43]:
datos_registro

Unnamed: 0,creado,documento,tipodoc,lugar_cod
0,2021-06-03 00:18:12,1059708432,CC,26806-ZGYO394
1,2021-06-03 00:00:58,1627839427,TI,47515-ZZZY570
2,2021-06-03 06:39:24,1065811610,CC,30065-ZGYO514
3,2021-06-03 06:52:46,50960969,CC,31435-ZZZY270
4,2021-06-03 06:55:05,63557299,CC,44665-ZGYO723
...,...,...,...,...
1331,2021-06-03 12:16:12,1042150903,TI,22144-ZGYO174
1332,2021-06-03 11:50:34,1069985271,TI,32280-ZZZY737
1333,2021-06-03 13:05:18,1103217644,CC,47233-VZVF003
1334,2021-06-03 14:26:08,1128399896,CC,19065-ZZZY555


## Calculando total de registros

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

Para cada sitio y fecha, se cuentan los documentos de usuario. Esto resulta en el total de usuarios registrados para esa fecha

In [44]:
use_these_keys = ['usuarios.fecha'
                  , 'usuarios.siteID'
                  , 'usuarios.usuariosRegistrados'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.localidad'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.location'
                  , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{'UsuRegistro-'+ str(document['usuarios.siteID']) + '-' + str(document['usuarios.fecha'])+ str(random.randrange(1000))}",
                "_source": filterKeys(document)
            }

In [45]:
def invalid_values(df, values=['']):
    return df.loc[df['usuarios.location'].isin(values)]

In [46]:
try:
    
    datos_registro['creado'] = datos_registro['creado'].str[0:10]
    datos_registro['tipo_mas_doc'] = datos_registro['tipodoc'] + datos_registro['documento']
    datos_registro= datos_registro.rename(columns={'creado' : 'usuarios.fecha'
                                                  ,'lugar_cod':'site_id'})

    datos_registro = datos_registro[["usuarios.fecha","site_id","tipo_mas_doc"]].groupby(["usuarios.fecha","site_id"]).agg(['count']).reset_index()
    datos_registro.columns = datos_registro.columns.droplevel(1)
    datos_registro= datos_registro.rename(columns={'tipo_mas_doc' : 'usuarios.usuariosRegistrados'})
    datos_registro["usuarios.anyo"] = datos_registro["usuarios.fecha"].str[0:4]
    datos_registro["usuarios.mes"] = datos_registro["usuarios.fecha"].str[5:7]
    datos_registro["usuarios.dia"] = datos_registro["usuarios.fecha"].str[8:10]
    datos_registro = pd.merge(datos_registro,  datos_semilla, on='site_id', how='inner')
    datos_registro.rename(columns={'site_id': 'usuarios.siteID'
                               }, inplace=True)
    
    datos_registro['nombreDepartamento'] = datos_registro['usuarios.nombreDepartamento']
    datos_registro['nombreMunicipio'] = datos_registro['usuarios.nombreMunicipio']
    datos_registro['idBeneficiario'] = datos_registro['usuarios.idBeneficiario']
    datos_registro['fecha'] = datos_registro['usuarios.fecha']
    datos_registro['anyo'] = datos_registro['usuarios.anyo']
    datos_registro['mes'] = datos_registro['usuarios.mes']
    datos_registro['dia'] = datos_registro['usuarios.dia']
    
    datos_registro['@timestamp'] = now.isoformat()
    
    salida = helpers.bulk(es, doc_generator(datos_registro))
    print("Fecha: ", now,"- Datos Registro usuarios en indice principal:",salida[0])
except Exception as e:
    print("Fecha: ", now,"- Nada que insertar en indice principal",e)

Fecha:  2021-08-11 21:44:28.338550 - Datos Registro usuarios en indice principal: 375


In [47]:
datos_registro

Unnamed: 0,usuarios.fecha,usuarios.siteID,usuarios.usuariosRegistrados,usuarios.anyo,usuarios.mes,usuarios.dia,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.nombreDepartamento,...,usuarios.idBeneficiario,usuarios.location,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,2021-06-03,10501-ZZZY338,1,2021,06,03,I. E. R. CAMPESTRE NUEVO HORIZONTE,CO-ANT,LA CHAPA,ANTIOQUIA,...,10501,"6.040555556,-75.91194444",ANTIOQUIA,EL CARMEN DE VIBORAL,10501,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
1,2021-06-03,11107-ZGYO062,3,2021,06,03,MARIA INMACULADA,CO-ATL,CALLE 15 12 - 20,ATLÁNTICO,...,11107,"10.504888,-74.816395",ATLÁNTICO,BARANOA,11107,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
2,2021-06-03,11113-ZGYO059,3,2021,06,03,INSTITUCION EDUCATIVA TECNICA AGROPECUARIA DE ...,CO-ATL,CALLE 6A 16 - 115,ATLÁNTICO,...,11113,"9.242333333,-75.526",ATLÁNTICO,BARANOA,11113,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3,2021-06-03,13253-ZGYO527,5,2021,06,03,EL JABO,CO-CES,EL JABO,CESAR,...,13253,"3.985,-75.06861111",CESAR,VALLEDUPAR,13253,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
4,2021-06-03,13695-ZGYO347,2,2021,06,03,COLEGIO JOSÉ ANTONIO GALÁN,CO-COR,"BARRIO EL PANTEON, CALLE MANGA",CÓRDOBA,...,13695,"8.62946923,-76.50029596",CÓRDOBA,SAN ANTERO,13695,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
370,2021-06-03,74192-ZZZY088,3,2021,06,03,SEDE LOS MANGUITOS,CO-CES,VDA. LOS MANGUITOS,CESAR,...,74192,"9.5816667,-74.03503333",CESAR,AGUSTÍN CODAZZI,74192,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
371,2021-06-03,74270-ZZZY196,4,2021,06,03,INSTITUCION EDUCATIVA BERLIN - SEDE PRINCIPAL,CO-CAL,DE BERLIN,CALDAS,...,74270,"5.502494922,-75.13757517",CALDAS,SAMANÁ,74270,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
372,2021-06-03,74272-ZZZY510,1,2021,06,03,INSTITUCION EDUCATIVA BONAFONT - SEDE PRINCIPAL,CO-CAL,SAN ANTONIO,CALDAS,...,74272,"5.46409973,-75.69363929",CALDAS,RIOSUCIO,74272,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
373,2021-06-03,74366-ZGYO061,3,2021,06,03,I.E. TECNICA MARIA INMACULADA DE PITAL DE MEGUA,CO-ATL,KR 15 11 96,ATLÁNTICO,...,74366,"4.710277778,-75.01111111",ATLÁNTICO,BARANOA,74366,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550


In [48]:
datos_registro['usuarios.usuariosRegistrados'].sum()

1288

* se cruza por mac_usuario
* Los merge usan left para evitar perdida de datos en cruce con cambium-devicedevices. Aquellos datos que no cruzan se les marca como no identificados. En condiciones ideales, no debería presentarse ausencia de información
* Solo se toma lo que cruza con INNER
* se cambia el fabricante [Local MAC]
* se cambian lo nulos

In [49]:
try:
    datos_dev_clients.drop_duplicates(inplace=True)
    datos_dev_clients = datos_dev_clients.rename(columns={'ap_mac' : 'usuarios.macRed','mac' : 'mac_usuario'})
    datos_dev_clients['manufacturer'] = datos_dev_clients['manufacturer'].replace("[Local MAC]", "No identificado")
    datos_dev_clients.fillna({'manufacturer':'No identificado'},inplace=True)
    datos_det_conex = pd.merge(datos_det_conex,  datos_dev_clients, on='mac_usuario',how='left')
    datos_det_conex = pd.merge(datos_det_conex,datos_dev[['usuarios.macRed','usuarios.apGroup']],on='usuarios.macRed', how='left')
    datos_det_conex.fillna({'usuarios.tipoDispositivoUsuarios':'No identificado'
                       ,'usuarios.sistemaOperativoUsuarios':'No identificado'
                       ,'manufacturer':'No identificado'
                       ,'radio.band':'No identificado'
                       },inplace=True)
except:
    pass

In [50]:
datos_det_conex

Unnamed: 0,usuarios.fechaConexionUsuarios,mac_usuario,usuarios.tipoDispositivoUsuarios,lugar,documento,tipodoc,site_id,fecha_control,usuarios.sistemaOperativoUsuarios,fecha,usuarios.macRed,name,radio.band,radio.rx_bytes,radio.tx_bytes,manufacturer,usuarios.apGroup
0,2021-06-03 10:30:00,18:D2:76:1D:39:5E,Smartphone,VD PONDORITO,,,73821-ZGYO901,2021-06-03 10:30:00,Android,2021-06-03,BC:E6:7C:E7:FC:5F,android-cec1839,2.4GHz,8824.0,9510.0,Huawei Technologies Ltd,OUTDOOR
1,2021-06-03 10:30:01,FE:0C:EB:01:16:93,Smartphone,VDA BUENOS AIRES_CHIMICHAGUA,100452895,CC,30442-ZGYO135,2021-06-03 10:30:00,Android,2021-06-03,BC:E6:7C:4F:06:41,,2.4GHz,638079.0,234652.0,No identificado,OUTDOOR
2,2021-06-03 10:30:01,18:9E:2C:80:E6:53,Smartphone,"TOTARITO, ALVARADO",1110060130,TI,47905-ZGYO563,2021-06-03 10:30:00,Android,2021-06-03,BC:A9:93:00:31:94,HUAWEI_Y9_Prime,2.4GHz,1237586.0,17334463.0,18-9E-2C,OUTDOOR
3,2021-06-03 10:30:04,00:21:00:F0:FD:2B,PC,"LA INDIA, LANDAZURI",1079234675,CC,45770-ZGYO627,2021-06-03 10:30:00,Windows,2021-06-03,BC:E6:7C:E7:FD:12,fenix-PC,2.4GHz,4145701.0,22892360.0,Gemtek Technology Ltd,OUTDOOR
4,2021-06-03 10:30:05,F4:71:90:24:30:BF,Smartphone,"FLECHAS SABANAS, CHIN?",3207987611,Otra,31449-ZGYO730,2021-06-03 10:30:00,Android,2021-06-03,BC:E6:7C:ED:8B:2F,J7-Neo,2.4GHz,7233076.0,111308624.0,Samsung Electronics Ltd,INDOOR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
4449,2021-06-03 18:31:59,30:FC:EB:60:89:72,Smartphone,"SABANAGRANDE, CURUMANI",1064709558,TI,30546-ZGYO520,2021-06-03 18:30:00,Android,2021-06-03,58:C1:7A:E8:C3:F3,K61,2.4GHz,7583038.0,60296728.0,30-FC-EB,OUTDOOR
4450,2021-06-03 18:32:00,08:78:08:0B:1B:E6,Smartphone,"VDA BADUMALITO, PUERTO LIBERTADOR",1003078936,CC,70175-ZZZY515,2021-06-03 18:30:00,Android,2021-06-03,BC:E6:7C:E7:C9:AD,android-bb1a8eb,2.4GHz,1462703.0,9993012.0,Samsung Electronics Ltd,OUTDOOR
4451,2021-06-03 18:32:01,14:1F:78:67:2F:E2,Smartphone,DIOS ME VE_CHIMICHAGUA,1095910977,TI,70348-ZGYO530,2021-06-03 18:30:00,Android,2021-06-03,,,No identificado,,,No identificado,
4452,2021-06-03 18:32:02,74:4A:A4:CF:F4:68,Smartphone,VDA DE MARATHON_COLOSO,,,47103-ZZZY265,2021-06-03 18:30:00,Android,2021-06-03,,,No identificado,,,No identificado,


## Calculando totales por dispositivos

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [51]:
use_these_keys = ['usuarios.siteID'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.localidad'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.location'
                  , 'usuarios.sistemaOperativoUsuarios'
                  , 'usuarios.tipoDispositivoUsuarios'
                  , 'usuarios.marcaTerminal'
                  , 'usuarios.tecnologiaTerminal'
                  , 'usuarios.totales.dispositivos'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , 'nombreDepartamento'
                  , 'nombreMunicipio'
                  , 'idBeneficiario'
                  , 'fecha'
                  , 'anyo'
                  , 'mes'
                  , 'dia'
                  , '@timestamp']

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{ 'totalesDispositivos-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                "_source": filterKeys(document),
            }

Se agrupa por:
* Sistema operativo
* Tipo dispositivo
* Marca del terminal
* Tecnología terminal

Se cuentan las mac de usuario para cada site id y fecha control

In [52]:
try:
    totalesDispositivos = datos_det_conex[["fecha_control","site_id"
                                 ,"usuarios.sistemaOperativoUsuarios"
                                 ,'usuarios.tipoDispositivoUsuarios'
                                 ,'manufacturer'
                                 ,'radio.band'
                                 ,"mac_usuario"]].groupby(["fecha_control","site_id"
                                                     ,"usuarios.sistemaOperativoUsuarios"
                                                     ,'usuarios.tipoDispositivoUsuarios'
                                                     ,'manufacturer'
                                                     ,'radio.band']).agg(['count']).reset_index()
    ##si se quiere contar ocurrencias unicas se debe usar en lugar del agg: ['mac_usuario'].nunique().reset_index()
    totalesDispositivos.columns = totalesDispositivos.columns.droplevel(1)
    totalesDispositivos= totalesDispositivos.rename(columns={'mac_usuario' : 'usuarios.totales.dispositivos'
                                                            ,'fecha_control' : 'usuarios.fechaControl'
                                                            ,'manufacturer' : 'usuarios.marcaTerminal'
                                                            ,'radio.band' : 'usuarios.tecnologiaTerminal'
                                                            })
    totalesDispositivos = pd.merge(totalesDispositivos, datos_semilla, on='site_id',how='inner')
    totalesDispositivos["usuarios.fecha"] = totalesDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    totalesDispositivos["usuarios.anyo"] = totalesDispositivos["usuarios.fecha"].str[0:4]
    totalesDispositivos["usuarios.mes"] = totalesDispositivos["usuarios.fecha"].str[5:7]
    totalesDispositivos["usuarios.dia"] = totalesDispositivos["usuarios.fecha"].str[8:10]
    totalesDispositivos["usuarios.hora"] = totalesDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    totalesDispositivos["usuarios.minuto"] = totalesDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    totalesDispositivos= totalesDispositivos.rename(columns={'site_id' : 'usuarios.siteID'})
    totalesDispositivos['nombreDepartamento'] = totalesDispositivos['usuarios.nombreDepartamento']
    totalesDispositivos['nombreMunicipio'] = totalesDispositivos['usuarios.nombreMunicipio']
    totalesDispositivos['idBeneficiario'] = totalesDispositivos['usuarios.idBeneficiario']
    totalesDispositivos['fecha'] = totalesDispositivos['usuarios.fecha']
    totalesDispositivos['anyo'] = totalesDispositivos['usuarios.anyo']
    totalesDispositivos['mes'] = totalesDispositivos['usuarios.mes']
    totalesDispositivos['dia'] = totalesDispositivos['usuarios.dia']
    totalesDispositivos['@timestamp'] = now.isoformat()
    salida = helpers.bulk(es, doc_generator(totalesDispositivos))
    print("Fecha: ", now,"- Totales por Dispositivos insertados en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- No se insertaron totales por dispositivos en indice principal")

Fecha:  2021-08-11 21:44:28.338550 - Totales por Dispositivos insertados en indice principal: 3994


In [53]:
totalesDispositivos

Unnamed: 0,usuarios.fechaControl,usuarios.siteID,usuarios.sistemaOperativoUsuarios,usuarios.tipoDispositivoUsuarios,usuarios.marcaTerminal,usuarios.tecnologiaTerminal,usuarios.totales.dispositivos,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,2021-06-03 00:00:00,26271-ZGYO608,Android,Smartphone,Huawei Technologies Ltd,2.4GHz,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,...,00,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
1,2021-06-03 11:00:00,26271-ZGYO608,Android,Smartphone,Samsung Electronics Ltd,2.4GHz,2,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,...,11,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
2,2021-06-03 12:00:00,26271-ZGYO608,Android,Smartphone,Huawei Technologies Ltd,2.4GHz,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,...,12,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3,2021-06-03 12:30:00,26271-ZGYO608,Android,Smartphone,00-88-8D,2.4GHz,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,...,12,30,CALDAS,NEIRA,26271,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
4,2021-06-03 13:00:00,26271-ZGYO608,Android,Smartphone,Samsung Electronics Ltd,2.4GHz,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,...,13,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3989,2021-06-03 22:30:00,48989-ZGYO688,Android,Smartphone,"Motorola Mobility LLC, a Lenovo Company",2.4GHz,1,SEDE ARRAYANES,CO-TOL,ARRAYANES,...,22,30,TOLIMA,PALOCABILDO,48989,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3990,2021-06-03 22:30:00,26118-ZGYO389,Android,Smartphone,No identificado,2.4GHz,1,PEÑA RICA,CO-CAL,PEÑA RICA,...,22,30,CALDAS,LA MERCED,26118,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3991,2021-06-03 22:30:00,30374-ZGYO439,Android,Smartphone,Samsung Electronics Ltd,2.4GHz,1,ESC. NUEVA LA FLORIDA,CO-CES,VEREDA LA FLORIDA,...,22,30,CESAR,BECERRIL,30374,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3992,2021-06-03 22:30:00,31620-ZZZY235,Android,Smartphone,No identificado,2.4GHz,1,ESC NVA DE GUAYABAL,CO-COR,VDA GUAYABAL,...,22,30,CÓRDOBA,COTORRA,31620,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550


# Insertando usuarios conectados al indice principal

* Se calcula cantidad de sesiones por sitio con detalle conexiones, pero contando la ocurrencia unica de documento
* Se calcula la cantidad de conexiones. Se agrupa por el campo usuarios.macRed(el cual corresponde al AP) y fecha_control. Se cuenta las ocurrencias de mac_usuario. Luego al cruzar con flujo principal, si el dato es nulo para ese momento, se debe colocar en 0.

In [54]:
datos_logins = datos_det_conex[['fecha_control', 'site_id', 'documento','usuarios.macRed']].groupby(["fecha_control","site_id","usuarios.macRed"])['documento'].nunique().reset_index()
datos_logins= datos_logins.rename(columns={'documento' : 'usuarios.sesiones_Usuarios'})

In [55]:
datos_logins 

Unnamed: 0,fecha_control,site_id,usuarios.macRed,usuarios.sesiones_Usuarios
0,2021-06-03 00:00:00,20013-ZGY0178,BC:E6:7C:4E:7D:57,1
1,2021-06-03 00:00:00,26271-ZGYO608,BC:E6:7C:EF:FD:68,1
2,2021-06-03 00:00:00,31884-ZGYO268,BC:E6:7C:4F:46:72,1
3,2021-06-03 00:00:00,32633-ZGYO467,BC:E6:7C:4F:07:70,1
4,2021-06-03 00:00:00,47515-ZZZY570,BC:E6:7C:E7:C9:A3,2
...,...,...,...,...
3327,2021-06-03 23:00:00,49411-ZZZY843,BC:E6:7C:EF:FC:E4,1
3328,2021-06-03 23:00:00,70561-ZGYO761,BC:E6:7C:E7:FC:24,1
3329,2021-06-03 23:00:00,73821-ZGYO901,BC:E6:7C:EF:FD:82,1
3330,2021-06-03 23:00:00,73940-ZGYO843,BC:E6:7C:E7:FC:96,1


In [56]:
datos_dev_clients.columns

Index(['usuarios.macRed', 'name', 'mac_usuario', 'radio.band',
       'radio.rx_bytes', 'radio.tx_bytes', 'manufacturer'],
      dtype='object')

In [57]:
datos_dev_clients

Unnamed: 0,usuarios.macRed,name,mac_usuario,radio.band,radio.rx_bytes,radio.tx_bytes,manufacturer
0,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,0E:9C:F2:E0:B3:1F,2.4GHz,1140,0,No identificado
1,BC:E6:7C:5D:20:AE,SM-J260MU,F8:F1:E6:A3:0D:45,2.4GHz,147191582,160639234,Samsung Electronics Ltd
2,BC:A9:93:00:98:33,android-e7938e7,00:08:22:46:78:82,2.4GHz,32598,14222,InPro Comm
3,BC:E6:7C:EC:AA:DC,Galaxy-A01,A0:27:B6:62:78:47,2.4GHz,32466165,688148716,A0-27-B6
4,BC:E6:7C:EF:FD:DC,CPE,48:E2:44:32:E3:25,2.4GHz,12038,15384,Hon Hai Precision Ind Ltd
...,...,...,...,...,...,...,...
220649,BC:A9:93:10:52:84,HUAWEI_Y6II,14:A5:1A:DB:D7:45,2.4GHz,9879608,215274744,Huawei Technologies Ltd
220650,BC:E6:7C:5D:88:58,RedmiNote8-Redm,E8:5A:8B:A1:45:46,2.4GHz,238369,399117,Xiaomi Communications Ltd
220651,BC:E6:7C:5D:88:58,M2006C3LG-LOSIN,24:11:45:65:40:99,2.4GHz,777399,19289307,24-11-45
220652,BC:A9:93:64:07:19,CI-0205,F4:8C:50:80:FC:DC,5GHz,246261,359813,Intel Corporation


In [58]:
 try:
    datos_logins = datos_det_conex[['fecha_control', 'site_id', 'documento']].groupby(["fecha_control","site_id"])['documento'].nunique().reset_index()
    datos_logins= datos_logins.rename(columns={'documento' : 'usuarios.sesiones_Usuarios'})

    ###################################################################################################


    #Se trae usuarios conectados desde cambium devices clients 
    usuariosConectados = usuarios_conectados_cambium[["fecha_control","site_id","mac_usuario"]].groupby(["fecha_control","site_id"]).agg(['count']).reset_index()
    usuariosConectados.columns = usuariosConectados.columns.droplevel(1)
    usuariosConectados= usuariosConectados.rename(columns={'mac_usuario' : 'usuarios.usuariosConectados'})


    ###################################################################################################

    usuariosConectados = pd.merge(usuariosConectados,datos_logins,  how='outer')
    usuariosConectados.fillna({'usuarios.usuariosConectados': 0
                               ,'usuarios.sesiones_Usuarios' : 0 },inplace=True)
    usuariosConectados['usuarios.usuariosConectados'] = usuariosConectados['usuarios.usuariosConectados'].astype(int)
    usuariosConectados['usuarios.sesiones_Usuarios'] = usuariosConectados['usuarios.sesiones_Usuarios'].astype(int)
    usuariosConectados = pd.merge(datos_semilla,  usuariosConectados, on=['site_id'], how='inner')
    usuariosConectados = usuariosConectados.rename(columns={'fecha_control':'usuarios.fechaControl'
                                                           ,'site_id' : 'usuarios.siteID'})


    try:
        usuariosConectados["usuarios.fecha"] = usuariosConectados["usuarios.fechaControl"].str[0:10]
    except:
        usuariosConectados["usuarios.fecha"] = ""

    try:
        usuariosConectados["usuarios.anyo"] = usuariosConectados["usuarios.fecha"].str[0:4]
    except:
        usuariosConectados["usuarios.anyo"] = ""

    try:
        usuariosConectados["usuarios.mes"] = usuariosConectados["usuarios.fecha"].str[5:7]
    except:
        usuariosConectados["usuarios.mes"] = ""

    try:
        usuariosConectados["usuarios.dia"] = usuariosConectados["usuarios.fecha"].str[8:10]
    except:
        usuariosConectados["usuarios.dia"] = ""



    usuariosConectados['nombreDepartamento'] = usuariosConectados['usuarios.nombreDepartamento']
    usuariosConectados['nombreMunicipio'] = usuariosConectados['usuarios.nombreMunicipio']
    usuariosConectados['idBeneficiario'] = usuariosConectados['usuarios.idBeneficiario']
    usuariosConectados['fecha'] = usuariosConectados['usuarios.fecha']
    usuariosConectados['anyo'] = usuariosConectados['usuarios.anyo']
    usuariosConectados['mes'] = usuariosConectados['usuarios.mes']
    usuariosConectados['dia'] = usuariosConectados['usuarios.dia']
    usuariosConectados['@timestamp'] = now.isoformat()

except:
    print("Fecha: ", now,"- Ningun usuario conectado para insertar en indice principal:")

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [59]:
try:
    use_these_keys = ['usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'    
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.fechaControl'
                  #, 'usuarios.macRed'
                  #, 'usuarios.apGroup'    
                  , 'usuarios.usuariosConectados'
                  , 'usuarios.sesiones_Usuarios'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  #, 'usuarios.hora'
                  #, 'usuarios.minuto'
                  , 'nombreDepartamento'
                  , 'nombreMunicipio'
                  , 'idBeneficiario'
                  , 'fecha'
                  , 'anyo'
                  , 'mes'
                  , 'dia'
                  , '@timestamp']

    usuariosConectados['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl']) + '-' +str(random.randrange(10000000))}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(usuariosConectados))
    print("Fecha: ", now,"- Usuarios conectados insertados en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- Ningun usuario conectado para insertar en indice principal:")

Fecha:  2021-08-11 21:44:28.338550 - Usuarios conectados insertados en indice principal: 26224


In [60]:
usuariosConectados

Unnamed: 0,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.siteID,usuarios.nombreDepartamento,usuarios.sistemaEnergia,usuarios.nombreMunicipio,usuarios.idBeneficiario,usuarios.location,usuarios.fechaControl,...,usuarios.mes,usuarios.dia,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,C.E.R LA PAULINA,CO-ANT,LA PAULINA,22154-ZGYO176,ANTIOQUIA,RED INTERCONECTADA,VALDIVIA,22154,"6.7048548,-76.14525469",2021-06-03 00:00:00,...,06,03,ANTIOQUIA,VALDIVIA,22154,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
1,C.E.R LA PAULINA,CO-ANT,LA PAULINA,22154-ZGYO176,ANTIOQUIA,RED INTERCONECTADA,VALDIVIA,22154,"6.7048548,-76.14525469",2021-06-03 00:02:00,...,06,03,ANTIOQUIA,VALDIVIA,22154,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
2,C.E.R LA PAULINA,CO-ANT,LA PAULINA,22154-ZGYO176,ANTIOQUIA,RED INTERCONECTADA,VALDIVIA,22154,"6.7048548,-76.14525469",2021-06-03 00:04:00,...,06,03,ANTIOQUIA,VALDIVIA,22154,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3,C.E.R LA PAULINA,CO-ANT,LA PAULINA,22154-ZGYO176,ANTIOQUIA,RED INTERCONECTADA,VALDIVIA,22154,"6.7048548,-76.14525469",2021-06-03 00:06:00,...,06,03,ANTIOQUIA,VALDIVIA,22154,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
4,C.E.R LA PAULINA,CO-ANT,LA PAULINA,22154-ZGYO176,ANTIOQUIA,RED INTERCONECTADA,VALDIVIA,22154,"6.7048548,-76.14525469",2021-06-03 00:08:00,...,06,03,ANTIOQUIA,VALDIVIA,22154,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
26219,EL CORAZON,CO-TOL,EL CORAZON,49419-ZZZY897,TOLIMA,RED INTERCONECTADA,SAN ANTONIO,49419,"3.93124042,-75.57432226",2021-06-03 21:00:00,...,06,03,TOLIMA,SAN ANTONIO,49419,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
26220,I.E.R. LA MERCADILLA,CO-TOL,VDA. LA MERCADILLA,49589-ZZZY538,TOLIMA,RED INTERCONECTADA,VILLARRICA,49589,"3.97800339,-74.605680470",2021-06-03 06:00:00,...,06,03,TOLIMA,VILLARRICA,49589,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
26221,I.E.R. LA MERCADILLA,CO-TOL,VDA. LA MERCADILLA,49589-ZZZY538,TOLIMA,RED INTERCONECTADA,VILLARRICA,49589,"3.97800339,-74.605680470",2021-06-03 08:00:00,...,06,03,TOLIMA,VILLARRICA,49589,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
26222,I.E.R. LA MERCADILLA,CO-TOL,VDA. LA MERCADILLA,49589-ZZZY538,TOLIMA,RED INTERCONECTADA,VILLARRICA,49589,"3.97800339,-74.605680470",2021-06-03 15:30:00,...,06,03,TOLIMA,VILLARRICA,49589,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550


### Se lee el indice all-cambium-device-client

* En este indice se guarda el detalle de los radio por fecha
* Detalle conexiones cruza con device clients. Con estos se calculan los totales por marca

In [61]:
total_docs = 100000
response = es.search(
    index= 'all-'+parametros.cambium_d_c_index,
    body={
        "_source": ['mac', 'ap_mac', 'radio.band', 'radio.rx_bytes', 'radio.tx_bytes','fecha_control']
          , "query": {
              "range": {
                "fecha_control": {
                  "gte": fecha_max_mintic,
                  "lt": fecha_tope_mintic
                  #"gte": "2021-05-26 15:00:00",
                  #"lt": "2021-05-26 15:10:00"  
                }
              }
          }
    },
    size=total_docs
)
elastic_docs = response["hits"]["hits"]
#fields = {}
#for num, doc in enumerate(elastic_docs):
#    source_data = doc["_source"]
#   for key, val in source_data.items():
#        try:
#            fields[key] = np.append(fields[key], val)
#        except KeyError:
#            fields[key] = np.array([val])

#datos_radio = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

datos_radio = pd.DataFrame([x["_source"] for x in elastic_docs])

# Uso servicio de internet insertados en indice principal

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [62]:
use_these_keys = ['usuarios.macRed'
                  , 'usuarios.usoServicioInternetSitio'
                  , 'usuarios.detallesTecnologiasTerminales'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , 'usuarios.apGroup'
                  , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{ 'UsoServicio-' + str(document['usuarios.macRed']) + '-' + str(document['usuarios.detallesTecnologiasTerminales']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                "_source": filterKeys(document),
            }

* se toma el maximo radio para cada mac de dispositivo final
* se suma agrupando por ap_mac, banda y fecha
* El resultado es un total para cada banda, fecha y ap_mac

In [63]:
try:    
    datos_radio['fecha_control'] = datos_radio['fecha_control'].str[0:15]+'0:00'
    datos_radio = datos_radio.groupby(['ap_mac', 'fecha_control', 'mac', 'radio.band']).agg(['max']).reset_index()
    datos_radio.columns = datos_radio.columns.droplevel(1)
    datos_radio = datos_radio[['ap_mac', 'fecha_control', 'radio.band', 'radio.rx_bytes',
           'radio.tx_bytes']].groupby(['ap_mac', 'fecha_control', 'radio.band']).agg(['sum']).reset_index()
    datos_radio.columns = datos_radio.columns.droplevel(1)
    datos_radio = datos_radio.rename(columns={'ap_mac' : 'usuarios.macRed'})
    usoServicioInternetSitio = pd.merge(datos_radio,datos_dev[['usuarios.apGroup', 'site_id', 'usuarios.macRed']], on ='usuarios.macRed', how='inner')
    usoServicioInternetSitio.fillna({'radio.rx_bytes':0,'radio.tx_bytes':0},inplace=True)
    usoServicioInternetSitio.fillna({'usuarios.macRed':'','radio.band':'No identificado','usuarios.apGroup':'No identificado'},inplace=True)
    usoServicioInternetSitio['usuarios.usoServicioInternetSitio'] = usoServicioInternetSitio['radio.rx_bytes'].astype(float) + usoServicioInternetSitio['radio.tx_bytes'].astype(float)
    usoServicioInternetSitio = pd.merge(usoServicioInternetSitio,datos_semilla, on ='site_id', how='inner')
    usoServicioInternetSitio= usoServicioInternetSitio.rename(columns={'site_id' : 'usuarios.siteID'
                                                                    ,'radio.band' : 'usuarios.detallesTecnologiasTerminales'
                                                                    , 'fecha_control' : 'usuarios.fechaControl'})
    usoServicioInternetSitio['usuarios.usoServicioInternetSitio'] = round((usoServicioInternetSitio['usuarios.usoServicioInternetSitio']/float(1<<30)),6) 
    usoServicioInternetSitio["usuarios.fecha"] = usoServicioInternetSitio["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    usoServicioInternetSitio["usuarios.anyo"] = usoServicioInternetSitio["usuarios.fecha"].str[0:4]
    usoServicioInternetSitio["usuarios.mes"] = usoServicioInternetSitio["usuarios.fecha"].str[5:7]
    usoServicioInternetSitio["usuarios.dia"] = usoServicioInternetSitio["usuarios.fecha"].str[8:10]
    usoServicioInternetSitio["usuarios.hora"] = usoServicioInternetSitio["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    usoServicioInternetSitio["usuarios.minuto"] = usoServicioInternetSitio["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    
    usoServicioInternetSitio['nombreDepartamento'] = usoServicioInternetSitio['usuarios.nombreDepartamento']
    usoServicioInternetSitio['nombreMunicipio'] = usoServicioInternetSitio['usuarios.nombreMunicipio']
    usoServicioInternetSitio['idBeneficiario'] = usoServicioInternetSitio['usuarios.idBeneficiario']
    usoServicioInternetSitio['fecha'] = usoServicioInternetSitio['usuarios.fecha']
    usoServicioInternetSitio['anyo'] = usoServicioInternetSitio['usuarios.anyo']
    usoServicioInternetSitio['mes'] = usoServicioInternetSitio['usuarios.mes']
    usoServicioInternetSitio['dia'] = usoServicioInternetSitio['usuarios.dia']
    
    usoServicioInternetSitio['@timestamp'] = now.isoformat()
    salida = helpers.bulk(es, doc_generator(usoServicioInternetSitio))
    print("Fecha: ", now,"- Uso servicio y tecnología terminal insertados en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- Ningun uservicio/tecnología terminal conectado para insertar en indice principal")

Fecha:  2021-08-11 21:44:28.338550 - Uso servicio y tecnología terminal insertados en indice principal: 10266


In [64]:
usoServicioInternetSitio

Unnamed: 0,usuarios.macRed,usuarios.fechaControl,usuarios.detallesTecnologiasTerminales,radio.rx_bytes,radio.tx_bytes,usuarios.apGroup,usuarios.siteID,usuarios.usoServicioInternetSitio,usuarios.nomCentroDigital,usuarios.codISO,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,58:C1:7A:0A:9A:E8,2021-06-03 08:30:00,2.4GHz,5686,9440,INDOOR,37583-ZGYO493,0.000014,CARRETALITO,CO-LAG,...,08,30,LA GUAJIRA,BARRANCAS,37583,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
1,58:C1:7A:0A:9A:E8,2021-06-03 08:40:00,2.4GHz,89412,91783,INDOOR,37583-ZGYO493,0.000169,CARRETALITO,CO-LAG,...,08,40,LA GUAJIRA,BARRANCAS,37583,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
2,58:C1:7A:0A:9A:E8,2021-06-03 19:40:00,2.4GHz,1942,0,INDOOR,37583-ZGYO493,0.000002,CARRETALITO,CO-LAG,...,19,40,LA GUAJIRA,BARRANCAS,37583,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
3,58:C1:7A:0A:9A:E8,2021-06-03 19:50:00,2.4GHz,3072,0,INDOOR,37583-ZGYO493,0.000003,CARRETALITO,CO-LAG,...,19,50,LA GUAJIRA,BARRANCAS,37583,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
4,BC:E6:7C:58:E6:CA,2021-06-03 00:00:00,2.4GHz,17137564,481755505,OUTDOOR,37583-ZGYO493,0.464630,CARRETALITO,CO-LAG,...,00,00,LA GUAJIRA,BARRANCAS,37583,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
10261,BC:E6:7C:EF:FD:EA,2021-06-03 07:10:00,2.4GHz,623207,138618,OUTDOOR,48577-ZGYO575,0.000710,ORIENTE CHIPUELO,CO-TOL,...,07,10,TOLIMA,GUAMO,48577,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
10262,BC:E6:7C:EF:FD:EA,2021-06-03 07:20:00,2.4GHz,286936,41400,OUTDOOR,48577-ZGYO575,0.000306,ORIENTE CHIPUELO,CO-TOL,...,07,20,TOLIMA,GUAMO,48577,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
10263,BC:E6:7C:EF:FD:EA,2021-06-03 07:30:00,2.4GHz,286936,41400,OUTDOOR,48577-ZGYO575,0.000306,ORIENTE CHIPUELO,CO-TOL,...,07,30,TOLIMA,GUAMO,48577,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550
10264,BC:E6:7C:EF:FE:2F,2021-06-03 04:30:00,2.4GHz,28852,13271,OUTDOOR,47123-ZGYO420,0.000039,CENTRO EDUCATIVO CHAPINERO,CO-SUC,...,04,30,SUCRE,COROZAL,47123,2021-06-03,2021,06,03,2021-08-11T21:44:28.338550


Se renombra fecha_control para cruzar

## Totalizar la cantidad de dispositivos por usuario

* Para contabilizar los dispositivos por usuario, se debe contar la cantidad de ocurrencias de mac_usuario dentro de detalle de conexiones, agrupando por tipo documento y documento. 
* Aún cuando la mayoria de las fuentes referencia a mac_usuario, no se debe confundir a la hora de agrupar con los datos reales de usuario que en este caso serían el documento de identidad como campo de identificación

In [65]:
try:
    conteoDispositivos = datos_det_conex[['fecha_control','site_id', 'documento', 'tipodoc','fecha']].groupby(['fecha_control','site_id', 'documento', 'tipodoc']).agg(['count']).reset_index()
    conteoDispositivos.columns = conteoDispositivos.columns.droplevel(1)
    conteoDispositivos= conteoDispositivos.rename(columns={'fecha' : 'conteo'})
    conteoDispositivos = conteoDispositivos[['fecha_control','site_id','conteo']].groupby(['fecha_control','site_id']).agg(['sum']).reset_index()
    conteoDispositivos.columns = conteoDispositivos.columns.droplevel(1)
    conteoDispositivos= conteoDispositivos.rename(columns={'conteo' : 'usuarios.conteoDispositivos'})
    conteoDispositivos = pd.merge(conteoDispositivos, datos_semilla, on='site_id', how='inner')
    conteoDispositivos = conteoDispositivos.rename(columns={'fecha_control' : 'usuarios.fechaControl'})
    conteoDispositivos["usuarios.fecha"] = conteoDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    conteoDispositivos["usuarios.anyo"] = conteoDispositivos["usuarios.fecha"].str[0:4]
    conteoDispositivos["usuarios.mes"] = conteoDispositivos["usuarios.fecha"].str[5:7]
    conteoDispositivos["usuarios.dia"] = conteoDispositivos["usuarios.fecha"].str[8:10]
    conteoDispositivos["usuarios.hora"] = conteoDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    conteoDispositivos["usuarios.minuto"] = conteoDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    conteoDispositivos= conteoDispositivos.rename(columns={'site_id' : 'usuarios.siteID'})
    
    conteoDispositivos['nombreDepartamento'] = conteoDispositivos['usuarios.nombreDepartamento']
    conteoDispositivos['nombreMunicipio'] = conteoDispositivos['usuarios.nombreMunicipio']
    conteoDispositivos['idBeneficiario'] = conteoDispositivos['usuarios.idBeneficiario']
    conteoDispositivos['fecha'] = conteoDispositivos['usuarios.fecha']
    conteoDispositivos['anyo'] = conteoDispositivos['usuarios.anyo']
    conteoDispositivos['mes'] = conteoDispositivos['usuarios.mes']
    conteoDispositivos['dia'] = conteoDispositivos['usuarios.dia']
except:
    pass

In [66]:
conteoDispositivos

Unnamed: 0,usuarios.fechaControl,usuarios.siteID,usuarios.conteoDispositivos,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.nombreDepartamento,usuarios.sistemaEnergia,usuarios.nombreMunicipio,usuarios.idBeneficiario,...,usuarios.dia,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia
0,2021-06-03 00:00:00,26271-ZGYO608,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,CALDAS,RED INTERCONECTADA,NEIRA,26271,...,03,00,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03
1,2021-06-03 11:00:00,26271-ZGYO608,2,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,CALDAS,RED INTERCONECTADA,NEIRA,26271,...,03,11,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03
2,2021-06-03 12:00:00,26271-ZGYO608,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,CALDAS,RED INTERCONECTADA,NEIRA,26271,...,03,12,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03
3,2021-06-03 12:30:00,26271-ZGYO608,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,CALDAS,RED INTERCONECTADA,NEIRA,26271,...,03,12,30,CALDAS,NEIRA,26271,2021-06-03,2021,06,03
4,2021-06-03 13:00:00,26271-ZGYO608,1,ESCUELA SANTA TEREZA DE JESUS,CO-CAL,VDA. CANTADELICIA,CALDAS,RED INTERCONECTADA,NEIRA,26271,...,03,13,00,CALDAS,NEIRA,26271,2021-06-03,2021,06,03
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3068,2021-06-03 22:30:00,48989-ZGYO688,1,SEDE ARRAYANES,CO-TOL,ARRAYANES,TOLIMA,RED INTERCONECTADA,PALOCABILDO,48989,...,03,22,30,TOLIMA,PALOCABILDO,48989,2021-06-03,2021,06,03
3069,2021-06-03 22:30:00,26118-ZGYO389,1,PEÑA RICA,CO-CAL,PEÑA RICA,CALDAS,RED INTERCONECTADA,LA MERCED,26118,...,03,22,30,CALDAS,LA MERCED,26118,2021-06-03,2021,06,03
3070,2021-06-03 22:30:00,30374-ZGYO439,1,ESC. NUEVA LA FLORIDA,CO-CES,VEREDA LA FLORIDA,CESAR,RED INTERCONECTADA,BECERRIL,30374,...,03,22,30,CESAR,BECERRIL,30374,2021-06-03,2021,06,03
3071,2021-06-03 22:30:00,31620-ZZZY235,1,ESC NVA DE GUAYABAL,CO-COR,VDA GUAYABAL,CÓRDOBA,RED INTERCONECTADA,COTORRA,31620,...,03,22,30,CÓRDOBA,COTORRA,31620,2021-06-03,2021,06,03


# 4. Insertando promedio dispositivos en indice principal

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [67]:
try:
    use_these_keys = ['usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'    
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.conteoDispositivos'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                    , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']

    conteoDispositivos['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ 'PromedioDispositivos-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl'])+str(random.randrange(1000))}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(conteoDispositivos))
    print("Fecha: ", now,"- Promedios dispositivos Usuarios:",salida[0])
except:
    print("Fecha: ", now,"- Ningun Promedios dispositivos Usuarios para insertar en indice principal")

Fecha:  2021-08-11 21:44:28.338550 - Promedios dispositivos Usuarios: 3073


# Marcando si usuario es nuevo o recurrente

* Se toma del dataframe datos_det_conex y se cuenta las veces que cada mac_usuario aparece
* Luego se suma con el historico de conexiones por usuario (indice intermedio ohmyfi-total-conexiones-historico)
* marca como Nuevo(1 conexión). 

De este proceso se obtiene el campo:
* usuarios.usuariosNuevos
* usuarios.totales.usuariosNuevos

In [68]:
try:
    datos_recurrencia = datos_det_conex[["fecha","tipodoc","documento"]].groupby(["tipodoc","documento"]).agg(['count']).reset_index()
    datos_recurrencia.columns = datos_recurrencia.columns.droplevel(1)
    datos_recurrencia= datos_recurrencia.rename(columns={'fecha' : 'usuarios_recurrencia_aux'})
    datos_recurrencia['tipodoc'] = datos_recurrencia['tipodoc'].replace('','No especificado')
    datos_recurrencia['documento'] = datos_recurrencia['documento'].replace('','No especificado')
except:
    pass

### Se lee historico

Se lee ohmyfi-total-conexiones-historico, el cual es un indice creado a partir de los datos crudos. Este guarda la cantidad de conexiones realizadas por ese usuario. Para que la consulta funcione correctamente se debe colocar el filtro que usuarios_recurrencia exista.

In [69]:
try:
    total_docs = 30000000
    response = es.search(
        index= parametros.ohmyfi_total_c_index,
        body={
              "_source": ['tipodoc', 'documento', 'usuarios_recurrencia'],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"usuarios_recurrencia"
                    }
                  }
                  ]
                }
              }
        },
        size=total_docs
    )
    elastic_docs = response["hits"]["hits"]
#    fields = {}
#    for num, doc in enumerate(elastic_docs):
#       source_data = doc["_source"]
#       for key, val in source_data.items():
#            try:
#                fields[key] = np.append(fields[key], val)
#            except KeyError:
#               fields[key] = np.array([val])

    #ya_en_indice = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))
    
    ya_en_indice = pd.DataFrame([x["_source"] for x in elastic_docs])
    
except:
    ya_en_indice = pd.DataFrame(columns=['tipodoc', 'documento', 'usuarios_recurrencia'])

In [70]:
if ya_en_indice is None or ya_en_indice.empty:
    datos_recurrencia= datos_recurrencia.rename(columns={'usuarios_recurrencia_aux' : 'usuarios_recurrencia'})
else:
    datos_recurrencia = pd.merge(datos_recurrencia, ya_en_indice, on=['tipodoc', 'documento'],how='left')
    datos_recurrencia.fillna({'usuarios_recurrencia':0},inplace=True)
    datos_recurrencia['usuarios_recurrencia'] = datos_recurrencia['usuarios_recurrencia'] + datos_recurrencia['usuarios_recurrencia_aux']
    datos_recurrencia['usuarios_recurrencia'] = [int(x) for x in datos_recurrencia['usuarios_recurrencia']]

In [71]:
try:
    aux_recurrencia = pd.merge(datos_recurrencia,datos_det_conex, on=['tipodoc','documento'],how='inner' )
    aux_recurrencia = aux_recurrencia[(aux_recurrencia['usuarios_recurrencia']==1)]
    aux_recurrencia.loc[aux_recurrencia['usuarios_recurrencia']==1,'usuarios.usuariosNuevos']='Nuevo'
    #aux_recurrencia.loc[aux_recurrencia['usuarios_recurrencia']!=1,'usuarios.usuariosNuevos']='Recurrente'
    aux_recurrencia = aux_recurrencia.rename(columns={'usuarios_recurrencia' :'usuarios.sesiones_Usuarios'})
    aux_recurrencia = aux_recurrencia[["fecha_control","site_id","usuarios.usuariosNuevos",'documento']].groupby(["fecha_control","site_id","usuarios.usuariosNuevos"])['documento'].nunique().reset_index()
    aux_recurrencia= aux_recurrencia.rename(columns={'documento' : 'usuarios.totales.usuariosNuevos'})
except:
    pass

In [72]:
try:
    datos_recurrencia = pd.merge(datos_semilla,  aux_recurrencia, on='site_id', how='inner')
    datos_recurrencia = datos_recurrencia.rename(columns={'fecha_control' : 'usuarios.fechaControl'})
    datos_recurrencia["usuarios.fecha"] = datos_recurrencia["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    datos_recurrencia["usuarios.anyo"] = datos_recurrencia["usuarios.fecha"].str[0:4]
    datos_recurrencia["usuarios.mes"] = datos_recurrencia["usuarios.fecha"].str[5:7]
    datos_recurrencia["usuarios.dia"] = datos_recurrencia["usuarios.fecha"].str[8:10]
    datos_recurrencia["usuarios.hora"] = datos_recurrencia["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    datos_recurrencia["usuarios.minuto"] = datos_recurrencia["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    datos_recurrencia= datos_recurrencia.rename(columns={'site_id' : 'usuarios.siteID'})
    
    datos_recurrencia['nombreDepartamento'] = datos_recurrencia['usuarios.nombreDepartamento']
    datos_recurrencia['nombreMunicipio'] = datos_recurrencia['usuarios.nombreMunicipio']
    datos_recurrencia['idBeneficiario'] = datos_recurrencia['usuarios.idBeneficiario']
    datos_recurrencia['fecha'] = datos_recurrencia['usuarios.fecha']
    datos_recurrencia['anyo'] = datos_recurrencia['usuarios.anyo']
    datos_recurrencia['mes'] = datos_recurrencia['usuarios.mes']
    datos_recurrencia['dia'] = datos_recurrencia['usuarios.dia']
except:
    pass

# Insertando recurrencia de usuario en indice principal

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [73]:
try:
    use_these_keys = ['usuarios.nomCentroDigital'
                      , 'usuarios.codISO'
                      , 'usuarios.idBeneficiario'
                      , 'usuarios.localidad'
                      , 'usuarios.siteID'
                      , 'usuarios.nombreDepartamento'
                      , 'usuarios.sistemaEnergia'
                      , 'usuarios.nombreMunicipio'
                      , 'usuarios.location'
                      , 'usuarios.usuariosNuevos'
                      , 'usuarios.totales.usuariosNuevos'
                      , 'usuarios.fechaControl'
                      , 'usuarios.fecha'
                      , 'usuarios.anyo'
                      , 'usuarios.mes'
                      , 'usuarios.dia'
                      , 'usuarios.hora'
                      , 'usuarios.minuto'
                        , 'nombreDepartamento'
                        , 'nombreMunicipio'
                        , 'idBeneficiario'
                        , 'fecha'
                        , 'anyo'
                        , 'mes'
                        , 'dia'
                      , '@timestamp']

    datos_recurrencia['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ 'Recurrencia-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(datos_recurrencia))
    print("Fecha: ", now,"- recurrencia de usuario a indice:",salida[0])
except:
    print("Fecha: ", now,"- Ninguna recurrencia de usuario para insertar en indice principal")

Fecha:  2021-08-11 21:44:28.338550 - recurrencia de usuario a indice: 376


## Insertando detalle MACs

In [74]:
use_these_keys = ['usuarios.siteID'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.localidad'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.location'
                  , 'usuarios.macRed'
                  , 'usuarios.apGroup'
                  , 'usuarios.dispositivo.mac'
                  , 'usuarios.dispositivo.tipo'
                  , 'usuarios.dispositivo.nombre'
                  , 'usuarios.dispositivo.marca'
                  , 'usuarios.dispositivo.tecnologia'
                  , 'usuarios.dispositivo.sisOperativo'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , '@timestamp']
def doc_generator_mac(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{ 'detalleMAC-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl']) + '-' + str(document['usuarios.dispositivo.mac']) + str(random.randrange(1000))  }",
                "_source": filterKeys(document),
            }

In [75]:
try:
    dispositivoUsuarios = datos_det_conex[['site_id','usuarios.macRed','usuarios.apGroup'
                                ,'mac_usuario','fecha_control'
                                ,'usuarios.tipoDispositivoUsuarios'
                                ,'name','manufacturer','radio.band'
                                ,'usuarios.sistemaOperativoUsuarios']].drop_duplicates(subset=['mac_usuario'])
    dispositivoUsuarios.fillna({'usuarios.tipoDispositivoUsuarios':'No identificado'
                               ,'name':'No identificado'
                               ,'manufacturer':'No identificado'
                               ,'radio.band':'No identificado'
                               ,'usuarios.sistemaOperativoUsuarios':'No identificado'
                               ,'usuarios.macRed':'No identificado'
                               ,'usuarios.apGroup':'No identificado'
                               },inplace=True)

    dispositivoUsuarios = pd.merge(dispositivoUsuarios, datos_semilla, on='site_id',how='inner')
    dispositivoUsuarios= dispositivoUsuarios.rename(columns={
                                                     'site_id' : 'usuarios.siteID'
                                                    ,'mac_usuario' : 'usuarios.dispositivo.mac'
                                                    ,'usuarios.tipoDispositivoUsuarios' : 'usuarios.dispositivo.tipo'
                                                    ,'name' : 'usuarios.dispositivo.nombre'
                                                    ,'manufacturer' : 'usuarios.dispositivo.marca'
                                                    ,'radio.band' : 'usuarios.dispositivo.tecnologia'
                                                    ,'usuarios.sistemaOperativoUsuarios' : 'usuarios.dispositivo.sisOperativo'
                                                    ,'fecha_control':'usuarios.fechaControl'
                                                    })
    dispositivoUsuarios["usuarios.fecha"] = dispositivoUsuarios["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    dispositivoUsuarios["usuarios.anyo"] = dispositivoUsuarios["usuarios.fecha"].str[0:4]
    dispositivoUsuarios["usuarios.mes"] = dispositivoUsuarios["usuarios.fecha"].str[5:7]
    dispositivoUsuarios["usuarios.dia"] = dispositivoUsuarios["usuarios.fecha"].str[8:10]
    dispositivoUsuarios["usuarios.hora"] = dispositivoUsuarios["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    dispositivoUsuarios["usuarios.minuto"] = dispositivoUsuarios["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    dispositivoUsuarios['@timestamp'] = now.isoformat()
    salida = helpers.bulk(es, doc_generator_mac(dispositivoUsuarios))
    print("Fecha: ", now,"- Detalle MACs a indice:",salida[0])
except:
    print("Fecha: ", now,"- Ningún Detalle MACs para insertar en indice principal")

Fecha:  2021-08-11 21:44:28.338550 - Detalle MACs a indice: 3376


In [76]:
dispositivoUsuarios

Unnamed: 0,usuarios.siteID,usuarios.macRed,usuarios.apGroup,usuarios.dispositivo.mac,usuarios.fechaControl,usuarios.dispositivo.tipo,usuarios.dispositivo.nombre,usuarios.dispositivo.marca,usuarios.dispositivo.tecnologia,usuarios.dispositivo.sisOperativo,...,usuarios.nombreMunicipio,usuarios.idBeneficiario,usuarios.location,usuarios.fecha,usuarios.anyo,usuarios.mes,usuarios.dia,usuarios.hora,usuarios.minuto,@timestamp
0,73821-ZGYO901,BC:E6:7C:E7:FC:5F,OUTDOOR,18:D2:76:1D:39:5E,2021-06-03 10:30:00,Smartphone,android-cec1839,Huawei Technologies Ltd,2.4GHz,Android,...,SAN JUAN DEL CESAR,73821,"10.82187961,-73.05603732",2021-06-03,2021,06,03,10,30,2021-08-11T21:44:28.338550
1,73821-ZGYO901,BC:E6:7C:EF:FD:28,OUTDOOR,B4:1C:30:F4:38:2B,2021-06-03 10:30:00,Smartphone,ZTE-Blade-L130,ZTE Corporation,2.4GHz,Android,...,SAN JUAN DEL CESAR,73821,"10.82187961,-73.05603732",2021-06-03,2021,06,03,10,30,2021-08-11T21:44:28.338550
2,73821-ZGYO901,BC:E6:7C:EF:FD:28,OUTDOOR,C0:CB:F1:2C:70:8A,2021-06-03 10:30:00,Smartphone,,Mobiwire Mobiles (NingBo) Ltd,2.4GHz,Android,...,SAN JUAN DEL CESAR,73821,"10.82187961,-73.05603732",2021-06-03,2021,06,03,10,30,2021-08-11T21:44:28.338550
3,73821-ZGYO901,BC:E6:7C:EF:FD:28,OUTDOOR,24:23:43:24:35:87,2021-06-03 10:30:00,Smartphone,android-3fad015,24-23-43,2.4GHz,Android,...,SAN JUAN DEL CESAR,73821,"10.82187961,-73.05603732",2021-06-03,2021,06,03,10,30,2021-08-11T21:44:28.338550
4,73821-ZGYO901,BC:E6:7C:EF:FD:82,OUTDOOR,84:E0:F4:9D:D8:D4,2021-06-03 10:30:00,Smartphone,,IEEE Registration Authority,2.4GHz,Android,...,SAN JUAN DEL CESAR,73821,"10.82187961,-73.05603732",2021-06-03,2021,06,03,10,30,2021-08-11T21:44:28.338550
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
3371,42011-ZGYO222,BC:E6:7C:4F:07:11,OUTDOOR,48:4B:AA:40:17:57,2021-06-03 19:00:00,Smartphone,iPhone-7-plus,Apple,2.4GHz,iOS,...,ÁBREGO,42011,"8.21459655,-73.14283986",2021-06-03,2021,06,03,19,00,2021-08-11T21:44:28.338550
3372,48636-ZGYO154,BC:E6:7C:EF:FE:3D,OUTDOOR,D4:C9:4B:14:10:6B,2021-06-03 19:00:00,Smartphone,,"Motorola Mobility LLC, a Lenovo Company",2.4GHz,Android,...,HERVEO,48636,"5.13532375,-75.14800211",2021-06-03,2021,06,03,19,00,2021-08-11T21:44:28.338550
3373,30353-ZGYO970,No identificado,No identificado,A0:27:B6:09:7C:45,2021-06-03 19:00:00,Smartphone,No identificado,No identificado,No identificado,Android,...,ASTREA,30353,"9.5341666,-74.079444",2021-06-03,2021,06,03,19,00,2021-08-11T21:44:28.338550
3374,47371-ZGYO969,BC:E6:7C:E7:FC:E0,OUTDOOR,D6:37:04:49:F4:44,2021-06-03 18:30:00,Smartphone,Galaxy-A50,No identificado,5GHz,Android,...,OVEJAS,47371,"9.2715,-75.545",2021-06-03,2021,06,03,18,30,2021-08-11T21:44:28.338550


### Guardando fecha para control de ejecución

* Se actualiza la fecha de control. Si el calculo supera la fecha hora actual, se asocia esta ultima.

In [77]:
fecha_ejecucion= (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")[0:15] + '0:00'    

if fecha_ejecucion > str(now.strftime('%Y-%m-%d %H:%M:%S'))[0:15] + '0:00':
    fecha_ejecucion = str(now.strftime('%Y-%m-%d %H:%M:%S'))[0:15] + '0:00'
response = es.index(
        index = indice_control,
        id = 'jerarquia-tablero12',
        body = { 'jerarquia-tablero12': 'jerarquia-tablero12','usuarios.fechaControl' : fecha_ejecucion}
)
print("actualizada fecha control de ejecucion:",fecha_ejecucion)

actualizada fecha control de ejecucion: 2021-06-04 00:00:00
