### ¿Qué hace este script?

#### Para cada AP:
* usuarios.usuariosConectados(corresponde al total de conexiones), usuarios.sesiones_Usuarios (Corresponde al total de usuarios)
* Información detallada de los dispositivos conectados en el rango de fecha procesado: usuarios.dispositivo.mac, usuarios.dispositivo.tipo, usuarios.dispositivo.marca, usuarios.dispositivo.tecnologia, usuarios.dispositivo.sisOperativo.

#### Para cada sitio: 
* Totales por características de dispositivos: usuarios.sistemaOperativoUsuarios, usuarios.tipoDispositivoUsuarios, usuarios.marcaTerminal, usuarios.tecnologiaTerminal, usuarios.totales.dispositivos (Este ultimo guarda el total)
* usuarios.usoServicioInternetSitio es la suma en Gb consumido discriminado por usuarios.detallesTecnologiasTerminales (Bandas 2.4 o 5 GHz)
* usuarios.conteoDispositivos el cual indica el total de dispositivos conectados (Es lo mismo que total de conexiones)
* usuarios.usuariosNuevos (Esta tenía antes Nuevos y Recurrentes, pero ahora solo tiene Nuevos por solicitud de BI)
* usuarios.totales.usuariosNuevos, tiene el total de usuarios nuevos (el script por el momento solo totaliza nuevos siempre y cuando no se corra historicos)

In [592]:
from elasticsearch import Elasticsearch, helpers
from ssl import create_default_context
import pandas as pd
import numpy as np
from datetime import datetime, timedelta
import parametros
import re
import random
import time

## Conectando a ElasticSearch

La ultima línea se utiliza para garantizar la ejecución de la consulta
* timeout es el tiempo para cada ejecución
* max_retries el número de intentos si la conexión falla
* retry_on_timeout para activar los reitentos

In [593]:
context = create_default_context(cafile=parametros.cafile)
es = Elasticsearch(
    parametros.servidor,
    http_auth=(parametros.usuario_EC, parametros.password_EC),
    scheme="https",
    port=parametros.puerto,
    ssl_context=context,
    timeout=60, max_retries=3, retry_on_timeout=True
)

### Calculando fechas para la ejecución

* Se calculan las fechas para asociar al nombre del indice
* fecha_hoy es usada para concatenar al nombre del indice principal previa inserción

In [594]:
now = datetime.now()
fecha_hoy = str(now.strftime("%Y.%m.%d"))

### nombre de indice donde se insertará

In [595]:
indice = parametros.usuarios_tablero12_index
indice_control = parametros.tableros_mintic_control

### Funcion para construir JSON compatible con ElasticSearch

In [596]:
def filterKeys(document):
    return {key: document[key] for key in use_these_keys }

### Trae la ultima fecha para control de ejecución

Cuando en el rango de tiempo de la ejecución, no se insertan nuevos valores, las fecha maxima en indice mintic no aumenta, por tanto se usa esta fecha de control para garantizar que incremente el bucle de ejecución

In [597]:
total_docs = 1
try:
    response = es.search(
        index= indice_control,
        body={
               "_source": ['usuarios.fechaControl'],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"jerarquia-tablero12"
                    }
                  }
                  ]
                }
              }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        fecha_ejecucion = doc["_source"]['usuarios.fechaControl']
except:
    fecha_ejecucion = '2021-05-01 00:00:00'
if response["hits"]["hits"] == []:
    fecha_ejecucion = '2021-05-01 00:00:00'
print("ultima fecha para control de ejecucion:",fecha_ejecucion)

ultima fecha para control de ejecucion: 2021-06-01 12:50:00


### leyendo indice semilla-inventario

En el script que ingesta semilla, trae la información de los centros de conexión administrados. Para el indice principal se requiere:
* site_id como llave del centro de conexión.
* Datos geográficos (Departamento, municipio, centro poblado, sede, energía, latitud, longitud,COD_ISO, id_Beneficiario).

In [598]:
t1=time.time()
total_docs = 10000
try:
    response = es.search(
        index= parametros.semilla_inventario_index,
        body={
               "_source": ['site_id','nombre_municipio', 'nombre_departamento', 'nombre_centro_pob', 'nombreSede' 
                           , 'energiadesc', 'latitud', 'longitud', 'COD_ISO','id_Beneficiario']
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
#     fields = {}
#     for num, doc in enumerate(elastic_docs):
#         source_data = doc["_source"]
#         for key, val in source_data.items():
#             try:
#                 fields[key] = np.append(fields[key], val)
#             except KeyError:
#                 fields[key] = np.array([val])

#     datos_semilla = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) #pd.DataFrame(fields)
    
    datos_semilla = pd.DataFrame([x["_source"] for x in elastic_docs])
    
except:
    exit()
    
t2=time.time()

In [599]:
datos_semilla

Unnamed: 0,nombreSede,longitud,latitud,COD_ISO,nombre_centro_pob,site_id,nombre_departamento,energiadesc,nombre_municipio,id_Beneficiario
0,ESC RURA MIX EL MOJAO,-7314195217,105872798,CO-CES,EL MOJAO,30067-ZGYO746,CESAR,RED INTERCONECTADA,VALLEDUPAR,30067
1,ESC NUEVA EL ALTO DE LA VUELTA,-7318049274,1055795672,CO-CES,EL ALTO DE LA VUELTA,30071-ZGYO513,CESAR,RED INTERCONECTADA,VALLEDUPAR,30071
2,ESC NUEVA DE LAS RAICES,-7371481879,1026691965,CO-CES,LAS RAÍCES,30072-,CESAR,RED INTERCONECTADA,VALLEDUPAR,30072
3,CEN EDUC VILLA GERMANIA,-7339495279,1047333333,CO-CES,VILLA GERMANIA,30073-,CESAR,RED INTERCONECTADA,VALLEDUPAR,30073
4,ESC. NUEVA HATICO NO. 2,-7368928716,1024212806,CO-CES,HATICO 2,30074-,CESAR,RED INTERCONECTADA,VALLEDUPAR,30074
...,...,...,...,...,...,...,...,...,...,...
6942,ESCUELA SANTA ISABEL,-73138349330,639026335,CO-VAU,COMUNIDAD SANTA ISABEL,67733-,VAUPÉS,SOLUCIÓN SOLAR,PACOA,67733
6943,ESCUELA RURAL DE SAN LUIS DE PIEDRA ÑI,-7007416384,008164385,CO-VAU,COMUNIDAD DE SAN LUIS,70622-,VAUPÉS,SIN INFORMACIÓN,PACOA,70622
6944,ESCUELA RURAL DE SANTA ROSA,,,CO-VAU,COMUNIDAD DE SANTA ROSA,70623-,VAUPÉS,SIN INFORMACIÓN,PACOA,70623
6945,ESCUELA RURAL DE TOAKA,-7125103723,1007644476,CO-VAU,COMUNIDAD DE TOAKA,70624-,VAUPÉS,SIN INFORMACIÓN,PACOA,70624


### Cambiando nombre de campos y generando location

* Se valida latitud y longitud. Luego se calcula campo location
* Se renombran los campos de semilla

In [600]:
def get_location(x):
    patron = re.compile('^(\-?\d+(\.\d+)?),\s*(\-?\d+(\.\d+)?)$') #patrón que debe cumplir
    if (not patron.match(x) is None):
        return x.replace(',','.')
    else:
        #Código a ejecutar si las coordenadas no son válidas
        return 'a'
datos_semilla['latitud'] = datos_semilla['latitud'].apply(get_location)
datos_semilla['longitud'] = datos_semilla['longitud'].apply(get_location)
datos_semilla = datos_semilla.drop(datos_semilla[(datos_semilla["longitud"]=='a') | (datos_semilla["latitud"]=='a')].index)
datos_semilla['usuarios.location'] = datos_semilla['latitud'] + ',' + datos_semilla['longitud']
datos_semilla['usuarios.location']=datos_semilla['usuarios.location'].str.replace('a,a','')
datos_semilla.drop(columns=['latitud','longitud'],inplace=True)

In [601]:
datos_semilla = datos_semilla.rename(columns={'lugar_cod' : 'usuarios.centroDigitalUsuarios'
                                            , 'nombre_municipio': 'usuarios.nombreMunicipio'
                                            , 'nombre_departamento' : 'usuarios.nombreDepartamento'
                                            , 'nombre_centro_pob': 'usuarios.localidad'
                                            , 'nombreSede' : 'usuarios.nomCentroDigital'
                                            , 'energiadesc' : 'usuarios.sistemaEnergia'
                                            , 'COD_ISO' : 'usuarios.codISO'
                                            , 'id_Beneficiario' : 'usuarios.idBeneficiario'})

Se descartan los registros que tengan la latitud y longitud vacía o no valida

In [602]:
datos_semilla = datos_semilla.drop(datos_semilla[(datos_semilla["usuarios.location"]=='')].index)

### leyendo indice cambium-devicedevices

De esta formas se asocia las MAC de dispositivos de red INDOOR y OUTDOOR
* site_id para cruzar con las misma llave de semilla.
* datos del dispositivo: mac, status, ip.
* ap_group para identificar si la conexión es indoor/outdoor

In [603]:
t1=time.time()
total_docs = 30000
try:
    response = es.search(
        index= parametros.cambium_d_d_index,
        body={
                    "_source": ["site_id","mac","status","ip","ap_group"]
                  , "query": {
                    "match_all": {}
                  }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
#     fields = {}
#     for num, doc in enumerate(elastic_docs):
#         source_data = doc["_source"]
#         for key, val in source_data.items():
#             try:
#                 fields[key] = np.append(fields[key], val)
#             except KeyError:
#                 fields[key] = np.array([val])

#     datos_dev = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) #pd.DataFrame(fields)
    
    datos_dev = pd.DataFrame([x["_source"] for x in elastic_docs])
    
    
except:
    exit()
    
t2=time.time()

In [604]:
datos_dev

Unnamed: 0,ap_group,ip,site_id,mac,status
0,INDOOR-44745-ZGYO227,172.28.118.179,44745-ZGYO227,BC:E6:7C:5E:66:88,online
1,OUTDOOR,172.28.118.180,44745-ZGYO227,58:C1:7A:E9:C9:6F,online
2,OUTDOOR,172.28.118.181,44745-ZGYO227,58:C1:7A:E9:C8:5C,online
3,INDOOR_44747-ZGYO413,172.28.118.171,44747-ZGYO413,BC:E6:7C:ED:F2:4F,online
4,OUTDOOR,172.28.118.172,44747-ZGYO413,BC:E6:7C:4F:07:88,online
...,...,...,...,...,...
4840,OUTDOOR,172.25.84.77,37717-ZZZY751,BC:A9:93:0C:E3:1D,offline
4841,INDOOR_47123-ZGYO420,172.25.38.243,47123-ZGYO420,BC:E6:7C:ED:8A:EA,online
4842,,172.25.62.188,48314-ZZZY828,BC:A9:93:00:30:9C,offline
4843,,172.25.51.236,37609-ZGYO786,BC:E6:7C:E8:CE:51,offline


Se descartan registros con site_id vacios ya que no cruzarán en el merge y se limpian los NaN del dataframe.

In [605]:
datos_dev.dropna(subset=['site_id'], inplace=True)
datos_dev.fillna('', inplace=True)
datos_dev = datos_dev.drop(datos_dev[(datos_dev['site_id']=='')].index)

In [606]:
datos_dev['ap_group'] = datos_dev['ap_group'].str.split("-", n = 1, expand = True)[0]
datos_dev['ap_group'] = datos_dev['ap_group'].str.split("_", n = 1, expand = True)[0]
datos_dev['ap_group'] = datos_dev['ap_group'].str.split(".", n = 1, expand = True)[0]
datos_dev = datos_dev.drop(datos_dev[(datos_dev['ap_group']=='')].index)

Se toman solo los datos unicos con mac.

In [607]:
#datos_dev.drop_duplicates(subset=['site_id','mac'],inplace=True)
datos_dev = datos_dev.drop_duplicates('mac')

Se cambia el nombre a la mac del dispositivo de red para no confundir con la de dispositivos de usuario 

In [608]:
datos_dev= datos_dev.rename(columns={'mac' : 'usuarios.macRed','ap_group' : 'usuarios.apGroup'})

In [609]:
datos_dev

Unnamed: 0,usuarios.apGroup,ip,site_id,usuarios.macRed,status
0,INDOOR,172.28.118.179,44745-ZGYO227,BC:E6:7C:5E:66:88,online
1,OUTDOOR,172.28.118.180,44745-ZGYO227,58:C1:7A:E9:C9:6F,online
2,OUTDOOR,172.28.118.181,44745-ZGYO227,58:C1:7A:E9:C8:5C,online
3,INDOOR,172.28.118.171,44747-ZGYO413,BC:E6:7C:ED:F2:4F,online
4,OUTDOOR,172.28.118.172,44747-ZGYO413,BC:E6:7C:4F:07:88,online
...,...,...,...,...,...
4838,INDOOR,172.25.30.163,49318-ZZZY605,BC:E6:7C:EC:AA:C7,offline
4839,OUTDOOR,172.25.84.76,37717-ZZZY751,BC:A9:93:0C:7B:9D,offline
4840,OUTDOOR,172.25.84.77,37717-ZZZY751,BC:A9:93:0C:E3:1D,offline
4841,INDOOR,172.25.38.243,47123-ZGYO420,BC:E6:7C:ED:8A:EA,online


### Lectura de datos ohmyfi-detalleconexiones

Los datos que se toman son:
* fechahora (de cada conexión). fecha_control es lo mismo pero con el intervalo de 10 minutos
* Información del centro: lugar, lugar_cod.
* Información del dispositivo de usuario: mac_usuario, dispositivo, sistema_operativo.
* Información de usuario: tipodoc y documento

In [610]:
def trae_conexiones(fecha_ini,fecha_fin):
    total_docs = 5000000
    response = es.search(
        index= parametros.ohmyfi_d_c_index,
        body={
                "_source": ["fechahora","fecha_control","lugar","lugar_cod","mac_usuario", "dispositivo"
                            ,"sistema_operativo",'tipodoc','documento']
                , "query": {
                  "range": {
                    "fechahora": {
                      "gte": fecha_ini,
                      "lt": fecha_fin
                    }
                  }
              }
        },
        size=total_docs
    )
    elastic_docs = response["hits"]["hits"]
#     fields = {}
#     for num, doc in enumerate(elastic_docs):
#         source_data = doc["_source"]
#         for key, val in source_data.items():
#             try:
#                 fields[key] = np.append(fields[key], val)
#             except KeyError:
#                 fields[key] = np.array([val])

#     return pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) 

    return pd.DataFrame([x["_source"] for x in elastic_docs])

### Lanzando ejecución de consulta

* Se calcula rango en base a la fecha de control. Para este caso es de 10 minutos.
* Se ejecuta la función de consulta con el rango de fechas.
* Si no retorna datos se incrementa el rango y se ejecuta nuevamente. Este proceso se repite hasta conseguir datos o hasta que el rango de ejecución alcance la fecha y hora actual.


In [611]:
fecha_max_mintic = fecha_ejecucion
fecha_tope_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(minutes=10)-timedelta(seconds=1)).strftime("%Y-%m-%d %H:%M:%S")
datos_det_conex = trae_conexiones(fecha_max_mintic,fecha_tope_mintic)

if datos_det_conex is None or datos_det_conex.empty:
    while (datos_det_conex is None or datos_det_conex.empty) and ((datetime.strptime(fecha_max_mintic[0:10], '%Y-%m-%d').strftime("%Y-%m-%d %H:%M:%S")) < str(now.strftime("%Y-%m-%d %H:%M:%S"))):
        fecha_max_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(minutes=10)).strftime("%Y-%m-%d %H:%M:%S")
        fecha_tope_mintic = (datetime.strptime(fecha_tope_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(minutes=10)).strftime("%Y-%m-%d %H:%M:%S")
        datos_det_conex = trae_conexiones(fecha_max_mintic,fecha_tope_mintic)
else:
    pass

In [612]:
datos_det_conex['fecha'] = datos_det_conex['fecha_control'].str.split(" ", n = 1, expand = True)[0]
datos_det_conex.drop_duplicates(subset=["fecha_control","lugar","lugar_cod","mac_usuario", "dispositivo","sistema_operativo",'tipodoc','documento'],inplace=True)

In [613]:
datos_det_conex = datos_det_conex.rename(columns={'lugar_cod' : 'site_id'
                                                             ,'fechahora':'usuarios.fechaConexionUsuarios'
                                                             ,'dispositivo': 'usuarios.tipoDispositivoUsuarios'
                                                             , 'sistema_operativo': 'usuarios.sistemaOperativoUsuarios'})

Se corrigen valores errados de site_id en detalle conexiones

In [614]:
datos_det_conex['site_id'] = datos_det_conex['site_id'].str.replace("_","-")

In [615]:
datos_det_conex

Unnamed: 0,usuarios.fechaConexionUsuarios,mac_usuario,usuarios.tipoDispositivoUsuarios,lugar,documento,tipodoc,site_id,fecha_control,usuarios.sistemaOperativoUsuarios,fecha
0,2021-06-01 13:00:00,C8:C7:50:82:D7:57,Smartphone,"VDA BADUMALITO, PUERTO LIBERTADOR",1014186841,TI,70175-ZZZY515,2021-06-01 13:00:00,Android,2021-06-01
1,2021-06-01 13:00:00,90:63:3B:0F:25:B5,Smartphone,"EL BINDE, COTORRA",1007390255,CC,31600-ZZZY190,2021-06-01 13:00:00,Android,2021-06-01
2,2021-06-01 13:00:02,B4:39:39:08:25:4B,Smartphone,LOS CASTILLOS_PALMITO,1196971221,CC,47409-ZGYO725,2021-06-01 13:00:00,Android,2021-06-01
3,2021-06-01 13:00:02,5C:C3:07:6C:4D:AF,Smartphone,LA PAULINA_VALDIVIA,1044151973,TI,22154-ZGYO176,2021-06-01 13:00:00,Android,2021-06-01
4,2021-06-01 13:00:03,78:C3:E9:8E:42:90,Smartphone,"VIA TIERRALTA (SAN ANTERITO), MONTERIA",1067889223,CC,31119-ZGYO866,2021-06-01 13:00:00,Android,2021-06-01
...,...,...,...,...,...,...,...,...,...,...
559,2021-06-01 13:07:44,D0:31:69:3C:1A:FE,Smartphone,"SANTA LUCÍA, SANTA LUCÍA",1046338211,TI,22543-ZZZY13,2021-06-01 13:00:00,Android,2021-06-01
567,2021-06-01 13:07:53,AC:AF:B9:93:E3:3A,Smartphone,"SANTA CLARA, MONTER?A",25776200,CC,31121-ZGYO334,2021-06-01 13:00:00,Android,2021-06-01
569,2021-06-01 13:07:56,10:44:00:83:09:31,Smartphone,CORREG PTO VALDIVIA_VALDIVIA,,,22144-ZGYO174,2021-06-01 13:00:00,Android,2021-06-01
573,2021-06-01 13:08:01,BC:7A:BF:44:19:7E,Smartphone,EL TOLIMA_MORROA,1100622503,TI,47361-ZGYO834,2021-06-01 13:00:00,Android,2021-06-01


### Se lee la información de cambium device client

Esta lectura se usa para identificar: 
* Lecturas de consumo por dispositivo (radios rx y tx)
* Fabricante del dispositivo
* la mac del ap que luego se usa para identificar el ap group(Indoor/Outdoor)

In [616]:
t1=time.time()

total_docs = 30000000
response = es.search(
    index= parametros.cambium_d_c_index,
    body={
            "_source": ["mac","ap_mac", 'manufacturer','name',"radio.band",'radio.rx_bytes','radio.tx_bytes'],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"mac"
                    }
                  }
                  ]
                }
              }
    },
    size=total_docs
)
elastic_docs = response["hits"]["hits"]
# fields = {}
# for num, doc in enumerate(elastic_docs):
#     source_data = doc["_source"]
#     for key, val in source_data.items():
#         try:
#             fields[key] = np.append(fields[key], val)
#         except KeyError:
#             fields[key] = np.array([val])

# datos_dev_clients = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

datos_dev_clients = pd.DataFrame([x["_source"] for x in elastic_docs])

t2=time.time()

In [617]:
(t2-t1)/60

0.5776353001594543

In [618]:
df1=datos_dev_clients

In [619]:
(t2-t1)/60

0.5776353001594543

In [620]:
df2=datos_dev_clients

In [621]:
df1.equals(df2)

True

In [622]:
df1.shape

(214956, 7)

In [623]:
df2.shape

(214956, 7)

In [624]:
datos_dev_clients

Unnamed: 0,ap_mac,name,mac,radio.band,radio.rx_bytes,radio.tx_bytes,manufacturer
0,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,0E:9C:F2:E0:B3:1F,2.4GHz,1140,0,[Local MAC]
1,BC:E6:7C:5D:20:AE,SM-J260MU,F8:F1:E6:A3:0D:45,2.4GHz,147191582,160639234,Samsung Electronics Ltd
2,BC:A9:93:00:98:33,android-e7938e7,00:08:22:46:78:82,2.4GHz,32598,14222,InPro Comm
3,BC:E6:7C:EC:AA:DC,Galaxy-A01,A0:27:B6:62:78:47,2.4GHz,32466165,688148716,A0-27-B6
4,BC:E6:7C:EF:FD:DC,CPE,48:E2:44:32:E3:25,2.4GHz,12038,15384,Hon Hai Precision Ind Ltd
...,...,...,...,...,...,...,...
214951,BC:A9:93:0C:7B:1B,android-71f0722,4C:4E:03:93:56:CF,2.4GHz,722392,188335,TCT mobile Ltd
214952,BC:A9:93:0C:7B:1B,SM-J260M,A8:51:5B:B0:71:3D,2.4GHz,134339,257129,Samsung Electronics Ltd
214953,BC:A9:93:0C:7B:1B,android-c3e64de,54:FC:F0:51:E7:D0,2.4GHz,923,382,Samsung Electronics Ltd
214954,BC:A9:93:0C:7B:34,,EC:F2:2B:71:3A:8E,2.4GHz,3051442,45666582,EC-F2-2B


### Asociando datos de usuarios¶

Se realiza lectura por día procesado
lugar_cod se usa para cruzar con semilla por site_id
creado es la fecha de creación del usuario
tipodoc y documento corresponden a datos del usuario. Se usa para calcular totales

In [625]:
def traeRegistros(fecha_max,fecha_tope):
    total_docs = 10000
    response = es.search(
        index= parametros.ohmyfi_d_u_index,
        body={
                "_source": ['lugar_cod','tipodoc', 'documento', 'creado']
                  , "query": {
                  "range": {
                    "creado": {
                      "gte": fecha_max.split(' ')[0]+' 00:00:00',
                      "lt": fecha_tope.split(' ')[0]+' 23:59:59'
                      #"gte": "2021-05-26 10:00:00",
                      #"lt": "2021-05-26 15:00:00"  
                    }
                  }
              }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        source_data = doc["_source"]
        for key, val in source_data.items():
            try:
                fields[key] = np.append(fields[key], val)
            except KeyError:
                fields[key] = np.array([val])

    return pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

### Se realiza consulta de datos

* Se calcula rango en base a la fecha de control. Para este caso es de un día.
* Se ejecuta la función de consulta con el rango de fechas.
* Si no retorna datos se incrementa el rango y se ejecuta nuevamente. Este proceso se repite hasta conseguir datos o hasta que el rango de ejecución alcance la fecha actual.

In [626]:
fecha_max_mintic = fecha_ejecucion
fecha_tope_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)-timedelta(seconds=1)).strftime("%Y-%m-%d %H:%M:%S")
datos_registro = traeRegistros(fecha_max_mintic,fecha_tope_mintic)

if datos_registro is None or datos_registro.empty:
    while (datos_registro is None or datos_registro.empty) and ((datetime.strptime(fecha_max_mintic[0:10], '%Y-%m-%d').strftime("%Y-%m-%d %H:%M:%S")) < str(now.strftime("%Y-%m-%d %H:%M:%S"))):
        fecha_max_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        fecha_tope_mintic = (datetime.strptime(fecha_tope_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        datos_speed = traeRegistros(fecha_max_mintic,fecha_tope_mintic)
else:
    pass

## Calculando total de registros

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

Para cada sitio y fecha, se cuentan los documentos de usuario. Esto resulta en el total de usuarios registrados para esa fecha

In [627]:
use_these_keys = ['usuarios.fecha'
                  , 'usuarios.siteID'
                  , 'usuarios.usuariosRegistrados'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.localidad'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.location'
                  , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{'UsuRegistro-'+ str(document['usuarios.siteID']) + '-' + str(document['usuarios.fecha'])+ str(random.randrange(1000))}",
                "_source": filterKeys(document)
            }

In [628]:
def invalid_values(df, values=['']):
    return df.loc[df['usuarios.location'].isin(values)]

In [629]:
try:
    
    datos_registro['creado'] = datos_registro['creado'].str[0:10]
    datos_registro['tipo_mas_doc'] = datos_registro['tipodoc'] + datos_registro['documento']
    datos_registro= datos_registro.rename(columns={'creado' : 'usuarios.fecha'
                                                  ,'lugar_cod':'site_id'})

    datos_registro = datos_registro[["usuarios.fecha","site_id","tipo_mas_doc"]].groupby(["usuarios.fecha","site_id"]).agg(['count']).reset_index()
    datos_registro.columns = datos_registro.columns.droplevel(1)
    datos_registro= datos_registro.rename(columns={'tipo_mas_doc' : 'usuarios.usuariosRegistrados'})
    datos_registro["usuarios.anyo"] = datos_registro["usuarios.fecha"].str[0:4]
    datos_registro["usuarios.mes"] = datos_registro["usuarios.fecha"].str[5:7]
    datos_registro["usuarios.dia"] = datos_registro["usuarios.fecha"].str[8:10]
    datos_registro = pd.merge(datos_registro,  datos_semilla, on='site_id', how='inner')
    datos_registro.rename(columns={'site_id': 'usuarios.siteID'
                               }, inplace=True)
    
    datos_registro['nombreDepartamento'] = datos_registro['usuarios.nombreDepartamento']
    datos_registro['nombreMunicipio'] = datos_registro['usuarios.nombreMunicipio']
    datos_registro['idBeneficiario'] = datos_registro['usuarios.idBeneficiario']
    datos_registro['fecha'] = datos_registro['usuarios.fecha']
    datos_registro['anyo'] = datos_registro['usuarios.anyo']
    datos_registro['mes'] = datos_registro['usuarios.mes']
    datos_registro['dia'] = datos_registro['usuarios.dia']
    
    datos_registro['@timestamp'] = now.isoformat()
    
    salida = helpers.bulk(es, doc_generator(datos_registro))
    print("Fecha: ", now,"- Datos Registro usuarios en indice principal:",salida[0])
except Exception as e:
    print("Fecha: ", now,"- Nada que insertar en indice principal",e)

Fecha:  2021-08-10 14:51:25.639103 - Datos Registro usuarios en indice principal: 638


In [630]:
datos_registro

Unnamed: 0,usuarios.fecha,usuarios.siteID,usuarios.usuariosRegistrados,usuarios.anyo,usuarios.mes,usuarios.dia,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.nombreDepartamento,...,usuarios.idBeneficiario,usuarios.location,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,2021-06-01,10501-ZZZY338,16,2021,06,01,I. E. R. CAMPESTRE NUEVO HORIZONTE,CO-ANT,LA CHAPA,ANTIOQUIA,...,10501,"6.040555556,-75.91194444",ANTIOQUIA,EL CARMEN DE VIBORAL,10501,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
1,2021-06-02,10501-ZZZY338,4,2021,06,02,I. E. R. CAMPESTRE NUEVO HORIZONTE,CO-ANT,LA CHAPA,ANTIOQUIA,...,10501,"6.040555556,-75.91194444",ANTIOQUIA,EL CARMEN DE VIBORAL,10501,2021-06-02,2021,06,02,2021-08-10T14:51:25.639103
2,2021-06-01,10835-ZGYO372,2,2021,06,01,E.U. SIETE DE AGOSTO,CO-ANT,CALLE 115 # 06 - 60,ANTIOQUIA,...,10835,"10.88307108,-75.077732850",ANTIOQUIA,TURBO,10835,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
3,2021-06-02,10835-ZGYO372,4,2021,06,02,E.U. SIETE DE AGOSTO,CO-ANT,CALLE 115 # 06 - 60,ANTIOQUIA,...,10835,"10.88307108,-75.077732850",ANTIOQUIA,TURBO,10835,2021-06-02,2021,06,02,2021-08-10T14:51:25.639103
4,2021-06-01,11107-ZGYO062,5,2021,06,01,MARIA INMACULADA,CO-ATL,CALLE 15 12 - 20,ATLÁNTICO,...,11107,"10.504888,-74.816395",ATLÁNTICO,BARANOA,11107,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
633,2021-06-02,54974-ZGYO478,4,2021,06,02,INSTITUCIÀN EDUCATIVA AYACUCHO,CO-CES,AYACUCHO,CESAR,...,54974,"12.34803868,-71.31138038",CESAR,LA GLORIA,54974,2021-06-02,2021,06,02,2021-08-10T14:51:25.639103
634,2021-06-02,67811-ZGYO758,2,2021,06,02,COMUNIDAD GUATAPURI,CO-CES,COMUNIDAD GUATAPURI,CESAR,...,67811,"10.72622,-73.39268",CESAR,VALLEDUPAR,67811,2021-06-02,2021,06,02,2021-08-10T14:51:25.639103
635,2021-06-02,70348-ZGYO530,8,2021,06,02,ESCUELA RURAL DIOS ME VE,CO-CES,DIOS ME VE,CESAR,...,70348,"9.5264767,-74.09390333",CESAR,CHIMICHAGUA,70348,2021-06-02,2021,06,02,2021-08-10T14:51:25.639103
636,2021-06-02,70561-ZGYO761,5,2021,06,02,CENTRO DE SALUD PATIO BONITO,CO-COR,PATIO BONITO,CÓRDOBA,...,70561,"8.60832,-75.74322",CÓRDOBA,MONTERÍA,70561,2021-06-02,2021,06,02,2021-08-10T14:51:25.639103


* se cruza por mac_usuario
* Los merge usan left para evitar perdida de datos en cruce con cambium-devicedevices. Aquellos datos que no cruzan se les marca como no identificados. En condiciones ideales, no debería presentarse ausencia de información
* Solo se toma lo que cruza con INNER
* se cambia el fabricante [Local MAC]
* se cambian lo nulos

In [683]:
try:
    datos_dev_clients.drop_duplicates(inplace=True)
    datos_dev_clients = datos_dev_clients.rename(columns={'ap_mac' : 'usuarios.macRed','mac' : 'mac_usuario'})
    datos_dev_clients['manufacturer'] = datos_dev_clients['manufacturer'].replace("[Local MAC]", "No identificado")
    datos_dev_clients.fillna({'manufacturer':'No identificado'},inplace=True)
    datos_det_conex = pd.merge(datos_det_conex,  datos_dev_clients, on='mac_usuario',how='left')
    datos_det_conex = pd.merge(datos_det_conex,datos_dev[['usuarios.macRed','usuarios.apGroup']],on='usuarios.macRed', how='left')
    datos_det_conex.fillna({'usuarios.tipoDispositivoUsuarios':'No identificado'
                       ,'usuarios.sistemaOperativoUsuarios':'No identificado'
                       ,'manufacturer':'No identificado'
                       ,'radio.band':'No identificado'
                       },inplace=True)
except:
    pass

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  return super().fillna(


In [684]:
datos_det_conex

Unnamed: 0,usuarios.macRed,name,mac_usuario,radio.band,radio.rx_bytes,radio.tx_bytes,manufacturer,usuarios.macRed_x,name_x,radio.band_x,...,manufacturer_x,usuarios.apGroup_x,usuarios.macRed_y,name_y,radio.band_y,radio.rx_bytes_y,radio.tx_bytes_y,manufacturer_y,usuarios.apGroup_y,usuarios.apGroup
0,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,0E:9C:F2:E0:B3:1F,2.4GHz,1140,0,No identificado,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,2.4GHz,...,,,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,2.4GHz,1140,0,No identificado,INDOOR,INDOOR
1,BC:E6:7C:5D:20:AE,SM-J260MU,F8:F1:E6:A3:0D:45,2.4GHz,147191582,160639234,Samsung Electronics Ltd,BC:E6:7C:5D:20:AE,SM-J260MU,2.4GHz,...,,,BC:E6:7C:5D:20:AE,SM-J260MU,2.4GHz,147191582,160639234,Samsung Electronics Ltd,INDOOR,INDOOR
2,BC:A9:93:00:98:33,android-e7938e7,00:08:22:46:78:82,2.4GHz,32598,14222,InPro Comm,BC:A9:93:00:98:33,android-e7938e7,2.4GHz,...,,,BC:A9:93:00:98:33,android-e7938e7,2.4GHz,32598,14222,InPro Comm,OUTDOOR,OUTDOOR
3,BC:E6:7C:EC:AA:DC,Galaxy-A01,A0:27:B6:62:78:47,2.4GHz,32466165,688148716,A0-27-B6,BC:E6:7C:EC:AA:DC,Galaxy-A01,2.4GHz,...,,,BC:E6:7C:EC:AA:DC,Galaxy-A01,2.4GHz,32466165,688148716,A0-27-B6,INDOOR,INDOOR
4,BC:E6:7C:EF:FD:DC,CPE,48:E2:44:32:E3:25,2.4GHz,12038,15384,Hon Hai Precision Ind Ltd,BC:E6:7C:EF:FD:DC,CPE,2.4GHz,...,,,BC:E6:7C:EF:FD:DC,CPE,2.4GHz,12038,15384,Hon Hai Precision Ind Ltd,OUTDOOR,OUTDOOR
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
219569,BC:A9:93:0C:7B:1B,android-71f0722,4C:4E:03:93:56:CF,2.4GHz,722392,188335,TCT mobile Ltd,BC:A9:93:0C:7B:1B,android-71f0722,2.4GHz,...,,,BC:A9:93:0C:7B:1B,android-71f0722,2.4GHz,722392,188335,TCT mobile Ltd,,
219570,BC:A9:93:0C:7B:1B,SM-J260M,A8:51:5B:B0:71:3D,2.4GHz,134339,257129,Samsung Electronics Ltd,BC:A9:93:0C:7B:1B,SM-J260M,2.4GHz,...,,,BC:A9:93:0C:7B:1B,SM-J260M,2.4GHz,134339,257129,Samsung Electronics Ltd,,
219571,BC:A9:93:0C:7B:1B,android-c3e64de,54:FC:F0:51:E7:D0,2.4GHz,923,382,Samsung Electronics Ltd,BC:A9:93:0C:7B:1B,android-c3e64de,2.4GHz,...,,,BC:A9:93:0C:7B:1B,android-c3e64de,2.4GHz,923,382,Samsung Electronics Ltd,,
219572,BC:A9:93:0C:7B:34,,EC:F2:2B:71:3A:8E,2.4GHz,3051442,45666582,EC-F2-2B,BC:A9:93:0C:7B:34,,2.4GHz,...,,,BC:A9:93:0C:7B:34,,2.4GHz,3051442,45666582,EC-F2-2B,,


## Calculando totales por dispositivos

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [633]:
use_these_keys = ['usuarios.siteID'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.localidad'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.location'
                  , 'usuarios.sistemaOperativoUsuarios'
                  , 'usuarios.tipoDispositivoUsuarios'
                  , 'usuarios.marcaTerminal'
                  , 'usuarios.tecnologiaTerminal'
                  , 'usuarios.totales.dispositivos'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , 'nombreDepartamento'
                  , 'nombreMunicipio'
                  , 'idBeneficiario'
                  , 'fecha'
                  , 'anyo'
                  , 'mes'
                  , 'dia'
                  , '@timestamp']

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{ 'totalesDispositivos-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                "_source": filterKeys(document),
            }

Se agrupa por:
* Sistema operativo
* Tipo dispositivo
* Marca del terminal
* Tecnología terminal

Se cuentan las mac de usuario para cada site id y fecha control

In [634]:
try:
    totalesDispositivos = datos_det_conex[["fecha_control","site_id"
                                 ,"usuarios.sistemaOperativoUsuarios"
                                 ,'usuarios.tipoDispositivoUsuarios'
                                 ,'manufacturer'
                                 ,'radio.band'
                                 ,"mac_usuario"]].groupby(["fecha_control","site_id"
                                                     ,"usuarios.sistemaOperativoUsuarios"
                                                     ,'usuarios.tipoDispositivoUsuarios'
                                                     ,'manufacturer'
                                                     ,'radio.band']).agg(['count']).reset_index()
    ##si se quiere contar ocurrencias unicas se debe usar en lugar del agg: ['mac_usuario'].nunique().reset_index()
    totalesDispositivos.columns = totalesDispositivos.columns.droplevel(1)
    totalesDispositivos= totalesDispositivos.rename(columns={'mac_usuario' : 'usuarios.totales.dispositivos'
                                                            ,'fecha_control' : 'usuarios.fechaControl'
                                                            ,'manufacturer' : 'usuarios.marcaTerminal'
                                                            ,'radio.band' : 'usuarios.tecnologiaTerminal'
                                                            })
    totalesDispositivos = pd.merge(totalesDispositivos, datos_semilla, on='site_id',how='inner')
    totalesDispositivos["usuarios.fecha"] = totalesDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    totalesDispositivos["usuarios.anyo"] = totalesDispositivos["usuarios.fecha"].str[0:4]
    totalesDispositivos["usuarios.mes"] = totalesDispositivos["usuarios.fecha"].str[5:7]
    totalesDispositivos["usuarios.dia"] = totalesDispositivos["usuarios.fecha"].str[8:10]
    totalesDispositivos["usuarios.hora"] = totalesDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    totalesDispositivos["usuarios.minuto"] = totalesDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    totalesDispositivos= totalesDispositivos.rename(columns={'site_id' : 'usuarios.siteID'})
    totalesDispositivos['nombreDepartamento'] = totalesDispositivos['usuarios.nombreDepartamento']
    totalesDispositivos['nombreMunicipio'] = totalesDispositivos['usuarios.nombreMunicipio']
    totalesDispositivos['idBeneficiario'] = totalesDispositivos['usuarios.idBeneficiario']
    totalesDispositivos['fecha'] = totalesDispositivos['usuarios.fecha']
    totalesDispositivos['anyo'] = totalesDispositivos['usuarios.anyo']
    totalesDispositivos['mes'] = totalesDispositivos['usuarios.mes']
    totalesDispositivos['dia'] = totalesDispositivos['usuarios.dia']
    totalesDispositivos['@timestamp'] = now.isoformat()
    salida = helpers.bulk(es, doc_generator(totalesDispositivos))
    print("Fecha: ", now,"- Totales por Dispositivos insertados en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- No se insertaron totales por dispositivos en indice principal")

Fecha:  2021-08-10 14:51:25.639103 - Totales por Dispositivos insertados en indice principal: 230


In [635]:
totalesDispositivos

Unnamed: 0,usuarios.fechaControl,usuarios.siteID,usuarios.sistemaOperativoUsuarios,usuarios.tipoDispositivoUsuarios,usuarios.marcaTerminal,usuarios.tecnologiaTerminal,usuarios.totales.dispositivos,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,2021-06-01 13:00:00,11107-ZGYO062,Android,Smartphone,Huawei Technologies Ltd,2.4GHz,1,MARIA INMACULADA,CO-ATL,CALLE 15 12 - 20,...,13,00,ATLÁNTICO,BARANOA,11107,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
1,2021-06-01 13:00:00,11107-ZGYO062,Android,Smartphone,Samsung Electro-Mechanics(Thailand),2.4GHz,1,MARIA INMACULADA,CO-ATL,CALLE 15 12 - 20,...,13,00,ATLÁNTICO,BARANOA,11107,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
2,2021-06-01 13:00:00,11113-ZGYO059,Android,Smartphone,Motorola (Wuhan) Mobility Technologies Communi...,2.4GHz,1,INSTITUCION EDUCATIVA TECNICA AGROPECUARIA DE ...,CO-ATL,CALLE 6A 16 - 115,...,13,00,ATLÁNTICO,BARANOA,11113,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
3,2021-06-01 13:00:00,11113-ZGYO059,Android,Smartphone,No identificado,2.4GHz,1,INSTITUCION EDUCATIVA TECNICA AGROPECUARIA DE ...,CO-ATL,CALLE 6A 16 - 115,...,13,00,ATLÁNTICO,BARANOA,11113,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
4,2021-06-01 13:00:00,11113-ZGYO059,Android,Smartphone,Samsung Electronics Ltd,2.4GHz,1,INSTITUCION EDUCATIVA TECNICA AGROPECUARIA DE ...,CO-ATL,CALLE 6A 16 - 115,...,13,00,ATLÁNTICO,BARANOA,11113,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
225,2021-06-01 13:00:00,74272-ZZZY510,Android,Smartphone,CC-0D-F2,2.4GHz,1,INSTITUCION EDUCATIVA BONAFONT - SEDE PRINCIPAL,CO-CAL,SAN ANTONIO,...,13,00,CALDAS,RIOSUCIO,74272,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
226,2021-06-01 13:00:00,74272-ZZZY510,Android,Smartphone,Samsung Electronics Ltd,2.4GHz,2,INSTITUCION EDUCATIVA BONAFONT - SEDE PRINCIPAL,CO-CAL,SAN ANTONIO,...,13,00,CALDAS,RIOSUCIO,74272,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
227,2021-06-01 13:00:00,74366-ZGYO061,Android,Smartphone,50-3D-C6,2.4GHz,1,I.E. TECNICA MARIA INMACULADA DE PITAL DE MEGUA,CO-ATL,KR 15 11 96,...,13,00,ATLÁNTICO,BARANOA,74366,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
228,2021-06-01 13:00:00,74366-ZGYO061,Android,Smartphone,"Motorola Mobility LLC, a Lenovo Company",2.4GHz,1,I.E. TECNICA MARIA INMACULADA DE PITAL DE MEGUA,CO-ATL,KR 15 11 96,...,13,00,ATLÁNTICO,BARANOA,74366,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103


# Insertando usuarios conectados al indice principal

* Se calcula cantidad de sesiones por sitio con detalle conexiones, pero contando la ocurrencia unica de documento
* Se calcula la cantidad de conexiones. Se agrupa por el campo usuarios.macRed(el cual corresponde al AP) y fecha_control. Se cuenta las ocurrencias de mac_usuario. Luego al cruzar con flujo principal, si el dato es nulo para ese momento, se debe colocar en 0.

In [658]:
datos_logins = datos_det_conex[['fecha_control', 'site_id', 'documento','usuarios.macRed']].groupby(["fecha_control","site_id","usuarios.macRed"])['documento'].nunique().reset_index()
datos_logins= datos_logins.rename(columns={'documento' : 'usuarios.sesiones_Usuarios'})

In [659]:
datos_logins 

Unnamed: 0,fecha_control,site_id,usuarios.macRed,usuarios.sesiones_Usuarios
0,2021-06-01 13:00:00,11107-ZGYO062,BC:E6:7C:4F:05:EA,1
1,2021-06-01 13:00:00,11107-ZGYO062,BC:E6:7C:4F:07:4F,1
2,2021-06-01 13:00:00,11113-ZGYO059,58:C1:7A:E8:C5:29,2
3,2021-06-01 13:00:00,11113-ZGYO059,58:C1:7A:E8:C5:76,1
4,2021-06-01 13:00:00,13304-ZGYO085,BC:E6:7C:5B:7D:2D,1
...,...,...,...,...
184,2021-06-01 13:00:00,74272-ZZZY510,BC:E6:7C:5B:AF:97,2
185,2021-06-01 13:00:00,74272-ZZZY510,BC:E6:7C:EF:FC:F8,1
186,2021-06-01 13:00:00,74366-ZGYO061,BC:E6:7C:4F:05:C9,2
187,2021-06-01 13:00:00,74366-ZGYO061,BC:E6:7C:4F:05:ED,1


In [688]:
datos_dev_clients.columns

Index(['usuarios.macRed', 'name', 'mac_usuario', 'radio.band',
       'radio.rx_bytes', 'radio.tx_bytes', 'manufacturer'],
      dtype='object')

In [689]:
datos_dev_clients

Unnamed: 0,usuarios.macRed,name,mac_usuario,radio.band,radio.rx_bytes,radio.tx_bytes,manufacturer
0,BC:E6:7C:EC:DD:FC,HUAWEI_Y7a-3b52,0E:9C:F2:E0:B3:1F,2.4GHz,1140,0,No identificado
1,BC:E6:7C:5D:20:AE,SM-J260MU,F8:F1:E6:A3:0D:45,2.4GHz,147191582,160639234,Samsung Electronics Ltd
2,BC:A9:93:00:98:33,android-e7938e7,00:08:22:46:78:82,2.4GHz,32598,14222,InPro Comm
3,BC:E6:7C:EC:AA:DC,Galaxy-A01,A0:27:B6:62:78:47,2.4GHz,32466165,688148716,A0-27-B6
4,BC:E6:7C:EF:FD:DC,CPE,48:E2:44:32:E3:25,2.4GHz,12038,15384,Hon Hai Precision Ind Ltd
...,...,...,...,...,...,...,...
214951,BC:A9:93:0C:7B:1B,android-71f0722,4C:4E:03:93:56:CF,2.4GHz,722392,188335,TCT mobile Ltd
214952,BC:A9:93:0C:7B:1B,SM-J260M,A8:51:5B:B0:71:3D,2.4GHz,134339,257129,Samsung Electronics Ltd
214953,BC:A9:93:0C:7B:1B,android-c3e64de,54:FC:F0:51:E7:D0,2.4GHz,923,382,Samsung Electronics Ltd
214954,BC:A9:93:0C:7B:34,,EC:F2:2B:71:3A:8E,2.4GHz,3051442,45666582,EC-F2-2B


In [685]:
datos_logins = datos_det_conex[['fecha_control', 'site_id', 'documento','usuarios.macRed']].groupby(["fecha_control","site_id","usuarios.macRed"])['documento'].nunique().reset_index()
datos_logins= datos_logins.rename(columns={'documento' : 'usuarios.sesiones_Usuarios'})
usuariosConectados = datos_dev_clients[["fecha_control","site_id","usuarios.macRed","mac_usuario"]].groupby(["fecha_control","site_id"]).agg(['count']).reset_index()

KeyError: "['fecha_control', 'site_id'] not in index"

In [686]:
usuariosConectados

Unnamed: 0_level_0,fecha_control,site_id,usuarios.macRed,mac_usuario
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,count,count
0,2021-06-01 13:00:00,11107-ZGYO062,2,2
1,2021-06-01 13:00:00,11113-ZGYO059,3,3
2,2021-06-01 13:00:00,13304-ZGYO085,1,1
3,2021-06-01 13:00:00,14479-ZGYO947,0,1
4,2021-06-01 13:00:00,16733-ZZZY574,1,1
...,...,...,...,...
168,2021-06-01 13:00:00,74159-ZGYO529,0,1
169,2021-06-01 13:00:00,74161-ZGYO489,1,1
170,2021-06-01 13:00:00,74272-ZZZY510,3,3
171,2021-06-01 13:00:00,74366-ZGYO061,3,3


In [660]:
try:
    datos_logins = datos_det_conex[['fecha_control', 'site_id', 'documento','usuarios.macRed']].groupby(["fecha_control","site_id","usuarios.macRed"])['documento'].nunique().reset_index()
    datos_logins= datos_logins.rename(columns={'documento' : 'usuarios.sesiones_Usuarios'})
    usuariosConectados = datos_det_conex[["fecha_control","site_id","usuarios.macRed","mac_usuario"]].groupby(["fecha_control","site_id","usuarios.macRed"]).agg(['count']).reset_index()
    usuariosConectados.columns = usuariosConectados.columns.droplevel(1)
    usuariosConectados= usuariosConectados.rename(columns={'mac_usuario' : 'usuarios.usuariosConectados'})
    usuariosConectados = pd.merge(usuariosConectados,datos_logins, on=["fecha_control","site_id","usuarios.macRed"], how='inner')
    usuariosConectados = pd.merge(datos_semilla,  usuariosConectados, on=['site_id'], how='inner')
    usuariosConectados.fillna({'usuarios.consumoUsuarios' : 0
                              ,'usuarios.consumoUsuariosDescarga':0
                              ,'usuarios.consumoUsuariosCarga':0},inplace=True)
    usuariosConectados = pd.merge(usuariosConectados,datos_dev[['usuarios.apGroup','usuarios.macRed']], on ='usuarios.macRed', how='left')
    usuariosConectados.fillna({'usuarios.apGroup':'No identificado'},inplace=True)
    usuariosConectados['usuarios.usuariosConectados'] = usuariosConectados['usuarios.usuariosConectados'].astype(int)
    usuariosConectados = usuariosConectados.rename(columns={'fecha_control':'usuarios.fechaControl'
                                                           ,'site_id' : 'usuarios.siteID'})
    
    usuariosConectados["usuarios.fecha"] = usuariosConectados["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    usuariosConectados["usuarios.anyo"] = usuariosConectados["usuarios.fecha"].str[0:4]
    usuariosConectados["usuarios.mes"] = usuariosConectados["usuarios.fecha"].str[5:7]
    usuariosConectados["usuarios.dia"] = usuariosConectados["usuarios.fecha"].str[8:10]
    usuariosConectados["usuarios.hora"] = usuariosConectados["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    usuariosConectados["usuarios.minuto"] = usuariosConectados["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    
    usuariosConectados['nombreDepartamento'] = usuariosConectados['usuarios.nombreDepartamento']
    usuariosConectados['nombreMunicipio'] = usuariosConectados['usuarios.nombreMunicipio']
    usuariosConectados['idBeneficiario'] = usuariosConectados['usuarios.idBeneficiario']
    usuariosConectados['fecha'] = usuariosConectados['usuarios.fecha']
    usuariosConectados['anyo'] = usuariosConectados['usuarios.anyo']
    usuariosConectados['mes'] = usuariosConectados['usuarios.mes']
    usuariosConectados['dia'] = usuariosConectados['usuarios.dia']
except:
    pass

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [637]:
try:
    use_these_keys = ['usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'    
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.fechaControl'
                  , 'usuarios.macRed'
                  , 'usuarios.apGroup'    
                  , 'usuarios.usuariosConectados'
                  , 'usuarios.sesiones_Usuarios'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , 'nombreDepartamento'
                  , 'nombreMunicipio'
                  , 'idBeneficiario'
                  , 'fecha'
                  , 'anyo'
                  , 'mes'
                  , 'dia'
                  , '@timestamp']

    usuariosConectados['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ 'usuariosConectados-'+ str(document['usuarios.siteID']) + str(document['usuarios.macRed']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(usuariosConectados))
    print("Fecha: ", now,"- Usuarios conectados insertados en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- Ningun usuario conectado para insertar en indice principal:")

Fecha:  2021-08-10 14:51:25.639103 - Usuarios conectados insertados en indice principal: 177


In [638]:
usuariosConectados

Unnamed: 0,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.siteID,usuarios.nombreDepartamento,usuarios.sistemaEnergia,usuarios.nombreMunicipio,usuarios.idBeneficiario,usuarios.location,usuarios.fechaControl,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,ESC NUEVA EL ALTO DE LA VUELTA,CO-CES,EL ALTO DE LA VUELTA,30071-ZGYO513,CESAR,RED INTERCONECTADA,VALLEDUPAR,30071,"10.55795672,-73.18049274",2021-06-01 13:00:00,...,13,00,CESAR,VALLEDUPAR,30071,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
1,LAS CASITAS,CO-CES,VDA LAS CASITAS,30115-ZGYO512,CESAR,RED INTERCONECTADA,VALLEDUPAR,30115,"10.3746007,-73.4552608",2021-06-01 13:00:00,...,13,00,CESAR,VALLEDUPAR,30115,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
2,CENTRO EDUCATIVO PERPETUO SOCORRO,CO-COR,PERPETUO SOCORRO,31860-ZGYO340,CÓRDOBA,RED INTERCONECTADA,MOÑITOS,31860,"9.2497,-76.08185",2021-06-01 13:00:00,...,13,00,CÓRDOBA,MOÑITOS,31860,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
3,CENTRO EDUCATIVO PERPETUO SOCORRO,CO-COR,PERPETUO SOCORRO,31860-ZGYO340,CÓRDOBA,RED INTERCONECTADA,MOÑITOS,31860,"9.2497,-76.08185",2021-06-01 13:00:00,...,13,00,CÓRDOBA,MOÑITOS,31860,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
4,ISLA DE SABA,CO-COR,VEREDA ISLA DE SABA,31566-ZGYO330,CÓRDOBA,RED INTERCONECTADA,LORICA,31566,"8.432777778,-75.486388890",2021-06-01 13:00:00,...,13,00,CÓRDOBA,LORICA,31566,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
172,SEDE MARIA DOLORES AGUDELO,CO-TOL,VEREDA EL PERICO,48651-ZZZY363,TOLIMA,RED INTERCONECTADA,HONDA,48651,"4.072275,-74.521104",2021-06-01 13:00:00,...,13,00,TOLIMA,HONDA,48651,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
173,SEDE MARIA DOLORES AGUDELO,CO-TOL,VEREDA EL PERICO,48651-ZZZY363,TOLIMA,RED INTERCONECTADA,HONDA,48651,"4.072275,-74.521104",2021-06-01 13:00:00,...,13,00,TOLIMA,HONDA,48651,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
174,SEDE ARRAYANES,CO-TOL,ARRAYANES,48989-ZGYO688,TOLIMA,RED INTERCONECTADA,PALOCABILDO,48989,"5.11053026,-75.00600968",2021-06-01 13:00:00,...,13,00,TOLIMA,PALOCABILDO,48989,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
175,MESETAS,CO-TOL,VDA MESETAS,49410-ZZZY519,TOLIMA,RED INTERCONECTADA,SAN ANTONIO,49410,"3.89944726,-75.52913659",2021-06-01 13:00:00,...,13,00,TOLIMA,SAN ANTONIO,49410,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103


### Se lee el indice all-cambium-device-client

* En este indice se guarda el detalle de los radio por fecha
* Detalle conexiones cruza con device clients. Con estos se calculan los totales por marca

In [639]:
total_docs = 100000
response = es.search(
    index= 'all-'+parametros.cambium_d_c_index,
    body={
        "_source": ['mac', 'ap_mac', 'radio.band', 'radio.rx_bytes', 'radio.tx_bytes','fecha_control']
          , "query": {
              "range": {
                "fecha_control": {
                  "gte": fecha_max_mintic,
                  "lt": fecha_tope_mintic
                  #"gte": "2021-05-26 15:00:00",
                  #"lt": "2021-05-26 15:10:00"  
                }
              }
          }
    },
    size=total_docs
)
elastic_docs = response["hits"]["hits"]
#fields = {}
#for num, doc in enumerate(elastic_docs):
#    source_data = doc["_source"]
#   for key, val in source_data.items():
#        try:
#            fields[key] = np.append(fields[key], val)
#        except KeyError:
#            fields[key] = np.array([val])

#datos_radio = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))

datos_radio = pd.DataFrame([x["_source"] for x in elastic_docs])

# Uso servicio de internet insertados en indice principal

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [640]:
use_these_keys = ['usuarios.macRed'
                  , 'usuarios.usoServicioInternetSitio'
                  , 'usuarios.detallesTecnologiasTerminales'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , 'usuarios.apGroup'
                  , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{ 'UsoServicio-' + str(document['usuarios.macRed']) + '-' + str(document['usuarios.detallesTecnologiasTerminales']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                "_source": filterKeys(document),
            }

* se toma el maximo radio para cada mac de dispositivo final
* se suma agrupando por ap_mac, banda y fecha
* El resultado es un total para cada banda, fecha y ap_mac

In [641]:
try:    
    datos_radio['fecha_control'] = datos_radio['fecha_control'].str[0:15]+'0:00'
    datos_radio = datos_radio.groupby(['ap_mac', 'fecha_control', 'mac', 'radio.band']).agg(['max']).reset_index()
    datos_radio.columns = datos_radio.columns.droplevel(1)
    datos_radio = datos_radio[['ap_mac', 'fecha_control', 'radio.band', 'radio.rx_bytes',
           'radio.tx_bytes']].groupby(['ap_mac', 'fecha_control', 'radio.band']).agg(['sum']).reset_index()
    datos_radio.columns = datos_radio.columns.droplevel(1)
    datos_radio = datos_radio.rename(columns={'ap_mac' : 'usuarios.macRed'})
    usoServicioInternetSitio = pd.merge(datos_radio,datos_dev[['usuarios.apGroup', 'site_id', 'usuarios.macRed']], on ='usuarios.macRed', how='inner')
    usoServicioInternetSitio.fillna({'radio.rx_bytes':0,'radio.tx_bytes':0},inplace=True)
    usoServicioInternetSitio.fillna({'usuarios.macRed':'','radio.band':'No identificado','usuarios.apGroup':'No identificado'},inplace=True)
    usoServicioInternetSitio['usuarios.usoServicioInternetSitio'] = usoServicioInternetSitio['radio.rx_bytes'].astype(float) + usoServicioInternetSitio['radio.tx_bytes'].astype(float)
    usoServicioInternetSitio = pd.merge(usoServicioInternetSitio,datos_semilla, on ='site_id', how='inner')
    usoServicioInternetSitio= usoServicioInternetSitio.rename(columns={'site_id' : 'usuarios.siteID'
                                                                    ,'radio.band' : 'usuarios.detallesTecnologiasTerminales'
                                                                    , 'fecha_control' : 'usuarios.fechaControl'})
    usoServicioInternetSitio['usuarios.usoServicioInternetSitio'] = round((usoServicioInternetSitio['usuarios.usoServicioInternetSitio']/float(1<<30)),6) 
    usoServicioInternetSitio["usuarios.fecha"] = usoServicioInternetSitio["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    usoServicioInternetSitio["usuarios.anyo"] = usoServicioInternetSitio["usuarios.fecha"].str[0:4]
    usoServicioInternetSitio["usuarios.mes"] = usoServicioInternetSitio["usuarios.fecha"].str[5:7]
    usoServicioInternetSitio["usuarios.dia"] = usoServicioInternetSitio["usuarios.fecha"].str[8:10]
    usoServicioInternetSitio["usuarios.hora"] = usoServicioInternetSitio["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    usoServicioInternetSitio["usuarios.minuto"] = usoServicioInternetSitio["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    
    usoServicioInternetSitio['nombreDepartamento'] = usoServicioInternetSitio['usuarios.nombreDepartamento']
    usoServicioInternetSitio['nombreMunicipio'] = usoServicioInternetSitio['usuarios.nombreMunicipio']
    usoServicioInternetSitio['idBeneficiario'] = usoServicioInternetSitio['usuarios.idBeneficiario']
    usoServicioInternetSitio['fecha'] = usoServicioInternetSitio['usuarios.fecha']
    usoServicioInternetSitio['anyo'] = usoServicioInternetSitio['usuarios.anyo']
    usoServicioInternetSitio['mes'] = usoServicioInternetSitio['usuarios.mes']
    usoServicioInternetSitio['dia'] = usoServicioInternetSitio['usuarios.dia']
    
    usoServicioInternetSitio['@timestamp'] = now.isoformat()
    #salida = helpers.bulk(es, doc_generator(usoServicioInternetSitio))
    print("Fecha: ", now,"- Uso servicio y tecnología terminal insertados en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- Ningun uservicio/tecnología terminal conectado para insertar en indice principal")

Fecha:  2021-08-10 14:51:25.639103 - Uso servicio y tecnología terminal insertados en indice principal: 177


In [642]:
usoServicioInternetSitio

Unnamed: 0,usuarios.macRed,usuarios.fechaControl,usuarios.detallesTecnologiasTerminales,radio.rx_bytes,radio.tx_bytes,usuarios.apGroup,usuarios.siteID,usuarios.usoServicioInternetSitio,usuarios.nomCentroDigital,usuarios.codISO,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,58:C1:7A:0A:9A:E8,2021-06-01 14:30:00,5GHz,231206,368567,INDOOR.,37583-ZGYO493,0.000559,CARRETALITO,CO-LAG,...,14,30,LA GUAJIRA,BARRANCAS,37583,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
1,58:C1:7A:0A:9A:E8,2021-06-01 14:40:00,2.4GHz,322014,298899,INDOOR.,37583-ZGYO493,0.000578,CARRETALITO,CO-LAG,...,14,40,LA GUAJIRA,BARRANCAS,37583,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
2,58:C1:7A:0A:9A:E8,2021-06-01 14:40:00,5GHz,489867,1018922,INDOOR.,37583-ZGYO493,0.001405,CARRETALITO,CO-LAG,...,14,40,LA GUAJIRA,BARRANCAS,37583,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
3,58:C1:7A:0A:9A:E8,2021-06-01 14:50:00,2.4GHz,1234678,11232500,INDOOR.,37583-ZGYO493,0.011611,CARRETALITO,CO-LAG,...,14,50,LA GUAJIRA,BARRANCAS,37583,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
4,58:C1:7A:0A:9A:E8,2021-06-01 15:10:00,2.4GHz,340219,1094901,INDOOR.,37583-ZGYO493,0.001337,CARRETALITO,CO-LAG,...,15,10,LA GUAJIRA,BARRANCAS,37583,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8680,BC:E6:7C:EF:FD:A8,2021-06-01 19:30:00,2.4GHz,210004,384198,OUTDOOR,30478-ZGYO126,0.000553,EL ALUMINIO,CO-CES,...,19,30,CESAR,CHIMICHAGUA,30478,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
8681,BC:E6:7C:EF:FD:A8,2021-06-01 19:50:00,2.4GHz,84938,170028,OUTDOOR,30478-ZGYO126,0.000237,EL ALUMINIO,CO-CES,...,19,50,CESAR,CHIMICHAGUA,30478,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
8682,BC:E6:7C:EF:FD:A8,2021-06-01 20:00:00,2.4GHz,84938,170028,OUTDOOR,30478-ZGYO126,0.000237,EL ALUMINIO,CO-CES,...,20,00,CESAR,CHIMICHAGUA,30478,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
8683,BC:E6:7C:EF:FD:CC,2021-06-01 20:40:00,2.4GHz,273124,2134956,OUTDOOR,30478-ZGYO126,0.002243,EL ALUMINIO,CO-CES,...,20,40,CESAR,CHIMICHAGUA,30478,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103


Se renombra fecha_control para cruzar

## Totalizar la cantidad de dispositivos por usuario

* Para contabilizar los dispositivos por usuario, se debe contar la cantidad de ocurrencias de mac_usuario dentro de detalle de conexiones, agrupando por tipo documento y documento. 
* Aún cuando la mayoria de las fuentes referencia a mac_usuario, no se debe confundir a la hora de agrupar con los datos reales de usuario que en este caso serían el documento de identidad como campo de identificación

In [643]:
try:
    conteoDispositivos = datos_det_conex[['fecha_control','site_id', 'documento', 'tipodoc','fecha']].groupby(['fecha_control','site_id', 'documento', 'tipodoc']).agg(['count']).reset_index()
    conteoDispositivos.columns = conteoDispositivos.columns.droplevel(1)
    conteoDispositivos= conteoDispositivos.rename(columns={'fecha' : 'conteo'})
    conteoDispositivos = conteoDispositivos[['fecha_control','site_id','conteo']].groupby(['fecha_control','site_id']).agg(['sum']).reset_index()
    conteoDispositivos.columns = conteoDispositivos.columns.droplevel(1)
    conteoDispositivos= conteoDispositivos.rename(columns={'conteo' : 'usuarios.conteoDispositivos'})
    conteoDispositivos = pd.merge(conteoDispositivos, datos_semilla, on='site_id', how='inner')
    conteoDispositivos = conteoDispositivos.rename(columns={'fecha_control' : 'usuarios.fechaControl'})
    conteoDispositivos["usuarios.fecha"] = conteoDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    conteoDispositivos["usuarios.anyo"] = conteoDispositivos["usuarios.fecha"].str[0:4]
    conteoDispositivos["usuarios.mes"] = conteoDispositivos["usuarios.fecha"].str[5:7]
    conteoDispositivos["usuarios.dia"] = conteoDispositivos["usuarios.fecha"].str[8:10]
    conteoDispositivos["usuarios.hora"] = conteoDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    conteoDispositivos["usuarios.minuto"] = conteoDispositivos["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    conteoDispositivos= conteoDispositivos.rename(columns={'site_id' : 'usuarios.siteID'})
    
    conteoDispositivos['nombreDepartamento'] = conteoDispositivos['usuarios.nombreDepartamento']
    conteoDispositivos['nombreMunicipio'] = conteoDispositivos['usuarios.nombreMunicipio']
    conteoDispositivos['idBeneficiario'] = conteoDispositivos['usuarios.idBeneficiario']
    conteoDispositivos['fecha'] = conteoDispositivos['usuarios.fecha']
    conteoDispositivos['anyo'] = conteoDispositivos['usuarios.anyo']
    conteoDispositivos['mes'] = conteoDispositivos['usuarios.mes']
    conteoDispositivos['dia'] = conteoDispositivos['usuarios.dia']
except:
    pass

# 4. Insertando promedio dispositivos en indice principal

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [644]:
try:
    use_these_keys = ['usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'    
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.conteoDispositivos'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                    , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']

    conteoDispositivos['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ 'PromedioDispositivos-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl'])+str(random.randrange(1000))}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(conteoDispositivos))
    print("Fecha: ", now,"- Promedios dispositivos Usuarios:",salida[0])
except:
    print("Fecha: ", now,"- Ningun Promedios dispositivos Usuarios para insertar en indice principal")

Fecha:  2021-08-10 14:51:25.639103 - Promedios dispositivos Usuarios: 164


In [645]:
conteoDispositivos

Unnamed: 0,usuarios.fechaControl,usuarios.siteID,usuarios.conteoDispositivos,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.nombreDepartamento,usuarios.sistemaEnergia,usuarios.nombreMunicipio,usuarios.idBeneficiario,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,2021-06-01 13:00:00,11107-ZGYO062,2,MARIA INMACULADA,CO-ATL,CALLE 15 12 - 20,ATLÁNTICO,SIN INFORMACIÓN,BARANOA,11107,...,13,00,ATLÁNTICO,BARANOA,11107,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
1,2021-06-01 13:00:00,11113-ZGYO059,3,INSTITUCION EDUCATIVA TECNICA AGROPECUARIA DE ...,CO-ATL,CALLE 6A 16 - 115,ATLÁNTICO,SIN INFORMACIÓN,BARANOA,11113,...,13,00,ATLÁNTICO,BARANOA,11113,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
2,2021-06-01 13:00:00,13304-ZGYO085,1,ESC. RUR. MIXTA JOSE GALEANO FELICE,CO-CES,VEREDA LOS COLUMPIOS,CESAR,RED INTERCONECTADA,AGUACHICA,13304,...,13,00,CESAR,AGUACHICA,13304,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
3,2021-06-01 13:00:00,14479-ZGYO947,1,CENTRO EDUCATIVO LA VICTORIA,CO-SUC,CASERIO LA VICTORIA,SUCRE,RED INTERCONECTADA,MORROA,14479,...,13,00,SUCRE,MORROA,14479,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
4,2021-06-01 13:00:00,16733-ZZZY574,1,CENTRO EDUCATIVO RURAL ARROYO ARENA,CO-SUC,CORREG. LA PE¥ATA,SUCRE,RED INTERCONECTADA,SINCELEJO,16733,...,13,00,SUCRE,SINCELEJO,16733,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
159,2021-06-01 13:00:00,74110-ZZZY207,1,INST. EDUC. LAS LLANANAS.,CO-COR,LAS LLANADAS,CÓRDOBA,RED INTERCONECTADA,SAHAGÚN,74110,...,13,00,CÓRDOBA,SAHAGÚN,74110,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
160,2021-06-01 13:00:00,74159-ZGYO529,1,SEDE SABANA DEL INDIO,CO-CES,SABAN DEL INDIO,CESAR,RED INTERCONECTADA,CHIMICHAGUA,74159,...,13,00,CESAR,CHIMICHAGUA,74159,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
161,2021-06-01 13:00:00,74161-ZGYO489,1,C.E. EL PUEBLITO,CO-CES,VDA PUEBLITO,CESAR,RED INTERCONECTADA,CHIMICHAGUA,74161,...,13,00,CESAR,CHIMICHAGUA,74161,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103
162,2021-06-01 13:00:00,74272-ZZZY510,3,INSTITUCION EDUCATIVA BONAFONT - SEDE PRINCIPAL,CO-CAL,SAN ANTONIO,CALDAS,RED INTERCONECTADA,RIOSUCIO,74272,...,13,00,CALDAS,RIOSUCIO,74272,2021-06-01,2021,06,01,2021-08-10T14:51:25.639103


# Marcando si usuario es nuevo o recurrente

* Se toma del dataframe datos_det_conex y se cuenta las veces que cada mac_usuario aparece
* Luego se suma con el historico de conexiones por usuario (indice intermedio ohmyfi-total-conexiones-historico)
* marca como Nuevo(1 conexión). 

De este proceso se obtiene el campo:
* usuarios.usuariosNuevos
* usuarios.totales.usuariosNuevos

In [646]:
try:
    datos_recurrencia = datos_det_conex[["fecha","tipodoc","documento"]].groupby(["tipodoc","documento"]).agg(['count']).reset_index()
    datos_recurrencia.columns = datos_recurrencia.columns.droplevel(1)
    datos_recurrencia= datos_recurrencia.rename(columns={'fecha' : 'usuarios_recurrencia_aux'})
    datos_recurrencia['tipodoc'] = datos_recurrencia['tipodoc'].replace('','No especificado')
    datos_recurrencia['documento'] = datos_recurrencia['documento'].replace('','No especificado')
except:
    pass

### Se lee historico

Se lee ohmyfi-total-conexiones-historico, el cual es un indice creado a partir de los datos crudos. Este guarda la cantidad de conexiones realizadas por ese usuario. Para que la consulta funcione correctamente se debe colocar el filtro que usuarios_recurrencia exista.

In [647]:
try:
    total_docs = 30000000
    response = es.search(
        index= parametros.ohmyfi_total_c_index,
        body={
              "_source": ['tipodoc', 'documento', 'usuarios_recurrencia'],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"usuarios_recurrencia"
                    }
                  }
                  ]
                }
              }
        },
        size=total_docs
    )
    elastic_docs = response["hits"]["hits"]
#    fields = {}
#    for num, doc in enumerate(elastic_docs):
#       source_data = doc["_source"]
#       for key, val in source_data.items():
#            try:
#                fields[key] = np.append(fields[key], val)
#            except KeyError:
#               fields[key] = np.array([val])

    #ya_en_indice = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ]))
    
    ya_en_indice = pd.DataFrame([x["_source"] for x in elastic_docs])
    
except:
    ya_en_indice = pd.DataFrame(columns=['tipodoc', 'documento', 'usuarios_recurrencia'])

In [648]:
if ya_en_indice is None or ya_en_indice.empty:
    datos_recurrencia= datos_recurrencia.rename(columns={'usuarios_recurrencia_aux' : 'usuarios_recurrencia'})
else:
    datos_recurrencia = pd.merge(datos_recurrencia, ya_en_indice, on=['tipodoc', 'documento'],how='left')
    datos_recurrencia.fillna({'usuarios_recurrencia':0},inplace=True)
    datos_recurrencia['usuarios_recurrencia'] = datos_recurrencia['usuarios_recurrencia'] + datos_recurrencia['usuarios_recurrencia_aux']
    datos_recurrencia['usuarios_recurrencia'] = [int(x) for x in datos_recurrencia['usuarios_recurrencia']]

In [649]:
try:
    aux_recurrencia = pd.merge(datos_recurrencia,datos_det_conex, on=['tipodoc','documento'],how='inner' )
    aux_recurrencia = aux_recurrencia[(aux_recurrencia['usuarios_recurrencia']==1)]
    aux_recurrencia.loc[aux_recurrencia['usuarios_recurrencia']==1,'usuarios.usuariosNuevos']='Nuevo'
    #aux_recurrencia.loc[aux_recurrencia['usuarios_recurrencia']!=1,'usuarios.usuariosNuevos']='Recurrente'
    aux_recurrencia = aux_recurrencia.rename(columns={'usuarios_recurrencia' :'usuarios.sesiones_Usuarios'})
    aux_recurrencia = aux_recurrencia[["fecha_control","site_id","usuarios.usuariosNuevos",'documento']].groupby(["fecha_control","site_id","usuarios.usuariosNuevos"])['documento'].nunique().reset_index()
    aux_recurrencia= aux_recurrencia.rename(columns={'documento' : 'usuarios.totales.usuariosNuevos'})
except:
    pass

In [650]:
try:
    datos_recurrencia = pd.merge(datos_semilla,  aux_recurrencia, on='site_id', how='inner')
    datos_recurrencia = datos_recurrencia.rename(columns={'fecha_control' : 'usuarios.fechaControl'})
    datos_recurrencia["usuarios.fecha"] = datos_recurrencia["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    datos_recurrencia["usuarios.anyo"] = datos_recurrencia["usuarios.fecha"].str[0:4]
    datos_recurrencia["usuarios.mes"] = datos_recurrencia["usuarios.fecha"].str[5:7]
    datos_recurrencia["usuarios.dia"] = datos_recurrencia["usuarios.fecha"].str[8:10]
    datos_recurrencia["usuarios.hora"] = datos_recurrencia["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    datos_recurrencia["usuarios.minuto"] = datos_recurrencia["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    datos_recurrencia= datos_recurrencia.rename(columns={'site_id' : 'usuarios.siteID'})
    
    datos_recurrencia['nombreDepartamento'] = datos_recurrencia['usuarios.nombreDepartamento']
    datos_recurrencia['nombreMunicipio'] = datos_recurrencia['usuarios.nombreMunicipio']
    datos_recurrencia['idBeneficiario'] = datos_recurrencia['usuarios.idBeneficiario']
    datos_recurrencia['fecha'] = datos_recurrencia['usuarios.fecha']
    datos_recurrencia['anyo'] = datos_recurrencia['usuarios.anyo']
    datos_recurrencia['mes'] = datos_recurrencia['usuarios.mes']
    datos_recurrencia['dia'] = datos_recurrencia['usuarios.dia']
except:
    pass

# Insertando recurrencia de usuario en indice principal

la lista use_these_keys se usa para referenciar cuales campos del dataframe irán al indice final. si los datos no se declaran en este, no se insertarán

In [651]:
try:
    use_these_keys = ['usuarios.nomCentroDigital'
                      , 'usuarios.codISO'
                      , 'usuarios.idBeneficiario'
                      , 'usuarios.localidad'
                      , 'usuarios.siteID'
                      , 'usuarios.nombreDepartamento'
                      , 'usuarios.sistemaEnergia'
                      , 'usuarios.nombreMunicipio'
                      , 'usuarios.location'
                      , 'usuarios.usuariosNuevos'
                      , 'usuarios.totales.usuariosNuevos'
                      , 'usuarios.fechaControl'
                      , 'usuarios.fecha'
                      , 'usuarios.anyo'
                      , 'usuarios.mes'
                      , 'usuarios.dia'
                      , 'usuarios.hora'
                      , 'usuarios.minuto'
                        , 'nombreDepartamento'
                        , 'nombreMunicipio'
                        , 'idBeneficiario'
                        , 'fecha'
                        , 'anyo'
                        , 'mes'
                        , 'dia'
                      , '@timestamp']

    datos_recurrencia['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ 'Recurrencia-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl'])+ str(random.randrange(1000))}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(datos_recurrencia))
    print("Fecha: ", now,"- recurrencia de usuario a indice:",salida[0])
except:
    print("Fecha: ", now,"- Ninguna recurrencia de usuario para insertar en indice principal")

Fecha:  2021-08-10 14:51:25.639103 - recurrencia de usuario a indice: 33


In [652]:
datos_recurrencia

Unnamed: 0,usuarios.nomCentroDigital,usuarios.codISO,usuarios.localidad,usuarios.siteID,usuarios.nombreDepartamento,usuarios.sistemaEnergia,usuarios.nombreMunicipio,usuarios.idBeneficiario,usuarios.location,usuarios.fechaControl,...,usuarios.hora,usuarios.minuto,nombreDepartamento,nombreMunicipio,idBeneficiario,fecha,anyo,mes,dia,@timestamp
0,LAS CASITAS,CO-CES,VDA LAS CASITAS,30115-ZGYO512,CESAR,RED INTERCONECTADA,VALLEDUPAR,30115,"10.3746007,-73.4552608",2021-06-01 13:00:00,...,13,0,CESAR,VALLEDUPAR,30115,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
1,CENTRO EDUCATIVO PERPETUO SOCORRO,CO-COR,PERPETUO SOCORRO,31860-ZGYO340,CÓRDOBA,RED INTERCONECTADA,MOÑITOS,31860,"9.2497,-76.08185",2021-06-01 13:00:00,...,13,0,CÓRDOBA,MOÑITOS,31860,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
2,INSTITUCIÓN EDUCATIVA AUGUSTO ESPINOSA VALDERRAMA,CO-COR,SANTA CLARA,31121-ZGYO334,CÓRDOBA,RED INTERCONECTADA,MONTERÍA,31121,"8.40025104,-75.89730847",2021-06-01 13:00:00,...,13,0,CÓRDOBA,MONTERÍA,31121,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
3,ESC NVA PTO DE LA CRUZ,CO-COR,PUERTO DE LA CRUZ,31501-ZGYO497,CÓRDOBA,RED INTERCONECTADA,CIÉNAGA DE ORO,31501,"8.12848915,-75.85255758",2021-06-01 13:00:00,...,13,0,CÓRDOBA,CIÉNAGA DE ORO,31501,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
4,ESCUELA NUEVA PIO XII,CO-COR,VDA BADUMALITO,70175-ZZZY515,CÓRDOBA,RED INTERCONECTADA,PUERTO LIBERTADOR,70175,"9.86140345,-73.60344033",2021-06-01 13:00:00,...,13,0,CÓRDOBA,PUERTO LIBERTADOR,70175,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
5,HUESO,CO-COR,EL HUESO,32131-ZGYO457,CÓRDOBA,RED INTERCONECTADA,PURÍSIMA DE LA CONCEPCIÓN,32131,"10.87463695,-74.93060172",2021-06-01 13:00:00,...,13,0,CÓRDOBA,PURÍSIMA DE LA CONCEPCIÓN,32131,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
6,INSTITUCION EDUCATIVA TRES PALMAS,CO-COR,TRES PALMAS,31015-ZZZY748,CÓRDOBA,RED INTERCONECTADA,MONTERÍA,31015,"8.488888889,-76.068611",2021-06-01 13:00:00,...,13,0,CÓRDOBA,MONTERÍA,31015,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
7,CENT EDU SAN JOSE DE CANALETE,CO-COR,SAN JOSE DE CANALETE,32010-ZZZY346,CÓRDOBA,RED INTERCONECTADA,PUERTO ESCONDIDO,32010,"8.94417682,-76.21038956",2021-06-01 13:00:00,...,13,0,CÓRDOBA,PUERTO ESCONDIDO,32010,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
8,ESCUELA INTEGRADA TUMBABARRETO,CO-CAL,TUMBABARRETO,26505-ZGYO204,CALDAS,RED INTERCONECTADA,RIOSUCIO,26505,"5.48882857,-75.69286057",2021-06-01 13:00:00,...,13,0,CALDAS,RIOSUCIO,26505,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103
9,C.E EL GUAMAL,CO-CAL,GUAMAL,26806-ZGYO394,CALDAS,RED INTERCONECTADA,SUPÍA,26806,"5.5503759,-74.76449036",2021-06-01 13:00:00,...,13,0,CALDAS,SUPÍA,26806,2021-06-01,2021,6,1,2021-08-10T14:51:25.639103


## Insertando detalle MACs

In [653]:
use_these_keys = ['usuarios.siteID'
                  , 'usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.localidad'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.location'
                  , 'usuarios.macRed'
                  , 'usuarios.apGroup'
                  , 'usuarios.dispositivo.mac'
                  , 'usuarios.dispositivo.tipo'
                  , 'usuarios.dispositivo.nombre'
                  , 'usuarios.dispositivo.marca'
                  , 'usuarios.dispositivo.tecnologia'
                  , 'usuarios.dispositivo.sisOperativo'
                  , 'usuarios.fechaControl'
                  , 'usuarios.fecha'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                  , 'usuarios.hora'
                  , 'usuarios.minuto'
                  , '@timestamp']
def doc_generator_mac(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{ 'detalleMAC-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaControl']) + '-' + str(document['usuarios.dispositivo.mac']) + str(random.randrange(1000))  }",
                "_source": filterKeys(document),
            }

In [654]:
try:
    dispositivoUsuarios = datos_det_conex[['site_id','usuarios.macRed','usuarios.apGroup'
                                ,'mac_usuario','fecha_control'
                                ,'usuarios.tipoDispositivoUsuarios'
                                ,'name','manufacturer','radio.band'
                                ,'usuarios.sistemaOperativoUsuarios']].drop_duplicates(subset=['mac_usuario'])
    dispositivoUsuarios.fillna({'usuarios.tipoDispositivoUsuarios':'No identificado'
                               ,'name':'No identificado'
                               ,'manufacturer':'No identificado'
                               ,'radio.band':'No identificado'
                               ,'usuarios.sistemaOperativoUsuarios':'No identificado'
                               ,'usuarios.macRed':'No identificado'
                               ,'usuarios.apGroup':'No identificado'
                               },inplace=True)

    dispositivoUsuarios = pd.merge(dispositivoUsuarios, datos_semilla, on='site_id',how='inner')
    dispositivoUsuarios= dispositivoUsuarios.rename(columns={
                                                     'site_id' : 'usuarios.siteID'
                                                    ,'mac_usuario' : 'usuarios.dispositivo.mac'
                                                    ,'usuarios.tipoDispositivoUsuarios' : 'usuarios.dispositivo.tipo'
                                                    ,'name' : 'usuarios.dispositivo.nombre'
                                                    ,'manufacturer' : 'usuarios.dispositivo.marca'
                                                    ,'radio.band' : 'usuarios.dispositivo.tecnologia'
                                                    ,'usuarios.sistemaOperativoUsuarios' : 'usuarios.dispositivo.sisOperativo'
                                                    ,'fecha_control':'usuarios.fechaControl'
                                                    })
    dispositivoUsuarios["usuarios.fecha"] = dispositivoUsuarios["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[0]
    dispositivoUsuarios["usuarios.anyo"] = dispositivoUsuarios["usuarios.fecha"].str[0:4]
    dispositivoUsuarios["usuarios.mes"] = dispositivoUsuarios["usuarios.fecha"].str[5:7]
    dispositivoUsuarios["usuarios.dia"] = dispositivoUsuarios["usuarios.fecha"].str[8:10]
    dispositivoUsuarios["usuarios.hora"] = dispositivoUsuarios["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[0]
    dispositivoUsuarios["usuarios.minuto"] = dispositivoUsuarios["usuarios.fechaControl"].str.split(" ", n = 1, expand = True)[1].str.split(":", n = 2, expand = True)[1]
    dispositivoUsuarios['@timestamp'] = now.isoformat()
    salida = helpers.bulk(es, doc_generator_mac(dispositivoUsuarios))
    print("Fecha: ", now,"- Detalle MACs a indice:",salida[0])
except:
    print("Fecha: ", now,"- Ningún Detalle MACs para insertar en indice principal")

Fecha:  2021-08-10 14:51:25.639103 - Detalle MACs a indice: 247


In [655]:
dispositivoUsuarios

Unnamed: 0,usuarios.siteID,usuarios.macRed,usuarios.apGroup,usuarios.dispositivo.mac,usuarios.fechaControl,usuarios.dispositivo.tipo,usuarios.dispositivo.nombre,usuarios.dispositivo.marca,usuarios.dispositivo.tecnologia,usuarios.dispositivo.sisOperativo,...,usuarios.nombreMunicipio,usuarios.idBeneficiario,usuarios.location,usuarios.fecha,usuarios.anyo,usuarios.mes,usuarios.dia,usuarios.hora,usuarios.minuto,@timestamp
0,70175-ZZZY515,BC:A9:93:0C:7B:39,OUTDOOR,C8:C7:50:82:D7:57,2021-06-01 13:00:00,Smartphone,,"Motorola Mobility LLC, a Lenovo Company",2.4GHz,Android,...,PUERTO LIBERTADOR,70175,"9.86140345,-73.60344033",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
1,70175-ZZZY515,BC:E6:7C:E7:FD:3C,OUTDOOR,08:ED:9D:A9:E9:02,2021-06-01 13:00:00,Smartphone,,08-ED-9D,2.4GHz,Android,...,PUERTO LIBERTADOR,70175,"9.86140345,-73.60344033",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
2,70175-ZZZY515,BC:E6:7C:E7:C9:2E,OUTDOOR,8C:E5:C0:3A:89:3F,2021-06-01 13:00:00,Smartphone,SM-J260M,Samsung Electronics Ltd,2.4GHz,Android,...,PUERTO LIBERTADOR,70175,"9.86140345,-73.60344033",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
3,70175-ZZZY515,BC:E6:7C:E7:C9:2E,OUTDOOR,7C:2E:DD:A9:75:73,2021-06-01 13:00:00,Smartphone,,Samsung Electronics Ltd,2.4GHz,Android,...,PUERTO LIBERTADOR,70175,"9.86140345,-73.60344033",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
4,70175-ZZZY515,BC:E6:7C:E7:C9:2E,OUTDOOR,BC:FF:EB:38:28:07,2021-06-01 13:00:00,Smartphone,,"Motorola Mobility LLC, a Lenovo Company",2.4GHz,Android,...,PUERTO LIBERTADOR,70175,"9.86140345,-73.60344033",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
242,47431-ZZZY243,BC:E6:7C:E7:C9:73,OUTDOOR,E2:FE:97:BE:43:B7,2021-06-01 13:00:00,Smartphone,HUAWEI_Y5p-2157,No identificado,2.4GHz,Android,...,SAMPUÉS,47431,"9.138,-75.33633333",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
243,16733-ZZZY574,BC:E6:7C:5B:AF:BE,OUTDOOR,00:90:4C:E8:2A:92,2021-06-01 13:00:00,Smartphone,Avvio_4GO,Epigram Inc.,2.4GHz,Android,...,SINCELEJO,16733,"6.91101903,-75.43068113",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
244,31858-ZGYO283,BC:E6:7C:EF:FD:27,OUTDOOR,C0:8C:71:FA:B7:F2,2021-06-01 13:00:00,Smartphone,,"Motorola Mobility LLC, a Lenovo Company",2.4GHz,Android,...,MOÑITOS,31858,"9.18883227,-76.15576049",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103
245,30453-ZGYO097,BC:E6:7C:58:E6:A2,OUTDOOR,40:45:DA:77:E1:2B,2021-06-01 13:00:00,Smartphone,android-53fdde77de98085b,Spreadtrum Communications (Shanghai) Ltd,2.4GHz,Android,...,CHIMICHAGUA,30453,"9.3045,-73.859916",2021-06-01,2021,06,01,13,00,2021-08-10T14:51:25.639103


### Guardando fecha para control de ejecución

* Se actualiza la fecha de control. Si el calculo supera la fecha hora actual, se asocia esta ultima.

In [656]:
fecha_ejecucion= (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(minutes=10)).strftime("%Y-%m-%d %H:%M:%S")[0:15] + '0:00'    

if fecha_ejecucion > str(now.strftime('%Y-%m-%d %H:%M:%S'))[0:15] + '0:00':
    fecha_ejecucion = str(now.strftime('%Y-%m-%d %H:%M:%S'))[0:15] + '0:00'
response = es.index(
        index = indice_control,
        id = 'jerarquia-tablero12',
        body = { 'jerarquia-tablero12': 'jerarquia-tablero12','usuarios.fechaControl' : fecha_ejecucion}
)
print("actualizada fecha control de ejecucion:",fecha_ejecucion)

actualizada fecha control de ejecucion: 2021-06-01 13:00:00
