### ¿Qué hace este script?
Para cada sitio y fecha calcula:
* usuarios.nivelesSatisfaccionUsuarios: Clasificación de la respuesta (bueno, regular, malo)
* usuarios.nivelesSatisfaccionUsuariosRespuesta: Total de respuestas para cada opción
* usuarios.nivelesSatisfaccionUsuariosRespuestaPorCien (porcentaje asociado al total para ese grupo de respuetas)
* usuarios.cantidadCalificaciones: total de calificaciones (incluye todas las opciones)

In [20]:
from elasticsearch import Elasticsearch, helpers
import pandas as pd
import numpy as np
from ssl import create_default_context
from datetime import datetime, timedelta
import time
import parametros #parametros propios del desarrollo

### Conexión a Elastic Search

In [21]:
context = create_default_context(cafile=parametros.cafile)
es = Elasticsearch(
    parametros.servidor,
    http_auth=(parametros.usuario_EC, parametros.password_EC),
    scheme="https",
    port=parametros.puerto,
    ssl_context=context,
    timeout=60, max_retries=3, retry_on_timeout=True
)

### Calculando fechas para la ejecución

In [22]:
now = datetime.now()
fecha_hoy = str(now.strftime("%Y.%m.%d"))

### nombre de indice donde se insertará

se define tanto el indice principal como el que controla la ejecución

In [23]:
indice = parametros.mintic_concat_index
indice_control = parametros.mintic_control

### Funcion que genera JSON compatible con ElasticSearch

In [24]:
def filterKeys(document):
    return {key: document[key] for key in use_these_keys }

### Trae la ultima fecha para control de ejecución

Cuando en el rango de tiempo de la ejecución, no se insertan nuevos valores, las fecha maxima en indice mintic no aumenta, por tanto se usa esta fecha de control para garantizar que incremente el bucle de ejecución

In [25]:
total_docs = 1
try:
    response = es.search(
        index= indice_control,
        body={
               "_source": ["usuarios.fechaControl"],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"jerarquia_valoraciones_usuario"
                    }
                  }
                  ]
                }
              }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        fecha_ejecucion = doc["_source"]['usuarios.fechaControl']
except:
    pass
if response["hits"]["hits"] == []:
    fecha_ejecucion = '2021-05-01 00:00:00'
print("ultima fecha para control de ejecucion:",fecha_ejecucion)

ultima fecha para control de ejecucion: 2021-05-01 00:00:00


### leyendo indice semilla-inventario

En el script que ingesta semilla, trae la información de los centros de conexión administrados. Para el indice principal se requiere:
* site_id como llave del centro de conexión.
* Datos geográficos (Departamento, municipio, centro poblado, sede, energía, latitud, longitud,  COD_ISO , id_Beneficiario).

In [26]:
total_docs = 10000
try:
    response = es.search(
        index= parametros.semilla_inventario_index,
        body={
               "_source": ['site_id','nombre_municipio', 'nombre_departamento', 'nombre_centro_pob', 'nombreSede' 
                           , 'energiadesc', 'latitud', 'longitud', 'COD_ISO','id_Beneficiario']
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        source_data = doc["_source"]
        for key, val in source_data.items():
            try:
                fields[key] = np.append(fields[key], val)
            except KeyError:
                fields[key] = np.array([val])

    datos_semilla = pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) #pd.DataFrame(fields)
except:
    exit()

### Cambiando nombre de campos y generando location

* Se valida latitud y longitud. Luego se calcula campo location
* Se renombran los campos de semilla

In [27]:
import re
def get_location(x):
    patron = re.compile('^(\-?\d+(\.\d+)?),\s*(\-?\d+(\.\d+)?)$') #patrón que debe cumplir
    if (not patron.match(x) is None):
        return x.replace(',','.')
    else:
        #Código a ejecutar si las coordenadas no son válidas
        return 'a'
datos_semilla['latitud'] = datos_semilla['latitud'].apply(get_location)
datos_semilla['longitud'] = datos_semilla['longitud'].apply(get_location)
datos_semilla = datos_semilla.drop(datos_semilla[(datos_semilla["longitud"]=='a') | (datos_semilla["latitud"]=='a')].index)
datos_semilla['usuarios.location'] = datos_semilla['latitud'] + ',' + datos_semilla['longitud']
datos_semilla['usuarios.location']=datos_semilla['usuarios.location'].str.replace('a,a','')
datos_semilla.drop(columns=['latitud','longitud'],inplace=True)

In [28]:
datos_semilla = datos_semilla.rename(columns={'lugar_cod' : 'usuarios.centroDigitalUsuarios'
                                            , 'nombre_municipio': 'usuarios.nombreMunicipio'
                                            , 'nombre_departamento' : 'usuarios.nombreDepartamento'
                                            , 'nombre_centro_pob': 'usuarios.localidad'
                                            , 'nombreSede' : 'usuarios.nomCentroDigital'
                                            , 'energiadesc' : 'usuarios.sistemaEnergia'
                                            , 'COD_ISO' : 'usuarios.codISO'
                                            , 'id_Beneficiario' : 'usuarios.idBeneficiario'})

Se descartan los registros que tengan la latitud y longitud vacía o no valida

In [29]:
datos_semilla = datos_semilla.drop(datos_semilla[(datos_semilla["usuarios.location"]=='')].index)

## leyendo indice ohmyfi valoraciones

Se toman en cuenta todas las valoraciones realizadas dentro del rango de fecha fecha. Campos leidos:

* lugar_cod que es la llave para cruzar con site_id.
* datos asociados a la valoración: pregunta, respuesta, fechahora (cuando se registró la valoración)

In [30]:
def trae_valoraciones(fecha_ini,fecha_fin):
    total_docs = 10000
    response = es.search(
        index= parametros.ohmyfi_val_index,
        body={
                  "_source": ["lugar_cod", "respuesta","fechahora","@timestamp"]
                , "query": {
                      "range": {
                            "fechahora": {
                            "gte": fecha_ini,
                            "lt":  fecha_fin
                            }
                        }
                  }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        source_data = doc["_source"]
        for key, val in source_data.items():
            try:
                fields[key] = np.append(fields[key], val)
            except KeyError:
                fields[key] = np.array([val])

    return pd.DataFrame(dict([ (k,pd.Series(v)) for k,v in fields.items() ])) 


### Se realiza la consulta de datos

* Se calcula rango en base a la fecha de control. Para este caso es de un día.
* Se ejecuta la función de consulta con el rango de fechas.
* Si no retorna datos se incrementa el rango y se ejecuta nuevamente. Este proceso se repite hasta conseguir datos o hasta que el rango de ejecución alcance la fecha y hora actual.

In [31]:
fecha_max_mintic = fecha_ejecucion
fecha_tope_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)-timedelta(seconds=1)).strftime("%Y-%m-%d %H:%M:%S")
datos_valoraciones =  trae_valoraciones(fecha_max_mintic,fecha_tope_mintic)

if datos_valoraciones is None or datos_valoraciones.empty:
    while (datos_valoraciones is None or datos_valoraciones.empty) and ((datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S').strftime("%Y-%m-%d %H:%M:%S")) < str(now.strftime("%Y-%m-%d %H:%M:%S"))):
        fecha_max_mintic = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        fecha_tope_mintic = (datetime.strptime(fecha_tope_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
        datos_valoraciones = trae_valoraciones(fecha_max_mintic,fecha_tope_mintic)
else:
    pass

1. Se descartan las respuestas Si y No de las valoraciones, las cuales corresponden a la pregunta: "Te gustaría calificar tu última conexión en". De esta forma solo se dejan las respuestas asociadas a la percepción de calidad por parte del usuario.
2. Se estandariza lugar_cod a site_id
3. Se estadariza fecha para agrupar (solo se toma yyyy-mm-dd)
4. Se Calcula nivel de valoracion por pregunta y total de valoraciones

* Para cada centro de conexión, pregunta, se contabilizan las valoraciones. El calculo es diario

In [32]:
try:
    datos_valoraciones = datos_valoraciones.drop(datos_valoraciones[(datos_valoraciones["respuesta"].isin(['Si','No']))].index)
    #datos_valoraciones['mac_usuario'] = datos_valoraciones['mac_usuario'].str.replace('-',':')
    datos_valoraciones = datos_valoraciones.rename(columns={'lugar_cod': 'site_id'})
    datos_valoraciones['fecha'] = datos_valoraciones["fechahora"].str.split(" ", n = 1, expand = True)[0]
    nivel_valoraciones=datos_valoraciones[['fechahora', 'site_id'
                                         , 'respuesta'
                                         , 'fecha']].groupby(['site_id','respuesta','fecha']).agg(['count']).reset_index()
    nivel_valoraciones.columns = nivel_valoraciones.columns.droplevel(1)
    nivel_valoraciones = nivel_valoraciones.rename(columns={'fechahora' :'usuarios.nivelesSatisfaccionUsuarios'
                                                           ,'respuesta' :'usuarios.nivelesSatisfaccionUsuariosRespuesta'
                                                           ,'fecha' : 'usuarios.fechaCalificacion'})
    
    total_valoraciones = datos_valoraciones[['site_id','fechahora','fecha']].groupby(['site_id','fecha']).agg(['count']).reset_index()
    total_valoraciones.columns = total_valoraciones.columns.droplevel(1)
    total_valoraciones = total_valoraciones.rename(columns={'fechahora' :'usuarios.cantidadCalificaciones'
                                                           ,'fecha' : 'usuarios.fechaCalificacion'})

    #Con ambos se calcula el porcentaje de cada respuesta
    nivel_valoraciones =  pd.merge(nivel_valoraciones,total_valoraciones, on=['site_id','usuarios.fechaCalificacion'],how='inner')
    nivel_valoraciones['usuarios.nivelesSatisfaccionUsuariosRespuestaPorCien'] = ((nivel_valoraciones['usuarios.nivelesSatisfaccionUsuarios']) / nivel_valoraciones['usuarios.cantidadCalificaciones']).round(4)
except:
    total_valoraciones = pd.DataFrame(columns=['site_id','usuarios.fechaCalificacion'
                                              ,'usuarios.cantidadCalificaciones'])
    nivel_valoraciones = pd.DataFrame(columns=['site_id','usuarios.fechaCalificacion'
                                              ,'usuarios.nivelesSatisfaccionUsuarios'
                                              ,'usuarios.nivelesSatisfaccionUsuariosRespuesta'
                                              ,'usuarios.nivelesSatisfaccionUsuariosRespuestaPorCien'])
    

### Cruzando con semilla las agregaciones de valoraciones

In [33]:
mintic_valoraciones = pd.merge(datos_semilla, nivel_valoraciones, on='site_id',how='inner')

# Escribiendo en indice la información de Valoraciones

Se convierten los nulos a ceros a nivelesSatisfaccionUsuarios y cantidadCalificaciones

In [34]:
try:
    mintic_valoraciones.fillna({'usuarios.nivelesSatisfaccionUsuarios':0
                               ,'usuarios.nivelesSatisfaccionUsuariosRespuestaPorCien':0},inplace=True)
    mintic_valoraciones[['usuarios.nivelesSatisfaccionUsuarios']] = mintic_valoraciones[['usuarios.nivelesSatisfaccionUsuarios']].astype(int)
    mintic_valoraciones = mintic_valoraciones.rename(columns={'site_id' : 'usuarios.siteID'})
    mintic_valoraciones.dropna(subset=['usuarios.nivelesSatisfaccionUsuariosRespuesta'], inplace=True)
    mintic_valoraciones["usuarios.anyo"] = mintic_valoraciones["usuarios.fechaCalificacion"].str[0:4]
    mintic_valoraciones["usuarios.mes"] = mintic_valoraciones["usuarios.fechaCalificacion"].str[5:7]
    mintic_valoraciones["usuarios.dia"] = mintic_valoraciones["usuarios.fechaCalificacion"].str[8:10]
    
    mintic_valoraciones['nombreDepartamento'] = mintic_valoraciones['usuarios.nombreDepartamento']
    mintic_valoraciones['nombreMunicipio'] = mintic_valoraciones['usuarios.nombreMunicipio']
    mintic_valoraciones['idBeneficiario'] = mintic_valoraciones['usuarios.idBeneficiario']
    mintic_valoraciones['fecha'] = mintic_valoraciones['usuarios.fechaCalificacion']
    mintic_valoraciones['anyo'] = mintic_valoraciones['usuarios.anyo']
    mintic_valoraciones['mes'] = mintic_valoraciones['usuarios.mes']
    mintic_valoraciones['dia'] = mintic_valoraciones['usuarios.dia']
except:
    pass

In [35]:
use_these_keys = ['usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.nivelesSatisfaccionUsuariosRespuesta'
                  , 'usuarios.nivelesSatisfaccionUsuariosRespuestaPorCien'
                  , 'usuarios.nivelesSatisfaccionUsuarios'
                  , 'usuarios.fechaCalificacion'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                    , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']
try:
    mintic_valoraciones['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{'Valoracion-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaCalificacion']) + '-' + str(document['usuarios.nivelesSatisfaccionUsuariosRespuesta'])}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(mintic_valoraciones))
    print("Fecha: ", now,"- Valoraciones insertadas en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- No se insertaron valoraciones en indice principal")

Fecha:  2021-06-10 19:17:15.349671 - Valoraciones insertadas en indice principal: 366


## Insertando total de calificaciones

In [36]:
mintic_calificaciones = pd.merge(datos_semilla,  total_valoraciones, on='site_id', how='inner')

In [37]:
try:
    mintic_calificaciones.fillna({'usuarios.cantidadCalificaciones':0},inplace=True)
    mintic_calificaciones[['usuarios.cantidadCalificaciones']] = mintic_calificaciones[['usuarios.cantidadCalificaciones']].astype(int)
    mintic_calificaciones = mintic_calificaciones.rename(columns={'site_id' : 'usuarios.siteID'})
    mintic_calificaciones.dropna(subset=['usuarios.cantidadCalificaciones'], inplace=True)
    mintic_calificaciones["usuarios.anyo"] = mintic_calificaciones["usuarios.fechaCalificacion"].str[0:4]
    mintic_calificaciones["usuarios.mes"] = mintic_calificaciones["usuarios.fechaCalificacion"].str[5:7]
    mintic_calificaciones["usuarios.dia"] = mintic_calificaciones["usuarios.fechaCalificacion"].str[8:10]
    
    mintic_calificaciones['nombreDepartamento'] = mintic_calificaciones['usuarios.nombreDepartamento']
    mintic_calificaciones['nombreMunicipio'] = mintic_calificaciones['usuarios.nombreMunicipio']
    mintic_calificaciones['idBeneficiario'] = mintic_calificaciones['usuarios.idBeneficiario']
    mintic_calificaciones['fecha'] = mintic_calificaciones['usuarios.fechaCalificacion']
    mintic_calificaciones['anyo'] = mintic_calificaciones['usuarios.anyo']
    mintic_calificaciones['mes'] = mintic_calificaciones['usuarios.mes']
    mintic_calificaciones['dia'] = mintic_calificaciones['usuarios.dia']
except:
    pass

In [39]:
use_these_keys = ['usuarios.nomCentroDigital'
                  , 'usuarios.codISO'
                  , 'usuarios.idBeneficiario'
                  , 'usuarios.localidad'
                  , 'usuarios.siteID'
                  , 'usuarios.nombreDepartamento'
                  , 'usuarios.sistemaEnergia'
                  , 'usuarios.nombreMunicipio'
                  , 'usuarios.location'
                  , 'usuarios.cantidadCalificaciones'
                  , 'usuarios.fechaCalificacion'
                  , 'usuarios.anyo'
                  , 'usuarios.mes'
                  , 'usuarios.dia'
                    , 'nombreDepartamento'
                    , 'nombreMunicipio'
                    , 'idBeneficiario'
                    , 'fecha'
                    , 'anyo'
                    , 'mes'
                    , 'dia'
                  , '@timestamp']
try:
    mintic_calificaciones['@timestamp'] = now.isoformat()
    def doc_generator(df):
        df_iter = df.iterrows()
        for index, document in df_iter:
            yield {
                    "_index": indice, 
                    "_id": f"{ 'Calificacion-' + str(document['usuarios.siteID']) + '-' + str(document['usuarios.fechaCalificacion'])}",
                    "_source": filterKeys(document),
                }
    salida = helpers.bulk(es, doc_generator(mintic_calificaciones))
    print("Fecha: ", now,"- Total calificaciones insertadas en indice principal:",salida[0])
except:
    print("Fecha: ", now,"- No se insertaron totales de calificaciones en indice principal")

Fecha:  2021-06-10 19:17:15.349671 - Total calificaciones insertadas en indice principal: 129


### Guardando fecha para control de ejecución

* Se actualiza la fecha de control. Si el calculo supera la fecha hora actual, se asocia esta ultima.

In [None]:
fecha_ejecucion = (datetime.strptime(fecha_max_mintic, '%Y-%m-%d %H:%M:%S')+timedelta(days=1)).strftime("%Y-%m-%d %H:%M:%S")
if fecha_ejecucion > str(now.strftime('%Y-%m-%d %H:%M:%S'))[0:10] + ' 00:00:00':
    fecha_ejecucion = str(now.strftime('%Y-%m-%d %H:%M:%S'))[0:10] + ' 00:00:00'
response = es.index(
        index = indice_control,
        id = 'jerarquia_valoraciones_usuario',
        body = { 'jerarquia_valoraciones_usuario': 'valoraciones_usuario','usuarios.fechaControl' : fecha_ejecucion}
)
print("actualizada fecha control de ejecucion:",fecha_ejecucion)