In [9]:
from elasticsearch import Elasticsearch
from elasticsearch import helpers
import pandas as pd
import numpy as np
import json
from ssl import create_default_context
from datetime import datetime
from datetime import timedelta
#para request
import requests
from getpass import getpass
import parametros
import time

### Definiendo fechas para rangos de consultas

In [10]:
now = datetime.now()
new_date = now - timedelta(days=6)
#fecha_url = str(new_date.strftime(format))
ahora = str(now.strftime("%Y/%m/%d %H:%M"))
fecha_6 = str(new_date.strftime("%Y/%m/%d %H:%M"))
fecha_hoy = str(now.strftime("%Y.%m.%d"))

## Leyendo datos del indice ohmyfi-valoraciones

In [11]:
context = create_default_context(cafile=parametros.cafile)
es = Elasticsearch(
    parametros.servidor,
    http_auth=(parametros.usuario_EC, parametros.password_EC),
    scheme="https",
    port=parametros.puerto,
    ssl_context=context,
)

## tomando fecha mas reciente del indice

In [12]:
total_docs = 1
try:
    response = es.search(
        index= parametros.mintic_control,
        body={
               "_source": ["usuarios.fechaControl"],
              "query": {
                "bool": {
                  "filter": [
                  {
                    "exists": {
                      "field":"jerarquia_ohmyfi_valoraciones"
                    }
                  }
                  ]
                }
              }
        },
        size=total_docs
    )
    #print(es.info())
    elastic_docs = response["hits"]["hits"]
    fields = {}
    for num, doc in enumerate(elastic_docs):
        fecha_ejecucion = doc["_source"]['usuarios.fechaControl']
except:
    pass
if response["hits"]["hits"] == []:
    try:
        response = es.search(
            index=parametros.ohmyfi_val_index,
            body={"aggs" : {
                       "max_date": {"max": {"field": "fechahora", "format": "yyyy-MM-dd HH:mm:ss"}}
                    }
                 },
            size=total_docs
        )
        elastic_docs = response["aggregations"]
        fecha_ejecucion = response["aggregations"]["max_date"]['value_as_string']
        if response["hits"]["hits"] == []:
            fecha_ejecucion = "2021-04-01 00:00:00"
    except:
        print("Error calculando rangos") 
        fecha_ejecucion = "2021-04-01 00:00:00"
print("ultima fecha para control de ejecucion:",fecha_ejecucion)

ultima fecha para control de ejecucion: 2021-10-19 21:30:02


## Leyendo la APi valoraciones

In [5]:
#url2 = parametros.url_ohmyfi +'?/consumos/=&apiKey=' + parametros.ohmyfi_api_key 
url2 = parametros.url_ohmyfi + '?/valoraciones' + '/=&apiKey=' + parametros.ohmyfi_api_key 

In [6]:
datos_api = pd.DataFrame(columns=["mac_usuario","fecha_resp","hora_resp","id_pregunta","pregunta","respuesta"
                                  ,"lugar_serespondio","lugar_nombre","lugar_cod","nombre_completo","apellidos","correo"
                                  ,"documento","tipo_documento","celular","telefono","direccion","ciudad","pais"
                                  ,"genero","fecha_nacimiento","nivel_educativo","rango_edad","creado"
                                  ,"tipo_dispositivo","sistema_operativo","mac_ap"])

In [7]:
h_inicio = fecha_ejecucion[0:-3].replace("-","/")
h_fin = str(( datetime.strptime(h_inicio, '%Y/%m/%d %H:%M') + timedelta(minutes=59)).strftime("%Y/%m/%d %H:%M"))

In [8]:
if h_inicio[8:10] != h_fin[8:10]:
    h_inicio = h_inicio[0:11] + '23:00'
    h_fin = h_inicio[0:11] + '23:59'
url = url2 + '&inicio=' + str(h_inicio) + '&final=' + str(h_fin) 
print(url)
r = requests.get(url)
if r.status_code == 200:
    res = json.loads(r.text)
    #print(url)
    datos_api = datos_api.append(res, ignore_index=True)
    datos_api.drop_duplicates(inplace=True)
else:
    if (r.status_code != 500) & (r.status_code != 204):
        print("Se rompe bucle por error de request horas:",r.status_code)
    else:
        print(h_inicio,"- No hay datos para mostrar.",r.status_code)

https://www.ohmyfi.com/ApiOMF?/valoraciones/=&apiKey=okMOpLAkiYpafQKXhXirwUys&inicio=2021/10/19 18:00&final=2021/10/19 18:59


Se actualiza la fecha de ejecución

In [9]:
if r.status_code in (200,204):
    ## Se actualiza la fecha control
    fecha_ejecucion = (datetime.strptime(h_inicio+':00', '%Y/%m/%d %H:%M:%S')+timedelta(hours=1)).strftime("%Y-%m-%d %H:%M:%S")
    if fecha_ejecucion > str(now.strftime('%Y-%m-%d %H:%M:%S')):
        fecha_ejecucion = str(now.strftime('%Y-%m-%d %H:%M:%S'))
    response = es.index(
            index = 'control_valoraciones',
            id = 'jerarquia_ohmyfi_valoraciones',
            body = { 'jerarquia_ohmyfi_valoraciones': 'valoraciones_ohmyfi','usuarios.fechaControl' : fecha_ejecucion}
    )
    print("actualizada fecha control de ejecucion:",fecha_ejecucion)

actualizada fecha control de ejecucion: 2021-06-22 15:00:00


### Descartando datos de la API que ya están en el indice
* se quito la fecha hoy (solicitado por Napoleon [GM] )


In [10]:
indice = 'valoraciones_ohmyfi_pruebaingesta_20_1cha_hoy

In [11]:
use_these_keys = ["mac_usuario","fecha_resp","hora_resp","id_pregunta","pregunta","respuesta"
                  ,"lugar_serespondio","lugar_nombre","lugar_cod","nombre_completo","apellidos","correo"
                  ,"documento","tipo_documento","celular","telefono","direccion","ciudad","pais"
                  ,"genero","fecha_nacimiento","nivel_educativo","rango_edad","creado"
                  ,"tipo_dispositivo","sistema_operativo","mac_ap",'fechahora','@timestamp']
def filterKeys(document):
    return {key: document[key] for key in use_these_keys }

def doc_generator(df):
    df_iter = df.iterrows()
    for index, document in df_iter:
        yield {
                "_index": indice, 
                "_id": f"{str(document['mac_usuario']) + '-' + str(document['fechahora'])}",
                "_source": filterKeys(document),
            }

Se limpia y formatea datos

In [12]:
try:
    datos_api.fillna('', inplace=True)
    datos_api['creado_new'] = datos_api["creado"].str.split(".", n = 1, expand = True)[0] 
    datos_api.drop(columns=['creado'], inplace=True)
    datos_api.rename(columns={'creado_new': 'creado'}, inplace=True)
    datos_api['hora_resp_new'] = datos_api["hora_resp"].str.split(".", n = 1, expand = True)[0] 
    datos_api.drop(columns=['hora_resp'], inplace=True)
    datos_api.rename(columns={'hora_resp_new': 'hora_resp'}, inplace=True)
    datos_api['fechahora'] = datos_api['fecha_resp'] + ' '+ datos_api["hora_resp"]
    #datos_api = datos_api.drop(datos_api[(datos_api['fechahora']<= fecha_max.replace("/","-"))].index)
    datos_api.fillna('', inplace=True)
    datos_api['@timestamp'] = now.isoformat() 
    salida = helpers.bulk(es, doc_generator(datos_api))
    print("Fecha:",now,"- Total documentos insertados:",salida[0])
except:
    print("Nada por insertar")
    pass

Nada por insertar
