# funcion para obtener informacion sin limite de datos

In [1]:
import requests
import json
from requests.auth import HTTPBasicAuth
import time
import pandas as pd
import re

# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

def elasticScroll(elasticParameters, query, pages):
    # parametros de salida
    # parametros del indice
    elasticURL = elasticParameters["elasticURL"]
    elasticIndex = elasticParameters["elasticIndex"]
    elasticUser = elasticParameters["elasticUser"]
    elasticPassword = elasticParameters["elasticPassword"]
    
    if(len(elasticURL)==0) or (len(elasticIndex)==0) or (len(elasticUser)==0) or (len(elasticPassword)==0):
        raise Exception("Revisa los parametros")
    # se define la url que apunta al indice de elastic
    url_search = f"{elasticURL}/{elasticIndex}/_search?scroll=1m"
    # se ejecuta la query
    response = requests.get(url_search, json=query, auth=HTTPBasicAuth(elasticUser, elasticPassword))
    # retorna una lista con el resultado de la query
    search = json.loads(response.text)
    # guardamos el scroll id correspondiente a la query
    scroll_id = search["_scroll_id"]
    # url scroll
    url_scroll = f"{elasticURL}/_search/scroll"
    scroll_query = {
                "scroll": "1m",
                "scroll_id": f"{scroll_id}"
            }

    # condiciones iniciales
    scroll_search = {"hits":{"hits":1}}
    if pages:
        # hay paginacion
        # condiciones iniciales
        from_ = pages["from"]
        size_ = pages["size"]
        count = len(search["hits"]["hits"])

        while scroll_search["hits"]["hits"] and count < from_ + size_:
            scroll_response = requests.get(url_scroll, json=scroll_query, auth=HTTPBasicAuth(elasticUser, elasticPassword))
            scroll_search = json.loads(scroll_response.text)
            if not scroll_search["hits"]["hits"]:
                continue
            else:
                search["hits"]["hits"].extend(scroll_search["hits"]["hits"])
            count += len(scroll_search["hits"]["hits"])

        search["hits"]["hits"] = search["hits"]["hits"][from_:from_+size_+1]

    else:
        # Se devuelven todos los resultados
        while scroll_search["hits"]["hits"]:
            scroll_response = requests.get(url_scroll, json=scroll_query,
                                           auth=HTTPBasicAuth(elasticUser, elasticPassword))
            scroll_search = json.loads(scroll_response.text)
            if not scroll_search["hits"]["hits"]:
                continue
            else:
                search["hits"]["hits"].extend(scroll_search["hits"]["hits"])
    # Se elina el campo scroll del scroll_body
    del scroll_query["scroll"]
    # Se elimina el scroll de elasticsearch para liberar memoria
    delete = requests.delete(url_scroll, json=scroll_query, auth=HTTPBasicAuth(elasticUser, elasticPassword))
    return search

In [2]:
# definiendo parametros de entrada

In [3]:
# datos de conexion a elastic
elasticParameters = {"elasticURL": "https://es-dev.e-contact.cl"
                    , "elasticIndex": "lea_sequences-events-banco_de_chile" 
                    , "elasticUser": "jcalderon"
                    , "elasticPassword": "jcalderon123"
                    }

# query custom para obtener fechas
query = {
  "query": {
    "bool": {
      "must": [],
      "filter": [
        {
          "match_all": {}
        },
        {
            
          "range": {
            "interactionData.dateTimeUTC": {
              "format": "strict_date_optional_time",
              "gte": "2022-05-29T00:00:00.000Z",
              "lte": "2022-05-30T00:00:00.000Z"
            }
          }
        }
      ],
      "should": [],
      "must_not": []
    }
  }
}

# total de paginas
pages =  {
    "from": 0,
    "size": 5000
}

# consulta a indice

In [4]:
response = elasticScroll(elasticParameters, query, pages)

# transformar response (dict) a dataframe

In [5]:
from pandas import DataFrame, json_normalize
import numpy as np

df = json_normalize(json.loads(json.dumps(response))["hits"]["hits"])
df_00 = df [['_source.conversationSequence.topicName','_source.interactionData.interactionId']]
df_00['topicName']= df_00['_source.conversationSequence.topicName']
df_00['interactionId']= df_00['_source.interactionData.interactionId']
df_00 = df_00.drop_duplicates()

# crea df_01, separando los distintos topicos
df_01 = pd.DataFrame(df_00["topicName"].str.split(',', expand=True).stack(), columns=["topicName"])

# reemplaza valores vacios por "NO IDENTIFICADO"
df_01["topicName"] = df_01["topicName"].replace({ "": "NO IDENTIFICADO", " ": "NO IDENTIFICADO" })

# crea df "primario" con valores que corresponden al grafo 02
df_grafo2 = pd.DataFrame({'topicName': ['Corte llamado', 'Red sucursal','Reclamación','Escalamiento de llamada','Reincidencia'], 'matched': True})

# agrupa y cuenta los topicos 
df_02=df_01.groupby(["topicName"]).size().reset_index(name='cantidad')

# agrega columna total contabilizando el total de interacciones obtenidas en el primer query
df_02['Total'] = df_02['cantidad'].sum()

# crea df haciendo match entre el total de topicos y aquellos que utiliza el grafo 02
df_03 = df_02.merge(df_grafo2, how='left', on='topicName')

# selecciona solo aquellos topicos del grafo 01
df_03 = df_03[pd.isnull(df_03['matched'])]

# crea df haciendo match entre el total de topicos y aquellos que utiliza el grafo 02
df_04 = df_02.merge(df_grafo2, how='inner', on='topicName')

# reduce cols a utilizar en los df
df_grafo01 = df_03[['topicName','cantidad','Total']]
df_grafo02 = df_04[['topicName','cantidad','Total']]

# calcula el % dividiendo cantidad de apariciones por el total de interacciones
df_grafo01['Final'] =((df_grafo01['cantidad']) / df_grafo01['Total'])
df_grafo02['Final'] =((df_grafo02['cantidad']) / df_grafo02['Total'])

# col grafico determina a cual grafica se deben utilizar los datos
df_grafo01['Grafico']=1
df_grafo02['Grafico']=2

# fusiona y crea solo un df
result = pd.concat([df_grafo01, df_grafo02], axis=0)

# formatea salidas segun lo solcitado
result = result.set_index('topicName').T.to_dict('list')

result
#df_00

{'Activación de productos': [5.0, 96.0, 0.052083333333333336, 1.0],
 'Cambio de sucursal': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Clave Digipass': [2.0, 96.0, 0.020833333333333332, 1.0],
 'Clave Internet': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Consulta compras TD y TC': [3.0, 96.0, 0.03125, 1.0],
 'Consulta ejecutivo de cuenta': [2.0, 96.0, 0.020833333333333332, 1.0],
 'Consulta estado de cuenta y facturación': [1.0,
  96.0,
  0.010416666666666666,
  1.0],
 'Desbloqueo Clave': [4.0, 96.0, 0.041666666666666664, 1.0],
 'Emergencias bancarias': [9.0, 96.0, 0.09375, 1.0],
 'NO IDENTIFICADO': [55.0, 96.0, 0.5729166666666666, 1.0],
 'Oportunidades de vinculación': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Problemas con plástico': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Problemas uso tarjetas': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Transferencias': [3.0, 96.0, 0.03125, 1.0],
 'Corte llamado': [1.0, 96.0, 0.010416666666666666, 2.0],
 'Red sucursal': [2.0, 96.0, 0.02083333333333333