# funcion para obtener informacion sin limite de datos

In [83]:
import requests
import json
from requests.auth import HTTPBasicAuth
import time
import pandas as pd
import re

# Configuración warnings
import warnings
warnings.filterwarnings('ignore')

def elasticScroll(elasticParameters, query, pages):
    # parametros de salida
    # parametros del indice
    elasticURL = elasticParameters["elasticURL"]
    elasticIndex = elasticParameters["elasticIndex"]
    elasticUser = elasticParameters["elasticUser"]
    elasticPassword = elasticParameters["elasticPassword"]
    
    if(len(elasticURL)==0) or (len(elasticIndex)==0) or (len(elasticUser)==0) or (len(elasticPassword)==0):
        raise Exception("Revisa los parametros")
    # se define la url que apunta al indice de elastic
    url_search = f"{elasticURL}/{elasticIndex}/_search?scroll=1m"
    # se ejecuta la query
    response = requests.get(url_search, json=query, auth=HTTPBasicAuth(elasticUser, elasticPassword))
    # retorna una lista con el resultado de la query
    search = json.loads(response.text)
    # guardamos el scroll id correspondiente a la query
    scroll_id = search["_scroll_id"]
    # url scroll
    url_scroll = f"{elasticURL}/_search/scroll"
    scroll_query = {
                "scroll": "1m",
                "scroll_id": f"{scroll_id}"
            }

    # condiciones iniciales
    scroll_search = {"hits":{"hits":1}}
    if pages:
        # hay paginacion
        # condiciones iniciales
        from_ = pages["from"]
        size_ = pages["size"]
        count = len(search["hits"]["hits"])

        while scroll_search["hits"]["hits"] and count < from_ + size_:
            scroll_response = requests.get(url_scroll, json=scroll_query, auth=HTTPBasicAuth(elasticUser, elasticPassword))
            scroll_search = json.loads(scroll_response.text)
            if not scroll_search["hits"]["hits"]:
                continue
            else:
                search["hits"]["hits"].extend(scroll_search["hits"]["hits"])
            count += len(scroll_search["hits"]["hits"])

        search["hits"]["hits"] = search["hits"]["hits"][from_:from_+size_+1]

    else:
        # Se devuelven todos los resultados
        while scroll_search["hits"]["hits"]:
            scroll_response = requests.get(url_scroll, json=scroll_query,
                                           auth=HTTPBasicAuth(elasticUser, elasticPassword))
            scroll_search = json.loads(scroll_response.text)
            if not scroll_search["hits"]["hits"]:
                continue
            else:
                search["hits"]["hits"].extend(scroll_search["hits"]["hits"])
    # Se elina el campo scroll del scroll_body
    del scroll_query["scroll"]
    # Se elimina el scroll de elasticsearch para liberar memoria
    delete = requests.delete(url_scroll, json=scroll_query, auth=HTTPBasicAuth(elasticUser, elasticPassword))
    return search

In [84]:
# definiendo parametros de entrada

In [85]:
# datos de conexion a elastic
elasticParameters = {"elasticURL": "https://es-dev.e-contact.cl"
                    , "elasticIndex": "lea_sequences-events-banco_de_chile" 
                    , "elasticUser": "jcalderon"
                    , "elasticPassword": "jcalderon123"
                    }

# query custom para obtener fechas
query = {
  "query": {
    "bool": {
      "must": [],
      "filter": [
        {
          "match_all": {}
        },
        {
            
          "range": {
            "interactionData.dateTimeUTC": {
              "format": "strict_date_optional_time",
              "gte": "2022-05-29T00:00:00.000Z",
              "lte": "2022-05-30T00:00:00.000Z"
            }
          }
        }
      ],
      "should": [],
      "must_not": []
    }
  }
}

# total de paginas
pages =  {
    "from": 0,
    "size": 5000
}

# consulta a indice

In [86]:
response = elasticScroll(elasticParameters, query, pages)

# transformar response (dict) a dataframe

In [87]:
from pandas import DataFrame, json_normalize
import numpy as np

df = json_normalize(json.loads(json.dumps(response))["hits"]["hits"])
df_00 = df [['_source.conversationSequence.topicName','_source.interactionData.interactionId','_source.interactionData.dateTimeUTC']]
df_00['topicName']= df_00['_source.conversationSequence.topicName']
df_00['interactionId']= df_00['_source.interactionData.interactionId']
df_00['Fec']= df_00['_source.interactionData.dateTimeUTC']
df_00['hora']= pd.to_datetime(df_00['Fec'].apply(str).str.slice(start = 0, stop = 13))
df_00['fecha'] = pd.to_datetime(df_00['Fec']).dt.date
df_00['hora'] = pd.to_datetime(df_00['hora']).dt.time
df_00['dia'] = pd.to_datetime(df_00['fecha'])
df_00['dia'] = df_00['dia'].dt.day_name()
df_00["topicName"] = df_00["topicName"].replace({ "": "NO IDENTIFICADO", " ": "NO IDENTIFICADO" })
df_00 = df_00[['topicName','interactionId','fecha','hora','dia']]
df_00['key'] =df_00['topicName'] + ',' + df_00['interactionId'] + ',' + str(df_00['fecha']) + ',' + str(df_00['hora'])+ ',' + df_00['dia']
df_00 = df_00.drop_duplicates()
df_grafo2 = pd.DataFrame({'topicName': ['Corte llamado', 'Red sucursal','Reclamación','Escalamiento de llamada','Reincidencia'], 'matched': True})

############################ AGRUPA SEGUN REQUERIMIENTO (FECHA),(FECHA,HORA),(FECHA,HORA,DIA) ############################

#agrupadoFecha = df_00.groupby(['topicName','fecha']).agg({'key': 'count'}).reset_index()
#agrupadoFecha['cantidad'] = agrupadoFecha['key']
#del agrupadoFecha['key']
#agrupadoFecha['total'] = agrupadoFecha['cantidad'].sum()
#agrupadoFecha = df_grafo2.merge(agrupadoFecha, how='right', on='topicName')
#agrupadoFecha['grafo']=agrupadoFecha['matched']
#del agrupadoFecha['matched']
#agrupadoFecha['grafo']=agrupadoFecha['grafo'].apply(lambda x: 1 if x!=1 else 0)
#agrupadoFecha['grafo']=agrupadoFecha['grafo'].replace({0:2})

#agrupadoFechaHora = df_00.groupby(['topicName','fecha','hora']).agg({'key': 'count'}).reset_index()
#agrupadoFechaHora['cantidad'] = agrupadoFechaHora['key']
#del agrupadoFechaHora['key']
#agrupadoFechaHora_A = agrupadoFechaHora.groupby(['fecha','hora']).agg({'cantidad': 'sum'}).reset_index()
#agrupadoFechaHora_A['total'] = agrupadoFechaHora_A['cantidad']
#del agrupadoFechaHora_A['cantidad']
#agrupadoFechaHora = agrupadoFechaHora.merge(agrupadoFechaHora_A, how='inner', on=['fecha','hora'])
#agrupadoFechaHora['final'] =((agrupadoFechaHora['cantidad']) / agrupadoFechaHora['total'])
#agrupadoFechaHora = df_grafo2.merge(agrupadoFechaHora, how='right', on='topicName')
#agrupadoFechaHora['grafo']=agrupadoFechaHora['matched']
#del agrupadoFechaHora['matched']
#agrupadoFechaHora['grafo']=agrupadoFechaHora['grafo'].apply(lambda x: 1 if x!=1 else 0)
#agrupadoFechaHora['grafo']=agrupadoFechaHora['grafo'].replace({0:2})


agrupadoFechaHoraDia = df_00.groupby(['topicName','fecha','hora','dia']).agg({'key': 'count'}).reset_index()
agrupadoFechaHoraDia['cantidad'] = agrupadoFechaHoraDia['key']
del agrupadoFechaHoraDia['key']
agrupadoFechaHoraDia_A = agrupadoFechaHoraDia.groupby(['fecha','hora','dia']).agg({'cantidad': 'sum'}).reset_index()
agrupadoFechaHoraDia_A['total'] = agrupadoFechaHoraDia_A['cantidad']
del agrupadoFechaHoraDia_A['cantidad']
agrupadoFechaHoraDia = agrupadoFechaHoraDia.merge(agrupadoFechaHoraDia_A, how='inner', on=['fecha','hora','dia'])
agrupadoFechaHoraDia['final'] =((agrupadoFechaHoraDia['cantidad']) / agrupadoFechaHoraDia['total'])
agrupadoFechaHoraDia = df_grafo2.merge(agrupadoFechaHoraDia, how='right', on='topicName')
agrupadoFechaHoraDia['grafo']=agrupadoFechaHoraDia['matched']
del agrupadoFechaHoraDia['matched']
agrupadoFechaHoraDia['grafo']=agrupadoFechaHoraDia['grafo'].apply(lambda x: 1 if x!=1 else 0)
agrupadoFechaHoraDia['grafo']=agrupadoFechaHoraDia['grafo'].replace({0:2})



agrupadoFechaHora

Unnamed: 0,topicName,fecha,hora,cantidad,total,final,grafo
0,Activación de productos,2022-05-29,13:00:00,5,86,0.05814,1
1,Cambio de sucursal,2022-05-29,13:00:00,1,86,0.011628,1
2,Clave Digipass,2022-05-29,13:00:00,2,86,0.023256,1
3,Clave Internet,2022-05-29,13:00:00,1,86,0.011628,1
4,Consulta compras TD y TC,2022-05-29,13:00:00,3,86,0.034884,1
5,Consulta ejecutivo de cuenta,2022-05-29,13:00:00,2,86,0.023256,1
6,Corte llamado,2022-05-29,13:00:00,1,86,0.011628,2
7,Desbloqueo Clave,2022-05-29,13:00:00,3,86,0.034884,1
8,Emergencias bancarias,2022-05-29,13:00:00,7,86,0.081395,1
9,NO IDENTIFICADO,2022-05-29,13:00:00,50,86,0.581395,1


In [44]:
df_00['topicName'], df_00['topicName_DOS'] = df_00['topicName'].str.split(',', 1).str

df_00

  df_00['topicName'], df_00['topicName_DOS'] = df_00['topicName'].str.split(',', 1).str


ValueError: not enough values to unpack (expected 2, got 1)

In [38]:
#df['duration_A']    =df['_source.interactionData.duration']
#df['duration_B']    =df['_source.conversationSequence.duration']
#df['topicName']     =df['_source.conversationSequence.topicName']
#df['date']          =df['_source.interactionData.dateTimeUTC']
#df['name']          =df['_source.clientData.firstName']   
#df['last']          =df['_source.clientData.lastName']
#df['clientId']      =df['_source.clientData.clientId']
#df['agentName']     =df['_source.interactionData.agentName']
#df['topic']         =df['_source.conversationSequence.topics_gcloud']
#df['interactionId'] =df['_source.interactionData.interactionId']

#df_00 = df.groupby(['interactionId']).agg({'topicName': 'max'}).reset_index()
#df1 = df1.drop_duplicates()  Esta es la propuesta de M Gomez

######################################################################################################





# crea df_01, separando los distintos topicos
#df_01 = pd.DataFrame(df_00["topicName"].str.split(',', expand=True).stack(), columns=["topicName"])

# reemplaza valores vacios por "NO IDENTIFICADO"
df_00["topicName"] = df_00["topicName"].replace({ "": "NO IDENTIFICADO", " ": "NO IDENTIFICADO" })

# crea df "primario" con valores que corresponden al grafo 02
df_grafo2 = pd.DataFrame({'topicName': ['Corte llamado', 'Red sucursal','Reclamación','Escalamiento de llamada','Reincidencia'], 'matched': True})

# agrupa y cuenta los topicos 
df_02=df_01.groupby(["topicName"]).size().reset_index(name='cantidad')

# agrega columna total contabilizando el total de interacciones obtenidas en el primer query
df_02['Total'] = df_02['cantidad'].sum()

# crea df haciendo match entre el total de topicos y aquellos que utiliza el grafo 02
df_03 = df_02.merge(df_grafo2, how='left', on='topicName')

# selecciona solo aquellos topicos del grafo 01
df_03 = df_03[pd.isnull(df_03['matched'])]

df_03 = df_03.merge(df_00, how='inner', on='topicName')

# crea df haciendo match entre el total de topicos y aquellos que utiliza el grafo 02
df_04 = df_02.merge(df_grafo2, how='inner', on='topicName')

# reduce cols a utilizar en los df
df_grafo01 = df_03[['topicName','cantidad','Total']]
df_grafo02 = df_04[['topicName','cantidad','Total']]

# calcula el % dividiendo cantidad de apariciones por el total de interacciones
df_grafo01['Final'] =((df_grafo01['cantidad']) / df_grafo01['Total'])
df_grafo02['Final'] =((df_grafo02['cantidad']) / df_grafo02['Total'])

df_drop = df_grafo01[df_grafo01["topicName"] == 'NO IDENTIFICADO'].index
df_drop_00 = df_grafo01.drop(df_drop)
df_grafo01 = df_drop_00
# col grafico determina a cual grafica se deben utilizar los datos
df_grafo01['Grafico']=1
df_grafo02['Grafico']=2

# fusiona y crea solo un df
result = pd.concat([df_grafo01, df_grafo02], axis=0)

# formatea salidas segun lo solcitado
result = result.set_index('topicName').T.to_dict('list')

result

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_grafo01['Final'] =((df_grafo01['cantidad']) / df_grafo01['Total'])
  result = result.set_index('topicName').T.to_dict('list')


{'Activación de productos': [5.0, 96.0, 0.052083333333333336, 1.0],
 'Cambio de sucursal': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Clave Digipass': [2.0, 96.0, 0.020833333333333332, 1.0],
 'Clave Internet': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Consulta compras TD y TC': [3.0, 96.0, 0.03125, 1.0],
 'Consulta ejecutivo de cuenta': [2.0, 96.0, 0.020833333333333332, 1.0],
 'Consulta estado de cuenta y facturación': [1.0,
  96.0,
  0.010416666666666666,
  1.0],
 'Desbloqueo Clave': [4.0, 96.0, 0.041666666666666664, 1.0],
 'Emergencias bancarias': [9.0, 96.0, 0.09375, 1.0],
 'Oportunidades de vinculación': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Problemas con plástico': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Problemas uso tarjetas': [1.0, 96.0, 0.010416666666666666, 1.0],
 'Transferencias': [3.0, 96.0, 0.03125, 1.0],
 'Corte llamado': [1.0, 96.0, 0.010416666666666666, 2.0],
 'Red sucursal': [2.0, 96.0, 0.020833333333333332, 2.0],
 'Reincidencia': [4.0, 96.0, 0.041666666666666664,

HASTA ACA

In [30]:
df['topic'] 

0       []
1       []
2       []
3       []
4       []
        ..
4995    []
4996    []
4997    []
4998    []
4999    []
Name: topic, Length: 5000, dtype: object

In [69]:
  # convertir fecha en formato "YYYY/MM/DD hh:mm:ss" a "YYYY/MM/DD"
df['interactionDataDateUTC'] = pd.to_datetime(df['_source.interactionData.dateTimeUTC']).dt.date

# convertir fecha en formato "YYYY/MM/DD hh:mm:ss" a "YYYY/MM/DD hh:00:00"
df['interactionDataDateHourUTC'] = pd.to_datetime(df['_source.interactionData.dateTimeUTC'].apply(str).str.slice(start = 0, stop = 13))

# Obtener nombre de columnas


#df['duration_A']=df['_source.interactionData.duration']
#df['duration_B']=df['_source.conversationSequence.duration']


lstColsNames2Norm = df.columns.values

    # Elimina _source. en el nombre de los campos
lstColsNames2Norm = [w.replace('_source.', '') for w in lstColsNames2Norm]
df.columns = lstColsNames2Norm


   # Crea lista con nombre de campos con metadata de la llamada
lstCallData = [x for x in lstColsNames2Norm if x.startswith('interactionData.')]
lstCallData = [w.replace('interactionData.', '') for w in lstCallData]

  # Crea lista con nombre de campos con metadata de cliente
lstClientData = [x for x in lstColsNames2Norm if x.startswith('clientData.')]
lstClientData = [w.replace('clientData.', '') for w in lstClientData]

     # Crea lista con nombre de campos con resultado de la llamada
lstResultData = [x for x in lstColsNames2Norm if x.startswith('resultData.')]
lstResultData = [w.replace('resultData.', '') for w in lstResultData]

     # Crea lista con nombre de campos con resultado de la llamada
lstConveData = [x for x in lstColsNames2Norm if x.startswith('conversationSequence.')]
lstConveData = [w.replace('conversationSequence.', '') for w in lstResultData]


# Crea lista con nombre de campos con resultado de la llamada
lstResultData = [x for x in lstColsNames2Norm if x.startswith('summary.')]
lstResultData = [re.sub("([.])\s*([a-zA-Z])", lambda p: p.group(0).upper(), w.replace('summary.', '')).replace('.', '') for w in lstResultData]
  
    
# Elimina clientData., callData., y summary.
lstColsNames2Norm = [w.replace('clientData.', '') for w in lstColsNames2Norm]
lstColsNames2Norm = [w.replace('callData.', '') for w in lstColsNames2Norm]
lstColsNames2Norm = [w.replace('interactionData.', '') for w in lstColsNames2Norm]
lstColsNames2Norm = [w.replace('resultData.', '') for w in lstColsNames2Norm]

lstColsNames2Norm = [re.sub("([.])\s*([a-zA-Z])", lambda p: p.group(0).upper(), w.replace('summary.', '')).replace('.', '') for w in lstColsNames2Norm] 

df.columns = lstColsNames2Norm


   # Crea lista con nombre de campos con resultado de la llamada
lstAnaData = [x for x in lstColsNames2Norm if x.startswith('analyticsData')]
lstAnaData = [w.replace('analyticsData', '') for w in lstResultData]


lstColsNames2Norm = [w.replace('analyticsData', '') for w in lstColsNames2Norm]
lstColsNames2Norm = [w.replace('conversationSequence', '') for w in lstColsNames2Norm]

df.columns = lstColsNames2Norm


#lstresultData = [x for x in columns_names if x.startswith('resultData')]
#lstresultData = [w.replace('resultData', '') for w in lstresultData]

#lstCallData = [x for x in columns_names if x.startswith('interactionData.')]
#lstCallData = [w.replace('interactionData.', '') for w in lstCallData]

In [8]:
#df_export=df["topicName"]
#df.info()
df_00.to_excel("C:\\Users\\jcalderon\\Desktop\\Trafico\\Python_2021\\ProyectoBCH\\dato_3" + ".xlsx", index = False)

In [33]:
# crea df_01, separando los distintos topicos
df_01 = pd.DataFrame(df["topicName"].str.split(',', expand=True).stack(), columns=["topicName"])

# reemplaza valores vacios por "NO IDENTIFICADO"
df_01["topicName"] = df_01["topicName"].replace({ "": "NO IDENTIFICADO", " ": "NO IDENTIFICADO" })

# crea df "primario" con valores que corresponden al grafo 02
df_grafo2 = pd.DataFrame({'topicName': ['Corte llamado', 'Red sucursal','Reclamación','Escalamiento de llamada','Reincidencia'], 'matched': True})

# agrupa y cuenta los topicos 
df_02=df_01.groupby(["topicName"]).size().reset_index(name='cantidad')

# agrega columna total contabilizando el total de interacciones obtenidas en el primer query
df_02['Total'] = df_02['cantidad'].sum()

# crea df haciendo match entre el total de topicos y aquellos que utiliza el grafo 02
df_03 = df_02.merge(df_grafo2, how='left', on='topicName')

# selecciona solo aquellos topicos del grafo 01
df_03 = df_03[pd.isnull(df_03['matched'])]

# crea df haciendo match entre el total de topicos y aquellos que utiliza el grafo 02
df_04 = df_02.merge(df_grafo2, how='inner', on='topicName')

# reduce cols a utilizar en los df
df_grafo01 = df_03[['topicName','cantidad','Total']]
df_grafo02 = df_04[['topicName','cantidad','Total']]

# calcula el % dividiendo cantidad de apariciones por el total de interacciones
df_grafo01['Final'] =((df_grafo01['cantidad']) / df_grafo01['Total'])
df_grafo02['Final'] =((df_grafo02['cantidad']) / df_grafo02['Total'])

# col grafico determina a cual grafica se deben utilizar los datos
df_grafo01['Grafico']=1
df_grafo02['Grafico']=2

# fusiona y crea solo un df
result = pd.concat([df_grafo01, df_grafo02], axis=0)

# formatea salidas segun lo solcitado
result = result.set_index('topicName').T.to_dict('list')

result

{'Activación de productos': [5.0, 5000.0, 0.001, 1.0],
 'Cambio de sucursal': [1.0, 5000.0, 0.0002, 1.0],
 'Clave Digipass': [2.0, 5000.0, 0.0004, 1.0],
 'Clave Internet': [1.0, 5000.0, 0.0002, 1.0],
 'Consulta compras TD y TC': [6.0, 5000.0, 0.0012, 1.0],
 'Consulta ejecutivo de cuenta': [3.0, 5000.0, 0.0006, 1.0],
 'Consulta estado de cuenta y facturación': [1.0, 5000.0, 0.0002, 1.0],
 'Desbloqueo Clave': [4.0, 5000.0, 0.0008, 1.0],
 'Emergencias bancarias': [18.0, 5000.0, 0.0036, 1.0],
 'NO IDENTIFICADO': [4943.0, 5000.0, 0.9886, 1.0],
 'Oportunidades de vinculación': [1.0, 5000.0, 0.0002, 1.0],
 'Problemas con plástico': [1.0, 5000.0, 0.0002, 1.0],
 'Problemas uso tarjetas': [3.0, 5000.0, 0.0006, 1.0],
 'Transferencias': [4.0, 5000.0, 0.0008, 1.0],
 'Corte llamado': [1.0, 5000.0, 0.0002, 2.0],
 'Red sucursal': [2.0, 5000.0, 0.0004, 2.0],
 'Reincidencia': [4.0, 5000.0, 0.0008, 2.0]}

In [61]:
# crea df_01, separando los distintos agentName
df_agent01 = pd.DataFrame(df["agentName"].str.split(',', expand=True).stack(), columns=["agentName"])

# reemplaza valores vacios por "NO IDENTIFICADO"
df_agent01["agentName"] = df_agent01["agentName"].replace({ "": "NO IDENTIFICADO", " ": "NO IDENTIFICADO" })

# agrupa y cuenta los topicos 
df_agent02=df_agent01.groupby(["agentName"]).size().reset_index(name='cantidad')

#####################################################################################################
df_agent01_group1 = df[['agentName','duration','Duration']]

df_agent01_group1

Unnamed: 0,agentName,duration,Duration
0,717cd7d4-9646-4dfe-a670-8426b6b25bb7,IVR_PROD_BANCA_PERSONA,2
1,717cd7d4-9646-4dfe-a670-8426b6b25bb7,IVR_PROD_BANCA_PERSONA,1
2,717cd7d4-9646-4dfe-a670-8426b6b25bb7,IVR_PROD_BANCA_PERSONA,1
3,717cd7d4-9646-4dfe-a670-8426b6b25bb7,IVR_PROD_BANCA_PERSONA,1
4,717cd7d4-9646-4dfe-a670-8426b6b25bb7,IVR_PROD_BANCA_PERSONA,1
...,...,...,...
4995,ab6f9ef1-84c8-48db-93e1-d4ff8363288d,IVR_PROD_BANCA_PERSONA,2
4996,ab6f9ef1-84c8-48db-93e1-d4ff8363288d,IVR_PROD_BANCA_PERSONA,2
4997,ab6f9ef1-84c8-48db-93e1-d4ff8363288d,IVR_PROD_BANCA_PERSONA,1
4998,ab6f9ef1-84c8-48db-93e1-d4ff8363288d,IVR_PROD_BANCA_PERSONA,2


# Primer formato
Estructura de agendas_Derivacion

> **NOMBRE COLUMNA**  <br />
call center <br />
campaña <br />
rut cliente <br />
Fecha de gestion <br />
Agendas <br />
Sucursal <br />
Hora de agenda <br />
Usuario agente  <br />


In [6]:
df1 = df[['_source.Datos_Cencosud.CALLCENTER'
          , '_source.Datos_Servicios.Nombre_Campana'
          , '_source.Datos_Demograficos.Rut_Cliente'
          , '_source.Datos_Cencosud.RUT'
          , '_source.Datos_Resultado.Fecha_Contacto'
          , '_source.Datos_Resultado.Agendas'
          ,'_source.Datos_Resultado.Espacio_Financiero'
          , '_source.Datos_Resultado.Hora_Agendada',
          '_source.Datos_Resultado.Usuario_Agente'
         ]]
df1.columns = ['Datos_Cencosud.CALLCENTER'
          , 'Datos_Servicios.Nombre_Campana'
          , 'Datos_Demograficos.Rut_Cliente'
          , 'Datos_Cencosud.RUT'
          , 'Datos_Resultado.Fecha_Contacto'
          , 'Datos_Resultado.Agendas'
          , 'Datos_Resultado.Espacio_Financiero'
          , 'Datos_Resultado.Hora_Agendada'
          , 'Datos_Resultado.Usuario_Agente']

# print(df1.head(n = 2))

# segundo formato
## Formato Archivo de Agendas Web
> **NOMBRE COLUMNA**  <br />
NRO  <br />
COD_CALLCENTER <br />
FEC_CONTACTO <br />
HORA_CONTACTO <br />
COD_CAMPAÑA <br />
CAMPAÑA <br />
CODIGO_EJECUTIVO <br />
NOMBRE_PUNTO <br />
COD_PUNTO <br />
RUT <br />
NOMBRE_CLIE <br />
DIRECCION <br />
FONOS_UNO <br />
FONOS_DOS <br />
~~ESTADO_CALL~~ <br />
~~OFERTA_VIG~~ <br />
MONTO_OFERTA <br />
HORA_VISITA <br />
FECHA_VISITA <br />
Glosa <br />

**Nota:** el texto tachado (~~tachado~~) esta pendiente

In [7]:
df2 = df[['_source.Datos_Resultado.Codigo_CallCenter'
          , '_source.Datos_Resultado.Fecha_Contacto'
          , '_source.Datos_Resultado.Hora_Contacto'
          , '_source.Datos_Servicios.Nombre_Campana'
          , '_source.Datos_Servicios.Nombre_Campana'
          , '_source.Datos_Resultado.Codigo_Ejecutivo'
          , '_source.Datos_Resultado.Espacio_Financiero'
          , '_source.Datos_Resultado.Codigo_Espacio_Financiero'
          , '_source.Datos_Demograficos.Rut_Cliente'
          , '_source.Datos_Cencosud.RUT'
          , '_source.Datos_Demograficos.Nombre_Cliente'
          , '_source.Datos_Demograficos.Nombre_Cliente2'
          , '_source.Datos_Demograficos.Apellido_Paterno'
          , '_source.Datos_Demograficos.Apellido_Materno'
          , '_source.Datos_Cencosud.DIRECCION_PAR'
          , '_source.Datos_Demograficos.Telefono_Cliente'
          , '_source.Datos_Llamada.Telefono_Cliente'
          , '_source.Datos_Cencosud.T_OFERTA_SAE'
          , '_source.Datos_Resultado.Fecha_Agendada'
          , '_source.Datos_Resultado.Hora_Agendada'
          , '_source.Datos_Resultado.Glosa'
         ]]

df2.columns = ['Datos_Resultado.Codigo_CallCenter'
               , 'Datos_Resultado.Fecha_Contacto'
               , 'Datos_Resultado.Hora_Contacto'
               , 'Datos_Servicios.Codigo_Campana'
               , 'Datos_Servicios.Nombre_Campana'
               , 'Datos_Resultado.Codigo_Ejecutivo'
               , 'Datos_Resultado.Espacio_Financiero'
               , 'Datos_Resultado.Codigo_Espacio_Financiero'
               , 'Datos_Demograficos.Rut_Cliente'
               , 'Datos_Cencosud.RUT'
               , 'Datos_Demograficos.Nombre_Cliente'
               , 'Datos_Demograficos.Nombre_Cliente2'
               , 'Datos_Demograficos.Apellido_Paterno'
               , 'Datos_Demograficos.Apellido_Materno'
               , 'Datos_Cencosud.DIRECCION_PAR'
               , 'Datos_Demograficos.Telefono_Cliente'
               , 'Datos_Llamada.Telefono_Cliente'
               , 'Datos_Cencosud.T_OFERTA_SAE'
               , 'Datos_Resultado.Fecha_Agendada'
               , 'Datos_Resultado.Hora_Agendada'
               , 'Datos_Resultado.Glosa'
         ]
# print(df2.head(n = 2))

# Pendientes
1. Incorporar funcion para pasar por parametro la fecha para un día - 1
2. Generar 3° formato ITF_EJEMPLO
4. Upload a SFTP de archivos.
5. Manejo de errores custom.

In [43]:
import paramiko
def WFOfunctionSftp(remote_server, ssh_user, ssh_password, local_filepath, remote_path, port_number=1022):
    sftp = None
    transport = None

    try:
        # Create transport instance and setup SFTP connection
        transport = paramiko.Transport((remote_server, port_number))
        transport.connect(None, ssh_user, ssh_password)
        sftp = paramiko.SFTPClient.from_transport(transport)

        # Upload file to remote destination
        sftp.put(local_filepath, remote_path)
    except Exception as e:
        print(f'Failed to transfer files: {e}')
        if sftp:
            sftp.close()
        if transport:
            transport.close()




# sftp_upload_file ()

In [44]:
WFOfunctionSftp("sftp.a365.com.pe", "usr_entel_reports", "eR231fBt2g3ir34fgt$QW", "D:/nifi-app.log", "/Datos/nifi-app.log")

In [18]:

#Compara archivos generados

import filecmp, shutil, os

#obtiene la información de estado 
tup_est1 = filecmp._sig(os.stat("D:/Archivo_Disco_D.txt"))
tup_est2 = filecmp._sig(os.stat("C:/Users/jcalderon/Documents/Archivo_Disco_C.txt"))

#Imprime la información de estado 
print("Archivo_Disco_D,txt:", tup_est1)
print("Archivo_Disco_C,txt:", tup_est2)

# A continuación, se realizan dos comparaciones superficiales
# y otras dos examinando el contenido; y se muestra el resultado

print(filecmp.cmp("D:/Archivo_Disco_D.txt", "C:/Users/jcalderon/Documents/Archivo_Disco_C.txt", shallow=True))  # False
print(filecmp.cmp("D:/Archivo_Disco_D.txt", "C:/Users/jcalderon/Documents/Archivo_Disco_C.txt", shallow=False))  # False



Archivo_Disco_D,txt: (32768, 6, 1647950939.5051517)
Archivo_Disco_C,txt: (32768, 12, 1647951830.7059765)
False
False


In [56]:
import paramiko,filecmp, shutil, os
def WFOfunctionComparativa(remote_server, ssh_user, ssh_password, local_filepath, remote_path, port_number=1022):
    sftp = None
    transport = None

    try:
        # Create transport instance and setup SFTP connection
        transport = paramiko.Transport((remote_server, port_number))
        transport.connect(None, ssh_user, ssh_password)
        sftp = paramiko.SFTPClient.from_transport(transport)
        
        tup_est1 = filecmp._sig(os.stat(remote_path))
        #tup_est1 = str(sftp) + tup_est0
        tup_est2 = filecmp._sig(os.stat(local_filepath))
        tup_est3 = sftp + tup_est1
        
        #Imprime la información de estado 
        #print("Archivo Remoto:", tup_est1)
        #print("Archivo Local:", tup_est3)

        # A continuación, se realizan dos comparaciones superficiales
        # y otras dos examinando el contenido; y se muestra el resultado

       # print(filecmp.cmp(remote_path, local_filepath, shallow=True))  # False
       # print(filecmp.cmp(remote_path, local_filepath, shallow=False))  # Fals

        # Upload file to remote destination
        var = sftp.open(tup_est1)
        print(var)
    except Exception as e:
        print(f'Fallo la comparativa: {e}')
        if sftp:
            sftp.close()
        if transport:
            transport.close()


In [66]:
WFOfunctionComparativa("sftp.a365.com.pe", "usr_entel_reports", "eR231fBt2g3ir34fgt$QW", r"D:/Archivo_Disco_D.txt", r"/Datos/Archivo_Disco_C.txt")

Fallo la comparativa: [WinError 123] El nombre de archivo, el nombre de directorio o la sintaxis de la etiqueta del volumen no son correctos: '<paramiko.sftp_client.SFTPClient object at 0x000001A6B1522C10>'


In [65]:
import paramiko
def WFOfunctionComparativa(remote_server, ssh_user, ssh_password, local_filepath, remote_path, port_number=1022):
    sftp = None
    transport = None

    try:
        # Create transport instance and setup SFTP connection
        transport = paramiko.Transport((remote_server, port_number))
        transport.connect(None, ssh_user, ssh_password)
        sftp = paramiko.SFTPClient.from_transport(transport)

        # Upload file to remote destination
        filecmp.cmp(local_filepath, remote_path, shallow=True)
        sftp.put(local_filepath, remote_path)
    except Exception as e:
        print(f'Failed to transfer files: {e}')
        if sftp:
            sftp.close()
        if transport:
            transport.close()

In [88]:
import paramiko

# Abrir el transporte

host = "sftp.a365.com.pe"
port = 1022
transport = paramiko.Transport((host, port))

# Autenticarse en el servidor
# SOLO COMO DEMO, NUNCA SE DEBEN PONER CLAVES EN EL CÓDIGO

username = "usr_entel_reports"
password = "eR231fBt2g3ir34fgt$QW"
transport.connect(username = username, password = password)

# Creación del canal sftp

sftp = paramiko.SFTPClient.from_transport(transport)

# Recorrer los ficheros existentes en el home del usuario
for name in sftp.listdir("/Datos/"):
    if name.endswith(".*.csv"):
        # Si termina en .c, lo leemos
        with sftp.file(name) as f:
            data = f.read()
            # Mostramos cuántos bytes hemos leido
            print(f"El fichero {name} tiene {len(data)} bytes")

# Cerrar el canal y después el transporte
sftp.close()
transport.close()

In [10]:
from office365.runtime.auth.authentication_context import AuthenticationContext
from office365.sharepoint.client_context import ClientContext
import os

baseurl = 'https://grupoentel.sharepoint.com'
basesite = 'https://grupoentel.sharepoint.com/sites/Reporteria_ECommerce' # every share point has a home.
siteurl = baseurl + basesite 

localpath =r"C:\Users\jcalderon\Desktop\VPN_2020.txt"
remotepath ="/Callcenter/Outbound/Resultantes/202206/VPN_2020.txt" # existing folder path under sharepoint site.

ctx_auth = AuthenticationContext("https://grupoentel.sharepoint.com")
ctx_auth.acquire_token_for_user('jcalderon@e-contact.cl', 'k52NbZ_RzmShEJ')
ctx = ClientContext(siteurl, ctx_auth) # make sure you auth to the siteurl.

with open(localpath, 'rb') as content_file:
    file_content = content_file.read()

dir, name = os.path.split(remotepath)
file = ctx.web.get_folder_by_server_relative_url(dir).upload_file(name, file_content).execute_query()

ConnectionError: HTTPSConnectionPool(host='grupoentel.sharepoint.comhttps', port=443): Max retries exceeded with url: //grupoentel.sharepoint.com/sites/Reporteria_ECommerce/_api/contextInfo (Caused by NewConnectionError('<urllib3.connection.HTTPSConnection object at 0x000001E414B117C0>: Failed to establish a new connection: [Errno 11001] getaddrinfo failed'))

In [16]:
from shareplum import Site
from requests_ntlm import HttpNtlmAuth

cred = HttpNtlmAuth('jcalderon@e-contact.cl', 'k52NbZ_RzmShEJ')
site = Site('https://grupoentel.sharepoint.com/sites/Reporteria_ECommerce', auth=cred)
sp_list = site.List('list name')

list_data = sp_list.GetListItems()

ShareplumRequestError: Shareplum HTTP Post Failed : 403 Client Error: Forbidden for url: https://grupoentel.sharepoint.com/sites/Reporteria_ECommerce/_vti_bin/lists.asmx