In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [2]:
import pandas as pd
from datetime import datetime
import gspread as gs
import numpy as np
from google.colab import auth
from google.auth import default

# Revisión CSV
falta implementar

- tomar fecha de inicio y fecha de fin
- que hacer con las que tienen salida y no entrada

me gustaría implementar
- hojas auxiliares con campos calculados y tablas auxiliares
  - ver que hojas se podrían calcular
- en otra tabla se pueden mapear
    - "ORIGEN" y "ORIGENDOCID"
    - ESTADO y IDESTADO
    - DOCUMENTOSITUCION y DOCUMENTOSITUACIONID
    - USUARIOREGISTRO y USUARIOREGISTROID creo que son lo mismo
    - USUARIOREGISTROID, USUARIOREGISTROCUENTA y USUARIOREGISTRONOMBRE
    - DOCUMENTOESPECIALIDADID y DOCUMENTOESPECIALIDAD
    - DOCUMENTOOCUPACIONID y DOCUMENTOOCUPACION

arreglar
-

# Carga de datos

In [3]:
#cargamos las credenciales, este código es del ejemplo de colab
auth.authenticate_user()
credenciales, _ = default()
gc = gs.authorize(credenciales)

In [4]:
# importamos desde drive
file_path = '/content/drive/MyDrive/Práctica Profesional/datasets/VW_SGR_REVISIONDOCUMENTOS_202409180843.csv'
df = pd.read_csv(file_path)
# almacenamos la fecha del .csv
fecha = file_path.split("_")[-1].split(".")[0]

In [5]:
# donde se va a guardar el archivo de salida
#el id carpeta destino es necesario para crear el archivo en caso de ser necesario

file_path_destino = "revsion_csv"
id_carpeta_destino = "1oMTHv24S5rNlxhwignHef2_9HlrmpTwh"


# Fecha de inicio y fin de la revisión

fecha_inicial = datetime(2024, 8, 31)
fecha_final = datetime(2024, 9, 30)


# Transformación

In [6]:
#eliminamos las columnas no relevantes para el análisis

columnas_no_tenidas_en_cuenta = [
 'FECHA_REGISTRO',
 'DOCO_EMPR_RUT',
 'DOCO_CONT_ID',
 'DOCUMENTOSITUCION',
 'DOCUMENTOESPECIALIDAD',
 'FECHA_INICIO_DOCUMENTO',
 'FECHA_FIN_DOCUMENTO',
 'DOCUMENTOVIGENCIA',
 'DOCO_TIPO_VALIDACION',
 'DOCO_CONT_ID'
]

df.drop(columnas_no_tenidas_en_cuenta, axis=1, inplace=True)


In [7]:
df.shape

(49432, 19)

In [8]:
# Creamos la columna tipo, en base a la columna estado.
# Si el estado es "Enviado", el tipo es de "Entrada"
# Si el estado es "Rechazado" o "Validado", el tipo es de "Salida"

df["TIPO"] = df["ESTADO"].apply(lambda x: "Entrada" if x == "Enviado" else "Salida")

In [9]:
# Convertimos la columna FECHA_REGISTRO_HH, en formato aaaa-mm-dd hh:mm:ss.mmm a datetime
df["FECHA_REGISTRO_HH"] = pd.to_datetime(df["FECHA_REGISTRO_HH"], format="%Y-%m-%d %H:%M:%S.%f")


In [10]:
# Obtener el mes actual y los tres meses anteriores
hoy = datetime.now()
mes_actual = hoy.month
año_actual = hoy.year

# Crear una lista de los tres meses anteriores y el mes actual
meses_validos = [(mes_actual - i - 1) % 12 + 1 for i in range(4)]
año_valido = año_actual if mes_actual in meses_validos else año_actual - 1

# Función para obtener la etiqueta del mes
def etiqueta_mes(fecha):
    mes = fecha.month
    año = fecha.year

    if mes == mes_actual and año == año_actual:
        return f"{hoy.strftime('%B')} {año_actual}"

    if mes in meses_validos:
        return f"{fecha.strftime('%B')} {año}"

    return 'Fuera de rango'

# Aplicar la función al DataFrame
df['etiqueta_mes'] = df['FECHA_REGISTRO_HH'].apply(etiqueta_mes)

In [11]:
#creamos dos dataframes, uno con los documentos de entrada y otro con los de salida
df_entrada = df[df["TIPO"] == "Entrada"]
df_salida = df[df["TIPO"] == "Salida"]

In [12]:
columnas_eliminadas_salida = ['ORIGENDOCID', 'ORIGEN', 'DOCO_TIDO_ID',
       'ID_ESTADO', 'DOCUMENTOSITUACIONID', 'USUARIOREGISTRO',
       'USUARIOREGISTROCUENTA', 'USUARIOREGISTRONOMBRE',
       'FECHA_INGRESO_DOCUMENTO', 'MOTIVO_RECHAZO', 'DOCUMENTOESPECIALIDADID',
       'DOCUMENTOOCUPACIONID', 'DOCUMENTOOCUPACION',
       'DOCUMENTOCERTOCUPACIONID', 'DOCUMENTOCERTOCUPACION', 'TIPO']


In [13]:
# del dataframe de salidas, nos interesa conservar las columnas
# FECHA_REGISTRO_HH, ESTADO, USUARIOREGISTROID, pero renombramos a
# FECHA_SALIDA, ESTADO_SALIDA, USUARIOID_SALIDA  para luego poder hacer el merge
df_salida = df_salida.rename(columns={"FECHA_REGISTRO_HH": "FECHA_SALIDA", "ESTADO": "ESTADO_SALIDA", "USUARIOREGISTROID": "USUARIOID_SALIDA", "etiqueta_mes":"etiqueta_mes_salida"})
df_salida.drop(
       columnas_eliminadas_salida
       , axis=1, inplace=True)


In [14]:
# hacemos el merge, en base al doco_id, lo hacemos de tipo left para conservar los documentos de entrada
df_merged = pd.merge(df_entrada, df_salida, on="DOCO_ID", how="left")


In [15]:
#Agregamos una columna con la diferencia de tiempo entre entrada y salida de los documentos en horas
# en caso de no haber fecha salida, la columna se rrrellena con NaN
# en caso de no haber fecha de registro, la columna se rellena con NaN

df_merged["DIFERENCIA_HORAS"] = df_merged.apply(
    lambda row: (row["FECHA_SALIDA"] - row["FECHA_REGISTRO_HH"]).total_seconds() / 3600
    if pd.notnull(row["FECHA_SALIDA"]) and pd.notnull(row["FECHA_REGISTRO_HH"]) else np.nan,
    axis=1
)

In [16]:
# Definimos el umbral de 48 horas
umbral = 48

# Agregamos un campo de desviación respecto al umbral
df_merged["DESVIACION"] = df_merged["DIFERENCIA_HORAS"] - umbral

# Determinamos el estado, teniendo en cuenta la desviación y los documentos
# sin salida

df_merged['estado'] = df_merged.apply(
    lambda row: 'Sin gestionar' if pd.isna(row['FECHA_SALIDA'])
    else 'Fuera de plazo' if row['DESVIACION'] > 0
    else 'En plazo' if row['DESVIACION'] < 0
    else 'Igual',
    axis=1
)


In [17]:
# Agregamos columna de IA, los documentos gestionados por IA son los que tienen usuario_salida 6, que corresponde a SAT_INTEGRACIOÓN
df_merged['IA'] = df_merged['USUARIOID_SALIDA'] == 6

In [None]:
# filtramos el dataframe en por fecha de salida

#df_merged = df_merged[(df_merged['FECHA_SALIDA'] >= fecha_inicial) & (df_merged['FECHA_SALIDA'] <= fecha_final)]

# Hoja Colaboradores
 Preaparamos una segunda hoja para el análisis rendimiento de cada colaborador


In [26]:
nombre_colaborador = {
    4937: 'Maria Paula Loiacono',
    4730: 'Ezequiel Lebon',
    4724: 'Lucas Gomez',
    4722: 'Paula Ortega',
    210: 'UAC FORMIN',
    4721: 'Edgardo Peña Cuevas',
    4720: 'Paula Trombino',
    4727: 'Isabel Atencia',
    4728: 'Franco Garcia',
    4726: 'Carolina Cortez',
    4942: 'María Eugenia Amarfil',
    4939: 'Pamela Pringles',
    4941: 'Santiago Vargas',
    4940: 'Mariel Castro',
    6: 'SAT_INTEGRACION'
}

# Generar la tabla resumen por usuario_salidaid
df_colaborador = df_merged.groupby('USUARIOID_SALIDA').agg(
    cantidad_documentos=('DOCO_ID', 'count'),
    cantidad_validados=('ESTADO_SALIDA', lambda x: (x == 'Validado').sum()),
    cantidad_rechazados=('ESTADO_SALIDA', lambda x: (x == 'Rechazado').sum()),
    cantidad_fuera_plazo = ('estado', lambda x: (x == 'Fuera de plazo').sum()),
).reset_index()

# Agregar el nombre del colaborador
df_colaborador['nombre_colaborador'] = df_colaborador['USUARIOID_SALIDA'].map(nombre_colaborador)

print(df_colaborador)

    USUARIOID_SALIDA  cantidad_documentos  cantidad_validados  \
0                6.0                 2910                2910   
1              210.0                 1326                1257   
2             2210.0                    6                   6   
3             2226.0                    9                   7   
4             3309.0                   21                  16   
5             3999.0                   25                  24   
6             4720.0                  119                 101   
7             4724.0                 1792                1601   
8             4726.0                 1763                1295   
9             4728.0                   39                  39   
10            4730.0                 1490                1332   
11            4937.0                 5271                5197   
12            4939.0                  782                 666   
13            4940.0                 2776                2523   
14            4941.0     

In [27]:


# convertimos los timestamps a string, teniendo en cuenta que pueden haber NaTs

df_colaborador = df_colaborador.map(
    lambda x: x.strftime("%Y-%m-%d %H:%M:%S")
    if isinstance(x, (pd.Timestamp, datetime)) and not pd.isnull(x) else x
)

# reemplazamos NaNs con espccios vacíos
df_colaborador= df_colaborador.map(lambda x: '' if pd.isnull(x) else x)


In [28]:
#exportamos los datos como segunda página del Sheet
try:
  sh = gc.open(file_path_destino)
except gs.SpreadsheetNotFound:
  sh = gc.create(file_path_destino, folder_id=id_carpeta_destino)

nombre_hoja = 'Colaboradores'
try:
  worksheet = sh.worksheet(nombre_hoja)
except gs.WorksheetNotFound:
  sh.add_worksheet(nombre_hoja, rows=1000, cols=80)
  worksheet = sh.worksheet(nombre_hoja)
worksheet.update([df_colaborador.columns.values.tolist()] + df_colaborador.values.tolist())

{'spreadsheetId': '1K6qyS0JNMn2MxryDT9orMpEIbRFufDQETVSNHDn9Q7E',
 'updatedRange': 'Colaboradores!A1:F17',
 'updatedRows': 17,
 'updatedColumns': 6,
 'updatedCells': 102}

# Exportación a Google drive

In [None]:
#Preparamos la exprotación a sheets
#  es necesario convertir los timestamps a string, en formato yyyy-mm-dd hh:mm:ss
# convertimos los timestamps a string, teniendo en cuenta que pueden haber NaTs

df_merged = df_merged.map(
    lambda x: x.strftime("%Y-%m-%d %H:%M:%S")
    if isinstance(x, (pd.Timestamp, datetime)) and not pd.isnull(x) else x
)

# reemplazamos NaNs con espccios vacíos
df_merged= df_merged.map(lambda x: '' if pd.isnull(x) else x)



In [None]:
# exportamos el dataframe a sheets
try:
  sh = gc.open(file_path_destino)
except gs.SpreadsheetNotFound:
  sh = gc.create(file_path_destino, folder_id=id_carpeta_destino)

worksheet = sh.sheet1
worksheet.update([df_merged.columns.values.tolist()] + df_merged.values.tolist())


{'spreadsheetId': '1K6qyS0JNMn2MxryDT9orMpEIbRFufDQETVSNHDn9Q7E',
 'updatedRange': "'Hoja 1'!A1:AC24401",
 'updatedRows': 24401,
 'updatedColumns': 29,
 'updatedCells': 707629}

In [None]:
df_merged.shape

(24400, 29)