# 0. Variables

In [1]:
from correos_automaticos.classes.sharepoint_manager import Sharepoint
from dotenv import load_dotenv
import os
import re
import pandas as pd
from icecream import ic
import urllib.parse

#script_dir = os.path.dirname(__file__) # for .py files
script_dir = os.getcwd()  # for jupyter

# Cargar variables de entorno
load_dotenv()

# Variables globales
DOWNLOAD_PATH = os.path.join(script_dir, "..", "descargas")  # Carpeta de descargas
UPLOAD_PATH = os.path.join(script_dir, "..", "descargas", "clasificados")  # Carpeta desde donde se subirán archivos
TEMPLATES_PATH = os.path.join(script_dir, "..", "email_templates") # Carpeta desde la que se obtendrán los email templates

# Otras carpetas
#custom_folder_path = f'{SHAREPOINT_USERNAME}/Documents'
excel_name = "Registro de participación DNPE 1.xlsx"

# Iniciar sesión
session = Sharepoint()
session._auth()

Autenticación exitosa. Conexión establecida con SharePoint para https://ceplangobpe-my.sharepoint.com/personal/msuarez_ceplan_gob_pe


# 1. Crear excel con los datos de la encuesta

## 1.1. Obtener adjuntos (metadata)

In [None]:
sharepoint_metadata = session.list_files()
ic(sharepoint_metadata[:2])

## 1.2. Obtener df con los resultados de la encuesta

In [4]:
# Para descargar los archivos
#session.list_files(custom_folder_path=custom_folder_path, personal=True)
#session.download_file(excel_name, custom_folder_path=custom_folder_path, personal = True)

# open pandas
excel_path = os.path.join(DOWNLOAD_PATH, "..", "docs", excel_name)
df = pd.read_excel(excel_path)
df.head()


Unnamed: 0,Id,Hora de inicio,Hora de finalización,Correo electrónico,Nombre,Seleccione la actividad operativa o tema relacionado,Especialista de la DNPE a cargo,Fecha de ejecución de la actividad,Fecha de fin de la actividad (si aplica),Modalidad,...,Número de espacios de acompañamiento y/o revisión durante el mes,Dirección de la persona de contacto/coordinación1,Nombre de la persona de contacto/coordinación1,N° de informe emitido mediante SGD1,Dificultades presentadas1,Oportunidades de mejora1,Información adicional de la asistencia técnica / capacitación y/o difusión y/o exposición1,Adjuntar programa,Adjuntar ppts,Adjuntar otras evidencias
0,4,2024-06-24 15:44:15,2024-06-24 15:52:35,adelaguila@ceplan.gob.pe,Alberto del Aguila Alfaro,Instrumentos técnicos en prospectiva,Enrique Del Águila,2024-06-21,NaT,Presencial,...,,,,,,,,https://ceplangobpe-my.sharepoint.com/personal...,,
1,5,2024-06-24 23:27:22,2024-06-25 00:02:17,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-03-21,NaT,Virtual,...,3.0,DNCP,Isabel Rocio Uriona Diaz,,Los comentarios señalados en las primeras revi...,Trabajar con documento en línea y respondiendo...,"El 29 de marzo de 2024, se dio VB al informe t...",https://ceplangobpe-my.sharepoint.com/personal...,,
2,6,2024-06-25 00:02:35,2024-06-25 00:11:11,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-03-25,NaT,Virtual,...,1.0,DNCP,Roy Gerson Muñoz Gomez,,Disponibilidad de tiempo limitado/insuficiente;,Se recomienda que la revisión del Proyecto de ...,Se dejo comentario al documento que contiene e...,https://ceplangobpe-my.sharepoint.com/personal...,,
3,7,2024-06-25 00:11:17,2024-06-25 00:19:25,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-04-09,NaT,Presencial,...,1.0,DNCP,Litz Tello Flores,,Disponibilidad de tiempo limitado/insuficiente;,,Comentarios generales a la propuesta de cambio...,https://ceplangobpe-my.sharepoint.com/personal...,,
4,8,2024-06-25 00:27:38,2024-06-25 00:29:00,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-04-24,NaT,Presencial,...,,,,,,,,https://ceplangobpe-my.sharepoint.com/personal...,,


# 1.3. Funciones para limpiar el df

In [8]:
df_encuesta = df
sharepoint_metadata_prueba = sharepoint_metadata

def normalize_and_split_links(df, column):
    df = df.copy()
    # Dividimos los enlaces múltiples en filas individuales
    df = df.assign(**{column: df[column].str.split('; ')}).explode(column)
    # Eliminamos espacios al inicio/final de cada enlace
    df[column] = df[column].str.strip()
    return df


def limpiar_url(url):
    # Decodificar la URL
    url_decodificada = urllib.parse.unquote(url)
    
    # Si el enlace contiene '_layouts/15/Doc.aspx', intentamos reconstruirlo
    if "_layouts/15/Doc.aspx" in url_decodificada:
        # Extraemos el archivo (file=) y reconstruimos el enlace
        file_match = re.search(r'file=([^&]+)', url_decodificada)
        if file_match:
            archivo = file_match.group(1)
            base_url = "https://ceplangobpe-my.sharepoint.com/personal/msuarez_ceplan_gob_pe/Documents/Aplicaciones/Microsoft Forms/Registro de Asistencia Técnica Participación de la/Question/"
            return base_url + archivo
    
    # Enlaces normales: eliminamos parámetros adicionales
    url_limpia = re.sub(r'[?&].*', '', url_decodificada)
    return url_limpia


def combinar_columnas_duplicadas(df, column_pairs):
    """Combina pares de columnas duplicadas en una sola."""
    for col1, col2 in column_pairs:
        df[col1] = df[col1].combine_first(df[col2])
        df.drop(columns=col2, inplace=True)
    return df


# Definir columnas duplicadas para combinar
column_pairs = [
    ('Nivel de Gobierno', 'Nivel de Gobierno1'),
    ('Poder del Estado', 'Poder del Estado1'),
    ('Sector', 'Sector1'),
    ('Región', 'Región1'),
    ('Dirección de la persona de contacto/coordinación', 'Dirección de la persona de contacto/coordinación1'),
    ('Nombre de la persona de contacto/coordinación', 'Nombre de la persona de contacto/coordinación1'),
    ('Dificultades presentadas', 'Dificultades presentadas1'),
    ('Oportunidades de mejora', 'Oportunidades de mejora1'),
    ('Información adicional de la asistencia técnica / capacitación y/o difusión y/o exposición', 'Información adicional de la asistencia técnica / capacitación y/o difusión y/o exposición1'),
    ('N° de informe emitido mediante SGD', 'N° de informe emitido mediante SGD1')
]


# Aplicamos funciones
df_encuesta = normalize_and_split_links(df_encuesta, 'Adjuntar programa')
df_encuesta['Adjuntar programa'] = df_encuesta['Adjuntar programa'].apply(limpiar_url)
df_encuesta = combinar_columnas_duplicadas(df_encuesta, column_pairs)

# Limpieza final
df_encuesta = df_encuesta.reset_index(drop=True)
df_encuesta.index += 1
df_encuesta.head()


Unnamed: 0,Id,Hora de inicio,Hora de finalización,Correo electrónico,Nombre,Seleccione la actividad operativa o tema relacionado,Especialista de la DNPE a cargo,Fecha de ejecución de la actividad,Fecha de fin de la actividad (si aplica),Modalidad,...,Oportunidades de mejora,Información adicional de la asistencia técnica / capacitación y/o difusión y/o exposición,Nombre de la política / plan,Entidad (OCA o institución estatal),Etapa/fase de acompañamiento,Estado del proceso,Número de espacios de acompañamiento y/o revisión durante el mes,Adjuntar programa,Adjuntar ppts,Adjuntar otras evidencias
1,4,2024-06-24 15:44:15,2024-06-24 15:52:35,adelaguila@ceplan.gob.pe,Alberto del Aguila Alfaro,Instrumentos técnicos en prospectiva,Enrique Del Águila,2024-06-21,NaT,Presencial,...,,,,,,,,https://ceplangobpe-my.sharepoint.com/personal...,,
2,4,2024-06-24 15:44:15,2024-06-24 15:52:35,adelaguila@ceplan.gob.pe,Alberto del Aguila Alfaro,Instrumentos técnicos en prospectiva,Enrique Del Águila,2024-06-21,NaT,Presencial,...,,,,,,,,https://ceplangobpe-my.sharepoint.com/personal...,,
3,5,2024-06-24 23:27:22,2024-06-25 00:02:17,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-03-21,NaT,Virtual,...,Trabajar con documento en línea y respondiendo...,"El 29 de marzo de 2024, se dio VB al informe t...",Plan Estratégico Sectorial Multianual del Sect...,,Fase 2,Visto bueno a informe técnico,3.0,https://ceplangobpe-my.sharepoint.com/personal...,,
4,5,2024-06-24 23:27:22,2024-06-25 00:02:17,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-03-21,NaT,Virtual,...,Trabajar con documento en línea y respondiendo...,"El 29 de marzo de 2024, se dio VB al informe t...",Plan Estratégico Sectorial Multianual del Sect...,,Fase 2,Visto bueno a informe técnico,3.0,https://ceplangobpe-my.sharepoint.com/personal...,,
5,6,2024-06-25 00:02:35,2024-06-25 00:11:11,mestrada@ceplan.gob.pe,Milagros Estrada Ramos,Asistencia técnica (Políticas y planes),Milagros Estrada,2024-03-25,NaT,Virtual,...,Se recomienda que la revisión del Proyecto de ...,Se dejo comentario al documento que contiene e...,Estrategia Nacional ante el Cambio Climático a...,,Proyecto de la Política Estrategia Nacional an...,Revisado con comentarios,1.0,https://ceplangobpe-my.sharepoint.com/personal...,,


## 1.4. Funciones para limpiar los adjuntos (metadata)

In [11]:
sharepoint_metadata_df = pd.DataFrame(sharepoint_metadata_prueba)
df_decodificado = df_encuesta

# Decodificamos las URLs en 'Adjuntar programa' para hacerlas legibles
df_decodificado['Adjuntar programa'] = df_encuesta['Adjuntar programa'].apply(urllib.parse.unquote)

# Preparamos los enlaces completos del diccionario para compararlos
base_url = "https://ceplangobpe-my.sharepoint.com"
sharepoint_metadata_df['full_url'] = base_url + sharepoint_metadata_df['server_relative_url']
# Seleccionarmos columnas necesarias
sharepoint_metadata_prueba_reducido = sharepoint_metadata_df[['full_url', 'name', 'time_created']]

# Mostramos las URLs para comparar (el orden no es el mismo)
print("URL SharePoint (Codificada):", sharepoint_metadata_prueba_reducido.loc[4, "full_url"])
print("URL Encuesta (Decodificada):", df_decodificado.loc[4, "Adjuntar programa"])

URL SharePoint (Codificada): https://ceplangobpe-my.sharepoint.com/personal/msuarez_ceplan_gob_pe/Documents/Aplicaciones/Microsoft Forms/Registro de Asistencia Técnica Participación de la/Question/Reunión sobre convenio de Contraloría y Cepla_Milagros Estrada Ram.pdf
URL Encuesta (Decodificada): https://ceplangobpe-my.sharepoint.com/personal/msuarez_ceplan_gob_pe/Documents/Aplicaciones/Microsoft Forms/Registro de Asistencia Técnica Participación de la/Question/Correo sobre revisión de la propuesta de camb_Milagros Estrada Ram.pdf


## 1.5. Merge con la base de datos final

In [None]:
# Hacemos la unión por el enlace completo
df_merged = pd.merge(df_decodificado, sharepoint_metadata_prueba_reducido, how='left', left_on='Adjuntar programa', right_on='full_url')
df_merged.head(6)

## 1.6. Guardar como excel

In [None]:
# Save
excel_path = os.path.join(DOWNLOAD_PATH, "..", "docs", "Registro de Participación con adjuntos_v4.xlsx")
#df_merged.to_excel(excel_path, index=False)

# Load
df_merged = pd.read_excel(excel_path)
df_merged.head()