Código realizado para Google Colab.

Link Colab: https://colab.research.google.com/drive/1MQv3ETKfViynulCQoF0CVFp4vj4V4SDE?usp=sharing

# Descripción del código
El código compara los documentos de un mismo proyecto en 2 periodos distintos y los cronogramas de los proyectos en 2 periodos distintos.

El propósito es obtener los nuevos documentos subidos para cada proyecto y generar un reporte en excel de los nuevos documentos de un proyecto APP manejado por PROINVERSIÓN.

## Datos
Se utiliza datos obtenidos mediante WebScraping de la web del [portafolio de proyectos APPs de Proinversión](https://www.investinperu.pe/es/app/portafolio-de-proyectos-de-proinversion).

# Importar paquetes y funciones

In [None]:
import pandas as pd
import numpy as np
import random # para pruebas

In [None]:
# Funcion: output diferentes elementos en las listas
def diff(list1, list2):
    c = set(list1).union(set(list2))  # or c = set(list1) | set(list2)
    d = set(list1).intersection(set(list2))  # or d = set(list1) & set(list2)
    return list(c - d)

# Importar datos

In [None]:
### Cronograma NUEVO
# opening the file in read mode
my_file = open("cronograma_new.txt", "r")
# reading the file
qwe = my_file.read()
# replacing end splitting the text 
# when newline ('\n') is seen.
cronograma_new = qwe.split(";;")
print(cronograma_new)
my_file.close()

['{"Convocatoria":{"0":"1.Convocatoria y publicaci\\u00f3n de Bases","1":"2.Bases","2":"2.1.Consultas a las Bases","3":"2.2.Absoluci\\u00f3n a consultas a las Bases","4":"2.3.Publicaci\\u00f3n de las Bases Consolidadas","5":"3.Contratos","6":"3.1.Versi\\u00f3n Inicial de los Contratos","7":"3.2.Sugerencias a la Versi\\u00f3n Inicial de los Contratos","8":"3.3. Segunda Versi\\u00f3n de los Contratos","9":"3.4. Sugerencias a la Segunda Versi\\u00f3n de los Contratos","10":"3.5.Entrega de la Versi\\u00f3n Final de los Contratos","11":"4.Calificaci\\u00f3n","12":"4.1.Pago del Derecho de Participaci\\u00f3n","13":"4.2.Presentaci\\u00f3n de solicitud de Calificaci\\u00f3n","14":"4.3.Subsanaci\\u00f3n de observaciones","15":"4.4.Anuncio de Calificaci\\u00f3n","16":"4.5.Formaci\\u00f3n o modificaci\\u00f3n de Consorcios","17":"5.Presentaci\\u00f3n de Ofertas y Buena Pro","18":"5.1.Presentaci\\u00f3n de los sobres Nro. 1 y Nro. 2 y Buena Pro (*)","19":"5.2.Subsanaci\\u00f3n de Observaciones al 

In [None]:
### Cronograma ANTIGUO
# opening the file in read mode
my_file = open("cronograma_old.txt", "r")
# reading the file
qwe = my_file.read()
# replacing end splitting the text 
# when newline ('\n') is seen.
cronograma_old = qwe.split(";;")
print(cronograma_old)
my_file.close()

['{"Convocatoria":{"0":"1.Convocatoria y publicaci\\u00f3n de Bases","1":"2.Bases","2":"2.1.Consultas a las Bases","3":"2.2.Absoluci\\u00f3n a consultas a las Bases","4":"2.3.Publicaci\\u00f3n de las Bases Consolidadas","5":"3.Contratos","6":"3.1.Versi\\u00f3n Inicial de los Contratos","7":"3.2.Sugerencias a la Versi\\u00f3n Inicial de los Contratos","8":"3.3. Segunda Versi\\u00f3n de los Contratos","9":"3.4. Sugerencias a la Segunda Versi\\u00f3n de los Contratos","10":"3.5.Entrega de la Versi\\u00f3n Final de los Contratos","11":"4.Calificaci\\u00f3n","12":"4.1.Pago del Derecho de Participaci\\u00f3n","13":"4.2.Presentaci\\u00f3n de solicitud de Calificaci\\u00f3n","14":"4.3.Subsanaci\\u00f3n de observaciones","15":"4.4.Anuncio de Calificaci\\u00f3n","16":"4.5.Formaci\\u00f3n o modificaci\\u00f3n de Consorcios","17":"5.Presentaci\\u00f3n de Ofertas y Buena Pro","18":"5.1.Presentaci\\u00f3n de los sobres Nro. 1 y Nro. 2 y Buena Pro (*)","19":"5.2.Subsanaci\\u00f3n de Observaciones al 

In [None]:
### Docs NUEVO
# opening the file in read mode
my_file = open("docs_new.txt", "r") 
# reading the file
qwe = my_file.read()  
# replacing end splitting the text 
# when newline ('\n') is seen.
docs_new = qwe.split(";;")
print(docs_new)
my_file.close()
################################################
### Docs ANTIGUO
# opening the file in read mode
my_file = open("docs_old.txt", "r")
# reading the file
qwe = my_file.read() 
# replacing end splitting the text 
# when newline ('\n') is seen.
docs_old = qwe.split(";;")
print(docs_old)
my_file.close()

['{"Nombre":{"0":"Plan de Promoci\\u00f3n del Proceso","1":"Aviso de Convocatoria","2":"Bases del Concurso (25.04.22)","3":"Bases del Concurso (25.04.22)","4":"Bases Consolidadas del Concurso (hasta la Circular No. 03)(31.08.22)","5":"Bases Consolidadas del Concurso (hasta la Circular No. 03)(31.08.22)","6":"Circular Nro. 01 (22.06.22)","7":"Circular Nro. 01 (Adj. 1)","8":"Circular Nro. 01 (Adj. 2)","9":"Circular Nro. 02","10":"Circular Nro. 03","11":"Circular Nro. 04","12":"Circular Nro. 04 (Adj.)","13":"Circular Nro. 05","14":"Circular Nro. 06","15":"Circular Nro. 07","16":"Circular Nro. 08","17":"Circular Nro. 09","18":"Circular Nro. 09 (Adj. 1)","19":"Circular Nro. 09 (Adj. 2)","20":"Circular Nro. 10","21":"Circular Nro. 11","22":"Versi\\u00f3n Inicial del Contrato (09.03.22)","23":"Versi\\u00f3n Inicial del Contrato (09.03.22)","24":"Versi\\u00f3n Inicial del Contrato (28.04.22)","25":"Versi\\u00f3n Inicial del Contrato (28.04.22)","26":"Segunda versi\\u00f3n del Contrato de Conce

In [None]:
### Proyectos NUEVO
# opening the file in read mode
my_file = open("proyectos_new.txt", "r") 
# reading the file
qwe = my_file.read()  
# replacing end splitting the text 
# when newline ('\n') is seen.
proyectos_new = qwe.split(";;")
print(proyectos_new)
my_file.close()
################################################
### Proyectos ANTIGUO
# opening the file in read mode
my_file = open("proyectos_old.txt", "r")
# reading the file
qwe = my_file.read() 
# replacing end splitting the text 
# when newline ('\n') is seen.
proyectos_old = qwe.split(";;")
print(proyectos_old)
my_file.close()

[' "ENLACE 220 KV ICA – POROMA, AMPLIACIONES Y SUBESTACIONES ASOCIADAS" Y "ITC ENLACE 220 KV CACLIC – JAEN NORTE (2 CIRCUITOS), AMPLIACIONES Y SUBESTACIONES ASOCIADAS"', ' "PROYECTO ENLACE 220 KV BELAUNDE TERRY – TARAPOTO NORTE (2 CIRCUITOS), AMPLIACIONES Y SUBESTACIONES ASOCIADAS", "PROYECTO ENLACE 500 KV SAN JOSÉ-YARABAMBA, AMPLIACIONES Y SUBESTACIONES ASOCIADAS", "PROYECTO ITC ENLACE 220 KV PIURA NUEVA – COLÁN, AMPLIACIONES Y SUBESTACIONES ASOCIADAS", "PROYECTO ITC SE LAMBAYEQUE NORTE 220 KV CON SECCIONAMIENTO DE LA LT 220 KV CHICLAYO OESTE – LA NIÑA/ FELAM, AMPLIACIONES Y SUBESTACIONES ASOCIADAS" Y "SUBESTACIÓN PIURA ESTE DE 220/60/22.9 KV".', ' AMPLIACIÓN Y MEJORAMIENTO DE LOS SERVICIOS DE RECOLECCIÓN, TRATAMIENTO Y DISPOSICIÓN DE AGUAS RESIDUALES DE LAS LOCALIDADES DE HUANCAYO, EL TAMBO, CHILCA, HUAYUCACHI, HUANCÁN, HUACRAPUQUIO Y VIQUES, PROVINCIA DE HUANCAYO, DEPARTAMENTO DE JUNÍN', ' ANILLO VIAL PERIFÉRICO', ' CONCESIÓN ÚNICA PARA LA PRESTACIÓN DE SERVICIOS PÚBLICOS DE TELECOM

In [None]:
### Comparar longitud variables: nuevo vs antiguio
print("Comparar longitud variables: nuevo vs antiguio")
print("Proyectos: \t", len(proyectos_new), len(proyectos_old))
print("Cronograma: \t",len(cronograma_new), len(cronograma_old))
print("Docs: \t\t", len(docs_new), len(docs_old))

Comparar longitud variables: nuevo vs antiguio
Proyectos: 	 48 48
Cronograma: 	 48 48
Docs: 		 48 48


In [None]:
## Automatizacion - en proceso - borrador
'''if len(proyectos_new) == len(proyectos_old):
  if any(proyectos_old[p] == proyectos_new[p] for p in range(0,len(proyectos_new))):
    alarm1 = []
    alarm2 = []
      for n in range(0,len(cronograma_new)):
        if cronograma_new[n] != cronograma_old[n]:
          alarm1.append(n)
      for map in range(0,len(docs_new)):
        if docs_new[m] != docs_old[m]:
          alarm2.append(m)
  else:
    listIdx_old = []
    listIdx_new = []
    for pp in range(0, len(proyectos_old)):
      a = 0
      while a < len(proyectos_old):
        if proyectos_old[pp] == proyectos_new[a]:
          listIdx_new.append(a)
        a = a + 1
      listIdx_old.append(pp)
elif len(proyectos_new) > len(proyectos_old):


#else:
  group_old = [proyectos_old, cronograma_old, docs_old]
  group_new = [proyectos_new, cronograma_new, docs_new]'''

'if len(proyectos_new) == len(proyectos_old):\n  if any(proyectos_old[p] == proyectos_new[p] for p in range(0,len(proyectos_new))):\n    alarm1 = []\n    alarm2 = []\n      for n in range(0,len(cronograma_new)):\n        if cronograma_new[n] != cronograma_old[n]:\n          alarm1.append(n)\n      for map in range(0,len(docs_new)):\n        if docs_new[m] != docs_old[m]:\n          alarm2.append(m)\n  else:\n    listIdx_old = []\n    listIdx_new = []\n    for pp in range(0, len(proyectos_old)):\n      a = 0\n      while a < len(proyectos_old):\n        if proyectos_old[pp] == proyectos_new[a]:\n          listIdx_new.append(a)\n        a = a + 1\n      listIdx_old.append(pp)\nelif len(proyectos_new) > len(proyectos_old):\n\n\n#else:\n  group_old = [proyectos_old, cronograma_old, docs_old]\n  group_new = [proyectos_new, cronograma_new, docs_new]'

# Alarma válido - OPERATIVO, INCLUYE LA AUTOMATIZACION

In [None]:
# codigo para pasar de "a" a "b" (que es "a" ordenado) OK
#a:lista desordenada
#b:lista ordenada

#a = [2,8,6,1,-6,4,-1,53]
#b = [item for item in a] #no a=b porque los datos de b se ordenan, pero tambien los datos de a
#b.sort()
#prueba_idx = [] #lista de indices
#for ll in range(0,len(b)):
#  for l in range(0,len(a)):
#    if b[ll]==a[l]:
#      prueba_idx.append(l)
#c = [a[item] for item in prueba_idx] # pasar de "a" a b



In [None]:
#cambiando variables a trabajar y ordenando
proyectos_new_sort = [item for item in proyectos_new]
proyectos_old_sort = [item for item in proyectos_old]
proyectos_new_sort.sort()
proyectos_old_sort.sort()
new_sort_idx = [] 
old_sort_idx = [] 
for ll in range(0,len(proyectos_new_sort)):
  for l in range(0,len(proyectos_new)):
    if proyectos_new_sort[ll]==proyectos_new[l]:
      new_sort_idx.append(l)
for ll in range(0,len(proyectos_old_sort)):
  for l in range(0,len(proyectos_old)):
    if proyectos_old_sort[ll]==proyectos_old[l]:
      old_sort_idx.append(l)
docs_new_sort = [docs_new[item] for item in new_sort_idx]
docs_old_sort = [docs_old[item] for item in old_sort_idx]
cronograma_new_sort = [cronograma_new[item] for item in new_sort_idx]
cronograma_old_sort = [cronograma_old[item] for item in old_sort_idx]

In [None]:
### Alarma nuevo proyecto o proyecto quitado

if diff(proyectos_new_sort,proyectos_old_sort) != []:
  pr_new = set(proyectos_new_sort)
  pr_old = set(proyectos_old_sort)
  if pr_new.difference(pr_old) != []: #nuevo proyecto
    print("Se han agregado los siguientes proyectos: ",pr_new.difference(pr_old))
    temp = list(pr_new.difference(pr_old))
    temp_idx = []
    for idx in range(0, len(temp)):
      for idx2 in range(0,len(proyectos_new_sort)):
        if temp[idx] == proyectos_new_sort[idx2]:
            temp_idx.append(idx2)
    temp_idx.sort()
    if len(temp_idx) != []:
      for idx in range(0, len(temp_idx)):
        proyectos_new_sort.pop(temp_idx[idx]-idx)
        cronograma_new_sort.pop(temp_idx[idx]-idx)
        docs_new_sort.pop(temp_idx[idx]-idx)
  if pr_old.difference(pr_new) != []: #proyecto eliminado
    print("Se han eliminado los siguientes proyectos: ",pr_old.difference(pr_new))
    temp = list(pr_old.difference(pr_new))
    temp_idx = []
    for idx in range(0, len(temp)):
      for idx2 in range(0,len(proyectos_old_sort)):
        if temp[idx] == proyectos_old_sort[idx2]:
            temp_idx.append(idx2)
    temp_idx.sort()
    if len(temp_idx) != []:
      for idx in range(0, len(temp_idx)):
        proyectos_old_sort.pop(temp_idx[idx]-idx)
        cronograma_old_sort.pop(temp_idx[idx]-idx)
        docs_old_sort.pop(temp_idx[idx]-idx)
else:
  print("No se han agregado algún proyecto a la cartera de Proinversión")

''' 
OUTPUT: A las variables de proyectos, cronograma y docs se les han eliminado 
        los proyectos nuevos o eliminados. 
        Esto deja como resultado las variables ordenadas del mismo tamaño 
        y orden, por lo que es mas facil la comparacion.
        Tal como el codigo sigue
'''
print("")

No se han agregado algún proyecto a la cartera de Proinversión



In [None]:
### Alarma para variaciones en el cronograma
alarm1 = []
for p in range(0,len(cronograma_new_sort)):
  if cronograma_new_sort[p] != cronograma_old_sort[p]:
    alarm1.append(p)
if alarm1 != []:
  print("Se han modificado el cronograma de los siguientes proyectos: ")
  for idx in range(0,len(alarm1)):
    print(proyectos_new_sort[alarm1[idx]])
else:
  print("No se han modificado algún cronograma")

Se han modificado el cronograma de los siguientes proyectos: 
 CONCESIÓN ÚNICA PARA LA PRESTACIÓN DE SERVICIOS PÚBLICOS DE TELECOMUNICACIONES Y PARA ASIGNAR A NIVEL NACIONAL LOS RANGOS DE FRECUENCIAS 1 750 – 1 780 MHZ Y 2 150 – 2 180 MHZ Y 2 300 – 2 330 MHZ.
 LÍNEA DE TRANSMISIÓN 500 KV SUBESTACIÓN PIURA NUEVA-FRONTERA
 MEJORAMIENTO DEL SISTEMA DE ALCANTARILLADO Y TRATAMIENTO DE AGUAS SERVIDAS DE LA CIUDAD DE PUERTO MALDONADO- DISTRITO TAMBOPATA, PROVINCIA TAMBOPATA, DEPARTAMENTO MADRE DE DIOS


In [None]:
### Alarma para variaciones en docs
alarm2 = []
for p in range(0,len(docs_new_sort)):
  if docs_new_sort[p] != docs_old_sort[p]:
    alarm2.append(p)
if alarm2 != []:
  print("Se han agregado/quitado documentos de los siguientes proyectos: ")
  for idx in range(0,len(alarm2)):
    print(proyectos_new_sort[alarm2[idx]])
else:
  print("No se han agregado/quitado documentos")

Se han agregado/quitado documentos de los siguientes proyectos: 
 CONCESIÓN ÚNICA PARA LA PRESTACIÓN DE SERVICIOS PÚBLICOS DE TELECOMUNICACIONES Y PARA ASIGNAR A NIVEL NACIONAL LOS RANGOS DE FRECUENCIAS 1 750 – 1 780 MHZ Y 2 150 – 2 180 MHZ Y 2 300 – 2 330 MHZ.
 CREACIÓN DE LOS SERVICIOS ESPECIALIZADOS DE SALUD DEL HOSPITAL ESPECIALIZADO CHIMBOTE EN LA RED ASISTENCIAL ANCASH DE ESSALUD, DISTRITO DE NUEVO CHIMBOTE, PROVINCIA DEL SANTA, DEPARTAMENTO DE ANCASH
 CREACIÓN DE LOS SERVICIOS ESPECIALIZADOS DE SALUD DEL HOSPITAL ESPECIALIZADO EN LA RED ASISTENCIAL PIURA DE ESSALUD, DISTRITO DE VEINTISÉIS DE OCTUBRE, PROVINCIA DE PIURA, DEPARTAMENTO DE PIURA
 LÍNEA DE TRANSMISIÓN 500 KV SUBESTACIÓN PIURA NUEVA-FRONTERA
 MEJORAMIENTO DEL SISTEMA DE ALCANTARILLADO Y TRATAMIENTO DE AGUAS SERVIDAS DE LA CIUDAD DE PUERTO MALDONADO- DISTRITO TAMBOPATA, PROVINCIA TAMBOPATA, DEPARTAMENTO MADRE DE DIOS
 TRATAMIENTO DE AGUAS RESIDUALES PARA DISPOSICIÓN FINAL O REÚSO, CIUDAD DE CAJAMARCA, CAJAMARCA, PERÚ
 

In [None]:
alarm1

[4, 17, 19]

# Comparar proyectos y Exportar a Excel

In [None]:
if alarm1 != []:
  for idx in range(0,len(alarm1)):
    temp_table1_new = pd.read_json(cronograma_new_sort[alarm1[idx]],encoding='utf-8')
    temp_table1_old = pd.read_json(cronograma_old_sort[alarm1[idx]],encoding='utf-8')
    temp_string_old = temp_table1_old['Convocatoria'] + temp_table1_old['Fecha']
    temp_string_new = temp_table1_new['Convocatoria'] + temp_table1_new['Fecha']
    temp_output = diff(temp_string_new,temp_string_old)
    if temp_output != []:
      temp_idx = []
      for idx2 in range(0,len(temp_output)):
        for idx3 in range(0,len(temp_string_new)):
          if temp_output[idx2] == temp_string_new[idx3]:
            temp_idx.append(idx3)
      temp_table_output = temp_table1_new.loc[temp_idx]
      temp_table_output['Proyecto'] = proyectos_new_sort[idx]
      temp_table_output.to_excel(r'Alarma_cronograma.xlsx', sheet_name='Proyecto '+str(idx), index=False)

In [None]:
if alarm2 != []:
  for idx in range(0,len(alarm2)):
    temp_table2_new = pd.read_json(docs_new_sort[alarm2[idx]],encoding='utf-8')
    temp_table2_old = pd.read_json(docs_old_sort[alarm2[idx]],encoding='utf-8')
    temp_string_old = temp_table2_old['Nombre'] + temp_table2_old['Descripción']
    temp_string_new = temp_table2_new['Nombre'] + temp_table2_new['Descripción']
    temp_output = diff(temp_string_new,temp_string_old)
    if temp_output != []:
      temp_idx = []
      for idx2 in range(0,len(temp_output)):
        for idx3 in range(0,len(temp_string_new)):
          if temp_output[idx2] == temp_string_new[idx3]:
            temp_idx.append(idx3)
      temp_table_output = temp_table2_new.loc[temp_idx]
      temp_table_output['Proyecto'] = proyectos_new_sort[alarm2[idx]]
      name_alarm = 'Alarma_docs_'+ str(idx)+'.xlsx' 
      temp_table_output.to_excel(name_alarm, index=False)

In [None]:
'''if alarm2 != []:
  for idx in range(0,len(alarm2)):
    temp_table2_new = pd.read_json(docs_new_sort[alarm2[idx]],encoding='utf-8')
    temp_table2_old = pd.read_json(docs_old_sort[alarm2[idx]],encoding='utf-8')
    temp_string_old = temp_table2_old['Nombre'] + temp_table2_old['Descripción']
    temp_string_new = temp_table2_new['Nombre'] + temp_table2_new['Descripción']
    temp_output = diff(temp_string_new,temp_string_old)
    temp_idx = []
    for idx2 in range(0,len(temp_output)):
      for idx3 in range(0,len(temp_string_new)):
        if temp_output[idx2] == temp_string_new[idx3]:
          temp_idx.append(idx3)
    temp_table_output = temp_table2_new.loc[temp_idx]
    temp_table_output['Proyecto'] = proyectos_new_sort[idx]
    temp_table_output.to_excel(r'Alarma_docs.xlsx', sheet_name='Proyecto '+str(idx), index=False)'''

# Borrador

In [None]:
#alarm2

[4, 7, 8, 17, 19, 40, 43]

In [None]:
#Lectura de JSON a DataFrame
#pd.read_json(cronograma_new[alarm[5]],encoding='utf-8')

In [None]:
#proyectos_new_sort[alarm2[0]]

' CREACIÓN DE LOS SERVICIOS ESPECIALIZADOS DE SALUD DEL HOSPITAL ESPECIALIZADO EN LA RED ASISTENCIAL PIURA DE ESSALUD, DISTRITO DE VEINTISÉIS DE OCTUBRE, PROVINCIA DE PIURA, DEPARTAMENTO DE PIURA'

In [None]:
#pd.read_json(docs_old_sort[alarm2[0]],encoding='utf-8')

In [None]:
#pd.read_json(docs_new_sort[alarm2[0]],encoding='utf-8')

In [None]:
#temp_output

['Segunda versión del Contrato de Concesión - ITC Belaunde Terry - Grupo 1(MS Word)',
 'Segunda versión del Contrato de Concesión - Enlace San José de Yarabamba - Grupo 1(MS Word)',
 'Segunda versión del Contrato de Concesión - / Subestación Piura Este - Grupo 2(MS Word)',
 'Circular N° 1 (Adj.)Segunda versión del Contrato de Concesión - Enlace San José de Yarabamba - Grupo 1',
 'Circular N° 1 (Adj.)Segunda versión del Contrato de Concesión - Subestación Piura Este - Grupo 2',
 'Circular N° 1Segunda versión de los Contratos de Concesión (25.11.2022)',
 'Segunda versión del Contrato de Concesión - ITC Piura Nueva Colán - Grupo 1(25.11.2022)',
 'Segunda versión del Contrato de Concesión - ITC Piura Nueva Colán - Grupo 1(MS Word)',
 'Circular N° 1 (Adj.)Segunda versión del Contrato de Concesión - ITC Lambayeque Norte - Grupo 2',
 'Segunda versión del Contrato de Concesión - Enlace San José de Yarabamba - Grupo 1(25.11.2022)',
 'Segunda versión del Contrato de Concesión - ITC Belaunde Terr