# Extracting Text

In [1]:
import fitz  # PyMuPDF is imported as fitz

In [2]:
# Open the PDF document
def extract_text_from_pdf(pdf_file_path):
    test_doc = fitz.open(pdf_file_path)  # change the path to the pdf file

    # Define thresholds to extract headers and footers
    header_threshold = 0.15  # Top 15% of the page height
    footer_threshold = 0.925  # Bottom 7.5% of the page height

    ## EXTRACT THE TEXT BY BLOCKS

    # Initialize a variable to hold the extracted text
    extracted_text_block = []
    text_string = ""

    # Loop through each page
    for page_num in range(len(test_doc)):
        page = test_doc.load_page(page_num)  # Load the page
        text_block = page.get_text("blocks")  # Extract text from the page as blocks
        page_height = page.rect.height  # Get the height of the page

        for block in text_block:
            # Get the vertical position of the block (block[1] is the top y-coordinate, block[3] is the bottom y-coordinate)
            block_top = block[1]
            block_bottom = block[3]

            # Filter out blocks that are within the header or footer region
            if (block_top > page_height * header_threshold) and (
                block_bottom < page_height * footer_threshold
            ):
                text = block[
                    4
                ]  # The text content is in the 5th element of the block tuple
                text_string += text + "\n\n"  # Write the block text
    # Close the document
    test_doc.close()
    return text_string

In [45]:
original_minute = r"C:\Users\herms\Desktop\Civic_Tech_Research_Project\cv-tech-llm\DATA\documents\enero\Acta Sesión Ordinaria No. 047 2024-01-23.pdf"

extracted_minute = extract_text_from_pdf(original_minute)
print(extracted_minute)

SESIÓN DE CONCEJO No. 047 DE 23 DE ENERO DE 2024 


 


SUMARIO: 


CAPÍTULOS   
 
 
TEMA 


 


I. 
Verificación del cuórum. 


 


II. 
Instalación de la sesión. 


 


III. 
Lectura del Orden del Día.   


 


IV. 
Himno a Quito.  


 


V. 
Segundo Debate del Proyecto de Ordenanza Metropolitana 
Reformatoria del Código Municipal para el Distrito Metropolitano 
de Quito, por la cual se incorpora las normas para regular el uso del 
Subsistema de Transporte Público Metro de Quito" (IC-ORD-CM-
2024-002). 


 


VI. 
Primer debate del Proyecto de Ordenanza Metropolitana para la 
Aplicación del Régimen de Remisión de Intereses, Multas y 
Recargos sobre Tributos administrados por el Gobierno Autónomo 
Descentralizado del Distrito Metropolitano de Quito, sus Empresas 
Públicas, Agencias, Instituciones y Entidades adscritas, previsto en 
la Ley Orgánica de Eficiencia Económica y Generación de Empleo 
(IC-ORD-CPF-2024-001).  


 
 


VII. 
Segundo Debate del Proyecto de Ordenanza Metropolita

# Connection to OpenAI API

In [26]:
# import libraries

from openai import OpenAI
import os
from dotenv import load_dotenv


In [27]:
import tiktoken
encoding = tiktoken.encoding_for_model("gpt-4o-mini") 

##CHANGE EVERYTIME THE PATH
extracted_raw_data = extracted_minute
text_content = []

# Count the number of tokens    
text_tokens = encoding.encode(extracted_raw_data)
num_tokens = len(text_tokens)
print(f"Number of tokens : {num_tokens}")

text_content.append(extracted_raw_data) #save for future processing
     
print("\n ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++")  
        

Number of tokens : 52029

 ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++


In [6]:
## max input tokens 128K 
# if needed, for a long document, it is going to be necessary to break the document in pieces and make a recursive summarization 

In [50]:
# loading API key
load_dotenv()
key_ct = os.environ["ct_api_key"]
client = OpenAI(api_key = key_ct)

### Prompt Engineering (One-shot)

In [42]:
example_minute = r"C:\Users\herms\Desktop\Civic_Tech_Research_Project\PreliminarWork\preprocessing\data\one-shot\Acta Sesión Ordinaria No. 033 2023-11-21.pdf"

full_text_for_example = extract_text_from_pdf(example_minute)
print(full_text_for_example)

SESIÓN DE CONCEJO No. 033 DE 21 DE NOVIEMBRE DE 2023 


 


SUMARIO: 


CAPÍTULOS   
 
 
TEMA 


 


I. 
Verificación del cuórum. 


 


II. 
Instalación de la sesión. 


 


III. 
Lectura del Orden del Día.   


 


IV. 
Himno a Quito.  


 


V. 
Conocimiento y resolución del Informe de comisión No. IC-CUS-
2022-092, mediante el cual, la Comisión de Uso de Suelo, emite 
dictamen favorable para que el Concejo Metropolitano conozca y 
resuelva sobre la sentencia de prescripción extraordinaria 
adquisitiva de dominio del predio Nro. 1296691, clave catastral Nro. 
12713 02 005 000 000 000, ubicado en la parroquia Calderón, a favor 
del señor Roberto Miguel Rentería Salazar, para que se autorice la 
subdivisión del bien en mención, cambiando las condiciones de ese 
inmueble en particular y generando una excepción a las 
condiciones generales, de conformidad con lo dispuesto en el 
artículo 2567 del Código Municipal para el Distrito Metropolitano 
de Quito.  


 
 


VI. 
Conocimiento y re

In [43]:
with open(r"C:\Users\herms\Desktop\Civic_Tech_Research_Project\PreliminarWork\preprocessing\data\one-shot\summary_example.txt", "r", encoding="utf-8") as text_file:
 
    summary_example_content = text_file.read() # Write the block text to the file, with spacing between blocks

##print(summary_example_content)
summary_example_content = summary_example_content.split("\n\n")
print(summary_example_content)


['La sesión, presidida por el Alcalde Pabel Muñoz, inició con la verificación del cuórum por parte de la Secretaria General, Dra. Libia Rivas, comprobando la asistencia de 17 integrantes al pleno.\nDespués de la lectura del orden del día, se dieron intervenciones de dos concejales. Primero, pidió la palabra la Concejala Estefanía Grunauer, quién expresó su preocupación por el impacto de la pirotecnia en animales y personas sensibles y pidió operativos de control para las bodegas clandestinas. Después, el concejal Wilson Merino solicitó acciones concretas a la Secretaría de Movilidad para mitigar los siniestros de tránsito. El Alcalde dio paso a estos pedidos de palabra, pero también señaló que los cambios del orden del día se deben solicitar con anterioridad.', 'Informes de prescripciones adquisitivas de dominio \nEl concejal Adrián Ibarra, presidente de la Comisión de Uso de Suelo, dio a conocer en el pleno del Concejo dos informes en los que se declara prescripciones de dominio a fav

In [44]:
summary_structure = """ {
     "date" : "yyyy-mm-dd", 
     "document_id" : "acta_0xx(numero_del_acta)", 
     "act_name": "Sesión (Ordinaria, Extraordinaria o Commemorativa) No. (número de la sesion)",  
     "content:  ["resumen de la sesion con cada seccion con su titulo como un item diferente: 'Titulo 1: Resumen del tema 1','Titulo 2: Resumen del tema 2'..."], 
    } """

In [46]:

# Instruction text
partial_instruction = """Aprende del ejemplo a continuación y genera un resumen de la minuta de la reunión de un gobierno local:

    """


### full instruction in one text

In [47]:
#token encoding for the instruction

# Load the encoding for the specific model you're using
encoding = tiktoken.encoding_for_model("gpt-4o-mini")  

full_instruction = f"""{partial_instruction}

Ejemplo de texto original para resumir:
{full_text_for_example}

Ejemplo de resumen:
{summary_example_content}

Envía la información con la siguiente estructura:  {summary_structure} """


print(full_instruction)

Aprende del ejemplo a continuación y genera un resumen de la minuta de la reunión de un gobierno local:

    

Ejemplo de texto original para resumir:
SESIÓN DE CONCEJO No. 033 DE 21 DE NOVIEMBRE DE 2023 


 


SUMARIO: 


CAPÍTULOS   
 
 
TEMA 


 


I. 
Verificación del cuórum. 


 


II. 
Instalación de la sesión. 


 


III. 
Lectura del Orden del Día.   


 


IV. 
Himno a Quito.  


 


V. 
Conocimiento y resolución del Informe de comisión No. IC-CUS-
2022-092, mediante el cual, la Comisión de Uso de Suelo, emite 
dictamen favorable para que el Concejo Metropolitano conozca y 
resuelva sobre la sentencia de prescripción extraordinaria 
adquisitiva de dominio del predio Nro. 1296691, clave catastral Nro. 
12713 02 005 000 000 000, ubicado en la parroquia Calderón, a favor 
del señor Roberto Miguel Rentería Salazar, para que se autorice la 
subdivisión del bien en mención, cambiando las condiciones de ese 
inmueble en particular y generando una excepción a las 
condiciones generale

In [48]:

# Encode the text
instruction_tokens = encoding.encode(full_instruction)

# Count the number of tokens
num_tokens = len(instruction_tokens)

print(f"Number of tokens: {num_tokens}")

Number of tokens: 29469


### several instructions

In [16]:
response_one_shot = client.chat.completions.create(
    model="gpt-4o-mini",
    messages=[
        {"role": "system", "content": partial_instruction},
        {"role": "user", "content": full_text_for_example},  # Example input as user message
        {"role": "assistant", "content": summary_example},
        {"role": "user", "content": extracted_minute}   # New text to summarize
    ],
    temperature=0.80,
    max_tokens=1200,
)


### Sending instructions

In [51]:
response = client.chat.completions.create(
    model = "gpt-4o-mini",
    messages = [
        {"role": "system", "content" : full_instruction},
        {"role":"user", "content":text_content[0]},
    ],
    temperature = 0.80,
    max_tokens = 1200,
)


In [52]:

response_summary_vers001 = response.choices[0].message.content
print(response_summary_vers001)   

{
  "date": "2024-01-23",
  "document_id": "acta_047",
  "act_name": "Sesión Ordinaria No. 047",
  "content": [
    "I. Verificación del cuórum: Se constató la presencia de 16 integrantes del pleno.",
    "II. Instalación de la sesión: El Alcalde Pabel Muñoz López declaró instalada la sesión.",
    "III. Lectura del Orden del Día: Se leyó el orden del día y se aprobó por unanimidad.",
    "IV. Himno a Quito: Se entonó el himno a Quito.",
    "V. Segundo Debate del Proyecto de Ordenanza sobre el Subsistema de Transporte Público Metro de Quito: La Concejala Fernanda Racines presentó el informe y los cambios realizados en respuesta a las observaciones de los concejales. Se aprobó con 20 votos a favor.",
    "VI. Primer debate del Proyecto de Ordenanza para la Aplicación del Régimen de Remisión de Intereses, Multas y Recargos: Se explicó la necesidad de esta normativa para facilitar la recaudación de impuestos y se resaltó su importancia en la situación económica actual. Se brindaron detal

### Opcional JSON formatting

In [None]:

# #extract ther markdown labels

import re

def extract_markdown_content(text):
    # Regular expression to find content between triple backticks
    pattern = r"```json(.*?)```"
    match = re.search(pattern, text, re.DOTALL)
    
    if match:
        return match.group(1).strip()
    else:
        return None

# Example usage

response_summary_vers001 = extract_markdown_content(response_summary_vers001)
print(response_summary_vers001)


# MongoDB Connection

In [37]:
import json
from pymongo import MongoClient
from dotenv import load_dotenv
load_dotenv(override=True)
db_url = os.environ["DATABASE_URL"]

In [38]:
client = MongoClient(db_url)
db = client["cv_tech"]
collection = db["Summary"]
client.admin.command('ping')

{'ok': 1}

In [39]:
response_summary_dict = json.loads(response_summary_vers001)

In [40]:

# Convert the content to a dictionary
try:
    response_summary_dict = json.loads(response_summary_vers001)
    # Add a new key-value pair to the dictionary - CHANGE EVERYTIME
    response_summary_dict["document_url"] = "https://www7.quito.gob.ec/mdmq_ordenanzas/Administraci%C3%B3n%202023-2027/Actas%20Sesiones/2024/ACTA%2047%20SESI%C3%93N%20ORDINARIA%20DE%2023%20DE%20ENERO.pdf"

    print(response_summary_dict)
    
    
except json.JSONDecodeError as e:
    print(f"Error decoding JSON: {e}")

{'date': '2024-01-09', 'document_id': 'acta_046', 'act_name': 'Sesión Ordinaria No. 046', 'content': ['Verificación del cuórum y formalidades: La sesión, presidida por el Alcalde Pabel Muñoz, inició a las 09:20 con la verificación del cuórum, confirmando la presencia de 20 integrantes del Concejo Metropolitano.', 'Proyecto de resolución ante la crisis carcelaria: Se aprobó un proyecto de resolución para abordar la crisis carcelaria en el país, tras una interrupción de media hora para una reunión privada entre concejales. La resolución se elaboró con el consenso de varios concejales, enfatizando la necesidad de un plan de seguridad nacional y de la reubicación de centros de rehabilitación social.', "Segundo debate del Proyecto de Ordenanza: Se realizó el segundo debate del Proyecto de Ordenanza para la regularización del Asentamiento Humano de Hecho y Consolidado de Interés Social 'Santo Domingo de Conocoto Sector Flores', el cual fue aprobado tras mociones de concejales para solicitar 

### Insert to MongoDB collection

In [41]:
try:
    result = collection.insert_one(response_summary_dict)
    print(f"Inserted document ID: {result.inserted_id}")
except json.JSONDecodeError as e:
    print(f"Error decoding JSON: {e}")

Inserted document ID: 671fbcfb103c30e8ac7fba67


### Save copy to JSON data file

In [None]:

# Write the JSON data to a new file
#CHANGE THIS FILE NAME
with open(r"C:\Users\herms\Desktop\Civic_Tech_Research_Project\PreliminarWork\preprocessing\data\json_files\one_shot_example", "w", encoding="utf-8") as json_file: #CHANGE THIS FILE NAME
    json.dump(response_summary_dict, json_file, ensure_ascii=False, indent=4)

print("Text extraction completed and saved as JSON.")