In [1]:
# import libraries

from openai import OpenAI
import os
from dotenv import load_dotenv


In [2]:
from pathlib import Path

import tiktoken
encoding = tiktoken.encoding_for_model("gpt-4o-mini") 

##change everytime
extracted_raw_file = Path(r"work_on_minutes\acta_3_octubre_2023\extracted_text_03_10_23_clean_vers_001.txt")

text_content = []

with open(extracted_raw_file, "r", encoding="utf-8") as text_file:
    text_full = text_file.read()
    
    # Count the number of tokens    
    text_tokens = encoding.encode(text_full)
    num_tokens = len(text_tokens)
    print(f"Number of tokens : {num_tokens}")

    text_content.append(text_full) #save for future processing
     
    print("\n ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++")  
        

Number of tokens : 38784

 ++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++++


In [None]:
## max input tokens 128K 
# if needed, for a long document, it is going to be necessary to break the document in pieces and make a recursive summarization 

### Prompt Engineering 1

In [None]:
#token encoding for the instruction

# Load the encoding for the specific model you're using
encoding = tiktoken.encoding_for_model("gpt-4o-mini")    

# Instruction text
instruction = f"Has un resumen de una minuta de reunión de un gobierno local.\
La intención de este ejercicio es proveer al ciudadano común con información relevante sobre el desempeño de su gobierno local. \
Instrucciones especificas: \
- Enfatiza los problemas, peticiones y soluciones o acuerdos que se llegan \
- Indica los nombres de las personas que participan cuando sea necesario.\
- Indica datos concretos \
- No emitas juicios de valor, manten neutralidad\
- Identifica fechas\
- Identifica los temas que se trataron.\
- Verifica con cuidado al final cuantas personas asistieron a la sesion\
"

# Encode the text
instruction_tokens = encoding.encode(instruction)

# Count the number of tokens
num_tokens = len(instruction_tokens)

print(f"Number of tokens: {num_tokens}")


### Prompt Engineering 2

In [3]:
#token encoding for the instruction

# Load the encoding for the specific model you're using
encoding = tiktoken.encoding_for_model("gpt-4o-mini")    

# Instruction text
instruction = (
    "Has un resumen de una minuta de reunión de un gobierno local con las siguientes instrucciones:"
    "- Enfatiza los problemas, peticiones y soluciones o acuerdos que se llegan "
    "- Indica los nombres de las personas que participan cuando sea necesario."
    "- Indica datos concretos "
    "- No emitas juicios de valor, manten neutralidad"
    "- Identifica los temas que se trataron."
    "- Verifica con cuidado cuantas personas asistieron a la sesion al final del documento "
    "- Envia el texto con estructura dictionario con pares key-value:"
    "date : fecha_de_la_minuta" 
    "document_id : acta+numero_del_acta"
    "text : "
    "{"
    "## **Nombre del acta:**  "
    "## **Fecha:**  "
    "## **Problemas:** "
    "## **Peticiones:** "
    "## **Soluciones o acuerdos:**  "
    "## **Asistentes:**  "
    "}"
)

# Encode the text
instruction_tokens = encoding.encode(instruction)

# Count the number of tokens
num_tokens = len(instruction_tokens)

print(f"Number of tokens: {num_tokens}")


Number of tokens: 164


In [4]:
# loading API key
load_dotenv()
key_ct = os.environ["ct_api_key"]

In [5]:

client = OpenAI(api_key = key_ct)

response = client.chat.completions.create(
    model = "gpt-4o-mini",
    messages = [
        {"role": "system", "content" : instruction},
        {"role":"user", "content":text_content[0]},
    ],
    temperature = 0.6,
    max_tokens = 1200,
)


In [8]:
#change everytime
response_summary_TOTAL_vers001 = response.choices[0].message.content
print(response_summary_TOTAL_vers001)   

```json
{
  "date": "03 de octubre de 2023",
  "document_id": "acta025",
  "text": {
    "Nombre del acta": "Acta de la Sesión No. 025 Ordinaria del Concejo Metropolitano de Quito",
    "Fecha": "03 de octubre de 2023",
    "Problemas": [
      "Inestabilidad en el funcionamiento de las alarmas comunitarias.",
      "Retraso en la instalación y puesta en marcha de las alarmas.",
      "Inseguridad en varios barrios de Quito debido a la falta de alarmas operativas."
    ],
    "Peticiones": [
      "Solicitar un plan de prevención y preparación ante el fenómeno de El Niño.",
      "Exigir responsabilidades administrativas y civiles a funcionarios por la falta de información para la instalación de alarmas.",
      "Demandar claridad sobre los criterios utilizados para la instalación de alarmas en los barrios."
    ],
    "Soluciones o acuerdos": [
      "Aprobar la entrega de menciones de honor a entidades que ayudaron durante los incendios.",
      "Realizar un seguimiento a la situació

## Exporting to files

### Exporting to .txt 

In [None]:

#change everytime
with open(r"work_on_minutes\acta_3_octubre_2023\response_summary_TOTAL_vers001.txt", "w", encoding="utf-8") as text_file:
 
    text_file.write(response_summary_TOTAL_vers001)  # Write the block text to the file, with spacing between blocks

print("Text extraction completed and saved'.")


### Exporting to .md

In [None]:

#change everytime
with open(r"C:\Users\herms\Desktop\Civic_Tech_Research_Project\PreliminarWork\preprocessing\work_on_minutes\acta_26_abril_2019\summary_26_04_19\response_summary_TOTAL_vers002.md", "w", encoding="utf-8") as text_file:
 
    text_file.write(response_summary_TOTAL_vers002)  # Write the block text to the file, with spacing between blocks

print("Text extraction completed and saved to 'response_summary_TOTAL_vers002'.")


### Exporting to .json

In [9]:
import json
# Convert the text to a JSON-compatible format

data = {
    "text": response_summary_TOTAL_vers001
}

# Write the JSON data to a new file
with open(r"work_on_minutes\acta_3_octubre_2023\response_summary_TOTAL_vers001.json", "w", encoding="utf-8") as json_file:
    json.dump(data, json_file, ensure_ascii=False, indent=4)

print("Text extraction completed and saved as JSON.")

Text extraction completed and saved as JSON.
