# THEMES FOR WORD GROUPS USING OpenAI

**Authors**
- Alejandro Urrego Lopéz
- Cesar Augusto Prieto Sarmiento

This python notebook contains the development of the code with which using the AI to generate the main themes or topics for each word group generated by the best clustering algorithm.

## Import necessary libraries

In [1]:
import pandas as pd   # For data manipulations
import numpy as np    # For maths
import igraph as ig   # For networks 
import openai        # AI implementations
from dotenv import load_dotenv

import os
load_dotenv()
# Hay que poner la apy key openai.api_key

In [2]:
data_folder_path = os.path.dirname(os.getcwd()) + os.sep + 'Outputs' + os.sep

In [3]:

# Definir la ruta del directorio de trabajo
directorio_trabajo = r'C:/Users/Pc/Desktop/-Proyecto-JEP-/Outputs/Skipgramas/Norte de Santander'

# Cambiar el directorio de trabajo
os.chdir(directorio_trabajo)

## Development and research of topics 

In [4]:
clusters = pd.read_csv('clusters_jep.txt')
clusters=clusters.sort_values(by='eigen', ascending=False)
clusters

Unnamed: 0,word,cluster,eigen
244,víctimas,23,1.000000e+00
14,ustedes,10,8.512448e-01
116,ejército,13,4.259053e-01
13,quiero,10,4.114493e-01
115,día,10,3.933411e-01
...,...,...,...
2053,dígame,2,4.737818e-08
1346,matarle,8,2.817917e-08
1865,berraquera,2,1.492633e-08
1866,midiendo,2,1.492633e-08


In [5]:
diccionario = {}
for i in set(clusters['cluster']):
    diccionario['cluster '+str(i)] = clusters.query('cluster==@i')['word'].tolist()


In [6]:
diccionario

{'cluster 1': ['mí',
  'vida',
  'acuerdo',
  'compromiso',
  'positivos',
  'derechos',
  'marcha',
  'impunidad',
  'restaurativo',
  'versiones',
  'estatales',
  'empezó',
  'pase',
  'empecé',
  'operacionales',
  'escuchó',
  'internacional',
  'jamás',
  'secuestro',
  'pechi',
  'dejaba',
  'cometimos',
  'espero',
  'perpetrados',
  'conoció',
  'comunidad',
  'colaboraba',
  'decisivos',
  'conjuró',
  'aceptar',
  'pelotón',
  'hayan',
  'informes',
  'manos',
  'enorme',
  'armado',
  'afectadas',
  'desenterrar',
  'favorita',
  'partecitas',
  'mente',
  'carpa',
  'permitiera',
  'honor',
  'quedar',
  'legal',
  'obligados',
  'justificara',
  'transformó',
  'entender',
  'derecho',
  'injustamente',
  'invito',
  'observaciones',
  'devia',
  'generaba',
  'concluir',
  'jornalero',
  'llamados',
  'fatales',
  'humanitario',
  'riguroso',
  'llevaron',
  'acusaciones',
  'picada',
  'reducir',
  'padecido',
  'tuvieron',
  'barbarie',
  'transicional',
  'levantar',


In [7]:
PromptInicio = [
    'A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster.',
    'Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de videos de YouTube sobre el Caso 03 de la JEP.',
    'Las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster, y reflejan conceptos clave en torno a ejecuciones extrajudiciales, víctimas, agentes del Estado y el contexto del conflicto armado en Colombia.'
]

PromptFinal = [
    'Al momento de devolver los datos contesta con el siguiente formato: Numerodecluster:[dato] TemaoTopicoPrincipal:[dato]',
    'Solo contesta con el formato suministrado. Ten en cuenta que los datos provienen de descripciones de videos sobre crímenes de Estado en el marco del Caso 03 de la JEP.'
]


# Constructing the request by joining prompts, dictionary, and final prompts
request = " ".join(PromptInicio) + str(diccionario) + " ".join(PromptFinal)

In [8]:
request 

"A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster. Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de videos de YouTube sobre el Caso 03 de la JEP. Las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster, y reflejan conceptos clave en torno a ejecuciones extrajudiciales, víctimas, agentes del Estado y el contexto del conflicto armado en Colombia.{'cluster 1': ['mí', 'vida', 'acuerdo', 'compromiso', 'positivos', 'derechos', 'marcha', 'impunidad', 'restaurativo', 'versiones', 'estatales', 'empezó', 'pase', 'empecé', 'operacionales', 'escuchó', 'internacional', 'jamás', 'secuestro', 'pechi', 'dejaba', 'cometimos', 'espero', 'perpetrados', 'conoció', 'comunidad', 'colaboraba', 'decisivos', 'conjuró', 'aceptar', 'pelotón', 'hayan', 'informes', 'manos', 'enorme', 'armado', 'afect

In [9]:
request = request
chat_completion = openai.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": request,
        }
    ],
    model="gpt-4-1106-preview",
    max_tokens=2000,  # Increase the number of tokens allowed
    temperature=0.7,  # Reduce "creativity" to obtain precise responses
    top_p=1,  # Adjust maximum probability to ensure precise responses
)
respuesta = chat_completion.choices[0].message.content


In [10]:
print(respuesta)

Numerodecluster:1 TemaoTopicoPrincipal:Proceso de justicia y reparación en el contexto de la JEP
Numerodecluster:2 TemaoTopicoPrincipal:Relatos de víctimas y reconstrucción de eventos violentos
Numerodecluster:3 TemaoTopicoPrincipal:Impacto humano y emocional del conflicto armado
Numerodecluster:4 TemaoTopicoPrincipal:Desarrollo del proceso judicial y búsqueda de verdad
Numerodecluster:5 TemaoTopicoPrincipal:Responsabilidad social y ética en el contexto del conflicto
Numerodecluster:6 TemaoTopicoPrincipal:Procesos y estructuras militares relacionados con el conflicto
Numerodecluster:7 TemaoTopicoPrincipal:Identificación y recuperación de cuerpos de víctimas
Numerodecluster:8 TemaoTopicoPrincipal:Testimonios y experiencias personales relacionadas con el conflicto
Numerodecluster:9 TemaoTopicoPrincipal:Marco legal y políticas de reparación y reincorporación
Numerodecluster:10 TemaoTopicoPrincipal:Impacto del conflicto en las familias y llamados a la empatía y reconciliación
Numerodeclust

In [11]:
with open("clusters_theme.txt", "w", encoding="utf-8") as file:
    file.write(respuesta)