# THEMES FOR WORD GROUPS USING OpenAI

**Authors**
- Alejandro Urrego Lopéz
- Cesar Augusto Prieto Sarmiento

This python notebook contains the development of the code with which using the AI to generate the main themes or topics for each word group generated by the best clustering algorithm.

## Import necessary libraries

In [1]:
import pandas as pd   # For data manipulations
import numpy as np    # For maths
import igraph as ig   # For networks 
import openai        # AI implementations
from dotenv import load_dotenv

import os
load_dotenv()
# openai.api_key = 

In [2]:
data_folder_path = os.path.dirname(os.getcwd()) + os.sep + 'Outputs' + os.sep

In [30]:

# Definir la ruta del directorio de trabajo
directorio_trabajo = r'C:/Users/Pc/Desktop/-Proyecto-JEP-/Outputs/Skipgramas - Victimarios/General'
# Norte de santander
# Costa Caribe
# Casanare
# Meta
# Huila
# Antioquia
# Cambiar el directorio de trabajo
os.chdir(directorio_trabajo)

## Development and research of topics 

In [31]:
clusters = pd.read_csv('clusters_jep.txt')
clusters=clusters.sort_values(by='eigen', ascending=False)
clusters

Unnamed: 0,word,cluster,eigen
1,batallón,8,1.000000e+00
7,comandante,10,9.065017e-01
86,sé,7,7.928153e-01
10,información,10,7.559289e-01
17,operaciones,10,7.515524e-01
...,...,...,...
918,forjando,4,8.531391e-09
612,céspedes,1,6.828890e-09
82,anticipada,12,5.553181e-09
662,transitoria,12,1.187256e-10


In [32]:
diccionario = {}
for i in set(clusters['cluster']):
    diccionario['cluster '+str(i)] = clusters.query('cluster==@i')['word'].tolist()


In [33]:
diccionario

{'cluster 1': ['tarea',
  'material',
  'auxiliar',
  'omega',
  'negro',
  'intendencia',
  'martínez',
  'fabián',
  'gerardo',
  'céspedes'],
 'cluster 2': ['relación',
  'responsabilidad',
  'civil',
  'contacto',
  'grado',
  'integrantes',
  'participó',
  'nacional',
  'población',
  'bles',
  'aducir',
  'participaron',
  'indirecta',
  'causa',
  'conductas',
  'circunstancias',
  'aceptación',
  'libre',
  'ausencia',
  'protección',
  'pública',
  'existieron',
  'miembros',
  'colombia',
  'indirectamente',
  'determina',
  'amnistia',
  'detallado',
  'estipulado',
  'exhaustivo',
  'adelantarse',
  'asimismo',
  'pondrá',
  'reconozca'],
 'cluster 3': ['dinero',
  'cuarto',
  'soto',
  'autoría',
  'reservados',
  'consanguineidad',
  'consanguinidad',
  'gustavo',
  'afinidad',
  'partida',
  'montaña'],
 'cluster 4': ['número',
  'superior',
  'profesional',
  'gobierno',
  'despacho',
  'virtud',
  'abogado',
  'infórmenos',
  'movilidad',
  'cédula',
  'tarjeta',
  'ó

In [34]:
PromptInicio = [
    'A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster.',
    'Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de videos de YouTube sobre el Caso 03 de la JEP.',
    'Las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster, y reflejan conceptos clave en torno a ejecuciones extrajudiciales, víctimas, agentes del Estado y el contexto del conflicto armado en Colombia.'
]

PromptFinal = [
    'Al momento de devolver los datos contesta con el siguiente formato: Numerodecluster:[dato] TemaoTopicoPrincipal:[dato]',
    'Solo contesta con el formato suministrado. Ten en cuenta que los datos provienen de descripciones de videos sobre crímenes de Estado en el marco del Caso 03 de la JEP.'
]


# Constructing the request by joining prompts, dictionary, and final prompts
request = " ".join(PromptInicio) + str(diccionario) + " ".join(PromptFinal)

In [35]:
request 

"A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster. Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de videos de YouTube sobre el Caso 03 de la JEP. Las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster, y reflejan conceptos clave en torno a ejecuciones extrajudiciales, víctimas, agentes del Estado y el contexto del conflicto armado en Colombia.{'cluster 1': ['tarea', 'material', 'auxiliar', 'omega', 'negro', 'intendencia', 'martínez', 'fabián', 'gerardo', 'céspedes'], 'cluster 2': ['relación', 'responsabilidad', 'civil', 'contacto', 'grado', 'integrantes', 'participó', 'nacional', 'población', 'bles', 'aducir', 'participaron', 'indirecta', 'causa', 'conductas', 'circunstancias', 'aceptación', 'libre', 'ausencia', 'protección', 'pública', 'existieron', 'miembros', 'colombi

In [36]:
request = request
chat_completion = openai.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": request,
        }
    ],
    model="gpt-4-1106-preview",
    max_tokens=2000,  # Increase the number of tokens allowed
    temperature=0.7,  # Reduce "creativity" to obtain precise responses
    top_p=1,  # Adjust maximum probability to ensure precise responses
)
respuesta = chat_completion.choices[0].message.content


In [37]:
print(respuesta)

Cluster1: Tareas y operaciones logísticas militares
Cluster2: Responsabilidad y participación en el conflicto
Cluster3: Finanzas y relaciones de autoría en el contexto militar
Cluster4: Procesos y procedimientos judiciales
Cluster5: Procesos judiciales y representación de las víctimas
Cluster6: Marco legal y procesos de justicia especial
Cluster7: Recuerdo y reconocimiento de operativos militares
Cluster8: Vida y operaciones en unidades militares
Cluster9: Resultados operacionales y presiones en el contexto militar
Cluster10: Inteligencia, comando y control en operaciones militares
Cluster11: Obligaciones y procesos judiciales
Cluster12: Beneficios y condiciones de desmovilización
Cluster13: Procedimientos forenses y levantamiento de cuerpos
Cluster14: Política y democracia en el contexto del conflicto
Cluster15: Territorio y construcción de paz
Cluster16: Reconocimiento de responsabilidad y procesos de paz
Cluster17: Identidad étnica y pertenencia en el contexto del conflicto
Cluster1

In [38]:
with open("clusters_theme.txt", "w", encoding="utf-8") as file:
    file.write(respuesta)