# THEMES FOR WORD GROUPS USING OpenAI

**Authors**
- Alejandro Urrego Lopéz
- Cesar Augusto Prieto Sarmiento

This python notebook contains the development of the code with which using the AI to generate the main themes or topics for each word group generated by the best clustering algorithm.

## Import necessary libraries

In [32]:
import pandas as pd   # For data manipulations
import numpy as np    # For maths
import igraph as ig   # For networks 
import openai        # AI implementations
from dotenv import load_dotenv

import os
load_dotenv()

In [33]:
data_folder_path = os.path.dirname(os.getcwd()) + os.sep + 'Outputs' + os.sep

In [293]:

# Definir la ruta del directorio de trabajo
directorio_trabajo = r'C:/Users/Pc/Desktop/-Proyecto-JEP-/Outputs/Skipgrams - victims/Antioquia'
# Norte de santander
# Costa Caribe
# Casanare
# Meta
# Huila
# Antioquia
# Cambiar el directorio de trabajo
os.chdir(directorio_trabajo)

In [294]:
directorio_trabajo

'C:/Users/Pc/Desktop/-Proyecto-JEP-/Outputs/Skipgrams - victims/Antioquia'

## Development and research of topics 

In [295]:
clusters = pd.read_csv('clusters_jep.txt')
clusters=clusters.sort_values(by='eigen', ascending=False)
clusters

Unnamed: 0,word,cluster,eigen
482,víctimas,19,1.000000
5,ustedes,19,0.821711
37,personas,2,0.609388
71,día,1,0.401704
1,justicia,19,0.397685
...,...,...,...
321,comidas,7,0.000004
195,denis,1,0.000004
630,estás,18,0.000003
432,mío,7,0.000003


In [296]:
diccionario = {}
for i in set(clusters['cluster']):
    diccionario['cluster '+str(i)] = clusters.query('cluster==@i')['word'].tolist()


In [297]:
diccionario

{'cluster 1': ['día',
  'vida',
  'mí',
  'ejército',
  'familia',
  'hijo',
  'mis',
  'casa',
  'sé',
  'padre',
  'hermano',
  'hijos',
  'persona',
  'mamá',
  'papá',
  'comunidad',
  'padres',
  'madre',
  'madres',
  'guerrillero',
  'hermanos',
  'niño',
  'duele',
  'antonio',
  'encontrar',
  'damos',
  'casas',
  'agradezco',
  'encontraron',
  'esposa',
  'desaparecido',
  'seguiremos',
  'hermana',
  'hombre',
  'esposo',
  'asesinados',
  'pagar',
  'duro',
  'mató',
  'gente',
  'armas',
  'pensé',
  'tío',
  'resulta',
  'fuerza',
  'presencia',
  'esposos',
  'comida',
  'leonardo',
  'venteros',
  'velázquez',
  'normal',
  'engañado',
  'suplicaba',
  'robaron',
  'caminaba',
  'baja',
  'noche',
  'dispararle',
  'aporrear',
  'desaparición',
  'amigos',
  'delante',
  'hijito',
  'alegre',
  'asesino',
  'quedé',
  'dígame',
  'ayudarle',
  'quedaron',
  'abuelo',
  'reclamando',
  'viuda',
  'hijas',
  'pueblo',
  'niña',
  'castillo',
  'manuel',
  'trabajadora',

In [298]:
PromptInicio = [
    'A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster.',
    'Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de videos de YouTube sobre el Caso 03 de la JEP.',
    'Las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster, y reflejan conceptos clave en torno a ejecuciones extrajudiciales, víctimas, agentes del Estado y el contexto del conflicto armado en Colombia.'
]

PromptFinal = [
    'Al momento de devolver los datos contesta con el siguiente formato: Numerodecluster:[dato] TemaoTopicoPrincipal:[dato]',
    'Solo contesta con el formato suministrado. Ten en cuenta que los datos provienen de descripciones de videos sobre crímenes de Estado en el marco del Caso 03 de la JEP.'
]


# Constructing the request by joining prompts, dictionary, and final prompts
request = " ".join(PromptInicio) + str(diccionario) + " ".join(PromptFinal)

In [299]:
request 

"A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster. Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de videos de YouTube sobre el Caso 03 de la JEP. Las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster, y reflejan conceptos clave en torno a ejecuciones extrajudiciales, víctimas, agentes del Estado y el contexto del conflicto armado en Colombia.{'cluster 1': ['día', 'vida', 'mí', 'ejército', 'familia', 'hijo', 'mis', 'casa', 'sé', 'padre', 'hermano', 'hijos', 'persona', 'mamá', 'papá', 'comunidad', 'padres', 'madre', 'madres', 'guerrillero', 'hermanos', 'niño', 'duele', 'antonio', 'encontrar', 'damos', 'casas', 'agradezco', 'encontraron', 'esposa', 'desaparecido', 'seguiremos', 'hermana', 'hombre', 'esposo', 'asesinados', 'pagar', 'duro', 'mató', 'gente', 'armas', 'pensé',

In [300]:
request = request
chat_completion = openai.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": request,
        }
    ],
    model="gpt-4-1106-preview",
    max_tokens=2000,  # Increase the number of tokens allowed
    temperature=0.7,  # Reduce "creativity" to obtain precise responses
    top_p=1,  # Adjust maximum probability to ensure precise responses
)
respuesta = chat_completion.choices[0].message.content


In [301]:
print(respuesta)

Numerodecluster:1 TemaoTopicoPrincipal:Impacto en la vida cotidiana y familiar de las víctimas
Numerodecluster:2 TemaoTopicoPrincipal:Víctimas y patrones de asesinatos y desapariciones
Numerodecluster:3 TemaoTopicoPrincipal:Nombres propios y posibles víctimas o involucrados
Numerodecluster:4 TemaoTopicoPrincipal:Derechos humanos y organismos de defensa
Numerodecluster:5 TemaoTopicoPrincipal:Reparación y restablecimiento social
Numerodecluster:6 TemaoTopicoPrincipal:Sistema de justicia transicional
Numerodecluster:7 TemaoTopicoPrincipal:Contexto militar y hallazgo de cuerpos
Numerodecluster:8 TemaoTopicoPrincipal:Procedimientos y mecanismos de justicia
Numerodecluster:9 TemaoTopicoPrincipal:Detalles específicos o técnicos (posiblemente relacionados con las audiencias)
Numerodecluster:10 TemaoTopicoPrincipal:Profundidad en la investigación o análisis
Numerodecluster:11 TemaoTopicoPrincipal:Elementos simbólicos o descriptivos (posiblemente relacionados con la violencia)
Numerodecluster:12

In [302]:
with open("clusters_theme.txt", "w", encoding="utf-8") as file:
    file.write(respuesta)