# THEMES FOR WORD GROUPS USING OpenAI

**Authors**
- Alejandro Urrego Lopéz
- Cesar Augusto Prieto Sarmiento

This python notebook contains the development of the code with which using the AI to generate the main themes or topics for each word group generated by the best clustering algorithm, in the case of bigramas for anime synopses.

## Import necessary libraries

In [1]:
import pandas as pd   # For data manipulations
import numpy as np    # For maths
import igraph as ig   # For networks 
import openai        # AI implementations
from dotenv import load_dotenv

import os
load_dotenv()
openai.api_key = # api key

In [2]:
data_folder_path = os.path.dirname(os.getcwd()) + os.sep + 'Outputs' + os.sep

## Development and research of topics 

In [3]:
clusters = pd.read_csv(r'C:\Users\Pc\Desktop\Anime-Network-Project\Data\clusters.csv')
clusters=clusters.sort_values(by='eigen_word', ascending=False)
clusters

Unnamed: 0,word,cluster,eigen_word
4,series,11,1.000000
15,anime,11,0.811215
24,episode,6,0.797701
54,short,11,0.692447
60,episodes,6,0.615417
...,...,...,...
229,protect,1,0.000091
190,holy,18,0.000065
110,alien,13,0.000062
123,japanese,9,0.000044


In [4]:
diccionario = {}
for i in set(clusters['cluster']):
    diccionario['cluster '+str(i)] = clusters.query('cluster==@i')['word'].tolist()


In [5]:
diccionario

{'cluster 1': ['home',
  'save',
  'planet',
  'return',
  'returns',
  'earth',
  'humanity',
  'federation',
  'protect'],
 'cluster 2': ['animation', 'motion', 'stopmotion', 'toei', 'puppet', 'stop'],
 'cluster 3': ['main', 'characters', 'character', 'featuring', 'designs'],
 'cluster 4': ['school',
  'life',
  'day',
  'girls',
  'lives',
  'ordinary',
  'normal',
  'boys',
  'junior',
  'students',
  'idol',
  'middle',
  'boarding',
  'elementary',
  'real',
  'daily',
  'everyday',
  'death',
  'peeping',
  'peaceful',
  'change',
  'academy',
  'cinderella',
  'private'],
 'cluster 5': ['video',
  'safety',
  'promotional',
  'features',
  'nhks',
  'game',
  'program',
  'games',
  'directed',
  'traffic',
  'fire',
  'affic',
  'minna',
  'featured',
  'uta',
  'mobile',
  'card',
  'suit',
  'gundam'],
 'cluster 6': ['episode',
  'episodes',
  'special',
  'tv',
  'included',
  'dvd',
  'bundled',
  'aired',
  'specials',
  'volume',
  'bluray',
  'ova',
  'cap',
  'unaired'

In [6]:
PromptInicio = [
    'A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster.',
    'Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de series de animación japonesa. Además, las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster.'
]

PromptFinal = [
    'Al momento de devolver los datos contesta con el siguiente formato: Numerodecluster:[dato] TemaoTopicoPrincipal:[dato] Solo contesta con el formato suministrado. Ten en cuenta que los datos vienen de descripciones de animes'
]

# Constructing the request by joining prompts, dictionary, and final prompts
request = " ".join(PromptInicio) + str(diccionario) + " ".join(PromptFinal)

In [7]:
request 

"A partir del diccionario de clusters de palabras proporcionado, identifica el tema o tópico principal que mejor represente a cada cluster. Recuerda que las palabras en cada cluster fueron obtenidas mediante un método de agrupamiento basado en una red de bigramas extraídos de descripciones de series de animación japonesa. Además, las palabras están ordenadas de mayor a menor relevancia dentro de cada cluster.{'cluster 1': ['home', 'save', 'planet', 'return', 'returns', 'earth', 'humanity', 'federation', 'protect'], 'cluster 2': ['animation', 'motion', 'stopmotion', 'toei', 'puppet', 'stop'], 'cluster 3': ['main', 'characters', 'character', 'featuring', 'designs'], 'cluster 4': ['school', 'life', 'day', 'girls', 'lives', 'ordinary', 'normal', 'boys', 'junior', 'students', 'idol', 'middle', 'boarding', 'elementary', 'real', 'daily', 'everyday', 'death', 'peeping', 'peaceful', 'change', 'academy', 'cinderella', 'private'], 'cluster 5': ['video', 'safety', 'promotional', 'features', 'nhks'

In [8]:
request = request
chat_completion = openai.chat.completions.create(
    messages=[
        {
            "role": "user",
            "content": request,
        }
    ],
    model="gpt-4-1106-preview",
    max_tokens=2000,  # Increase the number of tokens allowed
    temperature=0.7,  # Reduce "creativity" to obtain precise responses
    top_p=1,  # Adjust maximum probability to ensure precise responses
)
respuesta = chat_completion.choices[0].message.content


In [9]:
print(respuesta)

Cluster1: Sci-fi / Space
Tema o Tópico Principal: Defensa de la Tierra y la humanidad

Cluster2: Animation Techniques
Tema o Tópico Principal: Técnicas de animación y producción

Cluster3: Character Design
Tema o Tópico Principal: Diseño y enfoque en personajes

Cluster4: School Life
Tema o Tópico Principal: Vida escolar y cotidianidad

Cluster5: Promotional Content
Tema o Tópico Principal: Contenido promocional y educativo

Cluster6: Home Video Releases
Tema o Tópico Principal: Lanzamientos de episodios especiales y formatos de video

Cluster7: Adventure
Tema o Tópico Principal: Aventura y viajes

Cluster8: School Positions
Tema o Tópico Principal: Vida estudiantil y roles en el consejo estudiantil

Cluster9: Music / Band
Tema o Tópico Principal: Música y bandas

Cluster10: Romance
Tema o Tópico Principal: Romance y relaciones

Cluster11: Anime Adaptations
Tema o Tópico Principal: Series y adaptaciones de anime

Cluster12: Online Media
Tema o Tópico Principal: Medios de comunicación y