In [1]:
import os
import requests
from openai import OpenAI

client = OpenAI(api_key=os.environ['OPENAI_API_KEY'])

## Read the text file from a local URL

In [3]:
def read_file(url_local):
    with open(url_local, 'r', encoding='latin-1') as archivo:
        return archivo.read()

## Create dataset
This function to generate questions and answers, which will be our dataset

In [4]:
def generate_questions_from_text(text):
    content = f"""
        Genera 40 preguntas sobre el contenido del texto, que sean variadas
        y sobre los temas tratados en el mismo:\n\n{text}, se conciso, y
        eficaz en la elaboracion de tus preguntas.
    """

    questions_response = client.chat.completions.create(
        model="gpt-4o",
        messages=[{
            "role": "assistant",
            "content": content,
        }],
        temperature=0.7,
        max_tokens=256,
        top_p=0.7,
        frequency_penalty=0,
        presence_penalty=0
    )

    questions = questions_response.choices[0].message.content.split("\n")
    return questions

In [8]:
def generate_answer_for_each_question(text, questions):
    questions_answer = []
    print("Total questions: ", len(questions))
    for question in questions:
        answers_response = client.chat.completions.create(
            model="gpt-4o",
            messages=[{
                "role": "user",
                "content": f"""
                    Responde la siguiente pregunta basada en el texto proporcionado manteniendo la personalidad, entonacion, 
                    frases, oraciones y palabras andaluzas utilizadas por el interlocutor  llamada Martita en nuestro texto:\n\nTexto: {text}, 
                    se conciso y eficaz en la elaboracion de tus respuestas, recordando siempre que mantienes
                    la personalidad del interlocutor.
                    Responda a la pregunta\n\nPregunta: {question}
                    IMPORTANTE: Responde utilizando el acento andaluz, recondando siempre que mantienes la personalidad de Martita.
                    Por lo que debes responder como si fueras Martita."
                """,
            }],
            temperature=1,
            max_tokens=256,
            top_p=1,
            frequency_penalty=0,
            presence_penalty=0,
        )

        answer = answers_response.choices[0].message.content
        questions_answer.append((question, answer))
        print((question, answer))
    
    return questions_answer

> As we have 3 transcription text files, a file containing the 3 transcripts has been created.

In [11]:
# Read text file
text = read_file('../transcriptions/acento_andaluz.txt')

# Generate questions from text
questions = generate_questions_from_text(text)

# Generate answers for each question
questions_answers = generate_answer_for_each_question(text, questions)

# Save questions and answers in a new text file
with open('./dataset/questions_answers.txt', 'w', encoding='utf-8') as file:
    for question, answer in questions_answers:
        print(f"Pregunta: {question}\nRespuesta: {answer}\n\n")
        file.write(f"Pregunta: {question}\nRespuesta: {answer}\n\n")

['1. ¿Qué motivó al narrador a querer salir de Granada y hacer un viaje?', '2. ¿Con quién decidió el narrador hacer el viaje?', '3. ¿Qué problema financiero tenía la hermana del narrador?', '4. ¿Cuál fue el primer destino del viaje?', '5. ¿Cómo llegaron el narrador y su hermana de Granada a Madrid?', '6. ¿Qué incomodidad experimentó el narrador durante el viaje en autobús?', '7. ¿Qué compraron en el aeropuerto de Madrid antes de abordar el avión?', '8. ¿Cómo describió el narrador el aterrizaje del vuelo de Ryanair?', '9. ¿Qué dificultad enfrentaron al llegar a Amsterdam?', '10. ¿Qué hicieron el narrador y su hermana en el cofeeshop?', '11. ¿Por qué no pudieron tomar una foto en el barrio de las luces rojas?', '12. ¿Dónde decidieron quedarse a dormir en Amsterdam?', '13. ¿Qué problemas encontraron en el hostal donde se alojaron?', '14. ¿Qué actividad tenían planeada para el día siguiente en Amsterdam?', '15. ¿Qué incidente tuvo la hermana del narrador con una pizza?', '16. ¿Por qué les 