In [1]:
import numpy as np
import pandas as pd
import openai
from tqdm import tqdm

from typing import *
from gpt_api import GPT3API

## Explore questions and answers

In [2]:
questions, answers = [], []
with open('data/task2_questions_with_answers.tsv', encoding="UTF-8") as f:
    for line in f.readlines():
        try:
            q, *a = line.strip().split('\t')
            questions.append(q)
            answers.append(a)
        except Exception as e:
            print(line)

In [3]:
subset_q = [q for i,q in enumerate(questions) if i % 5 == 0]
subset_a = [a for i,a in enumerate(answers) if i % 5 == 0]

In [4]:
longest_answer = 30
for i, ans in enumerate(answers):
    for a in ans:
        if len(a) > longest_answer:
            longest_answer = len(a)
            print(questions[i])
            print(ans)
            print('---')

Wyspy Zielonego Przylądka leżą bliżej Afryki czy Azji?
['Kto śpiewa piosenkę z czołówki M jak miłość?']
---
Proszę rozszyfrować skrót KBWE?
['Konferencja Bezpieczeństwa i Współpracy w Europie']
---
Dybuk to dusza zmarłego grzesznika wstępująca do ciała żywego czy duch w domostwie domowym?
['dusza zmarłego grzesznika wstępująca do ciała żywego']
---
Jakie dwie prace Heraklesa były związane z końmi?
['posprzątanie stajni Augiasza i schwytanie koni Diomedesa', 'schwytanie koni Diomedesa i posprzątanie stajni Augiasza']
---


## GPT fine tuning ideas:
1. limit number of tokens
2. self-ask https://the-decoder.com/new-prompt-method-lets-gpt-3-answer-questions-better/
3. rules for "or" type questions
4. use A to finetune GPT 

Direct prompt:
```
Question: Who was president of the U.S. when superconductivity was discovered?

Answer: The president of the United States when superconductivity was discovered was Dwight D. Eisenhower. Superconductivity was discovered in 1911 by Dutch physicist Heike Kamerlingh Onnes.
```

Self-ask prompt:

```
Question: Who lived longer, Theodor Haecker or Harry Vaughan Watkins?
Are follow up questions needed here: Yes.
Follow up: How old was Theodor Haecker when he died?
Intermediate answer: Theodor Haecker was 65 years old when he died.
Follow up: How old was Harry Vaughan Watkins when he died?
Intermediate answer: Harry Vaughan Watkins was 69 years old when he died.
So the final answer is: Harry Vaughan Watkins

Question: Who was president of the U.S. when superconductivity was discovered?
Are follow up questions needed here: Yes.
Follow up: When was superconductivity discovered?
Intermediate answer: Superconductivity was discovered in 1911.
Follow up: Who was president of the U.S. in 1911?
Intermediate answer: William Howard Taft was president of the U.S. in 1911.
So the final answer is: William Howard Taft.
```

## Utils

In [90]:
follow_up_questions = [
    "Kto żył dłużej, Theodor Haecker czy Harry Vaughan Watkins?",
    "W jakim wieku był Theodor Haecker gdy zmarł?",
    "W jakim wieku Harry Vaughan Watkins był gdy zmarł?",
]

follow_up_answers = [
    "Harry Vaughan Watkins",
    "Theodor Haecker miał 65 lat gdy zmarł.",
    "Harry Vaughan Watkins miał 69 lat gdy zmarł.",
]

follow_up_answers_short = [
    "Harry Vaughan Watkins",
    "65",
    "69",
]

In [102]:
def prepare_self_ask(
    question: str, 
    follow_up_questions: List[str], 
    follow_up_answers: List[str]
) -> str:
    return (
        f"Pytanie: {follow_up_questions[0]}\n"
        "Czy potrzebne są tutaj pomocnicze pytania: Tak\n"
        f"Pomocnicze pytanie: {follow_up_questions[1]}\n"
        f"Pomocnicza odpowiedź: {follow_up_answers[1]}\n"
        f"Pomocnicze pytanie: {follow_up_questions[2]}\n"
        f"Pomocnicza odpowiedź: {follow_up_answers[2]}\n"
        f"Ostateczna odpowiedź: {follow_up_answers[0]}\n\n"
        f"Pytanie: {question} Odpowiedz krótko.\n"
        f"Czy potrzebne są tutaj pomocnicze pytania: Tak"
    )


def is_or_question() -> bool:
    ...

def handle_or_question() -> str:
    ...

In [103]:
api = GPT3API()
openai.api_key = "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"

In [106]:
prepared_question = prepare_self_ask(
    question="Kto jest autorem obrazu namalowanego w 1892 r. Kobiety z Tahiti?",
    follow_up_questions=follow_up_questions,
    follow_up_answers=follow_up_answers,
)
print(prepared_question)

response = api.send_prompt(
    prompt=prepared_question,
    temperature=0,
    max_length_tokens=256,
)
print(response)

Pytanie: Kto żył dłużej, Theodor Haecker czy Harry Vaughan Watkins?
Czy potrzebne są tutaj pomocnicze pytania: Tak
Pomocnicze pytanie: W jakim wieku był Theodor Haecker gdy zmarł?
Pomocnicza odpowiedź: Theodor Haecker miał 65 lat gdy zmarł.
Pomocnicze pytanie: W jakim wieku Harry Vaughan Watkins był gdy zmarł?
Pomocnicza odpowiedź: Harry Vaughan Watkins miał 69 lat gdy zmarł.
Ostateczna odpowiedź: Harry Vaughan Watkins

Pytanie: Kto jest autorem obrazu namalowanego w 1892 r. Kobiety z Tahiti? Odpowiedz krótko.
Czy potrzebne są tutaj pomocnicze pytania: Tak

Pomocnicze pytanie: Kto jest autorem obrazu Kobiety z Tahiti?
Pomocnicza odpowiedź: Paul Gauguin jest autorem obrazu Kobiety z Tahiti.
Ostateczna odpowiedź: Paul Gauguin


In [124]:
%%time
prepared_question_2 = prepare_self_ask(
    question="Ktoś „nie w ciemię bity” to ktoś sprytny czy naiwny?",
    follow_up_questions=follow_up_questions,
    follow_up_answers=follow_up_answers,
)
print(prepared_question_2)

response = api.send_prompt(
    prompt=prepared_question_2,
    temperature=0,
    max_length_tokens=256,
)
print(response)

Pytanie: Kto żył dłużej, Theodor Haecker czy Harry Vaughan Watkins?
Czy potrzebne są tutaj pomocnicze pytania: Tak
Pomocnicze pytanie: W jakim wieku był Theodor Haecker gdy zmarł?
Pomocnicza odpowiedź: Theodor Haecker miał 65 lat gdy zmarł.
Pomocnicze pytanie: W jakim wieku Harry Vaughan Watkins był gdy zmarł?
Pomocnicza odpowiedź: Harry Vaughan Watkins miał 69 lat gdy zmarł.
Ostateczna odpowiedź: Harry Vaughan Watkins

Pytanie: Ktoś „nie w ciemię bity” to ktoś sprytny czy naiwny? Odpowiedz krótko.
Czy potrzebne są tutaj pomocnicze pytania: Tak

Pomocnicze pytanie: Co oznacza powiedzenie „nie w ciemię bity”?
Pomocnicza odpowiedź: Powiedzenie „nie w ciemię bity” oznacza, że ktoś jest sprytny i zdolny do wyciągania wniosków.
Ostateczna odpowiedź: Sprytny.
CPU times: total: 15.6 ms
Wall time: 4.55 s


## Dataset A

### Answers from GPT

In [128]:
from concurrent.futures import ThreadPoolExecutor
from threading import Lock

gpt_answers = {}
gpt_answers_lock = Lock()

In [129]:
def get_gpt_answer(question: str) -> None:
        prompt = prepare_self_ask(
            question=question.strip(),
            follow_up_questions=follow_up_questions,
            follow_up_answers=follow_up_answers,
        )
        answer = api.send_prompt(
            prompt=prompt,
            temperature=0,
            max_length_tokens=256,
        )
        with gpt_answers_lock:
            gpt_answers[question] = answer


with ThreadPoolExecutor(max_workers=3) as pool:
    futures = []
    for q in tqdm(questions):
        future = pool.submit(get_gpt_answer, q)
        futures.append(future)

    for fut in futures:
        fut.result()
        

100%|██████████| 3500/3500 [00:00<00:00, 69928.71it/s]


In [123]:
# gpt_answers

## Dataset B

In [8]:
questions_b, answers_b = [], []
with open('data/B.answers', encoding="UTF-8") as f:
    for line in f.readlines():
        try:
            a = line.strip()
            answers_b.append(a)
        except Exception as e:
            print(line)

with open('data/B.questions', encoding="UTF-8") as f:
    for line in f.readlines():
        try:
            q = line.strip()
            questions_b.append(q)
        except Exception as e:
            print(line)

In [7]:
training_data = []
for i in range(len(questions)):
    training_data.append({"prompt" : f"<{questions[i]}>", "completion": f"<{answers[i][0]}>"})

In [11]:
np.random.choice(training_data, 500)

array([{'prompt': '<Jak nazywa się kołnierzyk zapinany z tyłu, noszony przez duchownych?>', 'completion': '<koloratka>'},
       {'prompt': '<Proxima centauri to gwiazda czy planeta?>', 'completion': '<gwiazda>'},
       {'prompt': '<Które owady produkują propolis?>', 'completion': '<pszczoły>'},
       {'prompt': '<Na terenie którego parku narodowego wznosi się Kasprowy Wierch?>', 'completion': '<Tatrzańskiego Parku Narodowego>'},
       {'prompt': '<W którym wieku Offenbach skomponował operetkę „Piękna Helena”?>', 'completion': '<w XIX>'},
       {'prompt': '<Który amerykański dziennik upublicznił aferę Watergate?>', 'completion': '<Washington Post>'},
       {'prompt': '<Migrena to silny i nagły ból której części ciała?>', 'completion': '<głowy>'},
       {'prompt': '<Odmianą którego drzewa owocowego jest kronselka?>', 'completion': '<jabłoni>'},
       {'prompt': '<Na banknocie o jakim nominale widnieje król Zygmunt Stary?>', 'completion': '<100 zł>'},
       {'prompt': '<Jaka wspó

In [113]:
questions_b

['Która organizacja powstała wcześniej: Europejska Wspólnota Węgla i Stali czy Europejska Wspólnota Energii Atomowej?',
 'W którym wieku został odlany dzwon Zygmunta?',
 'Czy przymiotniki odmienia się przez przypadki?',
 'Jak z łaciny nazywa się dowód sądowy polegający na wykazaniu, że osoba oskarżona nie przebywała na miejscu przestępstwa w chwili gdy je popełniono?',
 'Jak brzmi nazwa terenowej Łady?',
 'Z którego kontynentu pochodzi 90% światowej produkcji ryżu?',
 'Jak nazywają się boczne pasy na mundurowych spodniach?',
 'Jak nazywał się gigantyczny goryl, bohater filmów japońskich?',
 'Jak nazywa się pojedynczy element schodów oraz cyfrowa ocena postępów ucznia?',
 'Który kolumbijski pisarz urodzony w 1927 roku jest autorem powieści „Sto lat samotności”?',
 'Czy wynalazca i polityk Benjamin Franklin był prezydentem USA?',
 'Bohaterem której powieści jest Aramis?',
 'Kto był najlepszym przyjacielem Achillesa i uczestnikiem wojny trojańskiej; zginął z rąk Hektora?',
 'Jak nazywa si

In [10]:
len(questions_b)

2500