# Chain of thought Prompt engineering

В задании предлагается провести эксперименты и проанализировать результаты для решения простых математических задач из датасета GSM8K на BLOOM-176B, используя классический и ансамблированный Chain-of-thought.

Для работы с большой языковой моделью использовался Petals - распределеная система, работает по принципу, похожему на торрент. То есть модель (BLOOM) разбита на блоки, каждый из которых кто-то должен хостить. 

К сожалению в процессе работы я столкнулся с сильной нехваткой мощностей. Либо какие-то блоки не хостились, либо хостились но не отвечали (получал ошибку Runtime error), последнее возможно из-за большого числа запросов. Из-за чего не провел большую часть экспериментов.

Для решения проблемы попробовал вместо Petals использовать HF Inference API, но с ней не получилось запустить ни одного эксперимента. Каждый раз получал ошибку: 'Model is overloaded, please wait for a bit'.

В результате для классического CoT сгенерировал ответы на 100 вопросов. Для ансамблированного обработал 11 вопросов.

Количество примеров в промпте выбрал 8 как в оригинальной статье. Авторы утверждают, что дальнейшее увеличение параметров не дает существенного выигрыша в точности. 

Также в статье было проверено для GSM8K что CoT работает для любого выбора примеров, причем утверждается, что они не обязательно должны быть из того же распределения, что и тестовые. Поэтому я решил просто взять первые 8 вопросов из обучающей выборки (хотя все равно решил добавить функционал для сэмплирования промптов).

Для ансамблированного я сэмплировал с температурой 0.7 без top-k. Такие параметры использовались для GPT-3. Генерировал 5 ответов для каждой задачи, что на самом деле мало. В статье ощутимый разультат для GSM8K показывало при количестве $\geq$ 10. Но с этим параметром я уже не смог запустить эксперимент, так как Petals перестал отвечать.

Также планировал запустить с параметрами T = 0.5 и top-k (k=40). Они использовались для LaMDA-137B.


### Some imports and downloading GSM8K dataset

In [2]:
%pip install -q petals

/bin/bash: /opt/conda/lib/libtinfo.so.6: no version information available (required by /bin/bash)
[0mNote: you may need to restart the kernel to use updated packages.


In [3]:
import pandas as pd
from dataclasses import dataclass
import torch
from transformers import BloomTokenizerFast 
from petals import DistributedBloomForCausalLM
import numpy as np

import json
from tqdm import tqdm
from IPython.display import clear_output 

In [4]:
# Read the test dataset GSM8K 
url = "https://raw.githubusercontent.com/openai/grade-school-math/master/grade_school_math/data/test.jsonl"

df = pd.read_json(url, dtype='dict', lines=True)

# Add column with short answers
df['Short answer'] = [answer[answer.find('#')+5:] for answer in df['answer']]

df.head() 

Unnamed: 0,question,answer,Short answer
0,Janet’s ducks lay 16 eggs per day. She eats th...,Janet sells 16 - 3 - 4 = <<16-3-4=9>>9 duck eg...,18
1,A robe takes 2 bolts of blue fiber and half th...,It takes 2/2=<<2/2=1>>1 bolt of white fiber\nS...,3
2,Josh decides to try flipping a house. He buys...,The cost of the house and repairs came out to ...,70000
3,James decides to run 3 sprints 3 times a week....,He sprints 3*3=<<3*3=9>>9 times\nSo he runs 9*...,540
4,"Every day, Wendi feeds each of her chickens th...","If each chicken eats 3 cups of feed per day, t...",20


### Preparing prompt

In [5]:
# Read the train dataset GSM8K
url_prompt = "https://raw.githubusercontent.com/openai/grade-school-math/master/grade_school_math/data/train.jsonl"

df_prompt = pd.read_json(url_prompt, dtype='dict', lines=True)
df_prompt.head()

Unnamed: 0,question,answer
0,Natalia sold clips to 48 of her friends in Apr...,Natalia sold 48/2 = <<48/2=24>>24 clips in May...
1,Weng earns $12 an hour for babysitting. Yester...,Weng earns 12/60 = $<<12/60=0.2>>0.2 per minut...
2,Betty is saving money for a new wallet which c...,"In the beginning, Betty has only 100 / 2 = $<<..."
3,"Julie is reading a 120-page book. Yesterday, s...",Maila read 12 x 2 = <<12*2=24>>24 pages today....
4,James writes a 3-page letter to 2 different fr...,He writes each friend 3*2=<<3*2=6>>6 pages a w...


In [6]:
# Return string with chain of thought prompt
# prompt_len - number of questions/answers
# sample - True, take random questions from train.json
#          False, take the first questions
def make_prompt(prompt_len=8, sample=False):
    if sample:
        indexes = np.random.permutation(len(df_prompt))[0:prompt_len]
    else:
        indexes = range(prompt_len)

    prompt = ''
    for i in indexes:
        prompt += 'Q: ' + df_prompt.iloc[i]['question'] + '\nA: ' + df_prompt.iloc[i]['answer'] + '.\n\n'
    
    return prompt

Lets make inputs with default prompt - no sampling, lenght 8

In [7]:
input_list = []
prompt = make_prompt()
for i in range(df.shape[0]):
    input_list.append(prompt + 'Q: ' + df['question'][i] + '\nA:')

print(input_list[0])


Q: Natalia sold clips to 48 of her friends in April, and then she sold half as many clips in May. How many clips did Natalia sell altogether in April and May?
A: Natalia sold 48/2 = <<48/2=24>>24 clips in May.
Natalia sold 48+24 = <<48+24=72>>72 clips altogether in April and May.
#### 72.

Q: Weng earns $12 an hour for babysitting. Yesterday, she just did 50 minutes of babysitting. How much did she earn?
A: Weng earns 12/60 = $<<12/60=0.2>>0.2 per minute.
Working 50 minutes, she earned 0.2 x 50 = $<<0.2*50=10>>10.
#### 10.

Q: Betty is saving money for a new wallet which costs $100. Betty has only half of the money she needs. Her parents decided to give her $15 for that purpose, and her grandparents twice as much as her parents. How much more money does Betty need to buy the wallet?
A: In the beginning, Betty has only 100 / 2 = $<<100/2=50>>50.
Betty's grandparents gave her 15 * 2 = $<<15*2=30>>30.
This means, Betty needs 100 - 50 - 30 - 15 = $<<100-50-30-15=5>>5 more.
#### 5.

Q: Juli

### Download local part of BLOOM

In [8]:
MODEL_NAME = "bigscience/bloom-petals"
tokenizer = BloomTokenizerFast.from_pretrained(MODEL_NAME)
model = DistributedBloomForCausalLM.from_pretrained(MODEL_NAME)
model = model.cuda()

Downloading:   0%|          | 0.00/263 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/14.5M [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/96.0 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/641 [00:00<?, ?B/s]

Downloading:   0%|          | 0.00/7.19G [00:00<?, ?B/s]

In [9]:
import re

def write_in_json(path, question, answer):
    short_answer = re.findall(r'\d+', answer[answer.find('#'):])
    json_data = {
        'question': question,
        'answer': answer,
        'short_answer': short_answer[0] if len(short_answer) > 0 else None,
    }
    # print(json_data)
    with open(path, 'a') as outfile:
        json.dump(json_data, outfile)
        outfile.write('\n')

In [10]:
def make_experiment(output_file, number_of_questions=100, start=0, sample=False, sample_len=1, temperature=1.0, top_k=None):
    for i in tqdm(range(start, number_of_questions)):
        for _ in range(sample_len):
            answer = ''
            answer_len = 0
            
            with model.inference_session(max_length=2048) as sess:
                prompt = input_list[i]
                prefix = tokenizer(prompt, return_tensors="pt")["input_ids"].cuda()

                while True:
                    outputs = model.generate(
                        prefix, max_new_tokens=1, do_sample=sample, temperature=temperature, top_k=top_k, session=sess
                    )
                    outputs = tokenizer.decode(outputs[0, -1:])

                    if 'Q' in outputs:
                        break
                    answer += outputs
                    answer_len += 1
                    if answer_len > 150:
                        break

                    prefix = None

            write_in_json(output_file, df['question'][i], answer)
            # clear_output()


### Experiments

#### Simple greedy chain of thoughts

In [None]:
make_experiment('greedy.json', start=11)

In [30]:
greedy_cot_df = pd.read_json('greedy.json', dtype='dict', lines=True)
greedy_cot_df.head()

Unnamed: 0,question,answer,short_answer
0,Janet’s ducks lay 16 eggs per day. She eats th...,Janet makes $<<16*3=48>>48 dollars a day at t...,24
1,A robe takes 2 bolts of blue fiber and half th...,It takes 2 bolts of blue fiber and half that ...,1
2,Josh decides to try flipping a house. He buys...,Josh made a profit of $<<80-50-150=50>>50.\n#...,50
3,James decides to run 3 sprints 3 times a week....,He runs a total of <<60*3=240>>240 meters a w...,240
4,"Every day, Wendi feeds each of her chickens th...",She needs to give her chickens 15 + 25 = <<15...,40


#### Ansambled chain of thought with temperature 0.7 and without top_k truncation

The parameters were taken from the original [article](https://arxiv.org/abs/2203.11171), where they were used for GPT-3 

In [None]:
make_experiment('ansambled_temp07_no_topk.json', start=0, number_of_questions=20, sample=True, temperature=0.7, sample_len=5)

In [None]:
ansambled_temp07_no_topk_df = pd.read_json('ansambled_temp07_no_topk.json', dtype='dict', lines=True)
ansambled_temp07_no_topk_df.head()

#### Ansambled chain of thought with temperature 0.5 and truncated at the top_k (k=40)

The parameters were taken from the original [article](https://arxiv.org/abs/2203.11171), where they were used for UL2-20B and LaMDA-137B

In [None]:
make_experiment('ansambled_temp05_topk.json', number_of_question=20, sample=True, temperature=0.5, sample_len=5, top_k=40)

In [None]:
ansambled_temp05_topk = pd.read_json('ansambled_temp05_topk.json', dtype='dict', lines=True)
ansambled_temp05_topk.head()

### Bloom with the HF inference API

In [7]:
import requests

API_URL = "https://api-inference.huggingface.co/models/bigscience/bloom"
headers = {"Authorization": f"Bearer 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"}

def query(payload):
    response = requests.post(API_URL, headers=headers, json=payload)
    return response.json()

parameters = {
    "max_new_tokens": 128,
    "temperature": 1.0,
    "stop": "\n\n"
}

output = query({
    "inputs": "what's your ", "parameters": parameters
})
print(output)

{'error': 'Model is overloaded, please wait for a bit'}


In [17]:
parameters = {
    "max_new_tokens": 128,
    "temperature": 1.0,
    "stop": "\n\n"
}

output = query({
    "inputs": input_list[0], "parameters": parameters
})
print(output)

{'error': 'Model is overloaded, please wait for a bit'}


В итоге вообще ни разу не смог запустить.

### Results 

In [11]:
url_greedy = 'https://raw.githubusercontent.com/PanyshevAlex/Tlab-Chain-of-thought/main/data/greedy.json'
# url_greedy = "/kaggle/input/tlab-gsm8k-greedy/greedy.json"

exp_greedy = pd.read_json(url_greedy, dtype='dict', lines=True)
exp_greedy.head()

Unnamed: 0,question,answer,short_answer
0,Janet’s ducks lay 16 eggs per day. She eats th...,She sells 16 - 3 = <<16-3=13>>13 eggs for $2 ...,26
1,A robe takes 2 bolts of blue fiber and half th...,2 bolts of blue fiber and half that much whit...,2 bolts of blue fiber + half that much white f...
2,Josh decides to try flipping a house. He buys...,"The house cost 80,000 + 50,000 = <<80,000+50,...",60000
3,James decides to run 3 sprints 3 times a week....,He runs 3*60=<<3*60=180>>180 meters a week.\n...,180
4,"Every day, Wendi feeds each of her chickens th...","In the morning, she gives her flock of chicke...",5


In [12]:
y_pred = list(exp_greedy['short_answer'])
y_test = list(df['Short answer'])

In [13]:
from sklearn.metrics import accuracy_score

print("accuracy: ", accuracy_score(y_test[:len(y_pred)], y_pred))

accuracy:  0.06


Результат не очень хороший. Напрашивается вывод, что классический CoT для этой модели не очень работает, однако экспериментов было проведено мало, поэтому утверждать что-то нельзя.

In [15]:
url_ansambled = 'https://raw.githubusercontent.com/PanyshevAlex/Tlab-Chain-of-thought/main/data/ansambled_temp07_no_topk.json'
# url_ansambled = "/kaggle/input/tlab-gsm8k-greedy/ansambled_temp07_no_topk.json"

exp_ans_t07_notopk = pd.read_json(url_ansambled, dtype='dict', lines=True)
exp_ans_t07_notopk.head(10)

Unnamed: 0,question,answer,short_answer
0,Janet’s ducks lay 16 eggs per day. She eats th...,She makes 16*3 = <<16*3=48>>48 $ a day.\nShe ...,120
1,Janet’s ducks lay 16 eggs per day. She eats th...,She makes $16 every day.\nTo make $2 per fres...,32
2,Janet’s ducks lay 16 eggs per day. She eats th...,Janet makes $<<3/4*2=1.5>>1.5 dollars a day a...,96
3,Janet’s ducks lay 16 eggs per day. She eats th...,Janet makes 21/2*(21/2)*(2*2)*4 = <<21/2*(21/...,48
4,Janet’s ducks lay 16 eggs per day. She eats th...,Janet earns 16/3 * 4 = <<16/3*4=48>>48 dollar...,60
5,A robe takes 2 bolts of blue fiber and half th...,The robe requires 2*1/2=<<2*1/2=4>>4 bolts.\n...,4
6,A robe takes 2 bolts of blue fiber and half th...,The robe is 16/(2*1/2) = <<16/(2*1/2)=8>>8 bo...,1
7,A robe takes 2 bolts of blue fiber and half th...,It takes 4 bolts of blue fiber and 2 of white...,15
8,A robe takes 2 bolts of blue fiber and half th...,The robe contains 2 bolts of blue fiber and h...,1
9,A robe takes 2 bolts of blue fiber and half th...,The robe takes 2 x 1 = <<2*1=4>>4 bolts of bl...,10


Давайте посмотрим выдает ли ансамблированный алгоритм одинаковые ответы.

In [16]:
for question in df['question'][:11]:
    print(question[:20]+"...", exp_ans_t07_notopk['short_answer'][exp_ans_t07_notopk['question'] == question].nunique())

Janet’s ducks lay 16... 5
A robe takes 2 bolts... 4
Josh decides to try ... 5
James decides to run... 4
Every day, Wendi fee... 5
Kylar went to the st... 3
Toulouse has twice a... 5
Carla is downloading... 5
John drives for 3 ho... 4
Eliza's rate per hou... 5
A new program had 60... 5


в 7 из 11 примерах модель сгенерировала 5 разных ответов, что явно не очень хорошо. Очевидно, что такой способ генерации не дает никакого преимущества перед неансамблированным и работает также плохо( 

Но все равно давайте проверим есть ли среди них правильные ответы.

In [17]:
contain_correct_answer = 0

for i, question in enumerate(df['question'][:11]):
    print(question[:30]+"...")
    print('Correct answer =', df['Short answer'][i])
    print(pd.concat([exp_ans_t07_notopk['short_answer'][exp_ans_t07_notopk['question'] == question], exp_ans_t07_notopk['short_answer'][exp_ans_t07_notopk['question'] == question].str.contains(df['Short answer'][i])], axis=1), '\n')

Janet’s ducks lay 16 eggs per ...
Correct answer = 18
   short_answer  short_answer
0           120         False
1            32         False
2            96         False
3            48         False
4            60         False 

A robe takes 2 bolts of blue f...
Correct answer = 3
   short_answer  short_answer
5             4         False
6             1         False
7            15         False
8             1         False
9            10         False 

Josh decides to try flipping a...
Correct answer = 70000
    short_answer  short_answer
10           400         False
11            50         False
12            15         False
13            30         False
14             1         False 

James decides to run 3 sprints...
Correct answer = 540
    short_answer  short_answer
15           900         False
16            60         False
17           180         False
18          1200         False
19           180         False 

Every day, Wendi feeds each of...
Correct

Видим, что среди всех генераций только одна правильная. Конечно, экспериментов было сделано маленькое количество чтобы уверенно делать какие-то выводы, но уже можно подумать о том, чтобы что-то изменить, хотя бы попробовать взять другие гиперпараметры.

Давайте посмотрим какую логическую цепочку модель сгенерировала в случае когда ответ правильный.

In [27]:
print('question:\n', exp_ans_t07_notopk['question'][23], '\n')
print('answer:\n', exp_ans_t07_notopk['answer'][23])

question:
 Every day, Wendi feeds each of her chickens three cups of mixed chicken feed, containing seeds, mealworms and vegetables to help keep them healthy.  She gives the chickens their feed in three separate meals. In the morning, she gives her flock of chickens 15 cups of feed.  In the afternoon, she gives her chickens another 25 cups of feed.  How many cups of feed does she need to give her chickens in the final meal of the day if the size of Wendi's flock is 20 chickens? 

answer:
  In the final meal of the day, she needs to give her chickens 15 + 25 + 15 = <<15+25+15=45>>45 cups of feed.
This means, she needs to feed her chickens 45/15 = <<45/15=5>>5 cups of feed in the morning, 5 + 25 = <<5+25=10>>10 cups in the afternoon and 10 + 15 = <<10+15=20>>20 cups in the final meal of the day.
#### 20.




Видно, что ответ логически неверен, а также несколько раз допущены арифметические ошибки. Можно сделать вывод, что в данном случае модель "угадала" ответ.

### Выводы

Для BLOOM классический и ансамблированный Chain-of-thought не показал хорошие результаты. Создается впечатление, что попадание в правильные ответы случайное.

Для улучшения ситуации можно поэксперементировать с выбором гиперпараметров.
Также можно попробовать использовать [auto-cot](https://arxiv.org/pdf/2210.03493.pdf)