# In Context Learning - Ensemble Performans & Evaluation

## Import Libraries

In [1]:
import os
import sys
from datetime import datetime

import pandas as pd
import numpy as np
from src.utils import missing_values

import warnings

In [2]:
pd.set_option('display.max_columns', None)
pd.set_option('max_colwidth', None)

warnings.filterwarnings('ignore')

#### Set Path and Constant Values

In [3]:
# Set Constants

ROOT_PATH = os.getcwd()
CACHE_PATH = os.path.join(ROOT_PATH, 'cache')
DATA_PATH = os.path.join(ROOT_PATH, 'data')
RAW_DATA_PATH = os.path.join(DATA_PATH, 'raw')
SAMPLE_DATA_PATH = os.path.join(DATA_PATH, 'sample')
OUTPUT_DATA_PATH = os.path.join(DATA_PATH, 'output')

# Create Folders
os.makedirs(CACHE_PATH, exist_ok=True)
os.makedirs(RAW_DATA_PATH, exist_ok=True)
os.makedirs(SAMPLE_DATA_PATH, exist_ok=True)
os.makedirs(OUTPUT_DATA_PATH, exist_ok=True)

## 10 Shot Results

#### ARC Dataset

Hugginface "malhajar/arc-tr" Dataset: https://huggingface.co/datasets/malhajar/arc-tr  

In [4]:
arc_10shot_result = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "arc", "arc_10shot_results.csv"))
arc_10shot_result

Unnamed: 0,question,true_short_answer,predicted_short_answer
0,"Günümüzde pek çok araba, geçmişte üretilenlere göre daha iyi yakıt tüketimi sağlayacak şekilde tasarlanmıştır. Bu değişiklik bir ihtiyaçtan kaynaklanmıştır.\nŞıklar:\n1. geri dönüşüm malzemeleri\n2. güvenliği artırmak\n3. kimyasallar üretmek\n4. kaynakları koru",4,D
1,Hangi diyagram enerjinin basit bir besin zincirinde nasıl aktığını en iyi şekilde gösterir?\nŞıklar:\nA. Yapraklar -> Tırtıl -> Kuş\nB. Ağaç -> Kuş -> Tırtıl\nC. Yapraklar -> Ağaç -> Tırtıl\nD. Tırtıl -> Yapraklar -> Kuş,A,C
2,Suyun sıcaklığı 10° Celsius'tan -10° Celsius'a değiştiğinde ne olur?\nŞıklar:\nA. Su katı halden gaz haline dönüşür.\nB. Su sıvı halden gaz haline dönüşür.\nC. Su sıvı halden katı hale dönüşür.\nD. Su katı halden sıvı hale dönüşür.,C,C
3,"Suyun bir kısmı tüketime yöneliktir. Su, kaynağına dönmek yerine rezervuarlardan buharlaşıyor veya mahsullerden çıkıyor. Bu tür bir kullanım hidrosferi büyük olasılıkla nasıl etkiler?\nŞıklar:\nA. Dünyadaki toplam su miktarını azaltarak\nB. Suyun Dünya sistemindeki yollarını değiştirerek\nC. Suyu su döngüsünde farklı aşamalara kaydırarak\nD. su döngüsünü değiştirecek şekilde iklimi etkileyerek",C,C
4,Aşağıdakilerden hangisi insanın kazanılmış bir özelliğidir?\nŞıklar:\nA. Göz rengi\nB. Saç rengi\nC. Yükseklik\nD. Sözlü vurgu,D,C
...,...,...,...
395,Görünür ışık camdan geçer. Diğer elektromanyetik radyasyon türleri diğer malzemelerden benzer şekilde geçebilir. Aşağıdakilerden hangisi insan vücudunun bazı yerlerinden geçebildikleri için tıp teknolojisinde kullanılmaktadır?\nŞıklar:\nA. röntgen\nB. kızılötesi dalgalar\nC. mikrodalgalar\nD. ultraviyole ışınlar,A,"A, D"
396,Buzulları eriyen bir dağın şelaleli bir deresi vardır. Şelale dağın eteğindeki bir gölü dolduruyor. Su en soğuk nerede?\nŞıklar:\nA. buzul\nB. aktarım\nC. şelale\nD. göl,A,A
397,Aşağıdakilerden hangisi güneş gözlüklerinin gözleri korumaya yardımcı olduğu yollardan biridir?\nŞıklar:\nA. ışık ışınlarını gözlerden uzağa yansıtarak\nB. gözlere daha fazla ışık ışınını kırarak\nC. gözlere daha fazla ışık ışınını yansıtır\nD. ışık ışınlarını gözden uzağa doğru kırarak,A,D
398,Bunlardan hangisi karışımdır?\nŞıklar:\nA. tuzlu su\nB. şeker\nC. su buharı\nD. tuz,A,A


In [5]:
arc_10shot_result[arc_10shot_result['true_short_answer'] == arc_10shot_result['predicted_short_answer']].shape[0]

235

In [6]:
arc_10shot_result[arc_10shot_result['true_short_answer'] == arc_10shot_result['predicted_short_answer']].shape[0] / arc_10shot_result.shape[0]*100

58.75

In [7]:
arc_10shot_result.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   question                400 non-null    object
 1   true_short_answer       400 non-null    object
 2   predicted_short_answer  400 non-null    object
dtypes: object(3)
memory usage: 9.5+ KB


In [8]:
# arc_10shot_result['true_short_answer'] = pd.to_numeric(arc_10shot_result['true_short_answer'], errors='coerce')
# arc_10shot_result['predicted_short_answer'] = pd.to_numeric(arc_10shot_result['predicted_short_answer'], errors='coerce')

# arc_10shot_result[gsm8k_10shot_result['true_short_answer'] == arc_10shot_result['predicted_short_answer']].shape[0]/ arc_10shot_result.shape[0]*100

In [9]:
# arc_10shot_result.info()

#### Hellaswag Dataset

Hugginface "malhajar/hellaswag-tr" Dataset: https://huggingface.co/datasets/malhajar/hellaswag-tr  

In [10]:
hellaswag_10shot_result = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "hellaswag", "hellaswag_10shot_results.csv"))
hellaswag_10shot_result

Unnamed: 0,question,true_short_answer,predicted_short_answer
0,"[başlık] Bir moda tasarımı portföyü nasıl hazırlanır [başlık] Nelerin dahil edileceğine ilişkin talimatlar veya rehberlik için kontrol edin. [adım] Bir tasarım programına başvuruyorsanız, portföyünüzde ne görmek istediklerine dair iyi bir fikir vermelidirler. Profesyonel bir portföy tasarlıyorsanız açık talimatlarınız olmayabilir.\nŞıklar:\nA- Ancak, bilgiyi bulmanın ve onu her zamankinden daha iyi derinlemesine açıklamanın gerektiğini unutmayın. Burada size rehberlik etmek için kullanabileceğiniz bazı yararlı rehberlik broşürleri bulunmaktadır.\nB- Genel olarak yaratıcı araştırmayı, 3 boyutluyu 2 boyutluya çevirme yeteneğinizi gösteren çizimleri, renk çalışmalarını ve varsa yaptığınız 3 boyutlu çalışmanın fotoğraflarını eklemelisiniz. [alt adımlar] Portföyünüzü, yapmak istediğiniz belirli uygulamaya veya iş türüne göre uyarlayın.\nC- Ne ekleyeceğinizden emin değilseniz sorun. Farklı insanlardan öğrenecek deneyiminiz var mı yoksa doğru iş türünü bulmak için profesyonel deneyime mi ihtiyacınız var? [alt adımlar] Mükemmel, uygulanabilir ürünleriniz olduğundan emin olun.\nD- İstediğiniz çözüm noktasına ulaşmak için birine tüyo vermeniz gerekebilir. [alt adımlar] Profesyonel bir portföy tasarlıyor olsanız bile yine de profesyonel olmanız gerektiğini unutmayın.",B,B
1,"[header] Okulda nasıl favori öğretmen olunur? [title] Mantıklı olun. [adım] Öğrenciler kararlı ama adil olan öğretmenlere yanıt verirler. Küçük ihlallerden dolayı çocukları çok fazla azarlamayın; makul olun ve onları sorumlu tutun, ancak aşırıya kaçmayın.\nŞıklar:\nA- Onları sık sık cezalandırsanız bile yine de iyi bir öğretmen olabilirsiniz. [alt adımlar] İlk gününde kaba davranan çocukları eleştirmeyin.\nB- Boyunca saygılı bir tavır sergileyin; karşılığında aynısını alma olasılığınız daha yüksektir. İmajınızı bozacağından sınıfın önünde çocukları aşağılayıcı herhangi bir kelime kullanmadığınızdan emin olun.\nC- Araştırmalar, öğrencileri sinirlendirmenin onların olumsuz öz saygı geliştirmelerine veya başka türlü sahip olamayacakları öğretmenlerle benzerliklerini sorgulamalarına yol açabileceğini göstermiştir. [başlık] Okuma ve öğrenme arasındaki farklara ilişkin temel anlayışı oluşturun.\nD- Bir hatayı düzeltme fırsatı verilmeden önce her öğrenciye her ödevi tamamlama sırası verin. [alt adımlar] Öğretmen olduğunuzda, örneğin masa oyunundan önce pasif bir şekilde azarlamayın.",B,B
2,"[header] Alışveriş merkezinde bir çocuk nasıl bulunur [title] Çocuğun gerçekten kaybolup kaybolmadığını belirleyin. [adım] Çocukların gerçekten oyunbaz doğaları vardır ve alışveriş merkezleri biraz eğlenmek için birçok fırsat sunar. Çocuğun adını söyleyerek yakın çevrenize bir göz atın.\nŞıklar:\nA- O, köşede ellerine geçen her şeyle oynuyor olabilir. Hatta bazen eğlenmek için sizden saklanabilirler.\nB- Ayrıca çocuğun ebeveynlerinin de sizi götürmesine izin verebilirsiniz, çünkü eğer yüzlerinde bir gülümsemeyle çocuk hakkında sorular sorarlarsa bu daha eğlenceli olabilir. [alt adımlar] Ayrıca çocuğun bir akrabanın yanında mı yaşadığını, adını söyleyerek veya bu kişinin annesi olup olmadığını öğrenin.\nC- Bir alışveriş merkezinde çocuk bulma konusunda yardıma ihtiyacınız varsa, örneğin bir okul öğrencisinin koltuk istemesi durumunda, çocuğa çocuğun alışveriş merkezinde nerede yürüdüğünü sorun. Çocuğunuz odasında görünüyorsa, çocuk kaybolmayabilir ve etrafta dolaşmayabilir.\nD- Zaten alışveriş merkezinde oynayıp oynamadıklarını görün. [title] Çocuğun çocuk olup olmadığını öğrenin.",A,C
3,Balıkçılık yemleriyle ilgili bir video için ekrana bir tanıtım geliyor. birkaç adam\nŞıklar:\nA- Kamera büyük bir nehrin etrafında dönerken balık yakalamaya çalışırken gösteriliyor.\nB- Buzda balık tutmak için kullandıkları farklı yemleri gösterin.\nC- Karanlıkta balık tutarken ve yemleri suya yerleştirirken ve dalışlarının sonuna doğru giderken çeşitli numaralar yaparken gösteriliyor.\nD- yemlerini yakıp kayalara konan balıkları yakalamaya çalışırken gösteriliyor.,B,C
4,Birçok insan sahilde. Bir adam suya taklalar atmaya başlar. O\nŞıklar:\nA- snowboard yapıyor.\nB- bir köpeğe yaklaşır.\nC- bunu birçok farklı kez yapıyor.\nD- daha sonra birkaç rampa daha koşar.,C,C
...,...,...,...
395,"[header] Vejetaryen olmaya karar verdiğinizde iyi niyetli arkadaşlarınız ve ailenizle nasıl başa çıkabilirsiniz? [title] İnançlarınıza sadık kalın. [adım] Vejetaryen olmanın sizin için neden önemli olduğundan emin olun. Vejetaryen olmaya karar verdiğinizde, ailenizden ve arkadaşlarınızdan bazıları bu yaşam tarzını neden seçtiğinizi anlamayabilir veya buna katılmayabilir.\nŞıklar:\nA- Neden bu yaşam tarzını seçmeniz gerektiğini anlamayan biriyle ilişki içindeyseniz, onun bunu inançlarınıza saygı duymadığı için yaptığını varsaymayın. Yine size kalmış.\nB- Eğer kendinizden emin değilseniz o zaman ikna edilmeniz mümkün olabilir. [title] Arkadaşlarınıza ve ailenize nasıl hissettiğinizi ve neden vejetaryen yaşam tarzına geçmek istediğinizi bildirin.\nC- İnsanların da sizin kadar vejetaryen veya vegan olduğundan emin olmak için aşağıdaki adımlara bakın. [alt adımlar] Her türlü küfür veya küfürden uzak durun.\nD- Ya senden hoşlanmıyorlar ya da vejeteryan olduğun fikrini desteklemiyorlar. Kendinizi bu pozisyonlara sokmadığınızdan emin olun.",B,B
396,Kırmızılı sarılı bir adam kulpta hızla dönüyor. Bir adamın kulptan inip kollarını havaya kaldırdığını görüyoruz. Biz\nŞıklar:\nA- ardından kapanış sahnelerine bakın.\nB- bir yönlendirme ekranına bakın.\nC- arkadaşının selam vermek için ayağa fırladığını görüyor.\nD- yarış pistinde ata binen insanları görün.,A,C
397,"[header] Kedinizi nasıl şımartabilirsiniz [title] Kedinizle bir diş fırçalama ritüeli geliştirin. [adım] Kediniz, kürkünü fırçalarken yaptığınız ritmik, önden arkaya hareketinize bayılacak. Kedinizi şımartmanın bir yolu olmasının yanı sıra, tüylerini fırçalamak birkaç pratik amaca da hizmet eder: cildini canlandırmak, tüylerini temizlemek, doğal yağları tüylerine yaymak ve dolaşmayı önlemek.\nŞıklar:\nA- Her gün bir fırçalama rutini uygulayarak başlayın. Bu, saçlarının kısa kesilmesine ve ölü derinin dökülmesine yardımcı olacaktır.\nB- [alt adımlar] Pamuk bazlı veya yün bazlı bir fırça seçin. Pamuklu olmayan kılların temizlenmesi daha kolay olabilir çünkü çıkarılması daha zordur ve genellikle diğer fırça fırçalarına göre iz veya iz bırakma olasılıkları daha azdır.\nC- [alt adımlar] Kedinizi daha önce hiç fırçalamadıysanız, ilk seansı kısa tutun (5 ila 10 dakika). Onu fırçalarken daha rahat hale geldikçe süreyi uzatabilirsiniz.\nD- [alt adımlar] Kedinizin kürkünü çenesinin altına fırçalayın. Bu, yaşlanan kediler için özellikle önemlidir, çünkü tüylerin uzaması artık ölmektedir ve onun sağlıklı ve esnek görünmesini sağlamanız gerekir.",C,C
398,Kameraya konuşan ve elinde ip tutan bir adam görülüyor. adam\nŞıklar:\nA- Vücudun bir tarafıyla ip atlamaya başlar ve dizlerinin üzerinde zıplayarak atlama ipini defalarca atlar.\nB- İpi birçok kez geçerken çeşitli nesnelerin etrafında döndürmeye başlar ve sonunda atlama ipinin üzerinden geçerek sona erer.\nC- daha sonra hulahop hareketi yaparken iplerin üzerinde zıplamaya başlar.\nD- ipi her tarafa sallarken sürekli ip atlamaya başlar.,D,B


In [11]:
hellaswag_10shot_result[hellaswag_10shot_result['true_short_answer'] == hellaswag_10shot_result['predicted_short_answer']].shape[0]

175

In [12]:
hellaswag_10shot_result[hellaswag_10shot_result['true_short_answer'] == hellaswag_10shot_result['predicted_short_answer']].shape[0] / hellaswag_10shot_result.shape[0]*100

43.75

In [13]:
hellaswag_10shot_result.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   question                400 non-null    object
 1   true_short_answer       400 non-null    object
 2   predicted_short_answer  400 non-null    object
dtypes: object(3)
memory usage: 9.5+ KB


In [14]:
# hellaswag_10shot_result['true_short_answer'] = pd.to_numeric(hellaswag_10shot_result['true_short_answer'], errors='coerce')
# hellaswag_10shot_result['predicted_short_answer'] = pd.to_numeric(hellaswag_10shot_result['predicted_short_answer'], errors='coerce')

# hellaswag_10shot_result[gsm8k_10shot_result['true_short_answer'] == hellaswag_10shot_result['predicted_short_answer']].shape[0]/ hellaswag_10shot_result.shape[0]*100

In [15]:
# hellaswag_10shot_result.info()

#### GSMK8K Dataset

Hugginface "malhajar/gsm8k_tr-v0.2" Dataset: https://huggingface.co/datasets/malhajar/gsm8k_tr-v0.2

In [16]:
gsm8k_10shot_result = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "gsm8k", "gsm_10shot_results.csv"))
gsm8k_10shot_result

Unnamed: 0,question,true_short_answer,predicted_short_answer
0,"Amca Ben'in dört atı var. Her at öğün başına beş pound yulaf tüketebilir. Atlarını günde iki kez besler. Bir çuvalda 50 pound yulaf varsa, atlarını beş gün boyunca beslemek için kaç çuval yulafa ihtiyacı vardır?",4,40
1,"Bir yerel kasaba genişliyor ve önümüzdeki üç yıl boyunca birkaç yeni ev inşa etmek istiyor. İlk yıl, 12 ev inşa edecekler. Ertesi yıl, bu sayının üç katı kadar ev inşa edecekler. Üçüncü yıl, inşa ettikleri ev sayısını sayacak ve miktarı ikiye katlayacaklar. Kasaba önümüzdeki üç yıl içinde kaç ev inşa etmiş olacak?",144,96
2,"Amber, Micah ve Ahito toplamda 52 mil koştu. Amber 8 mil koştu. Micah, Amber'ın koştuğunun 3.5 katı kadar koştu. Ahito kaç mil koştu?",16,27.5
3,"İki araba bir otobanda seyahat ediyor. İlk araba saatte ortalama 60 mil hızla giderken, ikinci araba saatte ortalama 70 mil hızla onu geçiyor. Her iki araç da aynı hızla otobanda yol almaya devam ederse, 2 saat sonra aralarında kaç mil mesafe olacak?",20,40
4,"Hızlı ve Öfkeli serisinden 9 film var, Deepa her birini sinemada üç kez izlemiş. Bu filmleri izlemek için 216 dolar harcamış. Bilet başına ortalama ne kadar ödemiş?",8,8.0
...,...,...,...
395,"Sepette 10 yumurta varsa ve ikinci sepette iki kat daha fazla yumurta varsa, her iki sepet birleştirildiğinde toplam kaç yumurta vardır?",30,30
396,"Bill yeni bir akış hizmetine kaydoluyor. İlk 6 ay için ayda 8 dolarlık özel bir tanıtım anlaşması aldı, sonra fiyat normal ayda 12 dolarlık fiyata çıktı. Normal oranın 8 ayından sonra, hizmetin fiyatı ayda 14 dolara çıktı. İki yıl boyunca hizmetin maliyeti ne kadar oldu?",284,594
397,"Jennifer pazardan 12 portakal aldı, üç kızına her birine 2 portakal verdi ve tek oğluna 3 portakal verdi. Jennifer'ın kaç portakalı kaldı?",3,5
398,Brett 14 yaşında. Dört yıl sonra kız kardeşi Angela onun şu anki yaşının üç katı kadar yaşında olacak. Angela şu anda kaç yaşında?,38,22


In [17]:
gsm8k_10shot_result[gsm8k_10shot_result['true_short_answer'] == gsm8k_10shot_result['predicted_short_answer']].shape[0]

29

In [18]:
gsm8k_10shot_result[gsm8k_10shot_result['true_short_answer'] == gsm8k_10shot_result['predicted_short_answer']].shape[0] / gsm8k_10shot_result.shape[0]*100

7.249999999999999

In [19]:
gsm8k_10shot_result.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
 #   Column                  Non-Null Count  Dtype 
---  ------                  --------------  ----- 
 0   question                400 non-null    object
 1   true_short_answer       400 non-null    object
 2   predicted_short_answer  400 non-null    object
dtypes: object(3)
memory usage: 9.5+ KB


In [20]:
gsm8k_10shot_result['true_short_answer'] = pd.to_numeric(gsm8k_10shot_result['true_short_answer'], errors='coerce')
gsm8k_10shot_result['predicted_short_answer'] = pd.to_numeric(gsm8k_10shot_result['predicted_short_answer'], errors='coerce')

gsm8k_10shot_result[gsm8k_10shot_result['true_short_answer'] == gsm8k_10shot_result['predicted_short_answer']].shape[0]/ gsm8k_10shot_result.shape[0]*100

8.75

In [21]:
gsm8k_10shot_result.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 400 entries, 0 to 399
Data columns (total 3 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   question                400 non-null    object 
 1   true_short_answer       397 non-null    float64
 2   predicted_short_answer  384 non-null    float64
dtypes: float64(2), object(1)
memory usage: 9.5+ KB


## Embedding (Size=10) Result

### Arc Dataset

#### Ensemble Method-1: 10 Örnekten Tekrarlı 10’lu Seçimler (Replacement=True)

In [22]:
df_ens_1 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "arc", f"arc_10shot_ens_1_{i}_result.csv"))
    df_ens_1.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_1, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,D,D,D,D,D,D,D,D,4,4,D,4
1,2,C,C,C,C,C,C,C,C,C,C,C,A
2,3,C,C,C,C,C,C,C,C,C,C,C,C
3,4,C,C,C,C,C,C,C,C,C,C,C,C
4,5,C,D.,D,D,C,C,A,C,B,D,C,D
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,A,A,A,A,A,A,A,A,A,A,A,A
396,397,A,A,C,A,A,A,A,A,A,A,A,A
397,398,D,D,D,D,D,D,D,D,D,D,D,A
398,399,D,A,A,A,A,A,A.,A,A,A,A,A


In [23]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

243

In [24]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

60.75000000000001

#### Ensemble Method-2: 10 Örnekten 5’li Seçimler (Replacement=False)

In [25]:
df_ens_2 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "arc", f"arc_10shot_ens_2_{i}_result.csv"))
    df_ens_2.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_2, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,4,D,4.,D,4.,D,4,D,4,4,4,4
1,2,C,C,C,C,C,C,C,C,C,C,C,A
2,3,C,C,C,C,C,C,C,C,C,C,C,C
3,4,C,C,C,C,C,C,C,C,C,C,C,C
4,5,D,C,D,D,C,D,B,D,C,D,D,D
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,A,A,A,A,A,A,A,A,A,A,A,A
396,397,A,A,A,A,A,A,A,D,A,A,A,A
397,398,D,D,D,D,D,D,D,D,D,D,D,A
398,399,A,A,A,A,A,A,A,A,A,D,A,A


In [26]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

235

In [27]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

58.75

#### Ensemble Method-3: 10 Örnekten Tekrarsız 10’lu Seçimler (Replacement=False)

In [28]:
df_ens_3 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "arc", f"arc_10shot_ens_3_{i}_result.csv"))
    df_ens_3.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_3, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,4,D,D,D.,4,4,4,D,D,D,D,4
1,2,C,C,C,C,C,C,C,C,C,C,C,A
2,3,C,C,C,C,D.,C,C,C,C,C,C,C
3,4,C,C,C,C,C,C,C,C,C,C,C,C
4,5,"A, B, D","A, B, D",D,C,D,C,D,D,B,D,D,D
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,A,A,"A, C, D",A,A,A,A,"A, D, C",A,A,A,A
396,397,A,A,A,A,A.,A,A,A,A,A,A,A
397,398,D,D,D,D,D.,D,D,D,D,D,D,A
398,399,A.,A,A,A,A.,A,A,A,A.,A.,A,A


In [29]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

218

In [30]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

54.50000000000001

### Hellaswag Dataset

#### Ensemble Method-1: 10 Örnekten Tekrarlı 10’lu Seçimler (Replacement=True)

In [31]:
df_ens_1 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "hellaswag", f"hellaswag_10shot_ens_1_{i}_result.csv"))
    df_ens_1.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_1, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,B,B,B,B,B,B,B,B,B,B,B,B
1,2,B,B,B,B,B,B,B,B,B,B,B,B
2,3,C,C,A,A,C,C,A,A,C,B,C,A
3,4,C,C,C,C,C,C,C,C,C,C,C,B
4,5,C,C,C,C,C,C,C,C,C,C,C,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,B,B,B,B,B,B,B,B,B,B,B,B
396,397,C,C,C,C,C,C,C,C,C,C,C,A
397,398,C,C,C,C,C,C,C,C,C,C,C,C
398,399,B,D,B,B,C,D,B,B,B,D,B,D


In [32]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

189

In [33]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

47.25

#### Ensemble Method-2: 10 Örnekten 5’li Seçimler (Replacement=False)

In [34]:
df_ens_2 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "hellaswag", f"hellaswag_10shot_ens_2_{i}_result.csv"))
    df_ens_2.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_2, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,B,B,B,B,B,B,B,B,B,B,B,B
1,2,B,B,B,B,B,B,B,B,B,B,B,B
2,3,A,A,A,C,A,A,C,A,A,A,A,A
3,4,C,C,C,C,C,C,C,C,C,C,C,B
4,5,C,C,C,C,C,C,C,C,C,C,C,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,B,B,B,B,B,B,B,B,B,B,B,B
396,397,C,C,C,C,C,C,C,C,C,C,C,A
397,398,C,C,C,C,C,C,C,C,C,C,C,C
398,399,B,B,B,C,B,B,B,B,B,B,B,D


In [35]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

201

In [36]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

50.24999999999999

#### Ensemble Method-3: 10 Örnekten Tekrarsız 10’lu Seçimler (Replacement=False)

In [37]:
df_ens_3 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "hellaswag", f"hellaswag_10shot_ens_3_{i}_result.csv"))
    df_ens_3.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_3, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,B,B,B,B,B,B,B,B,B,B,B,B
1,2,B,B,B,B,B,B,B,B,B,B,B,B
2,3,A,A,B,C,A,A,A,C,B,A,A,A
3,4,C,C,C,C,C,C,C,C,C,C,C,B
4,5,C,C,C,C,C,C,C,C,C,C,C,C
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,B,B,B,B,B,B,B,B,B,B,B,B
396,397,C,C,C,C,C,C,C,C,C,C,C,A
397,398,C,C,C,C,C,C,C,C,C,C,C,C
398,399,B,B,B,B,B,B,B,B,B,B,B,D


In [38]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

203

In [39]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

50.74999999999999

### GSM8K Dataset

#### Ensemble Method-1: 10 Örnekten Tekrarlı 10’lu Seçimler (Replacement=True)

In [40]:
df_ens_1 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "gsm8k", f"gsm_10shot_ens_1_{i}_result.csv"))
    df_ens_1.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_1, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,40,40,40,40,40,16,20.0,20,40,20,40,4
1,2,74,82,98,94,800,86,124,104,93,18,104,144
2,3,24.5,21.0,23.5,15.0,21.0,18.5,21.0,48,21.0,20.5,21.0,16
3,4,50,144,100,100,100,40,40,100,1500,100,100,20
4,5,8.0,12.0,24.0,24,8.0,8.0,12.0,12.0,8.0,8.0,8.0,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,30,40,30,30,240,30,40,30,60,30,30,30
396,397,432.0,5760,312.0,8640,432.0,840,552,3660,780.0,5760,432.0,284
397,398,9,7,8,7,5,5,7,4,9,6,7,3
398,399,21,24,18,21,24,21,19,21,21,18,21,38


In [41]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

28

In [42]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

7.000000000000001

#### Ensemble Method-2: 10 Örnekten 5’li Seçimler (Replacement=False)

In [43]:
df_ens_2 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "gsm8k", f"gsm_10shot_ens_2_{i}_result.csv"))
    df_ens_2.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_2, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,40,40,40,40,40,40,40,20.0,40.0,40.0,40,4
1,2,64,96,88,104,86,126,86,74,120,92,86,144
2,3,16.5,25.5,21.0,25.0,21.0,15.5,20.5,26.5,15.5,18.5,15.5,16
3,4,100.,100,100,40,100,80,100,100,100,20.0.,100,20
4,5,8.0,8.0,12.0,12.0,12.0,12.0,8.0,8.0,12.0,8.0,12.0,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,40,60,30,40,30,40,30,40,30,30,30,30
396,397,396,312,420.0,840,540,864.0,414,528,744,456,312,284
397,398,6,7,7,7,9,7,7,9,7,9,7,3
398,399,18,24,21,21,21,21,21,24,24,18,21,38


In [44]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

27

In [45]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

6.75

#### Ensemble Method-3: 10 Örnekten Tekrarsız 10’lu Seçimler (Replacement=False)

In [46]:
df_ens_3 = []

for i in range(1, 11):
    df = pd.read_csv(os.path.join(OUTPUT_DATA_PATH, "gsm8k", f"gsm_10shot_ens_3_{i}_result.csv"))
    df_ens_3.append(df)

df_combined = pd.DataFrame()
df_combined['SoruNo'] = range(1, 401)

for i, df in enumerate(df_ens_3, start=1):
    df_combined[f'Emb_{i}'] = df['predicted_short_answer']

df_combined['ModAnswer'] = df_combined.loc[:, 'Emb_1':'Emb_10'].mode(axis=1)[0]
df_combined['RealAnswer'] = df['true_short_answer']
df_combined

Unnamed: 0,SoruNo,Emb_1,Emb_2,Emb_3,Emb_4,Emb_5,Emb_6,Emb_7,Emb_8,Emb_9,Emb_10,ModAnswer,RealAnswer
0,1,40,40,40,40,20,40,40,40,40,20,40,4
1,2,128,99,90,72,120,120,99,98,86,93,120,144
2,3,20.5,15.5,24.5,24.5,21.0,18.5,20.5,15.5,21.5,15.5,15.5,16
3,4,100,100,100,100,40,100.,40,100,40,100,100,20
4,5,8.0,12.0,8.0,24.0,24.0,12.0,12.0,8.0,24.0,12.0,12.0,8
...,...,...,...,...,...,...,...,...,...,...,...,...,...
395,396,40,40,40,40,40,30,40,30,40,40,40,30
396,397,546,420,420,312,462,432,552,3120,540,546,420,284
397,398,6,6,7,7,7,7,6,5,6,5,6,3
398,399,21,19,22,21,21,21,21,22,21,18,21,38


In [47]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0]

28

In [48]:
df_combined[df_combined['ModAnswer'] == df_combined['RealAnswer']].shape[0] / df_combined.shape[0] * 100

7.000000000000001

## Performance

### ARC

|                     | Shot Size | Replacement | True | False | Test Sample | Accuracy  |
|---------------------|-----------|-------------|------|-------|-------------|-----------|
| **10 Shot**         | 10        | Yok         | 235  | 165   | 400         | 58,75%    |
| **Ensemble-1 (Size=10)** | 10        | Var         | 243  | 157   | 400         | **60,75%** |
| **Ensemble-2 (Size=10)** | 5         | Yok         | 235  | 165   | 400         | 58,75%    |
| **Ensemble-3 (Size=10)** | 10        | Yok         | 218  | 182   | 400         | 54,50%    |


### HellaSwag

|                     | Shot Size | Replacement | True | False | Test Sample | Accuracy  |
|---------------------|-----------|-------------|------|-------|-------------|-----------|
| **10 Shot**         | 10        | Yok         | 175  | 225   | 400         | 43,75%    |
| **Ensemble-1 (Size=10)** | 10        | Var         | 189  | 211   | 400         | 47,25%    |
| **Ensemble-2 (Size=10)** | 5         | Yok         | 201  | 199   | 400         | 50,25%    |
| **Ensemble-3 (Size=10)** | 10        | Yok         | 203  | 197   | 400         | **50,75%** |


### GSM8K

|                     | Shot Size | Replacement | True | False | Test Sample | Accuracy  |
|---------------------|-----------|-------------|------|-------|-------------|-----------|
| **10 Shot**         | 10        | Yok         | 29   | 371   | 400         | **7,25%** |
| **Ensemble-1 (Size=10)** | 10        | Var         | 28   | 372   | 400         | 7,00%     |
| **Ensemble-2 (Size=10)** | 5         | Yok         | 27   | 373   | 400         | 6,75%     |
| **Ensemble-3 (Size=10)** | 10        | Yok         | 28   | 372   | 400         | 7,00%     |
