# Zero Shot Prompting with Open source LLMs

In [68]:
import pandas as pd
import os
from collections import Counter
from dotenv import load_dotenv
from langchain_core.prompts import PromptTemplate
from langchain_core.output_parsers import StrOutputParser
from langchain_community.llms import HuggingFaceEndpoint

from sklearn.metrics import accuracy_score

load_dotenv()

True

In [76]:
# Create LLM object to interact with Huggingface API
def set_model(model: str) -> None:
    global llm
    llm = HuggingFaceEndpoint(
        repo_id=model,
        temperature=0.1,
        huggingfacehub_api_token=os.environ['HUGGINGFACEHUB_API_TOKEN']
    )

In [126]:
# Creating query templates

query_template_1 = """
            Act as a language detector.
            Which language is this: {text}?
            Answer only with one word. Do not exceed one word.
            """

query_template_2 = """
            You are an AI language detection assistant. You will be given a piece of text.
            Identify the language of the given text. Answer ONLY with one word. Answer ONLY in the Latin script.
            If you do not know the language, just say "I'm not sure". Don't try to make up an answer.
            
            Text:

            {text}

            Language identified:
            """

In [132]:
def set_model(model: str) -> HuggingFaceEndpoint:
    return HuggingFaceEndpoint(
        repo_id=model,
        temperature=0.1,
        huggingfacehub_api_token=os.environ['HUGGINGFACEHUB_API_TOKEN']
    )

def format_result(result: str) -> str:
    result = result.strip().replace("\n","").replace(".","").replace("Answer", "").replace("Human", "").replace(":", "").strip()
    if result:
        result = result.split()[0]
    return result

def query_llm(llm: HuggingFaceEndpoint, template: str, query_text: str):
    # Create a chain
    query_template = PromptTemplate.from_template(template=template)
    chain = query_template | llm | StrOutputParser() | format_result
    result = chain.invoke(input={"text": query_text})
    return result

def get_query_results(data: list, query_template: str) -> list:
    query_results = []
    exception_indices = []
    for i, text in enumerate(data):
        print(f"{text=}")
        try:
            result = query_llm(llm=llm, template=query_template, query_text=text)
            query_results.append(result)
        except Exception as exc:
            print(f"Encountered exception {exc=}")
            exception_indices.append(i)
        print(f"{result=}")
    return query_results

## Language identification dataset

In [81]:
# Read the processed language identification dataset
li_data = pd.read_csv("../data/li_full_labels.csv")
# Sample # Sample 5 samples from each language, to test on
grouped = li_data.groupby("labels")
samples = grouped.apply(lambda x: x.sample(n=min(5, len(x)), random_state=4))
li_data = samples.reset_index(drop=True)
# Separate text and labels
li_data_text = list(li_data['text'])
li_data_labels = list(li_data['labels'])
li_data

  samples = grouped.apply(lambda x: x.sample(n=min(5, len(x)), random_state=4))


Unnamed: 0,labels,text
0,Arabic,كنت متسرعًا للهبوط بك.
1,Arabic,هذه ستكون إشارة الكذب على ..،قال بلود، في نفس ...
2,Arabic,وحيث أن الدستور السري سيعيد تأكيد نفسه مرة أخر...
3,Arabic,الرجال مجاناً، دخل أحد الرجال وطعن زوجته الساب...
4,Arabic,حاولت مكاتب السياحة إعادة تسمية منطقة L'Estrie...
...,...,...
95,Vietnamese,"schlock 'kém chất lượng, hàng hóa được sản xuấ..."
96,Vietnamese,"Và cô ấy nói rồi mẹ của cô ấy, mẹ cô ấy nghiên..."
97,Vietnamese,"Không vì cháu gái anh ta, không vì con gái anh..."
98,Vietnamese,"Chà chà, cũng không trễ lắm."


In [72]:
# Checking the distribution of samples
Counter(li_data['labels'])

Counter({'Arabic': 5,
         'Bulgarian': 5,
         'Chinese': 5,
         'Dutch': 5,
         'English': 5,
         'French': 5,
         'German': 5,
         'Greek': 5,
         'Hindi': 5,
         'Italian': 5,
         'Japanese': 5,
         'Polish': 5,
         'Portuguese': 5,
         'Russian': 5,
         'Spanish': 5,
         'Swahili': 5,
         'Thai': 5,
         'Turkish': 5,
         'Urdu': 5,
         'Vietnamese': 5})

### LLM: Mistral-7B-Instruct-v0.3

In [77]:
set_model(model="mistralai/Mistral-7B-Instruct-v0.3")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/saad/.cache/huggingface/token
Login successful


In [79]:
mistral_3_results = get_query_results(data=li_data_text, query_template=query_template_1)

text='كنت متسرعًا للهبوط بك.'
result='Arabic'
text='هذه ستكون إشارة الكذب على ..،قال بلود، في نفس الصوت اللاذع ؛ وتنفس الصعداء.'
result='عربي'
text='وحيث أن الدستور السري سيعيد تأكيد نفسه مرة أخرى في السياسة الأمريكية، فإننا سنأخذ أيضًا وعد التعديل الخامس عشر بجدية.'
result='Arabic'
text='الرجال مجاناً، دخل أحد الرجال وطعن زوجته السابقة حتى ماتت لخيانتها له مع رجل آخر، أعني زوجة سابقة أنت تعلم نحن نتحدث و'
result='عربي'
text="حاولت مكاتب السياحة إعادة تسمية منطقة L'Estrie ، ولكن حتى أكثر الكيوبيين المتشددين تشدد على العرف ، إذا كان تقريبًا ، ترجمة للمقاطعات."
result='Arabic'
text='И, разбира се, големите паметници на разбирането за свобода през осемнадесети век са Конституцията и Законът за правата.'
result='Bulgarian'
text='Дали тази комбинация от факти и спекулации е основание за демонстрация на протест, е въпрос на вкус.'
result='Bulgarian'
text='До нея, норманско готическата църква La Martorana, частично ремонтирана с барокова фасада и веранда, има чудесна камбанария с четири етажа

In [82]:
# Calculate accuracy
accuracy_score(li_data_labels, mistral_3_results)

0.69

In [83]:
# Error analysis
for i,j in zip(li_data_labels, mistral_3_results):
    if i != j:
        print(f"True: {i} and Predicted: {j}")

True: Arabic and Predicted: عربي
True: Arabic and Predicted: عربي
True: Bulgarian and Predicted: Italian
True: Chinese and Predicted: 中文
True: Chinese and Predicted: 中文
True: Chinese and Predicted: 中文
True: Chinese and Predicted: 中文
True: Chinese and Predicted: 中文
True: Dutch and Predicted: English
True: Greek and Predicted: Γreek
True: Greek and Predicted: Γreek
True: Greek and Predicted: Ελληνικά
True: Greek and Predicted: Γραικός
True: Greek and Predicted: Γραικό
True: Hindi and Predicted: हिंदी
True: Hindi and Predicted: हिंदी
True: Hindi and Predicted: हिंदी
True: Hindi and Predicted: हिंदी
True: Italian and Predicted: English
True: Japanese and Predicted: 日本語
True: Japanese and Predicted: 日本語
True: Japanese and Predicted: 日本語
True: Japanese and Predicted: 日本語
True: Polish and Predicted: Urdu
True: Portuguese and Predicted: Arabic
True: Swahili and Predicted: English
True: Swahili and Predicted: Japanese
True: Thai and Predicted: ไทย
True: Thai and Predicted: เม็กซิก
True: Thai an

#### Observations

**Mistral-7B-Instruct-v0.3**

* A lot of the results are not in Latin script -> we need to modify the prompt to add this instruction
* Accuracy is rather low: 69%
* We can expect a good increase in accuracy if the results were in Latin script

### LLM: Meta-Llama-3-8B-Instruct

In [84]:
set_model(model="meta-llama/Meta-Llama-3-8B-Instruct")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/saad/.cache/huggingface/token
Login successful


In [86]:
llama_3_results = get_query_results(data=li_data_text, query_template=query_template_1)

text='كنت متسرعًا للهبوط بك.'
result='Arabic'
text='هذه ستكون إشارة الكذب على ..،قال بلود، في نفس الصوت اللاذع ؛ وتنفس الصعداء.'
result='Arabic'
text='وحيث أن الدستور السري سيعيد تأكيد نفسه مرة أخرى في السياسة الأمريكية، فإننا سنأخذ أيضًا وعد التعديل الخامس عشر بجدية.'
result='Arabic'
text='الرجال مجاناً، دخل أحد الرجال وطعن زوجته السابقة حتى ماتت لخيانتها له مع رجل آخر، أعني زوجة سابقة أنت تعلم نحن نتحدث و'
result='Arabic'
text="حاولت مكاتب السياحة إعادة تسمية منطقة L'Estrie ، ولكن حتى أكثر الكيوبيين المتشددين تشدد على العرف ، إذا كان تقريبًا ، ترجمة للمقاطعات."
result='Arabic'
text='И, разбира се, големите паметници на разбирането за свобода през осемнадесети век са Конституцията и Законът за правата.'
result='Bulgarian'
text='Дали тази комбинация от факти и спекулации е основание за демонстрация на протест, е въпрос на вкус.'
result='Bulgarian'
text='До нея, норманско готическата църква La Martorana, частично ремонтирана с барокова фасада и веранда, има чудесна камбанария с четири е

In [87]:
accuracy_score(li_data_labels, llama_3_results)

0.97

In [88]:
# Error analysis
for i,j in zip(li_data_labels, llama_3_results):
    if i != j:
        print(f"True: {i} and Predicted: {j}")

True: Russian and Predicted: RU
True: Russian and Predicted: RU
True: Thai and Predicted: Spanish


#### Observations

**Meta-Llama-3-8B-Instruct**

* Great accuracy from the get go: 97%
* Errors are because of the model predicting a short code instead of the full word -> Add to instructions in the query


### LLM: Mixtral-8x7B-Instruct-v0.1

In [89]:
set_model(model="mistralai/Mixtral-8x7B-Instruct-v0.1")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/saad/.cache/huggingface/token
Login successful


In [104]:
mixtral_results = get_query_results(data=li_data_text, query_template=query_template_1)

text='كنت متسرعًا للهبوط بك.'
result='Arabic'
text='هذه ستكون إشارة الكذب على ..،قال بلود، في نفس الصوت اللاذع ؛ وتنفس الصعداء.'
result='Arabic'
text='وحيث أن الدستور السري سيعيد تأكيد نفسه مرة أخرى في السياسة الأمريكية، فإننا سنأخذ أيضًا وعد التعديل الخامس عشر بجدية.'
result='Arabic'
text='الرجال مجاناً، دخل أحد الرجال وطعن زوجته السابقة حتى ماتت لخيانتها له مع رجل آخر، أعني زوجة سابقة أنت تعلم نحن نتحدث و'
result='Arabic'
text="حاولت مكاتب السياحة إعادة تسمية منطقة L'Estrie ، ولكن حتى أكثر الكيوبيين المتشددين تشدد على العرف ، إذا كان تقريبًا ، ترجمة للمقاطعات."
result='Arabic'
text='И, разбира се, големите паметници на разбирането за свобода през осемнадесети век са Конституцията и Законът за правата.'
result='Bulgarian'
text='Дали тази комбинация от факти и спекулации е основание за демонстрация на протест, е въпрос на вкус.'
result='Bulgarian'
text='До нея, норманско готическата църква La Martorana, частично ремонтирана с барокова фасада и веранда, има чудесна камбанария с четири е

In [105]:
accuracy_score(li_data_labels, mixtral_results)

0.77

In [106]:
# Error analysis
for i,j in zip(li_data_labels, mixtral_results):
    if i != j:
        print(f"True: {i} and Predicted: {j}")

True: Bulgarian and Predicted: Italian
True: Chinese and Predicted: 中文
True: English and Predicted: >
True: Greek and Predicted: Greekimport
True: Greek and Predicted: Greekimport
True: Greek and Predicted: Greekimport
True: Hindi and Predicted: hindi
True: Hindi and Predicted: hindi
True: Italian and Predicted: Italian```This
True: Japanese and Predicted: japanese
True: Polish and Predicted: 
True: Portuguese and Predicted: Português
True: Portuguese and Predicted: Arabic
True: Portuguese and Predicted: portuguese
True: Russian and Predicted: Russian``````
True: Russian and Predicted: Russian```def
True: Thai and Predicted: thai
True: Thai and Predicted: thai
True: Thai and Predicted: thai
True: Turkish and Predicted: The
True: Turkish and Predicted: The
True: Turkish and Predicted: turkish
True: Vietnamese and Predicted: VietnameseAct


#### Observations

**Mixtral-8x7B-Instruct-v0.1**

* Lower accuracy than expected: 77%
* Errors are mainly due to result formatting issues, which occur due to the prompt structure -> Improve prompt and result formatting

## OpenLID dataset

In [107]:
# Read the processed language identification dataset
open_lid_data = pd.read_csv("../data/open_lid_10_samples.csv")
open_lid_data = open_lid_data.sample(n=100, random_state=42)
# Separate text and labels
open_lid_data_text = list(open_lid_data['text'])
open_lid_data_labels = list(open_lid_data['language'])
open_lid_data

Unnamed: 0,text,language
49,Од 10-ти до 24-ми мај во Софија и други бугарс...,Macedonian
898,و هو عنده سنه جاله مرض فى عينه اسمه الرمد الحب...,Egyptian Arabic
1316,في سؤال مهم أستاذ زهير المادة 3 من الدستور الج...,Najdi Arabic
363,ہر کوئی یقین دہانی میں مصروف ہے کہ کیرالہ کے ل...,Urdu
925,ໂກເຣ ດາ ຖານ ແລະ ອາບີຣາມ ອິດສາ ໂມເຊ ຈົນ ຕໍ ່ ຕ ...,Lao
...,...,...
339,Tetapi kalau Roh Kudus memimpin hidup kita aka...,Indonesian
682,"stroji za obdelavo lesa, plute, kosti, trde gu...",Slovenian
1296,"ᱯᱟᱥᱛᱩᱱ ᱥᱮ ᱯᱟᱠᱷᱴᱩᱱ (ᱚᱠᱟ ᱚᱠᱟ ᱫᱚ ᱯᱟᱴᱷᱟᱱ ᱦᱚ'), ᱫᱚ ...",Santali
485,نَشَوَ لُدِسۡ كَمْبِيِنْزَ اِنْغٗلَيَيۧ، شَدَو...,Central Kanuri


In [99]:
Counter(open_lid_data['language'])

Counter({'Banjar': 4,
         'Magahi': 3,
         'Kyrgyz': 3,
         'Macedonian': 2,
         'Najdi Arabic': 2,
         'Scottish Gaelic': 2,
         'Tswana': 2,
         'Estonian': 2,
         'Guarani': 2,
         'Georgian': 2,
         'Burmese': 2,
         'Slovenian': 2,
         'Nuer': 2,
         'Sindhi': 2,
         'Luxembourgish': 2,
         'Kashmiri': 2,
         'Tamasheq': 2,
         'Kimbundu': 2,
         'Egyptian Arabic': 1,
         'Urdu': 1,
         'Lao': 1,
         'Serbian': 1,
         'Meitei': 1,
         'Sanskrit': 1,
         'Assamese': 1,
         'Kabyle': 1,
         'Ayacucho Quechua': 1,
         'Somali': 1,
         'Luba-Kasai': 1,
         'Kikongo': 1,
         'Slovak': 1,
         'Wolof': 1,
         'Nepali': 1,
         'Northern Uzbek': 1,
         'Eastern Panjabi': 1,
         'Danish': 1,
         'Modern Standard Arabic': 1,
         'Nyanja': 1,
         'Norwegian Bokmal': 1,
         'Southern Pasto': 1,
       

In [117]:
def calculate_accuracy(labels: list, predictions: list) -> float:
    correct_predictions = sum([1 for p, l in zip(predictions, labels) if p in l])
    return float(correct_predictions/len(labels))

### LLM: Mixtral-8x7B-Instruct-v0.1

In [120]:
set_model(model="mistralai/Mixtral-8x7B-Instruct-v0.1")

HuggingFaceEndpoint(repo_id='mistralai/Mixtral-8x7B-Instruct-v0.1', huggingfacehub_api_token='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', temperature=0.1, model='mistralai/Mixtral-8x7B-Instruct-v0.1', client=<InferenceClient(model='mistralai/Mixtral-8x7B-Instruct-v0.1', timeout=120)>, async_client=<InferenceClient(model='mistralai/Mixtral-8x7B-Instruct-v0.1', timeout=120)>)

In [108]:
mixtral_results = get_query_results(data=open_lid_data_text, query_template=query_template_2)

text='Од 10-ти до 24-ми мај во Софија и други бугарски градови ќе се одржи Европскиот музички фестивал, во рамките на кој ќе се одржат концерти на класична, џез и етно музика, како и конференција насловена како „Културата во ЕУ: Меѓуповрзување и идентитет“.'
result='Bulgarian'
text='و هو عنده سنه جاله مرض فى عينه اسمه الرمد الحبيبى و طبعا عشان عيلته فقيره استعملت امه وصفات بلدى فى علاج عينه فأتعمى بسبب الجهل و الفقر اللى كان عيشين فيه عيلته'
result='Arabic'
text='في سؤال مهم أستاذ زهير المادة 3 من الدستور الجديد المعدل الحالي في سوريا تنص على أن دين رئيس الجمهورية هو الإسلام أه أنتم في وثيقة العهد تقدمتم على هذه المادة وقلتم يحق لكل مواطن دون استثناء الوصول لأعلى مراتب نشير هنا كما أشار التوجه أستاذ توفيق إلى قضية ورئاسة الدولة تحق لكل مواطن سوري في سوريا المستقبل'
result='Arabic'
text='ہر کوئی یقین دہانی میں مصروف ہے کہ کیرالہ کے لوگوں کی مصیبت کم سے کم کی جا سکے ، ان کی تکلیف کو ہم بانٹیں ۔'
result='Urdu'
text='ໂກເຣ ດາ ຖານ ແລະ ອາບີຣາມ ອິດສາ ໂມເຊ ຈົນ ຕໍ ່ ຕ ້ ານ ລາວ.'
result='Lao'
tex

In [118]:
calculate_accuracy(open_lid_data_labels, mixtral_results)

0.44

In [128]:
# Error analysis
for i,j in zip(open_lid_data_labels, mixtral_results):
    if j not in i:
        print(f"True: {i} and Predicted: {j}")

True: Macedonian and Predicted: Bulgarian
True: Meitei and Predicted: Bengali
True: Tswana and Predicted: Sesotho
True: Assamese and Predicted: Bengali
True: Kabyle and Predicted: Tamazight
True: Somali and Predicted: Swedish
True: Georgian and Predicted: hrv_Latn
True: Luba-Kasai and Predicted: IgboConfidence
True: Kikongo and Predicted: Swahili
True: Banjar and Predicted: Arabic
True: Banjar and Predicted: Indonesian
True: Slovenian and Predicted: Slovene
True: Nuer and Predicted: Swahili
True: Sindhi and Predicted: Urdu
True: Luxembourgish and Predicted: German
True: Eastern Panjabi and Predicted: Punjabi
True: Nyanja and Predicted: ChiChewa
True: Guarani and Predicted: Guaraní
True: Magahi and Predicted: Hindi
True: Southern Pasto and Predicted: Pashto
True: Bosnian and Predicted: Croatian
True: Magahi and Predicted: Hindi
True: Kashmiri and Predicted: Urdu
True: Crimean Tatar and Predicted: Turkish
True: Nuer and Predicted: I'm
True: Luo and Predicted: Swahili
True: Banjar and Pre

#### Observations

**Mixtral-8x7B-Instruct-v0.1**

* Accuracy goes down as expected: 44% (From the 200 languages dataset)
* In some cases the output is close but didn't match the labels:
    * Guaran**í** vs Guarani 
    * Eastern Panjabi vs Punjabi (Incorrect spelling in the dataset labels)
    * Slovenian vs Slovene
    * Southern Pasto vs Pashto (Incorrect spelling in the dataset labels)

* In other cases, the predicted language seems to be a close family language


### LLM: Meta-Llama-3-8B-Instruct

In [121]:
set_model(model="meta-llama/Meta-Llama-3-8B-Instruct")

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: read).
Your token has been saved to /home/saad/.cache/huggingface/token
Login successful


In [134]:
llama_3_results = get_query_results(data=open_lid_data_text[:5], query_template=query_template_2)

text='Од 10-ти до 24-ми мај во Софија и други бугарски градови ќе се одржи Европскиот музички фестивал, во рамките на кој ќе се одржат концерти на класична, џез и етно музика, како и конференција насловена како „Културата во ЕУ: Меѓуповрзување и идентитет“.'
result='Please'
text='و هو عنده سنه جاله مرض فى عينه اسمه الرمد الحبيبى و طبعا عشان عيلته فقيره استعملت امه وصفات بلدى فى علاج عينه فأتعمى بسبب الجهل و الفقر اللى كان عيشين فيه عيلته'
result='Please'
text='في سؤال مهم أستاذ زهير المادة 3 من الدستور الجديد المعدل الحالي في سوريا تنص على أن دين رئيس الجمهورية هو الإسلام أه أنتم في وثيقة العهد تقدمتم على هذه المادة وقلتم يحق لكل مواطن دون استثناء الوصول لأعلى مراتب نشير هنا كما أشار التوجه أستاذ توفيق إلى قضية ورئاسة الدولة تحق لكل مواطن سوري في سوريا المستقبل'
result='Please'
text='ہر کوئی یقین دہانی میں مصروف ہے کہ کیرالہ کے لوگوں کی مصیبت کم سے کم کی جا سکے ، ان کی تکلیف کو ہم بانٹیں ۔'
result='Please'
text='ໂກເຣ ດາ ຖານ ແລະ ອາບີຣາມ ອິດສາ ໂມເຊ ຈົນ ຕໍ ່ ຕ ້ ານ ລາວ.'
result='Please'


#### Observations

**Meta-Llama-3-8B-Instruct**

* The model is just unable to predict a language name
* This was somewhat expected as the Llama models are trained only on English. The instruction finetuning did provide it with some multilingual capabilities but not enough for obscure languages present in this dataset