In [1]:
import transformers
from transformers import AutoTokenizer, AutoConfig, AutoModelForCausalLM
import torch

In [2]:
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [3]:
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-2-7b-chat-hf",
    cache_dir="/data5/home/sahilm/NLP_Project/Llama_2_7b_chat_hf"
    ).to(device)

tokenizer = AutoTokenizer.from_pretrained("meta-llama/Llama-2-7b-chat-hf", 
                                          cache_dir="/data5/home/sahilm/NLP_Project/Llama_2_7b_chat_hf"
                                         )

Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

In [7]:
pipeline = transformers.pipeline(
    "text-generation",
    model = model,
    tokenizer = tokenizer,
    torch_dtype = torch.float16,
    device = 0 if device.type == "cuda" else -1
)

In [13]:
text = "Hii How are you? Let's play cricket"

template = f"""Translate the following text to Hindi:\nText: {text}\nOutput: """    

prompt = f"""<s>[INST] <<SYS>>
Your task is to translate given text into other language specified by user
<</SYS>>

{template} [/INST]"""

In [15]:
sequences = pipeline(
    template,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
    max_length=200,
)

Result: Translate the following text to Hindi:
Text: Hii How are you? Let's play cricket
Output: हिई कैसे हैं आप? क्रिकेट खेलो

Please provide the text you want to translate and I will be happy to help you.


In [16]:
cnt = 0
for seq in sequences:
    cnt+=1
    print(cnt)
    print(f"Result: {seq['generated_text']}")

1
Result: Translate the following text to Hindi:
Text: Hii How are you? Let's play cricket
Output: हिई कैसे हैं आप? क्रिकेट खेलो

Please provide the text you want to translate and I will be happy to help you.


In [24]:
import re
# Open both files
with open("/data5/home/sahilm/NLP_Project/Dataset/IndicNECorp1.0/English-Mizo/parallel/en-lus-test-en.txt", "r") as file1, open("/data5/home/sahilm/NLP_Project/Dataset/IndicNECorp1.0/English-Mizo/parallel/en-lus-test-lus.txt", "r") as file2:
    # Iterate over lines from both files simultaneously
    cnt = 0
    for line1, line2 in zip(file1, file2):
        cnt+=1
        # Process the lines (e.g., print them)
        # print("Line from file1:", line1.strip())
        # print("Line from file2:", line2.strip())
        # text = line1.strip()[:20]
        text = line1.strip()
        template = f"""Translate the following text to Hindi:\nText: {text}\nOutput: """  

        sequences = pipeline(
            template,
            do_sample=True,
            top_k=10,
            num_return_sequences=1,
            eos_token_id=tokenizer.eos_token_id,
            max_length=200,
        )
        output = sequences[0]['generated_text']
        
        sentences_after_output = re.findall(r'Output:(.*)', output)
        print(sentences_after_output[0].strip())

        if cnt==10:
            break
        # print(find_sentence_between_last_triple_backticks(output))



जीससस के समककाले में, जेसस ने अपने द्वारा प्रार्थना की थी कि देश्य के सदस्यों के लिए.
कारण के साथ समाप्ति तक चलना चाहिए क्योंकि ईश्वर की जागhat से हमारे सामने अधिक जागhat है |
क्यों सच में लव के साथ अन्य से सेक्सुअल अपराध से इस्तेमाल नहीं करता?
कठोर स्पोर्ट्सवार का निर्माता उधारने की मात्रा से अधिक स्पोर्ट्सवार का माτ्रा उधारने के लिए अधिक स्पोर्ट्सवार का मात्रा उधारने के लिए कठोर स्पोर्ट्सवार का न
हमारा प्राकृतिक विज्ञान हमें क्या करेगा?
जाकob के निर्वाण से सभी थे 70 व्यक्ति.
क्रिपा के साथ भगवान का प्रेरणा प्राप्त होना चाहिए
वह उसे सीढ़ियाँ सुझाव में सुझाव दे रहा है
यदि आप अपने घर के खाते बाहर सफेद समुदाय में डालते हैं, तो वह लाल हो जायेंगे
क्या हमें दूसरों की सुख की सुझाव देना चाहिये


In [18]:
def extract_bleu_score(file_path):
    bleu_scores = []
    with open(file_path, 'r') as file:
        for line in file:
            if "BLEU Score:" in line and "Average" not in line:
                try:
                    bleu_score = float(line.split("BLEU Score:")[1].strip())
                    bleu_scores.append(bleu_score)
                except ValueError:
                    # If there's an issue converting to float, skip this line
                    continue
    return bleu_scores


In [19]:
file_path = "/data5/home/sahilm/NLP_Project/zero_shot_Hindi_output.txt"
scores = extract_bleu_score(file_path)
print("BLEU Scores:", scores)
print(len(scores))
print(sum(scores))
print(sum(scores)/len(scores))

BLEU Scores: [0.02601300475114445, 0.01332691735545882, 0.05094110796339642, 0.0, 0.015153804040598334, 0.015240512444593133, 0.00728875805926182, 0.0, 0.010118063481312316, 0.023980296761827107, 0.07037324209679535, 0.04179252131328987, 0.01310368481704471, 0.019949282861652862, 0.040824829046386304, 0.030261051572977482, 0.02777619034011792, 0.018690183721524995, 0.06541868941754436, 0.024218026052883736, 0.039281465090051315, 0.01362503208749583, 0.010567253445701707, 0.010802314890908065, 0.05231223689135342, 0.019933673568014454, 0.02145851237135921, 0.009849349468888718, 0.0012328030158643326, 0.0169861974906263, 0.044939163285563015, 0.20556680845025987, 0.018850319022747353, 0.0, 0.01635904350868638, 0.1778279410038923, 0.00786168996992071, 0.0, 0.008517399705356638, 0.03358244811689829, 0.005751876324997854, 0.015318500535118459, 0.09554427922043669, 0.023980296761827107, 0.1769859637293783, 0.05372849659117709, 0.06500593260343691, 0.0, 0.11868405219520975, 0.0403850306305999

In [20]:
for i in range(len(scores)):
    if scores[i]>0.5:
        print(scores[i])

0.5081327481546147


In [29]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from nltk.tokenize import word_tokenize

def calculate_bleu_score(reference, candidate):
    # Tokenize reference and candidate strings
    reference_tokens = word_tokenize(reference.lower())
    candidate_tokens = word_tokenize(candidate.lower())
    print(reference_tokens)
    # print([reference_tokens])
    print(candidate_tokens)
    # Calculate BLEU score
    bleu_score = sentence_bleu([reference_tokens], candidate_tokens,weights=(1,0,0,0),smoothing_function=SmoothingFunction().method1)
    
    return bleu_score

In [30]:
ref = "Hi I am Sahil"
txt = "Hi I the Sahil"

print(calculate_bleu_score(ref,txt))

['hi', 'i', 'am', 'sahil']
['hi', 'i', 'the', 'sahil']
0.1880301546543197


In [27]:
# n-gram individual BLEU
from nltk.translate.bleu_score import sentence_bleu
reference = [['this', 'is', 'a', 'test']]
candidate = ['this', 'is', 'tgh', 'test']
print('Individual 1-gram: %f' % sentence_bleu(reference, candidate, weights=(1, 0, 0, 0)))
print('Individual 2-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 1, 0, 0)))
print('Individual 3-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 0, 1, 0)))
print('Individual 4-gram: %f' % sentence_bleu(reference, candidate, weights=(0, 0, 0, 1)))

Individual 1-gram: 0.750000
Individual 2-gram: 0.333333
Individual 3-gram: 0.000000
Individual 4-gram: 0.000000


The hypothesis contains 0 counts of 3-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()
The hypothesis contains 0 counts of 4-gram overlaps.
Therefore the BLEU score evaluates to 0, independently of
how many N-gram overlaps of lower order it contains.
Consider using lower n-gram order or use SmoothingFunction()


In [31]:
def extract_Hindi_and_Output_score(file_path):
    hindi = []
    out = []
    with open(file_path, 'r') as file:
        for line in file:
            if "HINDI: " in line:
                try:
                    bleu_score = (line.split("HINDI: ")[1].strip())
                    hindi.append(bleu_score)
                except ValueError:
                    # If there's an issue converting to float, skip this line
                    continue
            if "OUTPUT: " in line:
                try:
                    bleu_score = (line.split("OUTPUT: ")[1].strip())
                    out.append(bleu_score)
                except ValueError:
                    # If there's an issue converting to float, skip this line
                    continue
    return hindi,out


In [33]:
file_path = "/data5/home/sahilm/NLP_Project/zero_shot_Hindi_output.txt"
hindi,output = extract_Hindi_and_Output_score(file_path)

In [36]:
print(len(hindi))
print(len(output))

432
431


In [37]:
hindi = hindi[:len(hindi)-1]

In [38]:
print(len(hindi))
print(len(output))

431
431


In [39]:
print(hindi[:5])

['जिसके जवाब में पाक ने अच्छी शुरुआत की थी.', 'यूरोपीय संघ के महत्वपूर्ण संस्थानों में यूरोपियन कमीशन, यूरोपीय संसद, यूरोपीय संघ परिषद, यूरोपीय न्यायलय एवं यूरोपियन सेंट्रल बैंक इत्यादि शामिल हैं।', 'कांग्रेस नेता तमिलनाडु से शिवगंगा लोकसभा क्षेत्र का प्रतिनिधित्व करते हैं.', 'संबंधन प्रयास के बारे में उपयोक्ता को प्रांप्ट करें', 'वित्त मंत्री ने घोषणा कि जमा बीमा और ऋण गारंटी निगम (डीआईसीजीसी) को जमा राशि बीमा का दायरा, जो इस समय 1 लाख रुपये है उसे बढ़ाकर प्रति जमाकर्ता 5 लाख रुपये करने की अनुमति प्रदान कर दी गई है।']


In [40]:
print(output[:5])

['पाकिस्तान ने स्थापना की.', 'एरोपेन यूनियन ने सात महत्वाकांक निर्देशक शासन के साथ अधिकार का आधार बनाया है: ईरपेल पार्लीमेंट, ईरोपेन कॉउन्सिल, कॉउन्सिल ऑफ ईरोपेन यूनियन, ईरोपेन कमीशन, कोर्ट ऑफ जस्टिसी ऑफ ईरोपेन यूनियन, ईरोपेन', 'कांग्रेस नेता सिवागंगा लोक सभा सेгमेंट के लिए तमिलनाडु से खड़ा है।', 'जunction उपलब्धि की सुझाव दें', 'देखा है, मंत्री ने कहा कि डेपोजिट इंसरेंसी और कредит गारंतनी कॉर्पोरेशन (DICGC) को उठाना है डेपोजिट इंसरेंसी कोरोखा के साथ और क्रेडिट गारंतनी क्रमांक को बढावा देना.']


In [45]:
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from nltk.tokenize import word_tokenize

def calculate_bleu_score(reference, candidate):
    # Tokenize reference and candidate strings
    reference_tokens = word_tokenize(reference.lower())
    candidate_tokens = word_tokenize(candidate.lower())
    # print(reference_tokens)
    # print([reference_tokens])
    # print(candidate_tokens)
    # Calculate BLEU score
    bleu_score = sentence_bleu([reference_tokens], candidate_tokens,weights=(1/4,1/4,1/4,1/4),smoothing_function=SmoothingFunction().method1)
    
    return bleu_score

In [46]:
total_score = 0
for i in range(len(output)):
    total_score += calculate_bleu_score(hindi[i],output[i])

print(total_score/len(output))

0.035614562735037415
