In [1]:
!pip install pandas datasets unsloth transformers accelerate bitsandbytes -q


[31mERROR: pip's dependency resolver does not currently take into account all the packages that are installed. This behaviour is the source of the following dependency conflicts.
torch-tensorrt 2.5.0a0 requires torch<2.6.0,>=2.5.0.dev, but you have torch 2.7.0 which is incompatible.[0m[31m
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


In [2]:
import pandas as pd
from datasets import Dataset
from sklearn.model_selection import train_test_split
from unsloth import FastLanguageModel
from transformers import AutoTokenizer
import torch
from tqdm import tqdm


  from .autonotebook import tqdm as notebook_tqdm


🦥 Unsloth: Will patch your computer to enable 2x faster free finetuning.
Unsloth: If you want to finetune Gemma 2, upgrade flash-attn to version 2.6.3 or higher!
Newer versions support faster and less memory usage kernels for Gemma 2's attention softcapping!
To update flash-attn, do the below:

pip install --no-deps --upgrade "flash-attn>=2.6.3"
🦥 Unsloth Zoo will now patch everything to make training faster!


In [3]:
# Load your CSV (make sure the file 'medquad_tamil.csv' is uploaded)
df = pd.read_csv("medquad_tamil.csv").dropna()

# Create a formatted 'text' column for the LLM
df["text"] = "### கேள்வி:\n" + df["question_tamil"] + "\n\n### பதில்:\n" + df["answer_tamil"]

# Split into train and test datasets (keeping original columns)
train_df, test_df = train_test_split(df, test_size=0.1, random_state=42)

# Convert to HuggingFace Dataset format
train_dataset = Dataset.from_pandas(train_df.reset_index(drop=True))
test_dataset = Dataset.from_pandas(test_df.reset_index(drop=True))


In [4]:
# Load the model from Hugging Face
model, tokenizer = FastLanguageModel.from_pretrained(
    model_name="abhinand/gemma-2b-it-tamil-v0.1-alpha",  # HuggingFace repo ID
    max_seq_length=512,
    dtype=torch.float16,
    load_in_4bit=True,
    device_map="auto",
)

# Fix padding token
tokenizer.pad_token = tokenizer.eos_token
model.eval()


==((====))==  Unsloth 2025.6.3: Fast Gemma patching. Transformers: 4.52.4.
   \\   /|    NVIDIA A100-SXM4-40GB. Num GPUs = 1. Max memory: 39.394 GB. Platform: Linux.
O^O/ \_/ \    Torch: 2.7.0+cu126. CUDA: 8.0. CUDA Toolkit: 12.6. Triton: 3.3.0
\        /    Bfloat16 = TRUE. FA [Xformers = None. FA2 = True]
 "-____-"     Free license: http://github.com/unslothai/unsloth
Unsloth: Fast downloading is enabled - ignore downloading bars which are red colored!


Fetching 2 files: 100%|██████████████████████████| 2/2 [07:08<00:00, 214.17s/it]
Loading checkpoint shards: 100%|██████████████████| 2/2 [00:02<00:00,  1.36s/it]


GemmaForCausalLM(
  (model): GemmaModel(
    (embed_tokens): Embedding(256000, 2048, padding_idx=0)
    (layers): ModuleList(
      (0-17): 18 x GemmaDecoderLayer(
        (self_attn): GemmaAttention(
          (q_proj): Linear4bit(in_features=2048, out_features=2048, bias=False)
          (k_proj): Linear4bit(in_features=2048, out_features=256, bias=False)
          (v_proj): Linear4bit(in_features=2048, out_features=256, bias=False)
          (o_proj): Linear4bit(in_features=2048, out_features=2048, bias=False)
          (rotary_emb): GemmaFixedRotaryEmbedding()
        )
        (mlp): GemmaMLP(
          (gate_proj): Linear4bit(in_features=2048, out_features=16384, bias=False)
          (up_proj): Linear4bit(in_features=2048, out_features=16384, bias=False)
          (down_proj): Linear4bit(in_features=16384, out_features=2048, bias=False)
          (act_fn): GELUActivation()
        )
        (input_layernorm): GemmaRMSNorm((2048,), eps=1e-06)
        (post_attention_layernorm): G

In [7]:
from tqdm import tqdm

generated_answers = []
reference_answers = []

subset = test_dataset.select(range(100))

for item in tqdm(subset):
    question = item["question_tamil"]
    reference = item["answer_tamil"]

    prompt = f"""கேள்வி:
{question}

பதில்:"""

    inputs = tokenizer(prompt, return_tensors="pt", truncation=True).to(model.device)

    with torch.no_grad():
        outputs = model.generate(
            **inputs,
            max_new_tokens=512,
            do_sample=False,
            eos_token_id=tokenizer.eos_token_id,
            pad_token_id=tokenizer.pad_token_id,
        )

    decoded = tokenizer.decode(outputs[0], skip_special_tokens=True).strip()

    # Extract answer
    if "பதில்:" in decoded:
        answer = decoded.split("பதில்:")[-1].strip()
    else:
        answer = decoded.replace(prompt, "").strip()

    # Fallback for empty answers
    if not answer:
        print(f"⚠️ No answer for question: {question}")
        print("🔍 Full decoded output:\n", decoded)
        answer = "மன்னிக்கவும், இந்த கேள்விக்கு பதில் இல்லை."  # Default fallback
    else:
        print(f"✅ Answer generated for: {question}")

    generated_answers.append(answer)
    reference_answers.append(reference)


  1%|▍                                          | 1/100 [00:08<13:51,  8.40s/it]

✅ Answer generated for: இளைஞர் ஹண்டிங்டன் நோய்த்தொற்று என்ன?


  2%|▊                                          | 2/100 [00:19<15:56,  9.76s/it]

✅ Answer generated for: பெர்ரி நோய்க்கான சிகிச்சைகள் என்ன?


  3%|█▎                                         | 3/100 [00:21<10:14,  6.34s/it]

✅ Answer generated for: குரோமோசோமை 17q நீக்கத்தின் அறிகுறிகள் என்ன?


  4%|█▋                                         | 4/100 [00:32<12:53,  8.06s/it]

✅ Answer generated for: டிரான்ஸ்ட்யர்டின் அமிலலோயடைஸிற்கு என்ன சிகிச்சை அளிக்கப்படுகிறது?


  5%|██▏                                        | 5/100 [00:42<14:16,  9.01s/it]

✅ Answer generated for: சமநிலைப் பிரச்சினைகளைத் தடுக்க எப்படி?


  6%|██▌                                        | 6/100 [00:43<09:54,  6.33s/it]

✅ Answer generated for: (அது) சினூசிட்டிஸ் என்ன?


  7%|███                                        | 7/100 [00:54<12:01,  7.75s/it]

✅ Answer generated for: ஹைப்பரகலெமிக் கால முடக்கநிலைகளின் அறிகுறிகள் என்ன?


  8%|███▍                                       | 8/100 [00:57<09:20,  6.10s/it]

✅ Answer generated for: Acrodermatitis enteropathica என்பது என்ன?


  9%|███▊                                       | 9/100 [01:07<11:25,  7.54s/it]

✅ Answer generated for: cytochrome P450 ஆக்சைடோரெக்டேகாஸ் பற்றாக்குறை எத்தனை பேர் பாதிக்கப்படுகின்றனர்?


 10%|████▏                                     | 10/100 [01:18<12:46,  8.51s/it]

✅ Answer generated for: மோர்கியோ தொற்று நோயின் அறிகுறிகள் என்ன?


 11%|████▌                                     | 11/100 [01:24<11:30,  7.76s/it]

✅ Answer generated for: மருத்துவம் மற்றும் தொடர்ச்சியான கவனிப்பு என்பது என்ன?


 13%|█████▍                                    | 13/100 [01:35<08:49,  6.08s/it]

✅ Answer generated for: புறம்போக்குத் தொற்றுக்கு என்ன காரணம்?
✅ Answer generated for: எத்தனை பேர் நோய்த்தொற்று நோயால் பாதிக்கப்படுகின்றனர்?


 14%|█████▉                                    | 14/100 [01:46<10:44,  7.49s/it]

✅ Answer generated for: ஹெமோக்ரோமட் நோய்க்கான காரணம் என்ன?


 15%|██████▎                                   | 15/100 [01:56<11:57,  8.45s/it]

✅ Answer generated for: கர்ரி ஜோன்ஸ் நோயின் அறிகுறிகள் என்ன?


 16%|██████▋                                   | 16/100 [02:03<11:12,  8.00s/it]

✅ Answer generated for: ஃபேசில் எக்ஸ் நோய்த்தொற்று மரபாகின்றதா?


 17%|███████▏                                  | 17/100 [02:14<12:11,  8.82s/it]

✅ Answer generated for: D-glycericacidemia அறிகுறிகள் என்ன?


 18%|███████▌                                  | 18/100 [02:25<12:50,  9.39s/it]

✅ Answer generated for: ஓஸ்டியோஜெனிசஸ் இன்ஸ்பெக்டாவின் அறிகுறிகள் என்ன?


 19%|███████▉                                  | 19/100 [02:26<09:11,  6.81s/it]

✅ Answer generated for: 16 - ன் கூட்டு ஆக்சிடேட் போஸ்போரிலஸ் பற்றாக்குறையின் அறிகுறிகள் என்ன?


 20%|████████▍                                 | 20/100 [02:36<10:37,  7.97s/it]

✅ Answer generated for: சிஸ்டிக் சிறுநீரக நோய்த் தொற்று (Cystic kidney disease) என்பது என்ன?


 21%|████████▊                                 | 21/100 [02:47<11:34,  8.80s/it]

✅ Answer generated for: கம்பு (பழங்குடியினர்) நோய்க்கு என்ன சிகிச்சை அளிக்கப்படுகிறது?


 22%|█████████▏                                | 22/100 [02:54<10:48,  8.31s/it]

✅ Answer generated for: சர்க்கரை நோய்க்கான பிரச்சினைகளைத் தடுக்க என்ன செய்ய வேண்டும்?


 23%|█████████▋                                | 23/100 [03:05<11:35,  9.03s/it]

✅ Answer generated for: கவலைக்குட்பட்டவர்களுக்கு என்ன சிகிச்சை அளிக்கப்படுகிறது?


 24%|██████████                                | 24/100 [03:07<09:00,  7.11s/it]

✅ Answer generated for: (ஆ) Y chromosome infertility என்பது என்ன?


 25%|██████████▌                               | 25/100 [03:18<10:14,  8.19s/it]

✅ Answer generated for: சிறுபான்மையினர் மூளை மற்றும் முதுகு நோய்க்கு என்ன ஆராய்ச்சி (அல்லது மருத்துவ பரிசோதனைகள்) மேற்கொண்டு வருகிறது?


 26%|██████████▉                               | 26/100 [03:29<11:02,  8.95s/it]

✅ Answer generated for: (அ) ஏஎல்ஜி6 கர்ப்பிணி காய்ச்சல் குறைபாடு என்ன?


 27%|███████████▎                              | 27/100 [03:40<11:31,  9.48s/it]

✅ Answer generated for: அல்பேர்ஸ் - ஹட்டெனலோச்சர் நோய்க்கு என்ன சிகிச்சை அளிக்கப்படுகிறது?


 28%|███████████▊                              | 28/100 [03:41<08:30,  7.09s/it]

✅ Answer generated for: """""""""""உணர்ச்சிகள்"""என்ன?"


 29%|████████████▏                             | 29/100 [03:43<06:26,  5.44s/it]

✅ Answer generated for: வயதான மத்திய நரம்பு நோய்த்தொற்றுக்கு ஆபத்து யார்?


 30%|████████████▌                             | 30/100 [03:53<08:11,  7.02s/it]

✅ Answer generated for: ஃபெப்ரில்லா தொற்று தொடர்பான எபிஎல்ப்சிஸ் நோயின் அறிகுறிகள் என்ன?


 31%|█████████████                             | 31/100 [04:04<09:21,  8.13s/it]

✅ Answer generated for: லங்கு புற்றுநோய்க்கு என்ன ஆராய்ச்சி (அல்லது மருத்துவ பரிசோதனைகள்) மேற்கொள்ளப்பட்டு வருகின்றன?


 32%|█████████████▍                            | 32/100 [04:10<08:33,  7.55s/it]

✅ Answer generated for: (அது) பரக்ஸிஸ்மல் நுரையீரல் ஹெமோகோளோபின்யரியா என்ன?


 34%|██████████████▎                           | 34/100 [04:22<06:40,  6.07s/it]

✅ Answer generated for: லாரோன் நோய்த்தொற்று என்ன?
✅ Answer generated for: """"""""""அது என்ன?"


 35%|██████████████▋                           | 35/100 [04:26<05:53,  5.43s/it]

✅ Answer generated for: (அதாவது) டைஹைட்ரோபிரைமடின் டெஹைட்ரஜனேசின் பற்றாக்குறை என்ன?


 36%|███████████████                           | 36/100 [04:36<07:34,  7.10s/it]

✅ Answer generated for: ஹெமோபீலியாவின் அறிகுறிகள் என்ன?


 37%|███████████████▌                          | 37/100 [04:47<08:35,  8.19s/it]

✅ Answer generated for: இதயக் குறைபாட்டின் அறிகுறிகள் என்ன?


 38%|███████████████▉                          | 38/100 [04:58<09:14,  8.95s/it]

✅ Answer generated for: சைக்கிள் வீணாக்கும் நோய்த்தொற்று என்ன?


 39%|████████████████▍                         | 39/100 [05:09<09:38,  9.48s/it]

✅ Answer generated for: ஆன்லைன் அறிகுறிகள் என்ன?


 40%|████████████████▊                         | 40/100 [05:11<07:26,  7.44s/it]

✅ Answer generated for: ஹால்ட் - ஓரம் நோய்த்தொற்றுக்கு மரபாகமா?


 41%|█████████████████▏                        | 41/100 [05:22<08:16,  8.41s/it]

✅ Answer generated for: தானியங்கி மேலாதிக்கத்தனமான Craniometaphyseal displasia, என்ன சிகிச்சைகள் உள்ளன?


 42%|█████████████████▋                        | 42/100 [05:33<08:48,  9.11s/it]

✅ Answer generated for: சப்போ தொற்றுக்கு என்ன சிகிச்சைகள்?


 43%|██████████████████                        | 43/100 [05:35<06:43,  7.08s/it]

✅ Answer generated for: மலோனில்-கோஏ டெகர்பாக்சிலாஸ் பற்றாக்குறையால் எத்தனை பேர் பாதிக்கப்படுகின்றனர்?


 44%|██████████████████▍                       | 44/100 [05:40<05:53,  6.31s/it]

✅ Answer generated for: வெள்ளம் என்பது என்ன?


 45%|██████████████████▉                       | 45/100 [05:40<04:14,  4.62s/it]

✅ Answer generated for: (அது) பெம்பிரிஸ் வுல்கரிஸ் என்ன?


 46%|███████████████████▎                      | 46/100 [05:51<05:48,  6.46s/it]

✅ Answer generated for: Hypothyroidism க்கு என்ன காரணம்?


 47%|███████████████████▋                      | 47/100 [06:02<06:49,  7.73s/it]

✅ Answer generated for: ஹாண்டிங்டன் நோயின் அறிகுறிகள் என்ன?


 48%|████████████████████▏                     | 48/100 [06:12<07:28,  8.63s/it]

✅ Answer generated for: கலை நோய்த்தொற்றுக்கு என்ன காரணம்?


 49%|████████████████████▌                     | 49/100 [06:23<07:52,  9.26s/it]

✅ Answer generated for: தர்மம் மற்றும் தாமிக் கார்சினோமாவின் அறிகுறிகள் என்ன?


 50%|█████████████████████                     | 50/100 [06:34<08:05,  9.70s/it]

✅ Answer generated for: மெக்கோயுன் அல்பிரைட் தொற்றுக்கு என்ன சிகிச்சை அளிக்கப்படுகிறது?


 51%|█████████████████████▍                    | 51/100 [06:37<06:15,  7.65s/it]

✅ Answer generated for: முற்போக்கான எஸ்கோலி நோய்த்தொற்றுடன் கிடைமட்ட எரிவாயுப் பாலசி என்னவாகும்?


 52%|█████████████████████▊                    | 52/100 [06:45<06:08,  7.68s/it]

✅ Answer generated for: மிட்டோகண்டரியல் மூலக்கூறு புரோட்டீன் பற்றாக்குறை இதற்குக் காரணம்தானா?


 53%|██████████████████████▎                   | 53/100 [06:55<06:44,  8.60s/it]

✅ Answer generated for: நீண்டகால QT நோய்த்தொற்று நோயின் அறிகுறிகள் என்ன?


 54%|██████████████████████▋                   | 54/100 [07:06<07:05,  9.24s/it]

✅ Answer generated for: சிறுநீரகம் தோல்விக்கு என்ன சிகிச்சைகள்: உங்களுக்கு சரியான சிகிச்சையை தேர்ந்தெடுப்பது?


 55%|███████████████████████                   | 55/100 [07:12<06:10,  8.23s/it]

✅ Answer generated for: வெட்டு லாக்சா தொடர்பான மரபியல் மாற்றங்கள் என்ன?


 56%|███████████████████████▌                  | 56/100 [07:23<06:34,  8.97s/it]

✅ Answer generated for: கோஹேன் தொற்றுநோயை எப்படிக் கண்டறிவது?


 57%|███████████████████████▉                  | 57/100 [07:25<04:55,  6.88s/it]

✅ Answer generated for: அத்தியாவசியமான பெல்ல்பாரோசாமை நோக்கிய நோக்கம் என்ன?


 58%|████████████████████████▎                 | 58/100 [07:35<05:36,  8.02s/it]

✅ Answer generated for: ஸ்டூவே விட்யெமன் நோயின் அறிகுறிகள் என்ன?


 59%|████████████████████████▊                 | 59/100 [07:46<06:02,  8.84s/it]

✅ Answer generated for: I cell நோயின் அறிகுறிகள் என்ன?


 60%|█████████████████████████▏                | 60/100 [07:47<04:18,  6.45s/it]

✅ Answer generated for: கில்ஸ்பி நோய்த்தொற்று எத்தனை பேர் பாதிக்கப்பட்டுள்ளனர்?


 61%|█████████████████████████▌                | 61/100 [07:53<04:10,  6.41s/it]

✅ Answer generated for: எல்சாட் பற்றாக்குறை என்ன?


 62%|██████████████████████████                | 62/100 [08:04<04:52,  7.71s/it]

✅ Answer generated for: ஆட்டோமன் அட்ரோபிக் கெஸ்டரிட்டை எப்படிக் கண்டறிவது?


 63%|██████████████████████████▍               | 63/100 [08:15<05:18,  8.62s/it]

✅ Answer generated for: WaterhouseFriderichsen நோய்க்கு என்ன சிகிச்சை அளிக்கப்படுகிறது?


 64%|██████████████████████████▉               | 64/100 [08:16<03:46,  6.29s/it]

✅ Answer generated for: எலெர்ஸ் - டான்லோஸ் நோய்த்தொற்று, இரத்தக்களரி வகை ஆகியவற்றின் வாரிசுவா?


 65%|███████████████████████████▎              | 65/100 [08:21<03:32,  6.08s/it]

✅ Answer generated for: (அதாவது) பன்னோக்கு எபிபீசல் நோய்த்தொற்று என்ன?


 66%|███████████████████████████▋              | 66/100 [08:30<03:57,  6.97s/it]

✅ Answer generated for: ஃபெப்ரீல் கையெழுத்துக்களுக்கு என்ன ஆராய்ச்சி (அல்லது மருத்துவ பரிசோதனைகள்) மேற்கொள்ளப்பட்டு வருகின்றன?


 67%|████████████████████████████▏             | 67/100 [08:41<04:26,  8.09s/it]

✅ Answer generated for: அடிப்படை நுரையீரல் நோயைக் கண்டறிவது எப்படி?


 68%|████████████████████████████▌             | 68/100 [08:52<04:44,  8.88s/it]

✅ Answer generated for: வேயர்ஸ் அக்கிரம நோயின் அறிகுறிகள் என்ன?


 69%|████████████████████████████▉             | 69/100 [09:01<04:42,  9.11s/it]

✅ Answer generated for: ஒழுங்கு மாற்றுப் பற்றாக்குறையினால் எத்தனை பேர் பாதிக்கப்படுகின்றனர்?


 70%|█████████████████████████████▍            | 70/100 [09:02<03:16,  6.56s/it]

✅ Answer generated for: இது சேர்க்கப்பட்ட மெத்திலமலேனிக் அமிலத்தின் மரபாகும்?


 71%|█████████████████████████████▊            | 71/100 [09:13<03:46,  7.81s/it]

✅ Answer generated for: சிஸ்டிக் ஃபிப்ரோசாவை எப்படிக் கண்டறிவது?


 72%|██████████████████████████████▏           | 72/100 [09:16<03:00,  6.46s/it]

✅ Answer generated for: (அது) செபாலிக் குழப்பம் என்ன?


 73%|██████████████████████████████▋           | 73/100 [09:19<02:27,  5.47s/it]

✅ Answer generated for: முன்கூட்டிய காய்ச்சல் மற்றும் முன்கூட்டிய காய்ச்சல் ஆகியவற்றின் அறிகுறிகள் என்ன?


 74%|███████████████████████████████           | 74/100 [09:30<03:03,  7.05s/it]

✅ Answer generated for: மசோரியக் arthritis உடன் தொடர்புடைய மரபியல் மாற்றங்கள் என்ன?


 75%|███████████████████████████████▌          | 75/100 [09:41<03:24,  8.16s/it]

✅ Answer generated for: Osteochondritis dissecans - ன் அறிகுறிகள் என்ன?


 76%|███████████████████████████████▉          | 76/100 [09:44<02:39,  6.66s/it]

✅ Answer generated for: ஸ்டாக்ராவுக்கு என்ன காரணம்?


 78%|████████████████████████████████▊         | 78/100 [09:44<01:15,  3.44s/it]

✅ Answer generated for: செவிலியர் இல்லங்கள் குறித்த தகவல்கள் உங்களிடம் உள்ளதா
✅ Answer generated for: எத்தனை பேர் பெட்டா குளோபின் வகை methemoglobinemia மூலம் பாதிக்கப்படுகின்றனர்?


 79%|█████████████████████████████████▏        | 79/100 [09:52<01:35,  4.55s/it]

✅ Answer generated for: கவுச்சர் நோயின் அறிகுறிகள் என்ன?


 81%|██████████████████████████████████        | 81/100 [09:58<01:06,  3.49s/it]

✅ Answer generated for: ஹிர்ஷ்வுங் நோய்த்தொற்று என்னவாகும்?
✅ Answer generated for: இதயப் பிளாக் காரணமா?


 82%|██████████████████████████████████▍       | 82/100 [10:08<01:41,  5.66s/it]

✅ Answer generated for: முற்போக்கான வெளிப்புற கண் நோய்த்தொற்று என்னவாகும்?


 83%|██████████████████████████████████▊       | 83/100 [10:19<02:01,  7.17s/it]

✅ Answer generated for: சர்க்கரை நோய்த்தொற்றுக்கு என்ன காரணம்?


 84%|███████████████████████████████████▎      | 84/100 [10:23<01:37,  6.12s/it]

✅ Answer generated for: எபிட்ரம்போலீஸ் புல்லோசாவில் ஏற்படும் மரபணு மாற்றங்கள் என்ன?


 85%|███████████████████████████████████▋      | 85/100 [10:33<01:52,  7.49s/it]

✅ Answer generated for: காய்ச்சல் புற்றுநோய்க்கு என்ன ஆராய்ச்சி (அல்லது மருத்துவ பரிசோதனைகள்) மேற்கொள்ளப்பட்டு வருகின்றன?


 86%|████████████████████████████████████      | 86/100 [10:44<01:58,  8.46s/it]

✅ Answer generated for: பலவகை மோட்டார் நியுரோபதிக்கு என்ன ஆராய்ச்சி (அல்லது மருத்துவ பரிசோதனைகள்) மேற்கொண்டு வருகிறது?


 87%|████████████████████████████████████▌     | 87/100 [10:55<01:59,  9.19s/it]

✅ Answer generated for: """""சுயநலம்""""""""""""""""இது சுயநலம்"""இது சுயநலம்"""இது சுயநலம்""இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்"இது சுயநலம்


 88%|████████████████████████████████████▉     | 88/100 [11:06<01:56,  9.69s/it]

✅ Answer generated for: ஃபான்போனியின் மறுசுழற்சி நோயின் அறிகுறிகள் என்ன?


 89%|█████████████████████████████████████▍    | 89/100 [11:11<01:31,  8.32s/it]

✅ Answer generated for: வயது தொடர்பான மனச்சோழ்வு என்பது என்ன?


 90%|█████████████████████████████████████▊    | 90/100 [11:14<01:07,  6.79s/it]

✅ Answer generated for: கோலின்ஸ் நோய்த்தொற்றுக்கு அறிகுறியாக இருக்கிறதா?


 91%|██████████████████████████████████████▏   | 91/100 [11:15<00:43,  4.85s/it]

✅ Answer generated for: சாந்திக்கு என்ன பிரச்சனைகள்?


 92%|██████████████████████████████████████▋   | 92/100 [11:18<00:34,  4.36s/it]

✅ Answer generated for: (அது) சிரியோமா என்ன?


 93%|███████████████████████████████████████   | 93/100 [11:19<00:23,  3.32s/it]

✅ Answer generated for: myotonia congenita க்கு என்ன சிகிச்சைகள் உள்ளன?


 94%|███████████████████████████████████████▍  | 94/100 [11:21<00:18,  3.11s/it]

✅ Answer generated for: அப்போஸ்தலிக்க அட்டாக்சியா தொடர்பான மரபணு மாற்றங்கள் என்ன?


 95%|███████████████████████████████████████▉  | 95/100 [11:32<00:27,  5.42s/it]

✅ Answer generated for: ஸ்டாரஜ் வேபர் நோய்க்கு என்ன ஆராய்ச்சி (அல்லது மருத்துவ பரிசோதனைகள்) மேற்கொள்ளப்பட்டு வருகின்றன?


 96%|████████████████████████████████████████▎ | 96/100 [11:38<00:21,  5.47s/it]

✅ Answer generated for: (அது) Rh பொருத்தமின்மை என்ன?


 97%|████████████████████████████████████████▋ | 97/100 [11:41<00:14,  4.90s/it]

✅ Answer generated for: மூலிகை புற்றுநோயைக் கண்டறிதல்


 98%|█████████████████████████████████████████▏| 98/100 [11:52<00:13,  6.67s/it]

✅ Answer generated for: க்ளவுகோமாவுக்கு என்ன சிகிச்சைகள்?


 99%|█████████████████████████████████████████▌| 99/100 [11:56<00:05,  5.94s/it]

✅ Answer generated for: ஓஸ்டியோபிரோஸ் 7 - ன் அறிகுறிகள் என்ன?


100%|█████████████████████████████████████████| 100/100 [12:03<00:00,  7.24s/it]

✅ Answer generated for: பல மையமான ஓட்டோலிசிஸ், நெடுஞ்சாலை, தொற்று நோய் போன்ற மரபணு மாற்றங்கள் என்னவாகும்?





In [9]:
!pip install bert_score

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)


Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting bert_score
  Downloading bert_score-0.3.13-py3-none-any.whl.metadata (15 kB)
Downloading bert_score-0.3.13-py3-none-any.whl (61 kB)
Installing collected packages: bert_score
Successfully installed bert_score-0.3.13
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.2[0m[39;49m -> [0m[32;49m25.1.1[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m


In [10]:
from bert_score import score

P, R, F1 = score(generated_answers, reference_answers, lang="ta")  # ta = Tamil

print(f"Precision: {P.mean().item():.4f}")
print(f"Recall:    {R.mean().item():.4f}")
print(f"F1 Score:  {F1.mean().item():.4f}")


Precision: 0.5992
Recall:    0.6276
F1 Score:  0.6110


In [11]:
import pandas as pd

# Convert tensors to numpy
P = P.numpy()
R = R.numpy()
F1 = F1.numpy()

# Report average
print(f"\n✅ BERTScore Precision: {P.mean():.4f}")
print(f"✅ BERTScore Recall:    {R.mean():.4f}")
print(f"✅ BERTScore F1:        {F1.mean():.4f}")

# Optional: Save individual results
results_df = pd.DataFrame({
    "Generated Answer": generated_answers,
    "Reference Answer": reference_answers,
    "Precision": P,
    "Recall": R,
    "F1 Score": F1
})

results_df.to_csv("not_tamil_bertscore.csv", index=False)
print("✅ Saved: not_tamil_bertscore.csv")



✅ BERTScore Precision: 0.5992
✅ BERTScore Recall:    0.6276
✅ BERTScore F1:        0.6110
✅ Saved: not_tamil_bertscore.csv
