In [1]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("llama_zero_cot.csv")

DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize
    text = text.replace("\r", "\n")

    # ---------------------------------
    # 1. Extract Step 2 (Translation)
    # ---------------------------------
    match = re.search(
        r"Step\s*2\s*\(Translation\)\s*:\s*(.*?)(?:\n\s*Reasoning\s*:|\n\s*Step\s*\d|\Z)",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    if not match:
        return ""

    translation_block = match.group(1)

    # ---------------------------------
    # 2. Remove quotes and junk tokens
    # ---------------------------------
    translation_block = re.sub(r"</s>|<s>|\[/?INST\]", "", translation_block)
    translation_block = translation_block.replace('"', "").strip()

    # ---------------------------------
    # 3. Keep only Marathi-heavy lines
    # ---------------------------------
    marathi_lines = []

    for line in translation_block.split("\n"):
        line = line.strip()
        if not line:
            continue

        if re.search(r"[" + DEVANAGARI_RANGE + r"]", line) and devanagari_ratio(line) >= 0.70:
            marathi_lines.append(line)

    # ---------------------------------
    # 4. Final cleanup
    # ---------------------------------
    cleaned = " ".join(marathi_lines)
    cleaned = re.sub(r"\s+", " ", cleaned).strip()

    return cleaned


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/llama_zero_cot.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['गायन करण्यातल्या स्तोत्राचे स्वरूप वाढविण्यासाठी स्तोत्राचे गायन करणारा स्त्रोता ग्रंथाची प्रार्थना सांगत होता.', 'एका सहा महिन्यांचा मुलगा वैद्यकीय जांचीसाठी पाठवण्यात आला होता. त्याने सर्व चार पायांवर लक्षणे होती ज्यांचे उपस्थिती जन्मानंतर काही वेळातच होते.', 'यांना व्यवसायांच्या विशिष्ट स्थाने प्रदान करण्याची जबाबदारी नागरी क्षेत्रात वाईट वाटणार्\u200dया व्यवसायांच्या किंवा असणार्\u200dया व्यवसायांच्या विशिष्ट स्थानांची आहे.', 'मशीन विकसित होत असतानाच, पूर्व प्रकल्पांच्या डेटा रेकॉर्ड करण्यासाठी वापरल्या जाणार्\u200dया फॉर्म्सची बदल केले जातील.', 'कितीही विचारांचा प्रथम भासा वाईट असू शकतो.', 'स्वच्छता मिळवण्यासाठी असेंबल असलेले समतोल तालिका असेंबलच्या चालू होण्यापूर्वी लोड करा.', 'व्यावस्थापकांनी सहमत केलेल्या तारखांपासून वेगळ्या असलेल्या मोठ्या वेळेवर किंवा वेळेवर योग्य नसलेल्या वेळापत्रकांबद्दल माहिती देण्यात विलंब होतो. यामुळे या कारवाईत वेळेत हाती घेता येत नाही.', 'ये ग्लायकन्स प्रोटीनमध्ये श्रेष्ठपणे प्रवेश करत नाहीत, ज्यामुळे ग्लायकोसिलेशन सीक्वोन्समध्ये अनुपस्थितता होते.', 

In [2]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("gemma_zero_cot.csv")

DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize
    text = text.replace("\r", "\n")

    # ---------------------------------
    # 1. Extract Step 2 (Translation)
    # ---------------------------------
    match = re.search(
        r"Step\s*2\s*\(Translation\)\s*:\s*(.*?)(?:\n\s*Reasoning\s*:|\n\s*Step\s*\d|\Z)",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    if not match:
        return ""

    translation_block = match.group(1)

    # ---------------------------------
    # 2. Remove quotes and junk tokens
    # ---------------------------------
    translation_block = re.sub(r"</s>|<s>|\[/?INST\]", "", translation_block)
    translation_block = translation_block.replace('"', "").strip()

    # ---------------------------------
    # 3. Keep only Marathi-heavy lines
    # ---------------------------------
    marathi_lines = []

    for line in translation_block.split("\n"):
        line = line.strip()
        if not line:
            continue

        if re.search(r"[" + DEVANAGARI_RANGE + r"]", line) and devanagari_ratio(line) >= 0.70:
            marathi_lines.append(line)

    # ---------------------------------
    # 4. Final cleanup
    # ---------------------------------
    cleaned = " ".join(marathi_lines)
    cleaned = re.sub(r"\s+", " ", cleaned).strip()

    return cleaned


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/gemma_zero_cot.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['गायनात, गाणे गटाने स्वर वाढवला जेव्हा साजरा करणारा प्रार्थना म्हणत होता.', 'एक छः महिन्यांचा बकरी नवजात शरीराची तपासणीसाठी सादर केला गेला, सर्व चार पायांमध्ये लंगडणे दाखवत जो जन्म झाल्यापासून लवकरच होता.', 'नियोजन प्राधिकरणांनी लहान व्यवसायांसाठी पर्यायी ठिकाणे प्रदान कराव्यात, ज्यांना किंवा ज्या भविष्यात राहण्याच्या परिसरात असेल असे अपमानजनक ठरू शकते.', 'मशीन विकसित होत असताना, आम्ही वापरतो आकडेवारी नोंदवण्यासाठीच्या फॉर्ममध्ये बदल केले जाईल.', 'असे म्हटले आहे, पहिल्या छापे चुकीची असू शकतात.', 'सफाईसाठी असेंब्लीसाठी, एकत्रित केलेल्या समान टेबलला असेंब्ली चालू होण्यापूर्वी लोड करा.', 'कार्यकारी करारित तारखांपासून मोठ्या फरकांबद्दल माहिती देण्यास अडथळा आणत आहेत, यामुळे ही कारवाई वेळेवर केली जाऊ शकत नाही.', 'या ग्लाइकन्स प्रोटीनमध्ये कमी प्रमाणात स्थानांतरित होतात, ज्यामुळे ग्लाइकोसिलीकरण सेक्वॉन रिकामध्ये राहतात.', 'X म्हणजे मायग्रेनसाठी एक प्रभावी, तात्काळ, मौखिक उपचार आहे, ज्याचा लवकरच परिणाम होतो.', 'कोणत्याही वृत्तपत्र, माझ्या विशेषज्ञ मतानुसार, पूर्णपणे निष्पक्ष नाही.', 'स्टीम, उ

In [4]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("sarvam_zero_cot.csv")

DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def clean_and_filter_marathi(text):
    """Keep only Marathi-dominant lines"""
    lines = []
    for line in text.split("\n"):
        line = line.strip()
        if not line:
            continue
        if (
            re.search(r"[" + DEVANAGARI_RANGE + r"]", line)
            and devanagari_ratio(line) >= 0.70
        ):
            lines.append(line)
    return " ".join(lines)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize
    text = text.replace("\r", "\n")

    # Remove model tokens
    text = re.sub(r"</s>|<s>|\[/?INST\]", "", text, flags=re.IGNORECASE)

    # -----------------------------------------
    # 1. Try Step 2 (Translation) extraction
    # -----------------------------------------
    match = re.search(
        r"Step\s*2\s*\(Translation\)\s*:\s*(.*?)(?:\n\s*Reasoning\s*:|\n\s*Step\s*\d|\Z)",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    if match:
        block = match.group(1)
        block = block.replace('"', "")
        return clean_and_filter_marathi(block)

    # -----------------------------------------
    # 2. Fallback: already-Marathi response
    # -----------------------------------------
    return clean_and_filter_marathi(text)


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/sarvam_zero_cot.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['गायकवृंदाने गायलेल्या प्रार्थनेचा आवाज वाढला, तर समारंभात सहभागी झालेल्यांनी उत्साहात टाळ्या वाजवल्या.', 'एक सहा महिन्यांच्या बछड्याला तपासणीसाठी सादर केले गेले होते, ज्यावर जन्मतःच चारही पायांवर लंगडेपणाची लक्षणे दिसून आली होती.', 'नियोजन प्राधिकरणांनी निवासी भागातून लहान व्यवसायांसाठी पर्यायी ठिकाणे उपलब्ध करून द्यावीत.', 'यंत्र विकसित होत असताना आपण भूतकाळात केलेल्या प्रकल्पांचे डेटा रेकॉर्ड करण्यासाठी वापरलेल्या फॉर्ममध्ये सुधारणा केली जाईल.', 'इंग्रजीमध्ये नमूद केल्याप्रमाणे, पहिल्या छापांवर विश्वास ठेवता येत नाही.', 'विधानसभा लोड करण्यापूर्वी स्वच्छ असेंब्ली टेबल मिळवा.', 'कार्यकर्ते, जे सहमत झालेल्या तारखांपासून लक्षणीय विचलन करतात त्यांची माहिती देण्यात विलंब करत आहेत. त्यामुळे वेळेत कारवाई करता येत नाही.', 'हे ग्लायकोन्स कमी हस्तांतरित होतात ज्यामुळे रिक्त ग्लायकन अनुक्रमाचे निर्माण होते.', 'X हा प्रभावी तीव्रता आहे, जी डोकेदुखीसाठी त्वरित कृती करते.', 'इंग्रजी इनपुटः माझ्या तज्ञांच्या मते, कोणत्याही वर्तमानपत्राची पूर्णपणे निष्पक्षता नाही.', 'स्टीम हे उदाहरणाप्रमाणेच सामग्र

In [1]:
import pandas as pd
import os
from datasets import load_dataset

# Load dataset
ds = load_dataset("thenlpresearcher/test_data_human_validated_eng_mar")
df_test = ds['test'].to_pandas()  # convert to pandas DataFrame

# Folder containing CSV files
input_folder = "cleaned"
output_folder = "../ready_for_metrics"

# Create output folder if it doesn't exist
os.makedirs(output_folder, exist_ok=True)

# Process each CSV in the folder
for filename in os.listdir(input_folder):
    if filename.endswith(".csv"):
        file_path = os.path.join(input_folder, filename)
        
        # Read the CSV
        df = pd.read_csv(file_path)
        
        # Merge with df_test on matching sentences
        merged_df = df.merge(
            df_test[['sent_written', 'sent_meant', 'gt']],
            left_on='Sentence',
            right_on='sent_written',
            how='inner'
        )
        
        # Drop the redundant 'sent_written' column
        merged_df = merged_df.drop(columns=['sent_written'])
        
        # Save to the new folder
        output_path = os.path.join(output_folder, filename)
        merged_df.to_csv(output_path, index=False)
        print(f"Processed {filename}, {len(merged_df)} rows saved to {output_path}.")

  from .autonotebook import tqdm as notebook_tqdm


Processed gemma_zero_cot.csv, 54 rows saved to ../ready_for_metrics/gemma_zero_cot.csv.
Processed llama_zero_cot.csv, 54 rows saved to ../ready_for_metrics/llama_zero_cot.csv.
Processed sarvam_zero_cot.csv, 53 rows saved to ../ready_for_metrics/sarvam_zero_cot.csv.
