In [1]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("llama_original.csv")

DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def clean_and_filter_marathi(text):
    lines = []
    for line in text.split("\n"):
        line = line.strip()
        if not line:
            continue
        if (
            re.search(r"[" + DEVANAGARI_RANGE + r"]", line)
            and devanagari_ratio(line) >= 0.70
        ):
            lines.append(line)
    return " ".join(lines)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize
    text = text.replace("\r", "\n")

    # -----------------------------------------
    # 1. Remove ALL "Marathi Translation" headers
    # -----------------------------------------
    text = re.sub(
        r'"?\s*Marathi\s+Translation\s*\(\s*Devanagari\s+Script\s*\)\s*:\s*',
        '',
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    # Remove model tokens
    text = re.sub(r"</s>|<s>|\[/?INST\]", "", text, flags=re.IGNORECASE)

    # -----------------------------------------
    # 2. Try Step 2 (Translation) if present
    # -----------------------------------------
    match = re.search(
        r"Step\s*2\s*\(Translation\)\s*:\s*(.*?)(?:\n\s*Reasoning\s*:|\n\s*Step\s*\d|\Z)",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    if match:
        block = match.group(1)
        block = block.replace('"', "")
        return clean_and_filter_marathi(block)

    # -----------------------------------------
    # 3. Fallback: already-Marathi content
    # -----------------------------------------
    return clean_and_filter_marathi(text)


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/llama_original.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['श्रद्धांजली घेतल्यानंतर, गायिका घोषवाण्याने प्रार्थना सांगत असताना गिर्या वर वाढवल्या.', 'एकूण सहा महिन्यांचा वाढतोळा ज्याला परीक्षेसाठी सादर केला गेला होता, त्याला सर्व चार पायांवर कमजोरी होती आणि जन्मानंतर खूप लवकरच ही कमजोरी होती.', 'व्यवस्थापन अधिकारी लहान व्यवसायासाठी घरगुती क्षेत्रात किंवा तेथे भेदभावास्पद असलेल्या स्थानांची वैकल्पिक स्थाने पुरविणे आवश्यक आहे.', 'येत्या वेळी मशीन विकसित होत असताना, आम्ही पूर्वीच्या प्रकल्पांच्या डेटा नोंदविण्यासाठी वापरलेल्या फॉर्म्सचे बदल करणार.', 'पहिल्या वेळी सांगितल्याप्रमाणे भावना वाईट वाटू शकतात.', 'स्वच्छ असेंबलिंग मिळवण्यासाठी असेंबल केलेल्या समान तालिकेला असेंबलिंग चालू होण्यापूर्वी लोड करा.', 'अधिकाऱ्यांनी सहमत केलेल्या तारखांपासून मोठ्या विचलनांच्या बाबतीत माहिती देण्यास विलंब होतो. ह्यामुळे कारवाई वेळेत होऊ शकत नाही.', 'या ग्लायकन्सचा प्रोटीनमध्ये वाईटपणे स्थानांतरित होत असतो, ज्यामुळे ग्लायकोसिलेशन सीक्वोन्स स्वस्तात असतात.', 'X हा एक कार्यक्षम, ओळखीचे मौखिक उपचार आहे ज्याचा त्वरित कार्याचा प्रारंभ होतो', 'कोणत्याही वृत्तपत्राचे पू

In [2]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("gemma_original.csv")

DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def clean_and_filter_marathi(text):
    lines = []
    for line in text.split("\n"):
        line = line.strip()
        if not line:
            continue
        if (
            re.search(r"[" + DEVANAGARI_RANGE + r"]", line)
            and devanagari_ratio(line) >= 0.70
        ):
            lines.append(line)
    return " ".join(lines)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize
    text = text.replace("\r", "\n")

    # -----------------------------------------
    # 1. Remove ALL "Marathi Translation" headers
    # -----------------------------------------
    text = re.sub(
        r'"?\s*Marathi\s+Translation\s*\(\s*Devanagari\s+Script\s*\)\s*:\s*',
        '',
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    # Remove model tokens
    text = re.sub(r"</s>|<s>|\[/?INST\]", "", text, flags=re.IGNORECASE)

    # -----------------------------------------
    # 2. Try Step 2 (Translation) if present
    # -----------------------------------------
    match = re.search(
        r"Step\s*2\s*\(Translation\)\s*:\s*(.*?)(?:\n\s*Reasoning\s*:|\n\s*Step\s*\d|\Z)",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    if match:
        block = match.group(1)
        block = block.replace('"', "")
        return clean_and_filter_marathi(block)

    # -----------------------------------------
    # 3. Fallback: already-Marathi content
    # -----------------------------------------
    return clean_and_filter_marathi(text)

# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/gemma_original.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['मंत्रोच्चार करीत, गाणे गटने प्रार्थनेचा उच्चार करीत असताना स्वर वाढवला.', 'एक आठवड्या जुना भाकरासाठी तपासणीसाठी सादर केले गेले, ज्याला सर्व चार पायांमध्ये कोल्हा होता, जो जन्माच्या लवकरच सुरू झाला होता.', 'महत्त्वाच्या नियोजन संस्थांनी लहान व्यवसायांसाठी पर्यायी ठिकाणे प्रदान कराव्यात, ज्यांना किंवा ज्यांना भविष्यात निवासी भागात राहण्यास अडचण येईल.', 'मशीन विकसित होत असल्याने, आम्ही आधीच्या प्रकल्पांपासून डेटा रेकॉर्ड करण्यासाठी वापरत असलेल्या फॉर्ममध्ये बदल केले जातील.', 'म्हणूनच पहिल्यांदाच सांगितलेल्याप्रमाणे, छापे भ्रामक असू शकतात.', 'मॅशिनची स्वच्छ संकलन करण्यासाठी, संकलनाची सुरुवात होण्यापूर्वी एकत्रित केलेल्या समानता टेबलाची लोड करा.', 'कार्यकारींचे सहमतीच्या तारखांपासून मोठ्या प्रमाणात विचलनांबद्दल माहिती देण्यास अडथळा आला आहे. यामुळे वेळेवर कारवाई करता येत नाही.', 'हे ग्लाइकन्स प्रथिनेला खूपच कमी प्रमाणात स्थानांतरित होतात, ज्यामुळे रिकाम्या ग्लाइकोसिलीकरण सेक्वॉन येतात.', 'एक्स म्हणजे माइग्रेनसाठी एक प्रभावी तात्काळ, मौखिक उपचार आहे, ज्याचा कार्य सुरू होण्यास वेगवान आहे.', 

In [3]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("sarvam_original.csv")

DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def clean_and_filter_marathi(text):
    """Keep only Marathi-dominant lines"""
    lines = []
    for line in text.split("\n"):
        line = line.strip()
        if not line:
            continue
        if (
            re.search(r"[" + DEVANAGARI_RANGE + r"]", line)
            and devanagari_ratio(line) >= 0.70
        ):
            lines.append(line)
    return " ".join(lines)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize
    text = text.replace("\r", "\n")

    # Remove model tokens
    text = re.sub(r"</s>|<s>|\[/?INST\]", "", text, flags=re.IGNORECASE)

    # -----------------------------------------
    # 1. Try Step 2 (Translation) extraction
    # -----------------------------------------
    match = re.search(
        r"Step\s*2\s*\(Translation\)\s*:\s*(.*?)(?:\n\s*Reasoning\s*:|\n\s*Step\s*\d|\Z)",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    if match:
        block = match.group(1)
        block = block.replace('"', "")
        return clean_and_filter_marathi(block)

    # -----------------------------------------
    # 2. Fallback: already-Marathi response
    # -----------------------------------------
    return clean_and_filter_marathi(text)


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/sarvam_original.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['एक सहा महिन्याचा बछडा दाखल करण्यात आला होता, जो सर्व चार पायांवर लंगडत असल्याचे दिसून आले होते आणि तो जन्मापासूनच असे करत आहे.', 'नियोजन प्राधिकरणांनी लहान व्यवसायांसाठी पर्यायी ठिकाणे उपलब्ध करून द्यावीत, जी निवासी भागात अयोग्य असतील.', 'यंत्रे विकसितम् होतें तसाच डेटा आपण भूत प्रकल्पांमधून नोंदवण्याचे प्रकारही बदलत जातील.', 'निष्कासनकर्ता विलंबतः करारित तारखांविषयी महत्त्वपूर्ण विसंगतींविषयी माहिती देत नाही. कारण यामुळे कृती वेळेत होऊ शकत नाही.', 'ये ग्लायकोन्स खराब रूप से प्रोटीन में स्थानांतरित होते हैं, जिसके परिणामस्वरूप रिक्त ग्लाइकोसिलीकरण अनुक्रमों का निर्माण होता है।', 'X हा तीव्र डोकेदुखीसाठी प्रभावी आहे, जो जलद परिणामांसह होतो.', 'स्टीम, उदाहरणार्थ, त्या सामग्रीसाठी जसे की एक ऍसिड आहे.', 'माझे आवडते ऑपेरा संगीतकार आहेत -  - वर्दी, पुच्चीनी, मोजार्ट आणि गिल्बर्ट अँड सुलिव्हन.', 'नवीन प्रकल्पातील एकमेव समस्या म्हणजे वाळवंटात स्थापन केलेली उच्च किंमत असलेली रस्ते नाहीत.', 'सर्वप्रथम अपयश प्राप्त झाल्यानंतर त्याने एक नवीन योजना आखली जी सर्वांना आश्चर्यचकित करून गेली.', 'जेव्ह

In [4]:
import pandas as pd
import os
from datasets import load_dataset
from rapidfuzz import process, fuzz

# Load dataset
ds = load_dataset("thenlpresearcher/test_data_human_validated_eng_mar")
df_test = ds['test'].to_pandas()  # convert to pandas DataFrame

# Folder containing CSV files
input_folder = "cleaned"
output_folder = "../ready_for_metrics"

# Create output folder if it doesn't exist
os.makedirs(output_folder, exist_ok=True)

# Threshold for fuzzy matching (0-100)
threshold = 90

# Function to find best fuzzy match
def get_best_match(sentence, choices, threshold=90):
    match = process.extractOne(sentence, choices, scorer=fuzz.ratio)
    if match and match[1] >= threshold:
        return match[0]  # return the matched sentence
    return None

# Process each CSV in the folder
for filename in os.listdir(input_folder):
    if filename.endswith(".csv"):
        file_path = os.path.join(input_folder, filename)
        df = pd.read_csv(file_path)
        
        matched_rows = []
        for _, row in df.iterrows():
            best_match = get_best_match(row['Sentence'], df_test['sent_written'], threshold)
            if best_match:
                df_test_row = df_test[df_test['sent_written'] == best_match].iloc[0]
                new_row = row.copy()
                new_row['sent_meant'] = df_test_row['sent_meant']
                new_row['gt'] = df_test_row['gt']
                matched_rows.append(new_row)
        
        # Create DataFrame from matched rows
        if matched_rows:
            merged_df = pd.DataFrame(matched_rows)
            output_path = os.path.join(output_folder, filename)
            merged_df.to_csv(output_path, index=False)
            print(f"Processed {filename}, {len(merged_df)} rows saved to {output_path}.")
        else:
            print(f"No matches found in {filename}.")

Processed llama_original.csv, 54 rows saved to ../ready_for_metrics/llama_original.csv.
Processed sarvam_original.csv, 38 rows saved to ../ready_for_metrics/sarvam_original.csv.
Processed gemma_original.csv, 54 rows saved to ../ready_for_metrics/gemma_original.csv.


In [3]:
!pip install rapidfuzz

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com
Collecting rapidfuzz
  Downloading rapidfuzz-3.14.3-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (12 kB)
Downloading rapidfuzz-3.14.3-cp310-cp310-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m58.9 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: rapidfuzz
Successfully installed rapidfuzz-3.14.3
[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m25.3[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpython -m pip install --upgrade pip[0m
