In [6]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("llama_zero_zero.csv")

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize newlines
    text = text.replace("\r", "\n")

    # Remove English header
    text = re.sub(
        r"Marathi\s+Translation\s*\(.*?\)\s*:\s*",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    # Remove Marathi header (Devanagari)
    text = re.sub(
        r"मराठी\s*अनुवाद\s*\(.*?\)\s*:\s*",
        "",
        text,
        flags=re.DOTALL
    )

    # Remove English explanations / notes
    text = re.sub(
        r"\(Note:.*?\)",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    text = re.sub(
        r"\(Translation:.*?\)",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    # Split into lines
    lines = text.split("\n")

    marathi_lines = []
    for line in lines:
        line = line.strip()

        # Keep only lines that contain Devanagari AND are not headers
        if re.search(r"[\u0900-\u097F]", line):
            marathi_lines.append(line)

    # Join Marathi text
    cleaned = " ".join(marathi_lines)

    # Normalize whitespace
    cleaned = re.sub(r"\s+", " ", cleaned).strip()

    return cleaned


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/llama_zero_zero.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['स्तुती करण्यासाठी गिरी मोठ्या आवाजात वाढवला जातो आणि स्तुती करणाऱ्याने प्रार्थना सांगत असतांना.', 'छह महिन्यांच्या वयाचा गायीचा मुलगा पाहण्यासाठी दिला गेला होता, ज्याने सर्व चार पायांमध्ये कमकुवती दाखवली होती, जी सगळ्यांना जन्मानंतर काही वेळातच उपस्थित होती.', 'व्यावसायिक प्राधिकरणांना वास्तव्यासाठी अनुकूल नसलेल्या छोट्या व्यवसायांसाठी वास्तव्यासाठी अनुकूल ठिकाणे प्रदान करावीत.', 'प्रक्रिया पूर्ण होत असतांना आपल्या डेटा नोंदविण्यासाठी वापरलेल्या फॉर्म्सचा आकार बदलला जाईल.', 'पहिल्या भासांना वाईट वाटू शकते.', 'असेंबल करण्यापूर्वी असेंबल केलेल्या समान तालिका लोड करा, आणि असेंबली चालू करण्यापूर्वी', '.Executor्स ने सांख्यिकीय विचलनांबद्दल माहिती देण्यासाठी विलंब केला. यामुळे हा कारवाई टप्प्यावर घेता येत नाही.', 'या ग्लायकन्सचा प्रोटीनमध्ये वाईटपणे स्थानांतरित होताना अन्न्याय्य ग्लायकोसिलेशन सीक्वोन्स राहतात.', 'एक्स हे एक कार्यक्षम, मौखिक उपचार आहे ज्याचा मिर्ग्रीनवर त्वरित कार्याचा प्रारंभ होतो.', 'कोणत्याही वृत्तपत्राचे माझ्या विशेषज्ञ मतानुसार पूर्णपणे निष्पक्ष नसते.', 'स्टीमच्या उदा

In [8]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("gemma_zero_zero.csv")

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize newlines
    text = text.replace("\r", "\n")

    # -------------------------------
    # 1. Remove ALL translation headers
    # -------------------------------

    # English headers
    text = re.sub(
        r"Marathi\s+Translation\s*\(.*?\)\s*:\s*",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    # Marathi headers (multiple variants)
    text = re.sub(
        r"(मराठी\s*(अनुवाद|भाषांतर)\s*\(.*?\)\s*:\s*)",
        "",
        text,
        flags=re.DOTALL
    )

    # -------------------------------
    # 2. Remove English explanation blocks
    # -------------------------------

    # Remove "Let me break down the reasoning:" and everything after it
    text = re.split(
        r"Let me break down the reasoning\s*:",
        text,
        flags=re.IGNORECASE
    )[0]

    # Remove English notes in parentheses
    text = re.sub(
        r"\(Note:.*?\)",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    text = re.sub(
        r"\(Translation:.*?\)",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    # -------------------------------
    # 3. Extract only Marathi lines
    # -------------------------------

    lines = text.split("\n")
    marathi_lines = []

    for line in lines:
        line = line.strip()

        # Keep only lines with Devanagari characters
        if re.search(r"[\u0900-\u097F]", line):

            # Drop leftover header-like lines
            if re.search(r"(मराठी|अनुवाद|भाषांतर)", line):
                continue

            marathi_lines.append(line)

    # -------------------------------
    # 4. Clean final output
    # -------------------------------

    cleaned = " ".join(marathi_lines)
    cleaned = re.sub(r"\s+", " ", cleaned).strip()

    return cleaned


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/gemma_zero_zero.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['मंडळाच्या गायनाने, साजरा करणाऱ्याने प्रार्थना गायली असताना, आवाज वाढवला.', 'एक छः महिन्यांचा भाकंडा शिफारस करण्यात आला होता तपासणीसाठी, ज्याच्या सर्व चार पायांमध्ये लॅमनेस होती जी जन्म झाल्यापासूनच होती.', 'महत्त्वाच्या योजना आयोगांनी लहान व्यवसायांसाठी राहण्याच्या परिसरात आव्हानात्मक असलेल्या किंवा होऊ शकतील अशा स्थानिकांसाठी पर्यायी ठिकाणे उपलब्ध कराव्यात.', 'मशीन विकसित होत असताना, आम्ही मागील प्रकल्पांपासून डेटा रेकॉर्ड करण्यासाठी वापरल्या जाणाऱ्या फॉर्ममध्ये बदल करू.', 'जसे म्हटले आहे, पहिल्या छापे चुकीच्या असू शकतात.', 'साफ स्वरूपाची एकत्रीकरणासाठी, एकत्रित केलेल्या समान ताबल्याला एकत्रीकरण सुरू होण्यापूर्वी लोड करा.', 'कार्यकारींनी करारित तारखांपासून मोठ्या फरकांबद्दल माहिती देण्यास विलंब केला आहे. यामुळे वेळेवर कारवाई करणे शक्य नाही.', 'हे ग्लायकन्स प्रोटीनमध्ये खूपच कमी प्रमाणात स्थानांतरित होतात, ज्यामुळे ग्लाइकोसिलीकरण सेक्वॉन रिकामध्ये राहतात.', 'एक्स म्हणजे माइग्रेनसाठी एक प्रभावी तीव्र, मौखिक उपचार आहे ज्याचा कार्य सुरुवातीलाच होतो.', 'माझ्या माहितीच्या आधारावर, कोणत्या

In [10]:
import pandas as pd
import re
import os

# Load CSV
df = pd.read_csv("sarvam_zero_zero.csv")
DEVANAGARI_RANGE = r"\u0900-\u097F"

def devanagari_ratio(text):
    """Return ratio of Devanagari characters to total letters"""
    letters = re.findall(r"[A-Za-z" + DEVANAGARI_RANGE + r"]", text)
    if not letters:
        return 0.0
    dev = re.findall(r"[" + DEVANAGARI_RANGE + r"]", text)
    return len(dev) / len(letters)

def extract_marathi(text):
    if not isinstance(text, str):
        return ""

    # Normalize newlines
    text = text.replace("\r", "\n")

    # -------------------------------
    # 1. Remove headers (English + Marathi)
    # -------------------------------
    text = re.sub(
        r"Marathi\s+Translation\s*\(.*?\)\s*:\s*",
        "",
        text,
        flags=re.IGNORECASE | re.DOTALL
    )

    text = re.sub(
        r"(मराठी\s*(अनुवाद|भाषांतर)\s*\(.*?\)\s*:\s*)",
        "",
        text,
        flags=re.DOTALL
    )

    # -------------------------------
    # 2. Remove instruction / model junk
    # -------------------------------
    text = re.sub(r"</s>|<s>|\[/?INST\]", "", text, flags=re.IGNORECASE)

    # Remove long English reasoning blocks
    text = re.split(
        r"Let me break down the reasoning\s*:",
        text,
        flags=re.IGNORECASE
    )[0]

    # -------------------------------
    # 3. Line-by-line filtering
    # -------------------------------
    marathi_lines = []

    for line in text.split("\n"):
        line = line.strip()

        if not line:
            continue

        # Must contain Devanagari
        if not re.search(r"[" + DEVANAGARI_RANGE + r"]", line):
            continue

        # Must be mostly Devanagari (avoid mixed junk)
        if devanagari_ratio(line) < 0.70:
            continue

        marathi_lines.append(line)

    # -------------------------------
    # 4. Final cleanup
    # -------------------------------
    cleaned = " ".join(marathi_lines)
    cleaned = re.sub(r"\s+", " ", cleaned).strip()

    return cleaned


# Apply extraction
df["Response"] = df["Response"].apply(extract_marathi)
print(list(df["Response"]))
# Save output
os.makedirs("cleaned", exist_ok=True)
df.to_csv("cleaned/sarvam_zero_zero.csv", index=False)

print("✅ Marathi translations cleaned successfully.")

['गायकवृंदने भजनं गातो, सभाउन्नतवाणें उचलत;', 'एक सहा महिन्याचा बछडा दाखल करण्यात आला होता, सर्व चार पायांवर लंगडेपणा दिसून येत आहे जो जन्मापासूनच उपस्थित असल्याचे दिसते.', 'नियोजन प्राधिकरणांनी निवासी भागात अयोग्य असलेल्या छोट्या व्यवसायांसाठी पर्यायी ठिकाणे उपलब्ध करून द्यावीत.', 'भूतकाळातील प्रकल्पांमधून डेटा रेकॉर्ड करण्यासाठी वापरले जाणारे फॉर्म विकसित केले जातील.', 'असें करून विधानसभेचे विधानसभा लोड करण्यापूर्वी स्वच्छ करा.', 'निष्पादक विलंबित देत आहे, जे सहमतीच्या तारखांपासून लक्षणीय विचलन आहेत. कारण या कृतीची वेळ नाही.', 'हे ग्लायकोसें अयोग्यरित्या हस्तांतरित होतात परिणामी रिक्त ग्लायकन अनुक्रम असतात.', 'X हा तीव्र डोकेदुखीसाठी प्रभावी आहे.', 'No वृत्तपत्र पूर्णपणे निष्पक्ष नाही माझ्या मते तज्ञांच्या मतानुसार.', 'स्टीम हा पदार्थाप्रमाणेच हानिकारक आहे.', 'माझे आवडते ऑपेरा संगीतकार म्हणजे वर्डी, पुच्चीनी, मोजार्ट आणि गिल्बर्ट अँड सुलिव्हन आहेत.', 'नवीन प्रकल्प स्थापन केलेल्या वाळवंटात उच्च खर्चामुळे फक्त एक समस्या आहे ती म्हणजे रस्ते चांगले नाहीत.', 'सर्वप्रथम प्रयत्न करूनही तो अ

In [1]:
import pandas as pd
import os
from datasets import load_dataset

# Load dataset
ds = load_dataset("thenlpresearcher/test_data_human_validated_eng_mar")
df_test = ds['test'].to_pandas()  # convert to pandas DataFrame

# Folder containing CSV files
input_folder = "cleaned"
output_folder = "../ready_for_metrics"

# Create output folder if it doesn't exist
os.makedirs(output_folder, exist_ok=True)

# Process each CSV in the folder
for filename in os.listdir(input_folder):
    if filename.endswith(".csv"):
        file_path = os.path.join(input_folder, filename)
        
        # Read the CSV
        df = pd.read_csv(file_path)
        
        # Merge with df_test on matching sentences
        merged_df = df.merge(
            df_test[['sent_written', 'sent_meant', 'gt']],
            left_on='Sentence',
            right_on='sent_written',
            how='inner'
        )
        
        # Drop the redundant 'sent_written' column
        merged_df = merged_df.drop(columns=['sent_written'])
        
        # Save to the new folder
        output_path = os.path.join(output_folder, filename)
        merged_df.to_csv(output_path, index=False)
        print(f"Processed {filename}, {len(merged_df)} rows saved to {output_path}.")

  from .autonotebook import tqdm as notebook_tqdm


Processed llama_zero_zero.csv, 54 rows saved to ../ready_for_metrics/llama_zero_zero.csv.
Processed gemma_zero_zero.csv, 54 rows saved to ../ready_for_metrics/gemma_zero_zero.csv.
Processed sarvam_zero_zero.csv, 44 rows saved to ../ready_for_metrics/sarvam_zero_zero.csv.
