In [11]:
# find the similar sinhala words in the mapped sentense list remove entire line
import os

# --- Configuration ---
FILE_NAME = 'mapped_sen/merged.txt' # <<< CHANGE THIS to the name of your uploaded .txt file

# --- Function to Process Data ---
def remove_exact_duplicates(file_path):
    """ 
    Reads a file, removes any lines that are exact duplicates,
    and returns the unique lines.
    """
    try:
        # 1. Read all lines
        with open(file_path, 'r', encoding='utf-8') as f:
            # Read lines and strip leading/trailing whitespace
            lines = [line.strip() for line in f if line.strip()]

        if not lines:
            print("File is empty or contains no valid lines.")
            return ""

        # 2. Use a set for fast and efficient de-duplication
        # A set only stores unique elements.
        # print duplicated sentenses
        duplicates = set()
        for line in lines:
            if lines.count(line) > 1:
                duplicates.add(line)
        print(f"Duplicated Sentences:\n{chr(10).join(duplicates)}")
        unique_lines = list(set(lines))

        # 3. Preserve the original order (Optional, but often preferred)
        # We can use a dictionary or an ordered set approach to maintain order
        seen = set()
        ordered_unique_lines = []
        for line in lines:
            if line not in seen:
                seen.add(line)
                ordered_unique_lines.append(line)
        
        # Calculate summary statistics
        original_count = len(lines)
        removed_count = original_count - len(ordered_unique_lines)
        
        print(f"Original Lines: {original_count}")
        print(f"Removed Duplicate Lines: {removed_count}")
        print(f"Remaining Unique Lines: {len(ordered_unique_lines)}")

        return '\n'.join(ordered_unique_lines)

    except FileNotFoundError:
        print(f"ERROR: File not found at '{file_path}'. Please upload the file or check the file name.")
        return ""



In [12]:
# --- Execution ---

# 1. Run the de-duplication
filtered_output = remove_exact_duplicates(FILE_NAME)

# 2. Print the result
if filtered_output:
    print("\n" + "="*50)
    print("FINAL FILTERED DATA (Exact Duplicates Removed)")
    print("="*50)
    print(filtered_output)
    
    # --- Option to save the output to a new file ---
    OUTPUT_FILE_NAME = 'mapped_sen/merged_f.txt'
    with open(OUTPUT_FILE_NAME, 'w', encoding='utf-8') as f:
        f.write(filtered_output)
    print("\n" + "="*50)
    print(f"Unique data saved to: {OUTPUT_FILE_NAME}")

Duplicated Sentences:
කැටයම් ශිල්පී කුණු කුණු කූඩයට දැම්මා.@89:කැටයම් ශිල්පී|UNK:කුණු|1001:කුණුකූඩය|1056:ට|389:දමනවා|1063:ඉවරයි
දූම්රිය රියදුරු සාකච්චා කරනවා.@98:දූම්රිය රියදුරු|314:සාකච්චා කරනවා
කර්ණවෑමි රස බලනවා.@129:කර්ණවෑමි|308:රස බලනවා
කැමරා ශිල්පී ගණිතයට ගොඩාක් ආසයි.@108:කැමරා ශිල්පී|780:ගණිතය|1056:ට|1043:ගොඩාක්|164:කැමති
දූම්රිය ගාඩ් පුටු වියනවා.@99:දූම්රිය ගාඩ්|274:පුටු වියනවා
සැමියා වැඩ කරනවා.@457:සැමියා|383:වැඩ කරනවා
ක්‍රොන්තාත්කරු අත් ගොඩාක් සෝදනවා.@104:ක්‍රොන්තාත්කරු|494:අත|1043:ගොඩාක්|184:සෝදනවා
කිමිදුම් කරු කුරුම්බා කපනවා.@107:කිමිදුම් කරු|243:කුරුම්බා කපනවා
මස්සිනා දඩුවම් කරනවා.@449:මස්සිනා|326:දඩුවම් කරනවා
ක්‍රොන්තාත්කරු එලවලු සෝදනවා.@104:ක්‍රොන්තාත්කරු|190:එලවලු සෝදනවා
මාමා කරදර කරනවා.@445:මාමා|306:කරදර කරනවා
කර්තෲට කැස්ස.@109:කර්තෲ|1056:ට|533:කැස්ස
නැන්දාගේ නම.@443:නැන්දා|1048:ගේ|809:මුලකුරු සමග නම
අපි ඊයේ දවසම විනෝද වුණා.@14:අපි|894:ඊයෙ|865:දවස|UNK:විනෝද|UNK:වුණා
ව්‍යාපෘති නිලදාරී ලස්සන කරනවා.@103:ව්‍යාපෘති නිලදාරී|340:ලස්සන කරනවා
නිවේදක රෙදි නමනවා.@110:නිවේදක|344:රෙ

Merge txt files as one file

In [None]:
# List of file names (you can customize this)
files = ["mapped_sen/u_mixed_1.txt", "mapped_sen/u_past_tense_1.txt", "chapter2.txt"]

# Output file name
output_file = "merged_texts.txt"

with open(output_file, "w", encoding="utf-8") as outfile:
    for file in files:
        with open(file, "r", encoding="utf-8") as infile:
            outfile.write(infile.read())
            outfile.write("\n")  # optional spacing between files

print("✅ Merged", len(files), "files into", output_file)


In [10]:
# cONVERT EXEL FILE INTO TXT FILE only one column
import pandas as pd
# Load the Excel file
excel_file = 'original_sign_gloss_set.xlsx'
df = pd.read_excel(excel_file, header=None)
# Save the DataFrame to a text file
txt_file = 'gloss_list.txt'
# Sinhala word only one column no header no index
df[1].to_csv(txt_file, sep='\t', index=False, header=False)
print(f"✅ Converted '{excel_file}' to '{txt_file}'")

✅ Converted 'original_sign_gloss_set.xlsx' to 'gloss_list.txt'
