In [1]:
import os
import pandas as pd
from tqdm.notebook import tqdm

In [2]:
TRANSLATED_CSV = "./data/miriad_dataset_translated_kk.csv"

In [3]:
processed_df = pd.read_csv(TRANSLATED_CSV)

In [5]:
len(processed_df)

157700

In [6]:
# --- Configuration ---
# This should be the output file from your main translation script.
INPUT_FILE_WITH_ERRORS = "./data/miriad_dataset_translated_kk.csv"

# This will be the name of the new, clean file.
CLEAN_OUTPUT_FILE = "./data/miriad_dataset_translated_clean.csv"

# The value we are searching for, as defined in the main script.
ERROR_VALUE = "TRANSLATION_ERROR"
TARGET_LANGUAGE = 'kk' # This must match the language code from the main script.

# --- Main Cleaning Logic ---
print(f"Attempting to load data from '{INPUT_FILE_WITH_ERRORS}'...")

try:
    # Load the entire dataset that may contain errors.
    df = pd.read_csv(INPUT_FILE_WITH_ERRORS)
    print(f"Successfully loaded {len(df)} rows.")
except FileNotFoundError:
    print(f"Error: The file '{INPUT_FILE_WITH_ERRORS}' was not found.")
    print("Please make sure you have run the main translation script and the file exists.")
    exit()
except Exception as e:
    print(f"An error occurred while reading the CSV: {e}")
    exit()

# Define the translated column names to check for the error string.
question_col_trans = f'question_{TARGET_LANGUAGE}'
answer_col_trans = f'answer_{TARGET_LANGUAGE}'
columns_to_check = [question_col_trans, answer_col_trans]

# Create a boolean "mask" to identify rows where the ERROR_VALUE exists
# in EITHER of the columns we are checking.
# The .any(axis=1) checks for `True` across the row.
error_mask = df[columns_to_check].isin([ERROR_VALUE]).any(axis=1)

# Select all rows that match the error mask.
error_rows = df[error_mask]
num_error_rows = len(error_rows)

if num_error_rows > 0:
    print(f"\nFound {num_error_rows} row(s) containing '{ERROR_VALUE}'.")
    
    # Display the identifying columns of the rows that will be removed.
    print("The following rows will be removed:")
    print(error_rows[['qa_id', 'paper_id', question_col_trans, answer_col_trans]].to_string())
    
    # Create the new, clean DataFrame by inverting the mask.
    # The '~' operator means 'not', so it selects all rows where the condition is False.
    clean_df = df[~error_mask]
    
    print(f"\nCreated a new clean dataset with {len(clean_df)} rows.")
    
    # Save the clean DataFrame to a new file.
    print(f"Saving the clean data to '{CLEAN_OUTPUT_FILE}'...")
    clean_df.to_csv(CLEAN_OUTPUT_FILE, index=False, encoding='utf-8')
    print("Save complete.")
    
else:
    print(f"\nNo rows with the value '{ERROR_VALUE}' were found. The dataset is already clean!")



Attempting to load data from './data/miriad_dataset_translated_kk.csv'...
Successfully loaded 157700 rows.

Found 86396 row(s) containing 'TRANSLATION_ERROR'.
The following rows will be removed:


IOPub data rate exceeded.
The Jupyter server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--ServerApp.iopub_data_rate_limit`.

Current values:
ServerApp.iopub_data_rate_limit=1000000.0 (bytes/sec)
ServerApp.rate_limit_window=3.0 (secs)



Save complete.


In [7]:
clean_df.head()

Unnamed: 0.1,Unnamed: 0,qa_id,paper_id,question,answer,paper_url,paper_title,passage_text,passage_position,year,venue,specialty,question_kk,answer_kk
0,0,38_77498699_0_1,77498699,What are the common clinical features and diag...,The common clinical features of relapsing poly...,https://api.semanticscholar.org/CorpusID:77498699,Otological Manifestations of Relapsing Polycho...,Relapsing Polychondritis is a rare systemic in...,0,2006.0,The Internet Journal of Otorhinolaryngology,Rheumatology,Қайталанатын полихондриттің жалпы клиникалық б...,Қайталанатын полихондриттің жалпы клиникалық б...
1,1,38_77498699_0_2,77498699,What are the treatment options for relapsing p...,The primary treatment for relapsing polychondr...,https://api.semanticscholar.org/CorpusID:77498699,Otological Manifestations of Relapsing Polycho...,Relapsing Polychondritis is a rare systemic in...,0,2006.0,The Internet Journal of Otorhinolaryngology,Rheumatology,Қайталанатын полихондриттерді емдеудің қандай ...,Қайталанатын полихондриттің негізгі емі предни...
2,2,38_77498699_0_3,77498699,What are the potential complications associate...,Lethal complications of relapsing polychondrit...,https://api.semanticscholar.org/CorpusID:77498699,Otological Manifestations of Relapsing Polycho...,Relapsing Polychondritis is a rare systemic in...,0,2006.0,The Internet Journal of Otorhinolaryngology,Rheumatology,Қайталанатын полихондритпен байланысты қандай ...,Қайталанатын полихондриттің өлімге әкелетін ас...
3,3,38_18980821_0_1,18980821,What are some of the psychosocial aspects of l...,Living with BHD can have various non-medical r...,https://api.semanticscholar.org/CorpusID:18980821,Birt–Hogg–Dubé: beyond the clinical manifestat...,"Individuals and their families, who live with ...",0,2012.0,Familial Cancer,Psychiatry,Бирт-Хогг-Дюбе (BHD) синдромымен өмір сүрудің ...,BHD-мен өмір сүрудің әртүрлі медициналық емес ...
4,4,38_18980821_0_2,18980821,How do patients with significant pulmonary man...,Patients with significant pulmonary manifestat...,https://api.semanticscholar.org/CorpusID:18980821,Birt–Hogg–Dubé: beyond the clinical manifestat...,"Individuals and their families, who live with ...",0,2012.0,Familial Cancer,Pulmonology & Respiratory Medicine,BHD елеулі өкпе көріністері бар науқастар тиіс...,BHD елеулі өкпе көріністері бар науқастар жиі ...


In [9]:
df.iloc[0]["answer_kk"]

'Қайталанатын полихондриттің жалпы клиникалық белгілеріне құлақшалық хондрит (құлақ шеміршегінің қабынуы), артропатия (буынның қабынуы), мұрын хондриті, тыныс алу жүйесінің хондриттері және эписклерит сияқты көздің зақымдануы жатады. Қайталанатын полихондриттің диагностикалық критерийлері Дамиани мен Левиннің өзгертілген критерийлерін қамтиды, олар құлақтың хондриті, мұрын хондриті, көздің қабынуы, тыныс алу жолдарының хондриті және аудиовестибулярлық зақым сияқты белгілерді қамтуы мүмкін. ЭТЖ жоғарылауы (эритроциттердің шөгу жылдамдығы) қайталанатын полихондрит кезінде жиі кездесетін зертханалық қорытынды болып табылады.'

In [11]:
clean_df.tail()

Unnamed: 0.1,Unnamed: 0,qa_id,paper_id,question,answer,paper_url,paper_title,passage_text,passage_position,year,venue,specialty,question_kk,answer_kk
71300,300,73_195771236_0_3,195771236,What imaging modalities can be used to differe...,Computed tomography (CT) scan and ultrasonogra...,https://api.semanticscholar.org/CorpusID:19577...,Kawasaki disease with retropharyngeal edema: c...,To the Editor: Kawasaki disease (KD) and its c...,0,2019.0,Chinese Medical Journal,Radiology & Imaging,Ретрофарингеальді ісінуі бар Кавасаки ауруын ж...,Компьютерлік томография (КТ) сканерлеуі және м...
71302,302,73_195771351_0_3,195771351,How can latent tuberculosis infection (LTBI) s...,LTBI screening at entry among immigrants can c...,https://api.semanticscholar.org/CorpusID:19577...,Implementation of latent tuberculosis infectio...,To reach pre-elimination levels of tuberculosi...,0,2019.0,PLoS ONE,Public Health & Epidemiology,Иммигранттар арасында жасырын туберкулез инфек...,Иммигранттар арасында кірген кезде LTBI скрини...
71304,304,73_195771381_0_2,195771381,What are the limitations of using autologous b...,"Autologous bone grafts, obtained from the pati...",https://api.semanticscholar.org/CorpusID:19577...,Autologous cell-coated particles for the treat...,"Bone defects due to trauma, infections, and sk...",0,2019.0,Journal of Orthopaedic Surgery and Research,Orthopedic Surgery,Сүйек ақаулары үшін шешім ретінде аутологиялық...,Науқастың өз денесінен алынған аутологиялық сү...
71307,307,73_195771381_1_2,195771381,Why are critical-sized bone defects considered...,Critical-sized bone defects pose a major clini...,https://api.semanticscholar.org/CorpusID:19577...,Autologous cell-coated particles for the treat...,Besides their intended use in curing criticals...,1,2019.0,Journal of Orthopaedic Surgery and Research,Orthopedic Surgery,Неліктен сыни өлшемдегі сүйек ақаулары маңызды...,Критикалық өлшемдегі сүйек ақаулары үлкен клин...
71308,308,73_195771381_1_3,195771381,Why is the sheep critical gap model commonly u...,The sheep critical gap model is commonly used ...,https://api.semanticscholar.org/CorpusID:19577...,Autologous cell-coated particles for the treat...,Besides their intended use in curing criticals...,1,2019.0,Journal of Orthopaedic Surgery and Research,Orthopedic Surgery,Неліктен адамның ортопедиялық ауруларын зертте...,Қойдың сыни саңылау моделі әдетте пайдаланылад...
