In [1]:
import pandas as pd
import json
import os

# Put the Filename and Validate

In [2]:
fn = '26-10-azureO1.csv'

fn = fn.split('.')

if len(fn) == 2 :
    [filename, extension] = fn
elif len(fn) == 1:
    filename = fn[0]
    extension = 'csv'
else:
    raise ValueError('Invalid filename')

progress_file_path = f'./progress/validationProgress-{filename}.txt'
raw_data_file_path = f'./data/raw/{filename}.{extension}'

if not os.path.exists(progress_file_path):
    raise FileNotFoundError(f'Progress file not found: {progress_file_path}')
if not os.path.exists(raw_data_file_path):
    raise FileNotFoundError(f'Raw data file not found: {raw_data_file_path}')

# Read File

In [3]:
df = pd.read_csv(raw_data_file_path)

# Open and read the JSON file
with open(progress_file_path, 'r') as file:
    validate_data = json.load(file)

df

Unnamed: 0,thai sentence,english sentence
0,เมื่อเช้าพี่ลองอ่านทรานสคริปต์แล้วรู้สึกเฟ้อเล...,This morning I tried reading the transcript an...
1,พวกเขาเบรกกะทันหันตรงหน้าแท็งก์น้ำ เพื่อเลี่ยง...,They abruptly braked in front of the water tan...
2,เธอฟรีค่าเดินทาง เพราะสมัครแฟรนไชส์ใหม่ ได้ส่ว...,She travels for free because she registered a ...
3,น้องลองทานปอเปี๊ยะแบบเปรี๊ยะๆ แล้วก็ยังรู้สึกห...,They tried fresh spring rolls and still felt c...
4,ถ้าเหนื่อยมากเกินไป ลองโบ๊ออกไปนั่งพักใต้ต้นไม...,"If you're overly tired, try stepping out to re..."
5,บางทีฟลุคชอบเปิดแฟลชเวลาดึก แถมฟลายไปหาเพื่อนต...,Sometimes Fluke turns on the flash late at nig...
6,เมื่อเขาลองฟร็องซ์น้ำหอมใหม่ กลับได้กลิ่นบร็อง...,"When they tested the new Fronce perfume, they ..."
7,โปรดระวังอย่าดร็อปโฟลเดอร์ผิด เพราะไดรฟ์อาจเริ...,"Be careful not to drop the wrong folder, becau..."
8,บางครั้งผู้จัดการยัวะตอนประชุม เพราะลูกน้องพูด...,Sometimes the manager gets annoyed in meetings...
9,ถ้าเธอจั๊วะใส่ประตูเสียงเพียะเมื่อโง้วร้อนไป อ...,If you slam the door with a sharp crack when y...


# Replace with Edited Data

In [4]:
edited_process = validate_data['editHistory']
for edit in edited_process:
    row_index = edit['rowIndex']
    df.at[row_index, 'thai sentence'] = edit['editedThai']
    df.at[row_index, 'english sentence'] = edit['editedEnglish']

Unnamed: 0,thai sentence,english sentence
0,เมื่อเช้าพี่ลองอ่านทรานสคริปต์แล้วรู้สึกเฟ้อเล...,This morning I tried reading the transcript an...
1,พวกเขาเบรกกะทันหันตรงหน้าแท็งก์น้ำ เพื่อเลี่ยง...,They abruptly braked in front of the water tan...
2,เธอฟรีค่าเดินทาง เพราะสมัครแฟรนไชส์ใหม่ ได้ส่ว...,She travels for free because she registered a ...
3,น้องลองทานปอเปี๊ยะแบบเปรี๊ยะๆ แล้วก็ยังรู้สึกห...,They tried fresh spring rolls and still felt c...
4,ถ้าเหนื่อยมากเกินไป ลองออกไปนั่งพักใต้ต้นไม้ แ...,"If you're overly tired, try stepping out to re..."
5,บางทีฟลุคชอบเปิดแฟลชเวลาดึก แถมบินไปหาเพื่อนตอ...,Sometimes Fluke turns on the flash late at nig...
6,เมื่อเขาลองฟร็องซ์น้ำหอมใหม่ กลับได้กลิ่นบร็อง...,"When they tested the new Fronce perfume, they ..."
7,โปรดระวังอย่าดร็อปโฟลเดอร์ผิด เพราะไดรฟ์อาจเริ...,"Be careful not to drop the wrong folder, becau..."
8,บางครั้งผู้จัดการยัวะตอนประชุม เพราะลูกน้องพูด...,Sometimes the manager gets annoyed in meetings...
9,ถ้าเธอจั๊วะใส่ประตูเสียงเพียะเมื่อโง้วร้อนไป อ...,If you slam the door with a sharp crack when y...


# Validate End-sentence Symbol
`.`, `!` and `?`

In [5]:
def ensure_sentence_end(sentence: str) -> str:
    if not sentence.endswith(('.', '!', '?')):
        return sentence + '.'
    return sentence

# Apply the function to the 'english sentence' column
df['english sentence'] = df['english sentence'].apply(ensure_sentence_end)

Unnamed: 0,thai sentence,english sentence
0,เมื่อเช้าพี่ลองอ่านทรานสคริปต์แล้วรู้สึกเฟ้อเล...,This morning I tried reading the transcript an...
1,พวกเขาเบรกกะทันหันตรงหน้าแท็งก์น้ำ เพื่อเลี่ยง...,They abruptly braked in front of the water tan...
2,เธอฟรีค่าเดินทาง เพราะสมัครแฟรนไชส์ใหม่ ได้ส่ว...,She travels for free because she registered a ...
3,น้องลองทานปอเปี๊ยะแบบเปรี๊ยะๆ แล้วก็ยังรู้สึกห...,They tried fresh spring rolls and still felt c...
4,ถ้าเหนื่อยมากเกินไป ลองออกไปนั่งพักใต้ต้นไม้ แ...,"If you're overly tired, try stepping out to re..."
5,บางทีฟลุคชอบเปิดแฟลชเวลาดึก แถมบินไปหาเพื่อนตอ...,Sometimes Fluke turns on the flash late at nig...
6,เมื่อเขาลองฟร็องซ์น้ำหอมใหม่ กลับได้กลิ่นบร็อง...,"When they tested the new Fronce perfume, they ..."
7,โปรดระวังอย่าดร็อปโฟลเดอร์ผิด เพราะไดรฟ์อาจเริ...,"Be careful not to drop the wrong folder, becau..."
8,บางครั้งผู้จัดการยัวะตอนประชุม เพราะลูกน้องพูด...,Sometimes the manager gets annoyed in meetings...
9,ถ้าเธอจั๊วะใส่ประตูเสียงเพียะเมื่อโง้วร้อนไป อ...,If you slam the door with a sharp crack when y...


# Split Data

In [6]:
# Create a list of row indices marked as "ok"
ok_indices = [entry['rowIndex'] for entry in validate_data['history'] if entry['mark'] == 'ok']
weird_indices = [entry['rowIndex'] for entry in validate_data['history'] if entry['mark'] == 'weird']
skip_indices = [entry['rowIndex'] for entry in validate_data['history'] if entry['mark'] == 'skip']

# Filter the DataFrame to keep only the rows with indices in ok_indices
filtered_df = df.iloc[ok_indices]
weird_df = df.iloc[weird_indices]
skip_df = df.iloc[skip_indices]

# Analyze The Data

In [7]:
print('File:','.'.join(fn))
print('Total data shape:',df.shape[0])
print('Filtered data shape:',filtered_df.shape[0])
print('Weird data shape:',weird_df.shape[0])
print('Skipped data shape:',skip_df.shape[0])
print('Weird ratio:',validate_data['stats']['weird']/validate_data['stats']['ok'])

File: 26-10-azureO1.csv
Total data shape: 10
Filtered data shape: 6
Weird data shape: 4
Skipped data shape: 0
Weird ratio: 0.6666666666666666


# Write File

In [8]:
os.makedirs(f'./data/filtered/{filename}', exist_ok=True)
filtered_df.to_csv(f'./data/filtered/{filename}/{filename}_approved.csv', index=False)
weird_df.to_csv(f'./data/filtered/{filename}/{filename}_rejected.csv', index=False)