In [None]:
# !pip3 install numpy
# !pip3 install pandas
# !pip3 install csv
# !pip3 install openpyxl

# Main Program

## Load the Data

In [None]:
import pandas as pd
import numpy as np
import os
import re

north_path = r"datasets\พจนานุกรมภาษาถิ่นเหนือ.xlsx"
isan_path = r"datasets\พจนานุกรมภาษาถิ่นอีสาน.xlsx"
south_path = r"datasets\พจนานุกรมภาษาถิ่นใต้.xlsx"
orst_path = r"datasets\ราชบัณฑิตฯ"

def load_sheets(file_path, exclude_sheets):
    all_sheets = pd.ExcelFile(file_path).sheet_names
    importing_sheets = [sheet for sheet in all_sheets if sheet not in exclude_sheets]
    return pd.read_excel(file_path, sheet_name=importing_sheets, header=None)

north = load_sheets(north_path, ['อักษรย่อชนิดคำ', 'Example', 'note'])
# isan = pd.read_excel(isan_path, sheet_name=None, header=None)
# south = pd.read_excel(south_path, sheet_name=None, header=None)

def load_excel(directory):
    excel_files = {}
    for filename in os.listdir(directory):
        name = os.path.splitext(filename)[0]
        excel_files[name] = pd.read_excel(os.path.join(directory, filename))
    return excel_files

# orst = load_excel(orst_path)

## Inspect the Data

In [None]:
def inspect(df, num=3):
  for key, value in df.items():
    print(f"{key}\n{df[key].head(num)}\n")

inspect(north)
# inspect(isan)
# inspect(south)
# inspect(orst)

## Prepocess

In [None]:
def cleaning(df):
    removed = ['ก็ว่า', 'ก็เรียก']
    if df == north:
        # north
        for key in df.keys():
            df[key] = df[key][~df[key].apply(lambda row: any(string in str(val) for string in removed for val in row), axis=1)]
            df[key] = df[key].dropna(how='all')
            df[key] = df[key].drop(df[key].columns[2:], axis=1)

    elif df == isan:
        for key in df.keys():


    elif df == south:
        for key in df.keys():


    elif df == orst:
        # orst
        for key in df.keys():
            # no longer remove sub_word columns
            df[key] = df[key].drop(columns = [col for col in [
                "related_word", "word_related"] if col in df[key].columns])
            df[key] = df[key][:-1] # remove "."

    else:
        print('Nah')


cleaning(north)
# cleaning(orst)
# cleaning(south)
# cleaning(isan)

# inspect(north, 10)
# inspect(orst, 10)
# inspect(south, 10)
# inspect(isan, 10)

## Split POS

In [None]:
# original
pattern = r"(น\.|ก\.|ว\.|สัน\.|สำนวน\.|ล\.|ส\.|อ\.)"
"""
น. --> นาม
ก. --> กริยา
ว. --> วิเศษณ์
สัน. --> สันธาน
สำนวน. --> สำนวน
ล. --> ลักษณนาม
ส. --> สรรพนาม
อ. --> อุทาน
"""

def split_pos_and_definition(df):
    def split_row(row):
        text = ' '.join(str(val) for val in row if pd.notna(val))

        # replace POS
        text = re.sub(r'ลัก\.', r'ล.', text)
        text = re.sub(r'สรรพ\.', r'ส.', text)
        text = re.sub(r'คำอุทาน\.|อุทาน\.', r'อ.', text)

        # remove alternative forms
        text = re.sub(r'\sดู\s.+', '', text)
        text = re.sub(r'\(ดู\s*-\s*.+\)$', '', text)
        text = re.sub(r'\(ดูเพิ่มเติมที่ .*\)', '', text)

        text = re.sub(r'"([^"]*)"', r'\1', text)

        matches = []
        seen = set()

        matches = [match for match in re.findall(pattern, text) if not (match in seen or seen.add(match))]
        new_text = text
        if len(matches) > 1:
            first_string = matches[1][:-1]
            second_string = matches[0][:-1]
            
            # >1 POS & 1 meaning
            if re.search(rf'{first_string}\.\s?{second_string}\.|{second_string}\.\s?{first_string}\.', text):
                text = re.sub(rf'{first_string}\.', '', text, count=1)
                new_text = re.sub(rf'{second_string}\.', '', new_text, count=1)
            
            # >1 POS & >1 meaning
            else:
                text = re.sub(rf'{first_string}\..*$', '', text, count=1) # correct

                # print(f"new_text: {new_text}\n")

                # new_text = re.sub(
                #         rf'(.*){re.escape(first_string)}.*?{re.escape(second_string)}',
                #         rf'\1 {second_string}', new_text)

                # print(f"new_text: {new_text}\n")
        
        # 11/11/2024 - alternative forms should refer to synonyms
        # problem - redundancy
        # remove alternative forms
        elif len(matches) < 1:
            text = ''

        # typos
        text = text.replace("“", "\"").replace("”", "\"").replace("''", "\"").replace("‘", "'").replace("’", "'")

        parts = re.split(pattern, text)
        word = parts[0].strip()
        pos = parts[1].strip() if len(parts) > 1 else ''

        definition = ' '.join(parts[2:]).strip() if len(parts) > 2 else ''
        definition = definition.strip()
        
        return pd.Series([word, pos, definition])

    for key in df.keys():
        df[key] = df[key].apply(split_row, axis=1)
        df[key].columns = ['Word', 'POS', 'Definition']
    return df

north = split_pos_and_definition(north)
# orst = split_pos_and_definition(orst)

inspect(north, 60)
# inspect(orst, 30)

In [None]:
def fill_blank_words(df):
    for key in df.keys():
        df[key].dropna(how='all', inplace=True)
        df[key].replace("", np.nan, inplace=True)
        df[key].ffill(axis=0, inplace=True)
    return df

[fill_blank_words(north) for _ in range(2)]

inspect(north, 40)
# inspect(orst, 40)

## Output

In [None]:
def save_dataframes_to_csv(dataframes, region, output_path):
    for sheet_name, df in dataframes.items():
        file_path = f"{output_path}/new_{region}_{sheet_name}.csv"
        df.to_csv(file_path, index=False, encoding='utf-8-sig')

regions = {
    'north': north,
    # 'isan': isan,
    # 'south': south,
    # 'orst': orst
    }

for region, dataframes in regions.items():
    save_dataframes_to_csv(dataframes, region, r"output\csv_test1")

# Test

1 load
2 inspect
3 each region
3.1 north
    - copy headword
    - remove alternative row
3.2 isan
3.3 south
3.4 orst

# Outline

### south

***
1st problem -- number \๑ \๒ \๓, remove "." after each row and before next meaning

sample data:
ก็กแก็ก	ว. ๑. เล็ก ๆ น้อย ๆ, เหลาะแหละ (ภ.ก.). ๒. เสียงดังเบา ๆ

desired output:
ก็กแก็ก	ว. เล็ก ๆ น้อย ๆ, เหลาะแหละ (ภ.ก.)
ก็กแก็ก	ว. เสียงดังเบา ๆ

***
2nd problem -- misalignment, remove "." after "ก็เรียก" and "ก็ว่า"

sample data:
กง	น. ๑. กง, ไม้รูปโค้งที่ตั้งเป็นโครงเรือ	
	กงข้าง	น. กงเสริมของเรือ
	กงโค้ง, กงแซม, กงหนาบ	ก็เรียก.
	กงวาน	น. กงเรือที่มีรูให้น้ำถ่ายเทไปได้ตลอดท้องเรือ
		๒. ชื่อสัตว์สี่เท้าสะเทินน้ำสะเทินบก ตระกูลเดียวกับคางคก ตัวโต มีจุดแดงบริเวณหัว อาศัยตามป่าในช่วงฤดูผสมพันธุ์ต้วผู้จะเปลี่ยนสีผิวหนังเป็นสีแดง ผิวหนังมีพิษ
	กงเขา, โก้งโค้ง, ค้างคกไฟ, โคตรค้างคก, โจงโคร่ง (ส.ฎ.), ผลักโก้งโค้ง (น.ศ.)	ก็เรียก.
		๓. ชื่อพืชคลุมดินชนิดหนึ่งคล้ายว่านหางช้าง มี ๒ ชนิด คือ กงแดงกับกงขาว. ๔. ชื่อพืชน้ำ ขึ้นตามทุ่งนา หรือพื้นที่ชุ่มน้ำ. ๕. ผ้าคลุมศีรษะของชาวไทยมุสลิมใช้ในพิธีละหมาด (น.ธ.). ๖. ส่วนรอบของล้อรถหรือเกวียน เรียก "กงล้อ". ๗. ไร่ล้มลุกที่ถางเป็นป่าหย่อม ๆ ตามเนื้อที่และกั้นเป็นขอบเขตไว้ เช่น หักล้างถางกงในดงดิน (สุวรรณวงศา). ๘. ชื่อขนมชนิดหนึ่งใช้ทำบุญในวันสารทไส้ถั่วเขียวบดละเอียดผสมน้ำตาล ชุบแป้ง ปั้นเป็นรูปต่าง ๆ แล้วทอดน้ำมัน

desired output:
กง	น.	ไม้รูปโค้งที่ตั้งเป็นโครงเรือ
กงข้าง	น.	กงเสริมของเรือ, กงโค้ง, กงแซม, กงหนาบ ก็เรียก
กงวาน	น.	กงเรือที่มีรูให้น้ำถ่ายเทไปได้ตลอดท้องเรือ
กงวาน	น.	ชื่อสัตว์สี่เท้าสะเทินน้ำสะเทินบก ตระกูลเดียวกับคางคก ตัวโต มีจุดแดงบริเวณหัวอาศัยตามป่าในช่วงฤดูผสมพันธุ์ต้วผู้จะเปลี่ยนสีผิวหนังเป็นสีแดง ผิวหนังมีพิษ, กงเขา, โก้งโค้ง, ค้างคกไฟ, โคตรค้างคก, โจงโคร่ง (ส.ฎ.), ผลักโก้งโค้ง (น.ศ.) ก็เรียก
กงวาน	น.	ชื่อพืชคลุมดินชนิดหนึ่งคล้ายว่านหางช้าง มี ๒ ชนิด คือ กงแดงกับกงขาว
กงวาน	น.	ชื่อพืชน้ำ ขึ้นตามทุ่งนา หรือพื้นที่ชุ่มน้ำ
กงวาน	น.	ผ้าคลุมศีรษะของชาวไทยมุสลิมใช้ในพิธีละหมาด (น.ธ.)
กงวาน	น.	ส่วนรอบของล้อรถหรือเกวียน เรียก "กงล้อ"
กงวาน	น.	ไร่ล้มลุกที่ถางเป็นป่าหย่อม ๆ ตามเนื้อที่และกั้นเป็นขอบเขตไว้ เช่น หักล้างถางกงในดงดิน (สุวรรณวงศา)
กงวาน	น.	ชื่อขนมชนิดหนึ่งใช้ทำบุญในวันสารทไส้ถั่วเขียวบดละเอียดผสมน้ำตาล ชุบแป้ง ปั้นเป็นรูปต่าง ๆ แล้วทอดน้ำมัน

### isan

while south use "ก็เรียก" more frequently, isan use "ก็ว่า", tho both be solved at the same time

if one of these words exists in the first row, the first row should be removed = [
	"ก็เรียก",
	"ก็ว่า"
	"ช่อง 1",
	"1",
	"2",
	"3",
	"แม่คำ",
	"ลูกคำ/ ความหมาย",
	"ความหมายลูกคำ",
	"คำสื่อ",
	"สอบถามพี่ ๆ อีกที",
	"ลูกคำ",
	"คำคล้ายลูกคำ",
	"ความหมายลูกคำ คำสื่อ",
	"ตรวจสอบกับตัวเล่ม / ถามตอง"
]

notable_outliers that must be removed (I cannot name all of them and you shouldn't hard-cod either), you must think how to remove this
[
	"พจนานุกรมเขียน "รักอย่างลำเอียง.ล" จึงลบ ".ล" ออกแล้ว (น.366)",
	"(น.250) เดิมในพจนานุกรม ระหว่าง เขียนต่อ นิยามของ ระแวดระวัง จึงแยกออกมาเป็นแม่คำ และใส่ชนิดของคำ",
	"หนังสือพิมพ์ตก ความหมาย เป็น ความหาย น. ๒๐๔"
]

sample data:
กง ๑	น. สิ่งที่เป็นวงกลม หรือขอบ เช่น กงเกียน = กงเกวียน		
	กงกวัก	น. เครื่องมือสำหรับกรอด้าย, กรอไหม	
	กงแก้ว	น. ดวงชะตา	
		กงชาตา	ก็เรียก 
	กงไกว	น. สว่าน	
	กงชาตา	ดู กงแก้ว	
กง ๒	น. เขต, แดน, บริเวณ		
	กงราฐ	น. เขตเมือง, บริเวณเมือง	
	กงโลก	น. จักรวาล	
		ขงโลก	ก็เรียก

desired output:
กง	น.	สิ่งที่เป็นวงกลม หรือขอบ เช่น กงเกียน = กงเกวียน
กง	น.	เขต, แดน, บริเวณ
กงกวัก	น.	เครื่องมือสำหรับกรอด้าย, กรอไหม
กงแก้ว	น.	ดวงชะตา, กงชาตา	ก็เรียก
กงไกว	น.	สว่าน
กงราฐ	น. เขตเมือง, บริเวณเมือง
กงโลก	น. จักรวาล, ขงโลก

as you can see the "กงชาตา	ดู กงแก้ว" is removed because it's redundant
also the second "กง" is rearranged, i think you can alphabetically sort (it should be noted that i'm not expert in thai, i might've sorted this "desired output", the ideal is to A-Z, or ก-ฮ)

### north

in addition to isan's removed list [
	"แม่คำ", "ลูกคำ/ ความหมาย",	"ความหมายลูกคำ","คำสื่อ","สอบถามพี่ ๆ อีกที","ลูกคำ","คำคล้ายลูกคำ","ความหมายลูกคำ คำสื่อ",	"ตรวจสอบกับตัวเล่ม / ถามตอง"
]

north's removed list is [
	"ช่อง 1",
	"1",
	"2",
	"3",
]

reminder, if in one of these elements in this removed list exists in X row, X row must be removed

sample data:
ช่อง 1	2	3	4
กก	น. โคน อย่าง โคนต้นไม้ 		
	น. ชื่อเรียกนกเงือก 		
	น. ชื่อแม่น้ำใน จังหวัดเชียงราย		
	น.ชื่อหญ้าชนิดหนึ่งใช้ทำเลื่อ เรียกว่าเลื่อกก		
	ก. สับ บั่น ฟัน ตัด เซ่น กก เกง สำนวน. กกหางปล่อยวัด กกหัวกกหาง		

desired output:
กก	น.	โคน อย่าง โคนต้นไม้
กก	น.	ชื่อเรียกนกเงือก
กก	น.	ชื่อแม่น้ำใน จังหวัดเชียงราย
กก	น.	ชื่อหญ้าชนิดหนึ่งใช้ทำเลื่อ เรียกว่าเลื่อกก
กก	ก.	สับ บั่น ฟัน ตัด เซ่น กก เกง
กก	สำนวน.	กกหางปล่อยวัด กกหัวกกหาง

as you can see, an incorrect row is removed, misaligned data is rearranged, when "ก." and "สำนวน." exists, it should be like this