In [556]:
import pandas as pd
import re


# def custom_title(s):
#     # Split the string into words
#     words = s.split()

#     # Process each word
#     titled_words = []
#     for word in words:
#         # Split the word by hyphen if present
#         parts = word.split('-')

#         # Capitalize the first part always and subsequent parts only if they are not following a hyphen
#         # Rejoin parts with hyphen
#         titled_word = '-'.join([p.capitalize() if i == 0 else p[0].lower() + p[1:] if p else '' for i, p in enumerate(parts)])

#         # Append the processed word to the list
#         titled_words.append(titled_word)

#     # Join and return the titled words
#     return ' '.join(titled_words)




def custom_title(s):
    # Function to capitalize the first character inside the parentheses and keep the rest unchanged
    def capitalize_inside_parentheses(text):
        def capitalize_match(match):
            # Full match is the entire text inside parentheses, including the parentheses
            full_match = match.group(0)
            # Captured group 1 is the text immediately following the "("
            first_char = match.group(1)
            # Captured group 2 is the rest of the text inside the parentheses
            remaining_text = match.group(2)
            # Reconstructing the text with only the first character capitalized
            return '(' + first_char.upper() + remaining_text + ')'
        
        # Applying the regex to find and modify text inside parentheses
        # This pattern ensures the entire text inside parentheses is matched,
        # but specifically targets the first character after "(" for capitalization
        return re.sub(r'\(\s*([a-z])(.*?)\)', capitalize_match, text, flags=re.IGNORECASE)

    # Split the string into words
    words = s.split()

    # Process each word for custom title-casing
    titled_words = []
    for word in words:
        # Handling words with hyphens separately
        parts = word.split('-')
        titled_word = '-'.join([p.capitalize() if i == 0 else p[0].lower() + p[1:] if p else '' for i, p in enumerate(parts)])
        titled_words.append(titled_word)

    # Joining the processed words into a string
    titled_string = ' '.join(titled_words)

    # Capitalizing the first character inside parentheses in the entire string and keeping the rest unchanged
    titled_string = capitalize_inside_parentheses(titled_string)

    return titled_string


def split_name(input_string):
    
    
    
    # Regular expression to match Thai and English names
    # Adjusting to capture content more accurately
    pattern = re.compile(r'([\u0E00-\u0E7F]+)\s*\(([\w\s\-]+)\)|([\u0E00-\u0E7F\s]+)|([A-Za-z\s\-]+)')

    # Lists to hold matched Thai and English names
    thai_names = []
    english_names = []

    for match in pattern.finditer(input_string):
        if match.group(1) or match.group(3):  # Thai name parts
            thai_names.append(match.group(1) or match.group(3))
        if match.group(2) or match.group(4):  # English name parts
            english_names.append(match.group(2) or match.group(4))

    # Cleaning and concatenating names, removing extra spaces
    thai_full_name = ' '.join(name.strip() for name in thai_names if name.strip())
    english_full_name = ' '.join(name.strip() for name in english_names if name.strip())

    # Removing extra spaces using regex substitution for both Thai and English
    thai_full_name = re.sub(r'\s+', ' ', thai_full_name)
    english_full_name = re.sub(r'\s+', ' ', english_full_name)
    
    if thai_full_name and english_full_name and len(thai_full_name) > 2 and len(english_full_name) > 2:
        return [thai_full_name, english_full_name]
    else:
        
        #for ; case
        if ';' in input_string:
            input_string = input_string.split(';')
            return input_string
        return [input_string]
    
    
    
def remove_spaces(string):
    
    
    # drop case
    drop_list = ['บรรณาธิการ','Editorial','M.D.','Journal','วารสาร','- -','--','. .','มหาวิทยาลัย','สำนัก','Vol.','นักศึกษา','CFA','MA','subcommittee','et.al']
    for drop in drop_list:
        if drop in string:
            return ''
        
    
    #remove duplicate
    string = list(dict.fromkeys(string.split(' ')))
    string = ' '.join(string)
    
    print(string)
    if string == '':
        return ''
    elif string == ' ':
        return ''
    if string[0] in [' ','*','/','\\','_','-','+','=','(']:
        string = string[1:]
    if string[-1] in [' ','*','/','\\','_','-','+','=','1','2','3','4','5','6','7','8','9','0']:
        string = string[:-1]
        
        
    
    
    #replace
    string = string.replace('(ผู้แต่ง)','').replace('และคณะ','').replace(' - ',' ').replace(' ๋',' ').replace('and Other','').replace('  ',' ')
        
        
        
        
        
        
    prefix_list = ['Assist. Prof. Dr.','Assoc Prof Dr ','Assoc. Prof. Dr.','Asst.Prof.Dr.','Authors :','Ph.D','Dr.','Dr ','Mr.','Ms.','Mrs.','Prof.','นางสาว','นาย','นาง',
                'อ.ดร.','ร.ต.อ.','รศ.ดร.','ผศ.ดร.','ศ.ดร.','ดร.','ดร ','รศ.','รศ','ผศ.','พระครูปลัด','พระครูใบฎีกา','พระครู','พระเทพ',
                   'พระปลัด','พระมหา','พระ','Phramaha','Phra','Jr.','ผู้ช่วยศาสตราจารย์ ดร.','ผู้ช่วยศาสตราจารย์','รองศาสตราจารย์ ดร.','ผู้ทรงคุณวุฒิ',
'แนะนำผู้เขียน','ผู้แต่ง','Authors','ว่าที่ ร.ต.','Ven. Dr. Phrapalad','Lect. Dr.','อาจารย์ ดร.','อาจารย์','ว่าที่ พ.ต. ดร.','ว่าที่ร้อยตรี','นพ.','กสทช.','Mohd.','พันเอกหญิง','พันเอก','พันจ่า','พันโท','พันตรี','พลตรี','พลอากาศเอก','พลอากาศตรี','พลอากาศโท','พลอากาศตรี','พลอากาศจ่า','พล.อ.','พล.ท.','พล.ต.','เจ้าฟ้า','หม่อมราชวงศ์','หม่อมหลวง','ม.ร.ว.','ม ร ว','ม.ล.','ม ล']
    for prefix in prefix_list:
        if string.startswith(prefix):
            string = string[len(prefix):]
            
    #Upper for first name and la
    
    string = custom_title(string)
    return string.strip()

if __name__ == '__main__':
    char = {'id': [], 'name': []}
    df = pd.read_csv('test.csv')
    df = df.fillna('')
    for idx, row in df.iterrows():
        names = []
        char['id'].extend([f"{row['_id']}_{i+1}" for i in range(10)])
        author = row['_source.author']
        if author != '':
            names.extend(split_name(author))
        co_author = row['_source.co-author']
        if co_author != '':
            ca = co_author.split(',')
            for c in ca:
                _c = split_name(c)
                for __c in _c:
                    if __c not in names:
                        names.append(__c)
        if len(names) == 0:
            char['name'].extend([None]*10)
            continue
        names = [remove_spaces(name) for name in names]
        if len(names) > 10:
            names = names[:10]
        elif len(names) < 10:
            names.extend(['']*(10-len(names)))
        char['name'].extend(names)
    char = pd.DataFrame(char)
    char.to_csv('predict2.csv', index=False)


ดวงรัตน์ วัฒนกิจไกรเลิศ
 ละเอียด จารุสมบัติ
 วันเพ็ญ พิชิตพรชัย
นิตญา ฤทธิ์เพชร
 ชนกพร จิตปัญญา
สุจิตราภรณ์ พิมพ์โพธิ์
 ชนกพร จิตปัญญา
ปรวรรรณ วิทย์วรานุกูล
 ชนกพร จิตปัญญา
ชนกพร จิตปัญญา
 พูลสุข หิรัญสาย
 สุชาต ไชยโรจน์
กนกกาญจน์ กอบกิจสุมงคล
 เพิ่มสุข เอื้ออารี
 วิศาล คันธารัตนกุล
ฐิติมา ลำยอง
 ชนกพร จิตปัญญา
ดวงกมล วัตราดุลย์
ชัญญา อุทัศสิริพานิช
ฐิติกานต์ กาลเทศ
 นรลักขณ์ เอื้อกิจ
Chintana Phawong
 Thiranut Ramutton
 Artit Wongsa
 Natsajee Nualkaew
 Boonrat Tassaneetrithep
ชาดา กลิ่นเจริญ
 วันวิสา เขียวอ่อน
เรขา อรัญวงศ์ และคณะ
ปณิตา คุณสาระ
 พรรณวดี พุธวัฒนะ
 ธิราภรณ์ จันทร์ดา
ผศ.รังษี นันทสาร
กนิษฐา อุดมทรัพย์พงศ์
 รติยา คูเขตพิทักษ์วงศ์
น้ำทิพย์ ทองสว่าง
 เรณู พุกบุญมี
 ทิพวัลย์ ดารามาศ
ธิติสุดา สมเวที
 ลินจง โปธิบาล
 ภารดี นานาศิลป์
ประกอบ วิโรจนกูฏ
ชนัดดา สระโสม
 พิมพาภรณ์ กลั่นกลิ่น
 นิตยา ไทยาภิรมย์
พรเพ็ญ โชชัย
 ระมัด โชชัย
บัณฑิต ฉัตรวิโรจน์
 สุมาลี วิทยรัตน์
สมชัย วงษ์นายะ
Somchai Suriyakrai
Erawin Thavorn
 Prapaisri Sudasna-na-Ayudthya
Patlada Pasomsup
 Juan Miguel Gonzá

In [557]:
print(remove_spaces('พระอดุลย์ กุสลจิตฺโต (ภักดีกุล)'))

พระอดุลย์ กุสลจิตฺโต (ภักดีกุล)
อดุลย์ กุสลจิตฺโต (ภักดีกุล)


In [558]:
# need to print name that len > 10
for i in char['name']:
    i_ = i.count(' ')
    if i_ >= 3 :
        print(i)

ธงสรวง อิศรางกูร ณ อยุธยา
มาริยา เถาอินปาก ธีรชัย เนตรถนอมศักดิ์ เพ็ญณี แนรอท
สุขวสา ภวภูตานนท์ ณ มหาสารคาม
محمد صلاح الدين إدريس جئ له الترننجي
عبد الله كارينا البنداري
ธงพล พรหมสาขา ณ สกลนคร
อภิรัช อินทรางกูร ณ อยุธยา
الطيب داؤد أبو القاسم مسيس
عبد الرزاق سليمان محمد أحمد
ขวัญเรือน สนิทวงศ์ ณ อยุธยา
Châu Thị Hoàng Hoa
Krishana Gosh Della Santina
Wai Yar Lin Zin
Hanh Thi My Pham
Nurul Hanan Abdull Manaf
วลัย อิศรางกูร ณ อยุธยา
Le Thi Thanh Tuyen
Nuttiya Prommasaka Na Sakhonnakhon
Aribam Rama Sanker Sharma
กัลยา บุญหล้า และศศิธร โกฎสืบ
April Rose C. Veranga
Dharmatov Rahula B. Albano
Nguyen Thi Thuy Dung
Jolyon L. A. Dodgson
Pham Thi Anh Le
W. A. Wan Nurul Karimah
Aravind Raghavendra M R.
Minh Nhat Tran Viet
عبدالرزاق سليمان محمد أحمد
إلياس حسن الصديقي الفطاني
Praima Israsena Na Ayudhya
محمد علي عمر شيذو
Dusayu Kku Ac Th
Mohammed Hassan Abd El-aziz
Mohamed Saad Lbrahim Hamada
Manal Mohamed Ei-sayed Zaater
Lasanthi Manaranjanie Kalinga Dona
สุริน ชุมสาย ณ อยุธยา
Thi Thanh Thuy Nguyen
Ng