# Wikipedia Title 

Using [thwiki-latest-all-titles-in-ns0](https://dumps.wikimedia.org/thwiki/latest/)

In [115]:
import pythainlp
import random
import re

In [116]:
random.seed(334)

## Import data 

In [117]:
def get_samples(titles_set, n=100):
    return random.sample(list(titles_set), n)

In [118]:
with open("thwiki-latest-all-titles-in-ns0", encoding="utf-8") as f:
    titles = set(f.read().splitlines())
    
len(titles)

362955

In [119]:
get_samples(titles)

['โชเนน',
 'จันนี่_สแกนเดอลัคกี้',
 'เจ้าหญิงมารี_หลุยส์แห่งเบอร์เบิ้น-ปาร์มา',
 'รายชื่อหน่วยงานวางระเบียบทางภาษา',
 'Heteradelphia',
 'แดนนี_วอร์ด',
 'Siege_of_Malta_(1565)',
 'ประเทศนิการากัวในแพนอเมริกันเกมส์',
 'Shisha',
 'คะซุโกะ_ทะคัตสึคะซะ',
 'ช่วนจินก่า',
 'Gamma_function',
 'สมเด็จพระเจ้าซาร์นิโคลาสที่_2_แห่งรัสเซีย',
 'Po',
 'Jamala',
 'โจเอล_แคมป์เบลล์',
 'ทะเลทรายนามิเบีย',
 'วัดประชาบำรุง_(จังหวัดมหาสารคาม)',
 'ยุทธการที่ฌ็องบลู_(ค.ศ.1940)',
 'กระเบนปีศาจญี่ปุ่น',
 'ชิงกันเซ็ง_E3_ซีรีส์',
 'หมากรุกญี่ปุ่นสี่คน',
 'แอร์เอเชีย_เอกซ์',
 'แมนเชสเตอร์ดาร์บี',
 'เหตุระเบิดที่บาตา_พ.ศ._2564',
 'ยุทธการที่แม่น้ำลิส_(ค.ศ._1940)',
 'กัง_กิยุล',
 'Rock-Hewn_Churches,_Lalibela',
 'เดวิด_อิสตัน',
 'ค.ศ._1381',
 'บูร์คันคัลดุน',
 'การจับตำแหน่งข้อต่อ',
 'เอนริเก_เปญญา_นิเอโต',
 'อ.โพธิ์ไทร',
 'ฐิตินันท์_แสงนาค',
 'In/Spectre',
 'Phrynoidis_aspera',
 'ละอองดาว_(นวนิยาย)',
 'สภาวะเสียการระลึกรู้สัณฐานโดยคลำ',
 'เกาะสเวตินิโกลา',
 'อำเภอกุสินารา',
 'Graz',
 'วอลเลย์บอลชายไทยเดนมาร์คซูเปอร

## Clean
This wii be the criteria: [วิกิพีเดีย:ชื่อบทความ](https://th.wikipedia.org/wiki/%E0%B8%A7%E0%B8%B4%E0%B8%81%E0%B8%B4%E0%B8%9E%E0%B8%B5%E0%B9%80%E0%B8%94%E0%B8%B5%E0%B8%A2:%E0%B8%8A%E0%B8%B7%E0%B9%88%E0%B8%AD%E0%B8%9A%E0%B8%97%E0%B8%84%E0%B8%A7%E0%B8%B2%E0%B8%A1)

### Seperate ()
> พยายามหลีกเลี่ยงการใช้ วงเล็บ หรือเครื่องหมายอื่นที่ไม่เกี่ยวกับชื่อบทความ ถ้าไม่จำเป็น  
>  
> วงเล็บต่อท้ายใช้เพื่อแก้ความกำกวม เช่น บาท (สกุลเงิน) กับ บาท (ร้อยกรอง) และในการเขียนให้เว้นวรรคระหว่างคำและวงเล็บ เช่น บาท (สกุลเงิน) ไม่ใช่ บาท(สกุลเงิน) ถ้าคำมีความหมายเดียว หรือไม่คาดว่าจะกำกวมกับเรื่องอื่น ให้ใช้ บัว แทนที่จะเป็น บัว (พรรณไม้)

In [120]:
def extract_bracket(input_string):
    pattern = r'([^\(]+)\(([^)]+)\)'
    match = re.match(pattern, input_string)
    
    if match:
        a = match.group(1).strip()
        b = match.group(2).strip()
        
        # many has space("_") before bracket
        if a[-1] == "_":
            a = a[:-1]
            
        return [a, b]
    else:
        return [input_string]

[extract_bracket("บรั่นดี_(วงดนตรี)"), extract_bracket("บรั่นดี")]

[['บรั่นดี', 'วงดนตรี'], ['บรั่นดี']]

In [121]:
titles_temp = set()

for title in titles:
    titles_temp.update(extract_bracket(title))
    
titles = titles_temp

len(titles)

353833

In [122]:
get_samples(titles)

['เคียวโกะ_อิโนะอุเอะ',
 'เหรียญเงินช้างเผือก',
 'Godzilla_Against_Mechagodzilla',
 '2011–ปัจจุบัน',
 'หิรัณยกศิปุ',
 'พราน',
 'ออคตาฟ_มีโบ',
 'จังหวัดแม่ฮ่องสอนในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไป_พ.ศ._2550',
 'แมสซีฟแอตแทก',
 'ศาสนาพุทธในประเทศรัสเซีย',
 'O._Henry_Award',
 'วงศ์กวางชะมดป่า',
 'ปลาแดมเซลฟ้าหางส้ม',
 'ข้าหลวงต่างพระองค์เครือรัฐออสเตรเลีย',
 'สโมสรฟุตบอลจังหวัดตราด',
 'ตำบลเฆร์กู',
 'อุสมาน_ศรแดง',
 'อูว์เกอโนต์',
 'The_Imperial',
 'ฟิล_ทากูปา',
 'ดุสิต_เฉลิมแสน',
 'ลีอาห์_ดีซอน',
 'Scleropages_aureus',
 'KC_WEEKLY',
 'ไอแพด_มินิ',
 'Labiobarbus',
 'วัดพันท้ายนรสิงห์',
 'เหตุการณ์รถไฟชนกันที่ตลิ่งชัน_พ.ศ._2522',
 'วงศ์นกขาบ',
 'ภาวะทุพโภชนาการ',
 'กาเบรียล_คว็อก',
 'Tragulidae',
 'แอนดี_เล',
 'เอ็มเอสเอ็นเมสเซนเจอร์',
 'การตลาดแบบปากต่อปาก',
 'า',
 'Niponiosomatidae',
 'มหาวิบัตินครดับสูญ',
 'สาธารณรัฐเอกวาดอร์ในโอลิมปิกฤดูร้อน_1992',
 'Azerbaijan_Cup',
 'พระเจ้าฮั่นเซ่าตี้',
 'ยัน_ฟัน_ไอก์',
 'บีแยลาวา',
 'ภาษาซาซากิ',
 'BUT_/_ไอโช',
 'เทศบาลตำบลทุ่งเสลี่

### Seperate/Integrate space
Handle the seperated words as different words + Connect them and handle them as one word

("Seperate space between names" also covered by this)
> หลักการทั่วไปคือให้ใช้ชื่อที่เป็นที่รู้จักมากที่สุด โดยไม่ต้องมีคำนำหน้าชื่อ รวมทั้ง นาย/นาง/นางสาว คุณหญิง/ท่านผู้หญิง หรือ ยศ และตำแหน่งวิชาการ ดูเพิ่มที่ ยศหรือตำแหน่ง  
>  
> ใช้ ทักษิณ ชินวัตร แทนที่ พันตำรวจโท ดร. ทักษิณ ชินวัตร
  
Also exclude dot initials    
> ชื่อที่มีจุดหลังชื่อ ภาษาไทยหรือภาษาอื่น ให้เว้นวรรคหนึ่งครั้งหลังจุด  
>  
> ใช้ ป. อินทรปาลิต แทนที่ ป.อินทรปาลิต  
> จอร์จ เอช. ดับเบิลยู. บุช

In [123]:
titles_temp = set()

for title in titles:
    # "space" of the title is replaced by "_" in the data
    words = title.split("_")
    
    # as different words
    titles_temp.update(words)
    
    # connect and as one word
    titles_temp.add("".join(words))
        
titles = titles_temp

len(titles)

465912

In [124]:
get_samples(titles)

['SanAntonio,TX',
 'เองรีกีดีเซนาฟีร์นังดิช',
 'ปลาการ์ตูนส้ม',
 'คาวิกา',
 'บางกอกซิตี้แชนแนล',
 'ปีเตอร์เบียร์ดสลีย์',
 'ตำนานสมเด็จพระนเรศวรมหาราชเดอะซีรีส์',
 'แลมโบกินี่มูร์เซียลาโก',
 'al-Razi',
 'แกลสส์',
 'เจี้ยนเหวิน',
 'AgnesChow',
 'Samart',
 'กระดูกเอทมอยด์',
 'ลีก้า',
 'เข็มกลัดฟิบิวลา',
 'Shijiazhuang',
 'พ.ศ.2047',
 'ปลากะพงแถบน้ำเงิน',
 'พ.ศ.1123',
 'เส้นเมริเดียนที่127',
 'ยูโซ',
 'ทรีมาโลส',
 'พระเจ้าหรรษวรมันที่1',
 'วัดท่าไชยศิริ',
 'Monumental',
 'DreamWorks,LLC',
 'สมเด็จพระราชินีนาถราซอเฮอรินาแห่งมาดากัสการ์',
 'Internetprotocolsuite',
 'HighDefinitionTV',
 'สโมสรฟุตบอลแมนเชสเตอร์ยูไนเต็ดในฤดูกาล2022–23',
 'ล้อตุนกำลัง',
 'ทาทูอิน',
 'ตำบลกำแพงเซา',
 'ฌอห์น',
 'SACD',
 'ราชสำนักแห่งเกาหลี',
 'ชีคมูจิบูร์เราะห์มาน',
 'ComputerspielemuseumBerlin',
 'พัชรี',
 '2248',
 'พระเจ้าวรวงศ์เธอพระองค์เจ้าหญิงน้อง',
 'UniversityofSt.Andrews',
 'สโมสรฟุตบอลแมนเชสเตอร์ซิตีในฤดูกาล2013–14',
 'ประกาศสิทธิมนุษยชนและพลเมือง',
 'กรดไขมันโอเมกา3',
 'ลี่อิน',
 'กันดั้มดับเบิ้ลโอ',
 'พ

### Exclude non-Thai
> ชื่อหัวข้อควรเป็นอักษรไทย  
> ...  
> ทั้งนี้ มีข้อยกเว้นบางประการที่ไม่ต้องใช้อักษรไทยเป็นชื่อบทความ

In [125]:
# simply exclude titles that have no Thai characters
titles_temp = [title for title in titles if pythainlp.util.countthai(title) > 0.1]
titles = set(titles_temp)

len(titles)

346494

In [126]:
get_samples(titles)

['รายชื่อเจ้าผู้ครองลีชเทินชไตน์',
 'ฟร็องซัวออลลองด์',
 'ความบริสุทธิ์',
 'สมณกรรมาธิการนครรัฐวาติกัน',
 'โปรแกรมจัดการดาวน์โหลด',
 'ไมเคิลแจ็กสันกับประเทศไทย',
 'พรอปเพอร์ตี',
 'เอ็กซ์เพลส',
 'จุดไกลดวงอาทิตย์ที่สุด',
 'ฌอสแปง',
 'ศรีชัยวัชรบุรี',
 'พระเจ้าโจวมู่หวัง',
 'ไมค์เบลส์',
 'ซูแปร์เลกาฤดูกาล2021–22',
 'สถานีอวกาศเทียนกง',
 'พระทีั่นั่งอัมพรสถาน',
 'ไทยแลนด์ก็อตทาเลนต์ซีซั่นที่2',
 'ฟูชิเซน',
 'รายชื่อตัวละครในเรื่อง',
 'อิชตาลล์',
 'นีดะ',
 'ฌอง-ลุกแซสซัส',
 'คณะรัฐมนตรีไทย',
 'เจ้าหญิงเอ็มมาแห่งวัลเด็คและไพร์มอนต์',
 'เมื่อผู้กล้าลาโลกแล้ว!เพราะชาวบ้านอย่างผมเผลอทำผู้กล้าตาย',
 'พระราชบัญญัติความสัมพันธ์ภายในครอบครัว',
 'ไคซูเกะ',
 'ยงยุทธสัจจวานิชย์',
 'โคโค่แจ๊ซ',
 'ชีวิตไม่ง่ายของนางร้าย',
 'อ.ภูผาม่าน',
 'เมืองฝาง',
 'ประเทศปากีสถานในโอลิมปิกฤดูร้อน1956',
 'นกเด้าลม',
 'วอลเลย์บอลชายชิงแชมป์แอฟริกา2021',
 'ชาลีผาย',
 'ประเทศโมซัมบิกในโอลิมปิกเยาวชนฤดูร้อน2014',
 'ไฟลามทุ่ง',
 'ลิขิตรักตะวันและจันทรา',
 'หายใจเร็ว',
 'เวสต์วิค',
 'พระเจ้าชาร์ลส์ที่',
 'ยุทธการที่หับป๋า'

### Seperate colon

In [127]:
len([title for title in titles if ":" in title])

1465

In [128]:
titles_temp = set()

for title in titles:
    if ":" in title:
        titles_temp.update(title.split(":"))
    else:
        titles_temp.add(title)
    
titles = titles_temp
len(titles)

345587

In [129]:
get_samples(titles)

['หฤษฏ์ชีวการุณ',
 'มหาวิทยาลัยเดอปอล',
 'โคเมอร์เนตี',
 'โทนีแบร็กซ์ตัน',
 'สหรัฐอเมริกาในโอลิมปิกฤดูร้อน1920',
 'เคลลีย์',
 'ประเทศอิหร่านในโอลิมปิกฤดูหนาว1964',
 'กิ่งเหมือนแพร',
 'ขบวนการพลังขั้นสูงโอเรนเจอร์',
 'ทอเลมีที่',
 'ค.ศ.1957',
 'จังหวัดโอต-มาร์น',
 'ปราสาทพทูย',
 'ทิโมชาริส',
 'คาร์เมอร์เรเนบตี้ที่',
 'หัวไช้เท้า',
 'พระแม่มาริอัมมัน',
 'หลวงจีนหอไตร',
 'ฟิวดัล',
 'กีฬากรีฑาในซีเกมส์2017–ขว้างค้อนชาย',
 'มณฑลบุมทัง',
 'การเปลี่ยนแปลงการปกครอง',
 'ฟลอร์เอ็กเซอร์ไซส์',
 'คนอึดตายยาก',
 'อะตอมมิค',
 'วารสารฟ้าเดียวกัน',
 'แม็ทเกรนิง',
 'วัดดอยงำเมือง',
 'วชิรวิชญ์ไพศาลกุลวงศ์',
 'รายนามนายกรัฐมนตรีไทย',
 'จับหมู',
 'รายชื่อแหล่งมรดกโลกในประเทศคิวบา',
 'เภสัชภัณฑ์',
 'จังหวัดโวกลูซ',
 'มุรากาวะ',
 'วัคซีนบีซีจี',
 'บุคคลที่เกิดในปีพ.ศ.2504',
 'เงาสมิง',
 'กอทิก',
 'ฤดูพายุเฮอร์ริเคนแปซิฟิกพ.ศ.2558',
 'ปลดหนี้ร้องแลกหนี้',
 'ยาซูโกะ',
 'ความสัมพันธ์ไทย-พม่า',
 'สมบูรณ์ไพรคุก',
 'เมกะบางนา',
 'กุญแจเสียง',
 'วรวุธศรีมะฆะ',
 'สตาร์มูฟวี่ส์',
 'สุณัฐชา',
 'อาร์ชดยุกออตโต',
 'ตระ

### Exclude List
> "รายชื่อ"สำหรับบทความที่มีลักษณะรวบรวมรายการ ให้ขึ้นต้นด้วยคำว่า "รายชื่อ" สำหรับรายการของวิสามานยนามหรือชื่อเฉพาะ (proper name) ล้วน ส่วนกรณีที่เหลือทั้งหมด ให้ใช้ "รายการ" เช่น  
> ...  
> สำหรับบทความที่รวบรวมรายการพระนามเจ้า ให้ใช้ "รายพระนาม" และหากมีทั้งเจ้าและสามัญชน ให้ใช้ "รายพระนามและชื่อ"  
> ...  
> สำหรับรายชื่อตอน หรือรายชื่อตัวละคร ให้เขียนในลักษณะ  
>  
> รายชื่อตัวละครใน{ชื่อเรื่อง} เช่น   รายชื่อตัวละครในมาจิเรนเจอร์
> รายชื่อตอนใน{ชื่อเรื่อง} เช่น รายชื่อตอนในน้องสาวของผมไม่น่ารักขนาดนั้นหรอก  

In [130]:
# lists ariticles all starts from "ราย"
# Observe them first

raay = [title for title in titles if title.startswith("ราย")]
len(raay)

4992

In [131]:
get_samples(raay)

['รายชื่อแหล่งมรดกโลกในทวีปอเมริกาเหนือและใต้',
 'รายพระนามพระมหากษัตริย์ทั่วโลกตามระยะเวลาครองราชสมบัติ',
 'รายชื่อเศาะฮาบะฮ์ที่ไม่ให้สัตยาบันกับอบูบักร์',
 'รายชื่อประเทศเรียงตามจำนวนเศรษฐีพันล้าน',
 'รายชื่อเครื่องอิสริยาภรณ์ลัตเวีย',
 'รายชื่ออัลบั้มคาแร็คเตอร์ของสึซึมิยะฮารุฮิ',
 'รายชื่อรัฐและดินแดนของสหรัฐเรียงตามจำนวนประชากร',
 'รายชื่อแหล่งมรดกโลกในประเทศมาลี',
 'รายการถนนในกรุงเทพมหานคร',
 'รายชื่อหุ่นยนต์ในCosmicEra',
 'รายชื่อตอนในเฟท/สเตย์',
 'รายชื่อประเทศเรียงตามระดับความสูงเฉลี่ย',
 'รายชื่อตัวละครในกัปตันสึบาสะ',
 'รายชื่อวัดในจังหวัดหนองบัวลำภู',
 'รายพระนามจักรพรรดิและพระมหากษัตริย์จีน',
 'รายชื่อสายการบินในประเทศจีน',
 'รายชื่อรางวัลและการเสนอชื่อที่สเตรย์คิดส์ได้รับ',
 'รายชื่อนายกรัฐมนตรีเนปาล',
 'รายชื่อผี',
 'รายชื่อละครโทรทัศน์ทางสถานีโทรทัศน์ช่องจีเอ็มเอ็ม25',
 'รายพระนามสมเด็จพระราชินีแห่งปรัสเซีย',
 'รายชื่อตัวละครในทูเลิฟรู',
 'รายชื่อธงในประเทศอังกฤษ',
 'รายชื่อแหล่งมรดกโลกในประเทศเยอรมนี',
 'รายชื่อบุคคลสำคัญจากโรงเรียนเตรียมอุดมศึกษา',
 'รายชื่อเครื่องอิ

Some seems to be not related to list-article.(Such as names, "รายยวา")

Exclude them in rule-base

In [132]:
#check if it is a list article in rule-based
def is_list_article(title):
    # a few articles have miss-tone-mark
    # -> check without tone-mark
    title_no_tone = pythainlp.util.remove_tonemark(title)
    
    return (title_no_tone.startswith("รายการ")
        or title_no_tone.startswith("รายชือ")
        or title_no_tone.startswith("รายพระ")
        or title_no_tone.startswith("รายนาม"))

In [133]:
not_list = []

for title in raay:
    
    if is_list_article(title):
        continue
    
    not_list.append(title)
    
len(not_list)

57

In [134]:
#check
get_samples(not_list, 50)

['รายงานทีหลัง',
 'รายหัว',
 'รายได้',
 'รายละเอียดพระราชพิธีถวายพระเพลิงพระบรมศพพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช',
 'รายงานการประชุม',
 'รายากูนิง',
 'รายาแห่งรัฐปะลิส',
 'รายงานเฮิรส์ช',
 'รายูวันปูเลาเกอลาปา',
 'รายงานเรื่องอาหารโภชนาการการออกกำลังกายและการป้องกันมะเร็ง',
 'รายาผิวขาว',
 'รายงานคนไข้',
 'รายละเอียดพระราชพิธีพระราชทานเพลิงพระศพ',
 'รายได้พื้นฐาน',
 'รายงานเรื่องอาหาร',
 'รายาบีรู',
 'รายชิ่อสนามกีฬาเรียงตามความจุ',
 'รายวน',
 'ราย',
 'รายกอวิช',
 'รายาห์',
 'รายงานประจำปี',
 'รายวนปูเลาเกอลาปา',
 'รายตา',
 'รายาแห่งซาราวะก์',
 'รายงานค่าใช้จ่าย',
 'รายงานผู้ป่วย',
 'รายาประไหมสุหรีอากง',
 'รายากับมังกรตัวสุดท้าย',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน1.5°ซ.',
 'รายงานอาหาร',
 'รายา',
 'รายได้ประชาชาติ',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน1.5°C',
 'รายงานเฮิร์ช',
 'รายงานความสุขโลก',
 'รายวนปูเลาเกอราปา',
 'รายาประไหมสุหรีอากงตวนกูฮัจญะห์ฮามินะห์ฮาไมดุน',
 'รายงานเคส',
 'รายยวา',
 'รายาอูงู',
 'รายงานเค้ส',
 'รายงานอาหารโภชนาการกิจกรรมทางกายและการป้องกันมะเร็ง',
 'รายปุร

In [135]:
# exclude from the main list
titles_temp = set()
for title in titles:
    if not is_list_article(title):
        titles_temp.add(title)
        
titles = titles_temp
len(titles)

340652

In [136]:
get_samples(titles)

['กันดั้ม0080',
 'เชกยัวร์บอดี',
 'จังหวัดแซน-มารีตีม',
 'การอ้างความภักดี',
 'พายัพ',
 'มีแยแลตส์',
 'อาซาฮิกาวะ',
 'กีฬาว่ายน้ำในซีเกมส์2017–ท่าฟรีสไตล์400เมตรชาย',
 'อาชีวะช่วยชาติณ.ราชดำเนิน2556',
 'อัลบูแกร์กือ',
 'เกิร์ลลี่เบอร์รี่',
 'คาบสมุทรกาลีฟอร์เนีย',
 'ฟูกูชิโอจิไอ',
 'วันของดาวอังคาร',
 'เกณฑ์ทหาร',
 'แบทเทิล',
 'กีฬาแห่งชาติครั้งที่40',
 'เมเจอร์ลีก',
 'สาธารณรัฐดาโฮมีย์',
 'พริสทีน',
 'ปลาเผาะ',
 'พันคำวิพาวัน',
 'กองพลส่งทางอากาศที่',
 'เคโอ',
 'คามุย',
 'พิสมัย',
 'เฝิงเส้าเฟิง',
 'นาซิสซัส',
 'สมาคมฟาเบียน',
 'ตำบลแก้งสนามนาง',
 'บุคคลที่เกิดในปีพ.ศ.2479',
 'กาเลนมาเรค',
 'นรินท์พงศ์',
 'เร้ดอเลิร์ท',
 'ระหัด',
 'วอลเลย์บอลชายชิงแชมป์นอร์เซกา1991',
 'สโมสรฟุตบอลชาร์ลตัน',
 'โพสท์กรันจ์',
 'องค์ชายพีรู',
 'สำนักงานใหญ่สหประชาชาติ',
 'คณะวิทยาศาสตร์และเทคโนโลยีมหาวิทยาลัยเทคโนโลยีราชมงคลกรุงเทพ',
 'ออยเกิน',
 'ใจกันทะ',
 'ตั๊กแตนต่อยมวย',
 'นันทศัยพิศัลยบุตร',
 'จุดน้ำมันยอดสุด',
 'เม็นจิกัตสึ',
 'ทรงสิบสองหน้าไทรออกเมนเตต',
 'พระราชพิธีมหามงคลเฉลิมพระชนมพรรษา4รอบ',
 

### Get the names of The Royal Family
> คำนำหน้าพระนามของกษัตริย์
> ให้กษัตริย์ไทยที่ราชาภิเษกแล้ว ใช้คำนำหน้าชื่อว่า "พระบาทสมเด็จพระ" ถ้ายังไม่ราชาภิเษก ใช้ "สมเด็จพระ"
> กษัตริย์ไทยในอดีต ใช้ "สมเด็จพระ" แต่อาจใช้ตามความนิยม เช่น "ขุนหลวง," "พ่อขุน," "พระยา"  
  
List of royal   
https://th.wikipedia.org/wiki/%E0%B8%9E%E0%B8%A3%E0%B8%B0%E0%B8%A2%E0%B8%A8%E0%B9%80%E0%B8%88%E0%B9%89%E0%B8%B2%E0%B8%99%E0%B8%B2%E0%B8%A2%E0%B9%84%E0%B8%97%E0%B8%A2  

**If this is rude, this should be altered**

### Include monks nicknames
> พระสงฆ์ไทยทรงสมณศักดิ์ ให้นำสมณศักดิ์หรือราชทินนามขึ้นต้น ตามด้วยวงเล็บชื่อและฉายา  
> พระพรหมคุณาภรณ์ (ประยุทธ์ ปยุตโต)  
> สมเด็จพระพุฒาจารย์ (โต พรหมรังสี)  
> สมเด็จพระพุฒาจารย์ (เกี่ยว อุปเสโณ)  

### Process country names
> ใช้ชื่อ "ประเทศ..." เช่น ประเทศญี่ปุ่น ดูเพิ่ม วิกิพีเดีย:โครงการวิกิประเทศ

### Dictricts names
> ให้มีคำว่า ตำบล อำเภอ จังหวัด มณฑล รัฐ กำกับด้วย เช่น อำเภอจอมทอง จังหวัดเชียงใหม่ มณฑลหูหนาน รัฐแทสเมเนีย รัฐฮาวาย ฯลฯ

### Remove years
> การเขียนปีศักราช ให้ใช้ปีพุทธศักราชเป็นหลัก และใช้ตัวเลขอารบิกโดยเขียนในรูปแบบ — พ.ศ. 2547 — โดยเว้นวรรคระหว่าง พ.ศ. และ ตัวเลข ดูเพิ่มที่ วิกิพีเดีย:โครงการวันเดือนปี