# Wikipedia Title 

Using [thwiki-latest-all-titles-in-ns0](https://dumps.wikimedia.org/thwiki/latest/)

In [19]:
import pythainlp
import random
import re

In [20]:
random.seed(334)

## Import data 

In [21]:
def get_samples(titles_set, n=100):
    return random.sample(list(titles_set), n)

In [22]:
with open("thwiki-latest-all-titles-in-ns0", encoding="utf-8") as f:
    titles = set(f.read().splitlines())
    
len(titles)

362955

In [23]:
get_samples(titles)

['โชเนน',
 'จันนี่_สแกนเดอลัคกี้',
 'เจ้าหญิงมารี_หลุยส์แห่งเบอร์เบิ้น-ปาร์มา',
 'รายชื่อหน่วยงานวางระเบียบทางภาษา',
 'Heteradelphia',
 'แดนนี_วอร์ด',
 'Siege_of_Malta_(1565)',
 'ประเทศนิการากัวในแพนอเมริกันเกมส์',
 'Shisha',
 'คะซุโกะ_ทะคัตสึคะซะ',
 'ช่วนจินก่า',
 'Gamma_function',
 'สมเด็จพระเจ้าซาร์นิโคลาสที่_2_แห่งรัสเซีย',
 'Po',
 'Jamala',
 'โจเอล_แคมป์เบลล์',
 'ทะเลทรายนามิเบีย',
 'วัดประชาบำรุง_(จังหวัดมหาสารคาม)',
 'ยุทธการที่ฌ็องบลู_(ค.ศ.1940)',
 'กระเบนปีศาจญี่ปุ่น',
 'ชิงกันเซ็ง_E3_ซีรีส์',
 'หมากรุกญี่ปุ่นสี่คน',
 'แอร์เอเชีย_เอกซ์',
 'แมนเชสเตอร์ดาร์บี',
 'เหตุระเบิดที่บาตา_พ.ศ._2564',
 'ยุทธการที่แม่น้ำลิส_(ค.ศ._1940)',
 'กัง_กิยุล',
 'Rock-Hewn_Churches,_Lalibela',
 'เดวิด_อิสตัน',
 'ค.ศ._1381',
 'บูร์คันคัลดุน',
 'การจับตำแหน่งข้อต่อ',
 'เอนริเก_เปญญา_นิเอโต',
 'อ.โพธิ์ไทร',
 'ฐิตินันท์_แสงนาค',
 'In/Spectre',
 'Phrynoidis_aspera',
 'ละอองดาว_(นวนิยาย)',
 'สภาวะเสียการระลึกรู้สัณฐานโดยคลำ',
 'เกาะสเวตินิโกลา',
 'อำเภอกุสินารา',
 'Graz',
 'วอลเลย์บอลชายไทยเดนมาร์คซูเปอร

## Clean
This wii be the criteria: [วิกิพีเดีย:ชื่อบทความ](https://th.wikipedia.org/wiki/%E0%B8%A7%E0%B8%B4%E0%B8%81%E0%B8%B4%E0%B8%9E%E0%B8%B5%E0%B9%80%E0%B8%94%E0%B8%B5%E0%B8%A2:%E0%B8%8A%E0%B8%B7%E0%B9%88%E0%B8%AD%E0%B8%9A%E0%B8%97%E0%B8%84%E0%B8%A7%E0%B8%B2%E0%B8%A1)

### Seperate ()
> พยายามหลีกเลี่ยงการใช้ วงเล็บ หรือเครื่องหมายอื่นที่ไม่เกี่ยวกับชื่อบทความ ถ้าไม่จำเป็น  
>  
> วงเล็บต่อท้ายใช้เพื่อแก้ความกำกวม เช่น บาท (สกุลเงิน) กับ บาท (ร้อยกรอง) และในการเขียนให้เว้นวรรคระหว่างคำและวงเล็บ เช่น บาท (สกุลเงิน) ไม่ใช่ บาท(สกุลเงิน) ถ้าคำมีความหมายเดียว หรือไม่คาดว่าจะกำกวมกับเรื่องอื่น ให้ใช้ บัว แทนที่จะเป็น บัว (พรรณไม้)

In [24]:
def extract_bracket(input_string):
    pattern = r'([^\(]+)\(([^)]+)\)'
    match = re.match(pattern, input_string)
    
    if match:
        a = match.group(1).strip()
        b = match.group(2).strip()
        
        # many has space("_") before bracket
        if a[-1] == "_":
            a = a[:-1]
            
        return [a, b]
    else:
        return [input_string]

[extract_bracket("บรั่นดี_(วงดนตรี)"), extract_bracket("บรั่นดี")]

[['บรั่นดี', 'วงดนตรี'], ['บรั่นดี']]

In [25]:
titles_temp = set()

for title in titles:
    titles_temp.update(extract_bracket(title))
    
titles = titles_temp

len(titles)

353833

In [26]:
get_samples(titles)

['เคียวโกะ_อิโนะอุเอะ',
 'เหรียญเงินช้างเผือก',
 'Godzilla_Against_Mechagodzilla',
 '2011–ปัจจุบัน',
 'หิรัณยกศิปุ',
 'พราน',
 'ออคตาฟ_มีโบ',
 'จังหวัดแม่ฮ่องสอนในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไป_พ.ศ._2550',
 'แมสซีฟแอตแทก',
 'ศาสนาพุทธในประเทศรัสเซีย',
 'O._Henry_Award',
 'วงศ์กวางชะมดป่า',
 'ปลาแดมเซลฟ้าหางส้ม',
 'ข้าหลวงต่างพระองค์เครือรัฐออสเตรเลีย',
 'สโมสรฟุตบอลจังหวัดตราด',
 'ตำบลเฆร์กู',
 'อุสมาน_ศรแดง',
 'อูว์เกอโนต์',
 'The_Imperial',
 'ฟิล_ทากูปา',
 'ดุสิต_เฉลิมแสน',
 'ลีอาห์_ดีซอน',
 'Scleropages_aureus',
 'KC_WEEKLY',
 'ไอแพด_มินิ',
 'Labiobarbus',
 'วัดพันท้ายนรสิงห์',
 'เหตุการณ์รถไฟชนกันที่ตลิ่งชัน_พ.ศ._2522',
 'วงศ์นกขาบ',
 'ภาวะทุพโภชนาการ',
 'กาเบรียล_คว็อก',
 'Tragulidae',
 'แอนดี_เล',
 'เอ็มเอสเอ็นเมสเซนเจอร์',
 'การตลาดแบบปากต่อปาก',
 'า',
 'Niponiosomatidae',
 'มหาวิบัตินครดับสูญ',
 'สาธารณรัฐเอกวาดอร์ในโอลิมปิกฤดูร้อน_1992',
 'Azerbaijan_Cup',
 'พระเจ้าฮั่นเซ่าตี้',
 'ยัน_ฟัน_ไอก์',
 'บีแยลาวา',
 'ภาษาซาซากิ',
 'BUT_/_ไอโช',
 'เทศบาลตำบลทุ่งเสลี่

### Seperate/Integrate space
Handle the seperated words as different words + Connect them and handle them as one word

("Seperate space between names" also covered by this)
> หลักการทั่วไปคือให้ใช้ชื่อที่เป็นที่รู้จักมากที่สุด โดยไม่ต้องมีคำนำหน้าชื่อ รวมทั้ง นาย/นาง/นางสาว คุณหญิง/ท่านผู้หญิง หรือ ยศ และตำแหน่งวิชาการ ดูเพิ่มที่ ยศหรือตำแหน่ง  
>  
> ใช้ ทักษิณ ชินวัตร แทนที่ พันตำรวจโท ดร. ทักษิณ ชินวัตร
  
Also exclude dot initials    
> ชื่อที่มีจุดหลังชื่อ ภาษาไทยหรือภาษาอื่น ให้เว้นวรรคหนึ่งครั้งหลังจุด  
>  
> ใช้ ป. อินทรปาลิต แทนที่ ป.อินทรปาลิต  
> จอร์จ เอช. ดับเบิลยู. บุช

In [27]:
titles_temp = set()

for title in titles:
    # "space" of the title is replaced by "_" in the data
    words = title.split("_")
    
    # as different words
    titles_temp.update(words)
    
    # connect and as one word
    titles_temp.add(["".join(words)])
        
titles = titles_temp

len(titles)

312807

In [28]:
get_samples(titles)

['การประท้วงโดยเผาตัวตายของชาวทิเบตในประเทศจีน',
 'บอซ',
 'Andong',
 'เหตุการณ์ความไม่สงบทางการเมืองในประเทศไทย',
 'แบตันรูช',
 'เคราซ์',
 'กาโตโปเลมีเดีย',
 'มหายุคมีโซโพรเทอโรโซอิก',
 "Ma'ulupekotofa",
 'สภาขุนนาง',
 'Patagonia',
 'แรดดำ',
 'เทคโนโลยีอาหาร',
 'การลดขั้ว',
 'ตัวปัญหา',
 'Polokwane',
 'ลำเนา',
 'ค็อมร์',
 'พระเจ้าโจวเขา',
 'สิทธัตถะ',
 'มหาวิทยาลัยคอร์แนล',
 'ดนตรีอิเล็กทรอนิกส์บอดี',
 'มะป่วน',
 'ตำนานทอง',
 'ห่วงโซ่การสลาย',
 'อ.ศรีมหาโพธิ',
 'กัมปุงเซียม',
 'ศาสตราจารย์พิเศษ',
 '"แผนยึดครองโลกของเจ้าหญิงหิมะ"',
 'วลาดีมีร์-ซุซดัล',
 'แนปาตา',
 'Ni-chōme',
 'ภาคกลาง',
 'จักรพรรดิเล',
 'คำศัพท์จากเรื่อง',
 '1696',
 'มัต',
 'เฮนริช',
 'SSRIs',
 'Peritonsillar',
 'inch',
 'หย่อง',
 'Whitney',
 'ยุทธการโคมากิและนางากูเตะ',
 'ฟิฟตี',
 'ฟุตบอลชิงแชมป์อเมริกาใต้',
 'เส้นประสาทใบหน้าเป็นอัมพาต',
 'Pis',
 'อุลตร้าแมนคอสมอส',
 'ธงสีรุ้ง',
 'อ.เวียงสระ',
 'จัมบา!',
 'เกมดูดโลกมหัศจรรย์',
 'Sulfadiazine',
 'สุนทร',
 'หลวงปู่เจือ',
 'Mignard',
 'อำเภอคง',
 'lymphatic',
 'Atmosphe

### Exclude non-Thai
> ชื่อหัวข้อควรเป็นอักษรไทย  
> ...  
> ทั้งนี้ มีข้อยกเว้นบางประการที่ไม่ต้องใช้อักษรไทยเป็นชื่อบทความ

In [29]:
# simply exclude titles that have no Thai characters
titles_temp = [title for title in titles if pythainlp.util.countthai(title) > 0.1]
titles = set(titles_temp)

len(titles)

243135

In [30]:
get_samples(titles)

['สงครามแห่งปารีส',
 'เท็นพอยท์สเอาท์ออฟเท็น',
 'ตี้หฺวัง',
 'โคชิก',
 'ตัวเลขอีทรัสคัน',
 'จี-สปอต',
 'มัตสยะ',
 'กรดไขมันไม่อิ่มตัวแบบมีพันธะคู่เดี่ยว',
 'เซียนตัดเซียน',
 'การถอดอักษรไทยเป็นอักษรโรมันแบบถ่ายเสียง',
 'เดมฟรอยลา',
 'อุทยานแห่งชาติคาร์ลสแบดแคเวิร์น',
 'วัดน้ำจั้น',
 'อับดุรเราะฮ์มาน',
 'จิ๋ว',
 'ดัชเชสแห่งแคมบริดจ์',
 'วิภาตะพันธุ์',
 'การสังหารหมู่ที่ดีแบยี่น',
 'มิวสิคัล',
 'ยูคานต์ทัชดิส',
 'ดูคาเยฟ',
 'บ่ายวันอาทิตย์บนเกาะลากร็องด์ยัต',
 'ปรากฏการณ์ขี้ปลาวาฬ',
 'อำเภอพะโต๊ะ',
 'ผู้กำกับภาพยนตร์ยอดเยี่ยม',
 'ข้อเสนอสำหรับยูโรเปียนซูเปอร์ลีกในฟุตบอล',
 'ออร์ทีเลียส',
 'ชโตฟ',
 'กาพย์ยานี',
 'พระวีระทู',
 'โดโลไมต์',
 'ยุควิกตอเรีย',
 'ภาษากลุ่มปาร์มี',
 'กลอนนิราศ',
 'สแล็กซ์',
 'อนิพรณ์',
 'ศึกชิงบัลลังก์จอมนาง',
 'การอกหัก',
 'กรดแกมมาไฮดรอกซีบิวทิริก',
 'เปนต์เนอร์',
 'กรมหลวงเทวะวงศ์วโรปการ',
 'พระเจ้าโจวเจินติ้ง',
 'อัลบั้มโปเตโต้',
 'การแลกเปลี่ยนสินค้า',
 'ต้อเนื้อ',
 'กรณีอื้อฉาวการเผยแพร่วีดิทัศน์บันทึกภาพโฟร์-มดขณะอาบน้ำ',
 'ศุข',
 'อนุสาวรีย์ผู้เสียสละ',
 

### Exclude List
> "รายชื่อ"สำหรับบทความที่มีลักษณะรวบรวมรายการ ให้ขึ้นต้นด้วยคำว่า "รายชื่อ" สำหรับรายการของวิสามานยนามหรือชื่อเฉพาะ (proper name) ล้วน ส่วนกรณีที่เหลือทั้งหมด ให้ใช้ "รายการ" เช่น  
> ...  
> สำหรับบทความที่รวบรวมรายการพระนามเจ้า ให้ใช้ "รายพระนาม" และหากมีทั้งเจ้าและสามัญชน ให้ใช้ "รายพระนามและชื่อ"  
> ...  
> สำหรับรายชื่อตอน หรือรายชื่อตัวละคร ให้เขียนในลักษณะ  
>  
> รายชื่อตัวละครใน{ชื่อเรื่อง} เช่น   รายชื่อตัวละครในมาจิเรนเจอร์
> รายชื่อตอนใน{ชื่อเรื่อง} เช่น รายชื่อตอนในน้องสาวของผมไม่น่ารักขนาดนั้นหรอก  

### Get the names of The Royal Family
> คำนำหน้าพระนามของกษัตริย์
> ให้กษัตริย์ไทยที่ราชาภิเษกแล้ว ใช้คำนำหน้าชื่อว่า "พระบาทสมเด็จพระ" ถ้ายังไม่ราชาภิเษก ใช้ "สมเด็จพระ"
> กษัตริย์ไทยในอดีต ใช้ "สมเด็จพระ" แต่อาจใช้ตามความนิยม เช่น "ขุนหลวง," "พ่อขุน," "พระยา"  
  
List of royal   
https://th.wikipedia.org/wiki/%E0%B8%9E%E0%B8%A3%E0%B8%B0%E0%B8%A2%E0%B8%A8%E0%B9%80%E0%B8%88%E0%B9%89%E0%B8%B2%E0%B8%99%E0%B8%B2%E0%B8%A2%E0%B9%84%E0%B8%97%E0%B8%A2  

**If this is rude, this should be altered**

### Include monks nicknames
> พระสงฆ์ไทยทรงสมณศักดิ์ ให้นำสมณศักดิ์หรือราชทินนามขึ้นต้น ตามด้วยวงเล็บชื่อและฉายา  
> พระพรหมคุณาภรณ์ (ประยุทธ์ ปยุตโต)  
> สมเด็จพระพุฒาจารย์ (โต พรหมรังสี)  
> สมเด็จพระพุฒาจารย์ (เกี่ยว อุปเสโณ)  

### Process country names
> ใช้ชื่อ "ประเทศ..." เช่น ประเทศญี่ปุ่น ดูเพิ่ม วิกิพีเดีย:โครงการวิกิประเทศ

### Dictricts names
> ให้มีคำว่า ตำบล อำเภอ จังหวัด มณฑล รัฐ กำกับด้วย เช่น อำเภอจอมทอง จังหวัดเชียงใหม่ มณฑลหูหนาน รัฐแทสเมเนีย รัฐฮาวาย ฯลฯ

### Remove years
> การเขียนปีศักราช ให้ใช้ปีพุทธศักราชเป็นหลัก และใช้ตัวเลขอารบิกโดยเขียนในรูปแบบ — พ.ศ. 2547 — โดยเว้นวรรคระหว่าง พ.ศ. และ ตัวเลข ดูเพิ่มที่ วิกิพีเดีย:โครงการวันเดือนปี