# Wikipedia Title 

Using [thwiki-latest-all-titles-in-ns0](https://dumps.wikimedia.org/thwiki/latest/)

In [1]:
import pythainlp
import random
import re

In [2]:
random.seed(334)

## Import data 

In [3]:
def get_samples(titles_set, n=100):
    return random.sample(list(titles_set), n)

In [4]:
with open("thwiki-latest-all-titles-in-ns0", encoding="utf-8") as f:
    titles = set(f.read().splitlines())
    
len(titles)

362955

In [5]:
get_samples(titles)

['สัญญาณรบกวนจอห์นสัน–นือควิสต์',
 'วอลเลย์บอลชายทีมชาติปารากวัย',
 'รังสีเทราเฮิรตซ์',
 'ปฏิทินโจเกียว',
 'Diesel_exhaust',
 'ธิรดา_สนิทวงศ์ชัย',
 'พระเจ้าเฮโรดมหาราช',
 'หอยสังข์มะระ',
 "Wanna_Be_Startin'_Somethin'_2008",
 'ควีนส์คัพ',
 'จอมใจเจ้าป่า',
 'ฮัลโหลวีนัส',
 'กีฬากระโดดน้ำในโอลิมปิกฤดูร้อน_2020_–_สปริงบอร์ด_3_เมตร_ชายคู่',
 'มรณกรรม',
 'ทริปซิน_(Trypsin)',
 'วัดโรงเข้วนาราม',
 'Calgary,_Alberta',
 'บับเบิ้ลฟิคชั่น:_บูม_ออร์_บัสท์',
 'เนียง',
 'วังท้ายวัดพระเชตุพนวิมลมังคลาราม',
 'เมทริกซ์แอร์มิต',
 'Badis_ruber',
 'สนามกีฬาริเวอร์ไซด์',
 'Cayman_Islands',
 'My_life_as_a_teenage_robot',
 'ประชาคมฝรั่งเศสแห่งเบลเยียม',
 'Chancels',
 'ฮัม_อึน-จอง',
 'โอลีเฟอร์_ซตริทเซิล',
 'ค.ศ._915',
 'ปูมราชธรรม',
 'Lince_Dorado',
 'จูจูจู_โบกูระโนะมิราอิ/ไดจินเซ_เนเวอร์บีนเบ็ทเตอร์!',
 'สุรนันท์_เวชชาชีวะ',
 'หลวงปู่มั่น_ภูริทตฺโต',
 'เจ้าชายชาลส์_เอ็ดเวิร์ด_ดยุกแห่งซัคเซิน-โคบูร์กและโกทา',
 'Kiss_Me_Five',
 'อาเธอร์_กรีกอเรียน',
 'ไวเอต',
 'รูปาตาดีน',
 'สุรีย์วัลย์_สุริยง',
 'มักนุส_มุนซ

## Clean
This wii be the criteria: [วิกิพีเดีย:ชื่อบทความ](https://th.wikipedia.org/wiki/%E0%B8%A7%E0%B8%B4%E0%B8%81%E0%B8%B4%E0%B8%9E%E0%B8%B5%E0%B9%80%E0%B8%94%E0%B8%B5%E0%B8%A2:%E0%B8%8A%E0%B8%B7%E0%B9%88%E0%B8%AD%E0%B8%9A%E0%B8%97%E0%B8%84%E0%B8%A7%E0%B8%B2%E0%B8%A1)

### Seperate ()
> พยายามหลีกเลี่ยงการใช้ วงเล็บ หรือเครื่องหมายอื่นที่ไม่เกี่ยวกับชื่อบทความ ถ้าไม่จำเป็น  
>  
> วงเล็บต่อท้ายใช้เพื่อแก้ความกำกวม เช่น บาท (สกุลเงิน) กับ บาท (ร้อยกรอง) และในการเขียนให้เว้นวรรคระหว่างคำและวงเล็บ เช่น บาท (สกุลเงิน) ไม่ใช่ บาท(สกุลเงิน) ถ้าคำมีความหมายเดียว หรือไม่คาดว่าจะกำกวมกับเรื่องอื่น ให้ใช้ บัว แทนที่จะเป็น บัว (พรรณไม้)

This also covers "Include monks nicknames"
> พระสงฆ์ไทยทรงสมณศักดิ์ ให้นำสมณศักดิ์หรือราชทินนามขึ้นต้น ตามด้วยวงเล็บชื่อและฉายา  
> พระพรหมคุณาภรณ์ (ประยุทธ์ ปยุตโต)  
> สมเด็จพระพุฒาจารย์ (โต พรหมรังสี)  
> สมเด็จพระพุฒาจารย์ (เกี่ยว อุปเสโณ)  

In [6]:
def extract_bracket(input_string):
    pattern = r'([^\(]+)\(([^)]+)\)'
    match = re.match(pattern, input_string)
    
    if match:
        a = match.group(1).strip()
        b = match.group(2).strip()
        
        # many has space("_") before bracket
        if a[-1] == "_":
            a = a[:-1]
            
        return [a, b]
    else:
        return [input_string]

[extract_bracket("บรั่นดี_(วงดนตรี)"), extract_bracket("บรั่นดี")]

[['บรั่นดี', 'วงดนตรี'], ['บรั่นดี']]

In [7]:
titles_temp = set()

for title in titles:
    titles_temp.update(extract_bracket(title))
    
titles = titles_temp

len(titles)

353833

In [8]:
get_samples(titles)

['รัฐปาเลสไตน์ในโอลิมปิกฤดูร้อน_2020',
 'เรียว_มิยาอิจิ',
 'The_Love_Machine_วงล้อ_ลุ้นรัก',
 'มังกี้_ฮีโร่',
 'ช่องแคบยิบรอลตา',
 'สิงห์ผจญเพลิง',
 'จ็อกกิง',
 'สาธารณรัฐเบลารุสในพาราลิมปิกฤดูร้อน_2012',
 'เอาดี้',
 'บริษัท_ไชโยโปรดักชั่นส์_จำกัด',
 'เยื่อพรหมจรรย์',
 'เส้นขนานที่_48',
 'ประเทศแอฟริกาใต้ในโอลิมปิกเยาวชนฤดูร้อน_2014',
 'Monotrete_leiurus',
 'โรโบคอป_3',
 'First_Anglo-Burmese_War',
 'มหาวิหารตูลูซ',
 'ไข่มดแดง',
 'มาฬิศร์_เชยโสภณ',
 'ล่าคนดุในเมืองเดือด',
 'Indiana',
 'โทนี_แอนเดอร์สัน',
 'มูลนิธิวงดุริยางค์ซิมโฟนีกรุงเทพ',
 'โทรทัศน์ความละเอียดสูง',
 'วัดเป่ากั๋ว',
 'Trachicephalus',
 'ธงชาติกาตาร์',
 'แฮรี่',
 'เดอะ_เมทริกซ์_:_เพาะพันธุ์มนุษย์เหนือโลก_2199',
 'ปาตานี',
 'ลาดัก',
 'Nic_Nemeth',
 'ราชวงศ์โจวเหนือ',
 'สึโทะมุ_โคะยะมะ',
 'วัดหงส์รัตนารามราชวรวิหาร',
 'เทศบาลเมืองบ้านไผ่',
 'เรื่องขบขัน',
 'โรคโลหิตจางเหตุพร่องธาตุเหล็ก',
 'อัมเปิลเม็นเชิน',
 'เซนต์ปีเตอร์เบิร์ก',
 'อินาสึมะอีเลฟเวน_3_เซไคโนะโชวเชน',
 'รถไฟฟ้าเสิ่นหยาง',
 'เมืองมิโน',
 'แบรด_พิทท์',
 'Bart

### Seperate/Integrate space
Handle the seperated words as different words + Connect them and handle them as one word

("Seperate space between names" also covered by this)
> หลักการทั่วไปคือให้ใช้ชื่อที่เป็นที่รู้จักมากที่สุด โดยไม่ต้องมีคำนำหน้าชื่อ รวมทั้ง นาย/นาง/นางสาว คุณหญิง/ท่านผู้หญิง หรือ ยศ และตำแหน่งวิชาการ ดูเพิ่มที่ ยศหรือตำแหน่ง  
>  
> ใช้ ทักษิณ ชินวัตร แทนที่ พันตำรวจโท ดร. ทักษิณ ชินวัตร
  
Also exclude dot initials    
> ชื่อที่มีจุดหลังชื่อ ภาษาไทยหรือภาษาอื่น ให้เว้นวรรคหนึ่งครั้งหลังจุด  
>  
> ใช้ ป. อินทรปาลิต แทนที่ ป.อินทรปาลิต  
> จอร์จ เอช. ดับเบิลยู. บุช

In [9]:
titles_temp = set()

for title in titles:
    # "space" of the title is replaced by "_" in the data
    words = title.split("_")
    
    # as different words
    titles_temp.update(words)
    
    # connect and as one word
    titles_temp.add("".join(words))
        
titles = titles_temp

len(titles)

465912

In [10]:
get_samples(titles)

['เห็ดเนี๋ยวจังจือ',
 'เกาลัด',
 'ตั๊บแซ่ลิ้ม',
 'Saarland',
 'ลัทธิอนาธิปไตยสังคมนิยม',
 'ถนนกำแพงเพชร3',
 'โยชิฮิซะ',
 'อาบีดิน',
 'เรือพระราชพีธีกระบวนพยุหยาตราชลมารค',
 'แม็กนาวอกซ์โอดีสซี',
 'Mary,Turkmenistan',
 'อาร์นไฮม',
 'ครุยวิทยฐานะในสหรัฐ',
 'เจพีคัลเดอรอน',
 'วัดซานตามาเรียเดลเลกราซี',
 'แพนเซอร์เกรนาดีร์',
 'BlueRiband',
 'คัมภีร์ในสารบบ',
 'พ.ศ.2314',
 'สุลต่านอิสมาอิลเปตรา',
 'ค.ศ.887',
 'Cameroun,',
 'ไฟลัมไลโคไฟตา',
 'โทะกิฮิโกะ',
 'ไซโดเรนโก',
 'Presliophytum',
 'แอนโทนิโอแบนเดรัส',
 'พิศวงไทยทอง',
 'เส้นขนานที่51',
 'ประเทศลีชเทินชไตน์ในโอลิมปิกฤดูหนาว2018',
 'แฮร์รี่พอตเตอร์:ฮอกวอตส์มิสทะรี',
 'ซูเปอร์สตาร์เจวายพี',
 'เลบรอน',
 'แอฟริกาเหนือของอิตาลี',
 'มาร์เซีย',
 'มหาวิทยาลัยราชภัฏกำแพงเพชร',
 'พระเจ้าสูรยวรมันที่',
 'Vault',
 'WrestleMania17',
 'โยฮันน์โวล์ฟกังฟอนเกอเท',
 'กีรติ',
 'Maxillipiidae',
 'Pastel',
 'พระเจ้ามูแห่งบัลแฮ',
 'ทางหลวงชนบทนบ.1013',
 'ชิดชนก',
 'แก่งสะพือ',
 'เจฟฟรีโอนาเต้',
 'สติลเล่อร์',
 'Prakash',
 'แฮปปี้',
 'FyodorDostoevsky',
 'เจ้

### Exclude non-Thai
> ชื่อหัวข้อควรเป็นอักษรไทย  
> ...  
> ทั้งนี้ มีข้อยกเว้นบางประการที่ไม่ต้องใช้อักษรไทยเป็นชื่อบทความ

In [11]:
# simply exclude titles that have no Thai characters
titles_temp = [title for title in titles if pythainlp.util.countthai(title) > 0.1]
titles = set(titles_temp)

len(titles)

346494

In [12]:
get_samples(titles)

['ปลามางุโระ',
 'พระปิ่นเกล้าเจ้าอยู่หัว',
 'ยางซอม',
 'ปวดหัว',
 'เอกนิษฐ์ปัญญา',
 'เห้ง',
 'การควบคุมอาหารแบบแม็กโครไบโอติกส์',
 'สายลับเดอะซีรี่ย์',
 'ฟีนิกซ์อิคคิ',
 'ดิจิมอนแอดเวนเจอร์',
 'โลกธรรม๘',
 'ยูฟ่ารีเจี้ยนส์คัพ',
 'อยากตาย',
 'กลุ่มภาษาอาเจะฮ์-จาม',
 'วงศ์ย่อยปลาหมอจำปะ',
 'สนฺตงฺกุโร',
 'ศิวัฒน์โชติชัยชรินทร์',
 'โกฐสิงคลี',
 'หน้าต่างสีชมพูประตูสีฟ้า',
 'ลูกไทย',
 'ภูมิคุ้มกันรับมา',
 'สโมสรฟุตบอลนครราชสีมามาสด้าในฤดูกาล2558',
 'บรันสวิค-วูลเฟนบืตเตล',
 'พระสุพาหุเถระ',
 'อูอี',
 'เดอะออนะระเบิล',
 'ภูเขาคิตะ',
 'เอเตียน-หลุยส์มาลุส',
 'ชูเอาชิลเบร์ตู',
 'สหพันธ์ฟุตบอลอัฟกานิสถาน',
 'มายุมิเนดะ',
 'ค.ศ.2010',
 'วงศ์ไฮยีนา',
 'อนิเมะฤดูกาลที่3',
 'ไมโครฟิลาเมนต์',
 'มาซาเฮอร์ตา',
 'ฟุมิโกะอุจิมุระ',
 'ฟูจิวาระโนะคาเนฟูซะ',
 'สิรีภรณ์ยุกตะทัต',
 'คริสตียงเบนเตเก',
 'พอร์ตแลนด์',
 'อูโกกาซาเรส',
 'ปะฉะดะคนเหนือยุทธ',
 'พรก.',
 'ป่าพรุโต๊ะแดง',
 'พระเจ้าอูซะนาที่',
 'พิชิตศิษย์บางพระจันทร์',
 'รายชื่อแขกรับเชิญใน',
 'ปราสาทคาร์ดิฟฟ์',
 'ฮาราเร',
 'จ.ม.',
 'อาร์ชดยุกคาร์ลดย

### Seperate colon

In [13]:
len([title for title in titles if ":" in title])

1465

In [14]:
[title for title in titles if ":" in title][:50]

['เลือดชั่ว:เรื่องลับและคำลวงเบื้องหลังบริษัทดาวรุ่งแห่งซิลิคอนแวลลีย์',
 'เรฟโวลูชั่นส์:',
 'ทอมแอนเจอร์รี่:',
 'เอ็นเอ๊กซ์ทีเทคโอเวอร์:ฟิลาเดลเฟีย',
 'รายชื่อตอนในเบ็นเท็น:อัลติเมทเอเลี่ยน',
 'คอลล์ออฟดิวตี:มอเดิร์นวอร์แฟร์',
 'เดอะเลเจนด์ออฟเซลดา:อะลิงก์ทูเดอะแพสต์และโฟร์ซอดส์',
 'นักรบมนตรา:',
 'เอ็นเอ๊กซ์ทีเทคโอเวอร์:บรุกลิน',
 'หวงเฟยหง:ถล่มวังบัวขาว',
 'คอลล์ออฟดิวตี:มอเดิร์นวอร์แฟร์III',
 'สไปเดอร์-แมน:ผงาดข้ามจักรวาลแมงมุม',
 'เคาน์เตอร์-สไตรก์:',
 'เบอร์ดีวิง:กอล์ฟเกิร์ลสตอรี',
 'ชิฟท์2:อันลีชด์',
 'สตาร์เทรค:',
 'ยอดนักสืบจิ๋วโคนัน:เจ้าสาวฮาโลวีน',
 'เดอะเลเจนด์ออฟเซลดา:ทไวไลต์พรินเซสส์',
 'โรบินฮูด:เดอะเลเจนด์ออฟเชอร์วูด',
 'แอสแซสซินครีด:รีวีเลชั่นส์',
 'เทอร์มิเนเตอร์:',
 'คิงดอมส์ออฟแอมะเลอร์:เรกคอนนิ่ง',
 'มาสค์ไรเดอร์ริวคิ:เอ็ดพิโซดไฟนอล',
 'มาเลฟิเซนต์:',
 'ไมเคิลแจ็กสัน:ดิเอ็กซ์เพอร์เรนช์',
 'เบ็นเท็น:อัลติเมทเอเลี่ยน',
 'เดอะซิมส์3:เล็ตไนต์',
 'โคลสคอมแบต:',
 'คังคุไบ:',
 'แฮร์รี่พอตเตอร์:ฮอกวอตส์มิสเตอรี',
 'ยอดนักสืบจิ๋วโคนัน:เรือดำน้ำทมิฬ',
 'ไฮห์สกูลมิวสิคัล3:ซี

Yes, definetly `:` used for subtitles

In [15]:
titles_temp = set()

for title in titles:
    if ":" in title:
        titles_temp.update(title.split(":"))
    else:
        titles_temp.add(title)
    
titles = titles_temp
len(titles)

345587

In [16]:
get_samples(titles)

['นกนางแอ่นบ้าน',
 'เบบีวอกซ์รีฟ',
 'จักรพรรดิเว่ยเต้าอู่',
 'สมบูรณ์ไพรคุก',
 'เถื่อนเฉือนระห่ำ',
 'ฟาโรห์อเมนโฮเทปที่หนึ่ง',
 'ดิเอ็กซ์แฟกเตอร์ประเทศไทย',
 'ความจำ',
 'ซีก',
 'สวนเบญจกิติ',
 'วอลลิสดัชเชสแห่งวินด์เซอร์',
 'ภาษาไทอ่ายตน',
 'ยุวกาชาดไทย',
 'เดอะเฟซเวียดนาม',
 'คลองชุมพร',
 'อาเล็กซ์เพียร์ซ',
 'ซันไซน์&ซิตี้ไลท์ส',
 'พ่อครัวตัวจี๊ด',
 'นกกด',
 'สกุลนกกระทุง',
 'สาธารณรัฐอาร์เมเนียในโอลิมปิกฤดูร้อน2000',
 'ไฟป่าในรัฐฮาวายพ.ศ.2566',
 'ยูเอวี',
 'อะกิฮะบะระ',
 'เจมส์โจเซฟซิลเวสเตอร์',
 'กรอจแบนด์',
 'การเชื่อมเหล็ก',
 'รักซ้อนซ่อนรัก',
 'ความเอนเอียงโดยความเข้าถึงได้ง่าย',
 'โคโซคุเซนไทเทอร์โบเรนเจอร์',
 'จังหวัดนีเด',
 'ปอมปาดัวร์น้ำเงิน',
 'จรูญพงศ์พันธุ์ศรีนคร',
 'ซิมโฟนีหมายเลข8',
 'หน่วยบัญชาการยุทธการพิเศษสหรัฐ',
 'ผู้เล่นในเอเชียนคัพ',
 'สายพันธุ์ของเชื้อโควิด-19',
 'ชุมนุมสมัยกรุงธนบุรี',
 'มาสค์ไรเดอร์Xมาสค์ไรเดอร์ไดรฟ์&ไกมุสงครามไรเดอร์ครั้งใหม่',
 'ยุกต์ส่งไพศาล',
 'รูเซล',
 'พระโพธิสัตว์กวนอิมพันมือแห่งกุยชาน',
 'ต้นพระชัยศรีมหาโพธิ์',
 '4ต่อ4ฮอลิเดย์',
 'โบบาเ

### Exclude List
> "รายชื่อ"สำหรับบทความที่มีลักษณะรวบรวมรายการ ให้ขึ้นต้นด้วยคำว่า "รายชื่อ" สำหรับรายการของวิสามานยนามหรือชื่อเฉพาะ (proper name) ล้วน ส่วนกรณีที่เหลือทั้งหมด ให้ใช้ "รายการ" เช่น  
> ...  
> สำหรับบทความที่รวบรวมรายการพระนามเจ้า ให้ใช้ "รายพระนาม" และหากมีทั้งเจ้าและสามัญชน ให้ใช้ "รายพระนามและชื่อ"  
> ...  
> สำหรับรายชื่อตอน หรือรายชื่อตัวละคร ให้เขียนในลักษณะ  
>  
> รายชื่อตัวละครใน{ชื่อเรื่อง} เช่น   รายชื่อตัวละครในมาจิเรนเจอร์
> รายชื่อตอนใน{ชื่อเรื่อง} เช่น รายชื่อตอนในน้องสาวของผมไม่น่ารักขนาดนั้นหรอก  

In [17]:
# lists ariticles all starts from "ราย"
# Observe them first

raay = [title for title in titles if title.startswith("ราย")]
len(raay)

4992

In [18]:
get_samples(raay)

['รายการแหล่งมรดกโลกในประเทศพม่า',
 'รายชื่อแมว',
 'รายชื่อแหล่งมรดกโลกในประเทศโมร็อกโก',
 'รายชื่อของเทศบาลในประเทศไทย',
 'รายชื่อธงในประเทศฟิลิปปินส์',
 'รายนามบุคคลที่มีชื่อเสียงจากมหาวิทยาลัยขอนแก่น',
 'รายชื่ออธิบดีกรมประมง',
 'รายชื่อรองประธานาธิบดีสหรัฐ',
 'รายชื่อธงในประเทศเวเนซุเอลา',
 'รายชื่อแหล่งมรดกโลกในยุโรปใต้',
 'รายชื่อรางวัลที่ซิสตาร์ได้รับและได้เข้าชิง',
 'รายชื่อการ์ดไดซ์โอ',
 'รายชื่อตัวละครในเซียนเกมรักขอเป็นเทพนักจีบ',
 'รายชื่ออุทยานธรณีโลกในทวีปเอเชีย',
 'รายชื่อโบราณสถานในจังหวัดสกลนครที่ขึ้นทะเบียนโดยกรมศิลปากร',
 'รายการวันสำคัญทางศาสนาคริสต์',
 'รายชื่ออักษรย่อของโรงเรียนในประเทศไทย/ว',
 'รายชื่อแหล่งมรดกโลกในประเทศเลโซโท',
 'รายชื่อสกุลในวงศ์Histeridae',
 'รายชื่อทางแยกในเขตจตุจักร',
 'รายชื่อตัวละครในเรื่อง',
 'รายชื่อเลขาธิการสมาคมประชาชาติแห่งเอเชียตะวันออกเฉียงใต้',
 'รายชื่อแหล่งมรดกโลกในประเทศนิวซีแลนด์',
 'รายชื่อแคว้นของประเทศทาจิกิสถานเรียงตามดัชนีการพัฒนามนุษย์',
 'รายนามประมุขแห่งรัฐฮังการี',
 'รายชื่อภาพยนตร์ไทยพ.ศ.2506',
 'รายพระนามพระมเหสีพระ

Some seems to be not related to list-article.(Such as names, "รายยวา")

Exclude them in rule-base

In [19]:
#check if it is a list article in rule-based
def is_list_article(title):
    # a few articles have miss-tone-mark
    # -> check without tone-mark
    title_no_tone = pythainlp.util.remove_tonemark(title)
    
    return (title_no_tone.startswith("รายการ")
        or title_no_tone.startswith("รายชือ")
        or title_no_tone.startswith("รายพระ")
        or title_no_tone.startswith("รายนาม"))

In [20]:
not_list = []

for title in raay:
    
    if is_list_article(title):
        continue
    
    not_list.append(title)
    
len(not_list)

57

In [21]:
#check
get_samples(not_list, 50)

['รายละเอียดพระราชพิธีพระราชทานเพลิงพระศพ',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน1.5°C',
 'รายานนท์',
 'รายละเอียดพระราชพิธีพระราชทานเพลิงพระศพสมเด็จเจ้าฟ้าฯกรมหลวงนราธิวาสราชนครินทร์',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน',
 'รายชิ่อสนามกีฬาเรียงตามความจุ',
 'รายวนปูเลาเกอลาปา',
 'รายงานอาหาร',
 'รายูวันปูเลาเกอลาปา',
 'รายปุระ',
 'รายงานประจำปี',
 'รายกอวิช',
 'รายได้พื้นฐานถ้วนหน้าในประเทศบราซิล',
 'รายาแห่งรัฐปะลิส',
 'รายวน',
 'รายงานอาหารโภชนาการกิจกรรมทางกายและการป้องกันมะเร็ง',
 'รายงานการประชุม',
 'รายาฮีเจา',
 'รายงานกรณี',
 'รายาแห่งซาราวะก์',
 'รายงานเค้ส',
 'รายตา',
 'ราย',
 'รายาบีรู',
 'รายงานความสุขโลก',
 'รายงานเฮิร์ช',
 'รายงานผู้ป่วย',
 'รายวนปูเลาเกอราปา',
 'รายาอูงู',
 'รายงานค่าใช้จ่าย',
 'รายละเอียดพระราชพิธีถวายพระเพลิงพระบรมศพพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช',
 'รายาห์',
 'รายาผิวขาว',
 'รายงานเรื่องอาหารโภชนาการกิจกรรมทางกายและการป้องกันมะเร็ง',
 'รายนานนท์',
 'รายยวา',
 'รายาประไหมสุหรีอากง',
 'รายาแห่งซาราวัก',
 'รายงานเรื่องอาหารโภชนาการการออกกำลังกายและการป้อง

In [22]:
# exclude from the main list
titles_temp = set()
for title in titles:
    if not is_list_article(title):
        titles_temp.add(title)
        
titles = titles_temp
len(titles)

340652

In [23]:
get_samples(titles)

['เว่ยเจี้ยน',
 'ตีนเป็ด',
 'วัดโพธิวิหาร',
 'ประเทศไอซ์แลนด์ในโอลิมปิกฤดูหนาว1968',
 'สฺวียฺหวินลี่',
 'เอ็กซ์พี',
 'โพรเซสของกระดูกอัลนา',
 'หนังสือผู้วินิจฉัย',
 'ความโน้มถ่วงเชิงควอนตัม',
 'อะลาโหมด',
 'วัดห้วยบง',
 'จินปาจิ',
 'ยอดเขามองต์บลังก์',
 'ปันวิชัย',
 'ตามประทีป',
 'ปะทานุกรมการทำของคาวหวานอย่างฝรั่งแลสยาม',
 'เปโดรมาริโออัลบาเรซ',
 'รูดอล์ฟเฮิสส์',
 'เจ้าหญิงเอลิซาเบธดัชเชสแห่งบราบองต์',
 'ฟาโรห์ซามาเจิกที่',
 'สุทินวรรณบวร',
 'ล้างเผ่าพันธุ์',
 'กุลจรรยาวิวัฒน์',
 'แล',
 'อาเธอร์ฑูตจิ๋วเจาะขุมทรัพย์มหัศจรรย์',
 'ยุทธการวูสเตอร์',
 'ซามูไรคิโยโมริ',
 'ฐณัณญาญ์',
 'องค์ชายควางแฮ',
 'ภาวะต้นกำเนิดต่างกัน',
 'วรกมลชาเตอร์',
 '5พยัคฆ์พิทักษ์ซุนยัดเซ็น',
 'สเวดแบร์ย',
 'รอยนูนรูปกระสวย',
 'บอสตันมาราธอน',
 'หมู่เกาะสุรินทร์',
 'วงศ์ตาล',
 'เฮิส',
 'ไฮโก',
 'คริสตัง',
 'คุโรโบกุชิ',
 'ไทยลีก3',
 'คะสะเนะเตโตะ',
 'ตลาดท่าเตียน',
 'สรุปเหรียญโอลิมปิกฤดูหนาว1952',
 'ธีระพันธ์',
 'อำเภอธนบุรี',
 'ทฤษฎีเซต',
 'รอบสุดท้าย',
 'กิลฟีชิกูร์สสัน',
 'กีฬาวอลเลย์บอลในโอลิมปิกฤดูร้อน1992'

### Get the names of The Royal Family
> คำนำหน้าพระนามของกษัตริย์
> ให้กษัตริย์ไทยที่ราชาภิเษกแล้ว ใช้คำนำหน้าชื่อว่า "พระบาทสมเด็จพระ" ถ้ายังไม่ราชาภิเษก ใช้ "สมเด็จพระ"
> กษัตริย์ไทยในอดีต ใช้ "สมเด็จพระ" แต่อาจใช้ตามความนิยม เช่น "ขุนหลวง," "พ่อขุน," "พระยา"  
  
List of royal   
https://th.wikipedia.org/wiki/%E0%B8%9E%E0%B8%A3%E0%B8%B0%E0%B8%A2%E0%B8%A8%E0%B9%80%E0%B8%88%E0%B9%89%E0%B8%B2%E0%B8%99%E0%B8%B2%E0%B8%A2%E0%B9%84%E0%B8%97%E0%B8%A2  

**If this is rude, this should be altered**

### Remove years
> การเขียนปีศักราช ให้ใช้ปีพุทธศักราชเป็นหลัก และใช้ตัวเลขอารบิกโดยเขียนในรูปแบบ — พ.ศ. 2547 — โดยเว้นวรรคระหว่าง พ.ศ. และ ตัวเลข ดูเพิ่มที่ วิกิพีเดีย:โครงการวันเดือนปี

### Handle ใน
Many non-named entity titles uses "ใน"

In [24]:
nai = [titles for titles in titles if "ใน" in titles]
len(nai)

18740

In [25]:
[nai][:50]

[['ประเทศเลโซโทในโอลิมปิกเยาวชนฤดูร้อน',
  'ประเทศกาบูเวร์ดีในโอลิมปิกฤดูร้อน2008',
  'การระบาดทั่วของโคโรนาไวรัสในประเทศมองโกเลียพ.ศ.2563',
  'กีฬากระโดดน้ำในโอลิมปิกฤดูร้อน2024–รอบคัดเลือก',
  'กีฬาบิลเลียดในกีฬาแห่งชาติครั้งที่45',
  'สมาคมกีฬากรีฑาแห่งประเทศไทยในพระบรมราชูปถัมภ์',
  'ประเทศจีนในโอลิมปิกเยาวชนฤดูร้อน2010',
  'กีฬาปัญจกีฬาสมัยใหม่ในโอลิมปิกฤดูร้อน2000',
  'ประเทศญี่ปุ่นในพาราลิมปิกฤดูร้อน',
  'ประเทศสวิตเซอร์แลนด์ในโอลิมปิกฤดูร้อน1972',
  'สหรัฐอเมริกาในโอลิมปิกฤดูหนาว1928',
  'การลงมติเลือกนายกรัฐมนตรีในประเทศไทย',
  'ประเทศบราซิลในพาราลิมปิกฤดูร้อน2012',
  'ประเทศอินเดียในโอลิมปิกฤดูร้อน1964',
  'ประเทศบอสเนียและเฮอร์เซโกวีนาในโอลิมปิกฤดูร้อน2004',
  'ประเทศฟินแลนด์ในโอลิมปิกฤดูร้อน2020',
  'บุคคลที่เกิดในปีพ.ศ.2536',
  'ในทวีปแอฟริกา',
  'ประเทศจีนในโอลิมปิก',
  'สนามกีฬาในร่มกลางเทศบาลโอซากะ',
  'ประเทศกรีซในโอลิมปิกฤดูร้อน1936',
  'ประเทศซิมบับเวในโอลิมปิกฤดูร้อน2016',
  'ประเทศอินเดียในพาราลิมปิกฤดูร้อน2020',
  'ตัวละครที่ปรากฎใน',
  'ประเทศฟินแลนด์ในโอลิมปิกเย

Some are named-entity, others are not.
What if try rule-based?

#### Exclude Onlympics

In [26]:
nai = [title for title in titles if ("ใน" in title) and ("โอลิมปิก" not in title)]

len(nai)

9538

50% of "ใน" was about Olympics..!

In [27]:
get_samples(nai)

['หลังรัฐประหารในประเทศไทย',
 'นักกีฬาจากรัฐคูเวตในเอเชียนเกมส์2010',
 'พระราชสันตติวงศ์ในสมเด็จพระบรมราชินีนาถวิกตอเรีย',
 'ประเทศญี่ปุ่นในเอเชียนเกมส์',
 'นักกีฬาอิสระในเอเชียนเกมส์',
 'สโมสรฟุตบอลเรอัลมาดริดในฤดูกาล2023–24',
 'สโมสรฟุตบอลนิวคาสเซิลยูไนเต็ดในฤดูกาล2009–10',
 'กล้องจุลทรรศน์แบบส่องกราดในอุโมงค์',
 'โบว์ลิ่งในกีฬาแห่งชาติครั้งที่41–ทีมชาย3คน',
 'ประเทศชิลีในแพนอเมริกันเกมส์',
 'สโมสรฟุตบอลจังหวัดอุดรธานีในฤดูกาล2561',
 'วัตถุมงคลในศาสนาพุทธ',
 'เจ้าหญิงมาซาโกะพระชายาในเจ้าชายสึเนฮิซะ',
 'กีฬาปัญจกีฬาสมัยใหม่ในแพนอเมริกันเกมส์2023',
 'นักฟุตบอลที่เกิดในปี',
 'ร็อคแมน6การต่อสู้ครั้งยิ่งใหญ่ในประวัติศาสตร์!!',
 'จังหวัดขอนแก่นในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไปพ.ศ.2548',
 'ประเทศไทยในพ.ศ.2562',
 'รัฐประหารในประเทศพม่า',
 'ประเทศไทยในพ.ศ.2550',
 'การกบฏโรฮิงยาในพม่าตะวันตก',
 'ในสมเด็จพระเจ้าลูกเธอ',
 'โบว์ลิ่งในเอเชียนเกมส์2014',
 'ตัวละครที่ปรากฎใน',
 'กองทัพอากาศสหรัฐในประเทศไทย',
 'บุคคลที่เสียชีวิตในเดือน',
 'ประเทศเช็กเกียในพาราลิมปิกฤดูร้อน2016',
 'ขบ

#### Exclude sports
such as "สโมสรฟุตบอลแบล็กเบิร์นโรเวอส์ในฤดูกาล"

In [28]:
nai = [title for title in nai if ("ฤดู" not in title)]

len(nai)

8283

In [29]:
get_samples(nai)

['สาธารณรัฐประชาชนจีนในเอเชียนเกมส์2010',
 'เจ้าจอมเพิ่มในรัชกาลที่5',
 'ตรุษจีนในนครสวรรค์',
 'การประท้วงในอิรักพ.ศ.2562–2564',
 'ฉัน,ในวันฟ้าคราม',
 'การประท้วงในจอร์เจียพ.ศ.2554',
 'บุคคลที่เกิดในปีพ.ศ.2494',
 'ธงในโครเอเชีย',
 'การเปลี่ยนแปลงในระดับจิตวิญญาณ',
 'จังหวัดชลบุรีในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไปพ.ศ.2562',
 'การระบาดทั่วของโควิด-19ในประเทศพม่า',
 'กีฬาเทควันโดในกีฬาแห่งชาติ',
 'กรีฑาในกีฬาแห่งชาติครั้งที่41–วิ่ง1,500เมตรชาย',
 'การก่อการกำเริบในเบอร์ลินตะวันออกค.ศ.1953',
 'บุคคลที่เกิดในปีพ.ศ.2475',
 'ประเทศเยเมนในเอเชียนเกมส์2022',
 'กีฬาเรือพายในกีฬาแห่งชาติครั้งที่45',
 'การลงประชามติในประเทศสวิตเซอร์แลนด์ค.ศ.1876',
 'อยากเห็นท้องฟ้าเป็นอย่างในฝัน',
 'สหรัฐอาหรับเอมิเรตส์ในเอเชียนเกมส์2010',
 'สถิติในฟีฟ่าคอนเฟเดอเรชันส์คัพ2017',
 'กีฬาโปโลน้ำในซีเกมส์2017–ทีมหญิง',
 'กีฬาวูซูในซีเกมส์2017',
 'รักร่วมเพศในประเทศไทย',
 'เธอไม่ควรเข้ามาในชีวิต',
 'ความเข้มข้นเฉลี่ยของฮีโมโกลบินในเม็ดเลือดแดง',
 'กีฬาแบดมินตันในซีเกมส์2013',
 'การศึกษาภาษาญี่ปุ่นในสหรัฐ

### Process country names
> ใช้ชื่อ "ประเทศ..." เช่น ประเทศญี่ปุ่น ดูเพิ่ม วิกิพีเดีย:โครงการวิกิประเทศ

There are "ประเทศ..." patterns and "รัฐ" patterns (such as Palestine)

In [30]:
pratheet = [title for title in titles if title.startswith("ประเทศ")]
rath = [title for title in titles if title.startswith("รัฐ")]

len(pratheet), len(rath)

(5976, 1488)

In [31]:
get_samples(pratheet)

['ประเทศไมโครนีเซียในโอลิมปิกเยาวชนฤดูร้อน',
 'ประเทศออสเตรียในโอลิมปิกฤดูหนาว1968',
 'ประเทศแอนติกาและบาร์บูดาในพาราลิมปิกฤดูร้อน',
 'ประเทศแคนาดาในโอลิมปิกฤดูร้อน2012',
 'ประเทศกานาในโอลิมปิกฤดูร้อน1972',
 'ประเทศซูดานใต้ในโอลิมปิกฤดูร้อน2020',
 'ประเทศจีน',
 'ประเทศตุรกีในโอลิมปิกฤดูร้อน1976',
 'ประเทศนอร์เวย์ในโอลิมปิกฤดูหนาว1952',
 'ประเทศเบนินในโอลิมปิกฤดูร้อน1992',
 'ประเทศพม่าในโอลิมปิกฤดูร้อน1980',
 'ประเทศเกาหลีเหนือในเอเชียนเกมส์2022',
 'ประเทศแคนาดาในโอลิมปิกฤดูร้อน1912',
 'ประเทศโกตดิวัวร์ในโอลิมปิกฤดูร้อน1968',
 'ประเทศฟีจีในโอลิมปิกฤดูร้อน1988',
 'ประเทศแอลเบเนียในโอลิมปิกเยาวชนฤดูหนาว2020',
 'ประเทศวานูวาตูในโอลิมปิกเยาวชนฤดูร้อน2010',
 'ประเทศไทยในพ.ศ.2525',
 'ประเทศบรูไนดารุสซาลามในโอลิมปิกเยาวชนฤดูร้อน',
 'ประเทศเนเธอร์แลนด์ในโอลิมปิกฤดูหนาว1988',
 'ประเทศจีนในพาราลิมปิกฤดูร้อน2012',
 'ประเทศอียิปต์ในโอลิมปิกฤดูร้อน1984',
 'ประเทศจอร์เจียในโอลิมปิกฤดูหนาว2018',
 'ประเทศเกาหลีเหนือในโอลิมปิกฤดูร้อน2008',
 'ประเทศชิลีในโอลิมปิกฤดูร้อน1924',
 'ประเทศคอสตาริกาในพาราลิมปิ

### Dictricts names
> ให้มีคำว่า ตำบล อำเภอ จังหวัด มณฑล รัฐ กำกับด้วย เช่น อำเภอจอมทอง จังหวัดเชียงใหม่ มณฑลหูหนาน รัฐแทสเมเนีย รัฐฮาวาย ฯลฯ