# Wikipedia Title 

Using [thwiki-latest-all-titles-in-ns0](https://dumps.wikimedia.org/thwiki/latest/)

In [301]:
import pythainlp
import random
import re

In [302]:
random.seed(334)

## Import data 

In [303]:
def get_samples(titles_set, n=100):
    return random.sample(list(titles_set), n)

In [304]:
with open("thwiki-latest-all-titles-in-ns0", encoding="utf-8") as f:
    titles = set(f.read().splitlines())
    
len(titles)

362955

In [305]:
get_samples(titles)

['โชเนน',
 'จันนี่_สแกนเดอลัคกี้',
 'เจ้าหญิงมารี_หลุยส์แห่งเบอร์เบิ้น-ปาร์มา',
 'รายชื่อหน่วยงานวางระเบียบทางภาษา',
 'Heteradelphia',
 'แดนนี_วอร์ด',
 'Siege_of_Malta_(1565)',
 'ประเทศนิการากัวในแพนอเมริกันเกมส์',
 'Shisha',
 'คะซุโกะ_ทะคัตสึคะซะ',
 'ช่วนจินก่า',
 'Gamma_function',
 'สมเด็จพระเจ้าซาร์นิโคลาสที่_2_แห่งรัสเซีย',
 'Po',
 'Jamala',
 'โจเอล_แคมป์เบลล์',
 'ทะเลทรายนามิเบีย',
 'วัดประชาบำรุง_(จังหวัดมหาสารคาม)',
 'ยุทธการที่ฌ็องบลู_(ค.ศ.1940)',
 'กระเบนปีศาจญี่ปุ่น',
 'ชิงกันเซ็ง_E3_ซีรีส์',
 'หมากรุกญี่ปุ่นสี่คน',
 'แอร์เอเชีย_เอกซ์',
 'แมนเชสเตอร์ดาร์บี',
 'เหตุระเบิดที่บาตา_พ.ศ._2564',
 'ยุทธการที่แม่น้ำลิส_(ค.ศ._1940)',
 'กัง_กิยุล',
 'Rock-Hewn_Churches,_Lalibela',
 'เดวิด_อิสตัน',
 'ค.ศ._1381',
 'บูร์คันคัลดุน',
 'การจับตำแหน่งข้อต่อ',
 'เอนริเก_เปญญา_นิเอโต',
 'อ.โพธิ์ไทร',
 'ฐิตินันท์_แสงนาค',
 'In/Spectre',
 'Phrynoidis_aspera',
 'ละอองดาว_(นวนิยาย)',
 'สภาวะเสียการระลึกรู้สัณฐานโดยคลำ',
 'เกาะสเวตินิโกลา',
 'อำเภอกุสินารา',
 'Graz',
 'วอลเลย์บอลชายไทยเดนมาร์คซูเปอร

## Clean
This wii be the criteria: [วิกิพีเดีย:ชื่อบทความ](https://th.wikipedia.org/wiki/%E0%B8%A7%E0%B8%B4%E0%B8%81%E0%B8%B4%E0%B8%9E%E0%B8%B5%E0%B9%80%E0%B8%94%E0%B8%B5%E0%B8%A2:%E0%B8%8A%E0%B8%B7%E0%B9%88%E0%B8%AD%E0%B8%9A%E0%B8%97%E0%B8%84%E0%B8%A7%E0%B8%B2%E0%B8%A1)

### Seperate ()
> พยายามหลีกเลี่ยงการใช้ วงเล็บ หรือเครื่องหมายอื่นที่ไม่เกี่ยวกับชื่อบทความ ถ้าไม่จำเป็น  
>  
> วงเล็บต่อท้ายใช้เพื่อแก้ความกำกวม เช่น บาท (สกุลเงิน) กับ บาท (ร้อยกรอง) และในการเขียนให้เว้นวรรคระหว่างคำและวงเล็บ เช่น บาท (สกุลเงิน) ไม่ใช่ บาท(สกุลเงิน) ถ้าคำมีความหมายเดียว หรือไม่คาดว่าจะกำกวมกับเรื่องอื่น ให้ใช้ บัว แทนที่จะเป็น บัว (พรรณไม้)

This also covers "Include monks nicknames"
> พระสงฆ์ไทยทรงสมณศักดิ์ ให้นำสมณศักดิ์หรือราชทินนามขึ้นต้น ตามด้วยวงเล็บชื่อและฉายา  
> พระพรหมคุณาภรณ์ (ประยุทธ์ ปยุตโต)  
> สมเด็จพระพุฒาจารย์ (โต พรหมรังสี)  
> สมเด็จพระพุฒาจารย์ (เกี่ยว อุปเสโณ)  

In [306]:
def extract_bracket(input_string):
    pattern = r'([^\(]+)\(([^)]+)\)'
    match = re.match(pattern, input_string)
    
    if match:
        a = match.group(1).strip()
        b = match.group(2).strip()
        
        # many has space("_") before bracket
        if a[-1] == "_":
            a = a[:-1]
            
        return [a, b]
    else:
        return [input_string]

[extract_bracket("บรั่นดี_(วงดนตรี)"), extract_bracket("บรั่นดี")]

[['บรั่นดี', 'วงดนตรี'], ['บรั่นดี']]

In [307]:
titles_temp = set()

for title in titles:
    titles_temp.update(extract_bracket(title))
    
titles = titles_temp

len(titles)

353833

In [308]:
get_samples(titles)

['เคียวโกะ_อิโนะอุเอะ',
 'เหรียญเงินช้างเผือก',
 'Godzilla_Against_Mechagodzilla',
 '2011–ปัจจุบัน',
 'หิรัณยกศิปุ',
 'พราน',
 'ออคตาฟ_มีโบ',
 'จังหวัดแม่ฮ่องสอนในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไป_พ.ศ._2550',
 'แมสซีฟแอตแทก',
 'ศาสนาพุทธในประเทศรัสเซีย',
 'O._Henry_Award',
 'วงศ์กวางชะมดป่า',
 'ปลาแดมเซลฟ้าหางส้ม',
 'ข้าหลวงต่างพระองค์เครือรัฐออสเตรเลีย',
 'สโมสรฟุตบอลจังหวัดตราด',
 'ตำบลเฆร์กู',
 'อุสมาน_ศรแดง',
 'อูว์เกอโนต์',
 'The_Imperial',
 'ฟิล_ทากูปา',
 'ดุสิต_เฉลิมแสน',
 'ลีอาห์_ดีซอน',
 'Scleropages_aureus',
 'KC_WEEKLY',
 'ไอแพด_มินิ',
 'Labiobarbus',
 'วัดพันท้ายนรสิงห์',
 'เหตุการณ์รถไฟชนกันที่ตลิ่งชัน_พ.ศ._2522',
 'วงศ์นกขาบ',
 'ภาวะทุพโภชนาการ',
 'กาเบรียล_คว็อก',
 'Tragulidae',
 'แอนดี_เล',
 'เอ็มเอสเอ็นเมสเซนเจอร์',
 'การตลาดแบบปากต่อปาก',
 'า',
 'Niponiosomatidae',
 'มหาวิบัตินครดับสูญ',
 'สาธารณรัฐเอกวาดอร์ในโอลิมปิกฤดูร้อน_1992',
 'Azerbaijan_Cup',
 'พระเจ้าฮั่นเซ่าตี้',
 'ยัน_ฟัน_ไอก์',
 'บีแยลาวา',
 'ภาษาซาซากิ',
 'BUT_/_ไอโช',
 'เทศบาลตำบลทุ่งเสลี่

### Seperate/Integrate space
Handle the seperated words as different words + Connect them and handle them as one word

("Seperate space between names" also covered by this)
> หลักการทั่วไปคือให้ใช้ชื่อที่เป็นที่รู้จักมากที่สุด โดยไม่ต้องมีคำนำหน้าชื่อ รวมทั้ง นาย/นาง/นางสาว คุณหญิง/ท่านผู้หญิง หรือ ยศ และตำแหน่งวิชาการ ดูเพิ่มที่ ยศหรือตำแหน่ง  
>  
> ใช้ ทักษิณ ชินวัตร แทนที่ พันตำรวจโท ดร. ทักษิณ ชินวัตร
  
Also exclude dot initials    
> ชื่อที่มีจุดหลังชื่อ ภาษาไทยหรือภาษาอื่น ให้เว้นวรรคหนึ่งครั้งหลังจุด  
>  
> ใช้ ป. อินทรปาลิต แทนที่ ป.อินทรปาลิต  
> จอร์จ เอช. ดับเบิลยู. บุช

In [309]:
titles_temp = set()

for title in titles:
    # "space" of the title is replaced by "_" in the data
    words = title.split("_")
    
    # as different words
    titles_temp.update(words)
    
    # connect and as one word
    titles_temp.add("".join(words))
        
titles = titles_temp

len(titles)

465912

In [310]:
get_samples(titles)

['SanAntonio,TX',
 'เองรีกีดีเซนาฟีร์นังดิช',
 'ปลาการ์ตูนส้ม',
 'คาวิกา',
 'บางกอกซิตี้แชนแนล',
 'ปีเตอร์เบียร์ดสลีย์',
 'ตำนานสมเด็จพระนเรศวรมหาราชเดอะซีรีส์',
 'แลมโบกินี่มูร์เซียลาโก',
 'al-Razi',
 'แกลสส์',
 'เจี้ยนเหวิน',
 'AgnesChow',
 'Samart',
 'กระดูกเอทมอยด์',
 'ลีก้า',
 'เข็มกลัดฟิบิวลา',
 'Shijiazhuang',
 'พ.ศ.2047',
 'ปลากะพงแถบน้ำเงิน',
 'พ.ศ.1123',
 'เส้นเมริเดียนที่127',
 'ยูโซ',
 'ทรีมาโลส',
 'พระเจ้าหรรษวรมันที่1',
 'วัดท่าไชยศิริ',
 'Monumental',
 'DreamWorks,LLC',
 'สมเด็จพระราชินีนาถราซอเฮอรินาแห่งมาดากัสการ์',
 'Internetprotocolsuite',
 'HighDefinitionTV',
 'สโมสรฟุตบอลแมนเชสเตอร์ยูไนเต็ดในฤดูกาล2022–23',
 'ล้อตุนกำลัง',
 'ทาทูอิน',
 'ตำบลกำแพงเซา',
 'ฌอห์น',
 'SACD',
 'ราชสำนักแห่งเกาหลี',
 'ชีคมูจิบูร์เราะห์มาน',
 'ComputerspielemuseumBerlin',
 'พัชรี',
 '2248',
 'พระเจ้าวรวงศ์เธอพระองค์เจ้าหญิงน้อง',
 'UniversityofSt.Andrews',
 'สโมสรฟุตบอลแมนเชสเตอร์ซิตีในฤดูกาล2013–14',
 'ประกาศสิทธิมนุษยชนและพลเมือง',
 'กรดไขมันโอเมกา3',
 'ลี่อิน',
 'กันดั้มดับเบิ้ลโอ',
 'พ

### Exclude non-Thai
> ชื่อหัวข้อควรเป็นอักษรไทย  
> ...  
> ทั้งนี้ มีข้อยกเว้นบางประการที่ไม่ต้องใช้อักษรไทยเป็นชื่อบทความ

In [311]:
# simply exclude titles that have no Thai characters
titles_temp = [title for title in titles if pythainlp.util.countthai(title) > 0.1]
titles = set(titles_temp)

len(titles)

346494

In [312]:
get_samples(titles)

['รายชื่อเจ้าผู้ครองลีชเทินชไตน์',
 'ฟร็องซัวออลลองด์',
 'ความบริสุทธิ์',
 'สมณกรรมาธิการนครรัฐวาติกัน',
 'โปรแกรมจัดการดาวน์โหลด',
 'ไมเคิลแจ็กสันกับประเทศไทย',
 'พรอปเพอร์ตี',
 'เอ็กซ์เพลส',
 'จุดไกลดวงอาทิตย์ที่สุด',
 'ฌอสแปง',
 'ศรีชัยวัชรบุรี',
 'พระเจ้าโจวมู่หวัง',
 'ไมค์เบลส์',
 'ซูแปร์เลกาฤดูกาล2021–22',
 'สถานีอวกาศเทียนกง',
 'พระทีั่นั่งอัมพรสถาน',
 'ไทยแลนด์ก็อตทาเลนต์ซีซั่นที่2',
 'ฟูชิเซน',
 'รายชื่อตัวละครในเรื่อง',
 'อิชตาลล์',
 'นีดะ',
 'ฌอง-ลุกแซสซัส',
 'คณะรัฐมนตรีไทย',
 'เจ้าหญิงเอ็มมาแห่งวัลเด็คและไพร์มอนต์',
 'เมื่อผู้กล้าลาโลกแล้ว!เพราะชาวบ้านอย่างผมเผลอทำผู้กล้าตาย',
 'พระราชบัญญัติความสัมพันธ์ภายในครอบครัว',
 'ไคซูเกะ',
 'ยงยุทธสัจจวานิชย์',
 'โคโค่แจ๊ซ',
 'ชีวิตไม่ง่ายของนางร้าย',
 'อ.ภูผาม่าน',
 'เมืองฝาง',
 'ประเทศปากีสถานในโอลิมปิกฤดูร้อน1956',
 'นกเด้าลม',
 'วอลเลย์บอลชายชิงแชมป์แอฟริกา2021',
 'ชาลีผาย',
 'ประเทศโมซัมบิกในโอลิมปิกเยาวชนฤดูร้อน2014',
 'ไฟลามทุ่ง',
 'ลิขิตรักตะวันและจันทรา',
 'หายใจเร็ว',
 'เวสต์วิค',
 'พระเจ้าชาร์ลส์ที่',
 'ยุทธการที่หับป๋า'

### Seperate colon

In [313]:
len([title for title in titles if ":" in title])

1465

In [314]:
[title for title in titles if ":" in title][:50]

['โจโจ้ล่าข้ามศตวรรษ:เครซี่ไดอมอนด์ด้วยรักและใจสลาย',
 'เดอะเลเจนด์ออฟเซลดา:อะลิงก์ทูเดอะแพสต์',
 'เวียงกุมกาม:นครใต้พิภพ',
 'ยอดนักสืบจิ๋วโคนัน:ฝ่าวิกฤติเรือรบมรณะ',
 'มาสค์ไรเดอร์ไฟซ์เดอะมูฟวี่:สงครามมนุษย์กลายพันธุ์',
 'อัสแซสซินส์ครีด:ลินนิเอจ',
 'ดาวน์:',
 'เอฟรีเดส์:',
 'สตาร์วอร์ส:เดอะแบดแบตช์',
 'สตาร์ไดรเวอร์:ทาคุโตะผู้เจิดจรัส',
 'เทคโอเวอร์:',
 'โททัลวอร์:',
 'คังโคเระ:',
 'รายชื่อตอนในเบ็นเท็น:อัลติเมทเอเลี่ยน',
 'เมทัลเกียร์โซลิด5:เดอะแฟนทอมเพน',
 'แบล็กพิงก์:เดอะเวอชวล',
 'เพอร์ฟูม:',
 'เอ็นเอ๊กซ์ทีเทคโอเวอร์:อาร์เอฟโวลูชั่น',
 'ลาพิวตา:',
 'สตาร์วอร์ส:โรกวัน',
 'เอาต์เบรก:',
 'สวิฟต์:',
 'ยอดนักสืบจิ๋วโคนัน:ปริศนาบนถนนสายมรณะ',
 'PoliceStory3:SuperCopวิ่งสู้ฟัด3',
 'เซอร์ไวเวอร์ปานามา:เกาะอัปยศ',
 'โปเกมอนเรนเจอร์:แชโดวส์ออฟอัลเมีย',
 'เดิร์จออฟเซอร์เบรัส:',
 'คอมมานด์แอนด์คองเคอร์:เจเนรัลส์',
 'เอจออฟมีโธโลจี:เดอะไททันส์',
 'วิแวร์:เดอะเบสท์ออฟ',
 'เดอะเลเจนด์ออฟเซลดา:เมเยอราส์แมสก์3D',
 'ฮอบบิท:',
 'กันดั้มบิลด์ไฟท์เตอร์ไทร:IslandWars',
 'ดราก้อนฟอร์ซ:โซลอง,อุลตร้าแมน'

Yes, definetly `:` used for subtitles

In [315]:
titles_temp = set()

for title in titles:
    if ":" in title:
        titles_temp.update(title.split(":"))
    else:
        titles_temp.add(title)
    
titles = titles_temp
len(titles)

345587

In [316]:
get_samples(titles)

['หฤษฏ์ชีวการุณ',
 'มหาวิทยาลัยเดอปอล',
 'โคเมอร์เนตี',
 'โทนีแบร็กซ์ตัน',
 'สหรัฐอเมริกาในโอลิมปิกฤดูร้อน1920',
 'เคลลีย์',
 'ประเทศอิหร่านในโอลิมปิกฤดูหนาว1964',
 'กิ่งเหมือนแพร',
 'ขบวนการพลังขั้นสูงโอเรนเจอร์',
 'ทอเลมีที่',
 'ค.ศ.1957',
 'จังหวัดโอต-มาร์น',
 'ปราสาทพทูย',
 'ทิโมชาริส',
 'คาร์เมอร์เรเนบตี้ที่',
 'หัวไช้เท้า',
 'พระแม่มาริอัมมัน',
 'หลวงจีนหอไตร',
 'ฟิวดัล',
 'กีฬากรีฑาในซีเกมส์2017–ขว้างค้อนชาย',
 'มณฑลบุมทัง',
 'การเปลี่ยนแปลงการปกครอง',
 'ฟลอร์เอ็กเซอร์ไซส์',
 'คนอึดตายยาก',
 'อะตอมมิค',
 'วารสารฟ้าเดียวกัน',
 'แม็ทเกรนิง',
 'วัดดอยงำเมือง',
 'วชิรวิชญ์ไพศาลกุลวงศ์',
 'รายนามนายกรัฐมนตรีไทย',
 'จับหมู',
 'รายชื่อแหล่งมรดกโลกในประเทศคิวบา',
 'เภสัชภัณฑ์',
 'จังหวัดโวกลูซ',
 'มุรากาวะ',
 'วัคซีนบีซีจี',
 'บุคคลที่เกิดในปีพ.ศ.2504',
 'เงาสมิง',
 'กอทิก',
 'ฤดูพายุเฮอร์ริเคนแปซิฟิกพ.ศ.2558',
 'ปลดหนี้ร้องแลกหนี้',
 'ยาซูโกะ',
 'ความสัมพันธ์ไทย-พม่า',
 'สมบูรณ์ไพรคุก',
 'เมกะบางนา',
 'กุญแจเสียง',
 'วรวุธศรีมะฆะ',
 'สตาร์มูฟวี่ส์',
 'สุณัฐชา',
 'อาร์ชดยุกออตโต',
 'ตระ

### Exclude List
> "รายชื่อ"สำหรับบทความที่มีลักษณะรวบรวมรายการ ให้ขึ้นต้นด้วยคำว่า "รายชื่อ" สำหรับรายการของวิสามานยนามหรือชื่อเฉพาะ (proper name) ล้วน ส่วนกรณีที่เหลือทั้งหมด ให้ใช้ "รายการ" เช่น  
> ...  
> สำหรับบทความที่รวบรวมรายการพระนามเจ้า ให้ใช้ "รายพระนาม" และหากมีทั้งเจ้าและสามัญชน ให้ใช้ "รายพระนามและชื่อ"  
> ...  
> สำหรับรายชื่อตอน หรือรายชื่อตัวละคร ให้เขียนในลักษณะ  
>  
> รายชื่อตัวละครใน{ชื่อเรื่อง} เช่น   รายชื่อตัวละครในมาจิเรนเจอร์
> รายชื่อตอนใน{ชื่อเรื่อง} เช่น รายชื่อตอนในน้องสาวของผมไม่น่ารักขนาดนั้นหรอก  

In [323]:
# lists ariticles all starts from "ราย"
# Observe them first

raay = [title for title in titles if title.startswith("ราย")]
len(raay)

4992

In [324]:
get_samples(raay)

['รายพระนามและชื่อผู้ได้รับพระราชทานว.ม.ล.',
 'รายชื่อดาราจักร',
 'รายชื่อผลงานของ',
 'รายนามปลัดกระทรวงคมนาคมของไทย',
 'รายชื่อตอนในซีเอสไอ',
 'รายพระนามและชื่อผู้ปกครองเอสโตเนีย',
 'รายพระนามผู้ปกครองมอลดาเวีย',
 'รายชื่อประเทศเรียงตามอัตราการว่างงาน',
 'รายชื่อเผ่าพันธุ์ในสตาร์',
 'รายชื่อผู้ที่ได้รับตำแหน่ง',
 'รายชื่อวัดในจังหวัดนครศรีธรรมราช',
 'รายชื่อรางวัลที่ธงไชยแมคอินไตย์ได้รับ',
 'รายชื่อภาพเขียนโดยโยฮันเนิส',
 'รายชื่อผู้ได้รับรางวัลเพลงประกอบภาพยนตร์ยอดเยี่ยม',
 'รายชื่อการออกแบบคบเพลิงโอลิมปิก',
 'รายพระนามคู่อภิเษกสมรสในพระมหากษัตริย์แห่งจอร์แดน',
 'รายชื่อสัตว์น้ำ',
 'รายชื่อเพลงหน้าพาทย์',
 'รายชื่อฟอร์ช็อกและอาฟเตอร์ช็อกจากแผ่นดินไหวและคลื่นสึนามิในโทโฮะกุพ.ศ.2554',
 'รายชื่อทางแยกในเขตยานนาวา',
 'รายชื่อโบราณสถานในจังหวัดมหาสารคาม',
 'รายนามประธานาธิบดีแห่งสาธารณรัฐจีน',
 'รายนามรัฐมนตรีว่าการกระทรวงวิทยาศาสตร์และเทคโนโลยี',
 'รายชื่อลูกฟุตบอลโอลิมปิกอย่างเป็นทางการ',
 'รายชื่อแชมป์โลกมวยสากลรุ่นไลท์ฟลายเวท',
 'รายชื่อวัดในจังหวัดเพชรบูรณ์',
 'รายนามรัฐมนตรีกระทรวงก

Some seems to be not related to list-article.(Such as names, "รายยวา")

Exclude them in rule-base

In [325]:
#check if it is a list article in rule-based
def is_list_article(title):
    # a few articles have miss-tone-mark
    # -> check without tone-mark
    title_no_tone = pythainlp.util.remove_tonemark(title)
    
    return (title_no_tone.startswith("รายการ")
        or title_no_tone.startswith("รายชือ")
        or title_no_tone.startswith("รายพระ")
        or title_no_tone.startswith("รายนาม"))

In [326]:
not_list = []

for title in raay:
    
    if is_list_article(title):
        continue
    
    not_list.append(title)
    
len(not_list)

57

In [327]:
#check
get_samples(not_list, 50)

['รายละเอียดพระราชพิธีพระราชทานเพลิงพระศพสมเด็จเจ้าฟ้าฯกรมหลวงนราธิวาสราชนครินทร์',
 'รายาแห่งซาราวัก',
 'รายละเอียดพระราชพิธีถวายพระเพลิงพระบรมศพพระบาทสมเด็จพระปรมินทรมหาภูมิพลอดุลยเดช',
 'รายได้พื้นฐาน',
 'รายงานเฮิร์ช',
 'รายาห์',
 'รายงานเฮิรส์ช',
 'รายงานอาหาร',
 'รายงานค่าใช้จ่าย',
 'รายงานเค้ส',
 'รายงานกรณี',
 'รายาแห่งรัฐปะลิส',
 'รายาประไหมสุหรีอากง',
 'รายากับมังกรตัวสุดท้าย',
 'รายได้',
 'รายาประไหมสุหรีอากงตวนกูฮัจญะห์ฮามินะห์ฮาไมดุน',
 'รายาฮีเจา',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน',
 'รายชิ่อสนามกีฬาเรียงตามความจุ',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน1.5°C',
 'ราย',
 'รายวนปูเลาเกอลาปา',
 'รายงานความสุขโลก',
 'รายได้มูลฐาน',
 'รายนานนท์',
 'รายได้พื้นฐานถ้วนหน้าในประเทศบราซิล',
 'รายานนท์',
 'รายงานเคส',
 'รายงานการประชุม',
 'รายวน',
 'รายงานคนไข้',
 'รายูวันปูเลาเกอลาปา',
 'รายา',
 'รายงานประจำปี',
 'รายาผิวขาว',
 'รายงานเรื่องอาหารโภชนาการกิจกรรมทางกายและการป้องกันมะเร็ง',
 'รายคอวิช',
 'รายาฮีเยา',
 'รายงานพิเศษว่าด้วยภาวะโลกร้อน1.5°ซ.',
 'รายาอูงู',
 'รายยวา',
 'รายาบีรู',

In [328]:
# exclude from the main list
titles_temp = set()
for title in titles:
    if not is_list_article(title):
        titles_temp.add(title)
        
titles = titles_temp
len(titles)

340652

In [329]:
get_samples(titles)

['เดอะฟิวเจอร์ซาวด์ออฟลอนดอน',
 'บียอร์สเตียร์เนบียอร์สัน',
 'พ.ศ.1066',
 'มติ',
 'คาร์ลิโน่',
 'ซีราคิวส์,ซิซิลี',
 'ยุคไพลโอซีน',
 'เหรียญ2เออเรอ',
 'รูด็อล์ฟเช็งเคอร์',
 'ยุทธการบาร์เน็ต',
 'มาอูโร',
 'เขาไกรลาส',
 'ไฮไดนามิกเรจน์อิมเมจ',
 'ลูโซโฟนีเกมส์2017',
 'สถานีวิทยุโทรทัศน์รัฐสภา',
 'หนุ่มสาว',
 'วัดแก้วไพฑูรย์',
 'หลงต้าน',
 'วิศวกรรมการผลิต',
 'ป้อมเบรสต์',
 'ยาโนชบาโลห์',
 'จอห์นปอลที่2',
 'เกวงกา',
 'กุลรัตนรักษ์',
 'เดอะบลัดไลน์',
 'เพชรโพธิ์ทอง',
 'สมเด็จเจ้านครอินทร์',
 'กำเนิดใหม่ไอ้มดแดงยุคเรย์วะ',
 'โรแกน',
 'เพชรงามชูวัฒนะ',
 'ความน่าจะเป็นบนเส้นขนาน',
 'ครกบดยา',
 '10ก.ย.',
 'ไอรอนแมน2',
 'ลักษณะปรากฏ',
 'กาฟิรโกฏ',
 'อิมพิเรียลคอลเลจ',
 'คุนโพ',
 'สุกุมล',
 'ตำบลหนองไม้แดง',
 'จงฉู่หง',
 'เจ.โคล',
 'วัดปากคลองหก',
 'ทวีวงศ์',
 'กองพลแพนเซอร์เอ็สเอ็สที่12ฮิตเลอร์ยูเกนด์',
 'ซิมเปิลแพลน',
 'ร็อกวิธยู',
 '๒๔มกราคม',
 'ดาเนียลคาเก',
 'ชิเงรุมิยะโมะโตะ',
 'มหาวิทยาลัยเทคโนโลยีแห่งมิวนิก',
 'ปางนาคาวโลก',
 'ฮิซาตาดะ',
 'อังแดรซิลวา',
 'ไทบีเรี่ยม',
 'นพปฎลมหาเศวตฉัตร',

### Get the names of The Royal Family
> คำนำหน้าพระนามของกษัตริย์
> ให้กษัตริย์ไทยที่ราชาภิเษกแล้ว ใช้คำนำหน้าชื่อว่า "พระบาทสมเด็จพระ" ถ้ายังไม่ราชาภิเษก ใช้ "สมเด็จพระ"
> กษัตริย์ไทยในอดีต ใช้ "สมเด็จพระ" แต่อาจใช้ตามความนิยม เช่น "ขุนหลวง," "พ่อขุน," "พระยา"  
  
List of royal   
https://th.wikipedia.org/wiki/%E0%B8%9E%E0%B8%A3%E0%B8%B0%E0%B8%A2%E0%B8%A8%E0%B9%80%E0%B8%88%E0%B9%89%E0%B8%B2%E0%B8%99%E0%B8%B2%E0%B8%A2%E0%B9%84%E0%B8%97%E0%B8%A2  

**If this is rude, this should be altered**

### Process country names
> ใช้ชื่อ "ประเทศ..." เช่น ประเทศญี่ปุ่น ดูเพิ่ม วิกิพีเดีย:โครงการวิกิประเทศ

There are "ประเทศ..." patterns and "รัฐ" patterns (such as Palestine)

In [330]:
pratheet = [title for title in titles if title.startswith("ประเทศ")]
rath = [title for title in titles if title.startswith("รัฐ")]

len(pratheet), len(rath)

(5976, 1488)

In [331]:
get_samples(pratheet)

['ประเทศเม็กซิโกในโอลิมปิกฤดูร้อน2008',
 'ประเทศซูรินามในพาราลิมปิกฤดูร้อน2016',
 'ประเทศสวีเดนในโอลิมปิกเยาวชนฤดูร้อน',
 'ประเทศสเปนในโอลิมปิกฤดูหนาว1948',
 'ประเทศเกาหลีใต้ในโอลิมปิก',
 'ประเทศแคนาดาในโอลิมปิกฤดูร้อน1936',
 'ประเทศฟิลิปปินส์ในพาราลิมปิกฤดูร้อน2016',
 'ประเทศเม็กซิโกในโอลิมปิกฤดูร้อน1980',
 'ประเทศจีนในโอลิมปิก',
 'ประเทศเวียดนามในเอเชียนเกมส์2018',
 'ประเทศตองกาในโอลิมปิกฤดูร้อน2008',
 'ประเทศปานามาในโอลิมปิกฤดูร้อน1976',
 'ประเทศเนเธอร์แลนด์ในโอลิมปิกฤดูร้อน1996',
 'ประเทศบรูไนดารุสซาลามในโอลิมปิกฤดูร้อน2000',
 'ประเทศสาธารณรัฐโปรตุเกส',
 'ประเทศอิเควทอเรียลกินีในโอลิมปิกเยาวชนฤดูร้อน2010',
 'ประเทศทาจิกิสถานในโอลิมปิกฤดูร้อน2012',
 'ประเทศแคนาดาในโอลิมปิกฤดูร้อน1956',
 'ประเทศไทยในพ.ศ.2462',
 'ประเทศเลบานอนในโอลิมปิกเยาวชนฤดูร้อน2014',
 'ประเทศออสเตรเลียในโอลิมปิกฤดูร้อน',
 'ประเทศมาลีในพาราลิมปิกฤดูร้อน',
 'ประเทศนอร์เวย์ในโอลิมปิกฤดูหนาว1972',
 'ประเทศฮังการีในโอลิมปิกฤดูหนาว1988',
 'ประเทศบาฮามาสในโอลิมปิกฤดูร้อน1984',
 'ประเทศคาซัคสถานในโอลิมปิกเยาวชนฤดูร้อน',


### Dictricts names
> ให้มีคำว่า ตำบล อำเภอ จังหวัด มณฑล รัฐ กำกับด้วย เช่น อำเภอจอมทอง จังหวัดเชียงใหม่ มณฑลหูหนาน รัฐแทสเมเนีย รัฐฮาวาย ฯลฯ

### Remove years
> การเขียนปีศักราช ให้ใช้ปีพุทธศักราชเป็นหลัก และใช้ตัวเลขอารบิกโดยเขียนในรูปแบบ — พ.ศ. 2547 — โดยเว้นวรรคระหว่าง พ.ศ. และ ตัวเลข ดูเพิ่มที่ วิกิพีเดีย:โครงการวันเดือนปี

### Handle ใน
Many non-named entity titles uses "ใน"

In [None]:
nai = [titles for titles in titles if "ใน" in titles]
len(nai)

20880

In [None]:
[nai][:50]

[['ฟุตบอลในโอลิมปิกฤดูร้อน1948',
  'ประเทศอียิปต์ในโอลิมปิกฤดูร้อน1928',
  'สาธารณรัฐประชาธิปไตยประชาชนแอลจีเรียในโอลิมปิกฤดูร้อน1972',
  'การหลั่งใน',
  'เหตุสะพานในโมรพีถล่ม',
  'ประเทศแอลเบเนียในโอลิมปิกเยาวชน',
  'แผ่นดินไหวในประเทศปาปัวนิวกินี',
  'ประเทศซาอุดีอาระเบียในโอลิมปิกฤดูร้อน',
  'สหภาพโซเวียตในโอลิมปิกฤดูหนาว',
  'สาธารณรัฐรวันดาในโอลิมปิกฤดูร้อน1996',
  'สโมสรฟุตบอลแบล็กเบิร์นโรเวอส์ในฤดูกาล',
  'เหตุการณ์สำคัญในสมัยกรุงศรีอยุธยา',
  'การเลือกตั้งในประเทศอินโดนีเซีย',
  'การประท้วงโดยเผาตัวตายของชาวทิเบตในประเทศจีน',
  'รายพระนามจักรพรรดิจีนในราชวงศ์จิ้น',
  'ประเทศเดนมาร์กในโอลิมปิกเยาวชนฤดูร้อน2010',
  'ประเทศอินโดนีเซียในเอเชียนเกมส์ฤดูหนาว2017',
  'ประเทศไทยในพ.ศ.2490',
  'พระชายาในเจ้าชายโทะโมะฮิโตะ',
  'ประเทศเนเธอร์แลนด์ในโอลิมปิกฤดูร้อน1976',
  'ศาลทหารในเวลาปกติ',
  'รายชื่อวัดพุทธในประเทศไทย',
  'การลงประชามติในประเทศสวิตเซอร์แลนด์ค.ศ.1920',
  'ทีมผสมในโอลิมปิกเยาวชนฤดูร้อน2010',
  'กีฬาซอฟท์บอลในโอลิมปิกฤดูร้อน1996',
  'ประเทศนิวซีแลนด์ในโอลิมปิกฤดูหนาว2018'

Some are named-entity, others are not.
What if try rule-based?

#### Exclude Onlympics

In [None]:
nai = [title for title in titles if ("ใน" in title) and ("โอลิมปิก" not in title)]

len(nai)

11657

50% of "ใน" was about Olympics..!

In [None]:
get_samples(nai)

['รัฐอิสราเอลในเอเชียนเกมส์1954',
 'การท่องเที่ยวในประเทศไอซ์แลนด์',
 'การก่อการกำเริบในเชเชน',
 'จังหวัดในประเทศเบลเยียม',
 'การสังหารหมู่ในนครชิคาโกด้วยยาไทลินอล',
 'กีฬาไตรกีฬาในซีเกมส์2015',
 'รายชื่อคณะการแพทย์แผนไทยในประเทศไทย',
 'กีฬาแบดมินตันในซีเกมส์2023–ทีมหญิง',
 'มวยสากลในเอเชียนเกมส์2010',
 'กรุงเทพมหานครในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไปพ.ศ.2544',
 'การเผยแผ่พระพุทธศาสนาในอังกฤษ',
 'รายชื่อโบราณสถานในจังหวัดหนองบัวลำภูที่ขึ้นทะเบียนโดยกรมศิลปากร',
 'จังหวัดกระบี่ในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไปพ.ศ.2548',
 'รายชื่อวิดีโอที่มียอดผู้ชมไม่ชอบสูงสุดในยูทูบ',
 'มวยสากลสมัครเล่นในซีเกมส์2015',
 'ประเทศจิบูตีในพาราลิมปิกฤดูร้อน',
 'โทรทัศน์ประเทศไทยในค.ศ.1995',
 'องค์กรคริสตจักรสัมพันธ์ในประเทศไทย',
 'พระราชพิธีทรงพระผนวชในรัชกาลที่',
 'ธงในประเทศไทย',
 'ไทยในอียิปต์',
 'ยศทหารในกองทัพออสเตรเลีย',
 'สโมสรฟุตบอลแมนเชสเตอร์ซิตีในฤดูกาล2008–09',
 'รายชื่อแขกในพระราชพิธีราชาภิเษกของสมเด็จพระเจ้าชาลส์ที่',
 'ความไม่สงบในจังหวัดชายแดนภาคใต้',
 'ความขัด

#### Exclude sports
such as "สโมสรฟุตบอลแบล็กเบิร์นโรเวอส์ในฤดูกาล"

In [None]:
nai = [title for title in nai if ("ฤดู" not in title)]

len(nai)

10402

In [None]:
get_samples(nai)

['รายชื่อตอนในบ้านสราญแลนด์',
 'แผ่นดินไหวและคลื่นสึนามิในเซ็นได',
 'ในจักรพรรดิซ่งฮุ่ยจง',
 'การให้วัคซีนโควิด-19ในประเทศไทย',
 'รายชื่อโรงพยาบาลในแชร์นีฮิว',
 'เหตุระเบิดที่มัสยิดในเปศวาร์',
 'เรือประเพณีในซีเกมส์2015',
 'จังหวัดจันทบุรีในการเลือกตั้งสมาชิกสภาผู้แทนราษฎรไทยเป็นการทั่วไปพ.ศ.2550',
 'รายชื่อแหล่งมรดกโลกในประเทศสวีเดน',
 'การฉีดวัคซีนโรคติดเชื้อไวรัสโคโรนา2019ในประเทศสิงคโปร์',
 'รายการแหล่งมรดกโลกในประเทศปาเลสไตน์',
 'กีฬาวอลเลย์บอลชายในซีเกมส์',
 'การคมนาคมในประเทศญี่ปุ่น',
 'การเกษตรในอิหร่าน',
 'โทรทัศน์ประเทศไทยในค.ศ.1952',
 'สมาคมสร้างคุณค่าในประเทศไทย',
 'วอลเลย์บอลหญิงในซีเกมส์',
 'ปลาที่พบในลุ่มแม่น้ำเจ้าพระยา',
 'ศาสนาพุทธในประเทศมาเลเซีย',
 'การลงประชามติเกี่ยวกับสนธิสัญญาเจนีวาในกัมพูชา',
 'รายชื่อธงในประเทศไอร์แลนด์',
 'การรุกในอิตาลี',
 'รัฐประหารในประเทศกาบองพ.ศ.2566',
 'ตัวละครในสตาร์คราฟต์',
 'รายชื่อตอนในเลิฟไลฟ์!ซันไชน์!!ปฏิบัติการล่าฝันสคูลไอดอล',
 'สาธารณรัฐสังคมนิยมเวียดนามในเอเชียนเกมส์2014',
 'รายชื่อตอนในเซียนเกมรักขอเป็นเทพนักจีบ',
 'รายพระนามพ