
การทำ Named Entity Recognition (NER) เพื่อสกัดข้อมูลที่ต้องการ (วันที่, สถานที่, องค์กร, จังหวัด, บุคคล) จากเว็บข่าวภาษาไทย สามารถทำได้โดยใช้วิธีการดังนี้:

1. เก็บข้อมูลจากเว็บข่าว
- ใช้ Web Scraping เพื่อดึงข้อมูล HTML จากหน้าเว็บข่าว เช่นใช้เครื่องมือ Scrapy หรือ Beautiful Soup (Python) ในการดึงข้อความจากแท็ก HTML ที่เหมาะสม (เช่น <p> สำหรับเนื้อหาข่าว)
- Preprocessing: ลบ HTML tags, จัดการข้อความให้อยู่ในรูปแบบสะอาด

In [29]:
from bs4 import BeautifulSoup
import requests

# url = "https://example-news-site.com"
# url = "https://www.thairath.co.th/news/local/east/2487776"
# url = "https://www.pptvhd36.com/news/%E0%B8%AA%E0%B8%B1%E0%B8%87%E0%B8%84%E0%B8%A1/239568"
url = "https://mgronline.com/local/detail/9670000039213"
response = requests.get(url)

# Set response encoding to UTF-8
response.encoding = 'utf-8'

# response
soup = BeautifulSoup(response.text, 'html.parser')

# Find all <div> tags not inside <header> or <footer>
targets = [
    div for div in soup.find_all(['div', 'p', 'span'])
    if not div.find_parent(['header', 'footer'])
]

content = " ".join([e.get_text(strip=True) for e in targets])
# content


'xsxsmsmmdlg xs xsm sm md lg •หน้าหลัก•ทันเหตุการณ์•ภาคใต้•ภูมิภาค•Online Section•บันเทิง•ผู้จัดการรายวัน•คอลัมนิสต์•ละคร•CbizReview•Cyber BIZ•ผู้จัดกวน•Good health & Well-being•Green Innovation & SD•Management & HR•MGR Live•Infographic•การเมือง•ท่องเที่ยว•กีฬา•ต่างประเทศ•Special Scoop•เศรษฐกิจ-ธุรกิจ•จีน•ชุมชน-คุณภาพชีวิต•อาชญากรรม•Motoring•เกม•วิทยาศาสตร์•SMEs•หุ้น•อินโดจีน•กองทุนรวม•Celeb Online•Factcheck•ญี่ปุ่น•News1TweetPOSITIONINGผู้จัดการ 360ผู้จัดการรายวันฉบับ PDFPower Upติดตามข่าวสารผ่านทาง LINEMGR Online Applicationติดตาม MGR Onlineนโยบายความเป็นส่วนตัวนโยบายการใช้คุกกี้ข้อกำหนดและเงื่อนไขการใช้บริการนโยบายการใช้ข้อมูล Facebookเกี่ยวกับเราติดต่อเรา© 2014-2024 mgronline.com. All rights reserved.หน้าหลักภูมิภาคภาคกลาง-ตะวันออกหนักอีกสระแก้ว! พายุฤดูร้อนถล่มแต่เช้าทำถนนหลายสายน้ำท่วมขัง ผู้ว่าฯ เตือนประชาชนระวังน้ำท่วมฉับพลันเผยแพร่:7 พ.ค. 2567 09:55ปรับปรุง:7 พ.ค. 2567 10:05โดย: ผู้จัดการออนไลน์สระแก้ว -หนักอีกสระแก้ว!  พายุฝนฤดูร้อนถล่มแต่เช้าทั่วทั้งจังหวัด ทำน้ำท่วมขังถนนหล

2. Preprocessing ข้อความ
- Tokenization: แยกคำในภาษาไทย เช่น ใช้ไลบรารี PyThaiNLP
- Normalization: จัดการคำที่สะกดผิด, รูปแบบวันที่ และตัวเลข

In [30]:
from pythainlp import word_tokenize

tokens = word_tokenize(content, engine="newmm")
print(tokens)

['xsxsmsmmdlg', ' ', 'xs', ' ', 'xsm', ' ', 'sm', ' ', 'md', ' ', 'lg', ' ', '•', 'หน้า', 'หลัก', '•', 'ทัน', 'เหตุการณ์', '•', 'ภาคใต้', '•', 'ภูมิภาค', '•Online', ' ', 'Section', '•', 'บันเทิง', '•', 'ผู้จัดการ', 'รายวัน', '•', 'คอลัมนิสต์', '•', 'ละคร', '•CbizReview•Cyber', ' ', 'BIZ', '•', 'ผู้', 'จัด', 'กวน', '•Good', ' ', 'health', ' ', '&', ' ', 'Well-being', '•Green', ' ', 'Innovation', ' ', '&', ' ', 'SD', '•Management', ' ', '&', ' ', 'HR', '•MGR', ' ', 'Live', '•Infographic•', 'การเมือง', '•', 'ท่องเที่ยว', '•', 'กีฬา', '•', 'ต่างประเทศ', '•Special', ' ', 'Scoop', '•', 'เศรษฐกิจ', '-', 'ธุรกิจ', '•', 'จีน', '•', 'ชุมชน', '-', 'คุณภาพชีวิต', '•', 'อาชญากรรม', '•Motoring•', 'เกม', '•', 'วิทยาศาสตร์', '•SMEs•', 'หุ้น', '•', 'อินโดจีน', '•', 'กองทุนรวม', '•Celeb', ' ', 'Online', '•Factcheck•', 'ญี่ปุ่น', '•News1TweetPOSITIONING', 'ผู้จัดการ', ' ', '360', 'ผู้จัดการ', 'รายวัน', 'ฉบับ', ' ', 'PDFPower', ' ', 'Up', 'ติดตาม', 'ข่าวสาร', 'ผ่าน', 'ทาง', ' ', 'LINEMGR', ' ', 'Online', 

3. สร้างโมเดล NER
- ใช้โมเดลสำเร็จรูป
- ใช้ PyThaiNLP หรือ Hugging Face ซึ่งมีโมเดลภาษาไทยที่รองรับ NER เช่น wangchanberta หรือ Thai2Transformers

In [7]:
from transformers import AutoTokenizer, AutoModelForTokenClassification
from transformers import pipeline

tokenizer = AutoTokenizer.from_pretrained('airesearch/wangchanberta-base-att-spm-uncased')
model = AutoModelForTokenClassification.from_pretrained('airesearch/wangchanberta-base-att-spm-uncased')

nlp = pipeline("ner", model=model, tokenizer=tokenizer)
entities = nlp("นายกรัฐมนตรีแถลงที่กรุงเทพมหานครเมื่อวันที่ 1 มกราคม 2565")
print(entities)


ValueError: Converting from Tiktoken failed, if a converter for SentencePiece is available, provide a model path with a SentencePiece tokenizer.model file.Currently available slow->fast convertors: ['AlbertTokenizer', 'BartTokenizer', 'BarthezTokenizer', 'BertTokenizer', 'BigBirdTokenizer', 'BlenderbotTokenizer', 'CamembertTokenizer', 'CLIPTokenizer', 'CodeGenTokenizer', 'ConvBertTokenizer', 'DebertaTokenizer', 'DebertaV2Tokenizer', 'DistilBertTokenizer', 'DPRReaderTokenizer', 'DPRQuestionEncoderTokenizer', 'DPRContextEncoderTokenizer', 'ElectraTokenizer', 'FNetTokenizer', 'FunnelTokenizer', 'GPT2Tokenizer', 'HerbertTokenizer', 'LayoutLMTokenizer', 'LayoutLMv2Tokenizer', 'LayoutLMv3Tokenizer', 'LayoutXLMTokenizer', 'LongformerTokenizer', 'LEDTokenizer', 'LxmertTokenizer', 'MarkupLMTokenizer', 'MBartTokenizer', 'MBart50Tokenizer', 'MPNetTokenizer', 'MobileBertTokenizer', 'MvpTokenizer', 'NllbTokenizer', 'OpenAIGPTTokenizer', 'PegasusTokenizer', 'Qwen2Tokenizer', 'RealmTokenizer', 'ReformerTokenizer', 'RemBertTokenizer', 'RetriBertTokenizer', 'RobertaTokenizer', 'RoFormerTokenizer', 'SeamlessM4TTokenizer', 'SqueezeBertTokenizer', 'T5Tokenizer', 'UdopTokenizer', 'WhisperTokenizer', 'XLMRobertaTokenizer', 'XLNetTokenizer', 'SplinterTokenizer', 'XGLMTokenizer', 'LlamaTokenizer', 'CodeLlamaTokenizer', 'GemmaTokenizer', 'Phi3Tokenizer']

In [8]:
from transformers import (
    CamembertTokenizer,
    AutoModelForTokenClassification,
    pipeline
)
# from thai2transformers.preprocess import process_transformers

# Load pre-trained tokenizer
tokenizer = CamembertTokenizer.from_pre-trained(
                                  'airesearch/wangchanberta-base-att-spm-uncased',
                                  revision='main')
tokenizer.additional_special_tokens = ['<s>NOTUSED', '</s>NOTUSED', '<_>']

# Load pre-trained model
model = AutoModelForTokenClassification.from_pre-trained(
                                  'airesearch/wangchanberta-base-att-spm-uncased',
                                  revision='finetuned@thainer-ner')

classify_token = pipeline(task='ner',
          tokenizer=tokenizer,
          model=model,
          grouped_entities=True)

input_text = "กสช. เตรียมทดลองประมููลคลื่น3จี 25 กค นี้"
# processed_input_text = process_transformers(input_text)
# print(processed_input_text, '\n')
# print(classify_token(processed_input_text))
print(classify_token(input_text))

ImportError: 
CamembertTokenizer requires the SentencePiece library but it was not found in your environment. Checkout the instructions on the
installation page of its repo: https://github.com/google/sentencepiece#installation and follow the ones
that match your environment. Please note that you may need to restart your runtime after installation.
