In [67]:
# -*- coding: utf-8 -*-
from collections import Counter
from typing import Dict, List

from pythainlp.corpus import thai_stopwords

_STOPWORDS = thai_stopwords()
#update

def rank(words: List[str], exclude_stopwords: bool = False) -> Counter:
    """
    :Example:

    Include stopwords in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
        "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'การ': 1,
        #         'บันทึก': 2,
        #         'มี': 1,
        #         'ลายลักษณ์อักษร': 1,
        #         'เป็น': 1,
        #         'เหตุการณ์': 1
        #     })

    Exclude stopword in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
            "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'บันทึก': 2,
        #         'ลายลักษณ์อักษร': 1,
        #         'เหตุการณ์': 1
        #     })
    """
    if not words:
        return None

    if exclude_stopwords:
        words = [word for word in words if word not in _STOPWORDS]

    return Counter(words)



def find_keyword(word_list: List[str], min_len: int = 3) -> Dict[str, int]:
    """
    This function count the frequency of words in the list
    where stopword is excluded and returns as a frequency dictionary.

    :param list word_list: a list of words
    :param int min_len: the mininum frequency for words to obtain

    :return: a dictionary object with key-value pair as word and its raw count
    :rtype: dict[str, int]

    :Example:
    ::

        from pythainlp.util import find_keyword

        words = ["บันทึก", "เหตุการณ์", "บันทึก", "เหตุการณ์",
                 " ", "มี", "การ", "บันทึก", "เป็น", " ", "ลายลักษณ์อักษร"
                 "และ", "การ", "บันทึก","เสียง","ใน","เหตุการณ์"]

        find_keyword(words)
        # output: {'บันทึก': 4, 'เหตุการณ์': 3}

        find_keyword(words, min_len=1)
        # output: {' ': 2, 'บันทึก': 4, 'ลายลักษณ์อักษรและ': 1,
         'เสียง': 1, 'เหตุการณ์': 3}
    """
    word_list = rank(word_list, exclude_stopwords=True)

    return {k: v for k, v in word_list.items() if v >= min_len}

In [68]:
import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
import pythainlp.util
from pythainlp.tokenize import word_tokenize
from pythainlp.util import find_keyword
from pythainlp.util import rank
#from pythainlp.summarize import extract_keywords
from pythainlp.summarize import summarize
URL2 = 'https://www.matichon.co.th/sport/footballlocal/news_3760911'
URL = 'https://www.thairath.co.th/news/local/2595926'
URL3 = 'https://www.sanook.com/news/8732166/'
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
article = requests.get(url=URL2 ,headers=headers)
soup = bs(article.content, "html.parser")
list_word =[]
for i in soup.find_all('p'):
  list_word.append(i.text)
#print(list_word)
for i in list_word:
    for i in list_word:
        if pythainlp.util.countthai(i)<30:
            list_word.remove(i)
sentence = ' '.join(list_word)
#print(sentence)

#?sentence = word_tokenize(sentence, engine="newmm")
# output: ['ยุคเริ่มแรกของ ราชวงศ์หมิง']
#print(sentence)

keyword = word_tokenize(sentence, engine="newmm")

print(list_word)

print(sentence)
print("----------keyword-------------")

print(find_keyword(keyword))
print("---------summarize----------")
summarize(sentence,n=10)
     
        

['“ช้างศึก” ทีมฟุตบอลทีมชาติไทย ล้างอาถรรพ์ไม่สำเร็จบุกพ่าย “เสือเหลือง” มาเลเซีย 0-1 ในการแข่งขันฟุตบอลชิงแชมป์อาเซียน “เอเอฟเอฟ มิตซูบิชิ อิเลคทริค คัพ 2022” รอบรองชนะเลิศ นัดแรก ที่สนามบูกิต จาลิล เมื่อวันที่ 7 มกราคม', 'เกมนี้มาโน่ โพลกิ้ง เฮดโค้ชทีมชาติไทย ปรับแผนการเล่นมาใช้ 4-3-3 นำโดย กิตติพงษ์ ภูแถวเชือก เป็นผู้รักษาประตู แนวรับจากขวาไปซ้าย ศุภนันท์ บุรีรัตน์,\u200b พรรษา เหมวิบูลย์, กฤษดา กาแมน, ศศลักษณ์ ไหประโคน แดนกลางมี สารัช อยู่เย็น, ธีราทร บุญมาทัน และพีรดนย์ ฉ่ำรัศมี ส่วนแนวรุก เอกนิษฐ์ ปัญญา, ธีรศิลป์ แดงดา และบดินทร์ ผาลา', 'เริ่มเกมมาไทยพยายามเปิดเกมบุกใส่และเกือบได้ลุ้นจากการโหม่งของพรรษา เหมวิบูลย์ แต่บอลหลุดกรอบออกไปเล็กน้อย ทว่าจากการบุกของมาเลเซียมาได้ประตูออกนำอย่างรวดเร็วในนาทีที่ 11 จากการวางบอลยาวของโดมินิค ทาน ไปถึงรูเวนธิราน โหม่งชงกลับเข้ามาให้ ไฟซาล ฮาลิม สอดขึ้นมายิงเข้าประตูไปให้มาเลเซียขึ้นนำไทย 1-0 และเป็นประตูฉลองวันคล้ายวันเกิดของเจ้าตัวด้วย', 'พอโดนนำไปก่อนทำให้ไทยต้องเป็นฝ่ายเปิดเกมบุกหนักขึ้นแต่จังหวะสุดท้ายของทีมชาติไทยยังไม่เฉียบคมพอ ทำให้จบค

['พอโดนนำไปก่อนทำให้ไทยต้องเป็นฝ่ายเปิดเกมบุกหนักขึ้นแต่จังหวะสุดท้ายของทีมชาติไทยยังไม่เฉียบคมพอ',
 'ในจังหวะฟรีคิกซึ่งเปิดเข้ามาแล้วจังหวะสุดท้ายบอลโดนโดมินิค',
 'ไทยน่าจะได้จุดโทษจากจังหวะที่บดินทร์หลุดเข้าไปแล้วโดนผู้เล่นมาเลเซียรวบในเขตโทษ',
 'เปิดครึ่งหลังมาได้แค่นาทีเดียวไทยเกือบตีเสมอได้จากจังหวะที่ศุภนันท์เปิดจากด้านขวาให้ธีรศิลป์สอดขึ้นมาโหม่งได้',
 'เริ่มเกมมาไทยพยายามเปิดเกมบุกใส่และเกือบได้ลุ้นจากการโหม่งของพรรษา',
 'จากจังหวะที่มาเลเซียเกือบได้ประตูที่',
 'แล้วไทยเกือบตีเสมอได้ทันควันจากจังหวะที่เอกนิษฐ์ได้โอกาสกระชากเข้าไป',
 'สอดขึ้นมายิงเข้าประตูไปให้มาเลเซียขึ้นนำไทย',
 'ผู้ตัดสินชาวเกาหลีใต้มองว่าผู้เล่นไทยโดนฟาล์วก่อนและยึดประตูคืน',
 'ทีมฟุตบอลทีมชาติไทย']

In [69]:
from pythainlp.tokenize import word_tokenize
from pythainlp.util import normalize
from pythainlp.summarize import summarize
import itertools
text = ['ชาวพุทธนับหมื่นหลั่งไหลไปที่วัดพระธาตุดอยเวียงแก้ว กราบพระครูบาบุญชุ่ม รอร่วมพิธีสําคัญ ยกช่อฟ้าเอก วิหารหลวงบุญชุ่มรัตนปุรีศรีธรรมราชา และเจริญพุทธมนต์สืบชะตาหลวง ล่าสุด "คุณน้ําผึ้ง" หม่อมหลวงสราลี กิติยากร ได้เข้ากราบนมัสการด้วย', 
        'เวลา 13.30 น. วันที่ 8 มกราคม 2566 ที่วัดพระธาตุดอยเวียงแก้ว (พระครูบาบุญชุ่ม ญาณสํวโร อรัญวาสีภิกขุ อุปถัมภ์) ภายในบริเวณวัดได้มีชาวพุทธจํานวนมากนั่งอยู่ตามที่ต่างๆ เพื่อรอกราบนมัสการพระครูบาบุญชุ่ม บางส่วนได้เดินไปบริจาคเงินทําบุญตามจุดต่างๆพร้อมรับหนังสือและเหรียญของพระครูบา', 'ส่วนภายในวิหารหลวงบุญชุ่มรัตนปุรีศรีธรรมราชา พล.ต.อ.มนตรี ยิ้มแย้ม ประธานมูลนิธิดอยเวียงแก้ว นายณรงค์พล คิดอ่าน นายอําเภอแม่สาย และคณะกรรมการมูลนิธิได้ร่วมกับ นางละออ ตั้งคารวคุณ พร้อมคณะมอบทุนสัมมาอาชีพและทุนการศึกษานักเรียน นักเรียนปริยัติธรรม และมอบถุงยังชีพแก่ชาวบ้าน', 'ในเวลาต่อมา หม่อมหลวงสราลี กิติยากร ได้เข้ากราบนมัสการพระครูบาบุญชุ่ม ซึ่งพระครูบาบุญชุ่มได้มอบพระพุทธรูปพร้อมวัตถุมงคล เพื่อเป็นสิริมงคล จากนั้นพระครูบาบุญชุ่มได้กลับเข้าไปพักผ่อนที่กุฏิศาลากลางน้ํา', 'SPONSORED', 'เวลา 17.39 น. ที่บริเวณลานหน้าพระคันธาระ องค์ปฐม และบันไดนาค เนืองแน่นไปด้วยศรัทธาชาวพุทธเรือนหมื่นที่มานั่งรอพระครูบาบุญชุ่ม เพื่อร่วมฟังธรรมะจากพระครูบา และฟังการสวดมนต์แบบล้านนา จากพระสงฆ์ทรงสมณศักดิ์จํานวน 15 รูป พอพระครูบามาถึงก็ขึ้นบนศาลาธรรม แสดงธรรมทันที', 'SPONSORED']
new_text=[]
summarizetext=[]
for i in text:
     i=i.replace(' ','')
     new_text.append(word_tokenize(i, engine="newmm"))
new_text =list(itertools.chain.from_iterable(new_text))

sentence = ' '.join(text)
print(sentence)
summarizetext=summarize(sentence, 1,engine="mt5-cpe-kmutt-thai-sentence-sum")
     

#print(new_text)
#print(text)
print(summarizetext)
# output: ['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

ชาวพุทธนับหมื่นหลั่งไหลไปที่วัดพระธาตุดอยเวียงแก้ว กราบพระครูบาบุญชุ่ม รอร่วมพิธีสําคัญ ยกช่อฟ้าเอก วิหารหลวงบุญชุ่มรัตนปุรีศรีธรรมราชา และเจริญพุทธมนต์สืบชะตาหลวง ล่าสุด "คุณน้ําผึ้ง" หม่อมหลวงสราลี กิติยากร ได้เข้ากราบนมัสการด้วย เวลา 13.30 น. วันที่ 8 มกราคม 2566 ที่วัดพระธาตุดอยเวียงแก้ว (พระครูบาบุญชุ่ม ญาณสํวโร อรัญวาสีภิกขุ อุปถัมภ์) ภายในบริเวณวัดได้มีชาวพุทธจํานวนมากนั่งอยู่ตามที่ต่างๆ เพื่อรอกราบนมัสการพระครูบาบุญชุ่ม บางส่วนได้เดินไปบริจาคเงินทําบุญตามจุดต่างๆพร้อมรับหนังสือและเหรียญของพระครูบา ส่วนภายในวิหารหลวงบุญชุ่มรัตนปุรีศรีธรรมราชา พล.ต.อ.มนตรี ยิ้มแย้ม ประธานมูลนิธิดอยเวียงแก้ว นายณรงค์พล คิดอ่าน นายอําเภอแม่สาย และคณะกรรมการมูลนิธิได้ร่วมกับ นางละออ ตั้งคารวคุณ พร้อมคณะมอบทุนสัมมาอาชีพและทุนการศึกษานักเรียน นักเรียนปริยัติธรรม และมอบถุงยังชีพแก่ชาวบ้าน ในเวลาต่อมา หม่อมหลวงสราลี กิติยากร ได้เข้ากราบนมัสการพระครูบาบุญชุ่ม ซึ่งพระครูบาบุญชุ่มได้มอบพระพุทธรูปพร้อมวัตถุมงคล เพื่อเป็นสิริมงคล จากนั้นพระครูบาบุญชุ่มได้กลับเข้าไปพักผ่อนที่กุฏิศาลากลางน้ํา SPONSORED เวลา 17

ModuleNotFoundError: No module named 'transformers'

In [None]:
from pythainlp.util import find_keyword

find_keyword(new_text)

{'ชาวพุทธ': 3,
 'ดอย': 3,
 'เวียง': 3,
 'แก้ว': 3,
 'ครูบา': 10,
 'บุญ': 10,
 'ชุ่ม': 9,
 'รอ': 3,
 'กราบ': 3,
 'นมัสการ': 3,
 'เวลา': 3,
 'พระ': 10,
 'มอบ': 3}

In [70]:
from pythainlp.util import rank
rank(keyword)


     
        

Counter({'“': 3,
         'ช้าง': 1,
         'ศึก': 1,
         '”': 3,
         ' ': 108,
         'ทีม': 5,
         'ฟุตบอล': 2,
         'ชาติ': 4,
         'ไทย': 17,
         'ล้างอาถรรพ์': 2,
         'ไม่': 7,
         'สำเร็จ': 2,
         'บุก': 3,
         'พ่าย': 2,
         'เสือ': 1,
         'เหลือง': 1,
         'มาเลเซีย': 8,
         '0': 5,
         '-': 7,
         '1': 5,
         'ใน': 7,
         'การแข่งขัน': 1,
         'ชิงแชมป์': 1,
         'อาเซียน': 1,
         'เอเอฟ': 1,
         'เอฟ': 1,
         'มิตซูบิชิ': 1,
         'อิเลค': 1,
         'ทริค': 1,
         'คัพ': 1,
         '2022': 1,
         'รอบ': 1,
         'รองชนะเลิศ': 1,
         'นัด': 2,
         'แรก': 2,
         'ที่': 14,
         'สนาม': 2,
         'บูกิต': 1,
         'จา': 1,
         'ลิ': 2,
         'ล': 2,
         'เมื่อ': 1,
         'วันที่': 2,
         '7': 1,
         'มกราคม': 2,
         'เกม': 7,
         'นี้': 2,
         'มา': 9,
         'โน่': 1,
         'โพล

In [71]:
import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
URL = 'https://www.bbc.com/news/world-us-canada-64197625'
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
article = requests.get(url=URL)
soup = bs(article.content, "html.parser")
list_word =[]
for i in soup.find_all('p'):
  list_word.append(i.text)
print(list_word)


['An Italian man has admitted stealing more than 1,000 unpublished manuscripts, many written by high-profile authors. ', 'Filippo Bernardini impersonated figures from the publishing industry to trick people into handing over their works. ', 'He used his inside industry knowledge, having been employed by the publishing giant Simon & Schuster in London. ', 'Bernardini, 30, pleaded guilty in New York to wire fraud, but his motive has never been clear.', 'Manuscripts were not found to have been leaked on the internet, nor were any ransom demands made.', 'The conviction of Bernardini, who was arrested by the FBI in January last year, appears to explain a mystery that has baffled the literary world for years, with Margaret Atwood, Ian McEwan and Sally Rooney among the novelists targeted. ', 'Prosecutors said he registered more than 160 fake internet domains from 2016. ', 'Agents, editors and Booker Prize judges all fell victim to phishing scams from slightly altered official-looking email ad

In [72]:
from pythainlp.tokenize import word_tokenize

text = "ยิ่งกว่าคลับฟรายเดย์ เจ้าสาวสุดช้ำ แต่งงานแค่ 6 เดือน เจ้าบ่าวหนีไปกับเมียน้อย ที่ไม่ใช่คนอื่นไกล แต่เป็นน้องสาวแท้ๆ ของตัวเอง เมื่อเร็วๆ นี้ เรื่องราวของสามีที่เพิ่งแต่งงานใหม่ แต่หนีไปกับเมียน้อยของเขา ได้สร้างความตกตะลึงต่อสาธารณะชน เมื่อมีการเปิดเผยตัวตนของเมียน้อยของเจ้าบ่าวรายนี้ ตามรายงานของสื่อ เมื่อ 6 เดือนที่แล้ว งานแต่งงานในพื้นที่เมืองอัมโรฮา รัฐอุตตรประเทศ ประเทศอินเดีย ถูกจัดขึ้นท่ามกลางความสุขชื่นมื่นของคู่หนุ่มสาว  อย่างไรก็ตาม เพียง 6 เดือนต่อมา บ่าวสาวคู่นี้ก็โด่งดังไปทั่วอินเดีย ด้วยเรื่องราวของเจ้าบ่าวที่หนีไปกับเมียน้อยของเขา แต่สิ่งที่น่าตกใจที่สุดคือเมียน้อยของเขา ไม่ใช่ใครอื่น แต่เป็นน้องสาวแท้ๆ ของเจ้าสาว เหตุการณ์ดังกล่าว มีจุดเริ่มต้นเกิดขึ้นในวันหนึ่ง หลังจากคู่บ่าวสาวไปเยี่ยมบ้านภรรยาของเขา เมื่อนายปัญจยัตได้พบกับน้องภรรยา เขาก็ตกหลุมรักเธอทันที และหยุดคิดถึงน้องสาวของภรรยาไม่ได้ ขณะที่ฝ่ายหญิงก็แอบชอบพี่เขยเช่นกัน ในที่สุดพวกเขาก็สร้างความสัมพันธ์ลับๆ ลับหลังภรรยา หลังจากอยู่กินกับภรรยาใหม่ได้ 6 เดือน แต่ใจเป็นของน้องภรรยา นายปัญจยัตก็ตัดสินใจหนีไปกับเมียน้อย เพื่อใช้ชีวิตอิสระและมีความสุขร่วมกัน หลังจากรู้เรื่องนี้ ภรรยาก็เหมือนตกตะลึง เธอไม่คาดคิดว่าคนที่ทำลายความสุขของครอบครัวคือน้องสาวแท้ๆ ของเธอ ด้วยความโกรธที่น้องสาวของเธอหนีไปกับสามี เธอจึงแจ้งให้ทั้งสองครอบครัวทราบ เพื่อเรียกร้องการหย่าร้าง และโพสต์เปิดโปงทั้งคู่บนโลกออนไลน์ หลังจากเหตุการณ์ถูกเผยแพร่ออกไปบนสื่อสังคมออนไลน์ ก็ได้รับความสนใจจากชาวเน็ตอย่างมาก คนส่วนใหญ่วิจารณ์บุคคลที่สามที่เข้ามาทำลายความสุขของครอบครัวคนอื่น และทุกคนยิ่งเดือดดาลมากขึ้นเมื่อรู้ว่าตัวต้นเหตุเป็นน้องสาวแท้ๆ ของภรรยา หลายคนยังให้คำปลอบโยนกับหญิงสาว และหวังว่าเธอจะมีสภาพจิตใจดีขึ้นในไม่ช้า ขอขอบคุณ ข้อมูล :Saostar ภาพ :ภาพประกอบ PeopleImages / iStockphoto ของหมวด ต่างประเทศ ติดตามNews ข่าวด่วน เกาะกระแสข่าวดัง บน Facebook คลิกที่นี่ และร่วมเป็นแฟนเพจเราบน Facebook.. ได้ที่นี่เลย!! สงวนลิขสิทธิ์ © 2566 บริษัท เทนเซ็นต์ (ประเทศไทย) จำกัด"

word_tokenize(text, engine="newmm")
# output: ['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

['ยิ่งกว่า',
 'คลับ',
 'ฟ',
 'ราย',
 'เดย์',
 ' ',
 'เจ้าสาว',
 'สุด',
 'ช้ำ',
 ' ',
 'แต่งงาน',
 'แค่',
 ' ',
 '6',
 ' ',
 'เดือน',
 ' ',
 'เจ้าบ่าว',
 'หนี',
 'ไป',
 'กับ',
 'เมียน้อย',
 ' ',
 'ที่',
 'ไม่',
 'ใช่',
 'คนอื่น',
 'ไกล',
 ' ',
 'แต่',
 'เป็น',
 'น้องสาว',
 'แท้ๆ',
 ' ',
 'ของ',
 'ตัวเอง',
 ' ',
 'เมื่อ',
 'เร็ว',
 'ๆ',
 ' ',
 'นี้',
 ' ',
 'เรื่องราว',
 'ของ',
 'สามี',
 'ที่',
 'เพิ่ง',
 'แต่งงาน',
 'ใหม่',
 ' ',
 'แต่',
 'หนี',
 'ไป',
 'กับ',
 'เมียน้อย',
 'ของ',
 'เขา',
 ' ',
 'ได้',
 'สร้าง',
 'ความ',
 'ตกตะลึง',
 'ต่อ',
 'สาธารณะ',
 'ชน',
 ' ',
 'เมื่อ',
 'มี',
 'การ',
 'เปิดเผย',
 'ตัวตน',
 'ของ',
 'เมียน้อย',
 'ของ',
 'เจ้าบ่าว',
 'ราย',
 'นี้',
 ' ',
 'ตาม',
 'รายงาน',
 'ของ',
 'สื่อ',
 ' ',
 'เมื่อ',
 ' ',
 '6',
 ' ',
 'เดือน',
 'ที่แล้ว',
 ' ',
 'งานแต่งงาน',
 'ใน',
 'พื้นที่',
 'เมือง',
 'อัม',
 'โร',
 'ฮา',
 ' ',
 'รัฐ',
 'อุ',
 'ตตร',
 'ประเทศ',
 ' ',
 'ประเทศ',
 'อินเดีย',
 ' ',
 'ถูก',
 'จัด',
 'ขึ้น',
 'ท่ามกลาง',
 'ความสุข',
 'ชื่นมื่น',
 'ของ',
 'คู่',


In [73]:
import pythainlp

pythainlp.__version__

'4.0.0'

In [74]:
from pythainlp.summarize import summarize



text = "ถ้าพูดถึงขนมหวานในตำนานที่ชื่นใจที่สุดแล้วละก็ต้องไม่พ้น น้ำแข็งใส แน่ๆ เพราะว่าเป็นอะไรที่ชื่นใจสุดๆ"
summarize(text, 1,engine="mt5-cpe-kmutt-thai-sentence-sum")
# output: ['น้ําแข็งใสเป็นอะไรที่ชื่นใจที่สุด']

ModuleNotFoundError: No module named 'transformers'