In [1]:
# -*- coding: utf-8 -*-
from collections import Counter
from typing import Dict, List

from pythainlp.corpus import thai_stopwords

_STOPWORDS = thai_stopwords()


def rank(words: List[str], exclude_stopwords: bool = False) -> Counter:
    """
    :Example:

    Include stopwords in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
        "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'การ': 1,
        #         'บันทึก': 2,
        #         'มี': 1,
        #         'ลายลักษณ์อักษร': 1,
        #         'เป็น': 1,
        #         'เหตุการณ์': 1
        #     })

    Exclude stopword in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
            "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'บันทึก': 2,
        #         'ลายลักษณ์อักษร': 1,
        #         'เหตุการณ์': 1
        #     })
    """
    if not words:
        return None

    if exclude_stopwords:
        words = [word for word in words if word not in _STOPWORDS]

    return Counter(words)



def find_keyword(word_list: List[str], min_len: int = 3) -> Dict[str, int]:
    """
    This function count the frequency of words in the list
    where stopword is excluded and returns as a frequency dictionary.

    :param list word_list: a list of words
    :param int min_len: the mininum frequency for words to obtain

    :return: a dictionary object with key-value pair as word and its raw count
    :rtype: dict[str, int]

    :Example:
    ::

        from pythainlp.util import find_keyword

        words = ["บันทึก", "เหตุการณ์", "บันทึก", "เหตุการณ์",
                 " ", "มี", "การ", "บันทึก", "เป็น", " ", "ลายลักษณ์อักษร"
                 "และ", "การ", "บันทึก","เสียง","ใน","เหตุการณ์"]

        find_keyword(words)
        # output: {'บันทึก': 4, 'เหตุการณ์': 3}

        find_keyword(words, min_len=1)
        # output: {' ': 2, 'บันทึก': 4, 'ลายลักษณ์อักษรและ': 1,
         'เสียง': 1, 'เหตุการณ์': 3}
    """
    word_list = rank(word_list, exclude_stopwords=True)

    return {k: v for k, v in word_list.items() if v >= min_len}

In [10]:
import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
import pythainlp.util
from pythainlp.tokenize import word_tokenize
from pythainlp.util import find_keyword
from pythainlp.util import rank
from pythainlp.summarize import extract_keywords
URL2 = 'https://www.matichon.co.th/sport/footballlocal/news_3760911'
URL = 'https://www.thairath.co.th/news/local/2595926'
URL3 = 'https://www.sanook.com/news/8732166/'
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
article = requests.get(url=URL3 ,headers=headers)
soup = bs(article.content, "html.parser")
list_word =[]
for i in soup.find_all('p'):
  list_word.append(i.text)
#print(list_word)
for i in list_word:
    for i in list_word:
        if pythainlp.util.countthai(i)<30:
            list_word.remove(i)
sentence = ' '.join(list_word)
#print(sentence)

sentence = word_tokenize(sentence, engine="newmm")
# output: ['ยุคเริ่มแรกของ ราชวงศ์หมิง']
#print(sentence)
filtered_list = [x for x in sentence if x != '']
#print(filtered_list)




#print(find_keyword(sentence,min_len=2))
print("----------rank-------------")
#rank(sentence)
keywords = extract_keywords(sentence)
keywords = extract_keywords(sentence, max_keywords=10)
     
        

ImportError: cannot import name 'extract_keywords' from 'pythainlp.summarize' (c:\Users\Nattavee Narischat\anaconda3\lib\site-packages\pythainlp\summarize\__init__.py)

In [13]:
print(pythainlp.__version__)

2.0.7


In [14]:
for i in list_word:
    for i in list_word:
        if pythainlp.util.countthai(i)<30:
            list_word.remove(i)
sentence = ' '.join(list_word)
print(sentence)

ยิ่งกว่าคลับฟรายเดย์ เจ้าสาวสุดช้ำ แต่งงานแค่ 6 เดือน เจ้าบ่าวหนีไปกับเมียน้อย ที่ไม่ใช่คนอื่นไกล แต่เป็นน้องสาวแท้ๆ ของตัวเอง เมื่อเร็วๆ นี้ เรื่องราวของสามีที่เพิ่งแต่งงานใหม่ แต่หนีไปกับเมียน้อยของเขา ได้สร้างความตกตะลึงต่อสาธารณะชน เมื่อมีการเปิดเผยตัวตนของเมียน้อยของเจ้าบ่าวรายนี้ ตามรายงานของสื่อ เมื่อ 6 เดือนที่แล้ว งานแต่งงานในพื้นที่เมืองอัมโรฮา รัฐอุตตรประเทศ ประเทศอินเดีย ถูกจัดขึ้นท่ามกลางความสุขชื่นมื่นของคู่หนุ่มสาว  อย่างไรก็ตาม เพียง 6 เดือนต่อมา บ่าวสาวคู่นี้ก็โด่งดังไปทั่วอินเดีย ด้วยเรื่องราวของเจ้าบ่าวที่หนีไปกับเมียน้อยของเขา แต่สิ่งที่น่าตกใจที่สุดคือเมียน้อยของเขา ไม่ใช่ใครอื่น แต่เป็นน้องสาวแท้ๆ ของเจ้าสาว เหตุการณ์ดังกล่าว มีจุดเริ่มต้นเกิดขึ้นในวันหนึ่ง หลังจากคู่บ่าวสาวไปเยี่ยมบ้านภรรยาของเขา เมื่อนายปัญจยัตได้พบกับน้องภรรยา เขาก็ตกหลุมรักเธอทันที และหยุดคิดถึงน้องสาวของภรรยาไม่ได้ ขณะที่ฝ่ายหญิงก็แอบชอบพี่เขยเช่นกัน ในที่สุดพวกเขาก็สร้างความสัมพันธ์ลับๆ ลับหลังภรรยา หลังจากอยู่กินกับภรรยาใหม่ได้ 6 เดือน แต่ใจเป็นของน้องภรรยา นายปัญจยัตก็ตัดสินใจหนีไปกับเมียน

In [4]:
from pythainlp.tokenize import word_tokenize
text_1 = "ยุคเริ่มแรกของ ราชวงศ์หมิง"
text_2 = "ความแปลกแยกและพัฒนาการ"

sentence = word_tokenize(sentence, engine="newmm")
# output: ['ยุคเริ่มแรกของ ราชวงศ์หมิง']
print(sentence)
#filtered_list = [x for x in sentence if x != '']
#print(filtered_list)

[]


In [3]:
# -*- coding: utf-8 -*-
from collections import Counter
from typing import Dict, List

from pythainlp.corpus import thai_stopwords

_STOPWORDS = thai_stopwords()


def rank(words: List[str], exclude_stopwords: bool = False) -> Counter:
    """
    :Example:

    Include stopwords in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
        "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'การ': 1,
        #         'บันทึก': 2,
        #         'มี': 1,
        #         'ลายลักษณ์อักษร': 1,
        #         'เป็น': 1,
        #         'เหตุการณ์': 1
        #     })

    Exclude stopword in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
            "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'บันทึก': 2,
        #         'ลายลักษณ์อักษร': 1,
        #         'เหตุการณ์': 1
        #     })
    """
    if not words:
        return None

    if exclude_stopwords:
        words = [word for word in words if word not in _STOPWORDS]

    return Counter(words)



def find_keyword(word_list: List[str], min_len: int = 3) -> Dict[str, int]:
    """
    This function count the frequency of words in the list
    where stopword is excluded and returns as a frequency dictionary.

    :param list word_list: a list of words
    :param int min_len: the mininum frequency for words to obtain

    :return: a dictionary object with key-value pair as word and its raw count
    :rtype: dict[str, int]

    :Example:
    ::

        from pythainlp.util import find_keyword

        words = ["บันทึก", "เหตุการณ์", "บันทึก", "เหตุการณ์",
                 " ", "มี", "การ", "บันทึก", "เป็น", " ", "ลายลักษณ์อักษร"
                 "และ", "การ", "บันทึก","เสียง","ใน","เหตุการณ์"]

        find_keyword(words)
        # output: {'บันทึก': 4, 'เหตุการณ์': 3}

        find_keyword(words, min_len=1)
        # output: {' ': 2, 'บันทึก': 4, 'ลายลักษณ์อักษรและ': 1,
         'เสียง': 1, 'เหตุการณ์': 3}
    """
    word_list = rank(word_list, exclude_stopwords=True)

    return {k: v for k, v in word_list.items() if v >= min_len}

In [5]:
from pythainlp.util import find_keyword

find_keyword(sentence,min_len=2)


    

{' ': 88,
 'เจ้าสาว': 2,
 'แต่งงาน': 2,
 '6': 4,
 'เดือน': 4,
 'เจ้าบ่าว': 3,
 'หนี': 5,
 'เมียน้อย': 6,
 'คนอื่น': 2,
 'น้องสาว': 6,
 'แท้ๆ': 4,
 'เรื่องราว': 2,
 'สามี': 2,
 'ตกตะลึง': 2,
 'สื่อ': 2,
 'ความสุข': 3,
 'คู่': 2,
 'เหตุการณ์': 2,
 'ภรรยา': 8,
 'ปัญจ': 2,
 'ยัต': 2,
 'น้อง': 2,
 'คน': 3,
 'ทำลาย': 2,
 'ครอบครัว': 3,
 'ออนไลน์': 2,
 ':': 2,
 'Facebook': 2,
 'ที่นี่': 2}

In [23]:
from pythainlp.util import rank
rank(sentence)


     
        

Counter({'ยิ่งกว่า': 1,
         'คลับ': 1,
         'ฟ': 1,
         'ราย': 2,
         'เดย์': 1,
         ' ': 88,
         'เจ้าสาว': 2,
         'สุด': 1,
         'ช้ำ': 1,
         'แต่งงาน': 2,
         'แค่': 1,
         '6': 4,
         'เดือน': 4,
         'เจ้าบ่าว': 3,
         'หนี': 5,
         'ไป': 8,
         'กับ': 8,
         'เมียน้อย': 6,
         'ที่': 7,
         'ไม่ใช่': 2,
         'คนอื่น': 2,
         'ไกล': 1,
         'แต่': 5,
         'เป็น': 5,
         'น้องสาว': 6,
         'แท้ๆ': 4,
         'ของ': 20,
         'ตัวเอง': 1,
         'เมื่อ': 5,
         'เร็ว': 1,
         'ๆ': 2,
         'นี้': 4,
         'เรื่องราว': 2,
         'สามี': 2,
         'เพิ่ง': 1,
         'ใหม่': 2,
         'เขา': 5,
         'ได้': 4,
         'สร้าง': 1,
         'ความ': 1,
         'ตกตะลึง': 2,
         'ต่อ': 1,
         'สาธารณะ': 1,
         'ชน': 1,
         'มี': 3,
         'การ': 2,
         'เปิดเผย': 1,
         'ตัวตน': 1,
         'ตาม': 1,
      

In [12]:
import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
URL = 'https://www.bbc.com/news/world-us-canada-64197625'
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
article = requests.get(url=URL)
soup = bs(article.content, "html.parser")
list_word =[]
for i in soup.find_all('p'):
  list_word.append(i.text)
print(list_word)


['An Italian man has admitted stealing more than 1,000 unpublished manuscripts, many written by high-profile authors. ', 'Filippo Bernardini impersonated figures from the publishing industry to trick people into handing over their works. ', 'He used his inside industry knowledge, having been employed by the publishing giant Simon & Schuster in London. ', 'Bernardini, 30, pleaded guilty in New York to wire fraud, but his motive has never been clear.', 'Manuscripts were not found to have been leaked on the internet, nor were any ransom demands made.', 'The conviction of Bernardini, who was arrested by the FBI in January last year, appears to explain a mystery that has baffled the literary world for years, with Margaret Atwood, Ian McEwan and Sally Rooney among the novelists targeted. ', 'Prosecutors said he registered more than 160 fake internet domains from 2016. ', 'Agents, editors and Booker Prize judges all fell victim to phishing scams from slightly altered official-looking email ad

In [17]:
from pythainlp.tokenize import word_tokenize

text = "ยิ่งกว่าคลับฟรายเดย์ เจ้าสาวสุดช้ำ แต่งงานแค่ 6 เดือน เจ้าบ่าวหนีไปกับเมียน้อย ที่ไม่ใช่คนอื่นไกล แต่เป็นน้องสาวแท้ๆ ของตัวเอง เมื่อเร็วๆ นี้ เรื่องราวของสามีที่เพิ่งแต่งงานใหม่ แต่หนีไปกับเมียน้อยของเขา ได้สร้างความตกตะลึงต่อสาธารณะชน เมื่อมีการเปิดเผยตัวตนของเมียน้อยของเจ้าบ่าวรายนี้ ตามรายงานของสื่อ เมื่อ 6 เดือนที่แล้ว งานแต่งงานในพื้นที่เมืองอัมโรฮา รัฐอุตตรประเทศ ประเทศอินเดีย ถูกจัดขึ้นท่ามกลางความสุขชื่นมื่นของคู่หนุ่มสาว  อย่างไรก็ตาม เพียง 6 เดือนต่อมา บ่าวสาวคู่นี้ก็โด่งดังไปทั่วอินเดีย ด้วยเรื่องราวของเจ้าบ่าวที่หนีไปกับเมียน้อยของเขา แต่สิ่งที่น่าตกใจที่สุดคือเมียน้อยของเขา ไม่ใช่ใครอื่น แต่เป็นน้องสาวแท้ๆ ของเจ้าสาว เหตุการณ์ดังกล่าว มีจุดเริ่มต้นเกิดขึ้นในวันหนึ่ง หลังจากคู่บ่าวสาวไปเยี่ยมบ้านภรรยาของเขา เมื่อนายปัญจยัตได้พบกับน้องภรรยา เขาก็ตกหลุมรักเธอทันที และหยุดคิดถึงน้องสาวของภรรยาไม่ได้ ขณะที่ฝ่ายหญิงก็แอบชอบพี่เขยเช่นกัน ในที่สุดพวกเขาก็สร้างความสัมพันธ์ลับๆ ลับหลังภรรยา หลังจากอยู่กินกับภรรยาใหม่ได้ 6 เดือน แต่ใจเป็นของน้องภรรยา นายปัญจยัตก็ตัดสินใจหนีไปกับเมียน้อย เพื่อใช้ชีวิตอิสระและมีความสุขร่วมกัน หลังจากรู้เรื่องนี้ ภรรยาก็เหมือนตกตะลึง เธอไม่คาดคิดว่าคนที่ทำลายความสุขของครอบครัวคือน้องสาวแท้ๆ ของเธอ ด้วยความโกรธที่น้องสาวของเธอหนีไปกับสามี เธอจึงแจ้งให้ทั้งสองครอบครัวทราบ เพื่อเรียกร้องการหย่าร้าง และโพสต์เปิดโปงทั้งคู่บนโลกออนไลน์ หลังจากเหตุการณ์ถูกเผยแพร่ออกไปบนสื่อสังคมออนไลน์ ก็ได้รับความสนใจจากชาวเน็ตอย่างมาก คนส่วนใหญ่วิจารณ์บุคคลที่สามที่เข้ามาทำลายความสุขของครอบครัวคนอื่น และทุกคนยิ่งเดือดดาลมากขึ้นเมื่อรู้ว่าตัวต้นเหตุเป็นน้องสาวแท้ๆ ของภรรยา หลายคนยังให้คำปลอบโยนกับหญิงสาว และหวังว่าเธอจะมีสภาพจิตใจดีขึ้นในไม่ช้า ขอขอบคุณ ข้อมูล :Saostar ภาพ :ภาพประกอบ PeopleImages / iStockphoto ของหมวด ต่างประเทศ ติดตามNews ข่าวด่วน เกาะกระแสข่าวดัง บน Facebook คลิกที่นี่ และร่วมเป็นแฟนเพจเราบน Facebook.. ได้ที่นี่เลย!! สงวนลิขสิทธิ์ © 2566 บริษัท เทนเซ็นต์ (ประเทศไทย) จำกัด"

word_tokenize(text, engine="newmm")
# output: ['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

['ยิ่งกว่า',
 'คลับ',
 'ฟ',
 'ราย',
 'เดย์',
 ' ',
 'เจ้าสาว',
 'สุด',
 'ช้ำ',
 ' ',
 'แต่งงาน',
 'แค่',
 ' ',
 '6',
 ' ',
 'เดือน',
 ' ',
 'เจ้าบ่าว',
 'หนี',
 'ไป',
 'กับ',
 'เมียน้อย',
 ' ',
 'ที่',
 'ไม่ใช่',
 'คนอื่น',
 'ไกล',
 ' ',
 'แต่',
 'เป็น',
 'น้องสาว',
 'แท้ๆ',
 ' ',
 'ของ',
 'ตัวเอง',
 ' ',
 'เมื่อ',
 'เร็ว',
 'ๆ',
 ' ',
 'นี้',
 ' ',
 'เรื่องราว',
 'ของ',
 'สามี',
 'ที่',
 'เพิ่ง',
 'แต่งงาน',
 'ใหม่',
 ' ',
 'แต่',
 'หนี',
 'ไป',
 'กับ',
 'เมียน้อย',
 'ของ',
 'เขา',
 ' ',
 'ได้',
 'สร้าง',
 'ความ',
 'ตกตะลึง',
 'ต่อ',
 'สาธารณะ',
 'ชน',
 ' ',
 'เมื่อ',
 'มี',
 'การ',
 'เปิดเผย',
 'ตัวตน',
 'ของ',
 'เมียน้อย',
 'ของ',
 'เจ้าบ่าว',
 'ราย',
 'นี้',
 ' ',
 'ตาม',
 'รายงาน',
 'ของ',
 'สื่อ',
 ' ',
 'เมื่อ',
 ' ',
 '6',
 ' ',
 'เดือน',
 'ที่แล้ว',
 ' ',
 'งานแต่งงาน',
 'ใน',
 'พื้นที่',
 'เมือง',
 'อัม',
 'โร',
 'ฮา',
 ' ',
 'รัฐ',
 'อุ',
 'ตตร',
 'ประเทศ',
 ' ',
 'ประเทศอินเดีย',
 ' ',
 'ถูก',
 'จัด',
 'ขึ้น',
 'ท่ามกลาง',
 'ความสุข',
 'ชื่นมื่น',
 'ของ',
 'คู่',
 'หนุ่มสาว