In [None]:
# -*- coding: utf-8 -*-
from collections import Counter
from typing import Dict, List

from pythainlp.corpus import thai_stopwords

_STOPWORDS = thai_stopwords()
#update

def rank(words: List[str], exclude_stopwords: bool = False) -> Counter:
    """
    :Example:

    Include stopwords in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
        "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'การ': 1,
        #         'บันทึก': 2,
        #         'มี': 1,
        #         'ลายลักษณ์อักษร': 1,
        #         'เป็น': 1,
        #         'เหตุการณ์': 1
        #     })

    Exclude stopword in counting word frequency::

        from pythainlp.util import rank

        words = ["บันทึก", "เหตุการณ์", " ", "มี", "การ", "บันทึก", \\
            "เป็น", " ", "ลายลักษณ์อักษร"]

        rank(words)
        # output:
        # Counter(
        #     {
        #         ' ': 2,
        #         'บันทึก': 2,
        #         'ลายลักษณ์อักษร': 1,
        #         'เหตุการณ์': 1
        #     })
    """
    if not words:
        return None

    if exclude_stopwords:
        words = [word for word in words if word not in _STOPWORDS]

    return Counter(words)



def find_keyword(word_list: List[str], min_len: int = 3) -> Dict[str, int]:
    """
    This function count the frequency of words in the list
    where stopword is excluded and returns as a frequency dictionary.

    :param list word_list: a list of words
    :param int min_len: the mininum frequency for words to obtain

    :return: a dictionary object with key-value pair as word and its raw count
    :rtype: dict[str, int]

    :Example:
    ::

        from pythainlp.util import find_keyword

        words = ["บันทึก", "เหตุการณ์", "บันทึก", "เหตุการณ์",
                 " ", "มี", "การ", "บันทึก", "เป็น", " ", "ลายลักษณ์อักษร"
                 "และ", "การ", "บันทึก","เสียง","ใน","เหตุการณ์"]

        find_keyword(words)
        # output: {'บันทึก': 4, 'เหตุการณ์': 3}

        find_keyword(words, min_len=1)
        # output: {' ': 2, 'บันทึก': 4, 'ลายลักษณ์อักษรและ': 1,
         'เสียง': 1, 'เหตุการณ์': 3}
    """
    word_list = rank(word_list, exclude_stopwords=True)

    return {k: v for k, v in word_list.items() if v >= min_len}

In [19]:
import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
import pythainlp.util
from pythainlp.tokenize import word_tokenize
from pythainlp.util import find_keyword
from pythainlp.util import rank
#from pythainlp.summarize import extract_keywords
from pythainlp.summarize import summarize
URL2 = 'https://www.matichon.co.th/sport/footballlocal/news_3760911'
URL = 'https://www.thairath.co.th/news/local/2595926'
URL3 = 'https://www.sanook.com/news/8732166/'
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
article = requests.get(url=URL ,headers=headers)
soup = bs(article.content, "html.parser")
list_word =[]
for i in soup.find_all('p'):
  list_word.append(i.text)
#print(list_word)
for i in list_word:
    for i in list_word:
        if pythainlp.util.countthai(i)<30:
            list_word.remove(i)
sentence = ' '.join(list_word)
#print(sentence)

#?sentence = word_tokenize(sentence, engine="newmm")
# output: ['ยุคเริ่มแรกของ ราชวงศ์หมิง']
#print(sentence)

keyword = word_tokenize(sentence, engine="newmm")

print(list_word)

print(sentence)
print("----------keyword-------------")

dictionary =  find_keyword(keyword)
text_dictionary = {}

# Iterate over the keys in the dictionary
for key in dictionary:
  # Check if the key is text (i.e., not a space or quotation mark)
  if key.isalpha():
    # If the key is text, add it to the new dictionary
    text_dictionary[key] = dictionary[key]

# The new dictionary now contains only the text keys
print(text_dictionary)
print("---------summarize----------")
summarize(sentence,n=10)
     
        

['การทำเกษตรกรรมในปัจจุบันต้องยอมรับว่า “มีการนำสารเคมี และยากำจัดศัตรูพืช” เข้ามาใช้ประโยชน์อย่างแพร่หลาย “เพื่อช่วยเพิ่มปริมาณผลผลิตและทางกายภาพที่สวยงาม” ให้สามารถจำหน่ายแข่งขันในท้องตลาดได้ ทำให้มีการนำเข้าสารเคมีกลุ่มนี้ปริมาณสูงขึ้นอย่างต่อเนื่องทุกปี', 'กลายเป็นว่า “สารเคมีเหล่านี้ตกค้างในสิ่งแวดล้อมและผลผลิต” ส่งผลกระทบเป็นอันตรายต่อสุขภาพคนไทยจากการรับประทานอาหารปนเปื้อนเข้าสู่ร่างกาย ทำให้ในช่วงที่ผ่านมามีการเรียกร้องให้ยกเลิกการใช้สารพาราควอต ไกลโฟเซต และคลอร์ไพริฟอส เพื่อให้เกิดความปลอดภัยในการบริโภคผลิตผลทางการเกษตรนั้น', 'แล้วไม่นานมานี้ Thai Climate Justice for All ร่วมกับสมัชชาองค์กรเอกชนด้านการคุ้มครองสิ่งแวดล้อมและอนุรักษ์ทรัพยากร และศูนย์มานุษยวิทยาสิรินธร (องค์การมหาชน) จัดเวที Ted Talk Climate Change สิ่งแวดล้อมประจำปี 2565 จากมุมมองนักเคลื่อนไหวภาคประชาสังคม และนักวิชาการทำงานกับประชาชนแต่ละด้าน', 'การนี้ ปรกชล อู๋ทรัพย์ เครือข่ายเตือนภัยสารเคมีกำจัดศัตรูพืช (Thai-PAN) ได้พูดในหัวข้อสารเคมีกำจัดศัตรูพืชและความปลอดภัยด้านอาหารว่า ถ้าย้อนดูสถิติในปี 2560 “ประเทศไทย”

['“ไม่เท่านั้นยังมีสารต้องเฝ้าระวังอย่างคาร์เบนดาซิมอันเป็นสารประเภทกำจัดโรคพืช',
 '“การแบนการนำเข้าสารเคมีกำจัดศัตรูพืชนั้น”',
 '“การยกเลิกการจำกัดการใช้ไกลโฟเซต”',
 'กก./ปีแล้วสารนี้มีลักษณะตกค้างเข้าไปในเนื้อเยื่อพืชผักผลไม้มาอย่างต่อเนื่อง',
 '“สารเคมีเหล่านี้ตกค้างในสิ่งแวดล้อมและผลผลิต”',
 '“พาราควอตและคลอร์ไพริฟอส',
 'อันเป็นสารกำจัดศัตรูพืชที่มีอันตรายสูง',
 'ข้อเสนอแรก...เสนอให้ยกเลิกการใช้สารเคมีมีอันตรายร้ายแรงสูงอย่างสารคาร์เบนดาซิม',
 '“ไกลโฟเซต”',
 '“ไกลโฟเซต”']

In [18]:


# Create a new dictionary to store the text keys
text_dictionary = {}

# Iterate over the keys in the dictionary
for key in dictionary:
  # Check if the key is text (i.e., not a space or quotation mark)
  if key.isalpha():
    # If the key is text, add it to the new dictionary
    text_dictionary[key] = dictionary[key]

# The new dictionary now contains only the text keys
print(text_dictionary)


{}
['“ไม่เท่านั้นยังมีสารต้องเฝ้าระวังอย่างคาร์เบนดาซิมอันเป็นสารประเภทกำจัดโรคพืช', '“การแบนการนำเข้าสารเคมีกำจัดศัตรูพืชนั้น”', '“การยกเลิกการจำกัดการใช้ไกลโฟเซต”', 'กก./ปีแล้วสารนี้มีลักษณะตกค้างเข้าไปในเนื้อเยื่อพืชผักผลไม้มาอย่างต่อเนื่อง', '“สารเคมีเหล่านี้ตกค้างในสิ่งแวดล้อมและผลผลิต”', '“พาราควอตและคลอร์ไพริฟอส', 'อันเป็นสารกำจัดศัตรูพืชที่มีอันตรายสูง', 'ข้อเสนอแรก...เสนอให้ยกเลิกการใช้สารเคมีมีอันตรายร้ายแรงสูงอย่างสารคาร์เบนดาซิม', '“ไกลโฟเซต”', '“ไกลโฟเซต”']


In [None]:
from pythainlp.tokenize import word_tokenize

text = "โอเคบ่พวกเรารัก ภาษาบ้านเกิด"

word_tokenize(text, engine="newmm")
# output: ['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

In [None]:
from pythainlp.util import find_keyword


print(list_word)
find_keyword(list_word)

In [None]:
from pythainlp.util import rank
rank(keyword)


     
        

In [None]:
import requests
from bs4 import BeautifulSoup as bs
import re
import unicodedata
URL = 'https://www.bbc.com/news/world-us-canada-64197625'
headers = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/42.0.2311.135 Safari/537.36 Edge/12.246"}
article = requests.get(url=URL)
soup = bs(article.content, "html.parser")
list_word =[]
for i in soup.find_all('p'):
  list_word.append(i.text)
print(list_word)


In [None]:
from pythainlp.tokenize import word_tokenize

text = "ยิ่งกว่าคลับฟรายเดย์ เจ้าสาวสุดช้ำ แต่งงานแค่ 6 เดือน เจ้าบ่าวหนีไปกับเมียน้อย ที่ไม่ใช่คนอื่นไกล แต่เป็นน้องสาวแท้ๆ ของตัวเอง เมื่อเร็วๆ นี้ เรื่องราวของสามีที่เพิ่งแต่งงานใหม่ แต่หนีไปกับเมียน้อยของเขา ได้สร้างความตกตะลึงต่อสาธารณะชน เมื่อมีการเปิดเผยตัวตนของเมียน้อยของเจ้าบ่าวรายนี้ ตามรายงานของสื่อ เมื่อ 6 เดือนที่แล้ว งานแต่งงานในพื้นที่เมืองอัมโรฮา รัฐอุตตรประเทศ ประเทศอินเดีย ถูกจัดขึ้นท่ามกลางความสุขชื่นมื่นของคู่หนุ่มสาว  อย่างไรก็ตาม เพียง 6 เดือนต่อมา บ่าวสาวคู่นี้ก็โด่งดังไปทั่วอินเดีย ด้วยเรื่องราวของเจ้าบ่าวที่หนีไปกับเมียน้อยของเขา แต่สิ่งที่น่าตกใจที่สุดคือเมียน้อยของเขา ไม่ใช่ใครอื่น แต่เป็นน้องสาวแท้ๆ ของเจ้าสาว เหตุการณ์ดังกล่าว มีจุดเริ่มต้นเกิดขึ้นในวันหนึ่ง หลังจากคู่บ่าวสาวไปเยี่ยมบ้านภรรยาของเขา เมื่อนายปัญจยัตได้พบกับน้องภรรยา เขาก็ตกหลุมรักเธอทันที และหยุดคิดถึงน้องสาวของภรรยาไม่ได้ ขณะที่ฝ่ายหญิงก็แอบชอบพี่เขยเช่นกัน ในที่สุดพวกเขาก็สร้างความสัมพันธ์ลับๆ ลับหลังภรรยา หลังจากอยู่กินกับภรรยาใหม่ได้ 6 เดือน แต่ใจเป็นของน้องภรรยา นายปัญจยัตก็ตัดสินใจหนีไปกับเมียน้อย เพื่อใช้ชีวิตอิสระและมีความสุขร่วมกัน หลังจากรู้เรื่องนี้ ภรรยาก็เหมือนตกตะลึง เธอไม่คาดคิดว่าคนที่ทำลายความสุขของครอบครัวคือน้องสาวแท้ๆ ของเธอ ด้วยความโกรธที่น้องสาวของเธอหนีไปกับสามี เธอจึงแจ้งให้ทั้งสองครอบครัวทราบ เพื่อเรียกร้องการหย่าร้าง และโพสต์เปิดโปงทั้งคู่บนโลกออนไลน์ หลังจากเหตุการณ์ถูกเผยแพร่ออกไปบนสื่อสังคมออนไลน์ ก็ได้รับความสนใจจากชาวเน็ตอย่างมาก คนส่วนใหญ่วิจารณ์บุคคลที่สามที่เข้ามาทำลายความสุขของครอบครัวคนอื่น และทุกคนยิ่งเดือดดาลมากขึ้นเมื่อรู้ว่าตัวต้นเหตุเป็นน้องสาวแท้ๆ ของภรรยา หลายคนยังให้คำปลอบโยนกับหญิงสาว และหวังว่าเธอจะมีสภาพจิตใจดีขึ้นในไม่ช้า ขอขอบคุณ ข้อมูล :Saostar ภาพ :ภาพประกอบ PeopleImages / iStockphoto ของหมวด ต่างประเทศ ติดตามNews ข่าวด่วน เกาะกระแสข่าวดัง บน Facebook คลิกที่นี่ และร่วมเป็นแฟนเพจเราบน Facebook.. ได้ที่นี่เลย!! สงวนลิขสิทธิ์ © 2566 บริษัท เทนเซ็นต์ (ประเทศไทย) จำกัด"

word_tokenize(text, engine="newmm")
# output: ['โอเค', 'บ่', 'พวกเรา', 'รัก', 'ภาษา', 'บ้านเกิด']

In [None]:
import pythainlp

pythainlp.__version__

In [None]:
from pythainlp.summarize import summarize



text = "ถ้าพูดถึงขนมหวานในตำนานที่ชื่นใจที่สุดแล้วละก็ต้องไม่พ้น น้ำแข็งใส แน่ๆ เพราะว่าเป็นอะไรที่ชื่นใจสุดๆ"
summarize(text, 1,engine="mt5-cpe-kmutt-thai-sentence-sum")
# output: ['น้ําแข็งใสเป็นอะไรที่ชื่นใจที่สุด']