In [None]:
import os

print(os.getcwd())

In [None]:
from pythainlp import word_tokenize, Tokenizer

text = "สมชายเห็นชอบกลบทบาทนี้"

print("newmm  :", word_tokenize(text))
print("longest:", word_tokenize(text, engine="longest"))

In [None]:
# LG467 - 
import math
from collections import Counter
from typing import List, Dict

class TFIDFCalculator:
    def __init__(self, documents: List[List[str]]):
        self.documents = documents
        self.doc_count = len(documents)
        self.term_freq = [Counter(doc) for doc in documents]
        self.doc_lengths = [len(doc) for doc in documents]

    def calculate_tf(self, term: str, doc_idx: int) -> float:
        if self.doc_lengths[doc_idx] == 0:
            return 0
        return self.term_freq[doc_idx][term] / self.doc_lengths[doc_idx]

    def calculate_idf(self, term: str) -> float:
        doc_with_term = sum(1 for doc in self.documents if term in doc)
        if doc_with_term == 0:
            return 0
        return math.log2(self.doc_count / doc_with_term)

    def calculate_tfidf(self, terms: List[str]) -> Dict[str, List[float]]:
        results = {}
        for term in terms:
            idf = self.calculate_idf(term)
            tfidf_scores = [
                round(self.calculate_tf(term, doc_idx) * idf, 4)
                for doc_idx in range(self.doc_count)
            ]
            results[term] = tfidf_scores
        return results

def main():
    documents = [
        ["นวัตกรรม",  "พลังงาน",     "สะอาด",       "เพื่อ",          "โลก",
            "ยั่งยืน",  "พลังงาน", "แสงอาทิตย์",       "และ",           "ลม",
            "กำลัง", "เป็นที่นิยม",        "ใน", "ประเทศไทย", "นักวิทยาศาสตร์",
           "คาดว่า",       "จะ",      "ช่วย",        "ลด",     "การปล่อย",
            "ก๊าซ", "เรือนกระจก",       "ได้",   "อย่างมาก"],
        
        ["เศรษฐกิจ",    "ไทย",    "ฟื้นตัว",     "หลัง",    "โควิด",
         "การท่องเที่ยว", "และ", "การส่งออก",     "เป็น",    "ปัจจัย",
              "สำคัญ",  "ใน",      "การ", "ขับเคลื่อน",  "เศรษฐกิจ",
             "รัฐบาล",  "เร่ง",      "ออก",  "มาตรการ",   "กระตุ้น"],
        
        ["นวัตกรรม", "ปัญญาประดิษฐ์",        "ใน", "วงการ",      "แพทย์",
              "AI",         "ช่วย",     "วินิจฉัย",   "โรค",        "ได้",
           "แม่นยำ",          "ขึ้น", "โรงพยาบาล",    "ใน", "ประเทศไทย",
              "เริ่ม",          "นำ",        "มา",    "ใช้"],
        
        ["การเปลี่ยนแปลง",   "สภาพ",   "ภูมิอากาศ",      "กระทบ",  "ภาค",
         "เกษตร",        "เกษตรกร",      "ไทย",       "ปรับตัว", "รับมือ",
         "ภัยแล้ง",           "และ",    "น้ำท่วม", "นักวิทยาศาสตร์",   "เร่ง",
         "คิดค้น",         "พันธุ์พืช",   "ทนทาน"],
        
        ["พลังงาน",    "นิวเคลียร์", "ทางเลือก",  "หรือ",   "ทางตัน",
         "ประเทศไทย",      "ยัง",    "ลังเล",   "ใน", "การพัฒนา",
           "โรงไฟฟ้า", "นิวเคลียร์",   "ขณะที่", "หลาย",   "ประเทศ",
            "เดินหน้า",   "เต็มที"],
        
        ["การพัฒนา", "เมือง",    "อัจฉริยะ",      "ใน", "ประเทศไทย",
          "กรุงเทพฯ", "และ",       "เมือง",    "ใหม่",        "เร่ง",
            "ปรับตัว",   "สู่", "Smart City",     "ใช้",  "เทคโนโลยี",
              "IoT", "เพื่อ",     "ยกระดับ", "คุณภาพ",       "ชีวิต"],
        
        ["วิกฤต",         "ขยะ", "พลาสติก",  "ใน", "ทะเลไทย",
         "นักวิทยาศาสตร์", "เตือน", "ผลกระทบ", "ต่อ", "ระบบนิเวศ",
               "รัฐบาล",  "ออก",  "มาตรการ", "ลด",    "การใช้",
             "พลาสติก"],

        ["5G",        "เปลี่ยน",   "โฉม", "อุตสาหกรรม",       "ไทย",
         "ผู้ประกอบการ",   "เร่ง", "ปรับตัว",        "รับ",  "เทคโนโลยี",
                "ใหม่",  "คาด",   "ช่วย",       "เพิ่ม", "ประสิทธิภาพ",
             "การผลิต"],
    
        ["การท่องเที่ยว", "เชิงนิเวศ",   "บูม",      "ใน",   "ไทย",
          "นักท่องเที่ยว", "ต่างชาติ", "สนใจ", "ธรรมชาติ",   "และ",
            "วัฒนธรรม",  "ท่องถิ่น", " ช่วย",  "กระจาย", "รายได้",
                  "สู่",  "ชุมชน"],
        
        ["พลังงาน",     "สะอาด",     "กับ",  "การพัฒนา",     "ที่",
           "ยั่งยืน", "ประเทศไทย",   "ตั้งเป้า",      "เพิ่ม", "สัดส่วน",
         "พลังงาน",   "หมุนเวียน", "นักลงทุน",     "สนใจ",  "ลงทุน",
             "ใน",    "โครงการ", "พลังงาน", "แสงอาทิตย์",   "และ",
             "ลม"]
    ]
    target_words = ["พลังงาน", "นวัตกรรม", "เศรษฐกิจ", "ประเทศไทย", "เทคโนโลยี"]
    calculator = TFIDFCalculator(documents)
    results = calculator.calculate_tfidf(target_words)

    for term, scores in results.items():
        print(f"\nคำว่า '{term}':")
        for doc_idx, score in enumerate(scores, 1):
            if score > 0:
                print(f"D{doc_idx}: {score:.4f}")

if __name__ == "__main__":
    main()