In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
from bs4 import BeautifulSoup
import requests
import re

# Ambil konten dari halaman web
url = 'https://www.liputan6.com/news'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Kumpulkan semua teks artikel (judul, ringkasan)
articles = soup.find_all('article')
corpus = []  # Korpus untuk menyimpan teks artikel

for article in articles:
    text_content = []  # List untuk menyimpan konten setiap artikel

    # Ambil judul
    link = article.find('a', class_='ui--a articles--iridescent-list--text-item__title-link')
    if link:
        title = link.get('title').strip()
        text_content.append(title)

    # Ambil ringkasan artikel
    summary_div = article.find('div', class_='articles--iridescent-list--text-item__summary articles--iridescent-list--text-item__summary-seo')
    if summary_div:
        summary_text = summary_div.text.strip()
        text_content.append(summary_text)

    # Gabungkan semua teks (judul + ringkasan)
    article_text = ' '.join(text_content)
    corpus.append(article_text)

# Preprocessing: Menghilangkan karakter non-alphabet dan mengubah menjadi lowercase
def preprocess_text(text):
    text = re.sub(r'\W+', ' ', text)  # Menghilangkan semua karakter non-alphabet
    return text.lower()

# Preproses setiap artikel di korpus
corpus = [preprocess_text(doc) for doc in corpus]

# Inisialisasi TF-IDF Vectorizer
vectorizer = TfidfVectorizer()

# Transformasi teks ke dalam matriks Tf-Idf
tfidf_matrix = vectorizer.fit_transform(corpus)

# Konversi matriks ke array agar bisa dilihat
tfidf_array = tfidf_matrix.toarray()

# Mendapatkan daftar istilah/kata yang dipakai
terms = vectorizer.get_feature_names_out()

# Tampilkan hasil TfIdf untuk setiap artikel
for i, article_tfidf in enumerate(tfidf_array):
    print(f"\nArtikel {i + 1}:")
    print(f"  TfIdf:\n")
    for idx, score in enumerate(article_tfidf):
        if score > 0:  # Tampilkan hanya kata dengan bobot TfIdf yang lebih dari 0
            print(f"    {terms[idx]}: {score:.4f}")

print(f"\nTotal artikel yang diolah: {len(corpus)}")



Artikel 1:
  TfIdf:

    27: 0.1412
    bola: 0.1604
    di: 0.0724
    digondol: 0.1604
    dimas: 0.2992
    drajad: 0.2992
    gbk: 0.1496
    indonesia: 0.2824
    iphone: 0.1604
    kawanan: 0.1604
    milik: 0.1496
    modus: 0.1604
    muhammad: 0.1604
    pelaku: 0.1412
    pemain: 0.2992
    pencuri: 0.3209
    ponsel: 0.2992
    raib: 0.1604
    seluler: 0.1604
    sepak: 0.1604
    telepon: 0.1604
    terduga: 0.1496
    timnas: 0.2992

Artikel 2:
  TfIdf:

    27: 0.1412
    bola: 0.1604
    di: 0.0724
    digondol: 0.1604
    dimas: 0.2992
    drajad: 0.2992
    gbk: 0.1496
    indonesia: 0.2824
    iphone: 0.1604
    kawanan: 0.1604
    milik: 0.1496
    modus: 0.1604
    muhammad: 0.1604
    pelaku: 0.1412
    pemain: 0.2992
    pencuri: 0.3209
    ponsel: 0.2992
    raib: 0.1604
    seluler: 0.1604
    sepak: 0.1604
    telepon: 0.1604
    terduga: 0.1496
    timnas: 0.2992

Artikel 3:
  TfIdf:

    bayi: 0.4808
    depok: 0.2404
    di: 0.0991
    dilakukan: 0.2047
  