In [1]:
from sklearn.feature_extraction.text import TfidfVectorizer
from bs4 import BeautifulSoup
import requests
import re

# Ambil konten dari halaman web
url = 'https://www.liputan6.com/news'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')

# Kumpulkan semua teks artikel (judul, ringkasan)
articles = soup.find_all('article')
corpus = []  # Korpus untuk menyimpan teks artikel

for article in articles:
    text_content = []  # List untuk menyimpan konten setiap artikel

    # Ambil judul
    link = article.find('a', class_='ui--a articles--iridescent-list--text-item__title-link')
    if link:
        title = link.get('title').strip()
        text_content.append(title)

    # Ambil ringkasan artikel
    summary_div = article.find('div', class_='articles--iridescent-list--text-item__summary articles--iridescent-list--text-item__summary-seo')
    if summary_div:
        summary_text = summary_div.text.strip()
        text_content.append(summary_text)

    # Gabungkan semua teks (judul + ringkasan)
    article_text = ' '.join(text_content)
    corpus.append(article_text)

# Preprocessing: Menghilangkan karakter non-alphabet dan mengubah menjadi lowercase
def preprocess_text(text):
    text = re.sub(r'\W+', ' ', text)  # Menghilangkan semua karakter non-alphabet
    return text.lower()

# Preproses setiap artikel di korpus
corpus = [preprocess_text(doc) for doc in corpus]

# Inisialisasi TF-IDF Vectorizer
vectorizer = TfidfVectorizer()

# Transformasi teks ke dalam matriks Tf-Idf
tfidf_matrix = vectorizer.fit_transform(corpus)

# Konversi matriks ke array agar bisa dilihat
tfidf_array = tfidf_matrix.toarray()

# Mendapatkan daftar istilah/kata yang dipakai
terms = vectorizer.get_feature_names_out()

# Tampilkan hasil TfIdf untuk setiap artikel
for i, article_tfidf in enumerate(tfidf_array):
    print(f"\nArtikel {i + 1}:")
    print(f"  TfIdf:\n")
    for idx, score in enumerate(article_tfidf):
        if score > 0:  # Tampilkan hanya kata dengan bobot TfIdf yang lebih dari 0
            print(f"    {terms[idx]}: {score:.4f}")

print(f"\nTotal artikel yang diolah: {len(corpus)}")



Artikel 1:
  TfIdf:

    2024: 0.1973
    25: 0.1172
    27: 0.1364
    begitulah: 0.1463
    bekasi: 0.1172
    berawan: 0.2728
    besok: 0.4388
    bogor: 0.1287
    cuaca: 0.2728
    dan: 0.0695
    depok: 0.1172
    diprediksi: 0.1364
    jabodetabek: 0.2728
    jakarta: 0.0959
    jumat: 0.2728
    langit: 0.2925
    pagi: 0.2728
    prakiraan: 0.1364
    september: 0.2343
    tangerang: 0.1463
    tebal: 0.2925

Artikel 2:
  TfIdf:

    2024: 0.1973
    25: 0.1172
    27: 0.1364
    begitulah: 0.1463
    bekasi: 0.1172
    berawan: 0.2728
    besok: 0.4388
    bogor: 0.1287
    cuaca: 0.2728
    dan: 0.0695
    depok: 0.1172
    diprediksi: 0.1364
    jabodetabek: 0.2728
    jakarta: 0.0959
    jumat: 0.2728
    langit: 0.2925
    pagi: 0.2728
    prakiraan: 0.1364
    september: 0.2343
    tangerang: 0.1463
    tebal: 0.2925

Artikel 3:
  TfIdf:

    ada: 0.0925
    akan: 0.1105
    antara: 0.1210
    atau: 0.1030
    bagi: 0.1105
    bundaran: 0.1210
    csw: 0.2419
    di: 0

In [None]:
from google.colab import files
# Mengonversi hasil TF-IDF menjadi DataFrame (tanpa Styler terlebih dahulu)
df_tfidf_clean = pd.concat([df_final.drop(columns='Kategori Berita'), tfidf_df, df_final['Kategori Berita']], axis=1)

# Menampilkan DataFrame asli tanpa format Styler
display(df_tfidf_clean)

# Menyimpan DataFrame asli (bukan object Styler) ke dalam file CSV
df_tfidf_clean.to_csv('output_cleaned.csv', index=False)

# Menambahkan link download (untuk Jupyter Notebook atau Streamlit)
import os
from IPython.display import HTML

def create_download_link(filename):
    return HTML(f'<a href="{filename}" download>Download CSV File</a>')


# Mengunduh file CSV
files.download('output_cleaned.csv')

