In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Load data dari file CSV
file_path = '/content/hasil_crawling5.csv'  # Ganti dengan lokasi file Anda
df = pd.read_csv(file_path)

# Membersihkan data Link_Text: menghapus karakter kosong, newline, dan teks yang tidak relevan
df['Link_Text'] = df['Link_Text'].str.strip().replace(r'\n+', ' ', regex=True)

# Filter data yang relevan: menghapus baris yang teksnya kosong atau tidak memiliki informasi penting
df_filtered = df[df['Link_Text'].str.len() > 3].reset_index(drop=True)

# Menampilkan data yang sudah dibersihkan
print("Data setelah dibersihkan:")
print(df_filtered.head())

# Menggunakan TfidfVectorizer untuk menghitung bobot TF-IDF
vectorizer = TfidfVectorizer()

# Menerapkan TF-IDF pada kolom Link_Text yang sudah dibersihkan
tfidf_matrix = vectorizer.fit_transform(df_filtered['Link_Text'])

# Mendapatkan istilah (terms) yang ada di dalam vektor ruang kata
terms = vectorizer.get_feature_names_out()

# Membuat DataFrame untuk representasi TF-IDF
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=terms)

# Menampilkan DataFrame TF-IDF
print("\nTF-IDF Matrix:")
print(df_tfidf.head())

# Menyimpan hasil TF-IDF ke CSV (opsional)
df_tfidf.to_csv('tfidf_matrix.csv', index=False)
print("Data disimpan ke file tfidf_matrix.csv")


Data setelah dibersihkan:
   Link_Text                        Link_URL
0       News       https://news.okezone.com/
1    Finance    https://economy.okezone.com/
2  Lifestyle  https://lifestyle.okezone.com/
3  Celebrity  https://celebrity.okezone.com/
4       Bola       https://bola.okezone.com/

TF-IDF Matrix:
    00   07   10   12   14   16   17   20  2024  2029  ...  veddriq  versi  \
0  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   0.0   0.0  ...      0.0    0.0   
1  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   0.0   0.0  ...      0.0    0.0   
2  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   0.0   0.0  ...      0.0    0.0   
3  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   0.0   0.0  ...      0.0    0.0   
4  0.0  0.0  0.0  0.0  0.0  0.0  0.0  0.0   0.0   0.0  ...      0.0    0.0   

   video  voli  wakil  wib  xxi  yang  yordan  young  
0    0.0   0.0    0.0  0.0  0.0   0.0     0.0    0.0  
1    0.0   0.0    0.0  0.0  0.0   0.0     0.0    0.0  
2    0.0   0.0    0.0  0.0  0.0   0.0     0.0    0.0  