# Tugas 02 : **Membuat Vector Space Model dengan Bobot TFIDF Dari Hasil Tugas 1 Crawling Berita**

In [8]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time

# Inisialisasi list untuk menyimpan data
judul = []
tanggal = []
isi = []
url_list = []
kategori_list = []

# Fungsi untuk mengambil data dari halaman web Detik.com
def get_data(url, kategori, min_articles_per_category):
    try:
        response = requests.get(url)
        response.raise_for_status()
    except requests.exceptions.RequestException as e:
        print(f"Request failed: {e}")
        return

    soup = BeautifulSoup(response.content, "html.parser")
    articles = soup.find_all("article", class_="list-content__item")

    for article in articles:
        if len([k for k in kategori_list if k == kategori]) >= min_articles_per_category:
            return  # Menghentikan proses jika jumlah artikel sudah mencapai minimum yang diinginkan

        try:
            link = article.find("a")["href"]
            article_response = requests.get(link)
            article_response.raise_for_status()
        except (requests.exceptions.RequestException, TypeError) as e:
            print(f"Request for article failed: {e}")
            continue

        # Melakukan scraping dan memasukkan hasilnya ke dalam list
        article_soup = BeautifulSoup(article_response.content, "html.parser")

        # Mengambil judul artikel
        title_element = article_soup.find("h1", class_="detail__title")
        title = title_element.text.strip() if title_element and title_element.text else "Title Not Found"

        # Mengambil tanggal artikel
        date_element = article_soup.find("div", class_="detail__date")
        date = date_element.text.strip() if date_element and date_element.text else "Date Not Found"

        # Mengambil isi artikel
        content_element = article_soup.find("div", class_="detail__body-text")
        content = content_element.text.strip() if content_element and content_element.text else "Content Not Found"

        # Memasukkan hasil scraping ke dalam list global
        judul.append(title)
        tanggal.append(date)
        isi.append(content)
        url_list.append(link)
        kategori_list.append(kategori)

        # Menampilkan judul artikel
        print(title)
        time.sleep(1)  # Menambahkan jeda waktu 1 detik antara permintaan artikel

# Membuat list url dan kategori yang akan di-crawl
base_urls = [
    "https://oto.detik.com/indeks",
    "https://finance.detik.com/indeks",
]
categories = [
    "Otomotif",
    "Keuangan",
]

# Batas minimal artikel per kategori
min_articles_per_category = 10

# Melakukan iterasi untuk setiap url dan kategori
for base_url, category in zip(base_urls, categories):
    page = 1
    while len([k for k in kategori_list if k == category]) < min_articles_per_category:
        url = f"{base_url}/{page}"
        get_data(url, category, min_articles_per_category)
        time.sleep(2)  # Menambahkan jeda waktu 2 detik antara permintaan halaman
        page += 1

# Membuat dataframe dari list data
df = pd.DataFrame({"judul": judul, "tanggal": tanggal, "isi": isi, "kategori": kategori_list})

# Menyimpan dataframe ke file csv
df.to_csv("data_berita_Otomotif_Finance_detik.csv", index=False)

# Menampilkan dataframe
print(df)

Di Hub Space 2024, Isuzu Pamerkan Kendaraan Inovasi Traga Bus
Hasil Sprint Race MotoGP San Marino: Martin Juara, Marquez Kelima
Simulasi Cicilan Toyota Kijang Innova Zenix, Mulai dari Rp 5 Juta-an per Bulan
Link Live Streaming Sprint Race MotoGP San Marino 2024
Kualifikasi MotoGP San Marino: 3 Murid Rossi Terdepan, Marquez Jatuh!
MGPA Berbenah Sambut MotoGP Mandalika 2024
Bus Pariwisata PO Bagong Ada di Hub Space 2024, Tawarkan Program Diskon 10%
Sopir Pajero Bikin Ulah Lagi, Kini Pamer Pistol Usai Senggol Mobil Lain
Ini Mobil yang Dipakai Paus Fransiskus di Papua Nugini
Spesifikasi Toyota Fortuner Baru: Muka Berubah, Punya Wifi Hotspot
Kisah Nakhoda Keliling Dunia Bawa Kapal Ramah Lingkungan Pertama RI
Chappy Hakim Minta Kemenhub Perhatikan Hal Ini buat Sektor Transportasi Udara
Kulkas 4 Pintu di Transmart Full Day Sale Diskon Gede-gedean!
Ada Diskon Tiket Pesawat Garuda Hingga Rp 500 Ribu di Hub Space 2024!
Mampir ke Transmart Besok! Beli Minyak Goreng Cuma Rp 35 Ribuan
Mau Ada Pemba

**Membuat Vector Space Model dengan Bobot TFIDF**

In [10]:
# prompt: dari data di atas buatkan Vector Space Model dengan Bobot TFIDF untuk isi dari setiap judul

import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# Membuat objek TfidfVectorizer
vectorizer = TfidfVectorizer()

# Melakukan transformasi isi berita menjadi matriks TF-IDF
tfidf_matrix = vectorizer.fit_transform(df['isi'])

# Menampilkan matriks TF-IDF
print(tfidf_matrix)

# Mendapatkan daftar kata-kata yang digunakan dalam model
feature_names = vectorizer.get_feature_names_out()

# Membuat DataFrame dari matriks TF-IDF
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

# Menampilkan DataFrame TF-IDF
print(df_tfidf)


  (0, 819)	0.032533549740497256
  (0, 818)	0.030097672309911443
  (0, 664)	0.0447755026553114
  (0, 144)	0.0447755026553114
  (0, 226)	0.0447755026553114
  (0, 808)	0.021999493741507066
  (0, 706)	0.0447755026553114
  (0, 2197)	0.0393583521926983
  (0, 2073)	0.0447755026553114
  (0, 692)	0.0447755026553114
  (0, 1246)	0.0447755026553114
  (0, 1923)	0.0393583521926983
  (0, 2037)	0.0447755026553114
  (0, 1250)	0.0447755026553114
  (0, 866)	0.0447755026553114
  (0, 1309)	0.035514822772524546
  (0, 1009)	0.0447755026553114
  (0, 1351)	0.0447755026553114
  (0, 1486)	0.035514822772524546
  (0, 796)	0.026254142889737687
  (0, 1396)	0.0393583521926983
  (0, 1818)	0.0447755026553114
  (0, 485)	0.019767594882843582
  (0, 524)	0.0447755026553114
  (0, 344)	0.032533549740497256
  :	:
  (19, 1860)	0.018955599306149654
  (19, 485)	0.1532925943766865
  (19, 344)	0.028032142018069403
  (19, 1516)	0.030600920085480873
  (19, 1374)	0.016179396280812164
  (19, 934)	0.06643160726284238
  (19, 229)	0.0278

**Menampilkan Hasil Dan Menyimpan Dalam Bentuk CSV**

In [11]:
import pandas as pd
# Menyimpan DataFrame TF-IDF ke file CSV
df_tfidf.to_csv("tfidf_matrix.csv", index=False)

# Menampilkan DataFrame TF-IDF dari file CSV
df_tfidf_csv = pd.read_csv("tfidf_matrix.csv")
print(df_tfidf_csv)


          00       000   000type       049        05       064        10  \
0   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.030098   
1   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
2   0.000000  0.060809  0.000000  0.000000  0.000000  0.000000  0.000000   
3   0.092870  0.000000  0.000000  0.000000  0.051126  0.000000  0.068733   
4   0.000000  0.000000  0.000000  0.000000  0.000000  0.041931  0.000000   
5   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
6   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.014770   
7   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
8   0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
9   0.000000  0.091367  0.048636  0.000000  0.000000  0.000000  0.000000   
10  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.020780   
11  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000  0.000000   
12  0.038016