# Preprosesing dan TFIDF

Pre-processing adalah tahap awal untuk membersihkan dan menyiapkan data dari internet agar mudah dipahami dan digunakan. Proses ini meliputi penghapusan data yang tidak relevan, format ulang data, normalisasi (menyatukan data dalam bentuk yang konsisten), dan penghilangan duplikasi. Tujuannya adalah untuk meningkatkan kualitas data sehingga analisis yang dilakukan lebih akurat dan efisien.

Misalnya, dalam menganalisis teks dari sebuah situs web, pre-processing bisa melibatkan penghapusan tag HTML, stop words (kata-kata umum yang tidak penting, seperti "dan" atau "yang"), dan pengubahan kata ke dalam bentuk dasar (stemming).

langkah-langkah dalam pre-processing:

**1. Cleansing**

proses pembersihan data dari elemen-elemen yang tidak relevan atau mengganggu (seperti URL, HTML, emoji, simbol, angka, dan tanda baca) agar data menjadi lebih fokus dan siap dianalisis. Dalam konteks teks, cleansing menghapus elemen-elemen yang tidak mempengaruhi analisis (seperti sentimen) dan menggantinya dengan spasi, sehingga struktur teks tetap utuh, ini dilakukan untuk menjaga struktur kalimat agar tetap terjaga, sehingga teks tetap mudah dibaca dan dimengerti meskipun beberapa elemen telah dihapus.

Tujuannya adalah mengurangi "noise" atau kebisingan dalam data, dengan menghapus "noise", proses cleansing membantu memastikan bahwa analisis atau model yang digunakan hanya berfokus pada informasi yang benar-benar relevan. Ini sangat penting untuk meningkatkan akurasi hasil analisis, seperti analisis sentimen dalam dokumen review.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [3]:
cd /content/drive/My Drive/PPW/tugas/

/content/drive/My Drive/PPW/tugas


In [23]:
import pandas as pd

import re
import string

#stopwords
import nltk
from nltk.corpus import stopwords

#tfidf
from sklearn.feature_extraction.text import TfidfVectorizer

In [7]:
df = pd.read_csv("Tugas-Crawling-Data-Berita-2-kategori.csv")

df

Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik
...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup


berikut code untuk proses Cleansing:




function `remove_url` berfungsi untuk menghapus URL dari teks.
- `url = re.compile(r'https?://\S+|www\.\S+')` adalah regular expression (regex) untuk mendeteksi pola URL. Pola yang dicari mencakup URL yang diawali dengan http://, https://, atau www..
- `url.sub(r'', data_berita)` untuk mengganti setiap URL yang ditemukan dengan string kosong `('')`, artinya URL tersebut dihapus dari teks.

- *Tujuan:* Menghapus tag HTML dari teks.
- **html = re.compile(r'<.*?>'):** Regex ini mencari semua tag HTML, yaitu teks yang diapit oleh tanda kurung sudut (< dan >).
- **html.sub(r'', data_berita):** Mengganti semua tag HTML yang ditemukan dengan string kosong, sehingga tag HTML dihapus dari teks.


function `remove_html` berfungsi untuk menghapus tag HTML dari teks.
- `html = re.compile(r'<.*?>')` : Regex ini mencari semua tag HTML, yaitu teks yang diapit oleh tanda kurung sudut (< dan >).
- `html.sub(r'', data_berita)`: Mengganti semua tag HTML yang ditemukan dengan string kosong, sehingga tag HTML dihapus dari teks.

function `remove_emoji` berfungsi untuk menghapus emoji dari teks.
- `emoji_pattern = re.compile(...)`: Regex ini mendeteksi karakter emoji berdasarkan rentang kode Unicode yang terkait dengan berbagai kategori emoji.
- `emoji_pattern.sub(r'', data_berita)`: Mengganti setiap emoji yang ditemukan dengan string kosong, sehingga emoji dihapus dari teks.

function `remove_numbers` berfungsi untuk menghapus angka dari teks.
- `re.sub(r'\d+', '', data_berita):` Ini menggunakan regex untuk mencari semua urutan angka (\d+) dan menggantinya dengan string kosong, sehingga semua angka dihapus dari teks.

function `remove_symbols` berfungsi untuk menghapus simbol yang bukan huruf, angka, atau spasi dari teks.
- `re.sub(r'[^a-zA-Z0-9\s]', '', data_berita):` Regex ini mencari semua karakter yang bukan huruf (a-z, A-Z), angka (0-9), atau spasi (\s) dan menggantinya dengan string kosong, sehingga simbol dihapus dari teks.


In [10]:
def remove_url(data_berita):
  url = re.compile(r'https?://\S+|www\.S+')
  return url.sub(r'', data_berita)

def remove_html(data_berita):
  html = re.compile(r'<.#?>')
  return html.sub(r'', data_berita)

def remove_emoji(data_berita):
  emoji_pattern = re.compile("["
      u"\U0001F600-\U0001F64F"
      u"\U0001F300-\U0001F5FF"
      u"\U0001F680-\U0001F6FF"
      u"\U0001F1E0-\U0001F1FF""]+", flags=re.UNICODE)
  return emoji_pattern.sub(r'', data_berita)

def remove_numbers(data_berita):
  data_berita = re.sub(r'\d+', '', data_berita)
  return data_berita

def remove_symbols(data_berita):
  data_berita = re.sub(r'[^a-zA-Z0-9\s]', '', data_berita)
  return data_berita

df['cleansing'] = df['Isi Berita'].apply(lambda x: remove_url(x))
df['cleansing'] = df['cleansing'].apply(lambda x: remove_html(x))
df['cleansing'] = df['cleansing'].apply(lambda x: remove_emoji(x))
df['cleansing'] = df['cleansing'].apply(lambda x: remove_symbols(x))
df['cleansing'] = df['cleansing'].apply(lambda x: remove_numbers(x))

df

Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita,cleansing
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik,TIMESINDONESIA JAKARTA Di bawah kepemimpinan ...
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik,TIMESINDONESIA MALANG Bakal cawabup Malang La...
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik,TIMESINDONESIA BANTUL Rois Syuriah PCNU Bantu...
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik,TIMESINDONESIA MOJOKERTO Ribuan kader PKB Kab...
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik,TIMESINDONESIA JAKARTA Partai Kebangkitan Ban...
...,...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup,TIMESINDONESIA MALANG Azquira Scarf menggelar...
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup,TIMESINDONESIA MALANG Pada Minggu komunitas ...
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup,TIMESINDONESIA SURABAYA Memilih wewangian pen...
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup,TIMESINDONESIA MAGELANG Anda ingin mencicipi ...


**2. Case Folding**

Case folding adalah proses dalam pemrosesan teks yang melibatkan konversi semua karakter dalam teks menjadi bentuk huruf kecil (lowercase). Tujuan utama dari case folding adalah untuk mengurangi variasi yang tidak perlu dalam teks yang bisa disebabkan oleh perbedaan huruf besar dan kecil.

Misalnya, "Apple" dan "apple" dianggap sebagai kata yang sama setelah case folding.

berikut code untuk proses Case Folding:

- `def case_folding(text):` Mendefinisikan fungsi case_folding yang menerima satu argumen bernama text.
- `if isinstance(text, str):` Memeriksa apakah text adalah sebuah string (tipe data str). Hal ini penting untuk memastikan bahwa fungsi hanya memproses teks yang benar-benar berupa string.
- `lowercase_text = text.lower():` Jika text adalah string, maka fungsi lower() dipanggil pada teks tersebut. Fungsi lower() mengubah semua huruf dalam string menjadi huruf kecil.
- `return lowercase_text:` Mengembalikan teks yang telah diubah menjadi huruf kecil.
- `else: return text:` Jika text bukan string (misalnya None atau tipe data lainnya), fungsi akan mengembalikan text tanpa perubahan. Ini untuk menghindari error jika ada data yang bukan string.


In [13]:
def case_folding(text):
    if isinstance(text, str):
      lowercase_text = text.lower()
      return lowercase_text
    else :
      return text

df ['case_folding'] = df['cleansing'].apply(case_folding)

df

Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita,cleansing,case_folding
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik,TIMESINDONESIA JAKARTA Di bawah kepemimpinan ...,timesindonesia jakarta di bawah kepemimpinan ...
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik,TIMESINDONESIA MALANG Bakal cawabup Malang La...,timesindonesia malang bakal cawabup malang la...
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik,TIMESINDONESIA BANTUL Rois Syuriah PCNU Bantu...,timesindonesia bantul rois syuriah pcnu bantu...
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik,TIMESINDONESIA MOJOKERTO Ribuan kader PKB Kab...,timesindonesia mojokerto ribuan kader pkb kab...
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik,TIMESINDONESIA JAKARTA Partai Kebangkitan Ban...,timesindonesia jakarta partai kebangkitan ban...
...,...,...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup,TIMESINDONESIA MALANG Azquira Scarf menggelar...,timesindonesia malang azquira scarf menggelar...
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup,TIMESINDONESIA MALANG Pada Minggu komunitas ...,timesindonesia malang pada minggu komunitas ...
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup,TIMESINDONESIA SURABAYA Memilih wewangian pen...,timesindonesia surabaya memilih wewangian pen...
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup,TIMESINDONESIA MAGELANG Anda ingin mencicipi ...,timesindonesia magelang anda ingin mencicipi ...


**3. Tokenization**

Tokenization adalah proses membagi teks menjadi unit-unit kata yang lebih kecil, yang disebut token. Dalam metode ini, setiap kata dalam sebuah teks diidentifikasi dan dipisahkan dari kata-kata lainnya.

Misalnya, kalimat "kuncoro pergi ke kantor" di-tokenize menjadi ["kuncoro", "pergi", "ke", "kantor"]. Proses ini memungkinkan analisis yang lebih terfokus pada kata-kata individu.

berikut code untuk proses Tokenization:

- `def tokenize(text)`: Mendefinisikan fungsi tokenize yang menerima satu argumen bernama text.
- `tokens = text.split()`:
  - Fungsi split() pada string memecah teks menjadi bagian-bagian yang lebih kecil berdasarkan delimiter tertentu, secara default delimiter-nya adalah spasi (' ').
  - Contoh: Jika text adalah "teknologi dan inovasi", maka split() akan memecahnya menjadi ['teknologi', 'dan', 'inovasi'].
  - Jadi, tokens akan menjadi daftar (list) dari kata-kata yang terpisah.
- `return tokens`: Mengembalikan daftar token yang telah dihasilkan.


In [14]:
def tokenize(text):
    tokens = text.split()
    return tokens

df['tokenize'] = df['case_folding'].apply(tokenize)

df

Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita,cleansing,case_folding,tokenize
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik,TIMESINDONESIA JAKARTA Di bawah kepemimpinan ...,timesindonesia jakarta di bawah kepemimpinan ...,"[timesindonesia, jakarta, di, bawah, kepemimpi..."
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik,TIMESINDONESIA MALANG Bakal cawabup Malang La...,timesindonesia malang bakal cawabup malang la...,"[timesindonesia, malang, bakal, cawabup, malan..."
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik,TIMESINDONESIA BANTUL Rois Syuriah PCNU Bantu...,timesindonesia bantul rois syuriah pcnu bantu...,"[timesindonesia, bantul, rois, syuriah, pcnu, ..."
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik,TIMESINDONESIA MOJOKERTO Ribuan kader PKB Kab...,timesindonesia mojokerto ribuan kader pkb kab...,"[timesindonesia, mojokerto, ribuan, kader, pkb..."
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik,TIMESINDONESIA JAKARTA Partai Kebangkitan Ban...,timesindonesia jakarta partai kebangkitan ban...,"[timesindonesia, jakarta, partai, kebangkitan,..."
...,...,...,...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup,TIMESINDONESIA MALANG Azquira Scarf menggelar...,timesindonesia malang azquira scarf menggelar...,"[timesindonesia, malang, azquira, scarf, mengg..."
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup,TIMESINDONESIA MALANG Pada Minggu komunitas ...,timesindonesia malang pada minggu komunitas ...,"[timesindonesia, malang, pada, minggu, komunit..."
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup,TIMESINDONESIA SURABAYA Memilih wewangian pen...,timesindonesia surabaya memilih wewangian pen...,"[timesindonesia, surabaya, memilih, wewangian,..."
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup,TIMESINDONESIA MAGELANG Anda ingin mencicipi ...,timesindonesia magelang anda ingin mencicipi ...,"[timesindonesia, magelang, anda, ingin, mencic..."


**4. Stop Words**

Stop word removal adalah proses menghilangkan kata-kata umum yang sering muncul dalam teks tetapi tidak memiliki makna yang signifikan dalam sebuah dokumen. Kata-kata seperti "dan," "atau," "adalah," dan "di" merupakan contoh stop word dalam bahasa Indonesia. Karena kata-kata ini tidak menambah informasi penting dalam konteks analisis teks atau pencarian informasi, mereka sering diabaikan agar fokus bisa tertuju pada kata-kata yang lebih relevan.

berikut code untuk proses Stop Words:

- `nltk.download('stopwords')`: Mengunduh daftar stopwords dari pustaka NLTK untuk berbagai bahasa, termasuk Bahasa Indonesia.
- `stop_words = stopwords.words('indonesian')`: Mengambil daftar stopwords untuk Bahasa Indonesia dan menyimpannya dalam variabel stop_words.
- `[word for word in text if word not in stop_words]`: Ini adalah list comprehension yang membuat daftar kata-kata (token) baru yang hanya berisi kata-kata yang tidak termasuk dalam daftar stop_words.
- `df['tokenize'].apply(lambda x: ' '.join(remove_stopwords(x)))`: Menerapkan fungsi remove_stopwords pada setiap baris dalam kolom tokenize.
- `' '.join(remove_stopwords(x))`: Setelah stopwords dihapus, token-token yang tersisa digabungkan kembali menjadi sebuah string, dipisahkan oleh spasi.
- `df['stopword_removal']`: Hasil akhir disimpan dalam kolom baru stopword_removal.




In [17]:
nltk.download('stopwords')
stop_words = stopwords.words('indonesian')

def remove_stopwords(text):
  return [word for word in text if word not in stop_words]

df['stopword_removal'] = df['tokenize'].apply(lambda x: ' '.join(remove_stopwords(x)))

df

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita,cleansing,case_folding,tokenize,stopword_removal
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik,TIMESINDONESIA JAKARTA Di bawah kepemimpinan ...,timesindonesia jakarta di bawah kepemimpinan ...,"[timesindonesia, jakarta, di, bawah, kepemimpi...",timesindonesia jakarta kepemimpinan presiden r...
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik,TIMESINDONESIA MALANG Bakal cawabup Malang La...,timesindonesia malang bakal cawabup malang la...,"[timesindonesia, malang, bakal, cawabup, malan...",timesindonesia malang cawabup malang lathifah ...
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik,TIMESINDONESIA BANTUL Rois Syuriah PCNU Bantu...,timesindonesia bantul rois syuriah pcnu bantu...,"[timesindonesia, bantul, rois, syuriah, pcnu, ...",timesindonesia bantul rois syuriah pcnu bantul...
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik,TIMESINDONESIA MOJOKERTO Ribuan kader PKB Kab...,timesindonesia mojokerto ribuan kader pkb kab...,"[timesindonesia, mojokerto, ribuan, kader, pkb...",timesindonesia mojokerto ribuan kader pkb kabu...
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik,TIMESINDONESIA JAKARTA Partai Kebangkitan Ban...,timesindonesia jakarta partai kebangkitan ban...,"[timesindonesia, jakarta, partai, kebangkitan,...",timesindonesia jakarta partai kebangkitan bang...
...,...,...,...,...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup,TIMESINDONESIA MALANG Azquira Scarf menggelar...,timesindonesia malang azquira scarf menggelar...,"[timesindonesia, malang, azquira, scarf, mengg...",timesindonesia malang azquira scarf menggelar ...
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup,TIMESINDONESIA MALANG Pada Minggu komunitas ...,timesindonesia malang pada minggu komunitas ...,"[timesindonesia, malang, pada, minggu, komunit...",timesindonesia malang minggu komunitas oom ir ...
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup,TIMESINDONESIA SURABAYA Memilih wewangian pen...,timesindonesia surabaya memilih wewangian pen...,"[timesindonesia, surabaya, memilih, wewangian,...",timesindonesia surabaya memilih wewangian peng...
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup,TIMESINDONESIA MAGELANG Anda ingin mencicipi ...,timesindonesia magelang anda ingin mencicipi ...,"[timesindonesia, magelang, anda, ingin, mencic...",timesindonesia magelang mencicipi kenikmatan s...


In [18]:
df.to_csv("/content/drive/My Drive/PPW/tugas/preprosesing-berita.csv",encoding='utf8', index=False)

# TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency) adalah metode yang digunakan untuk menentukan seberapa penting sebuah kata dalam suatu dokumen dibandingkan dengan dokumen-dokumen lainnya. Metode ini menggabungkan dua hal: *Term Frequency (TF), yaitu seberapa sering kata muncul di dalam sebuah dokumen, dan **Inverse Document Frequency (IDF)*, yang menunjukkan seberapa jarang kata tersebut muncul di seluruh kumpulan dokumen. Dengan begitu, kata yang sering muncul di dokumen tetapi jarang ada di dokumen lain dianggap lebih penting.

*Term Frequency* (TF) dihitung dengan melihat seberapa banyak kata muncul di dokumen, lalu dibandingkan dengan jumlah total kata di dokumen tersebut. Sementara itu, *Inverse Document Frequency* (IDF) dihitung berdasarkan seberapa jarang kata tersebut muncul di seluruh dokumen. Jika sebuah kata jarang muncul di dokumen lain, nilai IDF-nya tinggi, yang berarti kata itu lebih spesial atau memberikan informasi yang lebih bermakna dalam dokumen tersebut.

$$
\text{TF-IDF}(t, d, D) = \text{TF}(t, d) \times \text{IDF}(t, D)
$$

Dimana:

$$
\text{TF}(t, d) = \frac{\text{Jumlah kemunculan } t \text{ dalam dokumen } d}{\text{Total jumlah kata dalam dokumen } d}
$$

$$
\text{IDF}(t, D) = \log\left(\frac{N}{|\{d \in D : t \in d\}|}\right)
$$

Ketika TF dan IDF dikalikan, hasilnya adalah bobot untuk setiap kata. Kata-kata yang sering muncul di dokumen tertentu tetapi jarang ada di dokumen lain akan mendapatkan bobot yang lebih tinggi, sehingga dianggap lebih penting.

In [21]:
df = pd.read_csv("preprosesing-berita.csv")

df

Unnamed: 0,NO,Judul Berita,Isi Berita,Tanggal Berita,Kategori Berita,cleansing,case_folding,tokenize,stopword_removal
0,1,"Analisis PPI: Di Tangan Presiden Prabowo, Indo...","TIMESINDONESIA, JAKARTA – Di bawah kepemimpina...",04/09/2024 - 23:35,Politik,TIMESINDONESIA JAKARTA Di bawah kepemimpinan ...,timesindonesia jakarta di bawah kepemimpinan ...,"['timesindonesia', 'jakarta', 'di', 'bawah', '...",timesindonesia jakarta kepemimpinan presiden r...
1,2,"Bacawabup Lathifah Solidkan Seribu Relawan, Si...","TIMESINDONESIA, MALANG – Bakal cawabup Malang,...",04/09/2024 - 22:02,Politik,TIMESINDONESIA MALANG Bakal cawabup Malang La...,timesindonesia malang bakal cawabup malang la...,"['timesindonesia', 'malang', 'bakal', 'cawabup...",timesindonesia malang cawabup malang lathifah ...
2,3,Rois Syuriah Sebut Visi Misi Untoro-Wahyudi Se...,"TIMESINDONESIA, BANTUL – Rois Syuriah PCNU Ban...",04/09/2024 - 20:54,Politik,TIMESINDONESIA BANTUL Rois Syuriah PCNU Bantu...,timesindonesia bantul rois syuriah pcnu bantu...,"['timesindonesia', 'bantul', 'rois', 'syuriah'...",timesindonesia bantul rois syuriah pcnu bantul...
3,4,Ribuan Kader PKB Kabupaten Mojokerto Panasi Me...,"TIMESINDONESIA, MOJOKERTO – Ribuan kader PKB K...",04/09/2024 - 19:23,Politik,TIMESINDONESIA MOJOKERTO Ribuan kader PKB Kab...,timesindonesia mojokerto ribuan kader pkb kab...,"['timesindonesia', 'mojokerto', 'ribuan', 'kad...",timesindonesia mojokerto ribuan kader pkb kabu...
4,5,"Wajah Pengurus Inti DPP PKB Tidak Berubah, Ini...","TIMESINDONESIA, JAKARTA – Partai Kebangkitan B...",04/09/2024 - 16:43,Politik,TIMESINDONESIA JAKARTA Partai Kebangkitan Ban...,timesindonesia jakarta partai kebangkitan ban...,"['timesindonesia', 'jakarta', 'partai', 'keban...",timesindonesia jakarta partai kebangkitan bang...
...,...,...,...,...,...,...,...,...,...
95,96,Azquira Scarf Luncurkan Hijab Autentik dengan ...,"TIMESINDONESIA, MALANG – Azquira Scarf menggel...",01/09/2024 - 22:42,Gaya Hidup,TIMESINDONESIA MALANG Azquira Scarf menggelar...,timesindonesia malang azquira scarf menggelar...,"['timesindonesia', 'malang', 'azquira', 'scarf...",timesindonesia malang azquira scarf menggelar ...
96,97,Mengulik Sejarah Bangunan Heritage Kota Malang...,"TIMESINDONESIA, MALANG – Pada Minggu (1/9/2024...",01/09/2024 - 22:16,Gaya Hidup,TIMESINDONESIA MALANG Pada Minggu komunitas ...,timesindonesia malang pada minggu komunitas ...,"['timesindonesia', 'malang', 'pada', 'minggu',...",timesindonesia malang minggu komunitas oom ir ...
97,98,"Ritual Wewangian, Parfum Lokal Jadi Pilihan In...","TIMESINDONESIA, SURABAYA – Memilih wewangian p...",31/08/2024 - 20:04,Gaya Hidup,TIMESINDONESIA SURABAYA Memilih wewangian pen...,timesindonesia surabaya memilih wewangian pen...,"['timesindonesia', 'surabaya', 'memilih', 'wew...",timesindonesia surabaya memilih wewangian peng...
98,99,Berkeliling Nusantara Melalui Suguhan Kuliner ...,"TIMESINDONESIA, MAGELANG – Anda ingin mencicip...",04/09/2024 - 17:00,Gaya Hidup,TIMESINDONESIA MAGELANG Anda ingin mencicipi ...,timesindonesia magelang anda ingin mencicipi ...,"['timesindonesia', 'magelang', 'anda', 'ingin'...",timesindonesia magelang mencicipi kenikmatan s...


In [24]:
# Menginisialisasi TfidfVectorizer
vectorizer = TfidfVectorizer()

# Menghitung TF-IDF
tfidf_matrix = vectorizer.fit_transform(df['stopword_removal'])

In [25]:
# Mengubah hasilnya menjadi DataFrame
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=vectorizer.get_feature_names_out())

tfidf_df

Unnamed: 0,abad,abadi,acara,aceh,activist,actress,acuan,ad,adam,adaptabilitasnya,...,woman,ya,yatim,yatimpiatu,yesnow,yohannes,youtuber,yuanatimes,zoe,zuroh
0,0.0,0.000000,0.011495,0.000000,0.0,0.0,0.020826,0.000000,0.000000,0.0,...,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
1,0.0,0.000000,0.022365,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.000000,0.026579,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
2,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
3,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.084324
4,0.0,0.000000,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
95,0.0,0.000000,0.080892,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.000000,0.000000,0.0,0.0,0.000000,0.000000,0.038022,0.000000,0.000000,0.000000
96,0.0,0.000000,0.116037,0.000000,0.0,0.0,0.000000,0.072722,0.048481,0.0,...,0.000000,0.000000,0.0,0.0,0.000000,0.024241,0.000000,0.000000,0.000000,0.000000
97,0.0,0.043848,0.023321,0.000000,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.087695,0.027716,0.0,0.0,0.263085,0.000000,0.000000,0.043848,0.087695,0.000000
98,0.0,0.000000,0.000000,0.037951,0.0,0.0,0.000000,0.000000,0.000000,0.0,...,0.000000,0.024894,0.0,0.0,0.000000,0.000000,0.000000,0.000000,0.000000,0.000000
