# **Prepocessing**

Preprocessing adalah tahap awal dalam pengolahan data yang bertujuan untuk **membersihkan, menormalkan, dan mempersiapkan data** sebelum digunakan dalam analisis atau pemodelan. Tahap ini sangat penting karena kualitas data sangat memengaruhi hasil analisis maupun performa model.


### **Instalasai Library**

In [None]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m2.8 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


## **Pengambilan Data**

Lakukan pengambilan data dari file csv dari hasil crawling sebelumnya dengan menggunakan upload files

In [None]:
from google.colab import files
import pandas as pd

uploaded = files.upload()

for filename in uploaded.keys():
    df = pd.read_csv(filename)
    print(f"File {filename} berhasil dibaca")
    print(df.head())


Saving pta_manajemen.csv to pta_manajemen.csv
File pta_manajemen.csv berhasil dibaca
             id                  penulis  \
0   80211100050          Wahyu Kurniawan   
1  100211200002   Muhammad Zakaria Utomo   
2   80211100044  Hendri Wahyudi Prayitno   
3   90211200001                  Faishal   
4   80211100070                  SATIYAH   

                                               judul  \
0  PENGARUH GAYA KEPEMIMPINAN DEMOKRATIK TERHADAP...   
1  Pengukuran Website Quality Pada Situs Sistem A...   
2  PENGARUH KEPEMIMPINAN DAN KOMPENSASI TERHADAP ...   
3  ANALISIS PERSEPSI BRAND ASSOCIATION MENURUT PE...   
4  PENGARUH FAKTOR-FAKTOR PELATIHAN DAN PENGEMBAN...   

                                          abstrak_id  \
0                                                NaN   
1  Aplikasi nyata pemanfaatan teknologi informasi...   
2  Abstrak\r\nPenelitian ini menggunakan metode k...   
3  Tujuan penelitian ini adalah untuk mengetahui ...   
4  ABSTRAK\r\nSatiyah, Pengaruh F

### **Ambil data Abstrak**

ambil data hanya feature abstrak

In [None]:
df['abstrak_id']

Unnamed: 0,abstrak_id
0,
1,Aplikasi nyata pemanfaatan teknologi informasi...
2,Abstrak\r\nPenelitian ini menggunakan metode k...
3,Tujuan penelitian ini adalah untuk mengetahui ...
4,"ABSTRAK\r\nSatiyah, Pengaruh Faktor-faktor Pel..."
...,...
1026,"ABSTRAK\nUswatun Hasanah, 160211100291, Pengar..."
1027,ABSTRAK\nPenelitian ini bertujuan untuk menget...
1028,ABSTRAK\nPenelitian ini bertujuan: (1) Untuk m...
1029,Tujuan penelitian ini adalah untuk mengetahui ...


In [None]:
df.dropna(subset=['abstrak_id'], inplace=True)
df.drop_duplicates(inplace=True)

Ambil hanya Abstrak

## **Data Cleaning**

Tahap preprocessing data pertama adalah data cleaning. Ini merupakan proses identifikasi dan perbaikan masalah dalam data. Misalnya, kesalahan input, nilai hilang, dan duplikasi. Tujuan utama dari tahap ini adalah untuk menciptakan data set yang konsisten dan akurat.

In [None]:
import re

def clean_text(text):
    text = text.lower()
    text = text.replace("\r\n", " ")
    text = re.sub(r'[^\w\s]', '', text)
    text = re.sub(r'\d+', '', text)
    text = re.sub(r'\s+', ' ', text)
    return text.strip()

df['cleaned_abstrak_id'] = df['abstrak_id'].apply(clean_text)

display(df[['abstrak_id', 'cleaned_abstrak_id']].head())


Unnamed: 0,abstrak_id,cleaned_abstrak_id
1,Aplikasi nyata pemanfaatan teknologi informasi...,aplikasi nyata pemanfaatan teknologi informasi...
2,Abstrak\r\nPenelitian ini menggunakan metode k...,abstrak penelitian ini menggunakan metode kuan...
3,Tujuan penelitian ini adalah untuk mengetahui ...,tujuan penelitian ini adalah untuk mengetahui ...
4,"ABSTRAK\r\nSatiyah, Pengaruh Faktor-faktor Pel...",abstrak satiyah pengaruh faktorfaktor pelatiha...
5,ABSTRAK\r\n\r\nTujuan penelitian ini adalah un...,abstrak tujuan penelitian ini adalah untuk men...


## **Tokenisasi**

Tokenisasi adalah proses memecah teks panjang menjadi bagian-bagian kecil yang disebut token. Biasanya token berupa kata, tetapi bisa juga berupa simbol atau tanda baca, tergantung metode yang digunakan.
Tujuannya adalah agar teks lebih mudah dianalisis dan diproses oleh komputer dalam tahap selanjutnya, seperti stopword removal, stemming, indexing, atau perhitungan frekuensi kata.

In [None]:
from nltk.tokenize import word_tokenize
import nltk
nltk.download('punkt')
nltk.download('punkt_tab')

def tokenize_text(text):
    return word_tokenize(text)

df['tokenized_abstrak_id'] = df['cleaned_abstrak_id'].apply(tokenize_text)

display(df[['cleaned_abstrak_id', 'tokenized_abstrak_id']].head())

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


Unnamed: 0,cleaned_abstrak_id,tokenized_abstrak_id
1,aplikasi nyata pemanfaatan teknologi informasi...,"[aplikasi, nyata, pemanfaatan, teknologi, info..."
2,abstrak penelitian ini menggunakan metode kuan...,"[abstrak, penelitian, ini, menggunakan, metode..."
3,tujuan penelitian ini adalah untuk mengetahui ...,"[tujuan, penelitian, ini, adalah, untuk, menge..."
4,abstrak satiyah pengaruh faktorfaktor pelatiha...,"[abstrak, satiyah, pengaruh, faktorfaktor, pel..."
5,abstrak tujuan penelitian ini adalah untuk men...,"[abstrak, tujuan, penelitian, ini, adalah, unt..."


**Import library**
```python
from nltk.tokenize import word_tokenize
import nltk
```
- `word_tokenize` digunakan untuk memecah teks menjadi token.  
- `nltk` adalah library pemrosesan bahasa alami yang menyediakan fungsi ini.  

**Download resource NLTK**
```python
nltk.download('punkt')
nltk.download('punkt_tab')
```
- `punkt` adalah model bawaan NLTK untuk tokenisasi.  
- Harus diunduh terlebih dahulu agar `word_tokenize` bisa dijalankan.  

**Definisikan fungsi tokenisasi**
```python
def tokenize_text(text):
    return word_tokenize(text)
```
-- Membuat fungsi sederhana yang menerima teks lalu mengembalikan daftar token hasil `word_tokenize`.  

**Aplikasikan ke DataFrame**

```python
df['tokenized_abstrak_id'] = df['cleaned_abstrak_id'].apply(tokenize_text)
```
- Kolom `cleaned_abstrak_id` berisi teks hasil pembersihan (lowercase, tanpa angka, tanpa tanda baca tertentu).  
- Fungsi `tokenize_text` diterapkan ke setiap baris.  
- Hasil tokenisasi disimpan di kolom baru `tokenized_abstrak_id`.  

**Tampilkan hasil**
```python
display(df[['cleaned_abstrak_id', 'tokenized_abstrak_id']].head())
```
- Menampilkan beberapa baris pertama.  
- Bisa dibandingkan antara teks sebelum tokenisasi (`cleaned_abstrak_id`) dan setelah tokenisasi (`tokenized_abstrak_id`).  

---

## **Stopword**


Stopwords adalah kata-kata umum yang sering muncul dalam teks, seperti *dan, di, ke, dari, untuk,* dan sebagainya, yang biasanya tidak memiliki makna penting dalam analisis teks.
Penghapusan stopwords bertujuan untuk menyaring kata-kata sehingga hanya kata bermakna yang digunakan pada tahap analisis berikutnya.





In [None]:
from nltk.corpus import stopwords
nltk.download('stopwords')

list_stopwords = set(stopwords.words('indonesian'))

def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]

df['stopwords_removed_abstrak_id'] = df['tokenized_abstrak_id'].apply(remove_stopwords)

display(df[['tokenized_abstrak_id', 'stopwords_removed_abstrak_id']].head())

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Unnamed: 0,tokenized_abstrak_id,stopwords_removed_abstrak_id
1,"[aplikasi, nyata, pemanfaatan, teknologi, info...","[aplikasi, nyata, pemanfaatan, teknologi, info..."
2,"[abstrak, penelitian, ini, menggunakan, metode...","[abstrak, penelitian, metode, kuantitatif, men..."
3,"[tujuan, penelitian, ini, adalah, untuk, menge...","[tujuan, penelitian, persepsi, brand, associat..."
4,"[abstrak, satiyah, pengaruh, faktorfaktor, pel...","[abstrak, satiyah, pengaruh, faktorfaktor, pel..."
5,"[abstrak, tujuan, penelitian, ini, adalah, unt...","[abstrak, tujuan, penelitian, mengidentifikasi..."


**Penjelasan Kode**

**Import Stopwords dari NLTK**

```python
from nltk.corpus import stopwords
nltk.download('stopwords')
```

* Mengimpor daftar stopwords dari library **NLTK**.
* `nltk.download('stopwords')` memastikan resource sudah tersedia sebelum digunakan.

**Mendefinisikan Stopwords Bahasa Indonesia**

```python
list_stopwords = set(stopwords.words('indonesian'))
```

* Mengambil daftar stopwords bahasa Indonesia.
* Menggunakan `set()` agar pencarian lebih cepat saat melakukan pengecekan token.

**Fungsi untuk Menghapus Stopwords**

```python
def remove_stopwords(tokens):
    return [word for word in tokens if word not in list_stopwords]
```

* Fungsi ini menerima input berupa daftar token.
* Token yang termasuk dalam stopwords akan dibuang.
* Hasilnya berupa daftar token yang lebih bersih dari kata tidak penting.

**Aplikasi pada DataFrame**

```python
df['stopwords_removed_abstrak_id'] = df['tokenized_abstrak_id'].apply(remove_stopwords)
```

* Kolom `tokenized_abstrak_id` digunakan sebagai input.
* Fungsi `remove_stopwords` diterapkan pada setiap baris.
* Hasilnya disimpan dalam kolom baru `stopwords_removed_abstrak_id`.

**Menampilkan Hasil**

```python
display(df[['tokenized_abstrak_id', 'stopwords_removed_abstrak_id']].head())
```

* Menampilkan beberapa baris pertama.
* Kolom `tokenized_abstrak_id` memperlihatkan token awal.
* Kolom `stopwords_removed_abstrak_id` menunjukkan token setelah stopwords dihapus.

## **Stemming**

Stemming adalah proses mengubah kata berimbuhan menjadi bentuk dasarnya (root word).
Contoh: berlari → lari, makanannya → makan, penulis → tulis.

Tujuannya adalah menyamakan variasi kata ke dalam satu bentuk dasar, sehingga analisis teks lebih konsisten.
Di sini digunakan library Sastrawi, stemmer populer untuk bahasa Indonesia.

In [None]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stem_tokens(tokens):
    return [stemmer.stem(token) for token in tokens]

df['stemmed_abstrak_id'] = df['stopwords_removed_abstrak_id'].apply(stem_tokens)

def get_stemming_changes(original_tokens, stemmed_tokens):
    changes = []
    for original, stemmed in zip(original_tokens, stemmed_tokens):
        if original != stemmed:
            changes.append(f"{original} : {stemmed}")
    return changes

all_changes = []
for index, row in df.iterrows():
    all_changes.extend(get_stemming_changes(row['stopwords_removed_abstrak_id'], row['stemmed_abstrak_id']))

unique_changes = sorted(list(set(all_changes)))

print("Kata-kata yang mengalami stemming:")
for change in unique_changes:
    print(change)

display(df[['stopwords_removed_abstrak_id', 'stemmed_abstrak_id']].head())

Kata-kata yang mengalami stemming:
acuan : acu
adukkan : aduk
aini : ain
akbari : akbar
akibatnya : akibat
aktivitasnya : aktivitas
alasan : alas
alfi : alf
aliran : alir
analisi : analis
analisisi : analisis
analisisis : analisis
analisisnya : analisis
ancaman : ancam
andari : andar
anggapan : anggap
anggaran : anggar
anggotanya : anggota
angkatan : angkat
angsuran : angsur
apapun : apa
arahan : arah
arahnya : arah
asii : asi
asumsikan : asumsi
atasan : atas
aturan : atur
bahkah : bah
baiknya : baik
bandingkan : banding
bangkalan : bangkal
bangunan : bangun
bantuan : bantu
banyaknya : banyak
batasan : batas
bauran : baur
bawahan : bawah
bawahannya : bawah
bebasnya : bebas
bekasi : bekas
belajar : ajar
belakangi : belakang
belom : bom
beragam : agam
beralamat : alamat
berari : ari
berasal : asal
berbagi : bagi
berbahan : bahan
berbalik : balik
berbasis : bas
berbeda : beda
berbelanja : belanja
berdagangan : dagang
berdampak : dampak
berdampingan : damping
berdasar : dasar
berdasarkan :

Unnamed: 0,stopwords_removed_abstrak_id,stemmed_abstrak_id
1,"[aplikasi, nyata, pemanfaatan, teknologi, info...","[aplikasi, nyata, manfaat, teknologi, informas..."
2,"[abstrak, penelitian, metode, kuantitatif, men...","[abstrak, teliti, metode, kuantitatif, tekan, ..."
3,"[tujuan, penelitian, persepsi, brand, associat...","[tuju, teliti, persepsi, brand, association, l..."
4,"[abstrak, satiyah, pengaruh, faktorfaktor, pel...","[abstrak, satiyah, pengaruh, faktorfaktor, lat..."
5,"[abstrak, tujuan, penelitian, mengidentifikasi...","[abstrak, tuju, teliti, identifikasi, variabel..."


from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

factory = StemmerFactory()
stemmer = factory.create_stemmer()


## **Indexing**

Indexing dalam Information Retrieval (IR) adalah proses membuat struktur data khusus yang berfungsi untuk memetakan kata (term) ke dokumen-dokumen yang mengandung kata tersebut. Tujuannya agar pencarian informasi menjadi lebih cepat, efisien, dan terstruktur tanpa harus memindai keseluruhan dokumen satu per satu.

In [None]:
from collections import defaultdict
import json

inverted_index = defaultdict(set)

for doc_id, tokens in enumerate(df['stemmed_abstrak_id']):
    for token in tokens:
        inverted_index[token].add(doc_id)

inverted_index = {term: sorted(list(doc_ids)) for term, doc_ids in inverted_index.items()}

print("Inverted Index Lengkap:\n")
for term, doc_ids in inverted_index.items():
    print(f"{term}: {doc_ids}")

with open("inverted_index.json", "w", encoding="utf-8") as f:
    json.dump(inverted_index, f, ensure_ascii=False, indent=2)

print("\n✅ Inverted index berhasil dibuat dan disimpan ke 'inverted_index.json'")


Inverted Index Lengkap:

aplikasi: [0, 45, 264, 460, 815, 896]
nyata: [0, 18, 36, 143, 236, 249, 290, 300, 331, 354, 356, 434, 477, 522, 539, 721, 730, 898, 901, 919]
manfaat: [0, 13, 71, 100, 155, 198, 271, 297, 332, 380, 443, 575, 764, 818, 885, 987]
teknologi: [0, 198, 200, 271, 885, 1016]
informasi: [0, 39, 115, 136, 142, 210, 236, 250, 267, 271, 307, 405, 456, 485, 558, 655, 714, 724, 799, 847, 854, 858, 868, 928, 930, 934, 991, 1004, 1016]
komunikasi: [0, 24, 53, 82, 152, 172, 175, 177, 200, 256, 267, 290, 292, 311, 317, 320, 324, 372, 380, 494, 519, 523, 616, 625, 664, 695, 721, 764, 776, 803, 830, 877, 885, 891, 898, 899, 900, 934, 1015]
bidang: [0, 9, 14, 58, 83, 102, 104, 135, 141, 154, 196, 212, 217, 220, 263, 298, 336, 388, 391, 400, 406, 412, 424, 484, 503, 539, 548, 557, 574, 725, 735, 752, 866, 878, 893, 900, 910, 963, 999, 1018]
layan: [0, 4, 12, 13, 14, 15, 39, 40, 42, 45, 50, 61, 67, 77, 95, 98, 114, 128, 133, 135, 142, 144, 152, 153, 168, 173, 186, 191, 193, 201, 204

## **Term Frequency**

Term Frequency adalah ukuran seberapa sering suatu kata (term) muncul dalam sebuah dokumen.

* Semakin sering sebuah kata muncul dalam dokumen, semakin besar bobot kata itu dianggap penting dalam dokumen tersebut.

* TF biasanya dihitung dengan rumus sederhana

In [None]:
from collections import Counter

all_stemmed_words = [word for tokens in df['stemmed_abstrak_id'] for word in tokens]
word_frequencies = Counter(all_stemmed_words)
print("Top Most Frequent Words:")
for word, frequency in word_frequencies.most_common():
    print(f"{word}: {frequency}")

Top Most Frequent Words:
pengaruh: 5550
kerja: 5386
teliti: 4381
variabel: 3539
usaha: 2535
signifikan: 2440
uji: 2363
karyawan: 2256
nilai: 1903
hasil: 1781
analisis: 1456
positif: 1307
sampel: 1174
data: 1065
putus: 1040
tuju: 1022
parsial: 996
metode: 965
simultan: 949
tingkat: 927
kunci: 891
regresi: 886
beli: 880
indonesia: 853
pt: 849
puas: 844
t: 776
dasar: 767
ganda: 745
saham: 741
teknik: 739
ratio: 704
sampling: 636
x: 629
return: 626
bursa: 605
milik: 602
efek: 602
daftar: 601
ambil: 600
bimbing: 584
harga: 582
produk: 564
kuantitatif: 542
linier: 539
motivasi: 538
bangkal: 536
dominan: 534
f: 481
oleh: 478
periode: 476
responden: 474
uang: 455
hipotesis: 451
kualitas: 450
konsumen: 436
pegawai: 426
bawah: 426
mm: 420
bank: 413
kabupaten: 408
populasi: 408
madura: 407
r: 407
koefisien: 401
on: 395
to: 392
abstrak: 378
merek: 370
organisasi: 370
equity: 360
purposive: 354
profitabilitas: 351
studi: 344
faktor: 344
thitung: 333
dekat: 332
tbk: 332
prestasi: 330
disiplin: 329
t