## **Pre-Processing Text**

Datasetnya berupa hasil crawling PTA dan Berita melalui website detik.com



# Load Dataset PTA

In [2]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [24]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/semester 5/ppw/pta_fatek_5halaman.csv')
print(df.head())

                 penulis                                              judul  \
0     A.Ubaidillah S.Kom  PERANCANGAN DAN IMPLEMENTASI SISTEM DATABASE \...   
1    M. Basith Ardianto,  APLIKASI KONTROL DAN MONITORING JARINGAN KOMPU...   
2  Akhmad Suyandi, S.Kom  RANCANG BANGUN APLIKASI PROXY SERVER UNTUK\r\n...   
3        Heri Supriyanto  SISTEM PENDUKUNG KEPUTUSAN OPTIMASI PENJADWALA...   
4   Septian Rahman Hakim  SISTEM AUGMENTED REALITY ANIMASI BENDA BERGERA...   

              pembimbing_pertama pembimbing_kedua  \
0               Budi Setyono M.T              NaN   
1          Drs. Budi Soesilo, MT              NaN   
2         Drs. Budi Soesilo, M.T              NaN   
3           Mulaab, S.Si., M.Kom              NaN   
4  Arik Kurniawati, S.Kom., M.T.              NaN   

                                             abstrak               prodi  
0  Sistem  informasi  akademik  (SIAKAD) merupaka...  Teknik Informatika  
1  Berjalannya koneksi jaringan komputer dengan l...  Te

### **1. Penghapusan Kata Umum (Stop Word)**

Menghapus kata-kata umum (indonesia)

In [10]:
import pandas as pd
import nltk
from nltk.corpus import stopwords

# Download stopwords bahasa Indonesia
nltk.download('stopwords')

# Load dataset
df = pd.read_csv("/content/drive/MyDrive/semester 5/ppw/pta_fatek_5halaman.csv")  # ganti dengan nama file kamu

# Ambil kolom abstrak
df = df[[ 'abstrak']]

# Ambil stopwords bahasa Indonesia
stop_words = set(stopwords.words('indonesian'))

def remove_stopwords(text):
    words = text.lower().split()  # ubah ke huruf kecil & pisah kata
    filtered_words = [word for word in words if word not in stop_words]
    return " ".join(filtered_words)

# Terapkan stopword removal
df['abstrak(stopword)'] = df['abstrak'].astype(str).apply(remove_stopwords)

print(df[['abstrak', 'abstrak(stopword)']].head())

                                             abstrak  \
0  Sistem  informasi  akademik  (SIAKAD) merupaka...   
1  Berjalannya koneksi jaringan komputer dengan l...   
2  Web server adalah sebuah perangkat lunak serve...   
3  Penjadwalan  kuliah  di  Perguruan  Tinggi  me...   
4  Seiring perkembangan teknologi yang ada diduni...   

                                   abstrak(stopword)  
0  sistem informasi akademik (siakad) sistem info...  
1  berjalannya koneksi jaringan komputer lancar g...  
2  web server perangkat lunak server berfungsi me...  
3  penjadwalan kuliah perguruan kompleks. permasa...  
4  seiring perkembangan teknologi didunia, muncul...  


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### **2. pembersihan Teks**

Konversi teks menjadi huruf kecil, menghapus tanda baca, angka, karakter khusus, dan tag HTML.

In [12]:
import re
import pandas as pd
import nltk
from nltk.corpus import stopwords

def clean_text(text):
    text = text.lower()  # ubah ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text)  # hapus semua tanda baca (punctuation)
    words = text.split()
    words = [word for word in words if word not in stop_words]  # hapus stopwords
    return " ".join(words)

# Terapkan pembersihan
df['abstrak_clean'] = df['abstrak(stopword)'].astype(str).apply(clean_text)

print(df[['abstrak','abstrak(stopword)', 'abstrak_clean']].head())

                                             abstrak  \
0  Sistem  informasi  akademik  (SIAKAD) merupaka...   
1  Berjalannya koneksi jaringan komputer dengan l...   
2  Web server adalah sebuah perangkat lunak serve...   
3  Penjadwalan  kuliah  di  Perguruan  Tinggi  me...   
4  Seiring perkembangan teknologi yang ada diduni...   

                                   abstrak(stopword)  \
0  sistem informasi akademik (siakad) sistem info...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks. permasa...   
4  seiring perkembangan teknologi didunia, muncul...   

                                       abstrak_clean  
0  sistem informasi akademik siakad sistem inform...  
1  berjalannya koneksi jaringan komputer lancar g...  
2  web server perangkat lunak server berfungsi me...  
3  penjadwalan kuliah perguruan kompleks permasal...  
4  seiring perkembangan teknologi didunia muncul ..

### **3. Pemeriksaan Ejaan Kata**

Memperbaiki kesalahan ejaan dalam teks.

In [13]:
# Kamus kata tidak baku → kata baku
kamus_kata = {
    "tehnik": "teknik",
    "yg": "yang",
    "tdk": "tidak",
    "dr": "dari",
    "utk": "untuk",
    "dlm": "dalam",
    "tp": "tapi",
    "jg": "juga",
    "krn": "karena",
    "bkn": "bukan",
    "sdh": "sudah",
    "sm": "sama"
}

def normalisasi_kata(teks):
    kata = teks.split()
    kata_baru = []
    for k in kata:
        # jika ada di kamus_kata → ganti
        kata_baru.append(kamus_kata.get(k, k))
    return " ".join(kata_baru)

# Terapkan normalisasi
df['abstrak(cek ejaan)'] = df['abstrak_clean'].astype(str).apply(normalisasi_kata)

print(df[['abstrak','abstrak(stopword)','abstrak_clean', 'abstrak(cek ejaan)']].head())


                                             abstrak  \
0  Sistem  informasi  akademik  (SIAKAD) merupaka...   
1  Berjalannya koneksi jaringan komputer dengan l...   
2  Web server adalah sebuah perangkat lunak serve...   
3  Penjadwalan  kuliah  di  Perguruan  Tinggi  me...   
4  Seiring perkembangan teknologi yang ada diduni...   

                                   abstrak(stopword)  \
0  sistem informasi akademik (siakad) sistem info...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks. permasa...   
4  seiring perkembangan teknologi didunia, muncul...   

                                       abstrak_clean  \
0  sistem informasi akademik siakad sistem inform...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks permasal...   
4  seiring perkembangan teknologi didunia munc

### **4. Stemming dan Lematisasi**

Mengurangi kata-kata ke bentuk dasarnya menggunakan stemming dan lemmatisasi.

In [14]:
!pip install Sastrawi

Collecting Sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/209.7 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m6.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: Sastrawi
Successfully installed Sastrawi-1.0.1


In [17]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stemming_indo(teks):
    return stemmer.stem(teks)

# Terapkan stemming
df['abstrak_stem'] = df['abstrak(cek ejaan)'].astype(str).apply(stemming_indo)

print(df[['abstrak','abstrak(stopword)','abstrak_clean','abstrak(cek ejaan)', 'abstrak_stem']].head())

                                             abstrak  \
0  Sistem  informasi  akademik  (SIAKAD) merupaka...   
1  Berjalannya koneksi jaringan komputer dengan l...   
2  Web server adalah sebuah perangkat lunak serve...   
3  Penjadwalan  kuliah  di  Perguruan  Tinggi  me...   
4  Seiring perkembangan teknologi yang ada diduni...   

                                   abstrak(stopword)  \
0  sistem informasi akademik (siakad) sistem info...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks. permasa...   
4  seiring perkembangan teknologi didunia, muncul...   

                                       abstrak_clean  \
0  sistem informasi akademik siakad sistem inform...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks permasal...   
4  seiring perkembangan teknologi didunia munc

### **5. Tokenisasi**

Membagi teks yang telah olah menjadi token (kata).

In [19]:
def tokenisasi(teks):
    # Pisah berdasarkan spasi & hilangkan token kosong
    tokens = re.findall(r'\b\w+\b', str(teks))
    return tokens

# Terapkan tokenisasi
df['abstrak_tokens'] = df['abstrak_stem'].apply(tokenisasi)
# Contoh hasil
print(df[['abstrak','abstrak(stopword)','abstrak_clean','abstrak(cek ejaan)','abstrak_stem', 'abstrak_tokens']].head())

# Simpan hasil
df.to_csv("hasil-pre-pro_abstrak(PTA).csv", index=False, encoding="utf-8-sig")
print("✅ Hasil disimpan di hasil-pre-pro_abstrak(PTA).csv")


                                             abstrak  \
0  Sistem  informasi  akademik  (SIAKAD) merupaka...   
1  Berjalannya koneksi jaringan komputer dengan l...   
2  Web server adalah sebuah perangkat lunak serve...   
3  Penjadwalan  kuliah  di  Perguruan  Tinggi  me...   
4  Seiring perkembangan teknologi yang ada diduni...   

                                   abstrak(stopword)  \
0  sistem informasi akademik (siakad) sistem info...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks. permasa...   
4  seiring perkembangan teknologi didunia, muncul...   

                                       abstrak_clean  \
0  sistem informasi akademik siakad sistem inform...   
1  berjalannya koneksi jaringan komputer lancar g...   
2  web server perangkat lunak server berfungsi me...   
3  penjadwalan kuliah perguruan kompleks permasal...   
4  seiring perkembangan teknologi didunia munc

# Load Dataset (Berita)

In [25]:
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/semester 5/ppw/CrawlBerita_Politik-Olahraga.csv')
print(df.head())

                                               judul  \
0                                    Title Not Found   
1  Mensos Ajak Kepala Daerah Kolaborasi Sukseskan...   
2  Mendagri & CIO Danantara Bahas Penguatan Pendi...   
3  Video: Alasan Tersangka Penculikan Kacab Bank ...   
4  Kemnaker Catat 16.900 Pengunjung PTSA, Mayorit...   

                                                 isi kategori  
0                                  Content Not Found  Politik  
1  Jakarta - Menteri Sosial Saifullah Yusuf (Gus ...  Politik  
2  Jakarta - Menteri Dalam Negeri Muhammad Tito K...  Politik  
3  Polisi mengungkap alasan para tersangka pencul...  Politik  
4  Jakarta - Kementerian Ketenagakerjaan (Kemnake...  Politik  


### **1. Penghapusan Kata Umum (Stop Word)**

Menghapus kata-kata umum (indonesia)

In [34]:
import pandas as pd
import nltk
from nltk.corpus import stopwords

# Download stopwords bahasa Indonesia
nltk.download('stopwords')

# Load dataset
df = pd.read_csv("/content/drive/MyDrive/semester 5/ppw/CrawlBerita_Politik-Olahraga.csv")  # ganti dengan nama file kamu

# Ambil kolom abstrak
df = df[[ 'isi']]

# Ambil stopwords bahasa Indonesia
stop_words = set(stopwords.words('indonesian'))

def remove_stopwords(text):
    words = text.lower().split()  # ubah ke huruf kecil & pisah kata
    filtered_words = [word for word in words if word not in stop_words]
    return " ".join(filtered_words)

# Terapkan stopword removal
df['isi(stopword)'] = df['isi'].astype(str).apply(remove_stopwords)

print(df[['isi', 'isi(stopword)']].head())

                                                 isi  \
0                                  Content Not Found   
1  Jakarta - Menteri Sosial Saifullah Yusuf (Gus ...   
2  Jakarta - Menteri Dalam Negeri Muhammad Tito K...   
3  Polisi mengungkap alasan para tersangka pencul...   
4  Jakarta - Kementerian Ketenagakerjaan (Kemnake...   

                                       isi(stopword)  
0                                  content not found  
1  jakarta - menteri sosial saifullah yusuf (gus ...  
2  jakarta - menteri negeri muhammad tito karnavi...  
3  polisi mengungkap alasan tersangka penculikan ...  
4  jakarta - kementerian ketenagakerjaan (kemnake...  


[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


### **2. pembersihan Teks**

Konversi teks menjadi huruf kecil, menghapus tanda baca, angka, karakter khusus, dan tag HTML.

In [36]:
import re
import pandas as pd
import nltk
from nltk.corpus import stopwords

def clean_text(text):
    text = text.lower()  # ubah ke huruf kecil
    text = re.sub(r'[^\w\s]', '', text)  # hapus semua tanda baca (punctuation)
    words = text.split()
    words = [word for word in words if word not in stop_words]  # hapus stopwords
    return " ".join(words)

# Terapkan pembersihan
df['isi_clean'] = df['isi(stopword)'].astype(str).apply(clean_text)

print(df[['isi','isi(stopword)', 'isi_clean']].head())

                                                 isi  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnaker m...   

                                       isi(stopword)  \
0                                  content not found   
1  jakarta - menteri sosial saifullah yusuf (gus ...   
2  jakarta - menteri negeri muhammad tito karnavi...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta - kementerian ketenagakerjaan (kemnake...   

                                           isi_clean  
0                                  content not found  
1  jakarta menteri sosial saifullah yusuf gus ipu...  
2  jakarta menteri negeri muhammad tito karnavian...  
3  polisi mengungkap alasan tersangka penculikan ...  
4  jakarta kementerian ketenagakerjaan kemnaker m..

### **3. Pemeriksaan Ejaan Kata**

Memperbaiki kesalahan ejaan dalam teks.

In [37]:
# Kamus kata tidak baku → kata baku
kamus_kata = {
    "tehnik": "teknik",
    "yg": "yang",
    "tdk": "tidak",
    "dr": "dari",
    "utk": "untuk",
    "dlm": "dalam",
    "tp": "tapi",
    "jg": "juga",
    "krn": "karena",
    "bkn": "bukan",
    "sdh": "sudah",
    "sm": "sama"
}

def normalisasi_kata(teks):
    kata = teks.split()
    kata_baru = []
    for k in kata:
        # jika ada di kamus_kata → ganti
        kata_baru.append(kamus_kata.get(k, k))
    return " ".join(kata_baru)

# Terapkan normalisasi
df['isi(cek ejaan)'] = df['isi_clean'].astype(str).apply(normalisasi_kata)

print(df[['isi','isi(stopword)','isi_clean', 'isi(cek ejaan)']].head())


                                                 isi  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnaker m...   

                                       isi(stopword)  \
0                                  content not found   
1  jakarta - menteri sosial saifullah yusuf (gus ...   
2  jakarta - menteri negeri muhammad tito karnavi...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta - kementerian ketenagakerjaan (kemnake...   

                                           isi_clean  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnake

### **4. Stemming dan Lematisasi**

Mengurangi kata-kata ke bentuk dasarnya menggunakan stemming dan lemmatisasi.

In [38]:
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Buat stemmer
factory = StemmerFactory()
stemmer = factory.create_stemmer()

def stemming_indo(teks):
    return stemmer.stem(teks)

# Terapkan stemming
df['isi_stem'] = df['isi(cek ejaan)'].astype(str).apply(stemming_indo)

print(df[['isi','isi(stopword)','isi_clean', 'isi(cek ejaan)','isi_stem']].head())

                                                 isi  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnaker m...   

                                       isi(stopword)  \
0                                  content not found   
1  jakarta - menteri sosial saifullah yusuf (gus ...   
2  jakarta - menteri negeri muhammad tito karnavi...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta - kementerian ketenagakerjaan (kemnake...   

                                           isi_clean  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnake

### **5. Tokenisasi**

Membagi teks yang telah olah menjadi token (kata).

In [39]:
def tokenisasi(teks):
    # Pisah berdasarkan spasi & hilangkan token kosong
    tokens = re.findall(r'\b\w+\b', str(teks))
    return tokens

# Terapkan tokenisasi
df['isi_tokens'] = df['isi_stem'].apply(tokenisasi)
# Contoh hasil
print(df[['isi','isi(stopword)','isi_clean','isi(cek ejaan)','isi_stem', 'isi_tokens']].head())

# Simpan hasil
df.to_csv("hasil-pre-pro_isi_berita.csv", index=False, encoding="utf-8-sig")
print("✅ Hasil disimpan di hasil-pre-pro_isi_berita.csv")


                                                 isi  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnaker m...   

                                       isi(stopword)  \
0                                  content not found   
1  jakarta - menteri sosial saifullah yusuf (gus ...   
2  jakarta - menteri negeri muhammad tito karnavi...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta - kementerian ketenagakerjaan (kemnake...   

                                           isi_clean  \
0                                  content not found   
1  jakarta menteri sosial saifullah yusuf gus ipu...   
2  jakarta menteri negeri muhammad tito karnavian...   
3  polisi mengungkap alasan tersangka penculikan ...   
4  jakarta kementerian ketenagakerjaan kemnake