# **Klasifikasi Judul Skripsi Mahasiswa Biologi Menggunakan Pendekatan Text Mining dan Rule-Based NLP**



**1. Instalasi dan Import Library**

In [1]:
%pip install sastrawi nltk pandas openpyxl

Collecting sastrawi
  Downloading Sastrawi-1.0.1-py2.py3-none-any.whl.metadata (909 bytes)
Downloading Sastrawi-1.0.1-py2.py3-none-any.whl (209 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m209.7/209.7 kB[0m [31m5.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: sastrawi
Successfully installed sastrawi-1.0.1


In [5]:
import pandas as pd
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
import matplotlib.pyplot as plt

# Download resource NLTK
nltk.download('punkt_tab')
nltk.download('stopwords')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

**2. Load dan Eksplorasi Data**

In [3]:
# === Memuat Dataset ===
df = pd.read_excel("SkripsiBiologi.xlsx")
judul_skripsi = df.iloc[2:, 5].dropna().reset_index(drop=True)
judul_df = pd.DataFrame({'JUDUL SKRIPSI': judul_skripsi})
judul_df.head()

Unnamed: 0,JUDUL SKRIPSI
0,UJI AKTIVITAS ANTIOKSIDAN DAN TOKSISITAS AKUT ...
1,ANALISIS KUALITAS AIR SUMUR GALI DI SEKITAR PE...
2,Kelimpahan Dan Keanekaragaman Jenis Ordo Lepid...
3,Analisis Mikroplastik dan Logam Berat Timbal (...
4,"PENGARUH KOMBINASI NUTRISI PUPUK NPK, GANDASIL..."


**3. Preprocessing**

In [6]:
# === Inisialisasi Stopwords dan Stemmer ===
stop_words = set(stopwords.words('indonesian'))
stemmer = StemmerFactory().create_stemmer()

# === Fungsi Praproses ===
def preprocess_text(text):
    tokens = word_tokenize(text.lower())
    filtered = [w for w in tokens if w.isalpha() and w not in stop_words]
    stemmed = [stemmer.stem(w) for w in filtered]
    return stemmed

# Contoh uji
contoh = judul_df['JUDUL SKRIPSI'][0]
print("Contoh hasil praproses:", preprocess_text(contoh))

Contoh hasil praproses: ['uji', 'aktivitas', 'antioksidan', 'toksisitas', 'akut', 'ekstrak', 'kulit', 'buah', 'jeruk', 'siam', 'citrus', 'nobilis', 'larut', 'proses', 'maserasi']


**4. Klasifikasi Rule-Based**

In [7]:
# === Fungsi Klasifikasi Berdasarkan Kata Kunci ===
def classify(stemmed_tokens):
    if any(w in stemmed_tokens for w in ['laut', 'karang', 'terumbu', 'biota', 'ekosistem laut', 'pantai', 'ikan', 'air', 'water', 'marine', 'ocean', 'coral', 'plankton', 'mangrove', 'kepiting', 'Plankton', 'lobster']):
        return 'Coral'
    elif any(w in stemmed_tokens for w in ['goa', 'gua', 'stalaktit', 'stalagmit', 'batu', 'cave', 'karst', 'geologi', 'geomorfologi']):
        return 'Stigobites'
    elif any(w in stemmed_tokens for w in ['serangga', 'kupu', 'capung', 'entomologi', 'lepido', 'odonato', 'kelelawar', 'insect', 'lepidoptera','ordo', 'diptera', 'serangga', 'nematoda', 'arthropoda', 'orthoptera', 'lebah', 'rhopalocera', 'papilionoidea', 'nyamuk', 'lalat', 'litura', 'papilionoidea']):
        return 'Kutrik'
    elif any(w in stemmed_tokens for w in ['jamur', 'fungi', 'mikroskop', 'mikroskopis', 'kapang', 'ragi', 'hifa', 'mycology', 'bakteri', 'mikroba', 'mikroorganisme', 'kombucha', 'prokariota', 'eukariota', 'escherichia', 'trichoderma']):
        return 'Amoeba'
    elif any(w in stemmed_tokens for w in ['gen', 'genetik', 'dna', 'rna', 'kromosom', 'hewan', 'molekuler', 'bioteknologi', 'genomics', 'mencit', 'gula darah', 'kanker', 'sakit', 'penyakit']):
        return 'Formagenbi'
    elif any(w in stemmed_tokens for w in ['bahasa', 'jurnal', 'artikel', 'english', 'internasional', 'pengembangan bahasa', 'linguistik', 'komunikasi']):
        return 'BEC'
    elif any(w in stemmed_tokens for w in ['reptil', 'ular', 'kadal', 'amfibi', 'herpetologi', 'reptilia', 'amphibia', 'biawak', 'serpentes']):
        return 'Varanus'
    elif any(w in stemmed_tokens for w in ['burung', 'aves', 'ornithologi', 'avian', 'ornithology', 'puyuh', 'ayam', 'kicau']):
        return 'Himantopus'
    elif any(w in stemmed_tokens for w in ['tumbuh', 'tanam', 'flora', 'botani', 'vegetasi', 'tumbuhan', 'angiospermae', 'gymnospermae', 'pohon', 'herba' ,'buah', 'bunga', 'biji', 'daun', 'kulit', 'plantlet', 'probiotik', 'batang', 'etnomedicine', 'cacao', 'hutan', 'sterculia', 'labu', 'bawang', 'garlic', 'rhizosfer', 'porang', 'sagittifolium']):
        return 'Sokabotanisa'
    elif any(w in stemmed_tokens for w in ['mamalia', 'tikus', 'kelelawar', 'rodensia', 'susu', 'mamalia', 'rodentia', 'carnivora', 'primata', 'lutung']):
        return 'AMS'
    else:
        return 'Lainnya'

# === Aplikasikan ke Dataset ===
judul_df['STEMMED_TOKENS'] = judul_df['JUDUL SKRIPSI'].apply(preprocess_text)
judul_df['PENJURUSAN'] = judul_df['STEMMED_TOKENS'].apply(classify)

# Tampilkan hasil
judul_df.head(10)

Unnamed: 0,JUDUL SKRIPSI,STEMMED_TOKENS,PENJURUSAN
0,UJI AKTIVITAS ANTIOKSIDAN DAN TOKSISITAS AKUT ...,"[uji, aktivitas, antioksidan, toksisitas, akut...",Sokabotanisa
1,ANALISIS KUALITAS AIR SUMUR GALI DI SEKITAR PE...,"[analisis, kualitas, air, sumur, gali, penatu,...",Coral
2,Kelimpahan Dan Keanekaragaman Jenis Ordo Lepid...,"[limpah, keanekaragaman, jenis, ordo, lepidopt...",Kutrik
3,Analisis Mikroplastik dan Logam Berat Timbal (...,"[analisis, mikroplastik, logam, berat, timbal,...",Coral
4,"PENGARUH KOMBINASI NUTRISI PUPUK NPK, GANDASIL...","[pengaruh, kombinasi, nutrisi, pupuk, npk, gan...",Sokabotanisa
5,Pengaruh Kombinasi Ekstrak Biji Lada (Piper ni...,"[pengaruh, kombinasi, ekstrak, biji, lada, pip...",Kutrik
6,PENGARUH PEMBERIAN (MOL) BONGGOL PISANG DAN LI...,"[pengaruh, beri, mol, bonggol, pisang, limbah,...",Sokabotanisa
7,Ekstraksi Pemanis Alami dari Tanaman Stevia (S...,"[ekstraksi, man, alami, tanam, stevia, stevia,...",Sokabotanisa
8,Pengaruh Pemberian Ekstrak Kulit Jeruk Siam (C...,"[pengaruh, beri, ekstrak, kulit, jeruk, siam, ...",Formagenbi
9,PENGARUH KOMBINASI ZAT PENGATUR TUMBUH ALAMI D...,"[pengaruh, kombinasi, zat, atur, tumbuh, alami...",Sokabotanisa


**5. Distribusi Klasifikasi**

In [9]:
# === Hitung Distribusi Kategori ===
distribusi = judul_df['PENJURUSAN'].value_counts()
print(distribusi)

PENJURUSAN
Sokabotanisa    96
Coral           90
Amoeba          61
Formagenbi      38
Kutrik          33
Stigobites      16
AMS              3
Himantopus       3
Varanus          3
Lainnya          2
Name: count, dtype: int64


Klasifikasi

1. coral : kelompok studi yang fokus pada biota laut,dan ekosistem laut
2. stigobites : mempelajari ekosistem dan keanekaragaman dalam goa
3. kutrik : mempelajari tentang keanekaragaman serangga terutama kupu kupu dan capung
4. amoeba : mempelajari keanekaragaman jamur,ini LS semi lab.jadi jamur" mikroskopis juga di pelajari
5. formagenbi : mempelajari genetika,terutama gen pada hewan
6. BEC : terfokus pada pengembangan bahasa inggris,membedah jurnal jurnal internasinal
7. varanus : kelompok studi yang mempelajari reptil
8. himantopus : mempelajari keanekaragaman burung
9. sokabotanisa : mempelajari keanekaragaman tumbuhan
10. AMS : mempelajari keanekaragan mamalia