In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
import pandas as pd
import re
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity

# Fungsi pra-pemrosesan teks
def preprocess_text(text):
    # Mengubah ke huruf kecil
    text = text.lower()
    # Menghilangkan tanda baca
    text = re.sub(r'[^\w\s]', '', text)
    return text

# Baca dataset dari file CSV
file_path = '/content/drive/MyDrive/Capstone/cleaned_kitab_hukum_perdata.csv'
df = pd.read_csv(file_path, encoding='ISO-8859-1')

# Terapkan pra-pemrosesan pada kolom teks
df['processed_text'] = df['Isi'].apply(preprocess_text)

# Membuat matriks TF-IDF dari teks yang diproses
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(df['processed_text'])

# Fungsi untuk mencari pasal dan menampilkan isinya berdasarkan query pengguna
def search_with_content(query):
    # Pra-pemroses query
    query_processed = preprocess_text(query)
    query_vector = vectorizer.transform([query_processed])
    similarities = cosine_similarity(query_vector, tfidf_matrix).flatten()
    # Temukan indeks dokumen dengan kesamaan tertinggi
    most_relevant_index = similarities.argsort()[-1]
    relevant_pasal = df.iloc[most_relevant_index]['Pasal']
    relevant_content = df.iloc[most_relevant_index]['Isi']
    similarity_score = similarities[most_relevant_index]
    return relevant_pasal, relevant_content, similarity_score

# Input pengguna
user_query = input("Masukkan query Anda: ")
pasal, isi, similarity = search_with_content(user_query)
print(f"Pasal yang paling relevan: {pasal}, dengan skor kesamaan: {similarity}\nIsi Pasal: {isi}")


Masukkan query Anda: jika ada ahli waris yang menolak warisan pasal berapa yang mengatur hal tersebut?
Pasal yang paling relevan: Pasal 1058, dengan skor kesamaan: 0.4677923326060011
Isi Pasal: Ahli waris yang menolak warisan, dianggap tidak pernah menjadi ahli waris.
