In [28]:
import fitz  # PyMuPDF
import re

def extract_text_from_pdf(pdf_path):
    text = ""
    doc = fitz.open(pdf_path)
    for page in doc:
        text += page.get_text()
    text = text.replace('\n', ' ')
    return text

def extract_citation_sentences(text):
    citation_patterns = [
        r'\[[0-9,\s]+\]',
        r'\([A-Z][a-z]+ et al\., \d{4}\)',
        r'\([A-Z][a-z]+, \d{4}\)',
        r'\([A-Z][a-z]+ & [A-Z][a-z]+, \d{4}\)',
        r'\([A-Z][a-z]+, [A-Z][a-z]+, & [A-Z][a-z]+, \d{4}\)',
        r'[A-Z][a-z]+ \(\d{4}\)',
        r'[A-Z][a-z]+ and [A-Z][a-z]+ \(\d{4}\)',
        r'[A-Z][a-z]+ et al\. \(\d{4}\)',
    ]

    combined_pattern = '|'.join(citation_patterns)
    sentences = re.split(r'(?<=[.!?])\s+', text)

    citation_sentences = [
        s for s in sentences
        if re.search(combined_pattern, s) and len(s.split()) >= 5
    ]
    return citation_sentences

def highlight_citation_sentences(pdf_path, output_path):
    doc = fitz.open(pdf_path)
    all_text = extract_text_from_pdf(pdf_path)
    citation_sentences = extract_citation_sentences(all_text)

    for page in doc:
        for sentence in citation_sentences:
            areas = page.search_for(sentence)
            for rect in areas:
                highlight = page.add_highlight_annot(rect)
                highlight.update()

    doc.save(output_path)
    doc.close()


# Contoh pemakaian
pdf_path = 'test.pdf'
output_path = 'highlighted_output.pdf'
highlight_citation_sentences(pdf_path, output_path)


In [15]:
import pandas as pd

In [16]:
sentences = pd.DataFrame(citation_sentences)

In [17]:
sentences.head(10)

Unnamed: 0,0
0,Kalimat rujukan yang tertulis dalam karya tul...
1,Setiap karya ilmiah mempunyai proses analisis ...
2,Klasifikasi merupakan proses penggolongan a...
3,Dengan hasil tersebut NLP memberikan respo...
4,Beberapa penelitian terdahulu NLP dapat beker...
5,Dengan hasil tersebut NLP memberikan respon y...
6,Hasil penelitian sebelumnya hanya berfokus pad...
7,Selain itu terdapat juga penelitian yang ...
8,Hasil yang didapatkan pada penelitian tersebut...
9,Pada penelitian lain dapat melakukan klasifika...


In [6]:
import pandas as pd

data = pd.read_csv('dataset/data_test_asli.csv')

In [8]:
modus_processed = data['processed_text'].mode()[0]

# Isi NaN dengan modus
data['processed_text'] = data['processed_text'].fillna(modus_processed)

In [9]:
data.isnull().sum()

processed_text    0
translated        0
label             0
dtype: int64

In [12]:
data.drop(columns="translated", inplace=True)

In [None]:
data.to_csv('dataset/data_test_asli.csv')

: 

In [11]:
data.head()

Unnamed: 0,processed_text,translated,label
0,pembandingan yang konstan adalah strategi anal...,Pembandingan yang konstan adalah strategi anal...,0
1,rasio strain ini konsisten dengan data eksperi...,Rasio strain ini konsisten dengan data eksperi...,2
2,penelitian telah memperlihatkan tingkat obesit...,Penelitian telah memperlihatkan bahwa meskipun...,0
3,dibandingkan dengan keakuratan penilaian ef ed...,[25] dibandingkan dengan keakuratan penilaian ...,1
4,data dihasilkan dengan model yang sama yang ba...,Karena data dihasilkan dengan model yang sama ...,1
