<a href="https://colab.research.google.com/github/gdepradd/portfolio/blob/master/PDF_Similarity_without_NLP.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [2]:
pip install PyPDF2

Collecting PyPDF2
  Downloading pypdf2-3.0.1-py3-none-any.whl.metadata (6.8 kB)
Downloading pypdf2-3.0.1-py3-none-any.whl (232 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m232.6/232.6 kB[0m [31m4.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: PyPDF2
Successfully installed PyPDF2-3.0.1


In [3]:
import PyPDF2
import os

In [4]:
def read_pdf(file_path):
    # Membaca teks dari file PDF
    with open(file_path, 'rb') as file:
        reader = PyPDF2.PdfReader(file)
        text = ""
        for page in reader.pages:
            text += page.extract_text()
    return text

In [5]:
def split_into_sentences(text):
    # Pisahkan teks menjadi kalimat berdasarkan tanda titik
    sentences = text.split('.')

    # Normalisasi: Trim spasi, ubah ke lowercase, dan hilangkan kalimat kosong
    sentences = [sentence.strip().lower() for sentence in sentences if sentence.strip()]

    return sentences

In [6]:
def calculate_similarity_for_one_article(article_text, other_articles):
    # Pisahkan kalimat-kalimat dari artikel utama
    article_sentences = split_into_sentences(article_text)

    total_sentences = len(article_sentences)
    if total_sentences == 0:
        return 0  # Hindari pembagian dengan nol jika artikel kosong

    # Hitung jumlah similarity
    similar_count = 0
    for sentence in article_sentences:
        # Cek kalimat ini ada di salah satu artikel lain atau tidak
        if any(sentence in split_into_sentences(other_article) for other_article in other_articles):
            similar_count += 1
            break # Lanjut ke kalimat berikutnya jika sudah ditemukan kemiripan

    # Hitung persentase kemiripan
    similarity_percentage = (similar_count / total_sentences) * 100
    return similarity_percentage

def calculate_all_similarities(folder_path):
    # Dapatkan semua file PDF dalam folder
    pdf_files = [f for f in os.listdir(folder_path) if f.endswith('.pdf')]

    # Baca semua artikel dari file PDF
    articles_text = [read_pdf(os.path.join(folder_path, pdf)) for pdf in pdf_files]

    # Simpan hasil similarity untuk tiap artikel
    similarity_results = []

    # Hitung similarity untuk setiap artikel dibandingkan dengan semua artikel lainnya
    for i, article_text in enumerate(articles_text):
        other_articles = [articles_text[j] for j in range(len(articles_text)) if j != i]
        similarity = calculate_similarity_for_one_article(article_text, other_articles)
        similarity_results.append((pdf_files[i], similarity))

    return similarity_results

# Contoh Penggunaan
folder_path = '/content/tes'
# Hitung similarity antar semua artikel dalam folder
similarity_results = calculate_all_similarities(folder_path)

# Tampilkan hasil similarity per artikel dengan nama file
for article, similarity in similarity_results:
    print(f"Similarity dari {article}: {similarity:.2f}%") # Hasil yang lebih ringkas

Similarity dari tes5.pdf: 0.00%
Similarity dari tes3.pdf: 50.00%
Similarity dari tes4.pdf: 33.33%
Similarity dari tes1.pdf: 50.00%
Similarity dari tes2.pdf: 50.00%
