 Word Counter

Menghitung kata penting dalam dokumen TXT, DOCX, dan PDF.

- Emelsha Viadra (152022056)
- Naufal Zaidan (152022168)

In [140]:
import os
import re
from collections import Counter
import docx 
import fitz  
import pandas as pd

NRP_1 = "152022056"
NAMA_1 = "Emelsha Viadra"
NRP_2 = "152022168"
NAMA_2 = "Naufal Zaidan"
STOPWORD_FILE = r"stopwordbahasa.csv"
directory = "text"

Load Stopwords Function 
Fungsi `load_stopwords(filepath)`:
- Input: Path file CSV yang berisi daftar stopwords
- Proses: Membaca file CSV tanpa header menggunakan pandas
- Output: Set dari stopwords untuk pencarian yang lebih efisien
- Kegunaan: Memuat kata-kata umum yang akan difilter dari perhitungan

In [141]:
def load_stopwords(filepath):
    stopwords = pd.read_csv(filepath, header=None)[0].tolist()
    return set(stopwords)

File Reading Functions 

read_txt(filepath)
- Input: Path file TXT
- Proses: Membuka dan membaca file teks dengan encoding UTF-8
- Output: String berisi seluruh isi file

 read_docx(filepath)
- Input: Path file DOCX
- Proses: Membaca dokumen Word dan menggabungkan semua paragraf
- Output: String berisi seluruh teks dari dokumen

 read_pdf(filepath)
- Input: Path file PDF
- Proses: Membaca setiap halaman PDF dan menggabungkan teksnya
- Output: String berisi seluruh teks dari PDF

In [142]:
def read_txt(filepath):
    with open(filepath, "r", encoding="utf-8") as file:
        return file.read()

def read_docx(filepath):
    doc = docx.Document(filepath)
    return "\n".join([paragraph.text for paragraph in doc.paragraphs])

def read_pdf(filepath):
    doc = fitz.open(filepath)
    text = ""
    for page in doc:
        text += page.get_text()
    return text

 Text Processing Functions 

 tokenize(text)
- Input: String teks
- Proses:
  1. Mengkonversi teks ke lowercase
  2. Menggunakan regex untuk memisahkan kata-kata
  3. Pattern `\b\w+\b`: mencari kata yang terdiri dari karakter word (\w)
- Output: List token-token kata

 filter_tokens(tokens, stopwords)
- Input: List token dan set stopwords
- Proses: Menyaring token yang tidak ada dalam stopwords
- Output: List token yang sudah difilter

In [None]:
def tokenize(text):
    text = text.lower()
    tokens = re.findall(r'\b[\w-]+\b', text)
    return tokens

def filter_tokens(tokens, stopwords):
    return [token for token in tokens if token not in stopwords]

 Document Processing Function 

Fungsi `process_document(filepath, stopwords)`:
- Input: Path file dan set stopwords
- Proses:
  1. Mendeteksi tipe file (.txt, .docx, .pdf)
  2. Memanggil fungsi pembaca yang sesuai
  3. Melakukan tokenisasi teks
  4. Memfilter stopwords
  5. Menghitung frekuensi kata dengan Counter
- Output: Dictionary berisi frekuensi setiap kata penting

In [144]:
def process_document(filepath, stopwords):
    if filepath.endswith(".txt"):
        content = read_txt(filepath)
    elif filepath.endswith(".docx"):
        content = read_docx(filepath)
    elif filepath.endswith(".pdf"):
        content = read_pdf(filepath)
    else:
        raise ValueError(f"Format file tidak didukung: {filepath}")

    tokens = tokenize(content)
    filtered_tokens = filter_tokens(tokens, stopwords)
    word_counts = Counter(filtered_tokens)
    print(word_counts)
    return word_counts

 Main Execution 

Program utama melakukan:
1. Menampilkan identitas mahasiswa
2. Memuat stopwords dari file CSV
3. Meminta input direktori dari user
4. Validasi keberadaan direktori
5. Untuk setiap file yang didukung (.txt, .docx, .pdf):
   - Membaca dan memproses file
   - Menampilkan hasil perhitungan kata
   - Menangani error jika terjadi masalah

Output menampilkan:
- Kata-kata penting yang ditemukan
- Frekuensi kemunculan setiap kata

In [145]:
print(f"NRP: {NRP_1}")
print(f"NAMA: {NAMA_1}")
print(f"NRP: {NRP_2}")
print(f"NAMA: {NAMA_2}\n")

stopwords = load_stopwords(STOPWORD_FILE)

print("Memproses dokumen di direktori:", directory)

if not os.path.exists(directory):
    print(f"Direktori {directory} tidak ditemukan.")
else:
    for filename in os.listdir(directory):
        filepath = os.path.join(directory, filename)
        if not os.path.isfile(filepath):
            continue
        if filepath.endswith((".txt", ".docx", ".pdf")):
            print(f"\nMembaca file: {filename}")
            try:
                word_counts = process_document(filepath, stopwords)
                print(f"5 kata terbanyak di {filename}:")
                top_words = sorted(word_counts.items(), key=lambda x: x[1], reverse=True)[:5]
                for word, count in top_words:
                    print(f"- Kata '{word}' sebanyak {count} kata")
            except Exception as e:
                print(f"Error memproses file {filename}: {e}")

NRP: 152022056
NAMA: Emelsha Viadra
NRP: 152022168
NAMA: Naufal Zaidan

Memproses dokumen di direktori: text

Membaca file: Penerapan Algoritma FP-Growth Dalam Analisis Pola Asosiasi pada Penjualan Supermarket.docx
Counter({'fp-growth': 17, 'data': 16, 'algoritma': 12, 'pola': 12, 'item': 11, 'frekuen': 10, 'frequent': 8, 'transaksi': 8, 'fp-tree': 8, 'analisis': 7, 'support': 7, 'mining': 6, 'itemset': 6, 'teknologi': 3, 'industri': 3, 'pattern': 3, 'muncul': 3, 'menghasilkan': 3, 'efisien': 3, 'tree': 3, 'pemrosesan': 3, 'penelitian': 3, 'rumus': 3, 'database': 3, 'x': 3, 'batas': 3, 'minimum': 3, 'a': 3, 'penerapan': 2, 'asosiasi': 2, 'menemukan': 2, 'dirancang': 2, 'item-item': 2, 'apriori': 2, 'kandidat': 2, 'membangun': 2, 'struktur': 2, 'bentuk': 2, 'pohon': 2, 'dataset': 2, 'domain': 2, 'retail': 2, 'e-commerce': 2, 'pelanggan': 2, 'meningkatkan': 2, 'aplikasi': 2, 'variasi': 2, 'alat': 2, 'big': 2, 'konsep': 2, 'd': 2, 't': 2, 'ditentukan': 2, 'hitung': 2, 'frekuensi': 2, 'mem