In [4]:
import os
from docx import Document
import string
from nltk.tokenize import word_tokenize
from nltk.probability import FreqDist
from Sastrawi.Stemmer.StemmerFactory import StemmerFactory

# Fungsi untuk membaca teks dari berkas DOCX
def read_text_from_docx(file_path):
    doc = Document(file_path)
    text = ""
    for paragraph in doc.paragraphs:
        text += paragraph.text + "\n"
    return text

def remove_suffixes_and_non_alnum(word):
    return ''.join(e for e in word if e.isalnum())

def stem_text(tokens):
    factory = StemmerFactory()
    stemmer = factory.create_stemmer()
    stemmed_tokens = [stemmer.stem(token) for token in tokens]
    return stemmed_tokens

def preprocess_text(text):
    text = text.lower()
    text = text.translate(str.maketrans('', '', string.punctuation))
    tokens = word_tokenize(text)
    stemmed_tokens = stem_text(tokens)
    preprocessed_tokens = [remove_suffixes_and_non_alnum(token) for token in stemmed_tokens if token]
    return ' '.join(preprocessed_tokens)

def tokenize_text(text):
    tokens = word_tokenize(text)
    return [token for token in tokens if token.isalnum()]

def calculate_word_frequency(tokens):
    fdist = FreqDist(tokens)
    return fdist


absen = input("Berapa Absenmu: ")

# Absen yang akan diinput
target_absen = f"33226000{absen}"

# Direktori utama (folder "Berita")
base_directory = '/Users/farrelmanazilin/Downloads/data/Text Mining/Berita'
hasil_directory = '/Users/farrelmanazilin/Downloads/data/Text Mining/Hasil'

# Daftar folder yang ingin diperiksa
folders_to_check = ['Kesehatan', 'Teknologi', 'Politik', 'Olahraga', 'Kriminal']

# Loop melalui setiap folder
for folder_name in folders_to_check:
    folder_path = os.path.join(base_directory, folder_name)
    hasil_path = os.path.join(hasil_directory, folder_name)

    # Loop melalui setiap file dalam folder
    for filename in os.listdir(folder_path):
        if target_absen in filename:
            # Construct the target file name with the folder name
            output_file_name = f'frekuensi_kata_{filename.replace(".docx", "")}.txt'  # Hapus ekstensi .docx

            # File dengan nama yang mirip ditemukan dalam folder ini
            file_path = os.path.join(folder_path, filename)
            print(f"File dengan nama yang mirip ditemukan di folder '{folder_name}': {file_path}")

            # Baca teks dari file DOCX dan proses
            text = read_text_from_docx(file_path)
            preprocessed_text = preprocess_text(text)
            tokens = tokenize_text(preprocessed_text)
            word_frequency = calculate_word_frequency(tokens)

            # Pastikan direktori output sudah ada atau buat jika belum ada
            if not os.path.exists(hasil_path):
                os.makedirs(hasil_path)

            # Menyimpan hasil frekuensi kata-kata ke dalam berkas teks (txt)
            output_file_path = os.path.join(hasil_path, output_file_name)  # Perbarui output_file_path
            with open(output_file_path, 'w') as file:
                file.write('Kata\t\t\tFrekuensi\n')  # Header

                # Isi file dengan data frekuensi kata-kata
                for word, freq in word_frequency.items():
                    file.write(f'{word}\t\t\t{freq}\n')

            print(f"Hasil frekuensi kata-kata setelah stemming dan preprocessing telah disimpan dalam berkas '{output_file_path}'.\n")

print("Selesai")


Berapa Absenmu: 11
File dengan nama yang mirip ditemukan di folder 'Kesehatan': /Users/farrelmanazilin/Downloads/data/Text Mining/Berita/Kesehatan/Kesehatan_3322600011_2.docx
Hasil frekuensi kata-kata setelah stemming dan preprocessing telah disimpan dalam berkas '/Users/farrelmanazilin/Downloads/data/Text Mining/Hasil/Kesehatan/frekuensi_kata_Kesehatan_3322600011_2.txt'.

File dengan nama yang mirip ditemukan di folder 'Kesehatan': /Users/farrelmanazilin/Downloads/data/Text Mining/Berita/Kesehatan/Kesehatan_3322600011_3.docx
Hasil frekuensi kata-kata setelah stemming dan preprocessing telah disimpan dalam berkas '/Users/farrelmanazilin/Downloads/data/Text Mining/Hasil/Kesehatan/frekuensi_kata_Kesehatan_3322600011_3.txt'.

File dengan nama yang mirip ditemukan di folder 'Kesehatan': /Users/farrelmanazilin/Downloads/data/Text Mining/Berita/Kesehatan/Kesehatan_3322600011_4.docx
Hasil frekuensi kata-kata setelah stemming dan preprocessing telah disimpan dalam berkas '/Users/farrelmanazili

Hasil frekuensi kata-kata setelah stemming dan preprocessing telah disimpan dalam berkas '/Users/farrelmanazilin/Downloads/data/Text Mining/Hasil/Kriminal/frekuensi_kata_Kriminal_3322600011_5.txt'.

File dengan nama yang mirip ditemukan di folder 'Kriminal': /Users/farrelmanazilin/Downloads/data/Text Mining/Berita/Kriminal/Kriminal_3322600011_1.docx
Hasil frekuensi kata-kata setelah stemming dan preprocessing telah disimpan dalam berkas '/Users/farrelmanazilin/Downloads/data/Text Mining/Hasil/Kriminal/frekuensi_kata_Kriminal_3322600011_1.txt'.

Selesai
