In [1]:
import os
from docx import Document
import PyPDF2

In [2]:
def read_txt(file_path):
    try:
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
        return content
    except Exception as e:
        return f"Gagal membaca file TXT: {str(e)}"

●	Membuka file dalam mode baca ('r') dengan encoding utf-8 untuk memastikan karakter spesial dapat diproses.
●	Membaca isi file menggunakan file.read().
●	Output: Mengembalikan isi file sebagai string. Jika terjadi error, pesan error akan dikembalikan.

In [3]:
def read_docx(file_path):
    try:
        doc = Document(file_path)
        content = '\n'.join([paragraph.text for paragraph in doc.paragraphs])
        return content
    except Exception as e:
        return f"Gagal membaca file DOCX: {str(e)}"

●	Membuka file DOCX menggunakan Document.
●	Mengakses semua paragraf dalam dokumen melalui doc.paragraphs.
●	Menggabungkan teks dari setiap paragraf menjadi satu string, dipisahkan dengan baris baru (\n).
●	Output: Mengembalikan isi dokumen dalam bentuk teks gabungan. Jika error, pesan error dikembalikan.

In [4]:
def read_pdf(file_path):
    try:
        with open(file_path, 'rb') as file:
            pdf_reader = PyPDF2.PdfReader(file)
            content = ''
            for page in pdf_reader.pages:
                content += page.extract_text()
        return content
    except Exception as e:
        return f"Gagal membaca file PDF: {str(e)}"

●	Membuka file PDF dalam mode rb (baca biner).
●	Membuat objek pembaca PDF (PdfReader).
●	Mengakses setiap halaman di PDF melalui pdf_reader.pages.
●	Menambahkan teks dari setiap halaman ke variabel content.
●	Output: Isi file PDF sebagai teks. Jika terjadi error (misalnya file terenkripsi), akan mengembalikan pesan error.

In [5]:
def read_document(file_path):
    file_extension = os.path.splitext(file_path)[1].lower()
    
    if file_extension == '.txt':
        return read_txt(file_path)
    elif file_extension in ['.doc', '.docx']:
        return read_docx(file_path)
    elif file_extension == '.pdf':
        return read_pdf(file_path)
    else:
        return "Format file tidak didukung"

●	Mengambil ekstensi file menggunakan os.path.splitext(file_path)[1].
●	Memeriksa tipe file berdasarkan ekstensi.
●	Memanggil fungsi pembaca (TXT, DOCX, atau PDF) sesuai dengan format file.
●	Mengembalikan pesan jika format file tidak didukung.
●	Output: Isi dokumen atau pesan error jika format tidak dikenali.

In [6]:
def hitung(text):
    if not text:
        return 0, 0
    words = text.split()
    kata = len(words)
    huruf = sum(c.isalnum() for c in text)
    return kata, huruf

●	Memisahkan teks menjadi kata-kata berdasarkan spasi (text.split()).
●	Menghitung jumlah kata dengan fungsi len(words).
● c.isalnum(): Mengecek apakah karakter c adalah alfanumerik (huruf atau angka). Karakter seperti spasi, tanda baca, atau simbol akan diabaikan.
●	Output: Jumlah kata dan huruf.

In [7]:
def main():    
    directory_path = "documents"    
    try:        
        files = os.listdir(directory_path)        
        for file_name in files:
            if file_name.lower().endswith(('.txt', '.doc', '.docx', '.pdf')):
                file_path = os.path.join(directory_path, file_name)
                print(f"\nFile: {file_name}")
                print("-" * 50)
                content = read_document(file_path)
                jumlah_kata, jumlah_huruf = hitung(content)
                print(f"Konten: {content}")
                print(f"Jumlah kata  : {jumlah_kata}")
                print(f"Jumlah huruf : {jumlah_huruf}")
                print("-" * 50)                
    except Exception as e:
        print(f"Error: {str(e)}")

●	Membaca semua dokumen di folder documents dan menganalisisnya.
●	Mengambil Daftar File: Menggunakan os.listdir(directory_path) untuk mendapatkan semua file dalam folder.
●	Pemeriksaan Format File: Memastikan hanya file dengan ekstensi .txt, .doc, .docx, atau .pdf yang diproses.
●	Membaca Dokumen: Memanggil fungsi read_document untuk membaca isi file.
●	Analisis Konten: Menggunakan fungsi hitung untuk menghitung jumlah kata dan huruf.
●	Menampilkan Hasil: Menampilkan nama file, konten, jumlah kata, dan jumlah huruf ke layar.

In [8]:
if __name__ == "__main__":
    main()


File: text.docx
--------------------------------------------------
Konten: Selamat Pagi, ini adalah hasil Document Reader kami
Jumlah kata  : 8
Jumlah huruf : 43
--------------------------------------------------

File: text.pdf
--------------------------------------------------
Konten: Selamat Pagi, ini adalah hasil Document Reader kami  
Jumlah kata  : 8
Jumlah huruf : 43
--------------------------------------------------

File: text.txt
--------------------------------------------------
Konten: Selamat Pagi, ini adalah hasil Document Reader kami

Jumlah kata  : 8
Jumlah huruf : 43
--------------------------------------------------
