In [1]:
import os
import fitz
from PIL import Image
from io import BytesIO
import base64
from dotenv import load_dotenv
import openai
from tqdm import tqdm

In [2]:
# Load API Key
load_dotenv()

# Konfigurasi Groq API
openai.api_key = os.getenv("GROQ_API_KEY")
openai.base_url = "https://api.groq.com/openai/v1"

In [3]:
# Path file PDF
pdf_path = "/Users/mhdfarhanali/Documents/InstruRAG/data/pdf/Introduction_to_Instrumentation__Sensors__and_Process_Control.pdf"

In [4]:
# Buka file PDF
pdf_document = fitz.open(pdf_path)

all_text = ""
print(f"Jumlah halaman dalam PDF: {len(pdf_document)}")

# Loop setiap halaman
for page_num in tqdm(range(len(pdf_document)), desc="Mengekstrak teks halaman"):
    page = pdf_document.load_page(page_num)
    text = page.get_text("text") 
    all_text += f"\n--- [HALAMAN {page_num+1}] ---\n{text}\n"

pdf_document.close()
print("Ekstraksi selesai")


Jumlah halaman dalam PDF: 349


Mengekstrak teks halaman: 100%|██████████| 349/349 [00:00<00:00, 726.57it/s]

Ekstraksi selesai





In [5]:
clean_text = " ".join(all_text.split())

output_path = "/Users/mhdfarhanali/Documents/InstruRAG/data/raw/instrumentation_sensors.txt"
os.makedirs(os.path.dirname(output_path), exist_ok=True)

with open(output_path, "w", encoding="utf-8") as f:
    f.write(clean_text)

print(f"Teks berhasil disimpan di: {output_path}")

Teks berhasil disimpan di: /Users/mhdfarhanali/Documents/InstruRAG/data/raw/instrumentation_sensors.txt


In [6]:
# Baca beberapa baris pertama untuk memastikan
with open(output_path, "r", encoding="utf-8") as f:
    preview = f.read(1000)

print(preview)

--- [HALAMAN 1] --- This E-Book and More From http://ali-almukhtar.blogspot.com --- [HALAMAN 2] --- Introduction to Instrumentation, Sensors, and Process Control --- [HALAMAN 3] --- For a listing of related titles from Artech House, turn to the back of this book --- [HALAMAN 4] --- Introduction to Instrumentation, Sensors, and Process Control William C. Dunn artechhouse.com --- [HALAMAN 5] --- Library of Congress Cataloging-in-Publication Data Dunn, William C. Introduction to instrumentation, sensors, and process control/William C. Dunn. p. cm. —(Artech House Sensors library) ISBN 1-58053-011-7 (alk. paper) 1. Process control. 2. Detectors. I. Title. II. Series. TS156.8.D86 2005 670.42'7—dc22 2005050832 British Library Cataloguing in Publication Data Dunn, William C. Introduction to instrumentation, sensors, and process control. —(Artech House sensors library) 1. Engineering instruments 2. Electronic instruments 3. Process control I. Title 681.2 ISBN-10: 1-58053-011-7 Cover design by C

# Interpretasi

1. Tujuan
Notebook ini digunakan untuk mengambil teks dari file PDF yang berisi materi tentang instrumentasi, sensor, dan kontrol proses.
Tujuan utama tahap ini adalah untuk menyiapkan data mentah yang nantinya akan digunakan oleh sistem RAG (Retrieval Augmented Generation).
Dengan teks hasil ekstraksi ini, chatbot InstruRAG bisa menjawab pertanyaan berdasarkan isi buku asli, bukan hanya dari hafalan model.

2. Proses yang Dilakukan
Langkah pertama adalah membuka file PDF menggunakan library PyMuPDF.
Setelah itu, program membaca halaman demi halaman dari total 349 halaman buku.
Proses ini berjalan otomatis dan ada progress bar untuk memantau sejauh mana proses ekstraksi berlangsung.
Setelah semua halaman selesai dibaca, seluruh teks digabung menjadi satu dan disimpan dalam bentuk file .txt di folder data/raw/.
Hasilnya menunjukkan bahwa semua halaman berhasil dibaca tanpa error dan prosesnya juga sangat cepat.

3. Hasil Ekstraksi
Dari hasil yang ditampilkan, terlihat bahwa program berhasil membaca isi dari setiap halaman.
Teks dari setiap halaman diberi tanda seperti “--- [HALAMAN 1] ---”, “--- [HALAMAN 2] ---”, dan seterusnya.
Tanda ini membantu memisahkan setiap bagian agar nanti mudah saat proses pembagian teks (chunking).
Beberapa bagian awal buku yang muncul adalah informasi umum seperti nama penulis, judul, dan keterangan katalog dari Library of Congress.
Setelah halaman-halaman awal, mulai muncul isi buku yang menjelaskan tentang instrumentasi, sensor, dan kontrol proses.

4. Analisis Hasil
Dari hasil ekstraksi, bisa disimpulkan bahwa proses berjalan lancar tanpa ada halaman yang terlewat.
Teks yang dihasilkan sudah rapi dan mudah dibaca.
Ada sedikit bagian yang berisi watermark atau tulisan sumber (seperti alamat blog di awal buku), tapi itu hal biasa dan nanti bisa dibersihkan pada tahap berikutnya.
Secara keseluruhan, kualitas teks yang diambil sudah sangat baik dan siap untuk digunakan di tahap selanjutnya.

5. Kesimpulan
Tahap ekstraksi ini bisa dianggap sebagai langkah pertama yang sangat penting dalam proyek Instru RAG.
Dari sini, kita sudah punya sumber pengetahuan yang lengkap dalam bentuk teks mentah.
File hasil ekstraksi berhasil disimpan dengan nama instrumentation_sensors.txt dan siap diproses lebih lanjut di notebook berikutnya, yaitu 1_ingestion.ipynb.
Dengan hasil ini, fondasi chatbot sudah terbentuk.
Tanpa teks ini, sistem RAG tidak akan punya “bahan” untuk menjawab pertanyaan pengguna.

### Catatan Pribadi
Menurut saya, tahap ini cukup seru karena terlihat bagaimana komputer bisa membaca dan menyalin isi buku teknik yang tebal hanya dalam beberapa detik.
Awalnya saya kira akan lama atau error di tengah jalan, tapi ternyata berhasil dengan cepat dan lancar.
Saya juga belajar bahwa file teks hasil ekstraksi ini nanti akan menjadi dasar agar chatbot bisa memahami istilah teknis seperti sensor, transducer, PID control, dan lain-lain.
Jadi, tahap ini bisa dibilang seperti “menyiapkan bahan mentah” sebelum nanti diolah di tahap berikutnya.
Kalau tahap ini sudah benar, langkah-langkah selanjutnya akan lebih mudah dan hasilnya juga lebih akurat.