In [1]:
!pip install pymupdf



In [2]:
import spacy
import fitz  # PyMuPDF
from collections import Counter

In [3]:
def extract_text_from_pdf(pdf_path):
    """Extracts text from a PDF file."""
    doc = fitz.open(pdf_path)
    text = "\n".join([page.get_text("text") for page in doc])
    return text

In [4]:
def split_into_sentences(text):
    """Splits text into sentences using punctuation as delimiters."""
    import re
    sentences = re.split(r'[.!?]', text)
    sentences = [s.strip() for s in sentences if s.strip()]
    return sentences

In [5]:
def predict_category(nlp, sentences):
    """Predicts categories for a list of sentences and returns the majority prediction."""
    predictions = []
    for sentence in sentences:
        doc = nlp(sentence)
        predicted_label = max(doc.cats, key=doc.cats.get)
        predictions.append(predicted_label)
    
    # Determine majority prediction
    most_common_label, _ = Counter(predictions).most_common(1)[0]
    return most_common_label, predictions

In [6]:
def main(pdf_path, model_path):
    """Loads model, processes PDF, and prints the majority category."""
    nlp = spacy.load(model_path)
    text = extract_text_from_pdf(pdf_path)
    sentences = split_into_sentences(text)
    majority_label, all_predictions = predict_category(nlp, sentences)
    
    print("Majority Category:", majority_label)
    print("All Predictions:", all_predictions)

In [7]:
pdf_path = r"..\data\pdf\leac203.pdf"  # Update with actual PDF path
model_path = r"..\model_training\trained_model"  # Update with actual model path
main(pdf_path, model_path)

Majority Category: 1
All Predictions: ['1', '1', '2', '1', '1', '2', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '0', '1', '0', '1', '2', '2', '2', '0', '2', '1', '2', '1', '2', '0', '0', '1', '1', '2', '1', '1', '2', '2', '1', '1', '1', '1', '2', '1', '2', '1', '2', '0', '0', '1', '2', '2', '1', '1', '0', '1', '2', '2', '2', '1', '1', '1', '2', '1', '1', '1', '1', '1', '2', '1', '2', '0', '2', '2', '2', '1', '1', '1', '2', '2', '1', '1', '1', '1', '1', '2', '1', '2', '1', '1', '1', '1', '0', '1', '2', '0', '0', '2', '1', '1', '1', '1', '1', '2', '1', '1', '1', '1', '1', '1', '2', '1', '1', '2', '2', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '1', '1', '2', '1', '1', '1', '1', '1', '2', '2', '2', '0', '2', '2', '2', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '0', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '0', '1', '2', '1', '

In [8]:
pdf_path = r"..\data\pdf\legalimit.pdf"  # Update
model_path = r"..\model_training\trained_model"
main(pdf_path, model_path)

Majority Category: 1
All Predictions: ['2', '2', '1', '2', '1', '1', '2', '1', '2', '1', '1', '2', '1', '1', '1', '1', '1', '1', '1', '2', '2', '1', '2', '1', '1', '2', '2', '1', '2', '2', '2', '2', '2', '2', '2', '2', '2', '1', '2', '1', '1', '1', '0', '1', '1', '1', '0', '1', '1', '1', '1', '1', '1', '1', '1', '2', '2', '1', '1', '1', '1', '2', '1', '2', '2', '2', '2', '1', '1', '0', '1', '2', '1', '1', '2', '2', '2', '1', '1', '1', '2', '0', '0', '1', '1', '1', '2', '1', '1', '1', '0', '2', '1', '2', '2', '2', '2', '2', '1', '1', '2', '2', '1', '2', '2', '1', '2', '2', '1', '1', '2', '2', '1', '1', '1', '1', '1', '2', '1', '2', '2', '0', '1', '1', '2', '2', '2', '2', '2', '2', '1', '1', '0', '1', '1', '1', '0', '2', '2', '2', '1', '2', '1', '1', '0', '1', '2', '1', '1', '2', '1', '1', '0', '1', '1', '1', '2', '2', '2', '2', '1', '1', '1', '2', '0', '0', '2', '2', '1', '2', '1', '2', '1', '2', '1', '2', '1', '1', '1', '1', '1', '2', '2', '2', '1', '1', '1', '0', '2', '1', '1', '1', '

In [9]:
pdf_path = r"..\data\pdf\HealthCare.pdf"  # Update
model_path = r"..\model_training\trained_model"
main(pdf_path, model_path)

Majority Category: 1
All Predictions: ['2', '2', '1', '2', '1', '1', '1', '1', '1', '0', '0', '0', '0', '2', '1', '2', '2', '1', '0', '1', '1', '1', '0', '0', '0', '1', '1', '1', '0', '0', '1', '0', '0', '2', '1', '2', '0', '1', '0', '2', '0', '2', '2', '1', '0', '1', '0', '0', '1', '2', '1', '1', '2', '0', '2', '1', '2', '0', '2', '1', '0', '0', '1', '2', '0', '0', '2', '0', '2', '1', '2', '2', '0', '2', '0', '0', '2', '0', '1', '2', '2', '2', '1', '0', '0', '0', '2', '0', '0', '1', '1', '0', '1', '1', '1', '0', '0', '2', '1', '1', '1', '0', '1', '0', '1', '0', '0', '0', '1', '1', '1', '0', '0', '2', '0', '1', '1', '0', '0', '0', '2', '2', '0', '0', '2', '0', '0', '1', '1', '2', '2', '2', '2', '0', '0', '2', '1', '0', '0', '0', '1', '0', '0', '1', '0', '0', '1', '2', '1', '1', '0', '0', '2', '1', '0', '2', '1', '0', '1', '1', '1', '1', '1', '1', '1', '1', '0', '0', '2', '1', '2', '2', '1', '1', '2', '0', '0', '0', '0', '1', '1', '1', '0', '2', '0', '0', '0', '2', '1', '2', '2', '0', '

In [10]:
pdf_path = r"..\data\pdf\HealthCare_Finance.pdf"  # Update
model_path = r"..\model_training\trained_model"
main(pdf_path, model_path)

Majority Category: 1
All Predictions: ['1', '2', '2', '1', '1', '0', '0', '2', '0', '0', '0', '2', '1', '0', '1', '0', '0', '0', '1', '1', '1', '1', '2', '1', '2', '1', '1', '0', '1', '2', '2', '1', '1', '1', '1', '1', '2', '1', '1', '1', '1', '1', '2', '1', '2', '1', '1', '0', '2', '0', '2', '2', '0', '1', '1', '1', '1', '0', '1', '0', '1', '2', '1', '1', '2', '1', '1', '1', '2', '0', '0', '2', '1', '1', '1', '1', '1', '1', '1', '1', '0', '1', '1', '1', '1', '1', '0', '1', '1', '2', '0', '1', '0', '2', '0', '1', '2', '0', '2', '0', '2', '2', '0', '1', '0', '0', '2', '2', '0', '0', '2', '2', '1', '2', '1', '0', '1', '0', '0', '2', '0', '0', '1', '2', '0', '1', '1', '1', '1', '1', '2', '1', '1', '1', '1', '1', '0', '2', '0', '2', '2', '0', '1', '2', '0', '0', '1', '1', '1', '1', '0', '0', '1', '0', '1', '0', '1', '2', '1', '1', '1', '1', '1', '1', '1', '1', '1', '2', '0', '0', '0', '0', '1', '2', '0', '0', '2', '0', '2', '2', '0', '1', '1', '1', '1', '1', '0', '0', '0', '1', '1', '0', '