In [None]:

# Required installations:
!pip install pillow pytesseract nltk langdetect
!sudo apt-get install tesseract-ocr
!sudo apt-get install tesseract-ocr-hin

Collecting langdetect
  Using cached langdetect-1.0.9.tar.gz (981 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: langdetect
  Building wheel for langdetect (setup.py) ... [?25l[?25hdone
  Created wheel for langdetect: filename=langdetect-1.0.9-py3-none-any.whl size=993223 sha256=33ea4656b5b0dab03f7097b0b8b5ac7d38450d0e67b9acca98f8152e4bb8bbee
  Stored in directory: /root/.cache/pip/wheels/0a/f2/b2/e5ca405801e05eb7c8ed5b3b4bcf1fcabcd6272c167640072e
Successfully built langdetect
Installing collected packages: langdetect
Successfully installed langdetect-1.0.9
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
tesseract-ocr is already the newest version (4.1.1-2.1build1).
0 upgraded, 0 newly installed, 0 to remove and 30 not upgraded.
Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  tesseract-ocr-h

In [None]:

# Basic Extration and Tokenisation
import pytesseract
from PIL import Image
import cv2
import numpy as np
import nltk
from langdetect import detect

nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize

# 1. Load and preprocess image
def preprocess_image(image_path):
    img = cv2.imread(image_path)
    gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
    denoised = cv2.fastNlMeansDenoising(gray, h=30)
    return denoised

# 2. Perform OCR
def extract_text(img):
    pil_img = Image.fromarray(img)
    text = pytesseract.image_to_string(pil_img, lang='hin')
    return text

# 3. Normalize text
def normalize_text(text):
    return text.replace('\n', ' ').strip()

# 4. Tokenize text
def tokenize_text(text):
    return word_tokenize(text)

# 5. NLP Task: Detect language
def detect_language(text):
    try:
        lang = detect(text)
        return lang
    except:
        return "Unknown"

# Main pipeline
if __name__ == '__main__':
    image_path = '/content/input/page3.jpg'
    img = preprocess_image(image_path)
    raw_text = extract_text(img)
    norm_text = normalize_text(raw_text)
    tokens = tokenize_text(norm_text)
    lang = detect_language(norm_text)

    print("--- Extracted Text ---")
    print(norm_text)
    print("\n--- Tokens ---")
    print(tokens)
    print("\n--- Detected Language ---")
    print(lang)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


--- Extracted Text ---
ज्ाईंदुन्गिय्या  0वीं की परीक्षा के लिए विद्यार्थी कर सकेंगे तीन भाषा विषय का चयन  खण्डबा। माध्यमिक शिक्षा पंडल द्वारा शिक्षण सत्र 2022 23 की हाई सकल परीक्षा के लिए विद्यार्थी को निर्धारित भाषा विषयों में से कोई तोन विषय का चयन करना होगा नेशनल स्किल क्लालीफिकशन फंमवर्क विषय का चयन करने वाले विद्यार्थियों को निर्धारित भाषा विषयों में से कोई दो भाषा विषय का चयन करना होगा। चिल्डुन विथ स्पेशल नीड के विद्यार्थी गणित अथवा विज्ञान के स्थान पर चित्रकला अथवा गायन वादन अथवा तबला पखावज अथवा कम्प्यूटर विषय में से कोई एक विषय ले सकेंगे। साथ ही ऐसे परीक्षार्थियों को तौन भाषा विषय में से दो भाषा विषय में छूट प्रदान की गई है। ऐसे परीक्षार्थी किसी एक भाषा विषय का चयन कर सकेंगे। इस संबंध में निर्देश जारी कर दिए गए हैं। माध्यमिक शिक्षा मंडल द्वारा मान्यता प्राप्त संस्थाओं में सनियमित प्रवेश के लिए प्रवेश संबंधी प्ा्गंदर्शिका पुस्तिका भी जारी की गई है विधिक साक्षरता एवं जागरूकता चिविर संपन्न  छत्रपुर। छतरपुर शहर के नौंगांव रोड स्थित एक निजि संस्थान पें जिला विधिक साक्षरता एवं जागरूक

In [27]:
# Image Processing and Text Storing

import cv2
from PIL import Image
import pytesseract
import nltk
from langdetect import detect
import os

nltk.download('punkt')
nltk.download('punkt_tab')
from nltk.tokenize import word_tokenize

def preprocess_image(image_path):
    # Load the image using OpenCV
    image = cv2.imread(image_path)

    # Convert to grayscale
    gray = cv2.cvtColor(image, cv2.COLOR_BGR2GRAY)

    # Resize
    gray = cv2.resize(gray, (gray.shape[1] * 2, gray.shape[0] * 2))

    # Denoise
    denoised = cv2.fastNlMeansDenoising(gray, h=30)

    # Save and return path
    temp_path = "processed.png"
    cv2.imwrite(temp_path, denoised)
    return temp_path

def extract_text(image_path):
    processed = preprocess_image(image_path)
    text = pytesseract.image_to_string(Image.open(processed), lang='hin')
    return text.strip()

def normalize_text(text):
    return text.lower().strip()

def tokenize_text(text):
    return word_tokenize(text)

def detect_language(text):
    try:
        return detect(text)
    except:
        return "Could not detect"

def save_output(text, tokens, lang):
    with open("output.txt", "w", encoding='utf-8') as f:
        f.write("== Extracted Text ==\n")
        f.write(text + "\n\n")
        f.write("== Tokens ==\n")
        f.write(" | ".join(tokens) + "\n\n")
        f.write(f"== Detected Language: {lang} ==\n")

image_path = "/content/input/page3.jpg"

# Full Pipeline
text = extract_text(image_path)
normalized = normalize_text(text)
tokens = tokenize_text(normalized)
language = detect_language(normalized)

# Output to Console
print("Extracted Text:\n", text)
print("\nTokens:", tokens)
print("\nDetected Language:", language)

# Save to File
save_output(text, tokens, language)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


Extracted Text:
 नाईंदुनिगय्या

0वीं की परीक्षा के लिए विद्यार्थी कर
सकेंगे तीन भाषा विषय का चयन

खण्डबा। माध्यमिक शिक्षा मंढल द्वारा
शिक्षण सत्र 2022 23 कौ हाई स्कूल परीक्षा
के लिए विद्यार्थी को निर्धारित भाषा विषयों में
से कोई तौन विषय का चयन करना होगा।
नेशनल स्किल क्लालीफिकेशन फेमवर्क विषय
का चयन करने बाले विद्यार्थियों को निर्धारित
भाषा विषयों में से कोई दो भाषा विषय का
चयन करना होगा। चिल्ड्ुन बिथ स्पेशल नीड़
के विद्यार्थी गणित अथवा विज्ञान के स्थान पर
चित्रकला अथवा गायन बादन अथवा तबला
पखावज अथवा कम्प्यूटर विषय में से कोई
एक विषय ले सकेंगे। साथ ही ऐसे परीक्षार्थियों
को तौन भाषा विषय में से दो भाषा विषय में
छूट प्रदान कौ गईं है। ऐसे परीक्षार्थी किसी एक
भाषा विषय का चयन कर सकेंगे। इस संबंध
में निर्देश जारी कर दिए गए हैं। माध्यमिक
शिक्षा मंडल द्वारा मान्यता प्राप्त संस्थाओं में
नियमित प्रवेश के लिए प्रवेश संबंधी
मार्गदर्शिका पुस्तिका भी जारी कौ गईं है।

साक्षरता एवं जागरूकता
शिविर संपन्न

छतरपुर। छतरपुर शहर के नौगांब रोड
स्थित एक निजि संस्थान में जिला विधिक
साक्षरता एबं जागरूकता शिविर

In [None]:
!python -m spacy download xx_ent_wiki_sm

Collecting xx-ent-wiki-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/xx_ent_wiki_sm-3.8.0/xx_ent_wiki_sm-3.8.0-py3-none-any.whl (11.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.1/11.1 MB[0m [31m61.3 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: xx-ent-wiki-sm
Successfully installed xx-ent-wiki-sm-3.8.0
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('xx_ent_wiki_sm')


In [None]:
!pip install nltk spacy indic-nlp-library
!python -m spacy download xx_ent_wiki_sm
!pip install pytesseract pillow
!sudo apt-get install tesseract-ocr
!sudo apt-get install tesseract-ocr-hin


Collecting xx-ent-wiki-sm==3.8.0
  Downloading https://github.com/explosion/spacy-models/releases/download/xx_ent_wiki_sm-3.8.0/xx_ent_wiki_sm-3.8.0-py3-none-any.whl (11.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m11.1/11.1 MB[0m [31m62.5 MB/s[0m eta [36m0:00:00[0m
[?25h[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('xx_ent_wiki_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


In [28]:
# Tagging and Tokenisation
import cv2
import pytesseract
from PIL import Image
from nltk.tokenize import word_tokenize
import spacy
from langdetect import detect
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory
from indicnlp.tokenize import indic_tokenize
from nltk import pos_tag
import nltk
nltk.download('punkt')
nltk.download('averaged_perceptron_tagger')
nltk.download('averaged_perceptron_tagger_eng')

# Custom Basic Hindi Stemmer
def basic_hindi_stemmer(word):
    suffixes = ['ा', 'ी', 'ें', 'ों', 'े', 'ू', 'ो', 'ाएंगे', 'ाना', 'िए', 'ना']
    for suffix in suffixes:
        if word.endswith(suffix):
            return word[:-len(suffix)]
    return word

# Load SpaCy Multilingual NER model
nlp_spacy = spacy.load("xx_ent_wiki_sm")

# Step 1: Load and Preprocess Image
img_path = "/content/input/page3.jpg"  # Update with your image path
img = cv2.imread(img_path)
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
_, thresh = cv2.threshold(gray, 150, 255, cv2.THRESH_BINARY)

# Step 2: OCR (Hindi)
custom_config = r'--oem 3 --psm 6 -l hin'
extracted_text = pytesseract.image_to_string(thresh, config=custom_config)
print(" OCR Extracted Text:\n", extracted_text)

# Step 3: Normalization
factory = IndicNormalizerFactory()
normalizer = factory.get_normalizer("hi")
normalized_text = normalizer.normalize(extracted_text)
print("\n Normalized Text:\n", normalized_text)

# Step 4: Tokenization
tokens = list(indic_tokenize.trivial_tokenize(normalized_text, lang='hi'))
print("\n Tokens:\n", tokens)

# Step 5: Stemming
stemmed_tokens = [basic_hindi_stemmer(tok) for tok in tokens]
print("\n Stemmed Tokens (Basic):\n", stemmed_tokens)

# Step 6: Lemmatization
doc = nlp_spacy(normalized_text)
lemmatized = [token.lemma_ for token in doc]
print("\n Lemmatized:\n", lemmatized)

# Step 7: POS Tagging (using NLTK for demo)
# Note: This is approximate since NLTK is not Hindi-specific
pos_tags = pos_tag(tokens)
print("\n POS Tags:\n", pos_tags)

# Step 8: Named Entity Recognition (NER)
print("\n Named Entities:\n")
for ent in doc.ents:
    print(f"{ent.text} --> {ent.label_}")

# Step 9: Language Detection
lang = detect(normalized_text)
print(f"\n Detected Language: {lang}")

# Step 10: Basic Summarization
lines = normalized_text.split('\n')
summary = '\n'.join(lines[:3])
print("\n Summary:\n", summary)


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package averaged_perceptron_tagger_eng to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger_eng is already up-to-
[nltk_data]       date!


 OCR Extracted Text:
 ज्ाईंदुनिया *दमोह *छतरपुरण्टीकमगढ़*्पन्‍ना “खंडवा *हरदा न्होशंगाबाद*्बैतूल/सारणी/मुलताई... धाग्र, गा बुत्ई2० है:
कांग्रेस
शव भाजपा 23, कांग्रेस 5 और 5 वार्डो
सकेंगे तीन भाषा विषय का चयन ५ १ का ही
मंडल हि पद जुक; हें पक मयंक ॥ ज्ल्कम हि तरीके
520 नागा  इवाए ७ फेबुसममका ह्‌ मल £ & हिट वर्ण तरीके से चुनाव की कार्यवाही पूर्ण
के लिए विद्या को निर्धारित भाषा विषयों मे ६५5 |; 2 न / आ८2 दर 7 ४ ॥ नगतीय निकाय निर्वाचत 2022 कराया, तदोपरांत स्ट्रांग रूम से ईच्हीएम
से कोई तीन विषय का चयन करना होगा।.| 20.0 मन | हे श 5 आज, पा, पर के तहत दूसरे चरण की मतगणना आज गणना कक्ष यें पहुचने उपरांत घतगणना
ेशकल स्किल क्लीक्केशत फंसंवक वषय ही ० हैं।. ढ है भ - जज डा ते ये वि बम हु व आप
का चयन करे वाले विद्यार्थियों को निर्धारित $ हि डे ; * ज्ै स्थलों पर संपन्न हुई। अपने निर्धारित कलेक्टर नाथूग़म गौड़ ने भी एडीशनल
का चन करे वाले विवि को निया | | 2 कं उसपर एउलीएस एवं रिटनिंग आफिसर. एसपी शिव कुमार सिंह के साथ मतगणना
चबन करना होगा। चिल्ड़र विध स्पेशल नीड.. | > हू हा का अभिषेक गः आकर एवं प्रेक्षक स