<a href="https://colab.research.google.com/github/Om334exe/RJPOLICE_HACK_191_ProblemStatement_4/blob/main/Main_Script.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import easyocr
from googletrans import Translator
from PIL import Image
import pandas as pd
from fuzzywuzzy import fuzz
import spacy

# Load spaCy English model
nlp = spacy.load("en_core_web_md")

# Function to detect text using EasyOCR
def detect_text_with_easyocr(image_path, language='hi'):
    reader = easyocr.Reader([language])
    result = reader.readtext(image_path)
    return result

# Function to translate text from Hindi to English
def translate_text(text, target_language='en'):
    translator = Translator()
    translation = translator.translate(text, dest=target_language)
    return translation.text

# Function to match the English text with IPC sections using spaCy and fuzzy matching
def match_ipc_section(english_text, ipc_dataset):
    # Initialize variables for best match and score
    best_match = None
    best_score = 0

    # Iterate through dataset entries
    for index, row in ipc_dataset.iterrows():
        # Extract the description from the dataset
        description = str(row['Description'])

        # Calculate the semantic similarity score using spaCy
        semantic_score = nlp(english_text).similarity(nlp(description))

        # Calculate the fuzzy match score
        fuzzy_score = fuzz.ratio(english_text, description)

        # Combine scores to get an overall score
        overall_score = (semantic_score + fuzzy_score) / 2

        # Update best match if the current score is higher
        if overall_score > best_score:
            best_score = overall_score
            best_match = row

    return best_match, best_score

# Load an example image (replace 'image_path' with the actual path to your image in Colab)
image_path = '/content/fir_image.png'
image = Image.open(image_path)

# Use EasyOCR to detect and read text in Hindi
text_results = detect_text_with_easyocr(image_path, language='hi')

# Extract the text from the results
hindi_text = ' '.join(result[1] for result in text_results)

# Translate the Hindi text to English
english_text = translate_text(hindi_text, target_language='en')

# Load your IPC dataset
ipc_dataset_path = '/content/FIR_DATASET.csv'
ipc_dataset = pd.read_csv(ipc_dataset_path)

# Match the text with IPC sections using spaCy and fuzzy matching
matched_section, match_score = match_ipc_section(english_text, ipc_dataset)

# Display the result
print("Original Hindi Text:")
print(hindi_text)

print("\nTranslated English Text:")
print(english_text)

print("\nBest Matched IPC Section:")
print(matched_section)
print("\nMatch Score:")
print(match_score)



Original Hindi Text:
कार्यवाही   पुलिस प्रमाणित किया जाता है कि उपरोक्त टाईप शुदा बिना नम्बरी प्रथम सूचना रिपोर्ट श्री वेदप्रकाश लखोटिया , उप अधीक्षक पुलिस , भ्रष्टचार निरोधक ब्यूरा , श्रीगंगनगर  द्वितीय ने प्रेषित की हे| मजमून रिपोर्ट से जुर्मं अन्तर्गत धारा 1३(1)(सी)(डी), सपठित धारा 13(2 ) भ्रष्टाचार निवारण अधिनियम 1988 एवं भादंसं न अभियुक्त श्री इन्द्राज पुनिया पुत्र श्री नत्थूराम पूनिया , तत्कालीन संरपच ग्राम पंचयत रिडमलसर , पंचयत समिति पदमपुर जिला श्रीगंगानगर , एवं अन्य क विरूद्ध घटित   होना पाया जता है| अंतः अपरध संख्या 314/2023 उपरोक्त   धाराओं में दर्ज   कर प्रथम सूचना रिपोर्ट की प्रतियाॅ   नियमानुसार कता कर तफ्तीश   जारी   है| २) विशनाराम , पुलिस अधोक्षक , श्रष्टाचार निरोधक   ब्यूरो , जयपुर/ कनांकः- 3190-94 दिनांक 29.12.2023 प्रतिलिपि:- एवं अवश्यक कार्यवाही   हेतु   प्रेषित   है| १. विशिष्ठ न्यायाधीश   एवं  सैशन न्यायलय भ्रष्टाचार निवारण   अधिनियम, श्रीगंगानगर| 2. पुलिस अधीक्षक , भ्रष्टाचार निरोधक ब्यूरो॰ बोकानेर| 3. निदेशक, ग्रामीण विकास   एवं पंचायतो राज विभाग , राजस्थान , ज