In [None]:
import json
import gc
import re
import unicodedata
from langdetect import detect_langs
import ollama


class NLPOrchestrator:
    def __init__(self, model_id="llama3.1:8b-instruct-q4_K_M"):
        print(f"Using Ollama model: {model_id}")
        self.model_id = model_id

        # Language mapping
        self.lang_map = {
            "en": "English",
            "hi": "Hindi",
            "te": "Telugu",
            "ta": "Tamil",
            "bn": "Bengali",
            "mr": "Marathi",
            "gu": "Gujarati",
            "kn": "Kannada",
            "ml": "Malayalam",
            "pa": "Punjabi",
            "ur": "Urdu",
            "or": "Odia",
            "as": "Assamese",
            "sa": "Sanskrit",
        }

    # -----------------------------
    # Core generation (deterministic)
    # -----------------------------
    def _generate(self, system_prompt, user_input, max_tokens=512):
        response = ollama.chat(
            model=self.model_id,
            messages=[
                {"role": "system", "content": system_prompt},
                {"role": "user", "content": user_input},
            ],
            options={
                "temperature": 0.0,     # critical for JSON stability
                "num_predict": max_tokens,
            },
        )

        text = response["message"]["content"].strip()

        gc.collect()
        return text

    # -----------------------------
    # Text cleaning
    # -----------------------------
    def clean_text(self, text: str) -> str:
        text = unicodedata.normalize("NFKC", text)
        text = text.replace("\u200c", "").replace("\u200d", "")
        text = text.replace("\ufeff", "")
        text = re.sub(r"[ \t]+", " ", text)
        text = re.sub(r"\n{3,}", "\n\n", text)
        return text.strip()

    # -----------------------------
    # Romanized Hindi detector
    # -----------------------------
    def is_romanized_hindi(self, text: str) -> bool:
        if not text or len(text) < 20:
            return False

        ascii_ratio = sum(1 for c in text if ord(c) < 128) / max(len(text), 1)
        if ascii_ratio < 0.85:
            return False

        hinglish_markers = [
            "hai", "haan", "han", "nahi", "nahin", "kyu", "kyun", "kya", "kaise",
            "mera", "meri", "mere", "tum", "aap", "ap", "hum", "ham",
            "mat", "kar", "karo", "kariye", "krdo", "krna", "kr diya",
            "wala", "wali", "wale", "se", "ko", "me", "mein", "par",
            "bahut", "bohot", "thoda", "jaldi", "abhi", "kal", "aaj"
        ]

        text_l = " " + re.sub(r"[^a-zA-Z ]", " ", text.lower()) + " "
        hits = sum(1 for w in hinglish_markers if f" {w} " in text_l)

        return hits >= 2

    # -----------------------------
    # Language detection
    # -----------------------------
    def detect_language(self, text):
        try:
            if self.is_romanized_hindi(text):
                return {
                    "lang_list": ["Hindi (Romanized)"],
                    "primary_lang": "Hindi (Romanized)",
                }

            langs = detect_langs(text)
            primary = langs[0].lang
            lang_list = [self.lang_map.get(l.lang, l.lang.upper()) for l in langs[:3]]
            primary_lang = self.lang_map.get(primary, primary.upper())

            return {"lang_list": lang_list, "primary_lang": primary_lang}

        except Exception:
            return {"lang_list": ["Unknown"], "primary_lang": "Unknown"}

    # -----------------------------
    # JSON parsing helpers
    # -----------------------------
    def _try_load_json(self, json_str: str):
        if not json_str:
            return None

        json_str = json_str.strip()
        json_str = re.sub(r",\s*}", "}", json_str)
        json_str = re.sub(r",\s*]", "]", json_str)
        json_str = json_str.replace("тАЬ", "\"").replace("тАЭ", "\"").replace("тАЩ", "'")

        try:
            return json.loads(json_str)
        except json.JSONDecodeError:
            return None

    def _parse_json(self, response: str):
        if not response:
            return None

        match = re.search(r"```json\s*([\s\S]*?)\s*```", response, re.IGNORECASE)
        if match:
            parsed = self._try_load_json(match.group(1))
            if parsed:
                return parsed

        match = re.search(r"```\s*([\s\S]*?)\s*```", response)
        if match:
            parsed = self._try_load_json(match.group(1))
            if parsed:
                return parsed

        match = re.search(r"\{[\s\S]*\}", response)
        if match:
            parsed = self._try_load_json(match.group(0))
            if parsed:
                return parsed

        print("тЪая╕П JSON parsing failed")
        return None

    # -----------------------------
    # Step 1: Translation
    # -----------------------------
    def step_1_translate(self, text, lang_info):
        primary = lang_info["primary_lang"].lower()

        if primary == "english":
            return {"translated_english_text": text, "translation_confidence": 1.0}

        system_prompt = """You are a professional translator.
Translate the given text into fluent English.

Rules:
- Translate completely
- Preserve meaning and proper nouns
- Return ONLY valid JSON

Output JSON format:
{
  "translated_english_text": "...",
  "translation_confidence": 0.0
}
"""

        response = self._generate(system_prompt, text, max_tokens=800)
        result = self._parse_json(response)

        if result is None:
            return {"translated_english_text": response, "translation_confidence": 0.6}

        return result

    # -----------------------------
    # Step 2: Deep analysis
    # -----------------------------
    def step_2_deep_analysis(self, english_text):
        system_prompt = """You are a security-focused NLP analyzer.
Perform comprehensive analysis on the given text.

CRITICAL RULES:
1. Country_iden: Select ONLY ONE value based on content context
2. Domains: Use exact capitalization from the list
3. Location NER: Only specific geographic places
4. Event dates: dd/mm/yyyy ONLY if explicitly mentioned
5. Sentiment "Anti-National": Only for direct threats to India

DOMAIN OPTIONS:
Politics, Crime, Military, Terrorism, Radicalisation, Extremism in J&K,
Law and Order, Narcotics, Left Wing Extremism, General

Return ONLY valid JSON in this format:
{
  "domain_ident": [],
  "sentiment": "",
  "NER": {
    "Person": [],
    "Location": [],
    "Organisation": [],
    "Event": [],
    "Product": []
  },
  "Event_calendar": [],
  "Country_iden": "",
  "Fact_checker": {
    "relevant_topics": [],
    "confidence_level": 0.0,
    "relevance_rating": ""
  },
  "Summary": ""
}
"""

        response = self._generate(system_prompt, english_text, max_tokens=1000)
        result = self._parse_json(response)

        if result is None:
            return {
                "domain_ident": ["General"],
                "sentiment": "Neutral",
                "NER": {
                    "Person": [],
                    "Location": [],
                    "Organisation": [],
                    "Event": [],
                    "Product": [],
                },
                "Event_calendar": [],
                "Country_iden": "Abroad",
                "Fact_checker": {
                    "relevant_topics": [],
                    "confidence_level": 0.0,
                    "relevance_rating": "Low",
                },
                "Summary": "Analysis failed.",
            }

        return result

    # -----------------------------
    # Orchestration
    # -----------------------------
    def process(self, text):
    cleaned = self.clean_text(text)

    lang_info = self.detect_language(cleaned)
    translation = self.step_1_translate(cleaned, lang_info)
    analysis = self.step_2_deep_analysis(
        translation["translated_english_text"]
    )

    return {
        "Cleaned_content": cleaned,
        "lang_list": lang_info["lang_list"],
        "primary_lang": lang_info["primary_lang"],
        "translated_english_text": translation["translated_english_text"],
        **analysis,
    }

    def process_batch(self, texts):
    """
    texts: List[str]
    returns: List[Dict]
    """
    results = []

    for text in texts:
        try:
            output = self.process(text)
        except Exception as e:
            output = {
                "error": str(e),
                "raw_input": text
            }
        results.append(output)

    return results




In [3]:
content='''роХроЯроирпНрод рокродро┐ройрпИроирпНродрпБ роиро╛роЯрпНроХро│ро╛роХ роЙро▓роХро┐ро▓рпН роОройрпНрой роироЯроирпНродродрпБ?

роЗроирпНрод рооро╛род родрпКроЯроХрпНроХродрпНродро┐ро▓рпН ро╡рпЖройро┐роЪрпБро╡рпЗро▓ро╛ро╡ро┐ро▓рпН роорпЗро▒рпНроХрпКро│рпНро│рокрпНрокроЯрпНроЯ ро╡рпЖро▒рпНро▒ро┐роХро░рооро╛рой ро░ро╛рогрпБро╡ роироЯро╡роЯро┐роХрпНроХрпИропро╛ро▓рпН роЙро▒рпНроЪро╛роХроороЯрпИроирпНрод роЯрпКройро╛ро▓рпНроЯрпН роЯро┐ро░роорпНрокрпН , роХро┐ро░рпАройрпНро▓ро╛роирпНродрпБ ро╡ро┐ро╡роХро╛ро░родрпНродро┐ро▓рпН родройродрпБ роЖроХрпНро░рпЛро╖рооро╛рой рокрпЗроЪрпНроЪрпИродрпН родрпКроЯроЩрпНроХро┐ройро╛ро░рпН.

роХро┐ро░рпАройрпНро▓ро╛роирпНродрпБ роорпАродро╛рой роЙро░ро┐роорпИ роХрпЛро░ро▓рпНроХро│рпН, ро░ро╛рогрпБро╡ роироЯро╡роЯро┐роХрпНроХрпИ роХрпБро▒ро┐родрпНрод роОроЪрпНроЪро░ро┐роХрпНроХрпИроХро│рпН рооро▒рпНро▒рпБроорпН роРро░рпЛрокрпНрокро╛ро╡ро┐ройрпН рокро╛ро░роорпНрокро░ро┐роп роироЯрпНрокрпБ роиро╛роЯрпБроХро│рпБроХрпНроХрпБ роОродро┐ро░ро╛рой ро╡ро░рпНродрпНродроХ ро╡ро░ро┐роХро│рпН роОрой роЙро▓роХроорпН родро┐ройроорпБроорпН роТро░рпБ роЪрпЖропрпНродро┐ропрпИ роОродро┐ро░рпНроХрпКрогрпНроЯродрпБ.

роЖройро╛ро▓рпН роЗрокрпНрокрпЛродрпБ, роЗро╡рпИ роЕройрпИродрпНродрпБроорпН роТро░рпБ рокрпБроХрпИропрпИрокрпН рокрпЛро▓ рооро▒рпИроирпНродрпБро╡ро┐роЯрпНроЯродро╛роХродрпН родрпЖро░ро┐роХро┐ро▒родрпБ.

роЯро┐ро░роорпНрокрпИ роХрпИропро╛ро│рпНро╡родро┐ро▓рпН ро╡ро▓рпНро▓ро╡ро░рпН роОройрпНро▒рпБ роХро░рпБродрокрпНрокроЯрпБроорпН роирпЗроЯрпНроЯрпЛ рокрпКродрпБроЪрпН роЪрпЖропро▓ро╛ро│ро░рпН рооро╛ро░рпНроХрпН ро░рпБроЯрпНроЯрпЗ, роЕродро┐рокро░ро┐ройрпН роЗроирпНрод роЖрокродрпНродро╛рой рокрпЛроХрпНроХрпИроХрпН роХроЯрпНроЯрпБрокрпНрокроЯрпБродрпНродро┐ропродро╛роХродрпН родрпЖро░ро┐роХро┐ро▒родрпБ.

роХроЯроирпНрод ро╡ро╛ро░роорпН роЯрпЖройрпНрооро╛ро░рпНроХрпН рооро▒рпНро▒рпБроорпН роХро┐ро░рпАройрпНро▓ро╛роирпНродрпБ ро╡рпЖро│ро┐ропрпБро▒ро╡рпБ роЕроорпИроЪрпНроЪро░рпНроХро│рпН роЕроорпЖро░ро┐роХрпНроХро╛ро╡рпБроХрпНроХрпБ роорпЗро▒рпНроХрпКрогрпНроЯ рокропрогродрпНродро┐ройрпН рокрпЛродрпБ роЗродро▒рпНроХро╛рой роЕроЯро┐родрпНродро│роорпН роЕроорпИроХрпНроХрокрпНрокроЯрпНроЯро┐ро░рпБроХрпНроХро▓ро╛роорпН.

роЕроирпНродрокрпН рокропрогродрпНродро┐ройрпН роорпБроЯро┐ро╡ро┐ро▓рпН, роХро┐ро░рпАройрпНро▓ро╛роирпНродро┐ройрпН роОродро┐ро░рпНроХро╛ро▓роорпН роХрпБро▒ро┐родрпНродрпБ ро╡ро┐ро╡ро╛родро┐роХрпНроХ роТро░рпБ "роЪрпЖропро▒рпНроХрпБро┤рпБ" роЕроорпИроХрпНроХ роТрокрпНрокрпБроХрпНроХрпКро│рпНро│рокрпНрокроЯрпНроЯродрпБ.

ро╡роЯроХрпНроХрпБ роЕроЯрпНро▓ро╛рогрпНроЯро┐роХрпН роХрпВроЯрпНроЯрогро┐ропрпИропрпЗ роЪро┐родрпИроХрпНроХроХрпНроХрпВроЯро┐роп роТро░рпБ роЪро┐роХрпНроХро▓рпИ ро░рпВроЯрпНроЯрпЗ рооро┐роХ роирпБроЯрпНрокрооро╛роХ роХрпИропро╛рогрпНроЯрпБро│рпНро│родро╛роХродрпН родрпЖро░ро┐роХро┐ро▒родрпБ.'''

In [None]:
if __name__ == "__main__":
    orchestrator = NLPOrchestrator()

    test_inputs = [
        "Mujhe aaj bhi yaad hai woh din, 2 April 2011...",
        "India conducted a military exercise near the border.",
        "The suspect was arrested by Delhi Police on Monday."
    ]

    results = orchestrator.process_batch(test_inputs)

    print(json.dumps(results, ensure_ascii=False))


Using Ollama model: llama3.1:8b-instruct-q4_K_M
NLP ORCHESTRATION PIPELINE
ЁЯФН Detecting language...
ЁЯУЭ Translation...
тЪая╕П JSON parsing failed
ЁЯФм Deep analysis...

FINAL OUTPUT
{
  "Cleaned_content": "роХроЯроирпНрод рокродро┐ройрпИроирпНродрпБ роиро╛роЯрпНроХро│ро╛роХ роЙро▓роХро┐ро▓рпН роОройрпНрой роироЯроирпНродродрпБ?\n\nроЗроирпНрод рооро╛род родрпКроЯроХрпНроХродрпНродро┐ро▓рпН ро╡рпЖройро┐роЪрпБро╡рпЗро▓ро╛ро╡ро┐ро▓рпН роорпЗро▒рпНроХрпКро│рпНро│рокрпНрокроЯрпНроЯ ро╡рпЖро▒рпНро▒ро┐роХро░рооро╛рой ро░ро╛рогрпБро╡ роироЯро╡роЯро┐роХрпНроХрпИропро╛ро▓рпН роЙро▒рпНроЪро╛роХроороЯрпИроирпНрод роЯрпКройро╛ро▓рпНроЯрпН роЯро┐ро░роорпНрокрпН , роХро┐ро░рпАройрпНро▓ро╛роирпНродрпБ ро╡ро┐ро╡роХро╛ро░родрпНродро┐ро▓рпН родройродрпБ роЖроХрпНро░рпЛро╖рооро╛рой рокрпЗроЪрпНроЪрпИродрпН родрпКроЯроЩрпНроХро┐ройро╛ро░рпН.\n\nроХро┐ро░рпАройрпНро▓ро╛роирпНродрпБ роорпАродро╛рой роЙро░ро┐роорпИ роХрпЛро░ро▓рпНроХро│рпН, ро░ро╛рогрпБро╡ роироЯро╡роЯро┐роХрпНроХрпИ роХрпБро▒ро┐родрпНрод 