In [32]:
roman_stoi = {'?': 0,
 '_': 1,
 '<': 2,
 '>': 3,
 'a': 4,
 'b': 5,
 'c': 6,
 'd': 7,
 'e': 8,
 'f': 9,
 'g': 10,
 'h': 11,
 'i': 12,
 'j': 13,
 'k': 14,
 'l': 15,
 'm': 16,
 'n': 17,
 'o': 18,
 'p': 19,
 'q': 20,
 'r': 21,
 's': 22,
 't': 23,
 'u': 24,
 'v': 25,
 'w': 26,
 'x': 27,
 'y': 28,
 'z': 29}

devnagari_stoi = {'?': 0,
 '_': 1,
 'ँ': 2,
 'ं': 3,
 'ः': 4,
 'अ': 5,
 'आ': 6,
 'इ': 7,
 'ई': 8,
 'उ': 9,
 'ऊ': 10,
 'ऋ': 11,
 'ए': 12,
 'ऐ': 13,
 'ऑ': 14,
 'ओ': 15,
 'औ': 16,
 'क': 17,
 'ख': 18,
 'ग': 19,
 'घ': 20,
 'ङ': 21,
 'च': 22,
 'छ': 23,
 'ज': 24,
 'झ': 25,
 'ञ': 26,
 'ट': 27,
 'ठ': 28,
 'ड': 29,
 'ढ': 30,
 'ण': 31,
 'त': 32,
 'थ': 33,
 'द': 34,
 'ध': 35,
 'न': 36,
 'प': 37,
 'फ': 38,
 'ब': 39,
 'भ': 40,
 'म': 41,
 'य': 42,
 'र': 43,
 'ल': 44,
 'व': 45,
 'श': 46,
 'ष': 47,
 'स': 48,
 'ह': 49,
 '़': 50,
 'ऽ': 51,
 'ा': 52,
 'ि': 53,
 'ी': 54,
 'ु': 55,
 'ू': 56,
 'ृ': 57,
 'े': 58,
 'ै': 59,
 'ॉ': 60,
 'ो': 61,
 'ौ': 62,
 '्': 63,
 '॰': 64}

roman_itos = {v: k for k, v in roman_stoi.items()}
devnagari_itos = {v: k for k, v in devnagari_stoi.items()}

unk_token = "?"
pad_token = "_"
start_token = "<"
end_token = ">"

special_tokens = [unk_token, pad_token, start_token, end_token]

In [33]:
import re
import numpy as np

nepali_to_english_numbers = {
    "०": "0",
    "१": "1",
    "२": "2",
    "३": "3",
    "४": "4",
    "५": "5",
    "६": "6",
    "७": "7",
    "८": "8",
    "९": "9",
    "।": "."
}

def clean_and_map_nepali_text(text):
    """clean the devnagari text
    Args:
        text (str): Input Nepali text.

    Returns:
        str: Cleaned and processed text.
    """
    # Define the characters to remove (punctuation and special symbols)
    pattern = r"[,!?\"'।।‘’“”():;—-]"

    # Remove punctuation
    cleaned_text = re.sub(pattern, "", text)

    # Replace Nepali numbers with English numbers
    # for nep_num, eng_num in nepali_to_english_numbers.items():
    #     cleaned_text = cleaned_text.replace(nep_num, eng_num)

    return cleaned_text

def one_hot_encode_tokens(tokens: list):
    """One hot encode the token list"""
    MAX_ENCODER_SEQUENCE_LENGTH = 65
    MAX_ENCODER_TOKENS = 19
    ohe = np.zeros((MAX_ENCODER_TOKENS, MAX_ENCODER_SEQUENCE_LENGTH))
    for t, tkn in enumerate(tokens):
        ohe[t, tkn] = 1.0
    # for other just encode the position of the pad token

    t = len(tokens) - 1 if tokens else -1
    ohe[t+1:, devnagari_stoi[pad_token]] = 1.0
    ohe = ohe.reshape(1, ohe.shape[0], ohe.shape[1])
    return ohe

if __name__ == '__main__':
    # Example usage
       # Example usage
    nepali_text = "०७८ साउन १९ मा एकैदिन चार करोड ९१ लाख ९४ हजार रुपैयाँ सारिएको प्रतिवेदनमा उल्लेख छ । गोर्खा मिडियाका उपाध्यक्ष छविलाल जोशीको घरबाट बरामद भएको हार्ड डिस्कमा सानो पाइला सहकारीबाट पनि रकम सिधै गोर्खा मिडियामा सारिएको फेला परेको हो । प्रहरीका अनुसार सानो पाइला सहकारीका अध्यक्ष अनन्तबाबु राई, सचिव देवेन्द्रबाबु राई, कोषाध्यक्ष कुमार रम्तेल, प्रबन्धक असरफ अली सिद्धिकी, संरक्षक गीतेन्द्रबाबु (जीबी) राईलगायत ११ जना हालसम्म फरार छन् । सहकारीकी पूर्वउपाध्यक्ष नेहा पौडेल गत साउन २१ मा जिल्ला अदालत पर्साबाट न्यायीक परीक्षण हुँदा ठहरेबमोजिम हुने गरी हाललाई एक करोड १० लाख धरौटीमा रिहा भइन् । यसैगरी सहकारीका कर्मचारी राधेचन्द्र यादव पनि ३५ लाख रुपैयाँ धरौटीमा रिहा भएका छन् ।"
    cleaned_text = clean_and_map_nepali_text(nepali_text)

    # print(cleaned_text)
    tokens = [0,2]
    ohe = one_hot_encode_tokens(tokens)
    print(ohe)

[[[1. 0. 0. ... 0. 0. 0.]
  [0. 0. 1. ... 0. 0. 0.]
  [0. 1. 0. ... 0. 0. 0.]
  ...
  [0. 1. 0. ... 0. 0. 0.]
  [0. 1. 0. ... 0. 0. 0.]
  [0. 1. 0. ... 0. 0. 0.]]]


In [34]:


class Tokenizer:
    def __init__(self):
        self.pad_token = roman_stoi[special_tokens[1]]
        self.start_token = roman_stoi[special_tokens[2]]
        self.end_token = roman_stoi[special_tokens[3]]
        self.unk_token = roman_stoi[special_tokens[0]]

    def tokenize_devnagari(self, text: list[str]):
        """tokenize the devnagari text into token

        args:
            text: str: The list of devnagari text to be tokenized

        returns:
            list: The list of tokens
        """
        tokens = []
        for word in text:
            token = []
            for character in word:
                try:
                    token.append(devnagari_stoi[character])
                except KeyError:
                    token.append(self.unk_token)
            tokens.append(token)
        return tokens

    def detokenize_devnagari(self, tokens: list[list[int]]):
        """detokenize the roman tokens into text

        args:
            tokens: list: The list of tokens to be detokenized

        returns:
            str: The detokenized list of text
        """
        texts = []
        for token in tokens:
            text = "".join([devnagari_itos[character] for character in token])
            texts.append(text)
        return texts

    def tokenize_roman(self, text: list[str]):
        """tokenize the roman text into token

        args:
            text: str: The roman text to be tokenized

        returns:
            list: The list of tokens
        """
        tokens = []
        for word in text:
            token = []
            for character in word:
                try:
                    token.append(roman_stoi[character])
                except KeyError:
                    token.append(self.unk_token)
            tokens.append(token)
        return tokens

    def detokenize_roman(self, tokens: list[list[int]]):
        """detokenize the roman tokens into text

        args:
            tokens: list: The list of tokens to be detokenized

        returns:
            str: The detokenized list of text
        """
        texts = []
        for tkn in tokens:
            text = "".join([roman_itos[token] for token in tkn])
            texts.append(text)
        return texts

if __name__ == '__main__':
    tokenizer = Tokenizer()
    print("_____ORIGINAL_____")
    text = "सहकारी hello र pसम्पत033 k3j43"
    print(f"Text: {text}\n")

    devnagari_tokens = tokenizer.tokenize_devnagari(text.split())
    devnagari_text = tokenizer.detokenize_devnagari(devnagari_tokens)
    print("_____DEVANAGARI_TOKENS_____")
    print(f"{devnagari_tokens}\n")

    roman_tokens = tokenizer.tokenize_roman(text.split())
    roman_text = tokenizer.detokenize_roman(roman_tokens)
    print("_____ROMAN_TOKENS_____")
    print(roman_tokens)

    unk_ = tokenizer.detokenize_devnagari(devnagari_tokens)
    print("\n_____DETOKENIZED_DEVANAGARI_TOKENS_____")
    print(f"{unk_}")

    unk_ = tokenizer.detokenize_roman(roman_tokens)
    print("_____DETOKENIZED_ROMAN_TOKENS_____")
    print(f"\n{unk_}")

_____ORIGINAL_____
Text: सहकारी hello र pसम्पत033 k3j43

_____DEVANAGARI_TOKENS_____
[[48, 49, 17, 52, 43, 54], [0, 0, 0, 0, 0], [43], [0, 48, 41, 63, 37, 32, 0, 0, 0], [0, 0, 0, 0, 0]]

_____ROMAN_TOKENS_____
[[0, 0, 0, 0, 0, 0], [11, 8, 15, 15, 18], [0], [19, 0, 0, 0, 0, 0, 0, 0, 0], [14, 0, 13, 0, 0]]

_____DETOKENIZED_DEVANAGARI_TOKENS_____
['सहकारी', '?????', 'र', '?सम्पत???', '?????']
_____DETOKENIZED_ROMAN_TOKENS_____

['??????', 'hello', '?', 'p????????', 'k?j??']


In [35]:
import keras

class Model:
    def __init__(self, model: str):
        self.model = keras.models.load_model(model)
        self.LATENT_DIM = 256

    def encoder(self):
        """Return the encoder model"""
        encoder_inputs = self.model.input[0]  # input_1
        encoder_outputs, state_h_enc, state_c_enc = self.model.layers[2].output  # lstm_1
        encoder_states = [state_h_enc, state_c_enc]

        encoder_model = keras.Model(encoder_inputs, encoder_states)

        return encoder_model

    def decoder(self):
        """Return the decoder model"""
        decoder_inputs = self.model.input[1]
        decoder_state_input_h = keras.Input(shape=(self.LATENT_DIM,), name="decoder_state_1")
        decoder_state_input_c = keras.Input(shape=(self.LATENT_DIM,), name="decoder_state_2")

        decoder_states_inputs = [decoder_state_input_h, decoder_state_input_c]

        decoder_lstm = self.model.layers[3]

        decoder_outputs, state_h_dec, state_c_dec = decoder_lstm(
            decoder_inputs, initial_state=decoder_states_inputs)

        decoder_states = [state_h_dec, state_c_dec]

        decoder_dense = self.model.layers[4]

        decoder_outputs = decoder_dense(decoder_outputs)

        decoder_model = keras.Model(
        [decoder_inputs] + decoder_states_inputs, [decoder_outputs] + decoder_states
        )

        return decoder_model

if __name__ == "__main__":
    model = Model("./model_1.keras")
    encoder_model = model.encoder()
    decoder_model = model.decoder()
    decoder_model = None
    print(encoder_model, decoder_model)
    print("Model loaded successfully")

<Functional name=functional_2564, built=True> None
Model loaded successfully


In [36]:
import numpy as np
import tensorflow as tf


MODEL_LOCATION = "./model_1.keras"
NUM_DECODER_TOKENS = 30
MAX_OUTPUT_SEQUENCE_LENGTH = 100

def decode_sequence(input_seq):
    """Takes the one hoe encoded input sequence and predict the next token and return the decoded roman nepali text after completing all token prediction"""
    model = Model(MODEL_LOCATION)
    encoder_model = model.encoder()
    decoder_model = model.decoder()

    # Encode the input as state vectors.
    states_value = encoder_model.predict(input_seq, verbose=0)

    states_value = [tf.convert_to_tensor(state) for state in states_value]


    # Generate empty target sequence of length 1.
    target_seq = np.zeros((1, 1, NUM_DECODER_TOKENS))
    # Populate the first character of target sequence with the start character.
    target_seq[0, 0, roman_stoi["<"]] = 1.0

    # Sampling loop for a batch of sequences
    # (to simplify, here we assume a batch of size 1).
    stop_condition = False
    decoded_sentence = ""
    while not stop_condition:
        output_tokens, h, c = decoder_model.predict(
            [target_seq] + states_value, verbose=0
        )

        # Sample a token
        sampled_token_index = np.argmax(output_tokens[0, -1, :])
        sampled_char = roman_itos[sampled_token_index]
        # decoded_sentence += sampled_char

        # Exit condition: either hit max length
        # or find stop character.
        if sampled_char == ">" or len(decoded_sentence) > MAX_OUTPUT_SEQUENCE_LENGTH:
            stop_condition = True
        else:
          decoded_sentence += sampled_char

        # Update the target sequence (of length 1).
        target_seq = np.zeros((1, 1, NUM_DECODER_TOKENS))
        target_seq[0, 0, sampled_token_index] = 1.0

        # Update states
        states_value = [h, c]
    return decoded_sentence

In [37]:
  nepali_to_english_numbers = {
    "०": "0",
    "१": "1",
    "२": "2",
    "३": "3",
    "४": "4",
    "५": "5",
    "६": "6",
    "७": "7",
    "८": "8",
    "९": "9",
    "।": "."
  }

In [38]:
def map_numbers(text):
    # Replace Nepali numbers with English numbers
    for nep_num, eng_num in nepali_to_english_numbers.items():
        text = text.replace(nep_num, eng_num)

    return text

In [39]:
tokenizer = Tokenizer()
def clean(text):
    # clean the text
    cleaned_text = clean_and_map_nepali_text(text)
    # make a list of text
    tokenized_text = cleaned_text.split(" ")

    return tokenized_text

def transliterate(text: str) -> str:
    # clean the text
    # cleaned_text = clean_and_map_nepali_text(text)
    # # make a list of text
    # tokenized_text = cleaned_text.split(" ")
    # tokenization
    tokenized_devnagari = tokenizer.tokenize_devnagari(text)
    # convert in number
    ohe_token = one_hot_encode_tokens(tokenized_devnagari[0])
    # translation
    decoded_sentence = decode_sequence(ohe_token)
    return decoded_sentence

if __name__ == "__main__":
    devnagari_text = "यो एउटा उदाहरण वाक्य हो। यसमा १२३४ नम्बर र केही चिन्हहरू छन्।"
    roman_text = []
    for text in devnagari_text.split():
        if any(char.isdigit() for char in text):
            # some refactor need
            roman_text.append(map_numbers(text))
            continue
        text = clean(text)
        if text == "":
          continue
        t = transliterate(text)
        roman_text.append(t)
    print(" ".join(roman_text))


yo euta udaharan wakya hoit yasama 1234 namber rupma kehi chinhaharu chhan


In [40]:
with open("/content/ne_dedup.txt_part_0001.txt", "r", encoding="utf-8") as f:
  text = f.read()

In [41]:
text[:1000]

'बर्दिबास नगरपालिकाको तेस्रो नगर परिषदबाट पारित आ.व.२०७३।७४ को संशोधित र २०७४।७५ को प्रस्तावित नीति, कार्यक्रम तथा बजेट\nअार्थिक वर्ष २०७५/७६ काे नदिजन्य पदार्थकाे उत्खनन् गरी बिक्रि वितरण तथा अान्तरिक निकासी गर्ने कार्यकाे बाेलपत्र सम्बन्धी सुचना\nसक्षार सप्तरी अभियानमा सप्तरीबासी सम्पूर्ण सरोकारवालाहरुको सहयोग र सहभागिताकाो लागि अनुराोध छ ।|| सामुदायिक अध्ययन केन्द्रहरूको नविकरण सम्बन्धमा ।||\nकाठमाडौं, १२ कातिक । राष्ट्रपति विद्यादेवी भण्डारी मित्रराष्ट्र कतारको चार दिवसीय औपचारिक भ्रमणमा आज त्यसतर्फ प्रस्थान गरेकी छन् । राष्ट्रपति विद्यादेवी भण्डारी कतारका अमिर शेख हमाद बीन खालिदा अल थानीको मैत्रीपूर्ण निमन्त्रणामा चार दिवसीय औपचारिक\nकाठमाडौँ, २६ कात्तिक । सरकारले सङ्घ, प्रदेश र स्थानीय तहमा कर्मचारी समायोजन गर्नका लागि ‘कर्मचारी समायोजन अध्यादेश–२०७५’ ल्याउने तयारी गरेको छ । सरकारले यसअघि ल्याएको\nकाठमाडौं, २६ कातिक । महानायक राजेश हमाल अहिले चलचित्र क्षेत्रमा पातलिए पनि उनको सिने जगतमा नामै काफी छ । कुनै समय बलिउड सुपरस्टार अमिताभ वच्चनसँग\nकाठमाडौं, २६ कातिक । यमनको प्रमुख शहर 

In [42]:
text[:10000]

'बर्दिबास नगरपालिकाको तेस्रो नगर परिषदबाट पारित आ.व.२०७३।७४ को संशोधित र २०७४।७५ को प्रस्तावित नीति, कार्यक्रम तथा बजेट\nअार्थिक वर्ष २०७५/७६ काे नदिजन्य पदार्थकाे उत्खनन् गरी बिक्रि वितरण तथा अान्तरिक निकासी गर्ने कार्यकाे बाेलपत्र सम्बन्धी सुचना\nसक्षार सप्तरी अभियानमा सप्तरीबासी सम्पूर्ण सरोकारवालाहरुको सहयोग र सहभागिताकाो लागि अनुराोध छ ।|| सामुदायिक अध्ययन केन्द्रहरूको नविकरण सम्बन्धमा ।||\nकाठमाडौं, १२ कातिक । राष्ट्रपति विद्यादेवी भण्डारी मित्रराष्ट्र कतारको चार दिवसीय औपचारिक भ्रमणमा आज त्यसतर्फ प्रस्थान गरेकी छन् । राष्ट्रपति विद्यादेवी भण्डारी कतारका अमिर शेख हमाद बीन खालिदा अल थानीको मैत्रीपूर्ण निमन्त्रणामा चार दिवसीय औपचारिक\nकाठमाडौँ, २६ कात्तिक । सरकारले सङ्घ, प्रदेश र स्थानीय तहमा कर्मचारी समायोजन गर्नका लागि ‘कर्मचारी समायोजन अध्यादेश–२०७५’ ल्याउने तयारी गरेको छ । सरकारले यसअघि ल्याएको\nकाठमाडौं, २६ कातिक । महानायक राजेश हमाल अहिले चलचित्र क्षेत्रमा पातलिए पनि उनको सिने जगतमा नामै काफी छ । कुनै समय बलिउड सुपरस्टार अमिताभ वच्चनसँग\nकाठमाडौं, २६ कातिक । यमनको प्रमुख शहर 

In [43]:
len(text)

31457280

In [44]:
total_data = len(text) * 0.10

smallset = text[:int(total_data)]

In [45]:
len(smallset)

3145728

In [46]:
roman_translation = []

for t in text[200:300].split("।"):
  for word in t.split():
    if any(char.isdigit() for char in word):
      roman_translation.append(map_numbers(word))
      continue
    if word == "":
      continue
    roman_translation.append(transliterate(word))

In [47]:
text = "राष्ट्रपति विद्यादेवी भण्डारी मित्रराष्ट्र कतारको चार दिवसीय औपचारिक भ्रमणमा आज त्यसतर्फ प्रस्थान गरेकी छन् । राष्ट्रपति विद्यादेवी भण्डारी कतारका अमिर शेख हमाद बीन खालिदा अल थानीको मैत्रीपूर्ण निमन्त्रणामा चार दिवसीय औपचारिक\nकाठमाडौँ, २६ कात्तिक । सरकारले सङ्घ, प्रदेश र स्थानीय तहमा कर्मचारी समायोजन गर्नका लागि ‘कर्मचारी समायोजन अध्यादेश–२०७५’ ल्याउने तयारी गरेको छ । सरकारले यसअघि ल्याएको\nकाठमाडौं, २६ कातिक । महानायक राजेश हमाल अहिले चलचित्र क्षेत्रमा पातलिए पनि उनको सिने जगतमा नामै काफी छ । कुनै समय बलिउड सुपरस्टार अमिताभ वच्चनसँग\nकाठमाडौं, २६ कातिक । यमनको प्रमुख शहर होडेडामा सरकार समर्थक र विद्रोहीबीच भएको पछिल्लो युद्धमा एक सय ४९ जनाको मृत्यु भएको चिकित्सक र सैनिक स्रोतले\nकाठमाडौं, २६ कातिक । निजी क्षेत्रबाट निर्माण भएको पहिलो चलचित्र माइतीघरका छाँयाकार गेहेन्द्रप्रसाद धिमालको ७२\nनेपाल कम्युनिष्ट पार्टी (नेकपा)को एकीकरण प्रक्रिया जारी छ । तर, ३ जेठ २०७५ मा पार्टी एकताको घोषणा हुदै गर्दा जुन कार्यतालिका बनाइएको थियो । त्यो\nसुर्खेत, १ कात्तिक । गत शुक्रबार आठबीस नगरपालिका–१ डाव दैलेखका कर्णबहादुर रावत र उनकी श्रीमतीलाई चिया चाउचाउ नास्ता खुवाउन भ्याइ नभ्याइ थियो । खासै यसअघि दुई–चार स्थानीय ग्राहक आउने त्यस चिया पसलमा उक्त दिनको भीडले भने रावत दम्पती निकै दङ्ग थिए । त्यहाँ कर्णाली प्रदेश सरकार, आन्तरिक तथा विदेशी पाहुना पुगेका थिए । आजभोलि रावतझैँ\nकाठमाडौं, २२ कात्तिक । सशस्त्र प्रहरी बलको मुख्यालयमा मंगलबार कुकुर तिहारका दिन देउसीभैली कार्यक्रम गरिएको थियो । सशस्त्र प्रहरी परिवार महिला संघको ब्यानरमा गरिएको उक्त दिनको देउसी भैली कार्यक्रम रमाइलोका लागि र स्वेच्छिक रुपमा दान दिने उद्देश्यले गरिएको नभई जबर्जस्ती असुलीका लागि गरिएको सन्देश गएको\nकाठमाडौं, २६ कातिक । नेपाल स्टक एक्सचेञ्जले कारोवार रकम तलमाथि परेको भन्दै आएको गुनासो हल्ला मात्रै भएको जनाएको छ । कारोवार रकमलगायतका विषयमा अन्योलता बढेपछि केही लगानीकर्ताले एउटा दलालको देखिरहेको मूल्य र अर्को दलालमा देखिरहेको\nकाठमाडौं, २२ कात्तिक । सशस्त्र प्रहरी बलको मुख्यालयमा मंगलबार कुकुर तिहारका दिन देउसीभैली कार्यक्रम गरिएको थियो । सशस्त्र प्रहरी परिवार महिला संघको ब्यानरमा गरिएको उक्त दिनको देउसी भैली कार्यक्रम रमाइलोका लागि र स्वेच्छिक रुपमा दान दिने उद्देश्यले गरिएको नभई जबर्जस्ती असुलीका लागि गरिएको सन्देश गएको छ । पदको आडमा रकम उठाउन गरिएको थियो भन्ने कुरा\nपेरिस, २५ कार्तिक । पहिलो विश्वयुद्ध समाप्तिको एक सय वर्ष अवसर पारेर फ्रान्सको पेरिसमा विशेष कार्यक्रम आयोजना गरिएको छ । प्रथम विश्वयुद्ध अन्त्य भएको सम्झौतामा हस्ताक्षर गरिएको एकसय वर्ष पुगेको सम्झनामा पेरिसमा आयोजित एउटा समारोहमा विश्वका\nहङकङ : चीनले संसारलाई चकित तुल्याउने गरी छोटो समयमै विश्वकै लामो समुन्द्री पुलको निर्माण कार्य सम्पन्न गरेको छ । हङकङ–मकाउ–चुहाई जोड्न ७ किलोमिटर सामुद्रिक सुरङसहित ५५ किलोमिटर लामो सामुद्रिक पुल चीनले निर्माण गरेर उद्घाटन गरेको हो । तस्बिरहरु ऐजेन्सी चिनियाँ सहर जुहाईको हुँदै मकाउ जोड्ने\nकाठमाडौं,१३ कात्तिक । नेपाल एयर होस्टेस एकाडमीद्धारा सञ्चालित एयर होस्टेस तालिम लिएका विद्यार्थी दीक्षित भएका छन् । मकवानपुरमा एक कार्यक्रमको विच मंगलवार १८ जना एयरहोस्टेस दीक्षित भए। तालिम लिएका युवायुवतीहरुलाई उक्त एयरहोस्टेस एकाडमीका शिक्षकहरु नितामनि\nदमौली । तनँहुको पर्यटकीय नगरी बन्दीपुरमा कृत्रिम ताल बनाइने भएको छ । पहाडकी रानी नामले परिचित बन्दीपुरको पर्यटन प्रवद्र्धन गर्न मानवनिर्मित ताल बनाउन लागिएको हो ।\nसोमबार प्रसिद्ध अर्थशास्त्री कार्लो कोटेरेलीलाई नयाँ सरकारको नेतृत्व गर्न आग्रह गर्दै तत्काल यहाँको मन्त्रीमण्डल विस्तार गर्ने जनादेश प्रदान गरेका छन् राष्ट्रपतिको कार्यालयबाट जारी एक विज्ञप्तिमा जनाइएको छ ।\nप्रधानमन्त्रीमा आफ्नो नाम प्रस्तावित भएपछि कोटेरेलीले देशवासीलाई सम्बोधन गर्दै भने, “यदि मेरो नेतृत्वको सरकारले संसदबाट विश्वासको मत पाएमा सार्वजनिक वित्त सुधारका लागि सावधानीपूर्वक नेतृत्व प्रदान गर्नेछ ।”\nउहाँले कुशल नेतृत्व प्रदान गर्दै आगामी वर्ष सन् २०१९ को बजेटलाई अनुमोदन गराउँदै इटालीलाई यूरो समूहमा नै रहने सुनिश्चितता गर्ने पनि सम्बोधनमा बताए ।\nलण्डन । उपसभामुख डा शिवमाया तुम्बाहाङ्फेले लण्डनमा सम्पन्न विश्वभरका महिला सांसदहरुको एक अन्तर्राष्ट्रिय सम्मेलनलाई सम्बोधन गरेकी छन् ।\nआइतबार लण्डनको फेल्थाममा १६ औँ राष्ट्रिय विभुती ,समाज सुधारक महागुरु फल्गुनन्दको १३४ औँ जन्म जयन्ती मनाइएको छ ।\nहनोई । भियतनामले यसै वर्षको अन्त्यदेखि लागू हुने बहुचर्चित प्रशान्त व्यापार सम्झौतालाई अनुमोदन गरेको छ । अमेरिकी राष्ट्रपति डोनाल्ड ट्रम्पले यो सम्झौताबाट अलग हुने घोषणा गरे पनि सम्झौता अनुमोदन गर्ने\nकाठमाडौँ । उमेर पुगेका हरेक व्यक्तिलाई यौनको चाहाना हुनु स्वाभाविक नै मानिन्छ तर यदि कोहि महिला वा पुरुषलाई यौन चाहानामा गडबढी हुनु पनि सामान्य हुँदै गएको छ ।\nधेरै विद्यार्थीहरुको मनमा ग्य्राजुएट गरेपछि पढु कि नपढु भन्ने दुविधा हुन्छ । यो विषय पढौं कि त्यो विषय पढौं भन्ने प्रश्न पनि धेरै ग्य्राजुएटहरुको दिमागमा खेलिरहेको हुन्छ ।\nयो फाइल Wikimedia Commons बाट हो र अन्य परियोजनाहरू द्वारा पनि प्रयोग गर्न सकिन्छ। त्यहाँ नेर यसको फाइल विवरण पृष्ठमा रहेको विवरण तल दिइएको छ।\nउजुरी कर्ताहरुलाई आइतबार सिंहदरबार वोलाइएको छ । उजुरीका लागि दिइएको १० दिन मध्ये वुधवार अन्तिम समयसम्म मिश्रलाई अनुमोदन गर्न नहुने दाबीसहित चारवटा उजुरी दर्ता भएको थियो । मिश्र बिरुद्ध प"

In [48]:
" ".join(roman_translation)

'napda gat kat ba sa sa sa sa aat sa sa sa'

In [58]:
roman_translation

3416

In [72]:
input_text = "./input.txt"
output_text = "./output.txt"

with open(input_text, "r", encoding="utf-8") as file:
  text = file.read()
  text = text.replace("\\n", " ").replace("|", "")
  total_length = len(text)
  roman_translation = []
  processed_length = 0

  sentences = text.split("।") # each line split
  for i, line in enumerate(sentences):

    print(line)
    words = line.split()
    translated_sentence = []

    for word in words:
      if any(char.isdigit() for char in word):
        translated_sentence.append(map_numbers(word))
      # elif word == "a":
      #   translated_sentence.append("")
      else:
        clean_text = clean(word)
        if clean_text == "":
          continue
        translated_sentence.append(transliterate(clean_text))

    # after completion of one line
    translated_sentence = " ".join(translated_sentence).strip()

    if translated_sentence:
      translated_sentence = translated_sentence[0].upper() + translated_sentence[1:]

    roman_translation.append(translated_sentence + ".\n")

    processed_length += len(line) + 1
    progress = (processed_length / total_length) * 100
    # print(f"Completed: {progress: .2f}")
    print(f"{translated_sentence}")

 सामुदायिक अध्ययन केन्द्रहरूको नविकरण सम्बन्धमा 
Samudayik adhyayan kendraharuko nawikaran sambandhama
 काठमाडौं, १२ कातिक 
Kathmadaun 12 katik
 राष्ट्रपति विद्यादेवी भण्डारी मित्रराष्ट्र कतारको चार दिवसीय औपचारिक भ्रमणमा आज त्यसतर्फ प्रस्थान गरेकी छन् 
Rashtrapati vidyadevi bhandari mitrarashtra katarko char diwasiya aupacharik bhramanma aag tyasatarfa prasthan gareki chhan
 राष्ट्रपति विद्यादेवी भण्डारी कतारका अमिर शेख हमाद बीन खालिदा अल थानीको मैत्रीपूर्ण निमन्त्रणामा चार दिवसीय औपचारिक काठमाडौँ, २६ कात्तिक 
Rashtrapati vidyadevi bhandari katarka amir shekh hamad bien khalida al thaniko maitripurna nimantranama char diwasiya aupacharik kathmadaun 26 kattik
 सरकारले सङ्घ, प्रदेश र स्थानीय तहमा कर्मचारी समायोजन गर्नका लागि ‘कर्मचारी समायोजन अध्यादेश–२०७५’ ल्याउने तयारी गरेको छ 
Sarkarle sangha pradesh rupma sthaniya tahma karmachari samayojan garnaka lagi karmachari samayojan अध्यादेश–2075’ lyaune tayari gareko chha
 सरकारले यसअघि ल्याएको काठमाडौं, २६ कातिक 
Sarkarle yasaaghi lyaeko k

In [73]:
with open(output_text, "w", encoding="utf-8") as f:
  f.write(" ".join(roman_translation))

In [74]:
"||\nकाठमाडौं, १२ कातिक ".replace("\n", "")

'||काठमाडौं, १२ कातिक '

In [67]:
with open(input_text, "r", encoding="utf-8") as file:
  text = file.read()

In [71]:
text.replace("\\n", " ").replace("|", "")

' सामुदायिक अध्ययन केन्द्रहरूको नविकरण सम्बन्धमा । काठमाडौं, १२ कातिक । राष्ट्रपति विद्यादेवी भण्डारी मित्रराष्ट्र कतारको चार दिवसीय औपचारिक भ्रमणमा आज त्यसतर्फ प्रस्थान गरेकी छन् । राष्ट्रपति विद्यादेवी भण्डारी कतारका अमिर शेख हमाद बीन खालिदा अल थानीको मैत्रीपूर्ण निमन्त्रणामा चार दिवसीय औपचारिक काठमाडौँ, २६ कात्तिक । सरकारले सङ्घ, प्रदेश र स्थानीय तहमा कर्मचारी समायोजन गर्नका लागि ‘कर्मचारी समायोजन अध्यादेश–२०७५’ ल्याउने तयारी गरेको छ । सरकारले यसअघि ल्याएको काठमाडौं, २६ कातिक । महानायक राजेश हमाल अहिले चलचित्र क्षेत्रमा पातलिए पनि उनको सिने जगतमा नामै काफी छ । कुनै समय बलिउड सुपरस्टार अमिताभ वच्चनसँग काठमाडौं, २६ कातिक । यमनको प्रमुख शहर होडेडामा सरकार समर्थक र विद्रोहीबीच भएको पछिल्लो युद्धमा एक सय ४९ जनाको मृत्यु भएको चिकित्सक र सैनिक स्रोतले काठमाडौं, २६ कातिक । निजी क्षेत्रबाट निर्माण भएको पहिलो चलचित्र माइतीघरका छाँयाकार गेहेन्द्रप्रसाद धिमालको ७२ नेपाल कम्युनिष्ट पार्टी (नेकपा)को एकीकरण प्रक्रिया जारी छ । तर, ३ जेठ २०७५ मा पार्टी एकताको घोषणा हुदै गर्दा जुन कार्यतालिका बनाइएको