In [10]:
from indicnlp.tokenize import indic_tokenize
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory
from sacremoses import MosesTokenizer, MosesPunctNormalizer

In [11]:
text = '''एक छोटे से गाँव में नंदन नाम का एक लड़का रहता था। वह बहुत ही जिज्ञासु और मेहनती था। नंदन का सपना था कि वह बड़ा होकर एक महान वैज्ञानिक बने और अपने देश का नाम रोशन करे।

गाँव के लोग अक्सर उसकी इस महत्वाकांक्षा पर हँसते थे और कहते थे, 'गाँव में रहकर कोई वैज्ञानिक नहीं बन सकता। तुम्हें खेती-बाड़ी ही करनी चाहिए।'

लेकिन नंदन को लोगों की बातों से कोई फर्क नहीं पड़ता था। वह अपनी किताबों में डूबा रहता और नए-नए प्रयोग करता। उसके पास कोई बड़ी प्रयोगशाला नहीं थी, लेकिन उसने अपने छोटे से कमरे में ही कई चीजें इकट्ठा कर ली थीं – जैसे पुराने बैटरी, टूटे-फूटे उपकरण, और कागज के बने मॉडल।'''

In [12]:
# Removal of pnnctuation
import re 
from spacy.lang.hi import STOP_WORDS as STOP_WORDS_HI

def remove_punctuations(text):
    # Define Hindi punctuation marks
    hindi_punctuation = "।,;:؟!‘’“”-''–"
    # Create a regex pattern to match any of the defined punctuation marks
    pattern = f"[{re.escape(hindi_punctuation)}]"

    # Replace punctuation with an empty string
    cleaned_text = re.sub(pattern, '', text)
    return cleaned_text

# Normalize
def normalize_text(text):
    # Unicode Normalization
    normalizer_factory = IndicNormalizerFactory()
    normalizer = normalizer_factory.get_normalizer("hi")
    
    # Remove special characters and punctuations
    tokenizer = MosesTokenizer(lang='hi')
    normalizer = MosesPunctNormalizer()
    text = normalizer.normalize(text)
    
    # Tokenize and rejoin to remove unnecessary spaces
    tokens = tokenizer.tokenize(text)
    return ' '.join(tokens)

# Tokenization
def tokenize_text(text):
    # Word tokenization using Indic NLP
    tokens = list(indic_tokenize.trivial_tokenize(text))
    return tokens

# Stopwords removal
def stopword_remover(text):
    non_stop_words = [word for word in text if word not in set(STOP_WORDS_HI) ]
    return non_stop_words

In [13]:
from collections import Counter
print("Before Preprocessing :", Counter(text.split(" ")).most_common(15))

text = remove_punctuations(text)
text = normalize_text(text)
tokens = tokenize_text(text)
tokens = stopword_remover(tokens)

print("After Preprocessing :", Counter(tokens).most_common(15))

Before Preprocessing : [('और', 5), ('में', 4), ('एक', 3), ('से', 3), ('नंदन', 3), ('का', 3), ('था।', 3), ('वह', 3), ('ही', 3), ('कोई', 3), ('नहीं', 3), ('छोटे', 2), ('नाम', 2), ('रहता', 2), ('वैज्ञानिक', 2)]
After Preprocessing : [('गाँव', 3), ('नंदन', 3), ('छोटे', 2), ('नाम', 2), ('रहता', 2), ('वैज्ञानिक', 2), ('बने', 2), ('लड़का', 1), ('जिज्ञासु', 1), ('मेहनती', 1), ('सपना', 1), ('बड़ा', 1), ('होकर', 1), ('महान', 1), ('देश', 1)]


In [25]:
tokens

['छोटे',
 'गाँव',
 'नंदन',
 'नाम',
 'लड़का',
 'रहता',
 'जिज्ञासु',
 'मेहनती',
 'नंदन',
 'सपना',
 'बड़ा',
 'होकर',
 'महान',
 'वैज्ञानिक',
 'बने',
 'देश',
 'नाम',
 'रोशन',
 'करे',
 'गाँव',
 'लोग',
 'अक्सर',
 'उसकी',
 'महत्वाकांक्षा',
 'हँसते',
 'गाँव',
 'रहकर',
 'वैज्ञानिक',
 'बन',
 'तुम्हें',
 'खेतीबाड़ी',
 'करनी',
 'चाहिए',
 'नंदन',
 'लोगों',
 'बातों',
 'फर्क',
 'पड़ता',
 'किताबों',
 'डूबा',
 'रहता',
 'नएनए',
 'प्रयोग',
 'पास',
 'बड़ी',
 'प्रयोगशाला',
 'उसने',
 'छोटे',
 'कमरे',
 'चीजें',
 'इकट्ठा',
 'ली',
 'थीं',
 'पुराने',
 'बैटरी',
 'टूटेफूटे',
 'उपकरण',
 'कागज',
 'बने',
 'मॉडल']

In [14]:
print(text)

एक छोटे से गाँव में नंदन नाम का एक लड़का रहता था वह बहुत ही जिज्ञासु और मेहनती था नंदन का सपना था कि वह बड़ा होकर एक महान वैज्ञानिक बने और अपने देश का नाम रोशन करे गाँव के लोग अक्सर उसकी इस महत्वाकांक्षा पर हँसते थे और कहते थे गाँव में रहकर कोई वैज्ञानिक नहीं बन सकता तुम्हें खेतीबाड़ी ही करनी चाहिए लेकिन नंदन को लोगों की बातों से कोई फर्क नहीं पड़ता था वह अपनी किताबों में डूबा रहता और नएनए प्रयोग करता उसके पास कोई बड़ी प्रयोगशाला नहीं थी लेकिन उसने अपने छोटे से कमरे में ही कई चीजें इकट्ठा कर ली थीं जैसे पुराने बैटरी टूटेफूटे उपकरण और कागज के बने मॉडल


In [15]:

from sklearn.feature_extraction.text import CountVectorizer
# Create the N-gram model (e.g., bigrams)
vectorizer = CountVectorizer(ngram_range=(2, 2), analyzer='word')
X = vectorizer.fit_transform([' '.join(tokens)])

# Display the bigrams
print("N-Grams (Bigrams):")
print(vectorizer.get_feature_names_out())
print(X.toarray())


N-Grams (Bigrams):
['अक सर' 'इकट टर' 'उपकरण गज' 'उसक महत' 'उसन कमर' 'कमर इकट' 'कर अक' 'कर मह'
 'करन दन' 'गज बन' 'गश उसन' 'टर उपकरण' 'दन फर' 'दन लड' 'दन सपन' 'नएनए रय'
 'पड रहत' 'फर पड' 'बड कर' 'बड रय' 'बन करन' 'बन डल' 'बन शन' 'मह बन'
 'महत सत' 'रय गश' 'रय बड' 'रहकर बन' 'रहत नएनए' 'रहत हनत' 'लड रहत' 'शन कर'
 'सत रहकर' 'सपन बड' 'सर उसक' 'हनत दन']
[[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1]]


In [17]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

sequences = [[1, 2, 3, 4], [5, 6]]
padded_sequences = pad_sequences(sequences, padding='post', maxlen=4)
print(padded_sequences)


ImportError: DLL load failed while importing _pywrap_tf2: A dynamic link library (DLL) initialization routine failed.

In [28]:
from sklearn.feature_extraction.text import CountVectorizer

# Create the N-gram model (e.g., bigrams and trigrams)
vectorizer = CountVectorizer(ngram_range=(2, 3), analyzer='word')

# Fit and transform the documents
X = vectorizer.fit_transform([' '.join(tokens)])

# Get the N-grams
ngrams = vectorizer.get_feature_names_out()

print("N-Grams:")
print(ngrams)


N-Grams:
['अक सर' 'अक सर उसक' 'इकट टर' 'इकट टर उपकरण' 'उपकरण गज' 'उपकरण गज बन'
 'उसक महत' 'उसक महत सत' 'उसन कमर' 'उसन कमर इकट' 'कमर इकट' 'कमर इकट टर'
 'कर अक' 'कर अक सर' 'कर मह' 'कर मह बन' 'करन दन' 'करन दन फर' 'गज बन'
 'गज बन डल' 'गश उसन' 'गश उसन कमर' 'टर उपकरण' 'टर उपकरण गज' 'दन फर'
 'दन फर पड' 'दन लड' 'दन लड रहत' 'दन सपन' 'दन सपन बड' 'नएनए रय'
 'नएनए रय बड' 'पड रहत' 'पड रहत नएनए' 'फर पड' 'फर पड रहत' 'बड कर'
 'बड कर मह' 'बड रय' 'बड रय गश' 'बन करन' 'बन करन दन' 'बन डल' 'बन शन'
 'बन शन कर' 'मह बन' 'मह बन शन' 'महत सत' 'महत सत रहकर' 'रय गश' 'रय गश उसन'
 'रय बड' 'रय बड रय' 'रहकर बन' 'रहकर बन करन' 'रहत नएनए' 'रहत नएनए रय'
 'रहत हनत' 'रहत हनत दन' 'लड रहत' 'लड रहत हनत' 'शन कर' 'शन कर अक' 'सत रहकर'
 'सत रहकर बन' 'सपन बड' 'सपन बड कर' 'सर उसक' 'सर उसक महत' 'हनत दन'
 'हनत दन सपन']
