In [1]:
!pip install indic-nlp-library




In [2]:
from indicnlp.tokenize import indic_tokenize
from indicnlp.normalize.indic_normalize import IndicNormalizerFactory
from sklearn.feature_extraction.text import TfidfVectorizer
import re
# data cleaning = Data cleaning removes punctuation, extra spaces, and unwanted characters
text = "ವಿದ್ಯಾರ್ಥಿಗಳು ಪಾಠಗಳನ್ನು ಕಲಿಯುತ್ತಾರೆ ಮತ್ತು ವಿದ್ಯಾರ್ಥಿಗಳು ಕಲಿಕೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಲು ಪಾಠಗಳನ್ನು ಅಭ್ಯಾಸ ಮಾಡುತ್ತಾರೆ"
tokens = indic_tokenize.trivial_tokenize(text)
print("Total Tokens:", len(tokens))
print("Sample Tokens:", tokens[:20])


Total Tokens: 10
Sample Tokens: ['ವಿದ್ಯಾರ್ಥಿಗಳು', 'ಪಾಠಗಳನ್ನು', 'ಕಲಿಯುತ್ತಾರೆ', 'ಮತ್ತು', 'ವಿದ್ಯಾರ್ಥಿಗಳು', 'ಕಲಿಕೆಯನ್ನು', 'ಉತ್ತಮಗೊಳಿಸಲು', 'ಪಾಠಗಳನ್ನು', 'ಅಭ್ಯಾಸ', 'ಮಾಡುತ್ತಾರೆ']


In [3]:
#normalization
factory = IndicNormalizerFactory()
normalizer = factory.get_normalizer("kn")  # Kannada
normalized_text = normalizer.normalize(text)
print(normalized_text[:200], "...")


ವಿದ್ಯಾರ್ಥಿಗಳು ಪಾಠಗಳನ್ನು ಕಲಿಯುತ್ತಾರೆ ಮತ್ತು ವಿದ್ಯಾರ್ಥಿಗಳು ಕಲಿಕೆಯನ್ನು ಉತ್ತಮಗೊಳಿಸಲು ಪಾಠಗಳನ್ನು ಅಭ್ಯಾಸ ಮಾಡುತ್ತಾರೆ ...


In [4]:
kannada_stopwords = ['ಮತ್ತು', 'ಕೆಲವು', 'ಈ', 'ಅದು', 'ಯಾವುದೇ', 'ಅಲ್ಲಿ', 'ಹಾಗೂ', 'ಆಗ', 'ಅವರು']
filtered_tokens = [w for w in tokens if w not in kannada_stopwords]
print("Tokens after Stopword Removal:", filtered_tokens[:20])


Tokens after Stopword Removal: ['ವಿದ್ಯಾರ್ಥಿಗಳು', 'ಪಾಠಗಳನ್ನು', 'ಕಲಿಯುತ್ತಾರೆ', 'ವಿದ್ಯಾರ್ಥಿಗಳು', 'ಕಲಿಕೆಯನ್ನು', 'ಉತ್ತಮಗೊಳಿಸಲು', 'ಪಾಠಗಳನ್ನು', 'ಅಭ್ಯಾಸ', 'ಮಾಡುತ್ತಾರೆ']


In [6]:
lemmatized_tokens = [
    'ವಿದ್ಯಾರ್ಥಿ', 'ಪಾಠ', 'ಕಲಿ', 'ವಿದ್ಯಾರ್ಥಿ',
    'ಕಲಿಕೆ', 'ಉತ್ತಮಗೊಳಿಸು', 'ಪಾಠ', 'ಅಭ್ಯಾಸ', 'ಮಾಡು'
]

print(lemmatized_tokens)


['ವಿದ್ಯಾರ್ಥಿ', 'ಪಾಠ', 'ಕಲಿ', 'ವಿದ್ಯಾರ್ಥಿ', 'ಕಲಿಕೆ', 'ಉತ್ತಮಗೊಳಿಸು', 'ಪಾಠ', 'ಅಭ್ಯಾಸ', 'ಮಾಡು']


In [8]:
#term Frequency
tf_vectorizer = TfidfVectorizer(use_idf=False, tokenizer=lambda x: x, lowercase=False)
tf_matrix = tf_vectorizer.fit_transform([lemmatized_tokens])
tf_feature_names = tf_vectorizer.get_feature_names_out()
tf_array = tf_matrix.toarray()

for word, freq in zip(tf_feature_names, tf_array[0]):
    print(f"{word}: {freq:.0f}")

ಅಭ್ಯಾಸ: 0
ಉತ್ತಮಗೊಳಿಸು: 0
ಕಲಿ: 0
ಕಲಿಕೆ: 0
ಪಾಠ: 1
ಮಾಡು: 0
ವಿದ್ಯಾರ್ಥಿ: 1


