In [7]:
!pip install nltk inltk indic-nlp-library
import nltk
import re
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.data import find

Collecting inltk
  Downloading inltk-0.9-py3-none-any.whl.metadata (40 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m40.1/40.1 kB[0m [31m1.6 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting indic-nlp-library
  Downloading indic_nlp_library-0.92-py3-none-any.whl.metadata (5.7 kB)
Collecting bottleneck (from inltk)
  Downloading Bottleneck-1.4.0-cp310-cp310-manylinux_2_5_x86_64.manylinux1_x86_64.manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.9 kB)
Collecting nvidia-ml-py3 (from inltk)
  Downloading nvidia-ml-py3-7.352.0.tar.gz (19 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting typing (from inltk)
  Downloading typing-3.7.4.3.tar.gz (78 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m78.6/78.6 kB[0m [31m3.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting fastai==1.0.57 (from inltk)
  Downloading fastai-1.0.57-py3-none-any.whl.metadata (14 kB)
Collecting sphinx-a

In [8]:
nltk.download("punkt")
nltk.download("stopwords")
nltk.download("wordnet")

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [9]:
hindi_text = "NVIDIA का RTX 3060 (12GB) एक नया और शक्तिशाली ग्राफिक्स कार्ड है। यह गेमिंग और अन्य ग्राफिक्स कामों के लिए बहुत अच्छा है। इसमें 12GB की वीडियो मेमोरी है, जिससे आप उच्च गुणवत्ता वाले गेम्स और एप्लिकेशन आसानी से चला सकते हैं। RTX 3060 (12GB) में NVIDIA की नई तकनीकें शामिल हैं जैसे कि रे ट्रेसिंग और DLSS। ये तकनीकें गेम्स को और भी असली बनाती हैं और गेम खेलते समय अच्छा अनुभव देती हैं।"
eng_text = "NVIDIA's RTX 3060 (12GB) is a new and powerful graphics card. It is excellent for gaming and other graphics-related tasks. It has 12GB of video memory, which allows you to run high-quality games and applications easily. The RTX 3060 (12GB) includes NVIDIA's latest technologies, such as ray tracing and DLSS. These technologies make games even more realistic and provide a great experience while playing."

In [10]:
eng_tokens = word_tokenize(eng_text)

In [11]:
# stemming

stemmer = PorterStemmer()
stemmed_words = [stemmer.stem(word) for word in eng_tokens]
print(stemmed_words)


['nvidia', "'s", 'rtx', '3060', '(', '12gb', ')', 'is', 'a', 'new', 'and', 'power', 'graphic', 'card', '.', 'it', 'is', 'excel', 'for', 'game', 'and', 'other', 'graphics-rel', 'task', '.', 'it', 'ha', '12gb', 'of', 'video', 'memori', ',', 'which', 'allow', 'you', 'to', 'run', 'high-qual', 'game', 'and', 'applic', 'easili', '.', 'the', 'rtx', '3060', '(', '12gb', ')', 'includ', 'nvidia', "'s", 'latest', 'technolog', ',', 'such', 'as', 'ray', 'trace', 'and', 'dlss', '.', 'these', 'technolog', 'make', 'game', 'even', 'more', 'realist', 'and', 'provid', 'a', 'great', 'experi', 'while', 'play', '.']


In [12]:

# lemmatization
lemmatizer = WordNetLemmatizer()
lemmatized_words = [lemmatizer.lemmatize(word) for word in eng_tokens]

# removing stopwords
stop_words = set(stopwords.words('english'))
filtered_words = [word for word in lemmatized_words if word.lower() not in stop_words]

print(filtered_words)


['NVIDIA', "'s", 'RTX', '3060', '(', '12GB', ')', 'new', 'powerful', 'graphic', 'card', '.', 'excellent', 'gaming', 'graphics-related', 'task', '.', 'ha', '12GB', 'video', 'memory', ',', 'allows', 'run', 'high-quality', 'game', 'application', 'easily', '.', 'RTX', '3060', '(', '12GB', ')', 'includes', 'NVIDIA', "'s", 'latest', 'technology', ',', 'ray', 'tracing', 'DLSS', '.', 'technology', 'make', 'game', 'even', 'realistic', 'provide', 'great', 'experience', 'playing', '.']


In [13]:
# using indic-nlp-library to stem

from indicnlp.tokenize import indic_tokenize
# tokenize
hi_tokens = indic_tokenize.trivial_tokenize(hindi_text)
print(hi_tokens)


['NVIDIA', 'का', 'RTX', '3060', '(', '12GB', ')', 'एक', 'नया', 'और', 'शक्तिशाली', 'ग्राफिक्स', 'कार्ड', 'है', '।', 'यह', 'गेमिंग', 'और', 'अन्य', 'ग्राफिक्स', 'कामों', 'के', 'लिए', 'बहुत', 'अच्छा', 'है', '।', 'इसमें', '12GB', 'की', 'वीडियो', 'मेमोरी', 'है', ',', 'जिससे', 'आप', 'उच्च', 'गुणवत्ता', 'वाले', 'गेम्स', 'और', 'एप्लिकेशन', 'आसानी', 'से', 'चला', 'सकते', 'हैं', '।', 'RTX', '3060', '(', '12GB', ')', 'में', 'NVIDIA', 'की', 'नई', 'तकनीकें', 'शामिल', 'हैं', 'जैसे', 'कि', 'रे', 'ट्रेसिंग', 'और', 'DLSS', '।', 'ये', 'तकनीकें', 'गेम्स', 'को', 'और', 'भी', 'असली', 'बनाती', 'हैं', 'और', 'गेम', 'खेलते', 'समय', 'अच्छा', 'अनुभव', 'देती', 'हैं', '।']


In [14]:

def hindi_stemmer(word):
  suffixes = ['ता', 'ते', 'ती', 'कर', 'ने', 'ा', 'े', 'ी', 'ों', 'ें']
  for suffix in suffixes:
    if word.endswith(suffix):
      word = word[:-len(suffix)]
  return word

stemmed_hi_words = [hindi_stemmer(word) for word in hi_tokens]
print(stemmed_hi_words)


['NVIDIA', 'क', 'RTX', '3060', '(', '12GB', ')', 'एक', 'नय', 'और', 'शक्तिशाल', 'ग्राफिक्स', 'कार्ड', 'है', '।', 'यह', 'गेमिंग', 'और', 'अन्य', 'ग्राफिक्स', 'काम', 'क', 'लिए', 'बहुत', 'अच्छ', 'है', '।', 'इसम', '12GB', 'क', 'वीडियो', 'मेमोर', 'है', ',', 'जिसस', 'आप', 'उच्च', 'गुणवत्', 'वाल', 'गेम्स', 'और', 'एप्लिकेशन', 'आसान', 'स', 'चल', 'सक', 'हैं', '।', 'RTX', '3060', '(', '12GB', ')', 'म', 'NVIDIA', 'क', 'नई', 'तकनीक', 'शामिल', 'हैं', 'जैस', 'कि', 'र', 'ट्रेसिंग', 'और', 'DLSS', '।', 'य', 'तकनीक', 'गेम्स', 'को', 'और', 'भ', 'असल', 'बन', 'हैं', 'और', 'गेम', 'खेल', 'समय', 'अच्छ', 'अनुभव', 'द', 'हैं', '।']


In [15]:
def hindi_lemmatizer(word):
    suffixes = {
        'ता': '',
        'ते': '',
        'ती': '',
        'कर': '',
        'ने': '',
        'ा': '',
        'े': '',
        'ी': '',
        'ों': '',
        'ें': '',
    }
    # Apply the lemmatization rules
    for suffix, lemma in suffixes.items():
      if word.endswith(suffix):
        return word[:-len(suffix)] + lemma

    # If no suffixes matched, return the original word
    return word

In [16]:
# Lemmatize the tokens
lemmatized_hi_words = [hindi_lemmatizer(word) for word in hi_tokens]
print("Lemmatized Words:", lemmatized_hi_words)

Lemmatized Words: ['NVIDIA', 'क', 'RTX', '3060', '(', '12GB', ')', 'एक', 'नय', 'और', 'शक्तिशाल', 'ग्राफिक्स', 'कार्ड', 'है', '।', 'यह', 'गेमिंग', 'और', 'अन्य', 'ग्राफिक्स', 'काम', 'क', 'लिए', 'बहुत', 'अच्छ', 'है', '।', 'इसम', '12GB', 'क', 'वीडियो', 'मेमोर', 'है', ',', 'जिसस', 'आप', 'उच्च', 'गुणवत्', 'वाल', 'गेम्स', 'और', 'एप्लिकेशन', 'आसान', 'स', 'चल', 'सक', 'हैं', '।', 'RTX', '3060', '(', '12GB', ')', 'म', 'NVIDIA', 'क', 'नई', 'तकनीक', 'शामिल', 'हैं', 'जैस', 'कि', 'र', 'ट्रेसिंग', 'और', 'DLSS', '।', 'य', 'तकनीक', 'गेम्स', 'को', 'और', 'भ', 'असल', 'बना', 'हैं', 'और', 'गेम', 'खेल', 'समय', 'अच्छ', 'अनुभव', 'दे', 'हैं', '।']
