In [1]:
!pip install indic-nlp-library

Collecting indic-nlp-library
  Downloading indic_nlp_library-0.92-py3-none-any.whl.metadata (5.7 kB)
Collecting sphinx-argparse (from indic-nlp-library)
  Downloading sphinx_argparse-0.5.2-py3-none-any.whl.metadata (3.7 kB)
Collecting sphinx-rtd-theme (from indic-nlp-library)
  Downloading sphinx_rtd_theme-2.0.0-py2.py3-none-any.whl.metadata (4.4 kB)
Collecting morfessor (from indic-nlp-library)
  Downloading Morfessor-2.0.6-py3-none-any.whl.metadata (628 bytes)
Collecting sphinx>=5.1.0 (from sphinx-argparse->indic-nlp-library)
  Downloading sphinx-8.0.2-py3-none-any.whl.metadata (6.2 kB)
Collecting docutils>=0.19 (from sphinx-argparse->indic-nlp-library)
  Downloading docutils-0.21.2-py3-none-any.whl.metadata (2.8 kB)
Collecting sphinx>=5.1.0 (from sphinx-argparse->indic-nlp-library)
  Downloading sphinx-7.4.7-py3-none-any.whl.metadata (6.1 kB)
Collecting docutils>=0.19 (from sphinx-argparse->indic-nlp-library)
  Downloading docutils-0.20.1-py3-none-any.whl.metadata (2.8 kB)
Collectin

In [2]:
from indicnlp.tokenize import indic_tokenize
from collections import Counter

# Hindi text data
hi_texts = [
    "इंटेल की स्थापना 1968 में रॉबर्ट नॉयस और गॉर्डन मूरे द्वारा की गई थी।",
    "इंटेल ने 1971 में पहला माइक्रोप्रोसेसर, 4004, पेश किया।",
    "इंटेल का 4004 माइक्रोप्रोसेसर कंप्यूटर क्रांति का एक महत्वपूर्ण मील का पत्थर था।",
    "1972 में, इंटेल ने 8008 प्रोसेसर लॉन्च किया, जो 4004 का उन्नत संस्करण था।",
    "इंटेल ने 1980 के दशक में पेंटियम प्रोसेसर को पेश किया, जो कंप्यूटर प्रोसेसिंग के क्षेत्र में एक बड़ा बदलाव था।",
    "इंटेल के कोर i7 प्रोसेसर ने उच्च प्रदर्शन और ऊर्जा दक्षता को एक नया मानक स्थापित किया।",
    "इंटेल ने 1993 में पहला पेंटियम प्रोसेसर पेश किया, जो मल्टीटास्किंग को बेहतर बनाने में मददगार था।",
    "इंटेल ने 2006 में अपनी वि‍या प्रोसेसर श्रृंखला को प्रस्तुत किया, जो कॉर्पोरेट उपयोग के लिए डिजाइन की गई थी।",
    "2008 में, इंटेल ने 45nm प्रोसेस तकनीक के साथ नए प्रोसेसर पेश किए।",
    "आज इंटेल की प्रौद्योगिकी डेटा सेंटर से लेकर व्यक्तिगत कंप्यूटर तक, कई क्षेत्रों में महत्वपूर्ण भूमिका निभाती है।"
]

# Combine all texts into a single string
combined_text = ' '.join(hi_texts)

# Tokenize the text into words using IndicNLP
tokens = indic_tokenize.trivial_tokenize(combined_text)

# Function to generate bigrams
def generate_bigrams(tokens):
    return [(tokens[i], tokens[i+1]) for i in range(len(tokens) - 1)]

# Function to generate trigrams
def generate_trigrams(tokens):
    return [(tokens[i], tokens[i+1], tokens[i+2]) for i in range(len(tokens) - 2)]

# Generate bigrams and trigrams
bi_grams = generate_bigrams(tokens)
tri_grams = generate_trigrams(tokens)

# Calculate frequency distributions
bigram_freq = Counter(bi_grams)
trigram_freq = Counter(tri_grams)

# Print the most common bigrams and trigrams
print("Most common bigrams:")
for bigram, freq in bigram_freq.most_common(10):
    print(f"{bigram}: {freq}")

print("\nMost common trigrams:")
for trigram, freq in trigram_freq.most_common(10):
    print(f"{trigram}: {freq}")


Most common bigrams:
('।', 'इंटेल'): 6
('इंटेल', 'ने'): 6
('था', '।'): 4
('किया', ','): 4
(',', 'जो'): 4
('पेश', 'किया'): 3
('इंटेल', 'की'): 2
('की', 'गई'): 2
('गई', 'थी'): 2
('थी', '।'): 2

Most common trigrams:
('।', 'इंटेल', 'ने'): 4
('किया', ',', 'जो'): 4
('था', '।', 'इंटेल'): 3
('की', 'गई', 'थी'): 2
('गई', 'थी', '।'): 2
('किया', '।', 'इंटेल'): 2
('में', ',', 'इंटेल'): 2
(',', 'इंटेल', 'ने'): 2
('पेश', 'किया', ','): 2
('इंटेल', 'की', 'स्थापना'): 1


In [10]:

# Function to predict next word's bigram and trigram
def predict_ngrams(word, bigram_freq, trigram_freq, top_n=3):
    # Filter bigrams starting with the given word
    predicted_bigrams = [(bigram, freq) for bigram, freq in bigram_freq.items() if bigram[0] == word]
    predicted_bigrams.sort(key=lambda x: x[1], reverse=True)

    # Filter trigrams starting with the given word
    predicted_trigrams = [(trigram, freq) for trigram, freq in trigram_freq.items() if trigram[0] == word]
    predicted_trigrams.sort(key=lambda x: x[1], reverse=True)

    return predicted_bigrams[:top_n], predicted_trigrams[:top_n]

# Example usage: Predict bigrams and trigrams for the word "इंटेल"
word = "इंटेल"
predicted_bigrams, predicted_trigrams = predict_ngrams(word, bigram_freq, trigram_freq)

print(f"Predicted bigrams for '{word}':")
for bigram, freq in predicted_bigrams:
    print(f"{bigram}: {freq}")

print(f"\nPredicted trigrams for '{word}':")
for trigram, freq in predicted_trigrams:
    print(f"{trigram}: {freq}")

# Function to predict next word's trigram with two word inputs
def predict_trigrams_with_two_words(word1, word2, trigram_freq, top_n=3):
    # Filter trigrams starting with the given two words
    predicted_trigrams = [(trigram, freq) for trigram, freq in trigram_freq.items() if trigram[0] == word1 and trigram[1] == word2]
    predicted_trigrams.sort(key=lambda x: x[1], reverse=True)

    return predicted_trigrams[:top_n]

# Example usage: Predict trigrams for the words "इंटेल" and "ने"
word1 = "पहला"
word2 = "इंटेल"
predicted_trigrams = predict_trigrams_with_two_words(word1, word2, trigram_freq)

print(f"Predicted trigrams for '{word1} {word2}':")
for trigram, freq in predicted_trigrams:
    print(f"{trigram}: {freq}")


Predicted bigrams for 'इंटेल':
('इंटेल', 'ने'): 6
('इंटेल', 'की'): 2
('इंटेल', 'का'): 1

Predicted trigrams for 'इंटेल':
('इंटेल', 'की', 'स्थापना'): 1
('इंटेल', 'ने', '1971'): 1
('इंटेल', 'का', '4004'): 1
Predicted trigrams for 'पहला इंटेल':


In [None]:
# prompt: trigrams with 2 word inputs pls (word1 and word2

from indicnlp.tokenize import indic_tokenize
from collections import Counter
!pip install indic-nlp-library

# Hindi text data
hi_texts = [
    "इंटेल की स्थापना 1968 में रॉबर्ट नॉयस और गॉर्डन मूरे द्वारा की गई थी।",
    "इंटेल ने 1971 में पहला माइक्रोप्रोसेसर, 4004, पेश किया।",
    "इंटेल का 4004 माइक्रोप्रोसेसर कंप्यूटर क्रांति का एक महत्वपूर्ण मील का पत्थर था।",
    "1972 में, इंटेल ने 8008 प्रोसेसर लॉन्च किया, जो 4004 का उन्नत संस्करण था।",
    "इंटेल ने 1980 के दशक में पेंटियम प्रोसेसर को पेश किया, जो कंप्यूटर प्रोसेसिंग के क्षेत्र में एक बड़ा बदलाव था।",
    "इंटेल के कोर i7 प्रोसेसर ने उच्च प्रदर्शन और ऊर्जा दक्षता को एक नया मानक स्थापित किया।",
    "इंटेल ने 1993 में पहला पेंटियम प्रोसेसर पेश किया, जो मल्टीटास्किंग को बेहतर बनाने में मददगार था।",
    "इंटेल ने 2006 में अपनी वि‍या प्रोसेसर श्रृंखला को प्रस्तुत किया, जो कॉर्पोरेट उपयोग के लिए डिजाइन की गई थी।",
    "2008 में, इंटेल ने 45nm प्रोसेस तकनीक के साथ नए प्रोसेसर पेश किए।",
    "आज इंटेल की प्रौद्योगिकी डेटा सेंटर से लेकर व्यक्तिगत कंप्यूटर तक, कई क्षेत्रों में महत्वपूर्ण भूमिका निभाती है।"
]

# Combine all texts into a single string
combined_text = ' '.join(hi_texts)

# Tokenize the text into words using IndicNLP
tokens = indic_tokenize.trivial_tokenize(combined_text)

# Function to generate bigrams
def generate_bigrams(tokens):
    return [(tokens[i], tokens[i+1]) for i in range(len(tokens) - 1)]

# Function to generate trigrams
def generate_trigrams(tokens):
    return [(tokens[i], tokens[i+1], tokens[i+2]) for i in range(len(tokens) - 2)]

# Generate bigrams and trigrams
bi_grams = generate_bigrams(tokens)
tri_grams = generate_trigrams(tokens)

# Calculate frequency distributions
bigram_freq = Counter(bi_grams)
trigram_freq = Counter(tri_grams)

# Print the most common bigrams and trigrams
print("Most common bigrams:")
for bigram, freq in bigram_freq.most_common(10):
    print(f"{bigram}: {freq}")

print("\nMost common trigrams:")
for trigram, freq in trigram_freq.most_common(10):
    print(f"{trigram}: {freq}")


# Function to predict next word's trigram with two word inputs
def predict_trigrams_with_two_words(word1, word2, trigram_freq, top_n=3):
    # Filter trigrams starting with the given two words
    predicted_trigrams = [(trigram, freq) for trigram, freq in trigram_freq.items() if trigram[0] == word1 and trigram[1] == word2]
    predicted_trigrams.sort(key=lambda x: x[1], reverse=True)

    return predicted_trigrams[:top_n]

# Example usage: Predict trigrams for the words "इंटेल" and "ने"
word1 = "इंटेल"
word2 = "ने"
predicted_trigrams = predict_trigrams_with_two_words(word1, word2, trigram_freq)

print(f"Predicted trigrams for '{word1} {word2}':")
for trigram, freq in predicted_trigrams:
    print(f"{trigram}: {freq}")
