<a href="https://colab.research.google.com/github/vatsala-singh/NLP/blob/main/TransformerforIndianLanguage.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from transformers import XLMRobertaModel, XLMRobertaTokenizer
import torch

# Load pre-trained XLM-RoBERTa model and tokenizer
model_name = "xlm-roberta-base"
tokenizer = XLMRobertaTokenizer.from_pretrained(model_name)
model = XLMRobertaModel.from_pretrained(model_name)


KeyboardInterrupt: 

In [None]:
# Sample Hindi text
text = "यह एक उदाहरण वाक्य है।"

# Tokenize the text and convert to input IDs and attention mask
inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True)

In [None]:
# Get the embeddings from the model
with torch.no_grad():
    outputs = model(**inputs)

# Extract the last hidden state
embeddings = outputs.last_hidden_state


In [None]:
# Option 1: Use the CLS token embedding (first token)
sentence_embedding = embeddings[:, 0, :]

# Option 2: Mean Pooling
sentence_embedding = embeddings.mean(dim=1)

In [None]:
print(sentence_embedding)

tensor([[ 5.1672e-02,  1.6213e-02,  1.6500e-02,  2.7170e-02,  9.8175e-02,
         -4.9058e-02,  7.1119e-03, -3.4164e-02,  2.7472e-02,  6.5802e-03,
          1.8648e-02,  4.7348e-02,  2.4810e-01,  9.8813e-02,  1.7096e-02,
         -6.9239e-03, -1.5309e-02, -2.4971e-02,  1.8302e-03,  9.8413e-03,
          2.3299e-02,  7.1431e-02,  5.6512e-02,  5.5997e-02,  2.6804e-02,
         -2.7964e-02,  1.3341e-03,  3.0760e-02, -8.0467e-03,  5.1424e-02,
          6.5764e-02, -3.8760e-02,  3.7372e-02,  1.5425e-03,  6.6779e-04,
         -7.6150e-02, -8.7603e-02, -6.5005e-02,  1.0451e-01,  4.5604e-02,
          6.8352e-02,  1.0923e-01,  2.5287e-02,  7.3734e-03,  7.4592e-03,
         -6.2460e-03,  3.7406e-02, -2.9455e-02,  1.6130e-02, -5.7776e-02,
          8.7974e-02, -1.6882e-01,  5.1799e-02,  6.9749e-02, -1.0299e-01,
         -8.4690e-02,  7.3908e-02, -3.2417e-02,  6.7696e-02,  4.8245e-02,
         -1.4148e-02,  7.2644e-02,  3.7941e-02,  3.0672e-02,  3.3131e-02,
         -2.6392e-03, -7.6241e-02, -6.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

**Comparing Word Embeddings from different Techniques**

- Distributed language representation
- Deep learning techniques us already pre-trained word representations - word embedding
- Implement state of the art word embedding methods to perform intrinsic evaluation on word simillarity
-

**Reference**

[Comparative Analysis of Word Embeddings for Capturing Word Similarities.](https://aircconline.com/csit/papers/vol10/csit100402.pdf)
[The Ability of Word Embeddings to Capture Word Similarities](https://aircconline.com/ijnlc/V9N3/9320ijnlc02.pdf)

https://github.com/mtoshevska/Comparing-Embeddings
https://www.turing.com/kb/guide-on-word-embeddings-in-nlp

https://github.com/mtoshevska/Comparing-Embeddings

# **Import Libraries**

In [None]:
https://www.geeksforgeeks.org/python-word-embedding-using-word2vec/

In [None]:
from gensim.models import word2vec
import nltk
import re
from nltk.corpus import stopwords

In [None]:
from nltk.tokenize import sent_tokenize, word_tokenize

In [None]:
import gensim

In [None]:
nltk.download('punkt_tab')

[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


True

# Data Collection

In [None]:
corpus = open("/content/drive/MyDrive/NLP_Text_Gutenber")
data = corpus.read()

In [None]:
data



In [None]:
data_clean = data.replace("\n", " ")

In [None]:
data_clean



In [None]:
preprocess_data = []

In [None]:
#Iterate through each sentence in the file

for i in sent_tokenize(data_clean):
  temp = []
  for j in word_tokenize(i):
    temp.append(j.lower())
  preprocess_data.append(temp)


In [None]:
# preprocess_data

# Word2Vec Models

**CBOW**

In [None]:
#CBOW Model
model1 = gensim.models.Word2Vec(preprocess_data, min_count=1, vector_size=100, window=5)

In [None]:
print("Cosine similarity between 'alice' " +
      "and 'wonderland' - CBOW : ",
      model1.wv.similarity('alice', 'wonderland'))

Cosine similarity between 'alice' and 'wonderland' - CBOW :  0.9878162


In [None]:
print("Cosine similarity between 'alice' " +
      "and 'machines' - CBOW : ",
      model1.wv.similarity('alice', 'machines'))

Cosine similarity between 'alice' and 'machines' - CBOW :  0.910482


**Skip-gram**

In [None]:
#skip-gram
model2 = gensim.models.Word2Vec(preprocess_data, min_count=1, vector_size=100,
                                window=5, sg=1)

Word Similarity

In [None]:
print("Cosine similarity between 'alice' " +
      "and 'wonderland' - Skip Gram : ",
      model2.wv.similarity('alice', 'wonderland'))


Cosine similarity between 'alice' and 'wonderland' - Skip Gram :  0.8650049


In [None]:
print("Cosine similarity between 'alice' " +
      "and 'machines' - Skip Gram : ",
      model2.wv.similarity('alice', 'machines'))

Cosine similarity between 'alice' and 'machines' - Skip Gram :  0.8473958


In [None]:
model1.wv.most_similar('alice')

[('“', 0.9996689558029175),
 ('it', 0.9996668696403503),
 ('the', 0.9996533393859863),
 ('that', 0.9996469020843506),
 ('so', 0.9996365308761597),
 (':', 0.9996354579925537),
 (',', 0.9996259212493896),
 ('!', 0.9996204376220703),
 ('he', 0.9996141195297241),
 (';', 0.999613344669342)]

In [None]:
model2.wv.most_similar('alice')

[('king', 0.9895282983779907),
 ('thought', 0.986088752746582),
 (',', 0.9858982563018799),
 ('duchess', 0.9856492280960083),
 ('hatter', 0.985493004322052),
 ('herself', 0.9838927388191223),
 ('cat', 0.9833531379699707),
 ('gryphon', 0.9830766916275024),
 ('did', 0.9805148243904114),
 ('not', 0.9800170660018921)]

# Word2Vec for Hindi

In [14]:
import codecs

In [None]:
data_hindi = '/content/drive/MyDrive/NLP_Hindi'
with codecs.open(data_hindi, 'r', encoding='utf-8') as file:
    # Read the content of the file
    hindi_text = file.read()

In [None]:
hindi_text

'एक देश है! गणतंत्र है! समस्याओं को इस देश में झाड़-फूँक, टोना-टोटका से हल किया जाता है! गणतंत्र जब कुछ चरमराने लगता है, तो गुनिया बताते हैं कि राष्ट्रपति की बग्घी के कील-काँटे में कुछ गड़बड़ आ गई है। राष्ट्रपति की बग्घी की मरम्मत कर दी जाती है और गणतंत्र ठीक चलने लगता है। सारी समस्याएँ मुहावरों और अपीलों से सुलझ जाती हैं। सांप्रदायिकता की समस्या को इस नारे से हल कर लिया गया - हिंदू-मुस्लिम, भाई-भाई!\n\n\tएक दिन कुछ लोग प्रधानमंत्री के पास यह शिकायत करने गए कि चीजों की कीमतें बहुत बढ़ गई हैं। प्रधानमंत्री उस समय गाय के गोबर से कुछ प्रयोग कर रहे थे, वे स्वमूत्र और गाय के गोबर से देश की समस्याओं को हल करने में लगे थे। उन्होंने लोगों की बात सुनी, चिढ़कर कहा - आप लोगों को कीमतों की पड़ी है! देख नहीं रहे हो, मैं कितने बड़े काम में लगा हूँ। मैं गोबर में से नैतिक शक्ति पैदा कर रहा हूँ। जैसे गोबर गैस ‘वैसे गोबर नैतिकता’। इस नैतिकता के प्रकट होते ही सब कुछ ठीक हो जाएगा। तीस साल के कांग्रेसी शासन ने देश की नैतिकता खत्म कर दी है। एक मुँहफट आदमी ने कहा - इन तीस में से बाइस साल आप भी कांग्रेस के मं

In [None]:
corpus_hindi_cleand = hindi_text.replace("\n", " ")

In [None]:
corpus_hindi_cleand

'एक देश है! गणतंत्र है! समस्याओं को इस देश में झाड़-फूँक, टोना-टोटका से हल किया जाता है! गणतंत्र जब कुछ चरमराने लगता है, तो गुनिया बताते हैं कि राष्ट्रपति की बग्घी के कील-काँटे में कुछ गड़बड़ आ गई है। राष्ट्रपति की बग्घी की मरम्मत कर दी जाती है और गणतंत्र ठीक चलने लगता है। सारी समस्याएँ मुहावरों और अपीलों से सुलझ जाती हैं। सांप्रदायिकता की समस्या को इस नारे से हल कर लिया गया - हिंदू-मुस्लिम, भाई-भाई!  \tएक दिन कुछ लोग प्रधानमंत्री के पास यह शिकायत करने गए कि चीजों की कीमतें बहुत बढ़ गई हैं। प्रधानमंत्री उस समय गाय के गोबर से कुछ प्रयोग कर रहे थे, वे स्वमूत्र और गाय के गोबर से देश की समस्याओं को हल करने में लगे थे। उन्होंने लोगों की बात सुनी, चिढ़कर कहा - आप लोगों को कीमतों की पड़ी है! देख नहीं रहे हो, मैं कितने बड़े काम में लगा हूँ। मैं गोबर में से नैतिक शक्ति पैदा कर रहा हूँ। जैसे गोबर गैस ‘वैसे गोबर नैतिकता’। इस नैतिकता के प्रकट होते ही सब कुछ ठीक हो जाएगा। तीस साल के कांग्रेसी शासन ने देश की नैतिकता खत्म कर दी है। एक मुँहफट आदमी ने कहा - इन तीस में से बाइस साल आप भी कांग्रेस के मंत्

In [None]:
preprocess_data_hindi = []

In [None]:
hindi = "जब तान छिड़ी, मैं बोल उठा जब थाप पड़ी, पग डोल उठा औरों के स्वर में स्वर भर करअब तक गाया तो क्या गाया?"
hindi


'जब तान छिड़ी, मैं बोल उठा जब थाप पड़ी, पग डोल उठा औरों के स्वर में स्वर भर करअब तक गाया तो क्या गाया?'

In [None]:
for i in sent_tokenize(corpus_hindi_cleand):
  temp = []
  for j in word_tokenize(i):
    temp.append(j.lower())
  preprocess_data_hindi.append(temp)

In [None]:
preprocess_data_hindi

[['एक', 'देश', 'है', '!'],
 ['गणतंत्र', 'है', '!'],
 ['समस्याओं',
  'को',
  'इस',
  'देश',
  'में',
  'झाड़-फूँक',
  ',',
  'टोना-टोटका',
  'से',
  'हल',
  'किया',
  'जाता',
  'है',
  '!'],
 ['गणतंत्र',
  'जब',
  'कुछ',
  'चरमराने',
  'लगता',
  'है',
  ',',
  'तो',
  'गुनिया',
  'बताते',
  'हैं',
  'कि',
  'राष्ट्रपति',
  'की',
  'बग्घी',
  'के',
  'कील-काँटे',
  'में',
  'कुछ',
  'गड़बड़',
  'आ',
  'गई',
  'है।',
  'राष्ट्रपति',
  'की',
  'बग्घी',
  'की',
  'मरम्मत',
  'कर',
  'दी',
  'जाती',
  'है',
  'और',
  'गणतंत्र',
  'ठीक',
  'चलने',
  'लगता',
  'है।',
  'सारी',
  'समस्याएँ',
  'मुहावरों',
  'और',
  'अपीलों',
  'से',
  'सुलझ',
  'जाती',
  'हैं।',
  'सांप्रदायिकता',
  'की',
  'समस्या',
  'को',
  'इस',
  'नारे',
  'से',
  'हल',
  'कर',
  'लिया',
  'गया',
  '-',
  'हिंदू-मुस्लिम',
  ',',
  'भाई-भाई',
  '!'],
 ['एक',
  'दिन',
  'कुछ',
  'लोग',
  'प्रधानमंत्री',
  'के',
  'पास',
  'यह',
  'शिकायत',
  'करने',
  'गए',
  'कि',
  'चीजों',
  'की',
  'कीमतें',
  'बहुत',
  'बढ़',
  'गई',
  

In [None]:
model1 = gensim.models.Word2Vec(preprocess_data_hindi, min_count=1, vector_size=100, window=5)

In [None]:
#skip-gram
model2 = gensim.models.Word2Vec(preprocess_data_hindi, min_count=1, vector_size=100,
                                window=5, sg=1)

In [None]:
print("Cosine similarity between 'कालाबाजार' " +
      "and 'नैतिकता' - Skip Gram : ",
      model2.wv.similarity('कालाबाजार', 'नैतिकता'))


Cosine similarity between 'कालाबाजार' and 'नैतिकता' - Skip Gram :  0.16378753


In [None]:
print("Cosine similarity between 'कालाबाजार' " +
      "and 'नैतिकता' - CBOW : ",
      model1.wv.similarity('कालाबाजार', 'नैतिकता'))

Cosine similarity between 'कालाबाजार' and 'नैतिकता' - CBOW :  0.10198527


In [None]:
model2.wv.most_similar('कालाबाजार')

[('शहर', 0.2850602865219116),
 ('बढ़ाओ', 0.2694476842880249),
 ('कीमतों', 0.26438507437705994),
 ('इतने', 0.22718538343906403),
 ('हैं।', 0.2244994044303894),
 ('मचा', 0.22004419565200806),
 ('मध्यमवर्गीय', 0.21515892446041107),
 ('लाज', 0.21487922966480255),
 ('एकदम', 0.21438688039779663),
 ('बाजार', 0.21315929293632507)]

In [None]:
model2.wv.most_similar('नैतिकता')

[('बाजार', 0.3856886029243469),
 ('दस', 0.373664915561676),
 ('हैं', 0.3699321746826172),
 ('तो', 0.33059242367744446),
 ('-', 0.3305054306983948),
 (',', 0.32841792702674866),
 ('कहा', 0.31590893864631653),
 ('सौ', 0.3134705424308777),
 ('!', 0.3127196729183197),
 ('के', 0.3014369308948517)]

In [None]:
model1.wv.most_similar('नैतिकता')

[('दस', 0.3185991644859314),
 ('!', 0.2556331753730774),
 ('बाजार', 0.23050861060619354),
 ('हैं', 0.22359120845794678),
 ('गजब', 0.21674387156963348),
 ('जाता।', 0.20978596806526184),
 ('भरोसा', 0.1998005360364914),
 ('चलने', 0.19926908612251282),
 ('जो', 0.1845526248216629),
 ('मैंने', 0.1803927719593048)]

In [None]:
model1.wv.most_similar('नैतिकता')

[('दस', 0.3185991644859314),
 ('!', 0.2556331753730774),
 ('बाजार', 0.23050861060619354),
 ('हैं', 0.22359120845794678),
 ('गजब', 0.21674387156963348),
 ('जाता।', 0.20978596806526184),
 ('भरोसा', 0.1998005360364914),
 ('चलने', 0.19926908612251282),
 ('जो', 0.1845526248216629),
 ('मैंने', 0.1803927719593048)]

# GloVe

In [None]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
import numpy as np

In [None]:
data



In [None]:
corpus_hindi_cleand

'एक देश है! गणतंत्र है! समस्याओं को इस देश में झाड़-फूँक, टोना-टोटका से हल किया जाता है! गणतंत्र जब कुछ चरमराने लगता है, तो गुनिया बताते हैं कि राष्ट्रपति की बग्घी के कील-काँटे में कुछ गड़बड़ आ गई है। राष्ट्रपति की बग्घी की मरम्मत कर दी जाती है और गणतंत्र ठीक चलने लगता है। सारी समस्याएँ मुहावरों और अपीलों से सुलझ जाती हैं। सांप्रदायिकता की समस्या को इस नारे से हल कर लिया गया - हिंदू-मुस्लिम, भाई-भाई!  \tएक दिन कुछ लोग प्रधानमंत्री के पास यह शिकायत करने गए कि चीजों की कीमतें बहुत बढ़ गई हैं। प्रधानमंत्री उस समय गाय के गोबर से कुछ प्रयोग कर रहे थे, वे स्वमूत्र और गाय के गोबर से देश की समस्याओं को हल करने में लगे थे। उन्होंने लोगों की बात सुनी, चिढ़कर कहा - आप लोगों को कीमतों की पड़ी है! देख नहीं रहे हो, मैं कितने बड़े काम में लगा हूँ। मैं गोबर में से नैतिक शक्ति पैदा कर रहा हूँ। जैसे गोबर गैस ‘वैसे गोबर नैतिकता’। इस नैतिकता के प्रकट होते ही सब कुछ ठीक हो जाएगा। तीस साल के कांग्रेसी शासन ने देश की नैतिकता खत्म कर दी है। एक मुँहफट आदमी ने कहा - इन तीस में से बाइस साल आप भी कांग्रेस के मंत्

In [None]:
preprocess_data_hindi

[['एक', 'देश', 'है', '!'],
 ['गणतंत्र', 'है', '!'],
 ['समस्याओं',
  'को',
  'इस',
  'देश',
  'में',
  'झाड़-फूँक',
  ',',
  'टोना-टोटका',
  'से',
  'हल',
  'किया',
  'जाता',
  'है',
  '!'],
 ['गणतंत्र',
  'जब',
  'कुछ',
  'चरमराने',
  'लगता',
  'है',
  ',',
  'तो',
  'गुनिया',
  'बताते',
  'हैं',
  'कि',
  'राष्ट्रपति',
  'की',
  'बग्घी',
  'के',
  'कील-काँटे',
  'में',
  'कुछ',
  'गड़बड़',
  'आ',
  'गई',
  'है।',
  'राष्ट्रपति',
  'की',
  'बग्घी',
  'की',
  'मरम्मत',
  'कर',
  'दी',
  'जाती',
  'है',
  'और',
  'गणतंत्र',
  'ठीक',
  'चलने',
  'लगता',
  'है।',
  'सारी',
  'समस्याएँ',
  'मुहावरों',
  'और',
  'अपीलों',
  'से',
  'सुलझ',
  'जाती',
  'हैं।',
  'सांप्रदायिकता',
  'की',
  'समस्या',
  'को',
  'इस',
  'नारे',
  'से',
  'हल',
  'कर',
  'लिया',
  'गया',
  '-',
  'हिंदू-मुस्लिम',
  ',',
  'भाई-भाई',
  '!'],
 ['एक',
  'दिन',
  'कुछ',
  'लोग',
  'प्रधानमंत्री',
  'के',
  'पास',
  'यह',
  'शिकायत',
  'करने',
  'गए',
  'कि',
  'चीजों',
  'की',
  'कीमतें',
  'बहुत',
  'बढ़',
  'गई',
  

In [None]:
tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocess_data)

In [None]:
print("Number of unique words in dictionary=",
      len(tokenizer.word_index))
print("Dictionary is = ", tokenizer.word_index)

Number of unique words in dictionary= 3021


In [None]:
!wget http://nlp.stanford.edu/data/glove.6B.zip
!unzip glove*.zip

--2024-11-21 19:13:59--  http://nlp.stanford.edu/data/glove.6B.zip
Resolving nlp.stanford.edu (nlp.stanford.edu)... 171.64.67.140
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:80... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://nlp.stanford.edu/data/glove.6B.zip [following]
--2024-11-21 19:13:59--  https://nlp.stanford.edu/data/glove.6B.zip
Connecting to nlp.stanford.edu (nlp.stanford.edu)|171.64.67.140|:443... connected.
HTTP request sent, awaiting response... 301 Moved Permanently
Location: https://downloads.cs.stanford.edu/nlp/data/glove.6B.zip [following]
--2024-11-21 19:13:59--  https://downloads.cs.stanford.edu/nlp/data/glove.6B.zip
Resolving downloads.cs.stanford.edu (downloads.cs.stanford.edu)... 171.64.64.22
Connecting to downloads.cs.stanford.edu (downloads.cs.stanford.edu)|171.64.64.22|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 862182613 (822M) [application/zip]
Saving to: ‘glove.6B.zip.1’

gl

In [None]:
def embedding_for_vocab(filepath, word_index, embedding_dim):
  vocab_size = len(word_index) + 1
  embedding_matrix_vocab = np.zeros((vocab_size, embedding_dim))
  with open(filepath, encoding='utf-8') as f:
    for line in f:
      word, *vector = line.split()
      if word in word_index:
        idx = word_index[word]
        embedding_matrix_vocab[idx] = np.array(vector, dtype=np.float32)[:embedding_dim]

  return embedding_matrix_vocab

In [None]:
embedding_dim = 50
embedding_matrix_vocab = embedding_for_vocab(
    '/content/glove.6B.50d.txt', tokenizer.word_index,
  embedding_dim)

print("Dense vector for first word is => ",
      embedding_matrix_vocab[2])

Dense vector for first word is =>  [ 4.18000013e-01  2.49679998e-01 -4.12420005e-01  1.21699996e-01
  3.45270008e-01 -4.44569997e-02 -4.96879995e-01 -1.78619996e-01
 -6.60229998e-04 -6.56599998e-01  2.78430015e-01 -1.47670001e-01
 -5.56770027e-01  1.46579996e-01 -9.50950012e-03  1.16579998e-02
  1.02040000e-01 -1.27920002e-01 -8.44299972e-01 -1.21809997e-01
 -1.68009996e-02 -3.32789987e-01 -1.55200005e-01 -2.31309995e-01
 -1.91809997e-01 -1.88230002e+00 -7.67459989e-01  9.90509987e-02
 -4.21249986e-01 -1.95260003e-01  4.00710011e+00 -1.85939997e-01
 -5.22870004e-01 -3.16810012e-01  5.92130003e-04  7.44489999e-03
  1.77780002e-01 -1.58969998e-01  1.20409997e-02 -5.42230010e-02
 -2.98709989e-01 -1.57490000e-01 -3.47579986e-01 -4.56370004e-02
 -4.42510009e-01  1.87849998e-01  2.78489990e-03 -1.84110001e-01
 -1.15139998e-01 -7.85809994e-01]


In [None]:
tokenizer.word_index

{',': 1,
 'the': 2,
 '“': 3,
 '”': 4,
 'and': 5,
 '.': 6,
 'to': 7,
 '’': 8,
 'a': 9,
 'it': 10,
 'she': 11,
 'i': 12,
 'of': 13,
 'said': 14,
 '!': 15,
 'alice': 16,
 'you': 17,
 'in': 18,
 'was': 19,
 'that': 20,
 'as': 21,
 'her': 22,
 ':': 23,
 't': 24,
 'at': 25,
 '?': 26,
 's': 27,
 ';': 28,
 'on': 29,
 'with': 30,
 'had': 31,
 'all': 32,
 'but': 33,
 'for': 34,
 'so': 35,
 'they': 36,
 'be': 37,
 'not': 38,
 'what': 39,
 'this': 40,
 'very': 41,
 'little': 42,
 'he': 43,
 'out': 44,
 'down': 45,
 'one': 46,
 'there': 47,
 'up': 48,
 'his': 49,
 'about': 50,
 'if': 51,
 'is': 52,
 'then': 53,
 'no': 54,
 'were': 55,
 'like': 56,
 'went': 57,
 'herself': 58,
 'them': 59,
 'again': 60,
 'when': 61,
 'would': 62,
 'do': 63,
 'queen': 64,
 'have': 65,
 'or': 66,
 'thought': 67,
 'could': 68,
 '*': 69,
 'know': 70,
 'off': 71,
 'into': 72,
 'time': 73,
 'see': 74,
 'who': 75,
 'how': 76,
 'me': 77,
 'king': 78,
 'did': 79,
 'can': 80,
 'don': 81,
 'well': 82,
 'my': 83,
 'm': 84,
 'by

In [None]:
import scipy

In [None]:
def calculate_cosine_similarity(vector1, vector2):
  """Calculates the cosine similarity between two vectors.

  Args:
    vector1: The first vector.
    vector2: The second vector.

  Returns:
    The cosine similarity between the two vectors.
  """
  return 1 - scipy.spatial.distance.cosine(vector1, vector2)

In [None]:
vector1 = embedding_matrix_vocab[tokenizer.word_index["alice"]]
vector2 = embedding_matrix_vocab[tokenizer.word_index["wonderland"]]

In [None]:
similarity = calculate_cosine_similarity(vector1, vector2)
print(f"Cosine similarity between 'alice' and 'wonderland': {similarity}")

Cosine similarity between 'alice' and 'wonderland': 0.6173060143468858


In [None]:
#Hindi

In [None]:
tokenizerHindi = Tokenizer()
tokenizerHindi.fit_on_texts(preprocess_data_hindi)

In [None]:
mbedding_dim = 50
embedding_matrix_vocab = embedding_for_vocab(
    '/content/glove.6B.50d.txt', tokenizerHindi.word_index,
  embedding_dim)

print("Dense vector for first word is => ",
      embedding_matrix_vocab[2])

Dense vector for first word is =>  [-0.16768     1.21510005  0.49515     0.26835999 -0.4585     -0.23311
 -0.52822    -1.35570002  0.16098     0.37691    -0.92702001 -0.43904001
 -1.06340003  1.028       0.0053943   0.04153    -0.018638   -0.55451
  0.026166    0.28066    -0.66245002  0.23435     0.24510001  0.025668
 -1.0869     -2.8440001  -0.51271999  0.27285999  0.0071502   0.033984
  3.90840006  0.52766001 -0.66899002  1.82379997  0.43436    -0.30083999
 -0.26995999  0.43939999  0.69955999  0.14884999  0.029453    1.48880005
  0.52361     0.099354    1.25150001  0.099381   -0.079261   -0.30862001
  0.30893001  0.11023   ]


In [None]:
# 'कालाबाजार', 'नैतिकता'

In [None]:
vector1Hindi = embedding_matrix_vocab[tokenizerHindi.word_index["कालाबाजार"]]
vector2Hindi = embedding_matrix_vocab[tokenizerHindi.word_index["नैतिकता"]]

In [None]:
similarity = calculate_cosine_similarity(vector1Hindi, vector2Hindi)
print(f"Cosine similarity between 'कालाबाजार' and 'नैतिकता': {similarity}")

Cosine similarity between 'कालाबाजार' and 'नैतिकता': nan


  dist = 1.0 - uv / math.sqrt(uu * vv)


In [None]:
tokenizerHindi.word_index

{',': 1,
 '-': 2,
 'से': 3,
 'ने': 4,
 '!': 5,
 'कहा': 6,
 'की': 7,
 'के': 8,
 'में': 9,
 'है': 10,
 'कर': 11,
 'मैं': 12,
 'हो': 13,
 'है।': 14,
 'नैतिकता': 15,
 'और': 16,
 'सेठ': 17,
 'एक': 18,
 'को': 19,
 'कुछ': 20,
 'सौ': 21,
 'तो': 22,
 'रहे': 23,
 'नहीं': 24,
 'हूँ।': 25,
 'पर': 26,
 'देश': 27,
 'कि': 28,
 'इस': 29,
 'हैं।': 30,
 'प्रधानमंत्री': 31,
 'गोबर': 32,
 'आदमी': 33,
 'भी': 34,
 'अपील': 35,
 '?': 36,
 'का': 37,
 'मानवीयता': 38,
 'दुकान': 39,
 'रुपए': 40,
 'आँखें': 41,
 'दी': 42,
 'थे': 43,
 'लगा': 44,
 'न': 45,
 'गरीब': 46,
 'ग्राहक': 47,
 'दो': 48,
 'भाव': 49,
 'चाय': 50,
 'गणतंत्र': 51,
 'हल': 52,
 'लगता': 53,
 'हैं': 54,
 'गई': 55,
 'ठीक': 56,
 'नारे': 57,
 'यह': 58,
 'कीमतें': 59,
 'ही': 60,
 'मंत्री': 61,
 'तुम': 62,
 'व्यापारियों': 63,
 'दूँगा।': 64,
 'चाहिए।': 65,
 'बाजार': 66,
 'गेहूँ': 67,
 'फिर': 68,
 'वह': 69,
 'दुकानदार': 70,
 'क्या': 71,
 'दिया': 72,
 'था।': 73,
 'बढ़ाऊँगा।': 74,
 'मैंने': 75,
 'अरे': 76,
 'समस्याओं': 77,
 'जब': 78,
 'राष्ट्रपति': 79,
 'बग्घी

In [None]:
# vectorHindi

# BERT

In [None]:
import random
import torch
from transformers import BertTokenizer, BertModel
from sklearn.metrics.pairwise import cosine_similarity

In [None]:
# Set a random seed
random_seed = 42
random.seed(random_seed)

# Set a random seed for PyTorch (for GPU as well)
torch.manual_seed(random_seed)
if torch.cuda.is_available():
    torch.cuda.manual_seed_all(random_seed)

In [None]:
# Load BERT tokenizer and model
tokenizerBERT = BertTokenizer.from_pretrained('bert-base-uncased')
modelBERT = BertModel.from_pretrained('bert-base-uncased')



model.safetensors:   0%|          | 0.00/440M [00:00<?, ?B/s]

# Tranformer for Hindi

**Transformers for Hindi Language**
 Steps:
 Repeat the steps with xlm-roberta and IndicBERT

* Generate 2 embeddings each from cross lingual transformer for two authors Author1a,Author1b, Author2a, Author2b
* Calculate cosine similarity among:
  * Author1a,Author1b
  * Author2a, Author2b
  * Author1a, Author2a
  * Author1b, Author2b

Collect the result and formulate a hypothesis

Author 1: Premchand
Author 2: Mahadevi Verma



# Data

In [39]:
import pandas as pd
import codecs
import re

In [21]:
def read_file(file_path):
    with codecs.open(file_path, 'r', encoding='utf-8') as file:
        text = file.read()
    return text

In [40]:
def file_cleanup(input_file, output_file):
  with codecs.open(input_file, 'r',"utf-8") as file:
    lines = file.readlines()
  text = ''.join(lines)
  text = text.replace('\n', ' ').strip()
  text = re.sub(r'[\n\r\t]', ' ', text)
  text = re.sub(r'\s+', ' ', text)
  with open(output_file, 'w') as file:
    file.write(text)

  !cp {output_file} /content/drive/MyDrive/

In [23]:
premchand = read_file('/content/drive/MyDrive/premchand.txt')
mahadevi = read_file('/content/drive/MyDrive/mahadevi_verma.txt')

In [27]:
file_cleanup('/content/drive/MyDrive/premchand.txt', '/content/drive/MyDrive/premchand_clean.txt')

cp: '/content/drive/MyDrive/premchand_clean.txt' and '/content/drive/MyDrive/premchand_clean.txt' are the same file


In [41]:
file_cleanup('/content/drive/MyDrive/mahadevi_verma.txt', '/content/drive/MyDrive/mahadevi_verma_clean.txt')

cp: '/content/drive/MyDrive/mahadevi_verma_clean.txt' and '/content/drive/MyDrive/mahadevi_verma_clean.txt' are the same file


In [28]:
premchand_cleaned = read_file('/content/drive/MyDrive/premchand_clean.txt')

In [29]:
premchand_cleaned

'अनुक्रम     अध्याय 1   अध्याय 2     अध्याय 3    अध्याय 4  अध्याय 5     \r \tउन दिनों नील नदी के तट पर बहुतसे तपस्वी रहा करते थे। दोनों ही किनारों पर कितनी ही झोंपड़ियां थोड़ीथोड़ी दूर पर बनी हुई थीं। तपस्वी लोग इन्हीं में एकान्तवास करते थे और जरूरत पड़ने पर एकदूसरे की सहायता करते थे। इन्हीं झोंपड़ियों के बीच में जहांतहां गिरजे बने हुए थे। परायः सभी गिरजाघरों पर सलीब का आकार दिखाई देता था। धमोर्त्सवों पर साधुसन्त दूरदूर से वहां आ जाते थे। नदी के किनारे जहांतहां मठ भी थे। जहां तपस्वी लोग अकेले छोटीछोटी गुफाओं में सिद्धि पराप्त करने का यत्न करते थे। \r \t\xa0 \xa0 \xa0 यह सभी तपस्वी बड़ेबड़े कठिन वरत धारण करते थे, केवल सूयार्स्त के बाद एक बार सूक्ष्म आहार करते। रोटी और नमक के सिवाय और किसी वस्तु का सेवन न करते थे। कितने ही तो समाधियों या कन्दराओं में पड़े रहते थे। सभी बरह्मचारी थे, सभी मिताहारी थे। वह ऊन का एक कुरता और कनटोप पहनते थे; रात को बहुत देर तक जागते और भजन करने के पीछे भूमि पर सो जाते थे। अपने पूर्वपुरुष के पापों का परायश्चित करने के लिए वह अपनी देह को भोगविलास ही से दूर नहीं र

In [42]:
mahadevi_cleaned = read_file('/content/drive/MyDrive/mahadevi_verma_clean.txt')

In [45]:
mahadevi_cleaned[1:1000]

'ाहता है यह पागल प्यार, अनोखा एक नया संसार ! कलियों के उच्छवास शून्य में तानें एक वितान, तुहिन-कणों पर मृदु कंपन से सेज बिछा दें गान; जहाँ सपने हों पहरेदार, अनोखा एक नया संसार ! करते हों आलोक जहाँ बुझ बुझ कर कोमल प्राण, जलने में विश्राम जहाँ मिटने में हों निर्वाण; वेदना मधु मदिरा की धार, अनोखा एक नया संसार! मिल जावे उस पार क्षितिज के सीमा सीमाहीन, गर्वीले नक्षत्र धरा पर लोटें होकर दीन ! उदधि हो नभ का शयनागार, अनोखा एक नया संसार! जीवन की अनुभूति तुला पर अरमानों से तोल, यह अबोध मन मूक व्यथा से ले पागलपन मोल ! करें दृग आँसू का व्यापार, अनोखा एक नया संसार! (नीहार से) हिंदी समय में महादेवी वर्मा की रचनाएँ चिर सजग आँखें उनींदी आज कैसा व्यस्त बाना ! जाग तुझको दूर जाना ! अचल हिमगिरि के हॄदय में आज चाहे कंप हो ले ! या प्रलय के आँसुओं में मौन अलसित व्योम रो ले; आज पी आलोक को डोले तिमिर की घोर छाया जाग या विद्युत शिखाओं में निठुर तूफान बोले ! पर तुझे है नाश पथ पर चिह्न अपने छोड़ आना ! जाग तुझको दूर जाना ! बाँध लेंगे क्या तुझे यह मोम के बंधन सजीले ? पंथ की बाधा बनेंगे तितलियों के पर रँगीले ? विश्व

## XLM-Roberta

In [1]:
from transformers import XLMRobertaModel, XLMRobertaTokenizer
import torch

# Load pre-trained XLM-RoBERTa model and tokenizer
model_name = "xlm-roberta-base"
tokenizer = XLMRobertaTokenizer.from_pretrained(model_name)
model = XLMRobertaModel.from_pretrained(model_name)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/25.0 [00:00<?, ?B/s]

sentencepiece.bpe.model:   0%|          | 0.00/5.07M [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/9.10M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/615 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.12G [00:00<?, ?B/s]

In [50]:
text_mahadevi = mahadevi_cleaned[1:1000]
text_premchand = premchand_cleaned[1:1000]

In [57]:
text_mahadevi1 = mahadevi_cleaned[1000:2000]
text_premchand1 = premchand_cleaned[1000:2000]

In [51]:
# Tokenize the text and convert to input IDs and attention mask
inputs_xlm_mahadevi = tokenizer(text_mahadevi, return_tensors="pt", padding=True, truncation=True)
inputs_xlm_premchand = tokenizer(text_premchand, return_tensors="pt", padding=True, truncation=True)

In [53]:
# Get the embeddings from the model
with torch.no_grad():
    outputs_mahadevi = model(**inputs_xlm_mahadevi)
    outputs_premchand = model(**inputs_xlm_premchand)

# Extract the last hidden state
embeddings_mahadevi = outputs_mahadevi.last_hidden_state
embeddings_premchand = outputs_premchand.last_hidden_state


In [54]:
# To get sentence-level embeddings, you can use the [CLS] token representation (first token)
cls_embedding_mahadevi = embeddings_mahadevi[:, 0, :]  # Shape: [batch_size, hidden_dim]
cls_embedding_premchand = embeddings_premchand[:, 0, :]  # Shape: [batch_size, hidden_dim]

# Option 2: Mean Pooling
# sentence_embedding = embeddings.mean(dim=1)

In [56]:
print(cls_embedding_premchand)

tensor([[ 8.7565e-02,  8.9383e-02,  8.3576e-02, -3.3976e-02,  5.6541e-02,
         -4.3129e-02,  5.6454e-02, -1.4787e-02,  1.0566e-01, -1.0090e-01,
          4.0969e-03,  1.0552e-01,  2.4499e-02, -1.2134e-02,  4.0377e-02,
          3.3878e-02, -5.5585e-02, -3.1476e-02,  7.7786e-02,  8.1972e-02,
          4.1897e-02,  2.2372e-02,  7.1869e-02,  7.1885e-02, -3.8898e-02,
          3.1854e-02, -4.4070e-02,  1.2035e-02,  8.0178e-02,  2.6168e-02,
          1.2099e-01, -1.0399e-02,  4.6151e-02,  7.5204e-02,  9.2848e-02,
          2.9218e-02, -1.4374e-01, -5.5866e-02,  8.2010e-02,  1.0589e-01,
          6.1817e-02,  1.4887e-01, -3.5171e-02, -4.1581e-03,  4.5227e-02,
         -6.8418e-02, -7.4254e-02, -6.4869e-02, -2.3551e-02, -1.3189e-01,
          7.6141e-02, -4.2799e-03,  5.6759e-02,  7.2484e-02, -1.2304e-01,
         -6.4962e-02,  1.0619e-01,  3.1315e-02,  3.5635e-02,  7.0063e-02,
         -4.3514e-02,  6.6771e-02,  1.0442e-01,  1.0938e-02,  1.4284e-01,
         -1.1940e-01, -1.1399e-01, -1.

In [58]:
import torch
import torch.nn.functional as F

# Compute cosine similarity using PyTorch
cosine_similarity = F.cosine_similarity(cls_embedding_mahadevi, cls_embedding_premchand, dim=1)

print("Cosine Similarity:", cosine_similarity.item())

Cosine Similarity: 0.9995366334915161


In [None]:
from transformers import AutoModel
model = AutoModel.from_pretrained("ai4bharat/indic-bert")