Sentiment Analysis

In [1]:
import torch
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [2]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("LondonStory/txlm-roberta-hindi-sentiment")
sentimen_analysis_model = AutoModelForSequenceClassification.from_pretrained("LondonStory/txlm-roberta-hindi-sentiment").to(device)

  torch.utils._pytree._register_pytree_node(
  return torch.load(checkpoint_file, map_location=map_location)


In [13]:
input = 'हाँ-हाँ, मैं समझ गया। मैं पूरी कोशिश करूँगा।'
encoded_input = tokenizer(input, return_tensors="pt").to(device)

In [14]:
with torch.no_grad():
    output = sentimen_analysis_model(**encoded_input).logits

In [15]:
predicted_class_id = output.argmax().item()
sentimen_analysis_model.config.id2label[predicted_class_id]

'LABEL_2'

Label 1- neg, Label 0- neutral, Label-2 pos

In [24]:
sentimen_analysis_model.config

XLMRobertaConfig {
  "_name_or_path": "LondonStory/txlm-roberta-hindi-sentiment",
  "architectures": [
    "XLMRobertaForSequenceClassification"
  ],
  "attention_probs_dropout_prob": 0.1,
  "bos_token_id": 0,
  "classifier_dropout": null,
  "eos_token_id": 2,
  "gradient_checkpointing": false,
  "hidden_act": "gelu",
  "hidden_dropout_prob": 0.1,
  "hidden_size": 768,
  "id2label": {
    "0": "LABEL_0",
    "1": "LABEL_1",
    "2": "LABEL_2"
  },
  "initializer_range": 0.02,
  "intermediate_size": 3072,
  "label2id": {
    "LABEL_0": 0,
    "LABEL_1": 1,
    "LABEL_2": 2
  },
  "layer_norm_eps": 1e-05,
  "max_position_embeddings": 514,
  "model_type": "xlm-roberta",
  "num_attention_heads": 12,
  "num_hidden_layers": 12,
  "output_past": true,
  "pad_token_id": 1,
  "position_embedding_type": "absolute",
  "problem_type": "single_label_classification",
  "torch_dtype": "float32",
  "transformers_version": "4.32.1",
  "type_vocab_size": 1,
  "use_cache": true,
  "vocab_size": 250002
}

In [7]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-classification", model="LondonStory/txlm-roberta-hindi-sentiment")

In [8]:
pipe('नमस्ते, मैं राजेश बोल रहा हूँ, CFI फाइनेंस कंपनी से। क्या मैं श्री सुरेश कुमार से बात कर सकता हूँ?')

[{'label': 'LABEL_2', 'score': 0.516538679599762}]

Summarizer

In [4]:
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM, Seq2SeqTrainingArguments, Seq2SeqTrainer

checkpoint = "Jayveersinh-Raj/hindi-summarizer-small"
tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForSeq2SeqLM.from_pretrained(checkpoint).to("cuda" if torch.cuda.is_available() else "cpu")


In [6]:
# Input paragraph for summarization
input_sentence = ''

# Tokenize the input sentence
input_ids = tokenizer.encode(input_sentence, return_tensors="pt").to("cuda")

# Generate predictions
with torch.no_grad():
   output_ids = model.generate(input_ids, max_new_tokens=200)

# Decode the generated output
output_sentence = tokenizer.decode(output_ids[0], skip_special_tokens=True)

# Print the generated output
print("Summarized:", output_sentence)

Input: Speaker 1: नमस्ते, मैं राजेश बोल रहा हूँ, CFI फाइनेंस कंपनी से। क्या मैं श्री सुरेश कुमार से बात कर सकता हूँ? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 1: सुरेशजी, मैं आपके लोन के बारे में बात करने के लिए फोन कर रहा हूँ। आपका EMI पिछले तीन महीने से बकाया है। Speaker 2: अरे हाँ, मुझे पता है। लेकिन आप लोग हर रोज फोन करके परेशान कर रहे हैं। मैंने कहा था ना कि जैसे ही पैसे होंगे, मैं भर दूंगा।
Summarized: उत्तरेशजी, मैं आपके लोन के बारे में बात करने के लिए फोन कर रहा हूँ। आपका EMI पिछले तीन महीने से बकाया है। Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker 2: हाँ, मैं ही सुरेश बोल रहा हूँ। क्या बात है? Speaker
