# Hindi Sentiment Analysis using Transformers

This notebook demonstrates fine-tuning a transformer-based model on the Hindi sentiment dataset from [AI4Bharat/IndicSentiment](https://huggingface.co/datasets/AI4Bharat/IndicSentiment).

## 1. Install Required Libraries
We begin by installing necessary libraries such as `datasets` from Hugging Face.

In [1]:
pip install datasets

Collecting datasets
  Downloading datasets-3.5.0-py3-none-any.whl.metadata (19 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py311-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.12.0,>=2023.1.0 (from fsspec[http]<=2024.12.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.12.0-py3-none-any.whl.metadata (11 kB)
Downloading datasets-3.5.0-py3-none-any.whl (491 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m491.2/491.2 kB[0m [31m10.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading dill-0.3.8-py3-none-any.whl (116 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m116.3/116.3 kB[0m [31m9.6 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading fsspec-2024.12.0-py3-none-any.w

## 2. Load Dataset
We use the Hindi subset of the IndicSentiment dataset.

In [2]:
from datasets import load_dataset
import pandas as pd

# Load the Hindi split with the correct config name
dataset = load_dataset("AI4Bharat/IndicSentiment", name="translation-hi")

# Check available splits
print(dataset)
df = pd.DataFrame(dataset['validation'])

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


README.md:   0%|          | 0.00/980 [00:00<?, ?B/s]

IndicSentiment.py:   0%|          | 0.00/2.51k [00:00<?, ?B/s]

The repository for AI4Bharat/IndicSentiment contains custom code which must be executed to correctly load the dataset. You can inspect the repository content at https://hf.co/datasets/AI4Bharat/IndicSentiment.
You can avoid this prompt in future by passing the argument `trust_remote_code=True`.

Do you wish to run the custom code? [y/N] y


hi.json:   0%|          | 0.00/178k [00:00<?, ?B/s]

hi.json:   0%|          | 0.00/1.14M [00:00<?, ?B/s]

Generating validation split: 0 examples [00:00, ? examples/s]

Generating test split: 0 examples [00:00, ? examples/s]

DatasetDict({
    validation: Dataset({
        features: ['GENERIC CATEGORIES', 'CATEGORY', 'SUB-CATEGORY', 'PRODUCT', 'BRAND', 'ASPECTS', 'ASPECT COMBO', 'ENGLISH REVIEW', 'LABEL', 'INDIC REVIEW'],
        num_rows: 156
    })
    test: Dataset({
        features: ['GENERIC CATEGORIES', 'CATEGORY', 'SUB-CATEGORY', 'PRODUCT', 'BRAND', 'ASPECTS', 'ASPECT COMBO', 'ENGLISH REVIEW', 'LABEL', 'INDIC REVIEW'],
        num_rows: 1000
    })
})


In [3]:
df

Unnamed: 0,GENERIC CATEGORIES,CATEGORY,SUB-CATEGORY,PRODUCT,BRAND,ASPECTS,ASPECT COMBO,ENGLISH REVIEW,LABEL,INDIC REVIEW
0,Home,Appliances,Home theater,Soundbars,Boat,"Bluetooth/wireless, HDMI, audio output mode, i...",HDMI,This boat's soundbar is still wire-connectivit...,Negative,बोट के साउंडबार में अभी भी सभी स्पीकर्स के लिए...
1,Hobbies,Music,Audio Output,headphones,Zeb Paradise,"on-ear, in-ear, wired, bluetooth, earbuds, noi...",Over-ear with mic,Foldable type of microphone with mic and micro...,Positive,माइक और माइक्रो एसडी कार्ड स्लॉट के साथ फोल्डे...
2,Entertainment,Apps,Social Media,Social networking,Instagram,"find friends, share photos and moments, free m...",daily status,The recently included feature of stories by de...,Positive,हाल ही में डाला गया फीचर जो डिफ़ॉल्ट रूप से 24...
3,Transportation,Air,Flights,International,Emirates,"luggage allowance, affordable rates, luxury, f...",Rates Luggage allowance,"Rates are competitive, almost always the best ...",Positive,"""रेट्स प्रतिस्पर्धी हैं, लगभग मार्किट में सबसे..."
4,Home,Appliances,Fan,Exhaust fan,Bajaj Maxima,"remove moisture/unpleasant odour, air delivery...",Front Shutter,Looks very big and efficient. But since there ...,Negative,बहुत बड़ा और बेहतरीन दिखता है। लेकिन चूंकि कोई...
...,...,...,...,...,...,...,...,...,...,...
151,Home,Appliances,Home theater,Home theater systems,iKall,"Bluetooth, USB &HDMI, Dolby, voice control, sp...",Dolby output,IKall has now launched a new home theater syst...,Positive,आईकॉल (IKall) ने अब डॉल्बी आउटपुट के साथ एक नय...
152,Home,Appliances,Home theater,Tower speakers,iKall,"speaker connectivity, speaker feature, wattage...",Wattage,iKall is giving two 500 Watts speakers in its ...,Negative,आईकॉल अपने टॉवर स्पीकर सेट में दो 500 वॉट्स के...
153,Health/Wellness,Living,Stay/ Experience,Resorts,Vedic Village Spa Resort (Kolkata),"Swimming pool, fitness center, parking, wifi, ...","Wifi, air conditioning, family friendly","The Resort doesn't have wifi, so you have to b...",Negative,"रिज़ॉर्ट में वाई-फ़ाई नहीं है, इसलिए आपको अपने..."
154,Entertainment,Movies,Genres,Tragedy,The Tunnel,"serious, storyline, performances, emotional, m...",Peformances and Moving,"Well directed, & acted, & excellent cinematogr...",Positive,"अच्छी तरह से निर्देशित, और अभिनय, और बेहतरीन स..."


In [4]:
df.shape

(156, 10)

## 3. Prepare the DataFrame
We only keep the columns relevant for sentiment classification: the Hindi review and its label.

In [5]:
df = df[['INDIC REVIEW', 'LABEL']]

In [6]:
df

Unnamed: 0,INDIC REVIEW,LABEL
0,बोट के साउंडबार में अभी भी सभी स्पीकर्स के लिए...,Negative
1,माइक और माइक्रो एसडी कार्ड स्लॉट के साथ फोल्डे...,Positive
2,हाल ही में डाला गया फीचर जो डिफ़ॉल्ट रूप से 24...,Positive
3,"""रेट्स प्रतिस्पर्धी हैं, लगभग मार्किट में सबसे...",Positive
4,बहुत बड़ा और बेहतरीन दिखता है। लेकिन चूंकि कोई...,Negative
...,...,...
151,आईकॉल (IKall) ने अब डॉल्बी आउटपुट के साथ एक नय...,Positive
152,आईकॉल अपने टॉवर स्पीकर सेट में दो 500 वॉट्स के...,Negative
153,"रिज़ॉर्ट में वाई-फ़ाई नहीं है, इसलिए आपको अपने...",Negative
154,"अच्छी तरह से निर्देशित, और अभिनय, और बेहतरीन स...",Positive


In [12]:
# kaggel dataset
import kagglehub

# Download latest version
path = kagglehub.dataset_download("maheshmj007/hindi-language-sentiment-dataset")

print("Path to dataset files:", path)

Path to dataset files: /kaggle/input/hindi-language-sentiment-dataset


In [13]:
import os

os.listdir("/kaggle/input/hindi-language-sentiment-dataset")

['hindi sentiment analysis.csv']

In [14]:
kaggle_df = pd.read_csv("/kaggle/input/hindi-language-sentiment-dataset/hindi sentiment analysis.csv")

In [15]:
kaggle_df.columns

Index(['लोग वतन तक खा जाते हैं इसका इसे यकीन नहींमान जाएगा तू ले जाकर दिल्ली इसे दिखा ला दोस्त', 'negative'], dtype='object')

In [16]:
df = df.rename(columns={'INDIC REVIEW': 'review', 'LABEL':'sentiment'})

In [17]:
df.sentiment.value_counts()

Unnamed: 0_level_0,count
sentiment,Unnamed: 1_level_1
Negative,81
Positive,75


In [18]:
kaggle_df.rename(columns={'लोग वतन तक खा जाते हैं इसका इसे यकीन नहींमान जाएगा तू ले जाकर दिल्ली इसे दिखा ला दोस्त': 'review', 'negative': 'sentiment'}, inplace = True)

In [19]:
kaggle_df.sentiment.value_counts()

Unnamed: 0_level_0,count
sentiment,Unnamed: 1_level_1
positive,3254
negative,3173
neutral,2649


In [20]:
kaggle_df.shape

(9076, 2)

In [21]:
df.shape

(156, 2)

In [22]:
df1 = df.merge(kaggle_df, how = 'outer')

In [23]:
df1.shape

(9232, 2)

In [25]:
df1 = df1.merge(pd.read_excel('train.xlsx')[['content_hindi', 'labels']].rename(columns={'content_hindi': 'review', 'labels':'sentiment'}), how = 'outer')

In [26]:
df1 = df1.merge(pd.read_excel('test.xlsx')[['content_hindi', 'labels']].rename(columns={'content_hindi': 'review', 'labels':'sentiment'}), how = 'outer')

In [27]:
df1.sentiment.value_counts()

Unnamed: 0_level_0,count
sentiment,Unnamed: 1_level_1
positive,3254
negative,3173
neutral,2649
Negative,2001
Positive,1670
Neutral,830


In [28]:
df1.sentiment = df1.sentiment.apply(lambda x: x.lower())

In [29]:
df1.sentiment.value_counts()

Unnamed: 0_level_0,count
sentiment,Unnamed: 1_level_1
negative,5174
positive,4924
neutral,3479


In [30]:
# importing libs
from datasets import load_dataset, DatasetDict, ClassLabel, Dataset

import transformers
from transformers import AutoTokenizer, AutoModelForSequenceClassification, TrainingArguments, Trainer

In [31]:
df1

Unnamed: 0,review,sentiment
0,इससे फिल्‍म लचर होने के कारण देखने लायक भी न...,negative
1,गणपति बाप्पा मोरया पुढच्या वर्षी लवकर या,positive
2,"चोर चोर सुपर चोर' में नयापन जरूर है, लेकिन ए...",negative
3,"पता नहीं चलता, लेकिन फिल्म के प्रति बेरूखी ब...",negative
4,"फिल्म में अनेक गाने हैं, किंतु कहानी से उनका...",negative
...,...,...
13572,“@virendr241: पाकिस्तानी घुसपैठ करना चाहते थे ...,negative
13573,"“हम हर लक्ष्य हासिल करते हैं, 15 महीने में राज...",neutral
13574,⁦@abpnewshindi⁩ EXCLUSIVE \n\nप्रियंका गांधी क...,positive
13575,"🍃 दिखा न सका जो उम्र भर, तमाम किताबे मुझे........",neutral


In [32]:
dataset = Dataset.from_pandas(df1)
df_dict = DatasetDict({'train': dataset})

In [33]:
df_dict

DatasetDict({
    train: Dataset({
        features: ['review', 'sentiment'],
        num_rows: 13577
    })
})

In [34]:
cl = ClassLabel(num_classes=3, names=["neutral", "positive", "negative"])

In [35]:
df1

Unnamed: 0,review,sentiment
0,इससे फिल्‍म लचर होने के कारण देखने लायक भी न...,negative
1,गणपति बाप्पा मोरया पुढच्या वर्षी लवकर या,positive
2,"चोर चोर सुपर चोर' में नयापन जरूर है, लेकिन ए...",negative
3,"पता नहीं चलता, लेकिन फिल्म के प्रति बेरूखी ब...",negative
4,"फिल्म में अनेक गाने हैं, किंतु कहानी से उनका...",negative
...,...,...
13572,“@virendr241: पाकिस्तानी घुसपैठ करना चाहते थे ...,negative
13573,"“हम हर लक्ष्य हासिल करते हैं, 15 महीने में राज...",neutral
13574,⁦@abpnewshindi⁩ EXCLUSIVE \n\nप्रियंका गांधी क...,positive
13575,"🍃 दिखा न सका जो उम्र भर, तमाम किताबे मुझे........",neutral


In [36]:
import re
import pandas as pd

def clean_text_preserve_hindi_only(text):
    # Remove hyperlinks
    text = re.sub(r'http\S+|www.\S+', '', text)

    # Remove all English letters/words
    text = re.sub(r'[a-zA-Z]', '', text)

    # Remove unwanted special characters
    # Keep: Hindi (\u0900-\u097F), numbers, spaces, punctuation, emojis
    text = re.sub(r'[^\s\u0900-\u097F0-9.,!?😃-🙏]', '', text)

    return text
df1['review'] = df1['review'].astype(str).apply(clean_text_preserve_hindi_only)


In [None]:
# import torch

In [None]:
# torch.device("cuda" if torch.cuda.is_available() else "cpu")

In [None]:
# from transformers import pipeline
# translator = pipeline("translation_en_to_hi", model="Helsinki-NLP/opus-mt-en-hi")

In [None]:
# from transformers import pipeline

# translator = pipeline("translation_en_to_hi", model="Helsinki-NLP/opus-mt-en-hi", device=-1)  # CPU-safe

# # Use the same cleaning & selective translation log

In [None]:
# import re
# import pandas as pd
# from transformers import pipeline

# # Load translator (English to Hindi)
# translator = pipeline("translation_en_to_hi", model="Helsinki-NLP/opus-mt-en-hi",device=-1)

# # Function to clean the text (preserve Hindi, emojis, etc.)
# def clean_text_preserve_hindi(text):
#     # Remove hyperlinks
#     text = re.sub(r'http\S+|www.\S+', '', text)
#     # Remove unwanted special characters (keep Hindi, English, numbers, punctuation, emojis)
#     text = re.sub(r'[^\w\s\u0900-\u097F.,!?😃-🙏]', '', text)
#     return text

# # Function to detect English and translate if needed
# def translate_if_english(text):
#     text = str(text)  # Ensure it's a string
#     cleaned_text = clean_text_preserve_hindi(text)
#     if re.search(r'[a-zA-Z]', cleaned_text):  # Check if English is present
#         try:
#             result = translator(cleaned_text, max_length=512)
#             return result[0]['translation_text']
#         except:
#             return cleaned_text  # fallback
#     return cleaned_text  # No English → just cleaned

# # Apply it to the DataFrame

# df1['review'].apply(translate_if_english)


In [37]:
# df1['review'] = df1['review'].astype(str).apply(clean_text_preserve_hindi_only)
df1

Unnamed: 0,review,sentiment
0,इससे फिल्म लचर होने के कारण देखने लायक भी नह...,negative
1,गणपति बाप्पा मोरया पुढच्या वर्षी लवकर या,positive
2,"चोर चोर सुपर चोर में नयापन जरूर है, लेकिन एक...",negative
3,"पता नहीं चलता, लेकिन फिल्म के प्रति बेरूखी ब...",negative
4,"फिल्म में अनेक गाने हैं, किंतु कहानी से उनका...",negative
...,...,...
13572,241 पाकिस्तानी घुसपैठ करना चाहते थे जन्नत में...,negative
13573,"हम हर लक्ष्य हासिल करते हैं, 15 महीने में राजप...",neutral
13574,\n\nप्रियंका गांधी के कदम को 2019 से जोड़कर ...,positive
13575,"दिखा न सका जो उम्र भर, तमाम किताबे मुझे.....\...",neutral


In [38]:
dataset = Dataset.from_pandas(df1)

In [39]:
dataset

Dataset({
    features: ['review', 'sentiment'],
    num_rows: 13577
})

In [40]:
dd = DatasetDict({'train': dataset})

In [41]:
# from transformers import train_test_split

In [42]:
d1 = dd['train'].train_test_split(test_size = 0.2)

In [43]:
d1

DatasetDict({
    train: Dataset({
        features: ['review', 'sentiment'],
        num_rows: 10861
    })
    test: Dataset({
        features: ['review', 'sentiment'],
        num_rows: 2716
    })
})

In [44]:
d2 = d1['train'].train_test_split(test_size = 0.2)

In [45]:
main_data = DatasetDict({
    'train': d2['train'],
    'validation': d2['test'],
    'test': d1['test']
})

In [46]:
main_data

DatasetDict({
    train: Dataset({
        features: ['review', 'sentiment'],
        num_rows: 8688
    })
    validation: Dataset({
        features: ['review', 'sentiment'],
        num_rows: 2173
    })
    test: Dataset({
        features: ['review', 'sentiment'],
        num_rows: 2716
    })
})

In [47]:
# Load model directly
from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("google-bert/bert-base-multilingual-cased")
model = AutoModelForSequenceClassification.from_pretrained("google-bert/bert-base-multilingual-cased", num_labels=3)

tokenizer_config.json:   0%|          | 0.00/49.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/625 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.96M [00:00<?, ?B/s]

Xet Storage is enabled for this repo, but the 'hf_xet' package is not installed. Falling back to regular HTTP download. For better performance, install the package with: `pip install huggingface_hub[hf_xet]` or `pip install hf_xet`


model.safetensors:   0%|          | 0.00/714M [00:00<?, ?B/s]

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at google-bert/bert-base-multilingual-cased and are newly initialized: ['classifier.bias', 'classifier.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [48]:
def preproc(batch):
  l = []
  # FV
  for i in batch['review']:
    if i is not None:
      l.append(str(i))
    else:
      l.append("")

  token_batch = tokenizer(l, max_length=512, truncation=True, padding='max_length')

  l1 = []
  #cL
  for i in batch['sentiment']:
    if i is not None:
      l1.append(cl.str2int(i))
    else:
      l1.append(0)
  token_batch['label'] = l1

  return token_batch


In [49]:
main_data = main_data.map(preproc, batched=True, remove_columns=['review', 'sentiment'])

Map:   0%|          | 0/8688 [00:00<?, ? examples/s]

Map:   0%|          | 0/2173 [00:00<?, ? examples/s]

Map:   0%|          | 0/2716 [00:00<?, ? examples/s]

In [50]:
model

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(119547, 768, padding_idx=0)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1

In [51]:
from transformers import TrainingArguments, Trainer

In [52]:
ta = TrainingArguments(
    output_dir="/content/saved_model",
    eval_strategy="epoch",
    save_strategy="epoch",
    save_total_limit=1,
    load_best_model_at_end=True,
    per_device_train_batch_size=16,
    per_device_eval_batch_size=16,
    num_train_epochs=3,
    learning_rate=2e-5,
    logging_dir="/content/saved_model",
    metric_for_best_model="eval_loss"
)


In [53]:
from transformers import EarlyStoppingCallback

early_stopper = EarlyStoppingCallback(early_stopping_patience=2)

In [54]:
tr = Trainer(
    model=model,
    args=ta,
    train_dataset=main_data['train'],
    eval_dataset=main_data['validation'],
    tokenizer=tokenizer,
    callbacks=[early_stopper]
)

  tr = Trainer(


In [55]:
model = tr.train()

[34m[1mwandb[0m: Using wandb-core as the SDK backend.  Please refer to https://wandb.me/wandb-core for more information.


<IPython.core.display.Javascript object>

[34m[1mwandb[0m: Logging into wandb.ai. (Learn how to deploy a W&B server locally: https://wandb.me/wandb-server)
[34m[1mwandb[0m: You can find your API key in your browser here: https://wandb.ai/authorize
wandb: Paste an API key from your profile and hit enter:

 ··········


[34m[1mwandb[0m: No netrc file found, creating one.
[34m[1mwandb[0m: Appending key for api.wandb.ai to your netrc file: /root/.netrc
[34m[1mwandb[0m: Currently logged in as: [33mtrohith89[0m ([33mtrohith89-innomatics-research-labs[0m) to [32mhttps://api.wandb.ai[0m. Use [1m`wandb login --relogin`[0m to force relogin


Epoch,Training Loss,Validation Loss
1,0.7945,0.67652
2,0.5646,0.62784
3,0.4404,0.654644


In [57]:
# Save the trained model, not the TrainOutput object
tr.model.save_pretrained("/content/hin_bert_model")
tokenizer.save_pretrained("/content/hin_bert_model")

('/content/hin_bert_model/tokenizer_config.json',
 '/content/hin_bert_model/special_tokens_map.json',
 '/content/hin_bert_model/vocab.txt',
 '/content/hin_bert_model/added_tokens.json',
 '/content/hin_bert_model/tokenizer.json')

In [58]:
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model = AutoModelForSequenceClassification.from_pretrained("/content/hin_bert_model")
tokenizer = AutoTokenizer.from_pretrained("/content/hin_bert_model")

In [59]:
!pip install -q huggingface_hub
from huggingface_hub import notebook_login

notebook_login()

VBox(children=(HTML(value='<center> <img\nsrc=https://huggingface.co/front/assets/huggingface_logo-noborder.sv…

In [60]:
model.push_to_hub("trohith89/Hindi_Sentiment_3_class")
tokenizer.push_to_hub("trohith89/Hindi_Sentiment_3_class")

model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

README.md:   0%|          | 0.00/5.17k [00:00<?, ?B/s]

CommitInfo(commit_url='https://huggingface.co/trohith89/Hindi_Sentiment_3_class/commit/b5f5af0071ddb49dd866502045e0d22d40e0eae6', commit_message='Upload tokenizer', commit_description='', oid='b5f5af0071ddb49dd866502045e0d22d40e0eae6', pr_url=None, repo_url=RepoUrl('https://huggingface.co/trohith89/Hindi_Sentiment_3_class', endpoint='https://huggingface.co', repo_type='model', repo_id='trohith89/Hindi_Sentiment_3_class'), pr_revision=None, pr_num=None)

In [61]:
# Use a pipeline as a high-level helper
from transformers import pipeline

pipe = pipeline("text-classification", model="trohith89/Hindi_Sentiment_3_class")

config.json:   0%|          | 0.00/998 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/711M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/1.41k [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/996k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.92M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/695 [00:00<?, ?B/s]

Device set to use cuda:0


In [71]:
names=["neutral", "positive", "negative"]

str = "यह फिल्म बहुत अच्छी थी और अभिनय शानदार था।"
# testing on hindi text for sentiment analysis
names[int(pipe(str)[0]['label'].split("_")[1])]

'positive'

In [72]:
# Define the label mapping (you may need to adjust based on the model you're using)
names = ["neutral", "positive", "negative"]

# Hindi test sentences
hindi_sentences = [
    "यह फिल्म बहुत अच्छी थी और अभिनय शानदार था।",
    "मुझे यह सेवा बहुत खराब लगी, बिल्कुल भी संतुष्ट नहीं हूँ।",
    "खाना ठीक-ठाक था, कुछ खास नहीं।",
    "इस मोबाइल की बैटरी लाइफ शानदार है।",
    "डिलीवरी समय पर नहीं हुई, बहुत निराशाजनक अनुभव रहा।",
    "यह जगह बहुत सुंदर है और यहां का वातावरण शांतिपूर्ण है।",
    "उत्पाद की गुणवत्ता उम्मीद से बहुत कम थी।",
    "मुझे यह किताब पढ़कर बहुत प्रेरणा मिली।",
    "कस्टमर सपोर्ट से बात करना आसान नहीं था।",
    "सब कुछ सामान्य था, न बहुत अच्छा न बहुत बुरा।"
]

# Loop through and print predicted sentiment
for sentence in hindi_sentences:
    label = pipe(sentence)[0]['label']  # e.g., 'LABEL_1'
    label_index = int(label.split("_")[-1])  # extract numeric part
    print(f"Text: {sentence}\nPredicted Sentiment: {names[label_index]}\n")


You seem to be using the pipelines sequentially on GPU. In order to maximize efficiency please use a dataset


Text: यह फिल्म बहुत अच्छी थी और अभिनय शानदार था।
Predicted Sentiment: positive

Text: मुझे यह सेवा बहुत खराब लगी, बिल्कुल भी संतुष्ट नहीं हूँ।
Predicted Sentiment: negative

Text: खाना ठीक-ठाक था, कुछ खास नहीं।
Predicted Sentiment: neutral

Text: इस मोबाइल की बैटरी लाइफ शानदार है।
Predicted Sentiment: positive

Text: डिलीवरी समय पर नहीं हुई, बहुत निराशाजनक अनुभव रहा।
Predicted Sentiment: negative

Text: यह जगह बहुत सुंदर है और यहां का वातावरण शांतिपूर्ण है।
Predicted Sentiment: positive

Text: उत्पाद की गुणवत्ता उम्मीद से बहुत कम थी।
Predicted Sentiment: negative

Text: मुझे यह किताब पढ़कर बहुत प्रेरणा मिली।
Predicted Sentiment: positive

Text: कस्टमर सपोर्ट से बात करना आसान नहीं था।
Predicted Sentiment: negative

Text: सब कुछ सामान्य था, न बहुत अच्छा न बहुत बुरा।
Predicted Sentiment: neutral



In [73]:
# Define the label mapping (you may need to adjust based on the model you're using)
names = ["neutral", "positive", "negative"]

# Hindi test sentences
more_hindi_sentences = [
    "यह मोबाइल बहुत धीमा चलता है, उम्मीद के मुताबिक नहीं है।",
    "आज का मौसम बहुत सुहावना है, मन खुश हो गया।",
    "मुझे यह गाना पसंद नहीं आया, सुर और शब्द अच्छे नहीं थे।",
    "सेमिनार बहुत जानकारीपूर्ण था, मैंने बहुत कुछ सीखा।",
    "यह रेस्तरां बहुत महंगा है लेकिन खाना औसत था।",
    "मेरा अनुभव यहाँ बहुत ही निराशाजनक रहा।",
    "यह पुस्तक रोचक थी लेकिन अंत थोड़ा कमजोर था।",
    "क्लास का माहौल पढ़ाई के लिए बहुत अनुकूल है।",
    "कंप्यूटर बार-बार हैंग हो रहा है, बहुत परेशान हूँ।",
    "फिल्म का निर्देशन अच्छा था लेकिन कहानी साधारण थी।",
    "डॉक्टर ने सही समय पर इलाज शुरू किया, अब मैं बेहतर महसूस कर रहा हूँ।",
    "प्रोजेक्ट पूरा करने में काफी समय लगा लेकिन परिणाम अच्छा आया।",
    "मुझे इस यात्रा में बहुत आनंद आया, सब कुछ बेहतरीन था।",
    "यह घड़ी दिखने में तो सुंदर है पर समय सही नहीं बताती।",
    "आज ऑफिस में कुछ खास नहीं हुआ, बस रोज़ जैसा दिन था।",
    "ग्राहक सेवा से बात करना बहुत ही आसान और मददगार रहा।",
    "मुझे यह ऐप उपयोग करने में कठिनाई हो रही है।",
    "ऑनलाइन क्लास की गुणवत्ता में सुधार की जरूरत है।",
    "पार्क साफ-सुथरा और शांतिपूर्ण था, टहलना अच्छा लगा।",
    "यह उत्पाद विज्ञापन जितना अच्छा नहीं निकला।"
]


# Loop through and print predicted sentiment
for sentence in more_hindi_sentences:
    label = pipe(sentence)[0]['label']  # e.g., 'LABEL_1'
    label_index = int(label.split("_")[-1])  # extract numeric part
    print(f"Text: {sentence}\nPredicted Sentiment: {names[label_index]}\n")


Text: यह मोबाइल बहुत धीमा चलता है, उम्मीद के मुताबिक नहीं है।
Predicted Sentiment: negative

Text: आज का मौसम बहुत सुहावना है, मन खुश हो गया।
Predicted Sentiment: negative

Text: मुझे यह गाना पसंद नहीं आया, सुर और शब्द अच्छे नहीं थे।
Predicted Sentiment: negative

Text: सेमिनार बहुत जानकारीपूर्ण था, मैंने बहुत कुछ सीखा।
Predicted Sentiment: positive

Text: यह रेस्तरां बहुत महंगा है लेकिन खाना औसत था।
Predicted Sentiment: negative

Text: मेरा अनुभव यहाँ बहुत ही निराशाजनक रहा।
Predicted Sentiment: negative

Text: यह पुस्तक रोचक थी लेकिन अंत थोड़ा कमजोर था।
Predicted Sentiment: positive

Text: क्लास का माहौल पढ़ाई के लिए बहुत अनुकूल है।
Predicted Sentiment: positive

Text: कंप्यूटर बार-बार हैंग हो रहा है, बहुत परेशान हूँ।
Predicted Sentiment: negative

Text: फिल्म का निर्देशन अच्छा था लेकिन कहानी साधारण थी।
Predicted Sentiment: positive

Text: डॉक्टर ने सही समय पर इलाज शुरू किया, अब मैं बेहतर महसूस कर रहा हूँ।
Predicted Sentiment: positive

Text: प्रोजेक्ट पूरा करने में काफी समय लगा लेकिन

## 4. Tokenization and Preprocessing
*Add your tokenizer and data preprocessing steps here.*

## 5. Model Fine-Tuning
*Include your model loading, training arguments, and trainer here.*

## 6. Evaluation and Insights
*Display evaluation metrics, plots, and interpretation of results.*