In [1]:
!pip install transformers
!wandb off

[0mW&B offline. Running your script from this directory will only write metadata locally. Use wandb disabled to completely turn off W&B.


In [2]:
import torch
from torch.utils.data import Dataset
import pandas as pd
from sklearn.model_selection import train_test_split
import transformers
from transformers import GPT2Tokenizer, GPT2LMHeadModel

In [3]:
# dataset class
class SentimentDataset(Dataset):
  def __init__(self, txt_list, label_list, tokenizer, max_length):
    # define variables
    self.input_ids = []
    self.attn_masks = []
    self.labels = []
    map_label = {-1:0, 0:1, 1:2}

    # iterate through the dataset
    for txt, label in zip(txt_list, label_list):
      # prepare the text
      prep_txt = f'<startoftext>{txt}<sep>{map_label[label]}<endoftext>'
      # tokenize
      encodings_dict = tokenizer(prep_txt, truncation=True, max_length=max_length, padding='max_length')
      # append to list
      self.input_ids.append(torch.tensor(encodings_dict['input_ids']))
      self.attn_masks.append(torch.tensor(encodings_dict['attention_mask']))
      self.labels.append(map_label[label])

  def __len__(self):
    return len(self.input_ids)

  def __getitem__(self, idx):
    return self.input_ids[idx], self.attn_masks[idx], self.labels[idx]

In [4]:
tt=pd.read_csv("/kaggle/input/mahasent/tweets-valid.csv")
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("tweets-valid.csv",index=False)

In [5]:
tt=pd.read_csv("/kaggle/input/mahasent/tweets-test.csv")
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("tweets-test.csv",index=False)

In [6]:
tt=pd.read_csv("/kaggle/input/bedata/MahaSent/mahasent_train_new_part1.csv")
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("MahaSent.csv")

In [7]:
# Data load function
def load_sentiment_dataset(tokenizer):
  # load dataset and sample all reviews in the dataset
  file_path = 'MahaSent.csv'
  df = pd.read_csv(file_path)
  df = df.sample(len(df), random_state=1)


  # divide into test and train
#   X_train, X_test, y_train, y_test = train_test_split(df['tweet'].tolist(), df['label'].tolist(), shuffle=True, test_size=0.05, random_state=1, stratify=df['label'])
  X_train=df['tweet']
  X_test=df['tweet']
  y_train=df['label']
  y_test=df['label']
  # format into SentimentDataset class
  train_dataset = SentimentDataset(X_train, y_train, tokenizer, max_length=512)

  # return
  return train_dataset, (X_test, y_test)

In [8]:
model_name = 'l3cube-pune/marathi-gpt'

# seed
torch.manual_seed(42)

# load tokenizer and model
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("l3cube-pune/marathi-gpt", bos_token='<startoftext>', eos_token = '<endoftext>', pad_token='<pad>', sep_token='<sep>')
model = AutoModelForCausalLM.from_pretrained("l3cube-pune/marathi-gpt").cuda()
model.resize_token_embeddings(len(tokenizer))

Downloading (…)okenizer_config.json:   0%|          | 0.00/155 [00:00<?, ?B/s]

Downloading (…)/main/tokenizer.json:   0%|          | 0.00/2.93M [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/2.00 [00:00<?, ?B/s]

Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


Downloading (…)lve/main/config.json:   0%|          | 0.00/909 [00:00<?, ?B/s]

Downloading (…)"pytorch_model.bin";:   0%|          | 0.00/510M [00:00<?, ?B/s]

Embedding(50261, 768)

In [9]:
# prepare and load dataset
train_dataset, test_dataset = load_sentiment_dataset(tokenizer)

In [12]:
# TRAIN
# creating training arguments
from transformers import TrainingArguments
training_args = TrainingArguments(output_dir='results', num_train_epochs=1, logging_steps=10, save_strategy="epoch", per_device_train_batch_size=2,
                                  per_device_eval_batch_size=2, warmup_steps=100, weight_decay=0.01, logging_dir='logs')

In [13]:
# start training
from transformers import Trainer
Trainer(model=model,
        args=training_args,
        train_dataset=train_dataset,
        data_collator=lambda data: {
            'input_ids':torch.stack([f[0] for f in data]),
            'attention_mask':torch.stack([f[1] for f in data]),
            'labels':torch.stack([f[0] for f in data])
        }).train()

***** Running training *****
  Num examples = 6056
  Num Epochs = 1
  Instantaneous batch size per device = 2
  Total train batch size (w. parallel, distributed & accumulation) = 4
  Gradient Accumulation steps = 1
  Total optimization steps = 1514
  Number of trainable parameters = 124442880
Automatic Weights & Biases logging enabled, to disable set os.environ["WANDB_DISABLED"] = "true"


huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




Step,Training Loss
10,6.478
20,0.6152
30,0.3587
40,0.3309
50,0.3041
60,0.3281
70,0.3507
80,0.2751
90,0.2951
100,0.281


Saving model checkpoint to results/checkpoint-1514
Configuration saved in results/checkpoint-1514/config.json
Configuration saved in results/checkpoint-1514/generation_config.json
Model weights saved in results/checkpoint-1514/pytorch_model.bin


Training completed. Do not forget to share your model on huggingface.co/models =)




TrainOutput(global_step=1514, training_loss=0.3472533145700452, metrics={'train_runtime': 758.9104, 'train_samples_per_second': 7.98, 'train_steps_per_second': 1.995, 'total_flos': 1582384545792000.0, 'train_loss': 0.3472533145700452, 'epoch': 1.0})

In [9]:
!zip -r checkpoint.zip /kaggle/working/results/checkpoint-3029

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)
  adding: kaggle/working/results/checkpoint-3029/ (stored 0%)
  adding: kaggle/working/results/checkpoint-3029/scheduler.pt (deflated 50%)
  adding: kaggle/working/results/checkpoint-3029/generation_config.json (deflated 24%)
  adding: kaggle/working/results/checkpoint-3029/training_args.bin (deflated 48%)
  adding: kaggle/working/results/checkpoint-3029/optimizer.pt (deflated 9%)
  adding: kaggle/working/results/checkpoint-3029/pytorch_model.bin (deflated 10%)
  adding: kaggle/working/results/checkpoint-3029/rng_state.pth (deflated 32%)
  adding: kaggle/working/results/checkpoint-3029/trainer_state.json (deflated 85%)
  adding: kaggle/working/results/checkpoint-3029/config.json (deflated 50%)


In [20]:
goed=pd.read_csv('/kaggle/input/bedata/MahaSent/mahasent_train_new_part2.csv')

In [21]:
# goed=goed.loc[:,['marathi_text','three_point']]

In [22]:
# goed.rename(columns = {'marathi_text':'tweet','three_point':'label'}, inplace = True)

In [23]:
tt=goed.iloc[:,:]
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
#   i=re.sub(r"\[NAME]+", "", i)
#   i=re.sub(r"\[नाम]+", "",i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("goed.csv")

In [24]:
# goed.to_csv('goed.csv',index=False)

In [25]:
# Data load function
def load_goed_sentiment_dataset(tokenizer):
  # load dataset and sample all reviews in the dataset
  file_path = '/kaggle/working/goed.csv'
  df = pd.read_csv(file_path)
  df = df.sample(len(df), random_state=1)


  # divide into test and train
#   X_train, X_test, y_train, y_test = train_test_split(df['tweet'].tolist(), df['label'].tolist(), shuffle=True, test_size=0.05, random_state=1, stratify=df['label'])
  X_train=df['tweet']
  X_test=df['tweet']
  y_train=df['label']
  y_test=df['label']
  # format into SentimentDataset class
  train_dataset = SentimentDataset(X_train, y_train, tokenizer, max_length=512)

  # return
  return train_dataset, (X_test, y_test)

In [26]:
# prepare and load dataset
goed_train,goed_test = load_goed_sentiment_dataset(tokenizer)

In [19]:
# # TEST

# # set the model to eval mode
# _ = model.eval()

# # run model inference on all test data
# original_label, predicted_label, original_text, predicted_text = [], [], [], []
# map_label = {-1:0, 0:1, 1:2}

# # iterate over all test data
# from tqdm import tqdm
# import re
# for text, label in tqdm(zip(goed_test[0], goed_test[1])):
#   # create prompt (in compliance with the one used during training)
#   prompt = f'<startoftext>{text}<sep>'
#   # generate tokens
#   generated = tokenizer(f"{prompt}", return_tensors="pt").input_ids.cuda()
#   # perform prediction
#   sample_outputs = model.generate(generated, do_sample=False, top_k=50, 
#                                   max_length=512, top_p=0.9, temperature=0, 
#                                   num_return_sequences=0)
#   # decode the predicted tokens into texts
#   pred_text = tokenizer.decode(sample_outputs[0], skip_special_tokens=True)
#   # extract the predicted sentiment
#   print(prompt)
#   print(pred_text)
#   try:
#     pred_sentiment = pred_text[-1]
#   except:
#     pred_sentiment="None"

#   # append results
#   original_label.append(map_label[label])
#   predicted_label.append(pred_sentiment)
#   original_text.append(text)
#   predicted_text.append(pred_text)

In [20]:
# import gc
# gc.collect()
# torch.cuda.empty_cache()

In [None]:
original_label

In [27]:
# TEST

# set the model to eval mode
_ = model.eval()

# run model inference on all test data
original_label, predicted_label, original_text, predicted_text = [], [], [], []
map_label = {-1:0, 0:1, 1:2}

# iterate over all test data
from tqdm import tqdm
import re
prompt=[]
final=[]
x=1
for text, label in tqdm(zip(goed_test[0], goed_test[1])):
    prompt.append(f'<startoftext>{text}<sep>')
    original_label.append(map_label[label])
    predicted_label.append(prompt)
    original_text.append(text)
    predicted_text.append(prompt)
#     print(x," ",x%1000)
    if x%100==0:     
        print(x)
#         generated = tokenizer(f"{prompt}", return_tensors="pt").input_ids.cuda()
        tokenizer.padding_side = "left"
        generated = tokenizer(prompt, return_tensors="pt",padding=True).to("cuda")
        # perform prediction.
#         sample_outputs = model.generate(generated, do_sample=False, top_k=50, 
#                                   max_length=512, top_p=0.9, temperature=0, 
#                                   num_return_sequences=0)
        with torch.no_grad():
            sample_outputs = model.generate(**generated, do_sample=False, top_k=50, 
                                      max_length=512, top_p=0.9, temperature=0, 
                                      num_return_sequences=0)
        # decode the predicted tokens into texts
#         pred_text = tokenizer.decode(sample_outputs[0], skip_special_tokens=True)
        pred_text = tokenizer.batch_decode(sample_outputs, skip_special_tokens=True)
        # extract the predicted sentiment
        print(pred_text[0])
#         print(tokenizer.batch_decode(sample_outputs, skip_special_tokens=False))

        final.extend(pred_text)
        prompt=[]
    x+=1
# print(final)
tokenizer.padding_side = "left"
generated = tokenizer(prompt, return_tensors="pt",padding=True).to("cuda")
# perform prediction.
#         sample_outputs = model.generate(generated, do_sample=False, top_k=50, 
#                                   max_length=512, top_p=0.9, temperature=0, 
#                                   num_return_sequences=0)
with torch.no_grad():
    sample_outputs = model.generate(**generated, do_sample=False, top_k=50, 
                              max_length=512, top_p=0.9, temperature=0, 
                              num_return_sequences=0)
# decode the predicted tokens into texts
#         pred_text = tokenizer.decode(sample_outputs[0], skip_special_tokens=True)
pred_text = tokenizer.batch_decode(sample_outputs, skip_special_tokens=True)
# extract the predicted sentiment
final.extend(pred_text)
# final.extend(prompt)
# # append results


0it [00:00, ?it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


100


100it [00:24,  4.11it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


नियमानुसार, गावात ५० % आदिवासी आणि बाकी बिगर आदिवासी असल्यास नोकर भरतीत दोघांनाही समान न्याय मिळणार. पण बिगर आदिवासींना न्याय मिळत नाही. राज्यपालांकडे मंजुरीसाठी गेलेले T SC चे ठराव बरेच दिवस प्रलंबित आहेत. याचा सरकार प्राधान्या नं पाठपुरावा करून काय उपाय काढणार? 0
200


200it [00:48,  4.15it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


सत्तेचा वापर हा लोकांच्या भल्यासाठी व्हायला हवा. आम्ही व्याजा चे दर कमी केले. बळीराजा ला सन्मानाने जगता यावं यासाठी आम्ही निर्णय घेतले. जे लोक निर्णय घेत नाहीत त्यांच्याच घरात या इंदापूर मधला गडी जाऊन बसला, ज्याचे अवघे घर दार सुरूवाती पासून काँग्रेसचे निष्ठावंत कार्यकर्ते होते. 0
300


300it [01:11,  4.23it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


राष्ट्रसंत तुकडोजी महाराज यांच्या पुण्यतिथी निमित्त शत शः नमन । 2
400


400it [01:33,  4.31it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


एच पश्चिम वांद्रे, खार, सांताक्रूझ च्या एच पश्चिम विभागात मनपा अधिकाऱ्यां सोबत बैठक घेऊन विभागातील कोरोना परिस्थिती आणि उपाययोजना ंचा तसेच एच पश्चिम विभागातील डे डि के टेड कोविड सेंटर ला भेट देऊन तेथील परिस्थितीचा आढावा घेतला. 1
500


500it [01:57,  4.30it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


अण्णा विसर्जन! 1
600


600it [02:20,  4.30it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


देशातील सर्व माध्यमांच्या प्रतिनिधींनी स्वतः ज्यांनी पुरवठा केलेला आहे त्यांच्या नोंदणीकृत कारखान्यात वा कार्यालयात जाऊन प्रत्यक्ष पाहणी करून रिपोर् टींग केलेले व्हिडीओ हे अजूनही युट्युब वर आहेत. 1
700


700it [02:43,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


वीर योद्धा, धर्मवीर छत्रपती संभाजी राजे यांना पुण्यतिथी निमित्त कोटी कोटी अभिवादन! 2
800


800it [03:06,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


स्व. अरुण जेटली जी... भारतीय राजकारणातील एक प्रामाणिक, लोकाभिमुख नेता! 2
900


900it [03:28,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


आज वसंतदादा शुगर इन्स्टिट्यूट, मांजरी, पुणे या संस्थेचा स्थापना दिवस. यानिमित्ताने संस्थेमध्ये ४४ वा वर्धापन दिनाचा कार्यक्रम आयोजित करण्यात आला होता. या कार्यक्रमाला मा. डॉ. शिवाजीराव कदम, कुलगुरू, भारती विद्यापीठ, मा. प्रो. विजय शर्मा - चेअरमन, सी. ए. सी. पी., 1 / 2 1
1000


1000it [03:52,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


माजी आमदार कृष्ण राव जगदाळे - पाटील अर्थात आब ांच्या निध नाची बातमी कळली. दौंड तालुक्यात सिंचन आणि दळणवळ णाच्या सुविधा निर्माण करण्यात त्यांनी मोठं योगदान दिलं. निष् कलंक आणि अ जात शत्रू व्यक्तिमत्त्व अशी त्यांची ओळख होती. त्यांना भावपूर्ण श्रद्धांजली. 0
1100


1100it [04:15,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


आचारसंहि तेच्या आधी मंत्र ्यांकडून अनेक विषय आर्थिक लागे बांधे पाहून व भाजपाचे कार्यकर्ते पाहून घाईघाईने मार्गी लावले जात आहेत. समाजकल्याण मंत्री कुठलीही छाननी न करता शेवटच्या क्षणी मागासवर्गीय विद्यार्थ्यां करिता वसती गृहे हस्तांतरित करण्याचे प्रस्ताव मंजूर करण्याच्या तयारीत आहेत. 0
1200


1200it [04:38,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


कोरोनाचा वाढता प्रादुर्भाव लक्षात घेता सांगली जिल्ह्यात लॉकडाऊन ची घोषणा केली आहे. त्याच पार्श्वभूमीवर जिल्ह्यातील कोरोनाच्या सद्यस्थिती चा आढावा घेण्यासाठी आज प्रमुख अधिकाऱ्यांसह बैठक घेतली तसेच मिरज सिव्हिल हॉस्पिटलच्या आयसीयू मध्ये २०० बेड ्सची संख्या वाढवण्याचे निर्देश दिले 1
1300


1300it [05:01,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


भाजपा सरकारमध्ये जलयुक्त शिवार योजनेमुळे राज्यात एकाही टॅंकर ची गरज भासली नाही. 0
1400


1400it [05:24,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


दत्तू भो कन ळ यांना अर्जुन पुरस्कार जाहीर झा ल्‍या बद्दल त्यांचे मन : पुर्वक अभिनंदन! दत्तू यांचा अर्जुन पुरस्कारा पर्यंतचा प्रवास हा अत्यंत संघर्ष मय आणि प्रेरणादायी आहे. 2021 च्या ऑलिम्पिक स्पर्धेसाठी आणि पुढील कारकीर्दी साठी त्यांना हार्दिक शुभेच्छा.. 💐 💐 💐 2
1500


1500it [05:47,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


माझे सहकारी विधान परिषदेतील विरोधी पक्षनेते प्रवीण दरेकर, माजी मंत्री विनोद तावडे जी, मुंबई भाजपाचे अध्यक्ष मंगल प्रभात लोढा जी, खा. गोपाल शेट्टी जी, खा. मनोज कोटक, योगेश सागर यांचा या शिष्टमंडळात समावेश होता. 1
1600


1600it [06:10,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


महाराष्ट्र कॉंग्रेसच्या युवकांचा उत्साह पाहुन एका गोष्ट ाचा आत्मविश्वास आला की कॉंग्रेसचे भविष्य चांगल्या हाती आहे व उज्वल आहे. सध्या अडचणीचा काळ सुरु आहे पण हेही वाईट दिवस जातील व पुन्हा एकदा देशाच्या व महाराष्ट्राच्या भल्यासाठी कॉंग्रेसचे राज्य येईल. 2
1700


1700it [06:33,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


आज संसदीय अधिवेश नामध्ये आयुर्वेदिक औषध - उपचार संशोधन बिला वरील चर्चेत सहभाग घेतला. 1
1800


1800it [06:56,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


राज्यातील दुष्काळ ग्रस्तांसाठी ऐतिहासिक आणि वेळेत मदत केंद्र सरकारने दिली आहे. मी मा. पंतप्रधान श्री नरेंद्र मोदीजी आणि केंद्र सरकारचा अतिशय आभारी आहे...! you t u. be / q 83 Y G H 9 j a J A 2
1900


1900it [07:19,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


उद्या युवा क्रांती यात्रेच्या माध्यमातून महाराष्ट्रात परिवर्त नाच्या नव्या पर् वाची सुरवात होणार आहे. म न्सर, नागपूर या ठिकाण हून सुरु होणाऱ्या युवा क्रांती यात्रेत युवा शक्तीच्या हक्कासाठी, सरकारच्या चुकीच्या धोरण ांविरोधात आवाज उठ विण्यासाठी मोठ्या संख्येने सहभागी व्हा! 2
2000


2000it [07:43,  4.27it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


महाराष्ट्रात स्त्री शिक्षणाची मुहूर्तमेढ रो वत स्व घोषित संस्कृती रक्ष कांचा रोष ओढवून घेणाऱ्या, अनाथ ांना आश्रय देणाऱ्या, स्वतःच्या जीवाची पर्वा न करता प्लेग बाधित रुग्णांची सेवा करणाऱ्या थोर समाज सेविका सावित्रीबाई फुले यांना जयंती दिनानिमित्त विनम्र अभिवादन! 2
2100


2100it [08:06,  4.30it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


जेजुरी येथील ग्रामीण रुग्णालयाचे काम तातडीने पूर्ण करावे, पुरंदर पंचायत समितीचे नवीन इमारतीमध्ये तात्काळ स्थलांतर करावे, पार गाव - माळशिरस आणि धनकवडी - मांढ र या भागामध्ये तात्काळ पाण्याचे टँकर सुरु करावेत तसेच येथील पाणी पुरवठा योजना तात्काळ सुरु कराव्यात ( 2 / 3 ) 1
2200


2200it [08:29,  4.32it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


ज्येष्ठ साहित्यिक, नाटककार रत्नाकर मतकरी यांच्या दुःखद निधनामुळे कला क्षेत्रावर मोठी शोककळा पसरली आहे. वयाच्या सतराव्या वर्षी साहित्य, कला क्षेत्रात पदार्पण केलेल्या रत्नाकर मतकरी यांनी अखेरच्या काळापर्यंत आपले काम अविरत सुरू ठेवले. त्यांच्या कला क्षेत्रातील योगदा नामुळे त्यांना 0
2300


2300it [08:52,  4.32it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


सवाल जिस जु बान मे किया जाये जवाब उ सी जु बान मे देना चाहिए काँग्रेसचे नेते यांच्यावर सूड बुद्धीने कारवाई केली गेली. विरोधी पक्षावर दबा वत ंत्रा चा उपयोग केला जात आहे. परिस्थिती बदलेल तेव्हा नोटाबंदी, पिक विमा, कर्जमाफी, जलयुक्त शिवार ाच्या भ्रष्टाचाराचे आरोपी आधी आत जातील. 0
2400


2400it [09:15,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


चारा छावण्या ंना भेटी दिल्यावर जनाव रा साठी ९० रु. अनुदान पुरेसे नाही ही वस्तुस्थिती छावणी चालकांनी बोलून दाखवली. १२० रु. जनाव रा मागे मिळावेत अशी मागणी आहे. शासनाने निर्णय घेण्याची गरज आहे. छावणीत शेतकर्‍या मागे पाच जनावरांची अट शिथिल करावी व पे ंडी मध्ये वाढ करावी या मागण्या ही आहेत. 0
2500


2500it [09:38,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


देवगड येथे कणकवली विधानसभा मतदारसंघात भाजपा कार्यकर्ते बूथ मेळावा घेऊन कार्यकर्त्यांना मार्गदर्शन केले! Ad dr ess ed K ank aw ali A ss em b ly Vi j ay S ank al p M el av a! 1
2600


2600it [10:02,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


मला खात्री आहे की या रुग्णालयात ग्रामीण भागातील जनतेसाठी त्यांना परवडेल अशा खर्चात वैद्यकीय सेवा उपलब्ध होईल. जिजाऊ शैक्षणिक व सामाजिक संस्थेच्या माध्यमातून श्री. निलेश सा ंबरे अनेक लो कोपयोगी उपक्रम राबवत आहेत. त्यांचे मनापासून कौतुक! 2
2700


2700it [10:25,  4.33it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


औरंगाबाद जवळ बद नापूर ते कर माड दरम्यान रेल्वे रुळांवर झोपलेल्या १६ जणांचा माल गाडी खाली चिरडून मृत्यू झाल्याची घटना अत्यंत दु : खद, वेदना दायी आहे. त्यांना भावपूर्ण श्रद्धांजली! लॉकडाऊनमुळे महाराष्ट्रात अडकून पडलेल्या मजुरांची घरी परत ण्याची अधि रता, तळमळ, चाललेली पायपीट मन विष ण्ण करणारी आहे. 0
2800


2800it [10:47,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


नांदेड जिल्हा मध्यवर्ती सहकारी बँकेचे संस्थापक, सहकार महर्षी पद श्री स्व. शामराव जी कदम यांच्या अर्धा कृती पुतळ याचे अनावरण मा. शरद चंद्र पवार साहेब यांच्या हस्ते करण्यात आले. यावेळी आयोजित कार्यक्रमात इतर प्रमुख नेत्यांसह उपस्थित राहिलो. 1
2900


2900it [11:10,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


धारावी पुनर्विकास प्रकल्पासाठी स्वतंत्र योजना राज्य सरकारच्या विचाराधीन! मध्ये श्री संजय शिंदे यांचा प्रश्न 1
3000


3000it [11:33,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


भीमा - कोरेगाव दंगली बद्दल राज्य सरकारने नियुक्त केलेल्या चौकशी आयोगाला विरोध करीत आहे. 0
3100


3100it [11:56,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


अहिल्या बाई होळकर या केवळ एक महान शास क, पराक्रमी योद्धा आणि सर्वश्रुत धनुर् धर होत्या. साहसी यो ध्या प्रमाणे त्यांनी युद्धा चे नेतृत्व करून विजय संपादन केला. संपूर्ण आयुष्य महिलांचे स शक्ती करण आणि त्यांची परिस्थिती बदल ण्या करता वेच लेल्या पुण्य श्लोक अहिल्या बाई होळकर यांना विनम्र अभिवादन! 2
3200


3200it [12:19,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


क्रांति गुरु ल हु जी व स्ताद साळवे यांची आज जयंती. यानिमित्ताने त्यांना विनम्र अभिवादन. 2
3300


3300it [12:42,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


नालेसफाई ची कामे यावर्षी 40 ℅ टक्केच झाली आहेत. काही ठिकाणी गाळ काढलेला नाही, काही ठिकाणी गाळ उचल लेला नाही. त्यामुळेच वजनाची आकडेवारी पालिका जाहीर करीत नाही, डम्पिंग वर किती गाळ टाकला याची माहिती लप वली जातेय, असे नालेसफाई चे चित्र आज आम्ही पाहणी केल्यानंतर समोर आले. 0
3400


3400it [13:05,  4.37it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


विकास कांना सगळे भूखंड दान केले व नागरिकांना मिळणाऱ्या सेवा गिळंकृत केल्या आहेत. 0
3500


3500it [13:28,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


वैभववाडी व देवगड येथील कार्यकर्ता मेळाव्यात कार्यकर्त्यांना संबोधित केले. कोकणच्या प्रगती मध्ये हातभार लावत नितेश राणे यांना भरघोस मतांनी विजयी करा, हे कोकण वासियांना आवाहन करतो. 2
3600


3600it [13:51,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


परळी नगर परिषदेच्या शिक्षण समिती, डॉ. भालचंद्र वाचनालय यांच्या विद्यमाने शहरातील दहावी, बारावी परिक्षेत गुणवंत विद्यार्थ्यांचा बक्षिस देऊन सत्कार केला. तसेच स्व. पंडित अण्णा मुंडे स्मृती पुरस्काराचे वितरण केले. 2
3700


3700it [14:14,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


परदेशात उभारल्या जाणाऱ्या टाऊन हॉ लच्या धर्तीवर बारामतीत ल्या तीन हत्ती चौ काचा विकास करण्याचे निर्देश दिले. याची जबाबदारी प्रसिद्ध वास्तु विशारद पी. के. दास यांच्याकडे सोपवण्यात आली. यासंदर्भात ला संपूर्ण आराखडा तयार करण्यास सांगितले. यासह कॅ नल सुशोभी करणाच्या सूचना केल्या. 1
3800


3800it [14:37,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


पिकावर वतन दार ांचा हक्क काढून घेतला अन् प्रत्येकाला कसा यला जमीन मिळेल अशा सुधारणा केल्या. उद्ध्वस्त गावं पुन्हा वस वली. जमीन कसा यला बी - बिया णं देत शेतीसाठी प्रोत्साहन दिले. शिवाजी महाराजांना रय तेच्या मनात स्थान का मिळालं, याची कारणं या दूरगामी निर्ण यांमध्ये आहे. 0
3900


3900it [15:00,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


माटुंगा येथील रेल्वे जागेवरील झोपड ़ पट्टी वासी यांशी संवाद साधला! 1
4000


4000it [15:23,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


थोर समाज सुधारक, क्रांतिकारक, शिक्षण तज्ञ, विचारवंत गोपाळ गणेश आगरकर यांना जयंत ि दिनी शत श : अभिवादन..! 2
4100


4100it [15:46,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


जलयुक्त शिवार साठी सर्वांनीच उत्तम काम केले. आगामी 2 वर्षे आणखी गतीने काम करू. या सामूहिक प्रयत्ना ंनी दुष्काळ हा लवकरच भुत काळ असेल! चला आपल्या शेतकरी बांधवांना, भावी पिढ यांना शाश्वत शेतीचे आनंददायी वर्तमान पाहता यावे, यासाठी एक दिलाने काम करु! 2
4200


4200it [16:09,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


मुंबईच्या विकास आराखड ्यातून 10 लाख परवडणारी घरे निर्माण होणार आहेत. ही घरे परवडणारी असतील आणि सामान्य माणसा लाच मिळतील, याची काळजी आपण सारे मिळून घेऊ! 2
4300


4300it [16:32,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


अभ्यासकांनी घाबर ण्याची गरज नाही, पण देश विघातक कार्य करणार्‍यांना सोडणार नाही. ते संविधा नाने आपल्यावर सोप विलेले दाय ि त्त्व! 0
4400


4400it [16:55,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


आज गडचिरोली तील अत्यंत प्राचीन अशा शिव मंदिरा स भेट देऊन शंकरा चे दर्शन घेतले. 1
4500


4500it [17:18,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


गडचिरोली जिल्हा परिषदेवर महाराष्ट्र विकास आघाडीची सत्ता. आदिवासी विद्यार्थी संघाचे नेते अजय कं कडा ल वार यांची अध्यक्षपदी तर काँग्रेसचे मनोहर कोरे टी यांची उपाध्यक्षपदी निवड झाल्याबद्दल हार्दिक अभिनंदन व शुभेच्छा! 2
4600


4600it [17:40,  4.37it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


कोरेगाव येथे भेट.... 1
4700


4700it [18:04,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


वैद्यकीय पदव्युत्तर अभ्यासक्रमात मराठा आरक्षणा संदर्भात ली राज्य सरकारची याचिका सुप्रीम कोर्टा नेही फेटाळली आहे. यावर्षी ची प्रवेश प्रक्रिया मराठा आरक्षणाच्या कायद्यानुसार होणार नाही. मतांच्या मोहा पायी सरकारने विद्यार्थ्यांचा ही बळी दिला आहे. 0
4800


4800it [18:27,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


अहमदनगर जिल्ह्यातील घाट घर उर् ध्व धरण क्षेत्रातील प्रकल्पग्रस्त आंदोलनकर् त्या आदिवासी शेतकऱ्यांची आज मंत्रालयात भेट घेतली. गेल्या २० वर्षांपासून आंदोलन करणाऱ्या या शेतकऱ्यांच्या समस्या जाणून घेतल्या. या वेळी आमदार उपस्थित होते. 1
4900


4900it [18:50,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


आमचे मार्गदर्शक, लोकनेते मा. श्री गोपीनाथ जी मुंडे यांना जयंत ि दिनी विनम्र अभिवादन..! 2
5000


5000it [19:13,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


खार म रु आई मंदिर यज्ञ दर्शन घेतले! 1
5100


5100it [19:36,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


ज्येष्ठ साहित्यिक व रंगकर्मी रत्नाकर मतकरी यांचं निधन चटका लावून जाणारं आहे. नाटककार म्हणून, विशेषतः बाल रंगभूमी साठी त्यांचे योगदान मोठे आहे. मराठी साहित्यातील कथा व ललित प्रांत ातही त्यांनी अव्याहत दर्जेदार लेखन केले. रत्नाकर मतकरी यांना विनम्र आदरांजली! 0
5200


5200it [19:59,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


स्वराज्य संस्थापक छत्रपती शिवाजी महाराज यांच्या स्मार काला वंदन करून परिवर्तन यात्र ेस शुभारंभ केला. 2
5300


5300it [20:22,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


ता. आंबेगाव जि. पुणे येथील मेळाव्यात बोलताना खासदार राजू शेट्टी 1
5400


5400it [20:45,  4.34it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


💥 देशव्यापी शेतकरी नेत्यांची गांधी पीस फाऊंडेशन दिल्ली येथे बैठक संपन्न... 💥 आख ़ िल भारतीय किसान समन्वय... 1
5500


5500it [21:08,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


भिवंडी मनपा निवडणूक जवळ आली. नवीन फे कम फा की सुरू! मा. मुख्यमंत्री देवेंद्र फडणवीस मोदींच्या पावलावर पाऊल ठेवून चालत आहेत ​. जै सा गुरू वै सा चे ला 0
5600


5600it [21:31,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


या बैठकीत वादळामुळे झालेल्या नुकसानीचा पुणे जिल्ह्याचा आढावा घेण्यात येऊन मदत आणि पुनर्वसन संदर्भात चर्चा करण्यात आली. पुणे जिल्ह्यातील खासदार, आमदार व अधिकारी यावेळी उपस्थित होते. 2 / 2 1
5700


5700it [21:54,  4.35it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


कुणीतरी अशी पटापट गंमत आम्हा सांग ील का? या पेटी ंमध्ये दड लंय काय? मोदी प्रभू ंच्या विमाना ंतून भाजपा आण तंय काय? 0
5800


5800it [22:17,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


मी त्यांचा पुतण्या म्हणून का कांचे आले नाव? म्हणून.. माझ्या ले करांना सांगतोय गड्या शेती.. बरा आपला गाव भावुक बा पाचा पो राला सल्ला! हे सगळे खरे वाटले तरीही एक सवाल उरला ठेवीदार ांच्या पैशा वर मग नेमका कुणी मारला डल्ला? ज्यांचे पैसे बुडाले त्या सामान्य माणसाला पण द्या की असाच एखादा सल्ला! 0
5900


5900it [22:40,  4.36it/s]Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


पत्रकारांना बाजार ू म्हणाले आता दुकानदार म्हणाले. लोकशाही चार चौथा स्तंभ ही सुटला नाही 0
6000


6057it [23:03,  4.38it/s]
Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


चिपळूण येथील धरण फुट ुन अनेकजण बेपत्ता झाल्याच्या अत्यंत क्लेश दायक प्रकाराची उच्चस्तरीय चौकशी झाली पाहिजे. विभागाच्या मंत्र्याने नैतिक जबाबदारी स्वीकारून राजीनामा दिला पाहिजे. हाच तो नव महाराष्ट्र का? ज्या करता पुन्हा येईन म्हणता. जाहीर निषेध! 0


In [22]:
len(final)

12501

In [23]:
len(goed_test[0])

12501

In [28]:
y=goed_test[1].reset_index(drop=True)

In [29]:
x=goed_test[0].reset_index(drop=True)

In [30]:
len(test_dataset[0])

6056

In [31]:
kai=pd.DataFrame({'label':y,'original':x,'generated':final})    

In [32]:
kai.to_csv("Approach2_preds.csv")

In [33]:
len(goed_test[0])

12501

In [20]:
preds=pd.read_csv('/kaggle/input/goemotions/Predictions2.csv')

In [21]:
preds

Unnamed: 0.1,Unnamed: 0,original_text,predicted_text
0,0,मी आधी केले आहे.,मी आधी केले आहे. 1
1,1,कूल-एड प्या! मोठ्याने हसणे,कूल - एड प्या! मोठ्याने हस णे 1
2,2,तरीही ते लहान नाहीत. हॉलीवूडमध्ये असा कोणताही ...,तरीही ते लहान नाहीत. हॉलीवूड मध्ये असा कोणताही...
3,3,"खूप खूप धन्यवाद, मी अभिप्रायाची प्रशंसा करतो आ...","खूप खूप धन्यवाद, मी अभिप्रा याची प्रशंसा करतो ..."
4,4,नवीन काही घडत नाही. समाजाने कधीच तुटलेल्या माण...,नवीन काही घडत नाही. समाजाने कधीच तुटलेल्या माण...
...,...,...,...
14295,14295,No the whippet sound is WUBWUBWUBWUBWUBWUBWUBW...,No the w hi pp et s ound is W U B W U B W U B ...
14296,14296,"पण अहो, निदान त्यांच्याशी संपर्क साधण्याचा त्र...","पण अहो, निदान त्यांच्याशी संपर्क साधण्याचा त्र..."
14297,14297,कोणीतरी डिस्नेला सांगा. दुष्ट माऊसने त्यांच्या...,कोणीतरी डिस् नेला सांगा. दुष्ट माऊस ने त्यांच्...
14298,14298,न्याय्य वाटते. वर्चस्व पुरेसे मोठे होते. खरं त...,न्याय्य वाटते. वर्चस्व पुरेसे मोठे होते. खरं त...


In [23]:
new_text=list(preds['original_text'])+original_text

In [26]:
len(new_pred_text)

25002

In [25]:
new_pred_text=list(preds['predicted_text'])+final

In [None]:
# pd.read_csv('')

In [27]:
kai=pd.DataFrame({"original_text":new_text,"predicted_text":new_pred_text})
kai.to_csv("Predictions3.csv")

In [None]:
df1 = pd.DataFrame({
    'original_text':original_text,
    'original_label':original_label,
    'predicted_label': predicted_label,
    'predicted_text': final
})
df1.to_csv('myCsv.csv', index=False)

In [35]:
ll=[]
gg=[]
for i in range(len(new_pred_text)):
    try:
        ll.append(int(new_pred_text[i].split()[-1]))
        gg.append(new_text[i])
    except:
        print(new_pred_text[i])

होय, मी म्हणायला हवे होते'ते उपरोधिक नाही का'0
' माझी देवी तुरुंगात गेली आणि मला फक्त हा भडक टी - शर्ट मिळाला'0
ते तुमच्यासाठी [ N AM E ] आहे'1
जर त्यांनी असे केले तर ते लु र् कर्स लु र् किन नसतील'0
विस्मय कारक माणूस धन्यवाद ♥ ️ ♥ ️ 2 मार्ग शीर्ष
तो म्हणाला की जे बळी वाचले त्यांनी " एका जाड माणसाला नेम बा जाच्या समोर ढकलले " होय ते खरोखरच'वाईट कल्पना ंची चेष्टा करत आहे'0
माझे बायो खूपच मजेदार आहे... मला मिळाले'जर तुम्ही कॅट फिश असाल तर तुमच्याकडून £ 120. 49 चे कॉल आउट शुल्क आकारले जाईल'1
तू भयंकर वृद्ध झाला आहेस'0
No the w hi pp et s ound is W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W U B W 

In [36]:
gg[:5]

['मी आधी केले आहे.',
 'कूल-एड प्या! मोठ्याने हसणे',
 "तरीही ते लहान नाहीत. हॉलीवूडमध्ये असा कोणताही हॉट 5'4 माणूस नाही ज्यासाठी बहुतेक स्त्रिया हसतील.",
 'खूप खूप धन्यवाद, मी अभिप्रायाची प्रशंसा करतो आणि तो मार्गात पाठवीन.',
 'नवीन काही घडत नाही. समाजाने कधीच तुटलेल्या माणसांबद्दल भान दिले नाही. त्यामुळे ते नैसर्गिक आहे.']

In [34]:
new_text[:5]

['मी आधी केले आहे.',
 'कूल-एड प्या! मोठ्याने हसणे',
 "तरीही ते लहान नाहीत. हॉलीवूडमध्ये असा कोणताही हॉट 5'4 माणूस नाही ज्यासाठी बहुतेक स्त्रिया हसतील.",
 'खूप खूप धन्यवाद, मी अभिप्रायाची प्रशंसा करतो आणि तो मार्गात पाठवीन.',
 'नवीन काही घडत नाही. समाजाने कधीच तुटलेल्या माणसांबद्दल भान दिले नाही. त्यामुळे ते नैसर्गिक आहे.']

In [37]:
kai=pd.DataFrame({"tweet":gg,"label":ll})
kai.to_csv("GoEmotions_pred.csv")

In [None]:
df1 = pd.DataFrame({
    'original_text':original_text,
    'original_label':original_label,
    'predicted_label': predicted_label,
    'predicted_text': predicted_text
})

In [None]:
df1.to_csv('myCsv.csv', index=False)

In [None]:
# prepare and load dataset
valid_dataset = load_goed_sentiment_dataset(tokenizer)

In [27]:
# prompt = '<startoftext>'+goed_test[0][3]+'<sep>'
#   # generate tokens
# generated = tokenizer(f"{prompt}", return_tensors="pt").input_ids.cuda()
#   # perform prediction
# sample_outputs = model.generate(generated, do_sample=False, top_k=50, 
#                                   max_length=512, top_p=0.9, temperature=0, 
#                                   num_return_sequences=0)
#   # decode the predicted tokens into texts
# pred_text = tokenizer.decode(sample_outputs[0], skip_special_tokens=True)
# pred_text

Generate config GenerationConfig {
  "bos_token_id": 50256,
  "eos_token_id": 50256,
  "transformers_version": "4.26.1"
}

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


## Step 2) Training BERT

In [None]:
!pip install transformers
!wandb off
import torch
from torch.utils.data import Dataset
import pandas as pd
from sklearn.model_selection import train_test_split
import transformers
from transformers import GPT2Tokenizer, GPT2LMHeadModel

In [None]:
tt=pd.read_csv("/kaggle/input/mahasent/tweets-valid.csv")
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("tweets-valid.csv",index=False)

In [None]:
tt=pd.read_csv("/kaggle/input/mahasent/tweets-test.csv")
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("tweets-test.csv",index=False)

In [None]:
tt=pd.read_csv("/kaggle/input/bedata/MahaSent/mahasent_train_new_part1.csv")
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("MahaSent.csv")

In [None]:
from numpy.random import seed
seed(1)
import tensorflow as tf
tf.random.set_seed(2)
import pandas as pd
import numpy as np
from numpy import array
import sklearn
!pip install simpletransformers

In [None]:
import pandas as pd
train_df=pd.read_csv("/kaggle/working/MahaSent.csv")
gen=pd.read_csv("/kaggle/input/bedata/Output_one_dash.csv")
valid_df=pd.read_csv("/kaggle/working/tweets-valid.csv")
test_df=pd.read_csv("/kaggle/working/tweets-test.csv")

In [None]:
train_df=train_df.iloc[:,2:]
gen=pd.DataFrame({'label':gen['label'],'tweet':gen['generated']})
tweet=[]
label=[]
for i in range(len(gen['tweet'])):
    dic={}
    for j in gen['tweet'][i].split():
        dic[j]=0
    for j in gen['tweet'][i].split():
        dic[j]+=1
#     dic=sorted(dic)
    if dic[max(dic,key=dic.get)]<7:
        tweet.append(gen['tweet'][i])
        label.append(gen['label'][i])
gen=pd.DataFrame({'label':label,'tweet':tweet})
train_df=pd.concat([train_df,gen]).reset_index(drop=True)

In [None]:
train_df['label'] = train_df['label'].replace(1,2)
test_df['label'] = test_df['label'].replace(1,2)
valid_df['label'] = valid_df['label'].replace(1,2)

train_df['label'] = train_df['label'].replace(0,1)
test_df['label'] = test_df['label'].replace(0,1)
valid_df['label'] = valid_df['label'].replace(0,1)

train_df['label'] = train_df['label'].replace(-1,0)
test_df['label'] = test_df['label'].replace(-1,0)
valid_df['label'] = valid_df['label'].replace(-1,0)

In [None]:
%mkdir new_data
%cd new_data
train_df.to_csv('tweets-train.csv')
test_df.to_csv('tweets-test.csv')
valid_df.to_csv('tweets-valid.csv')
%cd ..

In [None]:
!pip install --no-cache-dir transformers sentencepiece
!pip install datasets

In [None]:
from datasets import load_dataset
data_files={"train":"tweets-train.csv","test":"tweets-test.csv","validation":"tweets-valid.csv"}
dataset = load_dataset('new_data',data_files=data_files)
import numpy as np
from datasets import load_metric
metric = load_metric("accuracy")
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained("l3cube-pune/marathi-bert-v2")

def tokenize_function(examples):
    return tokenizer(examples["tweet"], padding="max_length", truncation=True)

tokenized_datasets = dataset.map(tokenize_function, batched=True)

from transformers import AutoModelForSequenceClassification

model = AutoModelForSequenceClassification.from_pretrained("l3cube-pune/marathi-bert-v2", num_labels=3)

from transformers import TrainingArguments

training_args = TrainingArguments(output_dir="test_trainer")

def compute_metrics(eval_pred):
    logits, labels = eval_pred
    predictions = np.argmax(logits, axis=-1)
    return metric.compute(predictions=predictions, references=labels)

In [None]:
from transformers import TrainingArguments, Trainer

training_args = TrainingArguments(output_dir="test_trainer", evaluation_strategy="epoch",num_train_epochs=3)

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["validation"],
    compute_metrics=compute_metrics,
)
trainer.train()

In [None]:
predictions = trainer.predict(tokenized_datasets["validation"])
preds = np.argmax(predictions.predictions, axis=-1)
metric.compute(predictions=preds, references=predictions.label_ids)

In [None]:
predictions = trainer.predict(tokenized_datasets["test"])
preds = np.argmax(predictions.predictions, axis=-1)
metric.compute(predictions=preds, references=predictions.label_ids)

In [None]:
import pandas as pd
goe_valid_df=pd.read_csv("/kaggle/input/goemotions/goemotions_subset_val_new.csv")
goe_test_df=pd.read_csv("/kaggle/input/goemotions/goemotions_subset_test_new.csv")
goe_test_df=goe_test_df.iloc[:,3:]
goe_valid_df=goe_valid_df.iloc[:,3:]
goe_test_df=pd.DataFrame({'label':goe_test_df['three_point'],'tweet':goe_test_df['marathi_text']})
goe_valid_df=pd.DataFrame({'label':goe_valid_df['three_point'],'tweet':goe_valid_df['marathi_text']})

In [None]:
tt=goe_test_df.iloc[:,:]
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=re.sub(r"\[NAME]+", "", i)
  i=re.sub(r"\[नाम]+", "",i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("goed_test.csv")

In [None]:
tt=goe_valid_df.iloc[:,:]
import re
tts=[]
for i in tt["tweet"]:
  i= re.sub(r"http\S+", "", i)
  i= re.sub(r"pic\S+", "", i)
  i= re.sub(r"#\S+", "", i)
  i= re.sub(r"lokmat\S+", "", i)
  i= re.sub(r"@\S+", "", i)
  i= re.sub(r"fb\S+", "", i)
  i= re.sub(r"twitter\S+", "", i)
  i= re.sub(r"bit\S+", "", i)
  i=re.sub(r"\[NAME]+", "", i)
  i=re.sub(r"\[नाम]+", "",i)
  i=i.strip()
  tts.append(i)
tt["tweet"]=tts
tt.to_csv("goed_valid.csv")

In [None]:
goe_valid_df=pd.read_csv("goed_valid.csv")
goe_test_df=pd.read_csv("goed_test.csv")

In [None]:
goe_test_df=goe_test_df.iloc[:,1:]
goe_valid_df=goe_valid_df.iloc[:,1:]
goe_test_df=goe_test_df.drop(4294).reset_index(drop=True)
goe_valid_df=goe_valid_df.drop(1742).reset_index(drop=True)
# train_df['label'] = train_df['label'].replace(1,2)
goe_test_df['label'] = goe_test_df['label'].replace(1,2)
goe_valid_df['label'] = goe_valid_df['label'].replace(1,2)

# train_df['label'] = train_df['label'].replace(0,1)
goe_test_df['label'] = goe_test_df['label'].replace(0,1)
goe_valid_df['label'] = goe_valid_df['label'].replace(0,1)

# train_df['label'] = train_df['label'].replace(-1,0)
goe_test_df['label'] = goe_test_df['label'].replace(-1,0)
goe_valid_df['label'] = goe_valid_df['label'].replace(-1,0)

In [None]:
%mkdir new_data2
%cd new_data2
# train_df.to_csv('tweets-train.csv')
goe_test_df.to_csv('tweets-test.csv')
goe_valid_df.to_csv('tweets-valid.csv')
%cd ..

In [None]:
from datasets import load_dataset
data_files={"test":"tweets-test.csv","validation":"tweets-valid.csv"}
dataset2 = load_dataset('new_data2',data_files=data_files)

def tokenize_function(examples):
    return tokenizer(examples["tweet"], padding="max_length", truncation=True)

tokenized_datasets2 = dataset2.map(tokenize_function, batched=True)


In [None]:
predictions = trainer.predict(tokenized_datasets2["validation"])
preds = np.argmax(predictions.predictions, axis=-1)
metric.compute(predictions=preds, references=predictions.label_ids)

In [None]:
predictions = trainer.predict(tokenized_datasets2["test"])
preds = np.argmax(predictions.predictions, axis=-1)
metric.compute(predictions=preds, references=predictions.label_ids)