In [3]:
!pip install numpy -q

In [5]:
!pip install pandas -q

In [5]:
# This Python 3 environment comes with many helpful analytics libraries installed
# It is defined by the kaggle/python Docker image: https://github.com/kaggle/docker-python
# For example, here's several helpful packages to load

import numpy as np # linear algebra
import pandas as pd # data processing, CSV file I/O (e.g. pd.read_cs|v)

# Input data files are available in the read-only "../input/" directory
# For example, running this (by clicking run or pressing Shift+Enter) will list all files under the input directory

import os
for dirname, _, filenames in os.walk('/kaggle/input'):
    for filename in filenames:
        print(os.path.join(dirname, filename))

# You can write up to 20GB to the current directory (/kaggle/working/) that gets preserved as output when you create a version using "Save & Run All" 
# You can also write temporary files to /kaggle/temp/, but they won't be saved outside of the current session

In [6]:
import string
import re
import random
from collections import Counter


In [7]:
bangla_punctuations = ["।", "৺", ",", ";", ":", "?", '"', "…", "(", ")", "{", "}", "[", "]", "—", "!", "৻", "॥" ]

In [8]:
def count_chars(text):
    return len(text)
    
# Function to count words
def count_words(text):
    # print(text)
    words = [word for word in text.split() if word not in bangla_punctuations]
    return len(words)

def count_sentences(text):
    # Split text into sentences using Bengali delimiters
    sentences = re.split(r'[।!?৻॥৻]', text)  
    sentences = [s.strip() for s in sentences if s.strip()]  # Remove empty strings
    return len(sentences)


def is_english_sentence(text):
    # Convert to string and remove punctuation
    text_clean = str(text).translate(str.maketrans('', '', string.punctuation))
    
    # Check if most words are English
    words = text_clean.split()
    english_word_count = sum(1 for word in words if re.match(r'^[a-zA-Z]+$', word))
    
    # Consider it an English sentence if more than 50% of words are English
    return (english_word_count / len(words) > 0.5) if words else False


In [9]:
def preprocess_df(df, text_column):
    # Compute statistics
    df[text_column] = df[text_column].astype(str)
    df["char_count"] = df[text_column].apply(count_chars)
    df["word_count"] = df[text_column].apply(count_words)
    df["sentence_count"] = df[text_column].apply(count_sentences)
    df = df[~df[text_column].apply(is_english_sentence)]

    return df
    

 
def stats(df, text_column):
    # Basic statistics
    num_samples = len(df)
    min_words = df["word_count"].min()
    max_words = df["word_count"].max()
    avg_words = df["word_count"].mean()
    min_sentences = df["sentence_count"].min()
    max_sentences = df["sentence_count"].max()
    avg_sentences = df["sentence_count"].mean()
    
    # Vocabulary Analysis
    all_words = " ".join(df[text_column]).split()
    vocab = Counter(all_words)
    vocab_size = len(vocab)
    most_common_words = vocab.most_common(10)
    least_common_words = [word for word, freq in vocab.items() if freq == 1]

    # Punctuation Analysis
    punctuation_count = {p: sum(1 for char in " ".join(df[text_column]) if char == p) for p in bangla_punctuations}
    
    # Display results
    stats = {
        "Total Samples": num_samples,
        "Vocabulary Size": vocab_size,
        "Min Text Length (Words)": min_words,
        "Max Text Length (Words)": max_words,
        "Avg Text Length (Words)": avg_words,
        "Min Text Length (Sentence)": min_sentences,
        "Max Text Length (Sentence)": max_sentences,
        "Avg Text Length (Sentence)": avg_sentences,
        "Most Common Words": most_common_words,
        "Least Common Words": least_common_words[:10],
        "Punctuation Count": punctuation_count
    }
    
    for key, value in stats.items():
        print(f"{key}: {value}")


In [10]:
df = pd.read_csv("/kaggle/input/bengali-hate-speech-dataset/Bengali hate speech .csv")

FileNotFoundError: [Errno 2] No such file or directory: '/kaggle/input/bengali-hate-speech-dataset/Bengali hate speech .csv'

In [None]:
df.columns

In [None]:
df['hate'].value_counts()

In [None]:
df['category'].value_counts()

In [63]:
df = pd.read_json("/kaggle/input/xlsum-bangla/bengali_train.jsonl", lines = True)

In [71]:
authentic = pd.read_csv("/kaggle/input/banfakenews/Authentic-48K.csv")
# authentic = authentic[:1000]


fake = pd.read_csv("/kaggle/input/banfakenews/Fake-1K.csv")
# fake = fake[:1000]

df = pd.concat([authentic, fake], axis = 0, ignore_index=True)

In [59]:
df.drop

Unnamed: 0,id,url,title,summary,text
0,news-45155508,https://www.bbc.com/bengali/news-45155508,চীন ১০ লাখ উইগুর মুসলিমকে আটকে রেখেছে - জাতিসং...,জাতিসংঘের মানবাধিকার বিষয়ক কমিটি জেনেভাতে চীন...,আটক স্বজনদের আইডি কার্ড হাতে উইগুর নারীদের বিক...
1,news-39127107,https://www.bbc.com/bengali/news-39127107,"কোকা-কোলা, পেপসি নিষিদ্ধ হলো তামিলনাডুতে",ভারতের দক্ষিণাঞ্চলীয় রাজ্য তামিলনাডুর ব্যবসায...,"ভারতের অন্য অঞ্চলেও কোক, পেপসি নিষিদ্ধ করার দা..."
2,news-49141918,https://www.bbc.com/bengali/news-49141918,ডেঙ্গু পরিস্থিতি: হাসপাতালে ভর্তির দরকার না থা...,"স্বাস্থ্য অধিদপ্তরের হিসাব মতে, গত ২৪ ঘণ্টায় ...",সোহরাওয়ার্দী হাসপাতালের চিত্র সাধারণত সেপ্টেম...
3,news-52808250,https://www.bbc.com/bengali/news-52808250,ডোনাল্ড ট্রাম্প: আমেরিকান প্রেসিডেন্টের পোস্ট ...,এই প্রথম সামাজিক মাধ্যমের বিশাল প্রতিষ্ঠান টুই...,ডোনাল্ড ট্রাম্প অভিযোগ করেছেন টু্‌ইটার আমেরিকা...
4,news-49047323,https://www.bbc.com/bengali/news-49047323,বাংলাদেশে বন্যার প্রকোপ: ২৪ ঘণ্টায় ডুবে যাবে ...,বাংলাদেশের বন্যা পূর্বাভাস এবং সতর্কীকরণ কেন্দ...,বন্যার প্রকোপ ছড়িয়ে পড়ছে সারা দেশে। বাংলাদে...
...,...,...,...,...,...
1007,news-51306016,https://www.bbc.com/bengali/news-51306016,"করোনাভাইরাস: মহামারির আশঙ্কা, বিশ্বজুড়ে আসতে ...",করোনাভাইরাসে আক্রান্ত হয়ে মৃত্যুর সংখ্যা ১৭০ ...,বিশ্ব স্বাস্থ্য সংস্থা বলছে মহামারী আকারে পুরো...
1008,160804_bangladesh_india_wild_elephant_rescue,https://www.bbc.com/bengali/news/2016/08/16080...,বুনো হাতিটির পেছনে ভারত-বাংলাদেশের বনকর্মীরা,বাংলাদেশের জামালপুরের একটি চরে আটকে থাকা ভারতী...,জামালপুরের প্রত্যন্ত চরে আটকে রয়েছে ভারতীয় এ...
1009,news-49201712,https://www.bbc.com/bengali/news-49201712,সৌদি আরব নারীদের পুরুষ অভিভাবক ছাড়া একা বিদেশ...,এখন থেকে সৌদি আরবের নারীরা কোনো পুরুষ অভিভাবকে...,ভ্রমণের অধিকারের হিসেবে সৌদি আরবের নারীদেরকে প...
1010,news-52554853,https://www.bbc.com/bengali/news-52554853,দিল্লীতে কিশোরদের ইনস্টাগ্রাম গ্রুপে গণধর্ষণের...,ইনস্টাগ্রাম গ্রুপ চ্যাটে অপ্রাপ্তবয়স্ক মেয়েদ...,মেয়েদের নিয়ে যৌন হয়রানিমূলক মন্তব্য করায় গ...


In [81]:
df=pd.read_csv("/kaggle/input/sentnob-sentiment-analysis-in-noisy-bangla-texts/SentNoB Dataset/Test.csv")
print(df.columns)
print(df.shape)

Index(['Data', 'Label'], dtype='object')
(1586, 2)


In [None]:
##### file_path = "/kaggle/input/buetnmt/original_corpus.bn"

with open(file_path, "r", encoding="utf-8") as file:
    lines = [line.strip() for line in file]  # Removes trailing \n

df = pd.DataFrame({"text": lines})

In [52]:
df

Unnamed: 0,text
0,সে ঘুরে ল্যাংডনের চোখের দিকে তাকায়।
1,সব মানুষের মধ্যে সমতা আনতে হলে কারও না কারও স্...
2,"যাই জিজ্ঞেস কর না কেন, সব প্রশ্নের জবাব দিব ডি..."
3,ঠিক যখন আমি সভাকে শুভরাত জানিয়ে বিদায় নিতে উদ্...
4,যেতে দিন!
...,...
2753064,পৃথিবীর সর্ববৃহৎ এ উপসাগরটি পশ্চিমে ভারত ও শ্র...
2753065,প্লাবন ও বন্যা (Inundation and flood) বন্যা বা...
2753066,সামুদ্রিক ও স্বাদুপানির শুঁটকিযোগ্য গুরুত্বপূর...
2753067,ক্ষতিকর প্রাণী দমন (pest control) যে কোনো ধরনে...


In [27]:
# df = pd.read_csv("/kaggle/input/acl-dataset/bengali_hate_v2.0.csv")
# df

Unnamed: 0,text,label,target
0,বৌদির দুধ দেকে তো আমার ই চোখ ঠিক ছিলো না - পোল...,Personal,0
1,এই সরকার কে যারা নির্লজ্জের মত সাপোর্ট দিয়েছে ...,Political,1
2,পিলখানা হত্যাকান্ড বাংলাদেশের প্রতিরক্ষা ব্যবস...,Geopolitical,3
3,ভারতের অর্থনীতি নিয়ে আপনাদের ভাবতে হবে না। ভা...,Geopolitical,3
4,খানকির পুলা মালায়নদের মেরে সাফা করে ফেল,Personal,0
...,...,...,...
5693,জুতা যতই দামি হোক তার স্থান পায়ে তার স্থান কখ...,Personal,0
5694,"আমাদের দেশ ছোট বলে ভারতের চেয়ে পিছিয়ে, না হয়...",Geopolitical,3
5695,হিন্দুদের মধ্যে এগুলো হয় এটাই তার বাস্তব প্রমা...,Personal,0
5696,দেখলে মনে হয় শালী একটা অস্ট্রেলিয়ান গাভী,Personal,0


In [33]:
df['category'].value_counts()

category
crime                      4763
entertainment              4527
sports                     4406
religion                   4370
Meme, TikTok and others    4236
politics                   3987
celebrity                  3711
Name: count, dtype: int64

In [16]:
df['sentence'].isna().sum()

0

In [38]:
df = pd.read_csv("data/fake_news/fake_news_dataset.csv")

In [39]:
df

Unnamed: 0,articleID,domain,date,category,headline,content,label,text_length_char,text_length_word,sentence_count,rand_word_idx,rand_sent_idx,salient_words,salient_words_scores,perturbed_text_words,perturbed_text_sentences,perturbed_text_salient,F-type
0,1,jagonews24.com,2018-09-19 17:48:18,Education,"হট্টগোল করায় বাকৃবিতে দুইজন বরখাস্ত, ৬ জনকে শোকজ",গত ১৭ সেপ্টেম্বর বাংলাদেশ কৃষি বিশ্ববিদ্যালয়ে ...,1,2433,357,18,"[343, 61, 12, 147, 132, 121, 76, 55, 291, 47, ...","[10, 8, 14, 16]","['একাত্বতা', 'এবিষয়ে', 'অ্যাডিশনাল', 'প্রাশাস...","[0.007867885, 0.0077259345, 0.007218529, 0.006...",গত ১৭ সেপ্টেম্বর Bangladesh কৃষি বিশ্ববিদ্যালয়...,গত ১৭ সেপ্টেম্বর বাংলাদেশ কৃষি বিশ্ববিদ্যালয়ে ...,গত ১৭ সেপ্টেম্বর বাংলাদেশ কৃষি বিশ্ববিদ্যালয়ে...,authentic
1,2,jagonews24.com,2018-09-19 17:48:19,National,মালয়েশিয়ায় কর্মী পাঠানোর ব্যবস্থা নেয়ার সুপারিশ,বাংলাদেশের বৃহৎ শ্রমবাজার মালয়েশিয়ায় আবার শ্রম...,1,1714,231,12,"[18, 159, 166, 44, 140, 190, 64, 42, 122, 100,...","[10, 9]","['আর্নার্স', 'বোয়েসেল', 'বিএমইটির', 'জেআইএম',...","[0.012019642, 0.011936086, 0.010577498, 0.0099...",বাংলাদেশের বৃহৎ শ্রমবাজার মালয়েশিয়ায় আবার শ্রম...,বাংলাদেশের বৃহৎ শ্রমবাজার মালয়েশিয়ায় আবার শ্রম...,বাংলাদেশের বৃহৎ labourbazar মালয়েশিয়ায় আবার...,authentic
2,3,jagonews24.com,2018-09-19 17:48:20,National,প্রেমের প্রস্তাবে রাজি না হওয়ায় স্কুলছাত্রীকে ...,নরসিংদীর মনোহরদীতে প্রেমের প্রস্তাবে রাজি না হ...,1,1499,217,16,"[151, 103, 93, 57, 36, 132, 128, 23, 195, 12, ...","[15, 0, 8]","['সরাইকান্দী', 'তাশারফ', 'আরএআর', 'সঞ্জিত', 'ক...","[0.0169161, 0.010455999, 0.0097010285, 0.00884...",Narsingdir মনোহরদীতে lover প্রস্তাবে রাজি না হ...,Narsingdir manohardite Premer propose raji na ...,Narsingdir Manohardite প্রেমের প্রস্তাবে রাজি ...,authentic
3,4,jagonews24.com,2018-09-19 17:48:21,Crime,মেডিয়েশনই মামলাজট নিরসনের পথ : বিচারপতি আহমেদ ...,সুপ্রিম কোর্টের হাইকোর্ট বিভাগের বিচারপতি আহমে...,1,1711,225,13,"[132, 27, 163, 78, 218, 166, 224, 158, 52, 40,...","[7, 4, 6]","['ইনবাভিজান', 'অ্যাক্রিডিটেড', 'আরবিট্রেশনকে',...","[0.011920895, 0.011384657, 0.011321871, 0.0112...",supreme কোর্টের হাইকোর্ট বিভাগের judge আহমেদ স...,সুপ্রিম কোর্টের হাইকোর্ট বিভাগের বিচারপতি আহমে...,সুপ্রিম কোর্টের হাইকোর্ট বিভাগের বিচারপতি আহমে...,authentic
4,5,jagonews24.com,2018-09-19 17:48:21,National,টকশোতে বক্তব্য দিতে গিয়ে জাপা নেতার মৃত্যু,মাদারীপুর সদরের উপজেলার লেকেরপাড়ে একটি বেসরকার...,1,900,130,10,"[126, 27, 121, 70, 98, 95, 89, 25, 93, 40, 52,...","[7, 4]","['টুয়েন্টিফোরের', 'হৃদরোগে', 'জেআইএম', 'মাদার...","[0.018836869, 0.016966857, 0.016625054, 0.0133...",মাদারীপুর সদরের upazila লেকেরপাড়ে একটি বেসরকার...,মাদারীপুর সদরের উপজেলার লেকেরপাড়ে একটি বেসরকার...,মাদারীপুর সদরের উপজেলার lakeparay একটি বেসরকার...,authentic
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,1000,bengalbeats.com,2019-06-06T17:57:11+00:00,Lifestyle,ঈদের ছুটিতে রাস্তাঘাট বেশি ফাঁকা দেখে ডিপ্রেশন...,"ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা, মানুষের ভীড় আ...",0,1146,198,11,"[22, 89, 195, 135, 2, 66, 63, 160, 55, 158, 13...","[6, 9]","['ত্যাড়া', 'পূর্বপরিকল্পনা', 'আত্মীয়স্বজনদের...","[0.014259284, 0.0130818505, 0.009194286, 0.008...","ঈদের holiday mane রাস্তাঘাট ফাঁকা, মানুষের ভীড়...","ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা, মানুষের ভীড় আ...","ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা , মানুষের ভীড়...",Satire
1996,1001,bengalbeats.com,2019-05-27T20:31:00+00:00,Miscellaneous,ঢাকার যানজটকে হাসিমুখে মেনে নিতে গঠিত হলো 'হাস...,"ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে নাম ...",0,1320,211,9,"[181, 118, 191, 58, 147, 138, 11, 150, 159, 19...","[8, 7]","['বিটলারুজ্জামানকে', 'বিটলারুজ্জামান', 'গিনেসব...","[0.013107481, 0.01177964, 0.011606221, 0.01040...","ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে name...","ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে নাম ...","ঢাকার রাস্তার জ্যাম ঢাকার গর্ব , guinnessbuke ...",Satire
1997,1002,earki.com,"সেম্বর ২০, ২০১৮",Politics,স্বঘোষিত নিষেধাজ্ঞার কারণে এবার নৌকায় ভোট দিতে...,আসন্ন জাতীয় নির্বাচনে নৌকা মার্কায় ভোট দিতে পা...,0,2032,322,23,"[191, 153, 71, 184, 36, 271, 262, 222, 265, 31...","[13, 6, 9, 16, 12]","['বাবাসাম্রাজ্য', 'ইন্ড্রাস্টিজ', 'ফ্রুটিকা', ...","[0.009972049, 0.009532923, 0.008192138, 0.0073...",আসন্ন জাতীয় selection নৌকা markay ভোট দিতে পার...,আসন্ন জাতীয় নির্বাচনে নৌকা মার্কায় ভোট দিতে পা...,আসন্ন জাতীয় নির্বাচনে নৌকা markay ভোট dite পা...,Satire
1998,1003,earki.com,"সেম্বর ১৩, ২০১৮",Politics,অবাধ সুষ্ঠ নির্বাচন হলে বিএনপির সবার জামানত বা...,নির্বাচনের সময় নেতাকর্মীরা সাধারণত নিজেদের দল ...,0,900,143,11,"[45, 50, 137, 30, 102, 92, 21, 66, 33, 64, 54,...","[5, 4]","['ফোনালাপে', 'ফ্রুটিকা', 'ইনশাল্লাহ', 'ফোনালাপ...","[0.01607843, 0.015718747, 0.01542091, 0.015065...",নির্বাচনের time নেতাকর্মীরা সাধারণত নিজেদের দল...,নির্বাচনের সময় নেতাকর্মীরা সাধারণত নিজেদের দল ...,নির্বাচনের সময় Netakarmira সাধারণত নিজেদের দল...,Satire


In [40]:
df = preprocess_df(df, "content")

In [41]:
df = df[(df['sentence_count'] > 3)]

In [42]:
df.shape

(1985, 20)

In [43]:
stats(df, 'content')

Total Samples: 1985
Vocabulary Size: 73080
Min Text Length (Words): 29
Max Text Length (Words): 3335
Avg Text Length (Words): 278.4292191435768
Min Text Length (Sentence): 4
Max Text Length (Sentence): 347
Avg Text Length (Sentence): 22.707808564231737
Most Common Words: [('করে', 4592), ('ও', 4591), ('এই', 3534), ('থেকে', 3170), ('এ', 2803), ('বলেন,', 2620), ('করা', 2473), ('তার', 2424), ('না', 2350), ('তিনি', 2258)]
Least Common Words: ['হট্টগোলের', 'বরখাস্তরা', 'মো.খাইরুল', 'মো.আবদুল', 'প্রক্টর,', 'উচিয়ে', 'প্রাশাসনিক', 'বিশ্ববিদ্যালয়েল', 'ঝুঁলিয়ে', 'মোতায়ন']
Punctuation Count: {'।': 40533, '৺': 0, ',': 19638, ';': 223, ':': 1535, '?': 1927, '"': 78, '…': 153, '(': 2136, ')': 2222, '{': 32, '}': 32, '[': 61, ']': 61, '—': 132, '!': 1781, '৻': 0, '॥': 14}


In [44]:
p = 20
random.seed(42)

In [45]:
def get_random_word_indexes(text):  # Added p as parameter with default value of 10
    if not isinstance(text, str) or not text.strip():
        return []
        
    words = text.split()
    word_indexes = [i for i, word in enumerate(words) if len(word) > 1]
    
    if not word_indexes:
        return []

    num_to_select = min(max(1, round(len(word_indexes) * (p / 100))), len(word_indexes))
    selected_indexes = random.sample(word_indexes, num_to_select) 
    # selected_indexes.sort()
    return selected_indexes

In [46]:
def get_random_sentence_indexes(text):
    if not isinstance(text, str) or not text.strip():
        return []

    sentences = re.split(r'[।!?৻॥৻]', text)
    sentence_indexes = [i for i, sentence in enumerate(sentences) if len(sentence.strip()) > 1]

    if not sentence_indexes:
        return []

    num_to_select = min(max(1, round(len(sentence_indexes) * (p / 100))), len(sentence_indexes))
    selected_indexes = random.sample(sentence_indexes, num_to_select)
    # selected_indexes.sort()
    return selected_indexes



In [47]:
df['rand_word_idx'] = df['text'].apply(get_random_word_indexes)

KeyError: 'text'

In [None]:
df['rand_sent_idx'] = df['text'].apply(get_random_sentence_indexes)

In [None]:
df

Unnamed: 0,id,url,title,summary,text,text_length_char,text_length_word,sentence_count,rand_word_idx,rand_sent_idx,salient_words,salient_words_scores,perturbed_text_words,perturbed_text_sentences,perturbed_text_salient,char_count,word_count
0,news-45155508,https://www.bbc.com/bengali/news-45155508,চীন ১০ লাখ উইগুর মুসলিমকে আটকে রেখেছে - জাতিসং...,জাতিসংঘের মানবাধিকার বিষয়ক কমিটি জেনেভাতে চীন...,আটক স্বজনদের আইডি কার্ড হাতে উইগুর নারীদের বিক...,2893,423,28,"[329, 57, 12, 381, 141, 126, 115, 72, 379, 52,...","[15, 1, 23, 10, 18, 9]","['বেশ', 'উইগুরদের', 'শিনজিয়াংয়ে', 'অননুমোদিত...","[0.010106517, 0.0093539795, 0.008652595, 0.007...",arrest kin আইডি কার্ড হাতে উইগুর নারীদের বিক্ষ...,dhokkho shonshokder id card hate Uyghur naride...,আটক স্বজনদের আইডি কার্ড হাতে Wigur নারীদের বিক...,2893,423
1,news-39127107,https://www.bbc.com/bengali/news-39127107,"কোকা-কোলা, পেপসি নিষিদ্ধ হলো তামিলনাডুতে",ভারতের দক্ষিণাঞ্চলীয় রাজ্য তামিলনাডুর ব্যবসায...,"ভারতের অন্য অঞ্চলেও কোক, পেপসি নিষিদ্ধ করার দা...",1987,282,16,"[36, 89, 278, 127, 85, 240, 197, 141, 114, 169...","[12, 6, 9]","['জাল্লিকাটু', 'এফটিএনটিএ', 'এসোসিয়েশনগুলো', ...","[0.010910931, 0.010729774, 0.007918667, 0.0076...","ভারতের অন্য অঞ্চলেও কোক, পেপসি নিষিদ্ধ করার দা...","ভারতের অন্য অঞ্চলেও কোক, পেপসি নিষিদ্ধ করার দা...","ভারতের অন্য zoneo কোক , pepsi নিষিদ্ধ করার দাব...",1987,282
2,news-49141918,https://www.bbc.com/bengali/news-49141918,ডেঙ্গু পরিস্থিতি: হাসপাতালে ভর্তির দরকার না থা...,"স্বাস্থ্য অধিদপ্তরের হিসাব মতে, গত ২৪ ঘণ্টায় ...",সোহরাওয়ার্দী হাসপাতালের চিত্র সাধারণত সেপ্টেম...,3499,526,39,"[433, 65, 395, 391, 481, 258, 11, 117, 274, 34...","[24, 6, 16, 30, 29, 12, 32, 8]","['বেশ', 'ইনডোর', 'বাহিত', 'ডেঙ্গুতে', 'জটিলতাগ...","[0.008970732, 0.004685824, 0.004479605, 0.0043...",Suhrawardy হাসপাতালের picture সাধারণত সেপ্টেম্...,Suhrawardy hospitaler chitra sadharonto Septem...,সোহরাওয়ার্দী হাসপাতালের চিত্র সাধারণত সেপ্টেম...,3499,526
3,news-52808250,https://www.bbc.com/bengali/news-52808250,ডোনাল্ড ট্রাম্প: আমেরিকান প্রেসিডেন্টের পোস্ট ...,এই প্রথম সামাজিক মাধ্যমের বিশাল প্রতিষ্ঠান টুই...,ডোনাল্ড ট্রাম্প অভিযোগ করেছেন টু্‌ইটার আমেরিকা...,5067,749,39,"[228, 7, 72, 731, 653, 60, 237, 69, 32, 342, 7...","[25, 17, 33, 5, 14, 15, 23, 8]","['ক্লাউসুটিসের', 'অঙ্গরাজ্যগুলোর', 'কারচুপির',...","[0.00837544, 0.0064076437, 0.0059419577, 0.005...",ডোনাল্ড ট্রাম্প অভিযোগ করেছেন টু্‌ইটার আমেরিকা...,ডোনাল্ড ট্রাম্প অভিযোগ করেছেন টু্‌ইটার আমেরিকা...,ডোনাল্ড ট্রাম্প অভিযোগ karsen টু্‌ইটার আমেরিকা...,5067,749
4,news-49047323,https://www.bbc.com/bengali/news-49047323,বাংলাদেশে বন্যার প্রকোপ: ২৪ ঘণ্টায় ডুবে যাবে ...,বাংলাদেশের বন্যা পূর্বাভাস এবং সতর্কীকরণ কেন্দ...,বন্যার প্রকোপ ছড়িয়ে পড়ছে সারা দেশে। বাংলাদে...,3110,463,40,"[316, 416, 337, 272, 4, 344, 421, 285, 155, 34...","[38, 23, 18, 3, 1, 39, 19, 22]","['বেশ', 'জনদুর্ভোগ', 'বানভাসী', 'মেঘালয়', 'আশ...","[0.010410082, 0.008789574, 0.0066059674, 0.006...",বন্যার প্রকোপ ছড়িয়ে পড়ছে সারা দেশে। বাংলাদে...,বন্যার প্রকোপ ছড়িয়ে পড়ছে সারা দেশে।বাংলাদেশ...,বন্যার প্রকোপ ছড়িয়ে পড়ছে সারা দেশে । বাংলাদ...,3110,463
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1007,news-51306016,https://www.bbc.com/bengali/news-51306016,"করোনাভাইরাস: মহামারির আশঙ্কা, বিশ্বজুড়ে আসতে ...",করোনাভাইরাসে আক্রান্ত হয়ে মৃত্যুর সংখ্যা ১৭০ ...,বিশ্ব স্বাস্থ্য সংস্থা বলছে মহামারী আকারে পুরো...,1672,251,13,"[129, 63, 198, 149, 178, 142, 26, 28, 36, 29, ...","[4, 7, 10]","['ইনফ্লুয়েঞ্জা', 'গ্যাব্রিয়েসুস', '৭৭১১জন', ...","[0.012661827, 0.011186989, 0.010765303, 0.0097...",বিশ্ব স্বাস্থ্য সংস্থা বলছে মহামারী in shape প...,Bishwo hospital somporka boleche protishodha e...,বিশ্ব স্বাস্থ্য সংস্থা বলছে মহামারী আকারে পুরো...,1672,251
1008,160804_bangladesh_india_wild_elephant_rescue,https://www.bbc.com/bengali/news/2016/08/16080...,বুনো হাতিটির পেছনে ভারত-বাংলাদেশের বনকর্মীরা,বাংলাদেশের জামালপুরের একটি চরে আটকে থাকা ভারতী...,জামালপুরের প্রত্যন্ত চরে আটকে রয়েছে ভারতীয় এ...,2735,420,30,"[157, 0, 320, 99, 144, 117, 193, 370, 263, 331...","[14, 9, 26, 19, 5, 21]","['ট্রাঙ্কুলাইজিং', 'নদীনালা', 'কৃষ্টপুর', 'বনব...","[0.0076565137, 0.0062863138, 0.006072317, 0.00...",জামালপুরের remote চরে আটকে রয়েছে ভারতীয় একটি...,জামালপুরের প্রত্যন্ত চরে আটকে রয়েছে ভারতীয় এ...,jamalpurer প্রত্যন্ত চরে আটকে রয়েছে ভারতীয় a...,2735,420
1009,news-49201712,https://www.bbc.com/bengali/news-49201712,সৌদি আরব নারীদের পুরুষ অভিভাবক ছাড়া একা বিদেশ...,এখন থেকে সৌদি আরবের নারীরা কোনো পুরুষ অভিভাবকে...,ভ্রমণের অধিকারের হিসেবে সৌদি আরবের নারীদেরকে প...,2000,300,17,"[76, 273, 131, 75, 164, 213, 46, 204, 89, 124,...","[1, 11, 0]","['লিঙ্গবৈষম্যের', 'রাহাফমোহাম্মদ', 'দেশান্তরী'...","[0.011052454, 0.010121953, 0.009069772, 0.0077...",journeys অধিকারের as সৌদি আরবের narikarke পুরু...,ভ্রমণের অধিকারের হিসেবে সৌদি আরবের নারীদেরকে প...,ভ্রমণের অধিকারের হিসেবে সৌদি আরবের narikarke প...,2000,300
1010,news-52554853,https://www.bbc.com/bengali/news-52554853,দিল্লীতে কিশোরদের ইনস্টাগ্রাম গ্রুপে গণধর্ষণের...,ইনস্টাগ্রাম গ্রুপ চ্যাটে অপ্রাপ্তবয়স্ক মেয়েদ...,মেয়েদের নিয়ে যৌন হয়রানিমূলক মন্তব্য করায় গ...,5179,785,50,"[38, 436, 763, 349, 503, 105, 149, 580, 515, 3...","[13, 6, 35, 11, 30, 15, 24, 37, 46, 48]","['ক্যাম্পেইনাররা', 'স্কুলপড়ুয়া', 'স্ক্রিনশটগ...","[0.008559118, 0.0058928397, 0.0058837724, 0.00...",girls নিয়ে যৌন হয়রানিমূলক comment করায় গ্রে...,মেয়েদের নিয়ে যৌন হয়রানিমূলক মন্তব্য করায় গ...,মেয়েদের with যৌন harassing মন্তব্য করায় গ্রে...,5179,785


In [48]:
df.to_csv("data/prob_20/fake_news_20.csv", index = False)

In [44]:
df_salient = pd.read_csv("/kaggle/input/xl-sum-salient-words/hate_new_salient_words.csv")
df_salient

Unnamed: 0,sentence,hate,category,salient_words,salient_words_scores
0,যত্তসব পাপন শালার ফাজলামী!!!!!,1,sports,['ফাজলামী'],[0.23100892]
1,পাপন শালা রে রিমান্ডে নেওয়া দরকার,1,sports,['পাপন'],[0.19596003]
2,জিল্লুর রহমান স্যারের ছেলে এতো বড় জারজ হবে এটা...,1,sports,"['তাহসিন', 'জারজ', 'কোনো', 'ও']","[0.07248771, 0.07233505, 0.051080637, 0.050381..."
3,শালা লুচ্চা দেখতে পাঠার মত দেখা যায়,1,sports,['লুচ্চা'],[0.18673597]
4,তুই তো শালা গাজা খাইছচ।তুর মার হেডায় খেলবে সাকিব,1,sports,"['খাইছচ', 'হেডায়']","[0.20907003, 0.11329972]"
...,...,...,...,...,...
29995,আমার মনে হচ্ছে মেনে নেয়া উচিত,0,"Meme, TikTok and others",['হচ্ছে'],[0.15024407]
29996,আমি ধন্যবাদ জানাই আইনপসাসনকে,0,"Meme, TikTok and others",['আইনপসাসনকে'],[0.48365337]
29997,কাসমির কাসমিরই নিজশ্যই সাদিন হওয়ার দরকার,0,"Meme, TikTok and others",['নিজশ্যই'],[0.21234345]
29998,কলমি পিলিজ আপু মনি অনেক কিওট লাগছে,0,"Meme, TikTok and others",['কিওট'],[0.2391966]


In [45]:
df_salient.columns

Index(['sentence', 'hate', 'category', 'salient_words',
       'salient_words_scores'],
      dtype='object')

In [55]:
df = df.drop_duplicates(subset=['sentence'])

In [56]:
df.shape

(29751, 8)

In [53]:
df_salient = df_salient.drop_duplicates(subset=['sentence'])

In [54]:
df_salient.shape

(29843, 5)

In [57]:
df_total = df.merge(df_salient[['sentence', 'salient_words','salient_words_scores']],
                   on = 'sentence',
                   how = 'left')
df_total.shape

(29751, 10)

In [58]:
df_total

Unnamed: 0,sentence,hate,category,char_count,word_count,sentence_count,rand_word_idx,rand_sent_idx,salient_words,salient_words_scores
0,যত্তসব পাপন শালার ফাজলামী!!!!!,1,sports,30,4,1,[0],[0],['ফাজলামী'],[0.23100892]
1,পাপন শালা রে রিমান্ডে নেওয়া দরকার,1,sports,33,6,1,[0],[0],['পাপন'],[0.19596003]
2,জিল্লুর রহমান স্যারের ছেলে এতো বড় জারজ হবে এটা...,1,sports,107,19,2,"[8, 7, 17, 2]",[0],"['তাহসিন', 'জারজ', 'কোনো', 'ও']","[0.07248771, 0.07233505, 0.051080637, 0.050381..."
3,শালা লুচ্চা দেখতে পাঠার মত দেখা যায়,1,sports,35,7,1,[5],[0],['লুচ্চা'],[0.18673597]
4,তুই তো শালা গাজা খাইছচ।তুর মার হেডায় খেলবে সাকিব,1,sports,48,9,2,"[1, 8]",[0],"['খাইছচ', 'হেডায়']","[0.20907003, 0.11329972]"
...,...,...,...,...,...,...,...,...,...,...
29746,আমার মনে হচ্ছে মেনে নেয়া উচিত,0,"Meme, TikTok and others",29,6,1,[5],[0],['হচ্ছে'],[0.15024407]
29747,আমি ধন্যবাদ জানাই আইনপসাসনকে,0,"Meme, TikTok and others",28,4,1,[2],[0],['আইনপসাসনকে'],[0.48365337]
29748,কাসমির কাসমিরই নিজশ্যই সাদিন হওয়ার দরকার,0,"Meme, TikTok and others",40,6,1,[4],[0],['নিজশ্যই'],[0.21234345]
29749,কলমি পিলিজ আপু মনি অনেক কিওট লাগছে,0,"Meme, TikTok and others",34,7,1,[6],[0],['কিওট'],[0.2391966]


In [72]:
# fake_labeled = pd.read_csv("/kaggle/input/banfakenews/LabeledFake-1K.csv")
# fake_labeled= fake_labeled[:1000]
# fake_labeled

Unnamed: 0,articleID,domain,date,category,source,relation,headline,content,label,F-type
0,1,channeldhaka.news,2019-03-14T13:34:14+00:00,International,Reporter,Unrelated,মুরগির হামলায় শেয়াল নিহত,"বাংলায় একটা প্রবাদ আছে, শেয়ালের কাছে মুরগী বর্...",0,Satire
1,2,earki.com,"সেম্বর ১৭, ২০১৮",Miscellaneous,Reporter,Unrelated,বিটিভিতে যেবার আমি ইন্টারভিউ দিতে গেলাম,"BTV থেকে লোকজন আসছে, ইন্টারভিউ নিবে।চারজনের টি...",0,Satire
2,3,earki.com,"২০:৩৯, জানুয়ারি ১৪, ২০১৯",Miscellaneous,Reporter,Unrelated,বিদেশ থেকে উন্নতমানের বিরোধীদল আমদানি করার পরা...,অদ্ভুত বিরোধীদলহীনতায় ভুগছে সরকার। এ এক অন্যরক...,0,Satire
3,4,channeldhaka.news,2018-06-30T15:56:47+00:00,Sports,Reporter,Unrelated,অবসর নেয়ার ঘোষণা দিলেন মেসি !,রাশিয়া বিশ্বকাপ নকআউট পর্বে ফ্রান্সের সাথে ৪-৩...,0,Satire
4,5,motikontho.wordpress.com,2013-03-05T21:55:45+00:00,Miscellaneous,Reporter,Unrelated,"মাদারফাকার নহে, ব্রাদারফাকার: সাকা | দৈনিক মতি...","নিজস্ব মতিবেদক‘মাদারফাকার নহে, আমি ব্রাদারফাকা...",0,Satire
...,...,...,...,...,...,...,...,...,...,...
995,1000,bengalbeats.com,2019-06-06T17:57:11+00:00,Lifestyle,Reporter,Unrelated,ঈদের ছুটিতে রাস্তাঘাট বেশি ফাঁকা দেখে ডিপ্রেশন...,"ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা, মানুষের ভীড় আ...",0,Satire
996,1001,bengalbeats.com,2019-05-27T20:31:00+00:00,Miscellaneous,Reporter,Unrelated,ঢাকার যানজটকে হাসিমুখে মেনে নিতে গঠিত হলো 'হাস...,"ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে নাম ...",0,Satire
997,1002,earki.com,"সেম্বর ২০, ২০১৮",Politics,Reporter,Unrelated,স্বঘোষিত নিষেধাজ্ঞার কারণে এবার নৌকায় ভোট দিতে...,আসন্ন জাতীয় নির্বাচনে নৌকা মার্কায় ভোট দিতে পা...,0,Satire
998,1003,earki.com,"সেম্বর ১৩, ২০১৮",Politics,Reporter,Unrelated,অবাধ সুষ্ঠ নির্বাচন হলে বিএনপির সবার জামানত বা...,নির্বাচনের সময় নেতাকর্মীরা সাধারণত নিজেদের দল ...,0,Satire


In [71]:
# fake_labeled['F-type'].value_counts()

F-type
Satire        873
Clickbaits     66
Fake           61
Name: count, dtype: int64

In [75]:
# additional_values = np.full(1000, 'authentic')

# # Concatenate the existing 'F-type' column with the new 'authentic' values
# further_labeled = np.concatenate([
#     additional_values, 
#     fake_labeled['F-type']
# ])

In [78]:
len(further_labeled)

2000

In [79]:
# unique_values, counts = np.unique(further_labeled, return_counts=True)
# print("Method 1 (numpy.unique):")
# for value, count in zip(unique_values, counts):
#     print(f"{value}: {count}")

Method 1 (numpy.unique):
Clickbaits: 66
Fake: 61
Satire: 873
authentic: 1000


In [88]:
# fake_news_dataset = pd.read_csv("/kaggle/input/acl-codemixing-dataset/fake_news/fake_news_dataset.csv")
# fake_news_dataset = fake_news_dataset[fake_news_dataset['label'] == 0]
# fake_news_dataset

Unnamed: 0,articleID,domain,date,category,headline,content,label,text_length_char,text_length_word,sentence_count,rand_word_idx,rand_sent_idx,salient_words,salient_words_scores,perturbed_text_words,perturbed_text_sentences,perturbed_text_salient
1000,1,channeldhaka.news,2019-03-14T13:34:14+00:00,International,মুরগির হামলায় শেয়াল নিহত,"বাংলায় একটা প্রবাদ আছে, শেয়ালের কাছে মুরগী বর্...",0,865,129,17,"[7, 54, 90, 127, 95, 93, 53, 38, 128, 40, 81, ...","[15, 8, 4]","['BBC', 'বুতানিয়া', 'Source', 'আশ্চর্য্যজনক',...","[0.017231006, 0.016885381, 0.015435858, 0.0146...","বাংলায় akta প্রবাদ Ache, শেয়ালের কাছে মুরগী ba...","বাংলায় একটা প্রবাদ আছে, শেয়ালের কাছে মুরগী বর্...","বাংলায় একটা প্রবাদ আছে, শেয়ালের কাছে মুরগী bar..."
1001,2,earki.com,"সেম্বর ১৭, ২০১৮",Miscellaneous,বিটিভিতে যেবার আমি ইন্টারভিউ দিতে গেলাম,"BTV থেকে লোকজন আসছে, ইন্টারভিউ নিবে।চারজনের টি...",0,1419,226,20,"[215, 179, 54, 113, 134, 44, 164, 198, 85, 180...","[7, 0, 4, 14]","['ইউনিলায়েন্স', 'গুছাইয়া', 'BTV', 'আদব', 'ডা...","[0.008139867, 0.007546776, 0.007423659, 0.0065...","BTV থেকে লোকজন আসছে, ইন্টারভিউ nibe. fourteene...","BTV theke manush asche, interview nibe।চারজনের...","BTV থেকে লোকজন আসছে, interview নিবে।চারজনের টি..."
1002,3,earki.com,"২০:৩৯, জানুয়ারি ১৪, ২০১৯",Miscellaneous,বিদেশ থেকে উন্নতমানের বিরোধীদল আমদানি করার পরা...,অদ্ভুত বিরোধীদলহীনতায় ভুগছে সরকার। এ এক অন্যরক...,0,1340,202,19,"[70, 125, 154, 156, 71, 186, 65, 64, 51, 29, 1...","[16, 3, 2, 7]","['বিরোধীদলহীনতায়', 'হ্যান্ডসেটের', 'জাতীয়পার...","[0.011513686, 0.010547051, 0.010522405, 0.0100...",অদ্ভুত বিরোধীদলহীনতায় ভুগছে Sarkar. এ এক অন্যর...,অদ্ভুত বিরোধীদলহীনতায় ভুগছে সরকার।এ এক অন্যরকম...,অদ্ভুত বিরোধীদলহীনতায় ভুগছে সরকার। a এক অন্যরক...
1003,4,channeldhaka.news,2018-06-30T15:56:47+00:00,Sports,অবসর নেয়ার ঘোষণা দিলেন মেসি !,রাশিয়া বিশ্বকাপ নকআউট পর্বে ফ্রান্সের সাথে ৪-৩...,0,973,155,16,"[98, 35, 29, 124, 131, 81, 109, 87, 32, 80, 14...","[9, 5, 13]","['আনু্ষ্ঠানিকভাবে', 'কিংবদন্তীর', 'খেলবোনা', '...","[0.025154334, 0.011936592, 0.011772165, 0.0114...",রাশিয়া বিশ্বকাপ নকআউট পর্বে ফ্রান্সের with ৪-৩...,রাশিয়া বিশ্বকাপ নকআউট পর্বে ফ্রান্সের সাথে ৪-৩...,রাশিয়া বিশ্বকাপ knockout পর্বে ফ্রান্সের সাথে ...
1004,5,motikontho.wordpress.com,2013-03-05T21:55:45+00:00,Miscellaneous,"মাদারফাকার নহে, ব্রাদারফাকার: সাকা | দৈনিক মতি...","নিজস্ব মতিবেদক‘মাদারফাকার নহে, আমি ব্রাদারফাকা...",0,1935,314,32,"[12, 51, 163, 135, 54, 118, 267, 85, 227, 121,...","[27, 3, 20, 16, 10, 2]","['চুদাচুদি', 'সাকাপরিস্থিতি', 'ঘেনরের', 'ফুসলি...","[0.009139157, 0.00828756, 0.008261775, 0.00810...","নিজস্ব মতিবেদক‘মাদারফাকার noy, আমি ব্রাদারফাকা...","নিজস্ব মতিবেদক‘মাদারফাকার নহে, আমি ব্রাদারফাকা...","নিজস্ব মতিবেদক‘মাদারফাকার নহে, আমি ব্রাদারফাকা..."
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1995,1000,bengalbeats.com,2019-06-06T17:57:11+00:00,Lifestyle,ঈদের ছুটিতে রাস্তাঘাট বেশি ফাঁকা দেখে ডিপ্রেশন...,"ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা, মানুষের ভীড় আ...",0,1146,198,11,"[22, 89, 195, 135, 2, 66, 63, 160, 55, 158, 13...","[6, 9]","['ত্যাড়া', 'পূর্বপরিকল্পনা', 'আত্মীয়স্বজনদের...","[0.014259284, 0.0130818505, 0.009194286, 0.008...","ঈদের holiday mane রাস্তাঘাট ফাঁকা, মানুষের ভীড়...","ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা, মানুষের ভীড় আ...","ঈদের ছুটি মানেই রাস্তাঘাট ফাঁকা, মানুষের ভীড় r..."
1996,1001,bengalbeats.com,2019-05-27T20:31:00+00:00,Miscellaneous,ঢাকার যানজটকে হাসিমুখে মেনে নিতে গঠিত হলো 'হাস...,"ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে নাম ...",0,1320,211,9,"[181, 118, 191, 58, 147, 138, 11, 150, 159, 19...","[8, 7]","['বিটলারুজ্জামানকে', 'বিটলারুজ্জামান', 'গিনেসব...","[0.013107481, 0.01177964, 0.011606221, 0.01040...","ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে name...","ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, গিনেসবুকে নাম ...","ঢাকার রাস্তার জ্যাম ঢাকার গর্ব, guinnessbuke ন..."
1997,1002,earki.com,"সেম্বর ২০, ২০১৮",Politics,স্বঘোষিত নিষেধাজ্ঞার কারণে এবার নৌকায় ভোট দিতে...,আসন্ন জাতীয় নির্বাচনে নৌকা মার্কায় ভোট দিতে পা...,0,2032,322,23,"[191, 153, 71, 184, 36, 271, 262, 222, 265, 31...","[13, 6, 9, 16, 12]","['বাবাসাম্রাজ্য', 'ইন্ড্রাস্টিজ', 'ফ্রুটিকা', ...","[0.009972049, 0.009532923, 0.008192138, 0.0073...",আসন্ন জাতীয় selection নৌকা markay ভোট দিতে পার...,আসন্ন জাতীয় নির্বাচনে নৌকা মার্কায় ভোট দিতে পা...,আসন্ন জাতীয় নির্বাচনে নৌকা মার্কায় ভোট dite পা...
1998,1003,earki.com,"সেম্বর ১৩, ২০১৮",Politics,অবাধ সুষ্ঠ নির্বাচন হলে বিএনপির সবার জামানত বা...,নির্বাচনের সময় নেতাকর্মীরা সাধারণত নিজেদের দল ...,0,900,143,11,"[45, 50, 137, 30, 102, 92, 21, 66, 33, 64, 54,...","[5, 4]","['ফোনালাপে', 'ফ্রুটিকা', 'ইনশাল্লাহ', 'ফোনালাপ...","[0.01607843, 0.015718747, 0.01542091, 0.015065...",নির্বাচনের time নেতাকর্মীরা সাধারণত নিজেদের দল...,নির্বাচনের সময় নেতাকর্মীরা সাধারণত নিজেদের দল ...,নির্বাচনের সময় Netakarmira সাধারণত নিজেদের দল ...


In [81]:
# fake_news_dataset['F-type'] = further_labeled

In [82]:
# fake_news_dataset['F-type'].value_counts()

F-type
authentic     1000
Satire         873
Clickbaits      66
Fake            61
Name: count, dtype: int64

In [83]:
# check_label = fake_news_dataset[fake_news_dataset['F-type'] == 'authentic']
# check_label['label'].value_counts()

label
1    1000
Name: count, dtype: int64

In [86]:
# fake_news_dataset['F-type'].isna().sum()

0

In [85]:
# print(fake_news_dataset.shape)
# print(fake_news_dataset.columns)

(2000, 18)
Index(['articleID', 'domain', 'date', 'category', 'headline', 'content',
       'label', 'text_length_char', 'text_length_word', 'sentence_count',
       'rand_word_idx', 'rand_sent_idx', 'salient_words',
       'salient_words_scores', 'perturbed_text_words',
       'perturbed_text_sentences', 'perturbed_text_salient', 'F-type'],
      dtype='object')


In [60]:
df.columns

Index(['sentence', 'hate', 'category', 'char_count', 'word_count',
       'sentence_count', 'rand_word_idx', 'rand_sent_idx'],
      dtype='object')

In [63]:
df_hate_0 = df_total[df_total['hate'] == 0].sample(n=250, random_state=42)  # 250 rows where hate == 0
df_hate_1 = df_total[df_total['hate'] == 1].sample(n=500, random_state=42)  # 500 rows where hate == 1

# Combine both sampled DataFrames
df_sampled = pd.concat([df_hate_0, df_hate_1]).reset_index(drop=True)

In [64]:
df_sampled.columns

Index(['sentence', 'hate', 'category', 'char_count', 'word_count',
       'sentence_count', 'rand_word_idx', 'rand_sent_idx', 'salient_words',
       'salient_words_scores'],
      dtype='object')

In [65]:
df_sampled.to_csv("hate_new_dataset.csv", index = False)