# Mode Selection
Set finetuning = 1 if you want to finetune, or set finetuning = 0 if you want to just load the saved model to get inference.

In [10]:
finetuning = 0
load_and_run = not finetuning

# Drive Mount

In [1]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


# Load Data

In [12]:
import pandas as pd

data = pd.read_csv('/content/drive/MyDrive/#Research/# GB/train_test_sarcasm_data.csv')
data.dropna(inplace = True)
data

Unnamed: 0,male,female,_original_label,test
0,ভাই মিথ্যা কথা বইলেন না আপনি ভিপিএন ইউজ করে পো...,আফা মিথ্যা কথা বইলেন না আপনি ভিপিএন ইউজ করে পো...,1,0
1,ভাই মিথ্যা কথা বইলেন না আপনি ভিপিএন ইউজ করে পো...,বোন মিথ্যা কথা বইলেন না আপনি ভিপিএন ইউজ করে পো...,1,0
2,ভাই মিথ্যা কথা বইলেন না আপনি ভিপিএন ইউজ করে পো...,ভাবী মিথ্যা কথা বইলেন না আপনি ভিপিএন ইউজ করে প...,1,0
3,নিশ্চয় সাংবাদিককে কোনো কিছু দেওয়ার প্রতিশ্রুত...,নিশ্চয় মহিলা সাংবাদিককে কোনো কিছু দেওয়ার প্রতি...,1,1
4,দুইদিন বৃষ্টিতে একটু সুস্থ হইছে । ভাদ্র মাসের ...,দুইদিন বৃষ্টিতে একটু সুস্থ হইছে । ভাদ্র মাসে...,1,0
...,...,...,...,...
9245,ডিজিটাল মিটার চালু হইছে তো ভাই অনেক আগে থেকে ত...,ডিজিটাল মিটার চালু হইছে তো আফা অনেক আগে থেকে ত...,0,0
9246,ডিজিটাল মিটার চালু হইছে তো ভাই অনেক আগে থেকে ত...,ডিজিটাল মিটার চালু হইছে তো বোন অনেক আগে থেকে ত...,0,0
9247,ডিজিটাল মিটার চালু হইছে তো ভাই অনেক আগে থেকে ত...,ডিজিটাল মিটার চালু হইছে তো ভাবী অনেক আগে থেকে ...,0,0
9248,আমরা ঢাকাবাসীর গৌরবান্বিত যে টাইগার সম্রাট সাক...,আমরা ঢাকাবাসীর গৌরবান্বিত যে টাইগার সম্রাজ্ঞী ...,0,0


In [13]:
test = data[data.test==1]
test

Unnamed: 0,male,female,_original_label,test
3,নিশ্চয় সাংবাদিককে কোনো কিছু দেওয়ার প্রতিশ্রুত...,নিশ্চয় মহিলা সাংবাদিককে কোনো কিছু দেওয়ার প্রতি...,1,1
7,এই হারামজাদা গুলো প্রভাব খাটাতে পারে শুধুমাত্র...,এই হারামজাদী গুলো প্রভাব খাটাতে পারে শুধুমাত্র...,1,1
9,অনেকদিন দিন পর কাকু কে দেখলাম ।,অনেকদিন দিন পর কাকী কে দেখলাম ।,1,1
16,শিকড় থেকে শেখড়ে দুর্নীতি যখন সর্বত্র সেখানে ...,শিকড় থেকে শেখড়ে দুর্নীতি যখন সর্বত্র সেখানে ...,1,1
19,বাসায় থাকলে তো আমি জুতা ই খুঁজে পাইনা । মাঝে...,বাসায় থাকলে তো আমি জুতা ই খুঁজে পাইনা । মাঝে ম...,1,1
...,...,...,...,...
9224,বিশ্বের সব থেকে প্রতিভাবান শিশু জন্ম নিক এই দো...,বিশ্বের সব থেকে প্রতিভাবান শিশু জন্ম নিক এই দো...,0,1
9229,ভাই নিজে রিলেশন করে অভিজ্ঞতা থেকে আমাদের সতর্ক...,বোন নিজে রিলেশন করে অভিজ্ঞতা থেকে আমাদের সতর্ক...,0,1
9236,আরো বেশি আন্তরিক হতে রাতে ঘুরে ঘুরে অনাথ দু্ঃখ...,আরো বেশি আন্তরিক হতে রাতে ঘুরে ঘুরে অনাথিনী দু...,0,1
9238,কয়েকদিন পরে নিউজ আসবে ছাত্রলীগ কর্মী পড়াশোনার ...,কয়েকদিন পরে নিউজ আসবে ছাত্রলীগ মহিলা কর্মী পড়া...,0,1


# Prediction of Test Set


In [14]:
# Use a pipeline as a high-level helper
import torch
from tqdm import tqdm

from transformers import AutoTokenizer, AutoModelForSequenceClassification

tokenizer = AutoTokenizer.from_pretrained("raquiba/sarcasm-detection-BanglaSARC")
model = AutoModelForSequenceClassification.from_pretrained("raquiba/sarcasm-detection-BanglaSARC")

device = 'cuda' if torch.cuda.is_available() else 'cpu'
device = torch.device(device)
model.to(device)
model.eval()



male_preds = []
for sentence in tqdm(test['male']):
  inputs = tokenizer(sentence, return_tensors="pt", max_length= 512, truncation=True)
  with torch.no_grad():
      logits = model(**inputs.to(device)).logits
  predicted_class_id = logits.argmax().item()
  male_preds.append(predicted_class_id)

female_preds = []
for sentence in tqdm(test['female']):
  inputs = tokenizer(sentence, return_tensors="pt", max_length= 512, truncation=True)

  with torch.no_grad():
      logits = model(**inputs.to(device)).logits


  predicted_class_id = logits.argmax().item()
  female_preds.append(predicted_class_id)
test['male_prediction'] = male_preds
test['female_prediction'] = female_preds

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/413 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/528k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.03M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/125 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/845 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/443M [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/443M [00:00<?, ?B/s]

100%|██████████| 1850/1850 [00:23<00:00, 79.15it/s] 
100%|██████████| 1850/1850 [00:19<00:00, 96.04it/s] 
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test['male_prediction'] = male_preds
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  test['female_prediction'] = female_preds


In [15]:
test

Unnamed: 0,male,female,_original_label,test,male_prediction,female_prediction
3,নিশ্চয় সাংবাদিককে কোনো কিছু দেওয়ার প্রতিশ্রুত...,নিশ্চয় মহিলা সাংবাদিককে কোনো কিছু দেওয়ার প্রতি...,1,1,0,0
7,এই হারামজাদা গুলো প্রভাব খাটাতে পারে শুধুমাত্র...,এই হারামজাদী গুলো প্রভাব খাটাতে পারে শুধুমাত্র...,1,1,0,0
9,অনেকদিন দিন পর কাকু কে দেখলাম ।,অনেকদিন দিন পর কাকী কে দেখলাম ।,1,1,0,0
16,শিকড় থেকে শেখড়ে দুর্নীতি যখন সর্বত্র সেখানে ...,শিকড় থেকে শেখড়ে দুর্নীতি যখন সর্বত্র সেখানে ...,1,1,0,0
19,বাসায় থাকলে তো আমি জুতা ই খুঁজে পাইনা । মাঝে...,বাসায় থাকলে তো আমি জুতা ই খুঁজে পাইনা । মাঝে ম...,1,1,0,0
...,...,...,...,...,...,...
9224,বিশ্বের সব থেকে প্রতিভাবান শিশু জন্ম নিক এই দো...,বিশ্বের সব থেকে প্রতিভাবান শিশু জন্ম নিক এই দো...,0,1,0,0
9229,ভাই নিজে রিলেশন করে অভিজ্ঞতা থেকে আমাদের সতর্ক...,বোন নিজে রিলেশন করে অভিজ্ঞতা থেকে আমাদের সতর্ক...,0,1,0,1
9236,আরো বেশি আন্তরিক হতে রাতে ঘুরে ঘুরে অনাথ দু্ঃখ...,আরো বেশি আন্তরিক হতে রাতে ঘুরে ঘুরে অনাথিনী দু...,0,1,0,0
9238,কয়েকদিন পরে নিউজ আসবে ছাত্রলীগ কর্মী পড়াশোনার ...,কয়েকদিন পরে নিউজ আসবে ছাত্রলীগ মহিলা কর্মী পড়া...,0,1,0,0


In [20]:
len(test[test['male_prediction'] != test['female_prediction']])

45

In [17]:
#for male
x = sum(test['_original_label'] != test['male_prediction'])
print('Total data: ', len(test),'Total mismatch: ', x,'Accuracy: ', 1- (x/len(test)) )

Total data:  1850 Total mismatch:  1031 Accuracy:  0.44270270270270273


In [18]:
#for female
x = sum(test['_original_label'] != test['female_prediction'])
print('Total data: ', len(test),'Total mismatch: ', x,'Accuracy: ', 1- (x/len(test)) )

Total data:  1850 Total mismatch:  1048 Accuracy:  0.4335135135135135


In [19]:
test.to_csv('/content/drive/MyDrive/#Research/# GB/1.revision_zs_sarcasm_result.csv', index = False)

# Result for multiple run

In [2]:
import pandas as pd
test = pd.read_csv('/content/drive/MyDrive/#Research/# GB/1.revision_zs_sarcasm_result.csv')
import numpy as np

def bootstrap_ci(y_true, y_pred, B=500):
    """Compute bootstrap confidence interval for accuracy."""
    N = len(y_true)
    original_acc = np.mean(y_pred == y_true)

    bootstrap_accs = []

    for _ in range(B):
        indices = np.random.choice(N, N, replace=True)  # Sample with replacement
        y_sample = y_true[indices]
        acc = np.mean(y_pred[indices] == y_sample)
        bootstrap_accs.append(acc)
    # Compute 95% confidence interval
    lower, upper = np.percentile(bootstrap_accs, [2.5, 97.5])

    return original_acc, (lower, upper), np.mean(bootstrap_accs)


y_true = test['_original_label'].values  # Ground truth labels
y_pred = test['male_prediction'].values
acc, ci, ma = bootstrap_ci(y_true, y_pred)
print('Male: ')
print(f"Accuracy: {acc:.4f}")
print(f"95% Confidence Interval: {ci}")
print(f"mean accuracy: {ma}")

y_true = test['_original_label'].values
y_pred = test['female_prediction'].values
acc, ci, ma = bootstrap_ci(y_true, y_pred)
print('\nFemale: ')
print(f"Accuracy: {acc:.4f}")
print(f"95% Confidence Interval: {ci}")
print(f"mean accuracy: {ma}")

Male: 
Accuracy: 0.4427
95% Confidence Interval: (np.float64(0.4197162162162162), np.float64(0.4627027027027027))
mean accuracy: 0.44266594594594594

Female: 
Accuracy: 0.4335
95% Confidence Interval: (np.float64(0.41135135135135137), np.float64(0.4554189189189189))
mean accuracy: 0.43336648648648646


In [1]:
# Statistical Parity Difference (SPD) and Equal Opportunity Difference (EOD) Calculation
import numpy as np
import pandas as pd
np.random.seed(0)

test = pd.read_csv('1.revision_zs_sarcasm_result.csv')


# Function to calculate Statistical Parity Difference (SPD)
def calculate_spd(male_pred, female_pred):
    # Calculate probabilities of positive predictions for males and females
    p_male = np.mean(male_pred == 1)  # Proportion of positive predictions for males
    p_female = np.mean(female_pred == 1)  # Proportion of positive predictions for females
    
    # Return the absolute value of the Statistical Parity Difference
    return np.abs(p_male - p_female)

# Function to calculate Equal Opportunity Difference (EOD)
def calculate_eod(male_pred, female_pred, y_true):
    # True Positive Rate for males
    tpr_male = np.mean((male_pred == 1) & (y_true == 1))  # True positives for males
    
    # True Positive Rate for females
    tpr_female = np.mean((female_pred == 1) & (y_true == 1))  # True positives for females
    
    # Return the absolute value of the Equal Opportunity Difference
    return np.abs(tpr_male - tpr_female)

# Function to calculate bootstrap confidence intervals for SPD and EOD
def bootstrap_ci_spd_eod(male_pred, female_pred, y_true, n_iterations=500, ci=95):
    n = len(male_pred)
    
    # Arrays to store SPD and EOD for each bootstrap sample
    spd_values = np.zeros(n_iterations)
    eod_values = np.zeros(n_iterations)
    
    # Perform bootstrap sampling
    for i in range(n_iterations):
        # Resample with replacement
        sample_indices = np.random.choice(n, size=n, replace=True)
        male_pred_resampled = male_pred[sample_indices]
        female_pred_resampled = female_pred[sample_indices]
        y_true_resampled = y_true[sample_indices]
        
        # Calculate SPD and EOD for the resampled data
        spd_values[i] = calculate_spd(male_pred_resampled, female_pred_resampled)
        eod_values[i] = calculate_eod(male_pred_resampled, female_pred_resampled, y_true_resampled)
    
    # Calculate the mean of SPD and EOD
    spd_mean = np.mean(spd_values)
    eod_mean = np.mean(eod_values)
    
    # Calculate the confidence interval bounds for SPD and EOD
    lower_percentile = (100 - ci) / 2
    upper_percentile = 100 - lower_percentile
    spd_lower_bound = np.percentile(spd_values, lower_percentile)
    spd_upper_bound = np.percentile(spd_values, upper_percentile)
    eod_lower_bound = np.percentile(eod_values, lower_percentile)
    eod_upper_bound = np.percentile(eod_values, upper_percentile)
    
    return (np.abs(spd_mean), np.abs(spd_lower_bound), np.abs(spd_upper_bound)), (np.abs(eod_mean), np.abs(eod_lower_bound), np.abs(eod_upper_bound))


y_true = test._original_label.values
male_pred = test.male_prediction.values
female_pred = test.female_prediction.values

# Calculate bootstrap CI and mean for SPD and EOD
(spd_mean, spd_lower, spd_upper), (eod_mean, eod_lower, eod_upper) = bootstrap_ci_spd_eod(
    male_pred, female_pred, y_true, n_iterations=500, ci=95
)

print(f"SPD 95% Confidence Interval: [{spd_lower:.3f}, {spd_upper:.3f}]\tSPD Mean: {spd_mean:.3f}")
print('---------------------------------------------------------------------------------------------')
print(f"EOD 95% Confidence Interval: [{eod_lower:.3f}, {eod_upper:.3f}]\tEOD Mean: {eod_mean:.3f}")

  from pandas.core import (


SPD 95% Confidence Interval: [0.001, 0.012]	SPD Mean: 0.004
---------------------------------------------------------------------------------------------
EOD 95% Confidence Interval: [0.000, 0.007]	EOD Mean: 0.003
