## Religion Identification Methodology

This notebook outlines the process used to estimate the likely religions of  10,277 Indian officials and academics.

We used two Python libraries — **[Pranaam](https://github.com/appeler/pranaam/tree/main)** and **[It's All In The Name](https://github.com/RochanaChaturvedi/it-is-all-in-the-name/tree/main)** — to conduct the analysis. For names where the two models disagreed, we supplemented the results using **OpenAI's API** to determine the most probable religion.

The code for **It's All In The Name** was retrieved from one of the researcher's separate repositories, available [here](https://drive.google.com/drive/folders/1yqp0gC8WWRmDwNLj_Eh4fbF8fqF4AMTy).

The dataset sources are as follows:
- The list of Indian Administrative Service (IAS) officers was sourced from [easy.nic.in](https://easy.nic.in/civilListIAS/Home/ViewList).
- The list of Indian Police Service (IPS) officers was sourced from [ips.gov.in](https://ips.gov.in/ips_civillist.aspx).
- Faculty members at Delhi University were scraped from respective departmental websites. For example, the Department of Law maintains its website [here](https://www.du.ac.in/index.php?page=department-of-law).
- Jawaharlal Nehru University (JNU) maintains its faculty directory [here](https://www.jnu.ac.in/faculty-profile4/a).

The full list is withheld to protect individual privacy.

The analysis was carried out by **[Netra News](https://netra.news)**, an independent investigative outlet focused on Bangladesh, as part of the reporting for [this story](https://interactive.netra.news/minority-representation-bangladesh-public-services/).

## ধর্ম পরিচয় শনাক্তকরণ পদ্ধতি

এই নোটবুকে দেখানো হয়েছে কীভাবে ১০,২৭৭ জন ভারতীয় কর্মকর্তা ও শিক্ষকের সম্ভাব্য ধর্ম শনাক্ত করা হয়েছে।

আমরা দুটি পাইথন লাইব্রেরি — **[Pranaam](https://github.com/appeler/pranaam/tree/main)** এবং **[It's All In The Name](https://github.com/RochanaChaturvedi/it-is-all-in-the-name/tree/main)** — ব্যবহার করেছি। যেখানে দুটি মডেলের ফলাফল ভিন্ন, সেখানে **OpenAI-এর API** ব্যবহার করে সবচেয়ে সম্ভাব্য ধর্ম নির্ধারণ করা হয়েছে।

**It's All In The Name** লাইব্রেরির কোড একজন গবেষকের আলাদা রিপোজিটরি থেকে সংগৃহীত হয়েছে, যা [এখানে](https://drive.google.com/drive/folders/1yqp0gC8WWRmDwNLj_Eh4fbF8fqF4AMTy) পাওয়া যাবে।

ডেটাসেটের উৎস ছিল:
- ভারতের আইএএস (IAS) কর্মকর্তাদের তালিকা সংগ্রহ করা হয়েছে [easy.nic.in](https://easy.nic.in/civilListIAS/Home/ViewList) থেকে।
- আইপিএস (IPS) কর্মকর্তাদের তালিকা সংগ্রহ করা হয়েছে [ips.gov.in](https://ips.gov.in/ips_civillist.aspx) থেকে।
- দিল্লি বিশ্ববিদ্যালয়ের শিক্ষক তালিকা সংশ্লিষ্ট বিভাগের ওয়েবসাইট থেকে সংগ্রহ করা হয়েছে। উদাহরণস্বরূপ, আইন বিভাগের নিজস্ব ওয়েবসাইট রয়েছে [এখানে](https://www.du.ac.in/index.php?page=department-of-law)।
- জওহরলাল নেহরু বিশ্ববিদ্যালয়ের (জেএনইউ) শিক্ষক তালিকা পাওয়া যাবে [এখানে](https://www.jnu.ac.in/faculty-profile4/a)।

ব্যক্তিগত গোপনীয়তার কারণে সম্পূর্ণ তালিকা প্রকাশ করা হয়নি।

এই বিশ্লেষণটি সম্পন্ন করেছে **[নেত্র নিউজ](https://netranews.org/indian-officials-religion-analysis)**, যা বাংলাদেশের উপর নিবেদিত একটি স্বাধীন অনুসন্ধানী সংবাদমাধ্যম। [সম্পূর্ণ প্রতিবেদন পড়ুন](https://interactive.netra.news/minority-representation-bangladesh-public-services/bangla/)।


#### Retrieving the Pranaam library code from GitHub
#### গিটহাব থেকে Pranaam লাইব্রেরির কোড সংগ্রহ করা হচ্ছে

In [None]:
!git clone https://github.com/appeler/pranaam.git

In [134]:
%cd /content
%cd pranaam


/content
/content/pranaam


#### The default version of scikit-learn on Colab is incompatible with Pranaam, so we are installing version 1.1.3.
#### However, the current version of numpy is not compatible with scikit-learn 1.1.3, so we are also installing numpy 1.24.3 to ensure compatibility.

#### কলাব-এ ডিফল্টভাবে থাকা scikit-learn লাইব্রেরির সংস্করণ Pranaam-এর সাথে সামঞ্জস্যপূর্ণ নয়, তাই আমরা scikit-learn-এর 1.1.3 সংস্করণ ইনস্টল করছি।
#### তবে বর্তমানে ব্যবহৃত numpy সংস্করণটি scikit-learn 1.1.3-এর সাথে সামঞ্জস্যপূর্ণ নয়, তাই আমরা numpy-এর 1.24.3 সংস্করণ ইনস্টল করছি সামঞ্জস্য নিশ্চিত করতে।


In [None]:
!pip install scikit-learn==1.1.3 numpy==1.24.3

In [136]:
from pranaam.naam import Naam
import pandas as pd
import tensorflow as tf
from tensorflow.keras.layers import TFSMLayer # Import TFSMLayer for TF >= 2.13
import numpy as np
from keras.layers import TFSMLayer

In [137]:
ias_df = pd.read_csv('../ias_officers_list.csv') # Importing IAS officers lists - আইএএস কর্মকর্তাদের তালিকা ইম্পোর্ট করা হচ্ছে
ips_df = pd.read_csv('../ips_officers_list.csv') # Importing IPS officers lists - আইপিএস কর্মকর্তাদের তালিকা ইম্পোর্ট করা হচ্ছে
jnu_df = pd.read_csv('../india_jnu_faculty_list.csv') # Importing faculty list of Jawaharlal Nehru University - জওহারলাল নেহরু বিশ্ববিদ্যালয়ের শিক্ষকদের তালিকা ইম্পোর্ট করা হচ্ছে
du_df = pd.read_csv('../delhi_university_faculty_list.csv') # Importing faculty list of Delhi University - দিল্লী বিশ্ববিদ্যালয়ের শিক্ষকদের তালিকা ইম্পোর্ট করা হচ্ছে
ias_df['source'] = 'IAS'
ips_df['source'] = 'IPS'
jnu_df['source'] = 'JNU Faculty'
du_df['source'] = 'DU Faculty'
ias_df = ias_df[['name', 'source']]
ips_df = ips_df[['name', 'source']]
jnu_df = jnu_df[['name', 'source']]
du_df = du_df[['name', 'source']]

print(f"Total names of individuals in the IAS officials dataset: {ias_df.shape[0]} (আইএএস কর্মকর্তাদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: {ias_df.shape[0]})")
print(f"Total names of individuals in the IPS officials dataset: {ips_df.shape[0]} (আইপিএস কর্মকর্তাদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: {ips_df.shape[0]})")
print(f"Total names of individuals in the JNU faculty dataset: {jnu_df.shape[0]} (জেএনইউ শিক্ষকদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: {jnu_df.shape[0]})")
print(f"Total names of individuals in the DU faculty dataset: {du_df.shape[0]} (ঢাকা বিশ্ববিদ্যালয়ের শিক্ষকদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: {du_df.shape[0]})")


Total names of individuals in the IAS officials dataset: 4908 (আইএএস কর্মকর্তাদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: 4908)
Total names of individuals in the IPS officials dataset: 3721 (আইপিএস কর্মকর্তাদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: 3721)
Total names of individuals in the JNU faculty dataset: 709 (জেএনইউ শিক্ষকদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: 709)
Total names of individuals in the DU faculty dataset: 939 (ঢাকা বিশ্ববিদ্যালয়ের শিক্ষকদের তালিকায় থাকা ব্যক্তিদের নামের মোট সংখ্যা হলো: 939)


In [138]:
combined_df = pd.concat([ias_df, ips_df, jnu_df, du_df], ignore_index=True)
for source_name in combined_df['source'].unique():
    print(f"\nSource: {source_name}")
    display(combined_df[combined_df['source'] == source_name].head(5))

# Below is a random sample of five officials or academics from four institutions.
# নিচে চারটি প্রতিষ্ঠানের পাঁচজন কর্মকর্তা বা শিক্ষকের একটি নমুনা তালিকা দেওয়া হয়েছে।


Source: IAS


Unnamed: 0,name,source
0,Rajneesh Goel,IAS
1,Ajay Seth,IAS
2,Rakesh Singh,IAS
3,Shalini Rajneesh,IAS
4,Jawaid Akhtar,IAS



Source: IPS


Unnamed: 0,name,source
4908,AK Arun Kabilan,IPS
4909,Aadil Arshi,IPS
4910,Aayush Akshat,IPS
4911,Abbas Farhat,IPS
4912,Abbas Syed Ali,IPS



Source: JNU Faculty


Unnamed: 0,name,source
8629,A.K. Mohapatra,JNU Faculty
8630,A.P. Dimri,JNU Faculty
8631,Ajay Kumar Dubey,JNU Faculty
8632,Ajay Kumar Saxena,JNU Faculty
8633,Ajay Kumar Verma,JNU Faculty



Source: DU Faculty


Unnamed: 0,name,source
9338,Syed Hasnain Akhtar,DU Faculty
9339,Naimul Hasan,DU Faculty
9340,Mujeeb Akhtar,DU Faculty
9341,Mohammad Akram,DU Faculty
9342,Asghar Mahmood,DU Faculty


In [139]:
import pandas as pd
import tensorflow as tf
from keras.layers import TFSMLayer

# Predict
names = combined_df['name'].dropna().tolist()
model_path = '/usr/local/lib/python3.11/dist-packages/pranaam/model/eng_and_hindi_models_v1/eng_model'
loaded_model = TFSMLayer(model_path, call_endpoint='serving_default')
names_tensor = tf.constant(names)
result = loaded_model(names_tensor)

# Process predictions
predictions = result['sequential_3']
predictions_np = predictions.numpy()

# ✅ Take Muslim score (second column) and convert to percentage
muslim_scores = predictions_np[:, 1] * 100  # multiply by 100 to get percentage

# ✅ Attach to combined_df
combined_df['pranaam_score'] = muslim_scores

# Final combined_df
combined_df


Unnamed: 0,name,source,pranaam_score
0,Rajneesh Goel,IAS,18.163837
1,Ajay Seth,IAS,0.025585
2,Rakesh Singh,IAS,0.003974
3,Shalini Rajneesh,IAS,29.045401
4,Jawaid Akhtar,IAS,95.732903
...,...,...,...
10272,Smriti Tripathi,DU Faculty,0.182907
10273,Simarpreet Kaur,DU Faculty,6.329981
10274,Manish Kumar Verma,DU Faculty,0.006757
10275,Deepak Prakash Dabhade,DU Faculty,0.046368


Note: The above output shows that Pranaam assigned a score to each name, indicating whether the individual is likely Muslim or not. A score of 50 or higher is considered Muslim.

নোট: উপরের আউটপুট থেকে দেখা যায় যে Pranaam প্রতিটি নামের জন্য একটি স্কোর নির্ধারণ করেছে, যা ব্যক্তির মুসলিম হওয়ার সম্ভাবনা নির্দেশ করে। ৫০ বা তার বেশি স্কোর মুসলিম হিসেবে গণ্য করা হয়।

##### Below, we will run "It's All In The Name," another Python library, to corroborate the findings from Pranaam.
We downloaded the "It's All In The Name" code into our Google Drive folder As mentioned earlier, the code can also be accessed and downloaded from [this link](https://drive.google.com/drive/folders/1yqp0gC8WWRmDwNLj_Eh4fbF8fqF4AMTy).


##### নিচে আমরা "It's All In The Name" নামের আরেকটি পাইথন লাইব্রেরি চালাবো, যা দিয়ে Pranaam-এর ফলাফল যাচাই করা হবে।

আমরা "It's All In The Name" লাইব্রেরির কোড আমাদের Google Drive ফোল্ডারে ডাউনলোড করে রেখেছি। আগে যেমনটা উল্লেখ করা হয়েছে, কোডটি [এই লিংক](https://drive.google.com/drive/folders/1yqp0gC8WWRmDwNLj_Eh4fbF8fqF4AMTy) থেকেও ডাউনলোড করা যাবে।


In [140]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [141]:
# First: Make sure you have pandas installed and imported
import pandas as pd
import re
import multiprocessing
import os
import pickle

In [142]:
# 1. Normalize helper
def normalize(name):
    if not isinstance(name, str):
        return ""
    return name.strip().lower()

# 2. In-memory cleaner (for both name and optionally parent_name)
def clean_data_in_memory(df, name_column="name", pname_column="parent_name", concat_model=False):
    from multiprocessing import Pool

    # Name cleaning
    df["name_cleaned"] = df[name_column].fillna('')

    with Pool(2) as p:
        df["name_cleaned"] = p.map(normalize, df["name_cleaned"])

    df["name_cleaned"] = df["name_cleaned"].str.upper()
    df["name_cleaned"] = df["name_cleaned"].replace("[^A-Z .\\-]", " ", regex=True)
    df["name_cleaned"] = df["name_cleaned"].replace("[.-]+", " ", regex=True)
    df["name_cleaned"] = df["name_cleaned"].replace("([A-Z])\\1\\1+", "\\1", regex=True)
    df["name_cleaned"] = df["name_cleaned"].replace("\s+", " ", regex=True)
    df["name_cleaned"] = df["name_cleaned"].str.strip()

    if concat_model:
        # Parent/spouse name cleaning
        df["pname_cleaned"] = df[pname_column].fillna('')

        with Pool(2) as p:
            df["pname_cleaned"] = p.map(normalize, df["pname_cleaned"])

        df["pname_cleaned"] = df["pname_cleaned"].str.upper()
        df["pname_cleaned"] = df["pname_cleaned"].replace("[^A-Z .\\-]", " ", regex=True)
        df["pname_cleaned"] = df["pname_cleaned"].replace("[.-]+", " ", regex=True)
        df["pname_cleaned"] = df["pname_cleaned"].replace("([A-Z])\\1\\1+", "\\1", regex=True)
        df["pname_cleaned"] = df["pname_cleaned"].replace("\s+", " ", regex=True)
        df["pname_cleaned"] = df["pname_cleaned"].str.strip()

    return df

# 3. In-memory loader (the loading post-processing)
def postprocess_cleaned_data(df, concat_model=False):
    df["name_cleaned"] = df["name_cleaned"].fillna('')
    df["name_cleaned"] = df["name_cleaned"].replace(" ", "}{", regex=True)
    df["name_cleaned"] = "{" + df["name_cleaned"].astype(str) + "}"

    if concat_model:
        df["pname_cleaned"] = df["pname_cleaned"].fillna('')
        df["pname_cleaned"] = df["pname_cleaned"].replace(" ", "}{", regex=True)
        df["pname_cleaned"] = "{" + df["pname_cleaned"].astype(str) + "}"
        df["name_cleaned"] = "#" + df["name_cleaned"].astype(str) + "#" + df["pname_cleaned"].astype(str) + "#"

    return df


In [143]:
# Whether to use parent names
concat_model = False  # or True if you want to use parent_name as well

# 1. Clean combined_df
combined_df = clean_data_in_memory(combined_df, name_column="name", pname_column="parent_name", concat_model=concat_model)

# 2. Post-process (the special wrap with {} and }{)
combined_df = postprocess_cleaned_data(combined_df, concat_model=concat_model)

# 3. See result
combined_df.head()

Unnamed: 0,name,source,pranaam_score,name_cleaned
0,Rajneesh Goel,IAS,18.163837,{RAJNEESH}{GOEL}
1,Ajay Seth,IAS,0.025585,{AJAY}{SETH}
2,Rakesh Singh,IAS,0.003974,{RAKESH}{SINGH}
3,Shalini Rajneesh,IAS,29.045401,{SHALINI}{RAJNEESH}
4,Jawaid Akhtar,IAS,95.732903,{JAWAID}{AKHTAR}


In [144]:
data = combined_df

In [145]:
# 5. Set configuration
concat_model = False  # Set True if you want concatenated name + parent_name
name = "name"
pname = "parent_name"  # Must match your DataFrame column
n_way = "2class"
classifier = "svm"

# 6. Clean combined_df
combined_df = clean_data_in_memory(combined_df, name_column=name, pname_column=pname, concat_model=concat_model)
combined_df = postprocess_cleaned_data(combined_df, concat_model=concat_model)

# 7. Load model and vectorizer
model_dir = "/content/drive/MyDrive/it-is-all-in-the-name/models/"

if n_way == "multiclass":
    with open(model_dir + "non_neural_label_encoding_multiclass.pkl", "rb") as f:
        (category_to_id, id_to_category) = pickle.load(f)

model_name = n_way + "_" + classifier + '_concat_' + str(concat_model) + '.sav'
vectorizer = pickle.load(open(model_dir + "vectorizer_" + model_name, 'rb'))
clf = pickle.load(open(model_dir + "model_" + model_name, 'rb'))

# 8. Transform and Predict
tfidf_matrix = vectorizer.transform(combined_df.name_cleaned)
y_pred_prob = clf.decision_function(tfidf_matrix)

# 9. Add ONLY the score directly to combined_df
if n_way == "2class":
    combined_df["iaitn_score"] = y_pred_prob  # ✅ Only this, no predicted_religion
else:
    # If multiclass, you'll still need to create columns differently
    df2 = pd.DataFrame(y_pred_prob, columns=list(category_to_id.keys()))
    df2.reset_index(inplace=True, drop=True)
    combined_df.reset_index(inplace=True, drop=True)
    combined_df = pd.concat([combined_df, df2], axis=1)

# 10. Show final result
combined_df.head()

  vectorizer = pickle.load(open(model_dir + "vectorizer_" + model_name, 'rb'))
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations
https://scikit-learn.org/stable/model_persistence.html#security-maintainability-limitations


Unnamed: 0,name,source,pranaam_score,name_cleaned,iaitn_score
0,Rajneesh Goel,IAS,18.163837,{RAJNEESH}{GOEL},-0.900496
1,Ajay Seth,IAS,0.025585,{AJAY}{SETH},-1.185031
2,Rakesh Singh,IAS,0.003974,{RAKESH}{SINGH},-1.628307
3,Shalini Rajneesh,IAS,29.045401,{SHALINI}{RAJNEESH},-0.711487
4,Jawaid Akhtar,IAS,95.732903,{JAWAID}{AKHTAR},0.705239


The above output shows that "It's All In The Name" also generated a score for each name, indicating whether the individual is likely Muslim or not. A positive score is considered Muslim, while a negative score is considered non-Muslim.

উপরের আউটপুট থেকে দেখা যায় যে "It's All In The Name" প্রতিটি নামের জন্য একটি স্কোর তৈরি করেছে, যা ব্যক্তির মুসলিম হওয়ার সম্ভাবনা নির্দেশ করে। পজিটিভ স্কোর মুসলিম হিসেবে এবং নেগেটিভ স্কোর অ-মুসলিম হিসেবে গণ্য করা হয়েছে।


In [146]:
# For Pranaam model verdict
combined_df["pranaam_verdict"] = combined_df["pranaam_score"].apply(lambda x: "Muslim" if x >= 50 else "Not-Muslim")

# For It's All in the Name (IAITN) model verdict
combined_df["iaitn_verdict"] = combined_df["iaitn_score"].apply(lambda x: "Muslim" if x > 0 else "Not-Muslim")
combined_df

Unnamed: 0,name,source,pranaam_score,name_cleaned,iaitn_score,pranaam_verdict,iaitn_verdict
0,Rajneesh Goel,IAS,18.163837,{RAJNEESH}{GOEL},-0.900496,Not-Muslim,Not-Muslim
1,Ajay Seth,IAS,0.025585,{AJAY}{SETH},-1.185031,Not-Muslim,Not-Muslim
2,Rakesh Singh,IAS,0.003974,{RAKESH}{SINGH},-1.628307,Not-Muslim,Not-Muslim
3,Shalini Rajneesh,IAS,29.045401,{SHALINI}{RAJNEESH},-0.711487,Not-Muslim,Not-Muslim
4,Jawaid Akhtar,IAS,95.732903,{JAWAID}{AKHTAR},0.705239,Muslim,Muslim
...,...,...,...,...,...,...,...
10272,Smriti Tripathi,DU Faculty,0.182907,{SMRITI}{TRIPATHI},-1.042218,Not-Muslim,Not-Muslim
10273,Simarpreet Kaur,DU Faculty,6.329981,{SIMARPREET}{KAUR},-1.162496,Not-Muslim,Not-Muslim
10274,Manish Kumar Verma,DU Faculty,0.006757,{MANISH}{KUMAR}{VERMA},-1.220261,Not-Muslim,Not-Muslim
10275,Deepak Prakash Dabhade,DU Faculty,0.046368,{DEEPAK}{PRAKASH}{DABHADE},-1.134661,Not-Muslim,Not-Muslim


In [147]:
combined_df["agreement"] = combined_df.apply(
    lambda row: "Agreement" if row["pranaam_verdict"] == row["iaitn_verdict"] else "Disagreement",
    axis=1
)
combined_df

Unnamed: 0,name,source,pranaam_score,name_cleaned,iaitn_score,pranaam_verdict,iaitn_verdict,agreement
0,Rajneesh Goel,IAS,18.163837,{RAJNEESH}{GOEL},-0.900496,Not-Muslim,Not-Muslim,Agreement
1,Ajay Seth,IAS,0.025585,{AJAY}{SETH},-1.185031,Not-Muslim,Not-Muslim,Agreement
2,Rakesh Singh,IAS,0.003974,{RAKESH}{SINGH},-1.628307,Not-Muslim,Not-Muslim,Agreement
3,Shalini Rajneesh,IAS,29.045401,{SHALINI}{RAJNEESH},-0.711487,Not-Muslim,Not-Muslim,Agreement
4,Jawaid Akhtar,IAS,95.732903,{JAWAID}{AKHTAR},0.705239,Muslim,Muslim,Agreement
...,...,...,...,...,...,...,...,...
10272,Smriti Tripathi,DU Faculty,0.182907,{SMRITI}{TRIPATHI},-1.042218,Not-Muslim,Not-Muslim,Agreement
10273,Simarpreet Kaur,DU Faculty,6.329981,{SIMARPREET}{KAUR},-1.162496,Not-Muslim,Not-Muslim,Agreement
10274,Manish Kumar Verma,DU Faculty,0.006757,{MANISH}{KUMAR}{VERMA},-1.220261,Not-Muslim,Not-Muslim,Agreement
10275,Deepak Prakash Dabhade,DU Faculty,0.046368,{DEEPAK}{PRAKASH}{DABHADE},-1.134661,Not-Muslim,Not-Muslim,Agreement


The above output shows that if Pranaam's verdict (`pranaam_verdict`) and the verdict from "It's All In The Name" (`iaitn_verdict`) differ,
the "agreement" column is marked as "Disagreement."
উপরের আউটপুট থেকে দেখা যায়, যদি Pranaam-এর রায় (`pranaam_verdict`) এবং "It's All In The Name"-এর রায় (`iaitn_verdict`) আলাদা হয়,
তাহলে "agreement" কলামে "Disagreement" লেখা হয়েছে।


In [148]:
combined_df['agreement'].value_counts()

Unnamed: 0_level_0,count
agreement,Unnamed: 1_level_1
Agreement,9959
Disagreement,318


The above output shows that disagreements between the two libraries — which are based on different training data, models, and methods — occurred in only 318 cases out of a total of 10,277 names (9959 + 318). This means the disagreement rate is just **3%**. In **97% of the cases**, both models reached the same conclusion. We will use `gpt-4o`, the best available model from OpenAI, to determine the likely religion of the remaining 3% names.

উপরের আউটপুট থেকে দেখা যায়, আলাদা প্রশিক্ষণ ডেটা, মডেল ও পদ্ধতির ওপর ভিত্তি করে তৈরি দুটি লাইব্রেরি মোট ১০,২৭৭টি নামের (৯৯৫৯ + ৩১৮) ভেতর মাত্র ৩১৮টি নামের ক্ষেত্রে ভিন্ন রায় দিয়েছে। অর্থাৎ, মতভেদের হার মাত্র **৩%**। **৯৭% নামের ক্ষেত্রেই** দুই মডেল একই সিদ্ধান্তে পৌঁছেছে। এই বাকি তিন শতাংশ নামের ক্ষেত্রে আমরা ওপেনএআই-এর সর্বোৎকৃষ্ট মডেল `gpt-4o` ব্যবহার করবো।

In [149]:
# 2. Import and client
import openai
from openai import OpenAI
client = OpenAI(api_key="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")

# 3. Define your function (new style)
def get_openai_verdict(name):
    prompt = f"Classify the name '{name}' as either 'Muslim' or 'Not-Muslim'. Only reply with one word: 'Muslim' or 'Not-Muslim'."
    try:
        response = client.chat.completions.create(
            model="gpt-4o",
            messages=[
                {"role": "system", "content": "You are a classifier that only returns 'Muslim' or 'Not-Muslim' based on Indian name conventions."},
                {"role": "user", "content": prompt}
            ],
            temperature=0,
            max_tokens=10,
        )
        verdict = response.choices[0].message.content.strip()
        if verdict not in ["Muslim", "Not-Muslim"]:
            return "Uncertain"
        return verdict
    except Exception as e:
        print(f"Error with name {name}: {e}")
        return "Error"

# 4. Apply it to your disagreement names
disagreement_df = combined_df[combined_df["agreement"] == "Disagreement"]
disagreement_df["OpenAI_verdict"] = disagreement_df["name"].apply(get_openai_verdict)
combined_df.loc[disagreement_df.index, "OpenAI_verdict"] = disagreement_df["OpenAI_verdict"]
combined_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  disagreement_df["OpenAI_verdict"] = disagreement_df["name"].apply(get_openai_verdict)


Unnamed: 0,name,source,pranaam_score,name_cleaned,iaitn_score,pranaam_verdict,iaitn_verdict,agreement,OpenAI_verdict
0,Rajneesh Goel,IAS,18.163837,{RAJNEESH}{GOEL},-0.900496,Not-Muslim,Not-Muslim,Agreement,
1,Ajay Seth,IAS,0.025585,{AJAY}{SETH},-1.185031,Not-Muslim,Not-Muslim,Agreement,
2,Rakesh Singh,IAS,0.003974,{RAKESH}{SINGH},-1.628307,Not-Muslim,Not-Muslim,Agreement,
3,Shalini Rajneesh,IAS,29.045401,{SHALINI}{RAJNEESH},-0.711487,Not-Muslim,Not-Muslim,Agreement,
4,Jawaid Akhtar,IAS,95.732903,{JAWAID}{AKHTAR},0.705239,Muslim,Muslim,Agreement,
...,...,...,...,...,...,...,...,...,...
10272,Smriti Tripathi,DU Faculty,0.182907,{SMRITI}{TRIPATHI},-1.042218,Not-Muslim,Not-Muslim,Agreement,
10273,Simarpreet Kaur,DU Faculty,6.329981,{SIMARPREET}{KAUR},-1.162496,Not-Muslim,Not-Muslim,Agreement,
10274,Manish Kumar Verma,DU Faculty,0.006757,{MANISH}{KUMAR}{VERMA},-1.220261,Not-Muslim,Not-Muslim,Agreement,
10275,Deepak Prakash Dabhade,DU Faculty,0.046368,{DEEPAK}{PRAKASH}{DABHADE},-1.134661,Not-Muslim,Not-Muslim,Agreement,


In [150]:
combined_df[combined_df["OpenAI_verdict"].notna()] # See OpenAI performance - largely accurate ওপেনএআই-এর পারফরম্যান্স প্রায় নিখুঁত।

Unnamed: 0,name,source,pranaam_score,name_cleaned,iaitn_score,pranaam_verdict,iaitn_verdict,agreement,OpenAI_verdict
12,Anjum Parwez,IAS,98.570763,{ANJUM}{PARWEZ},-0.153655,Muslim,Not-Muslim,Disagreement,Muslim
26,Munish Moudgil,IAS,23.798822,{MUNISH}{MOUDGIL},0.277029,Not-Muslim,Muslim,Disagreement,Not-Muslim
32,Shamla Iqbal,IAS,17.088360,{SHAMLA}{IQBAL},0.424981,Not-Muslim,Muslim,Disagreement,Muslim
40,Manoz Jain,IAS,28.466290,{MANOZ}{JAIN},0.074735,Not-Muslim,Muslim,Disagreement,Not-Muslim
91,Mullai Muhilan M P,IAS,17.251823,{MULLAI}{MUHILAN}{M}{P},0.218922,Not-Muslim,Muslim,Disagreement,Not-Muslim
...,...,...,...,...,...,...,...,...,...
10223,Anabel Benjamin Bara,DU Faculty,2.560086,{ANABEL}{BENJAMIN}{BARA},0.290919,Not-Muslim,Muslim,Disagreement,Not-Muslim
10231,K. K. Aggarwal,DU Faculty,75.479958,{K}{K}{AGGARWAL},-0.583133,Muslim,Not-Muslim,Disagreement,Not-Muslim
10248,Mahandra Saha,DU Faculty,0.291892,{MAHANDRA}{SAHA},0.484232,Not-Muslim,Muslim,Disagreement,Not-Muslim
10249,Zuber Akhter,DU Faculty,29.714533,{ZUBER}{AKHTER},0.436085,Not-Muslim,Muslim,Disagreement,Muslim


In [151]:
# Create final_verdict column based on agreement মতভেদ হওয়া নামের ক্ষেত্রে ওপেনএআই ব্যবহার করার পর `final_verdict` কলামে নিশ্চিত রায় রাখা হয়েছে
combined_df["final_verdict"] = combined_df.apply(
    lambda row: row["pranaam_verdict"] if row["agreement"] == "Agreement" else row["OpenAI_verdict"],
    axis=1
)
combined_df

Unnamed: 0,name,source,pranaam_score,name_cleaned,iaitn_score,pranaam_verdict,iaitn_verdict,agreement,OpenAI_verdict,final_verdict
0,Rajneesh Goel,IAS,18.163837,{RAJNEESH}{GOEL},-0.900496,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
1,Ajay Seth,IAS,0.025585,{AJAY}{SETH},-1.185031,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
2,Rakesh Singh,IAS,0.003974,{RAKESH}{SINGH},-1.628307,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
3,Shalini Rajneesh,IAS,29.045401,{SHALINI}{RAJNEESH},-0.711487,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
4,Jawaid Akhtar,IAS,95.732903,{JAWAID}{AKHTAR},0.705239,Muslim,Muslim,Agreement,,Muslim
...,...,...,...,...,...,...,...,...,...,...
10272,Smriti Tripathi,DU Faculty,0.182907,{SMRITI}{TRIPATHI},-1.042218,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
10273,Simarpreet Kaur,DU Faculty,6.329981,{SIMARPREET}{KAUR},-1.162496,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
10274,Manish Kumar Verma,DU Faculty,0.006757,{MANISH}{KUMAR}{VERMA},-1.220261,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim
10275,Deepak Prakash Dabhade,DU Faculty,0.046368,{DEEPAK}{PRAKASH}{DABHADE},-1.134661,Not-Muslim,Not-Muslim,Agreement,,Not-Muslim


In [152]:
# Step 2: Group by 'source' and 'pranaam_verdict' and count
source_verdict_counts = combined_df.groupby(["source", "final_verdict"]).size().unstack(fill_value=0)

# Step 3: Add Muslim share column as percentage number
source_verdict_counts["muslim_share"] = (source_verdict_counts.get("Muslim", 0) / source_verdict_counts.sum(axis=1)) * 100

# Step 4: Format muslim_share nicely with '%' symbol
source_verdict_counts["muslim_share"] = source_verdict_counts["muslim_share"].apply(lambda x: f"{x:.2f}%")

# Step 5: Show final table
source_verdict_counts


final_verdict,Muslim,Not-Muslim,muslim_share
source,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
DU Faculty,36,903,3.83%
IAS,196,4712,3.99%
IPS,159,3562,4.27%
JNU Faculty,45,664,6.35%


### Based on the above output, we wrote the following in the story [here](https://interactive.netra.news/minority-representation-bangladesh-public-services/):

> In Bangladesh’s civil service, around nine percent of officers are non-indigenous Hindus — 112 percent of their population share. In India, by contrast, Muslims comprise about 4 percent of the elite civil service, data shows. That’s just 28 percent of their national proportion.

> Policing follows a similar pattern, with Hindus in Bangladesh reaching about 95 percent of their demographic share in the force, while Indian Muslims fill barely 30 percent of theirs.

> Put differently, adjusted for each country’s religious demographics, Hindus in Bangladesh’s civil service and police are three-four times better represented than Muslims in India’s.

> Even in institutions prized for their autonomy, India lags behind Bangladesh in minority representation. A comparison of permanent faculty rosters — excluding lecturers, since tenure in India typically begins at the assistant professor level — reveals striking disparities. At Dhaka University, Hindu professors account for 8.8 percent of the permanent faculty. By contrast, Muslims make up just 3.8 percent of the faculty at Delhi University and 6.4 percent at Jawaharlal Nehru University (JNU), two of India's most prominent public universities.

> When it comes to including its largest minority group in university faculty, Dhaka University outperforms Delhi University and JNU by factors of 4.3 and 2.75, respectively.

### উপরের আউটপুটের ভিত্তিতে আমরা প্রতিবেদনটিতে [এখানে](https://interactive.netra.news/minority-representation-bangladesh-public-services/bangla/) লিখেছি:

> বাংলাদেশের প্রশাসনে সংখ্যালঘুদের হার ১০.৫ শতাংশের মতো। আর শুধু হিন্দু কর্মকর্তাদের (আদিবাসী ব্যতীতত্রিপুরা সহ কিছু আদিবাসী সম্প্রদায় হিন্দু ধর্মের অনুসারী। তাদেরকে আদিবাসী হিসেবে ধরা হয়েছে।) হার প্রায় ৯ শতাংশের মতো। অর্থাৎ, জনসংখ্যার অনুপাতে বেসামরিক প্রশাসনে হিন্দুদের অংশগ্রহণ ১১২% শতাংশ।

> অপরদিকে ভারতের কেন্দ্রীয় সিভিল সার্ভিসে দেশটির প্রধান সংখ্যালঘু গোষ্ঠী মুসলমানদের অংশগ্রহণ মাত্র ৪ শতাংশ। অর্থাৎ, সেখানে জনসংখ্যার অনুপাতে মুসলমানদের প্রতিনিধিত্বের হার ২৮ শতাংশ।

> পুলিশেও একই চিত্র। বাংলাদেশে পুলিশে হিন্দু কর্মকর্তাদের প্রতিনিধিত্বের হার ৯৫ শতাংশ, আর ভারতের কেন্দ্রীয় পুলিশ সার্ভিসে মুসলমান কর্মকর্তাদের প্রতিনিধিত্বের ভাগ মাত্র ৩০ শতাংশ।

> অর্থাৎ জনসংখ্যার অনুপাত সমন্বয় করে নিলে বাংলাদেশের সিভিল সার্ভিস ও পুলিশে কর্মকর্তা পর্যায়ে হিন্দুদের অংশগ্রহণ ভারতে মুসলমানদের অংশগ্রহণের তিন থেকে চার গুণ।

> স্বায়ত্বশাসিত প্রতিষ্ঠানের ক্ষেত্রেও বাংলাদেশের তুলনায় যোজন যোজন ব্যবধানে পিছিয়ে আছে ভারত।

> ঢাকা বিশ্ববিদ্যালয়ের স্থায়ী শিক্ষকদের সঙ্গে তুলনা করা হয়েছে ভারতের সবচেয়ে খ্যাতিমান দুই পাবলিক বিদ্যাপীঠ দিল্লি বিশ্ববিদ্যালয় ও জওহরলাল নেহরু বিশ্ববিদ্যালয়ের শিক্ষক তালিকার সঙ্গে। ভারতে বিশ্ববিদ্যালয় শিক্ষকদের টেনিউর শুরু হয় সহকারী অধ্যাপক পদ থেকে। তাই তুলনাটাও সেই পর্যায়ে করা হয়েছে। দেখা যাচ্ছে, ঢাকা বিশ্ববিদ্যালয়ের সহকারী অধ্যাপক ও তদুর্ধ্ব পদের শিক্ষকদের মধ্যে ৮.৮ শতাংশ এসেছেন দেশের সবচেয়ে বড় সংখ্যালঘু গোষ্ঠী হিন্দুদের মধ্য থেকে। অপরদিকে দিল্লি বিশ্ববিদ্যালয়ে মুসলিম অধ্যাপকের হার মাত্র ৩.৮ শতাংশ আর জওহরলাল নেহরু বিশ্ববিদ্যালয়ে (জেএনইউ) ৬.৪ শতাংশ।

> অর্থাৎ নিজ নিজ দেশের দেশের বৃহত্তম সংখ্যালঘু গোষ্ঠীকে শিক্ষকতায় অন্তর্ভুক্ত করার ক্ষেত্রে ঢাকা বিশ্ববিদ্যালয় দিল্লি বিশ্ববিদ্যালয়ের চেয়ে ৪.৩ গুণ ও জেএনইউয়ের চেয়ে ২.৭৫ গুণ এগিয়ে।
