## Detecting and Mitigating Gender Biasis in Word Embeddings

In [1]:

# Clone the code repository from https://github.com/MohdGhazanfar/DebiasUrduNLP
# mkdir AI_genderBiases
# cd AI_genderBiases
# git clone https://github.com/MohdGhazanfar/DebiasUrduNLP

# For word embeddings: https://drive.google.com/uc?id=1K_4Fbdv9GJDNjR_avLbzKdJPEMVWdYBm&export=download
# Place the .bin file in embeddings dir

In [1]:
import sys
sys.path.append(r'C:\Users\Shayan\Documents\FYP\AI_genderbiases\debiaswe')
from __future__ import print_function, division
import json
import random
import numpy as np
import debiaswe as dwe
import debiaswe.we as we
from debiaswe.debias import debias
from debiaswe.we import WordEmbedding
from debiaswe.data import load_professions


In [2]:
# load urduvec_140M_100K_300d
E = WordEmbedding('./embeddings/urduvec_140M_100K_300d.bin')

# load professions
professions = load_professions()
profession_words = [p[0] for p in professions]

*** Reading data from ./embeddings/urduvec_140M_100K_300d.bin
(102214, 300)
102214 words of dimension 300 : کے, میں, ہے, کی, ..., شریط, بھوپت, التینیایلا, البعادی
Loaded professions
Format:
word,
definitional female -1.0 -> definitional male 1.0
stereotypical female -1.0 -> stereotypical male 1.0


In [3]:
# gender direction
v_gender = E.diff("لڑکا", "لڑکی")

In [4]:
# analogies gender
a_gender = E.best_analogies_dist_thresh(v_gender)

for (a, b, _) in a_gender:
    print(f"{a} - {b}")

Computing neighbors
Mean: 208.99408
Median: 26.0
معلم - معلمہ
کنوارا - کنواری
تھانیدار - تھانیدارنی
باپ - ماں
طالب - طالبہ
نوکر - نوکرانی
قاتلہ - قاتل
مصور - مصورہ
بندہ - بندی
خادم - خادمہ
ابا - اماں
عالم - عالمہ
استاد - استانی
مرد - عورت
بھنگی - بھنگن
گلوکار - گلوکارہ
بیٹا - بیٹی
منتظمہ - منتظم
بھکاری - بھکارن
اداکار - اداکارہ
مالکن - مالک
چھوکرا - چھوکری
والد - والدہ
ادیب - ادیبہ
باورچن - باورچی
شاعر - شاعرہ
ملزمہ - ملزم
لڑکا - لڑکی
دھوبن - دھوبی
شوہر - خاوند
دادا - نانی
سسر - ساس
چچا - خالہ
بھائ - بہن
بھائی - بھائ
خاوند - بیوی
نانا - دادی
ماموں - ممانی
ابو - ماموں
میاں - سسر
محترمہ - صاحبہ
تایا - پھوپھو
چچازاد - پھوپھی
بیٹے - اہلیہ
پھوپھی - امی
شہزادہ - شہزادی
چاچا - چاچی
پھڑپھڑاہٹ - بھنبھناہٹ
فروری - جولائی
بھابھی - پھپھو
اسحق - اسحاق
لڑکوں - لڑکیوں
چیلا - شریمتی
مہناز - بیگم
پوتے - پوتی
پلنگ - چارپائی
شیخ - شیح
عورتیں - عورتوں
مریض - مریضہ
جنوری - مئی
صآحب - محترم
کھوسو - بجارانی
نائمہ - عزیزہ
منگیتر - سہیلی
شعراء - شعرا
چوہدری - چودھری
اسٹک - لپ
صاحبزادی - زوجہ
پسر - دختر
ابراہیم

In [5]:
# profession analysis gender
unique_professions = set(profession_words)
sp = sorted([(E.v(w).dot(v_gender), w) for w in unique_professions if w in E.index])
print(type(sp))

with open("urdu_biased_professions.txt", "w") as file:
    for item in sp:
        # Convert each item to string and write to the file
        file.write(str(item) + "\n")

sp[0:20], sp[-20:] # Most feminine,  # Most masculine


<class 'list'>


([(-0.38918456, 'اداکارہ'),
  (-0.08504853, 'قاتل'),
  (-0.08327792, 'باورچی'),
  (-2.6077032e-08, 'شناسا'),
  (-1.8626451e-08, 'کھلاڑی'),
  (-1.5832484e-08, 'کاروباری'),
  (-1.4901161e-08, 'کارٹونسٹ'),
  (-1.1175871e-08, 'تاجر'),
  (-1.0244548e-08, 'ملازم'),
  (-1.0244548e-08, 'ڈھولچی'),
  (-9.313226e-09, 'مبشر'),
  (-9.313226e-09, 'موسیقار'),
  (-7.450581e-09, 'مزدور'),
  (-5.5879354e-09, 'بینکر'),
  (-5.5879354e-09, 'تیراک'),
  (-5.5879354e-09, 'فٹبالر'),
  (-5.5879354e-09, 'کیمسٹ'),
  (-3.7252903e-09, 'جراح'),
  (-3.7252903e-09, 'ورڈن'),
  (-3.7252903e-09, 'ویلڈر')],
 [(1.071021e-08, 'کرنل'),
  (1.1175871e-08, 'محافظ'),
  (1.1175871e-08, 'وکیل'),
  (1.1175871e-08, 'ویٹر'),
  (1.1175871e-08, 'کمانڈر'),
  (1.1175871e-08, 'کمشنر'),
  (1.4901161e-08, 'کلرک'),
  (1.6763806e-08, 'جہادی'),
  (0.008416429, 'رقاص'),
  (0.05142045, 'فنکار'),
  (0.05508136, 'گلوکار'),
  (0.06939766, 'بیرسٹر'),
  (0.071244985, 'باکسر'),
  (0.076979935, 'معلم'),
  (0.104212984, 'ڈاکٹر'),
  (0.104299456, 'مالی')

In [6]:
results1 = [(score, word) for score, word in sp if word.lower() == 'کھلاڑی']
print(results1)


[(-1.8626451e-08, 'کھلاڑی')]


In [7]:
# Lets load some gender related word lists to help us with debiasing
with open('./data/urdu_definitional_pairs.json', "r") as f:
    defs = json.load(f)
print("definitional", defs)

with open('./data/urdu_equalize_pairs.json', "r") as f:
    equalize_pairs = json.load(f)

with open('./data/urdu_gender_specific_seed.json', "r") as f:
    gender_specific_words = json.load(f)
print("gender specific", len(gender_specific_words), gender_specific_words[:10])

definitional [['عورت', 'مرد'], ['بیٹی', 'بیٹا'], ['ماں', 'باپ'], ['بہن', 'بھائی'], ['بیوی', 'شوہر'], ['چچی', 'چچا'], ['ممانی', 'ماموں'], ['نانی', 'نانا'], ['دادی', 'دادا'], ['پوتی', 'پوتا'], ['نواسی', 'نواسا'], ['بہو', 'داماد'], ['ساس', 'سسر'], ['سالی', 'سالا'], ['جیٹھانی', 'جیجا'], ['پھوپھی', 'پھوپھا'], ['خالہ', 'خالو'], ['لڑکی', 'لڑکا'], ['رانی', 'راجہ'], ['شہزادی', 'شہزادہ']]
gender specific 100 ['بیٹا', 'بیٹی', 'بھائی', 'بہن', 'ابو', 'امی', 'دادا', 'دادی', 'نانا', 'نانی']


In [8]:
debias(E, gender_specific_words, defs, equalize_pairs)

102214 words of dimension 300 : کے, میں, ہے, کی, ..., شریط, بھوپت, التینیایلا, البعادی
102214 words of dimension 300 : کے, میں, ہے, کی, ..., شریط, بھوپت, التینیایلا, البعادی


In [9]:
# profession analysis gender after debiasing
unique_professions = set(profession_words)
sp_debiased = sorted([(E.v(w).dot(v_gender), w) for w in unique_professions if w in E.index])
print(type(sp_debiased))

with open("urdu_debiased_professions.txt", "w") as file:
    for item in sp_debiased:
        # Convert each item to string and write to the file
        file.write(str(item) + "\n")

sp_debiased[0:20], sp[-20:] # Most feminine,  # Most masculine


<class 'list'>


([(-0.06321927, 'اداکارہ'),
  (-0.02257663, 'ملازم'),
  (-0.020620655, 'تاجر'),
  (-0.016741797, 'گلوکار'),
  (-0.014010852, 'مصنف'),
  (-0.013366985, 'صنعتکار'),
  (-0.012676798, 'کمشنر'),
  (-0.012676191, 'سربراہ'),
  (-0.011801092, 'بینکر'),
  (-0.011214716, 'سفیر'),
  (-0.010953239, 'شہری'),
  (-0.010885669, 'کاروباری'),
  (-0.010749185, 'وکیل'),
  (-0.010521984, 'فٹبالر'),
  (-0.0102620665, 'نوجوان'),
  (-0.0097549, 'کارٹونسٹ'),
  (-0.00952786, 'ڈائریکٹر'),
  (-0.009314597, 'نائب'),
  (-0.009282255, 'کمانڈر'),
  (-0.008937042, 'کیمسٹ')],
 [(1.071021e-08, 'کرنل'),
  (1.1175871e-08, 'محافظ'),
  (1.1175871e-08, 'وکیل'),
  (1.1175871e-08, 'ویٹر'),
  (1.1175871e-08, 'کمانڈر'),
  (1.1175871e-08, 'کمشنر'),
  (1.4901161e-08, 'کلرک'),
  (1.6763806e-08, 'جہادی'),
  (0.008416429, 'رقاص'),
  (0.05142045, 'فنکار'),
  (0.05508136, 'گلوکار'),
  (0.06939766, 'بیرسٹر'),
  (0.071244985, 'باکسر'),
  (0.076979935, 'معلم'),
  (0.104212984, 'ڈاکٹر'),
  (0.104299456, 'مالی'),
  (0.12012083, 'مصنف'),
  (

In [10]:
results2 = [(score, word) for score, word in sp_debiased if word.lower() == 'کھلاڑی']

print(results2)


[(-0.0021404102, 'کھلاڑی')]


In [11]:
# analogies gender
a_gender_debiased = E.best_analogies_dist_thresh(v_gender)

for (a, b, _) in a_gender_debiased:
    print(f"{a} - {b}")

Computing neighbors
Mean: 209.06088
Median: 26.0
عالم - عالمہ
مصور - مصورہ
استاد - استانی
اداکار - اداکارہ
گلوکارہ - گلوکار
تھانیدارنی - تھانیدار
کنوارا - کنواری
لڑکا - لڑکی
ابا - اماں
ادیب - ادیبہ
بیٹا - بیٹی
بندی - بندہ
مالکن - مالک
شاعر - شاعرہ
والد - والدہ
مرد - عورت
طالب - طالبہ
باپ - ماں
خادم - خادمہ
ملزمہ - ملزم
چھوکری - چھوکرا
منتظمہ - منتظم
باورچی - باورچن
بھکاری - بھکارن
قاتل - قاتلہ
معلم - معلمہ
دھوبی - دھوبن
بھنگی - بھنگن
نوکر - نوکرانی
میاں - بیوی
دادا - نانی
شوہر - خاوند
بھائ - بہن
اماں - امی
بھائی - بہنوں
نانا - دادی
ابو - ابا
ماموں - خالہ
محترمہ - صاحبہ
پھپھو - پھوپھو
شیخ - شیح
عورتیں - عورتوں
مہناز - بیگم
مذہب - ثقافت
چیکوسلواکی - خواتین
چاچا - چچا
معشوقہ - محبوبہ
ٹیبل - میز
مردو - مردوں
رقیب - رازداں
کہانیاں - کہانی
فضاء - فضا
سیدگئی - جھیل
جنازہ - جنازے
دےدی - دیدی
دوائی - دوا
نالا - ندی
فلسفہ - فلسفے
صوفے - کرسی
محبوب - معشوق
گاؤں - قصبے
نواز - شریف
تمدن - معاشرت
غذا - خوراک
پہاڑوں - پہاڑ
ملک - الجزائرمیں
الخط - رسم
تعلیم - تربیت
زبانوں - زبان
فلموں - فلم
قلم - دوات