In [2]:
from __future__ import print_function, division
%matplotlib inline
from matplotlib import pyplot as plt
import json
import random
import numpy as np

import debiaswe as dwe
import debiaswe.we as we
from debiaswe.we import WordEmbedding

## Part 1: Gender Bias in Word Embedding

In [3]:
# load google news word2vec
E = WordEmbedding('./embeddings/word_vectors.txt')

*** Reading data from ./embeddings/word_vectors.txt
(376, 300)
376 words of dimension 300 : lakilaki, saksi, perdaganganorang, gangster, ..., disebarkan, korbanbegalpayudara, pemutilasi, peretasan
376 words of dimension 300 : lakilaki, saksi, perdaganganorang, gangster, ..., disebarkan, korbanbegalpayudara, pemutilasi, peretasan


### Step 2: Define gender direction

In [4]:
# gender direction
v_gender = E.diff('perempuan', 'lakilaki')

### Step 3: Generating analogies of "Man: x :: Woman : y"

In [5]:
# analogies gender
a_gender = E.best_analogies_dist_thresh(v_gender)

for (a,b,c) in a_gender:
    print(a+"-"+b)

Computing neighbors
Mean: 375.0
Median: 375.0
perempuan-lakilaki
istri-suami
tertembak-ditembak
pengeroyokan-dikeroyok
penusukan-ditusuk
prajurit-komandan
personel-organisasi
menyelamatkan-menelantarkan
mengkonsumsinarkotika-penyalahgunaannarkotika
dicekik-mencekik
bertahan-serangan
diperiksa-diringkus
perselingkuhan-berselingkuh
pencemarannamabaik-namarusak
muncikari-pelakutppo
siswi-siswa
dibentak-membentak
diselidiki-penyelidikan
dicopet-pencopetan
melapor-dilaporkan
korbantppo-perdaganganorang
xviicenderawasih-kelompokkriminalbersenjata
pengadilan-kpk
dipimpin-memimpin
digetokharga-menaikkanharga
dibegal-begal
diculik-menculik
komplotan-pimpinan
wanita-pria
diancam-ancaman
dipalak-memalak
dievakuasi-tewas
tembakan-penembakan
menyembunyikantersangka-mengungkap
satgas-kasatgas
pelakunarkoba-kasusnarkoba
penemuan-evakuasi
pencurian-curanmor
diracun-meracuni
putri-putra
ditetapkan-menetapkan
dibacok-membacok
keponakan-sepupu
penumpang-maskapai
pelanggan-jokites
disiramairkeras-menyiram

## Debiasing Word Embedding

In [6]:
from debiaswe.debias import debias

In [7]:
# Lets load some gender related word lists to help us with debiasing
with open('./data/definitional_pairs.json', "r") as f:
    defs = json.load(f)
print("definitional", defs)

with open('./data/equalize_pairs.json', "r") as f:
    equalize_pairs = json.load(f)

with open('./data/gender_specific_seed.json', "r") as f:
    gender_specific_words = json.load(f)
print("gender specific", len(gender_specific_words), gender_specific_words[:10])

definitional [['perempuan', 'lakilaki'], ['wanita', 'pria'], ['ibu', 'bapak'], ['putri', 'putra'], ['bunda', 'ayah'], ['mami', 'papi'], ['pemudi', 'pemuda'], ['saudari', 'saudara']]
gender specific 43 ['abang', 'ayah', 'ayahanda', 'bapak', 'bibi', 'boy', 'bunda', 'emak', 'gadis', 'girl']


In [8]:
debias(E, gender_specific_words, defs, equalize_pairs)

376 words of dimension 300 : lakilaki, saksi, perdaganganorang, gangster, ..., disebarkan, korbanbegalpayudara, pemutilasi, peretasan
{('Saudara', 'Saudari'), ('PEMUDA', 'PEMUDI'), ('SAUDARA', 'SAUDARI'), ('siswa', 'siswi'), ('papi', 'mami'), ('Pria', 'Wanita'), ('Paman', 'Bibi'), ('Lakilaki', 'Perempuan'), ('Mahasiswa', 'Mahasiswi'), ('saudara', 'saudari'), ('MAHASISWA', 'MAHASISWI'), ('PAMAN', 'BIBI'), ('LELAKI', 'PEREMPUAN'), ('Putra', 'Putri'), ('Pemuda', 'Pemudi'), ('Ayah', 'Ibu'), ('karyawan', 'karyawati'), ('SUAMI', 'ISTRI'), ('Suami', 'Istri'), ('Karyawan', 'Karyawati'), ('Siswa', 'Siswi'), ('ayah', 'bunda'), ('pemuda', 'pemudi'), ('Wartawan', 'Wartawati'), ('putra', 'putri'), ('lelaki', 'perempuan'), ('suami', 'istri'), ('ayah', 'ibu'), ('PAPI', 'MAMI'), ('wartawan', 'wartawati'), ('mahasiswa', 'mahasiswi'), ('paman', 'bibi'), ('SISWA', 'SISWI'), ('PUTRA', 'PUTRI'), ('Lelaki', 'Perempuan'), ('AYAH', 'IBU'), ('AYAH', 'BUNDA'), ('lakilaki', 'perempuan'), ('PRIA', 'WANITA'), ('WA

In [9]:
# analogies gender
a_gender_debiased = E.best_analogies_dist_thresh(v_gender)

for (a,b,c) in a_gender_debiased:
    print(a+"-"+b)

Computing neighbors
Mean: 375.0
Median: 375.0
perempuan-suami
lakilaki-istri
tertembak-ditembak
pengeroyokan-dikeroyok
penusukan-ditusuk
prajurit-komandan
personel-organisasi
menyelamatkan-menelantarkan
mengkonsumsinarkotika-penyalahgunaannarkotika
dicekik-mencekik
bertahan-serangan
diperiksa-diringkus
pencemarannamabaik-pelakutppo
perselingkuhan-berselingkuh
muncikari-namarusak
dibentak-membentak
diselidiki-penyelidikan
dicopet-pencopetan
melapor-dilaporkan
korbantppo-perdaganganorang
xviicenderawasih-kelompokkriminalbersenjata
pengadilan-kpk
dipimpin-memimpin
diculik-begal
digetokharga-menaikkanharga
dibegal-memalak
komplotan-pimpinan
diancam-ancaman
dievakuasi-sepupu
diracun-menculik
satgas-kasatgas
dipalak-tewas
tembakan-penembakan
menyembunyikantersangka-mengungkap
pencurian-curanmor
pelakunarkoba-kasusnarkoba
penemuan-evakuasi
ditetapkan-menetapkan
dibacok-membacok
keponakan-maskapai
disiramairkeras-meracuni
penumpang-melecehkan
pelanggan-jokites
memproduksinarkoba-mengedarkannar

In [11]:
E.save('output')

FileNotFoundError: [Errno 2] No such file or directory: 'output.txt'

In [None]:
E.vecs