In [1]:
import pandas as pd
import os
import re

# Extract JOB TITLES entities

In [2]:
def find_ann_files(directory):
    ann_files = []

    for root, dirs, files in os.walk(directory):
        for file in files:
            if file.endswith(".ann"):
                file_path = os.path.join(root, file)
                ann_files.append(file_path)

    return ann_files

In [3]:
def read_ann_files(directory):
    ann_files = find_ann_files(directory)
    job_title_entities = []

    for ann_file in ann_files:
        with open(ann_file, "r", encoding="utf-8") as ann_f:
            for ann_l in ann_f:
                ann_row = ann_l.split("\t")
                
                try: 
                    if ann_row[1] == 'JOB':
                        job_title_entities.append(ann_row[4].strip("\n"))
                except Exception as e:
                    continue
                    # print("Error with line:", ann_row)

    return job_title_entities

In [9]:
job_title_entities_bruk = read_ann_files('../ner_for_fem/data/bruk')
job_title_entities_ng = read_ann_files('../ner_for_fem/data/ng')

print("Number of job titles entities in bruk dataset:", len(job_title_entities_bruk))
print("Number of job titles entities in ng dataset:", len(job_title_entities_ng))

Number of job titles entities in bruk dataset: 638
Number of job titles entities in ng dataset: 1344


In [17]:
!pip install pymorphy3

Collecting pymorphy3
  Downloading pymorphy3-2.0.2-py3-none-any.whl.metadata (1.8 kB)
Collecting pymorphy3-dicts-ru (from pymorphy3)
  Using cached pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl.metadata (2.0 kB)
Downloading pymorphy3-2.0.2-py3-none-any.whl (53 kB)
Using cached pymorphy3_dicts_ru-2.4.417150.4580142-py2.py3-none-any.whl (8.4 MB)
Installing collected packages: pymorphy3-dicts-ru, pymorphy3
Successfully installed pymorphy3-2.0.2 pymorphy3-dicts-ru-2.4.417150.4580142


In [18]:
import pymorphy2

def convert_to_nominative(words):
    morph = pymorphy2.MorphAnalyzer(lang='uk')
    nominative_words = []

    for word in words:
        parsed = morph.parse(word)[0]
        nominative = parsed.normal_form 
        nominative_words.append(nominative)

    return nominative_words

In [20]:
# job_title_entities_bruk_nouns = convert_to_nominative(job_title_entities_bruk)
# job_title_entities_ng_nouns = convert_to_nominative(job_title_entities_ng)

# job_title_entities_bruk_dict = dict(zip(job_title_entities_bruk_nouns, job_title_entities_bruk))
# job_title_entities_ng_dict = dict(zip(job_title_entities_ng_nouns, job_title_entities_ng))

In [11]:
job_title_entities_bruk_nouns = convert_to_nominative(job_title_entities_bruk)
job_title_entities_ng_nouns = convert_to_nominative(job_title_entities_ng)

job_title_entities_bruk_dict = dict(zip(job_title_entities_bruk_nouns, job_title_entities_bruk))
job_title_entities_ng_dict = dict(zip(job_title_entities_ng_nouns, job_title_entities_ng))

In [75]:
# with open('list.txt', 'w') as f:
#     for item in job_title_entities_ng:
#         f.write("%s\n" % item)

# Using regex

In [12]:
def find_fems(list_of_words):
    res = []

    patterns = ["нька$", "еса$", "вка$", "иця$", "иня$", "илька$", "елька$", "стка$", "йка$", "анка$", "иса$", "чка$", "рка$", "сестра$", "тка$", "жка$", "менка$", "$держ"]

    for x in list_of_words:
        x = x.lower()
        if len(x.split(" ")) > 1:
            for y in x.split(" "):
                if any(re.search(pattern, y) for pattern in patterns):
                    print(x)
                    res.append(x)
                    break
        else:
            if any(re.search(pattern, x) for pattern in patterns):
                print(x)
                res.append(x)

    return res

In [13]:
bruk_res = find_fems(job_title_entities_bruk_nouns)

актриса
вихователька
продавчиня
лікарка
вчителька
вчителька
викладачка
лікарка
секретарка
психологиня
мовознавиця
кандидатка філологічних наука
викладачка
вчителька
співачка
секретарка
журналістка
секретарка
журналістка
медсестра
вчителька
спортсменка
спортсменка
шоколадниця
шоколадниця
вчителька математика
садівниця
поетеса
медсестра
медсестра
нянька
поетеса
поетеса
поетеса
служка
наукові редакторка
старша наукова співробітниця
докторантка відділу соціальної антропологія
старша наукова співробітниця
старша наукова співробітниця
письменниця
докторка історичних наука
професорка
служниця
покоївка
вчителька


In [14]:
print("------ FOR bruk DATASET ---------")

print("Кількість фемінітивів у JOB TITLES класах:", len(bruk_res))
print("кількість таких унікальних значень(без дублів):", len(set(bruk_res)))

print("Відношення фемінітивів до усіх JOB TITLE класів: {:.1f}%".format(len(bruk_res)*100/len(job_title_entities_bruk)))

------ FOR bruk DATASET ---------
Кількість фемінітивів у JOB TITLES класах: 46
кількість таких унікальних значень(без дублів): 28
Відношення фемінітивів до усіх JOB TITLE класів: 7.2%


In [15]:
ng_res = find_fems(job_title_entities_ng_nouns)

голови митниця
підприємиця
підприємиця
власниця
власниця
приватною підприємиця
підприємиця
підприємиця
підприємниця
підприємиця
лаборантка
співзасновниця
співзасновниця
екс-чиновниця
чиновниця
екс-антимонопольниця
керівниця
заступниця
службовка
співзасновниця
чиновниця
податківка
податківка
засновниця
власниця
засновниця
журналістка
журналістка


In [16]:
print("------ FOR ng DATASET ---------")

print("Кількість фемінітивів у JOB TITLES класах:", len(ng_res))
print("кількість таких унікальних значень(без дублів):", len(set(ng_res)))

print("Відношення фемінітивів до усіх JOB TITLE класів: {:.1f}%".format(len(ng_res)*100/len(job_title_entities_ng)))

------ FOR ng DATASET ---------
Кількість фемінітивів у JOB TITLES класах: 28
кількість таких унікальних значень(без дублів): 16
Відношення фемінітивів до усіх JOB TITLE класів: 2.1%


# With feminine nouns dictionary

In [26]:
import requests
from bs4 import BeautifulSoup
import json

In [34]:
def read_fem_dict(url, dict_file_name):

    json_file = {}

    if os.path.exists(dict_file_name):
        with open(dict_file_name, 'r', encoding='utf-8') as f:
            try:
                json_file = json.load(f)
            except json.JSONDecodeError:
                json_file = {}

    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }

    response = requests.get(url, headers=headers)

    if response.status_code == 200:
        html = response.content
    else:
        print(f"Не вдалося отримати сторінку, код статусу: {response.status_code}")

    soup = BeautifulSoup(html, 'html.parser')

    dictionary = {}

    paragraphs = soup.find_all('p')

    dict_part = paragraphs[4:-1]
    print(dict_part)
    for para in dict_part:
        text = para.get_text().strip()
        
        if "–" in text:
            item = text.split("–")
            masculine = item[0]
            feminine = item[1]
            masculine = masculine.strip()
            feminine = feminine.strip()

            dictionary[masculine] = feminine

    
    json_file.update(dictionary)

    with open(dict_file_name, 'w', encoding='utf-8') as f:
        json.dump(json_file, f, ensure_ascii=False, indent=4)

    print("saved dict for url:", url)


In [65]:
letters = ['a', 'b', 'v', 'g', 'd', 'e', 'ye', 'zh', 'z', 'i', 'k', 'l', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'f', 'h', 'cz', 'ch', 'sh', 'shh', 'yu', 'ya']

In [64]:
json_file = "fem_dictionary.json"

for letter in letters:
    url = f"https://gendergid.org.ua/{letter}/"
    read_fem_dict(url, json_file)

[<p>язичник – язичниця</p>, <p>японець – японка</p>, <p>японіст – японістка</p>, <p>ясновидець – ясновидиця</p>, <p>яхтсмен – яхтсменка</p>, <p>язичник – язичниця</p>, <p>японець – японка</p>, <p>японіст – японістка</p>, <p>ясновидець – ясновидиця</p>, <p>яхтсмен – яхтсменка</p>, <p><a href="https://www.usaid.gov/uk/ukraine" rel="nofollow"><img alt="" class="alignnone wp-image-842" height="35" src="https://gendergid.org.ua/wp-content/uploads/2021/08/usaid2-300x96.png" width="110"/></a><a href="https://internews.in.ua/uk/media-program-in-ukraine/" rel="nofollow"><img alt="" class="alignnone wp-image-841" height="34" src="https://gendergid.org.ua/wp-content/uploads/2021/08/usaid1-300x96.png" width="106"/></a><a href="http://volynpressclub.org.ua/" rel="nofollow"><img alt="" class="alignnone wp-image-840" height="37" src="https://gendergid.org.ua/wp-content/uploads/2021/08/usaid-1-300x96.png" width="115"/></a><img alt="" class="alignnone wp-image-5481" height="43" src="https://gendergid.o

In [68]:
dict_file_name = 'fem_dictionary.json'

with open(dict_file_name, 'r', encoding='utf-8') as f:
    dictionary = json.load(f)

print(list(dictionary.values()))

['абітурієнтка', 'абонентка', 'аборигенка', 'абстракціоністка', 'авантюристка', 'автоматниця', 'автомобілістка', 'авторка', 'агентка', 'агітаторка', 'агностикиня', 'агрономка', 'адвокатка', 'адміністраторка', 'адресантка', 'академікиня (пані академік)', 'академістка', 'аквалангістка', 'акварелістка', 'акомпаніаторка', 'акордеоністка', 'акробатка', 'активістка', 'акторка', 'акушерка', 'акціонерка', 'алергологиня', 'алжирка', 'альбіноска', 'альпіністка', 'альтруїстка', 'амбасадорка', 'американка', 'аналітикиня', 'анархістка', 'анестезіологиня', 'англійка', 'аніматорка', 'антагоністка', 'антисемітка', 'антропологиня', 'апологетка', 'аптекарка', 'арабка', 'аравійка', 'арбітерка, арбітриня', 'аргентинка', 'арештантка', 'аристократка', 'арійка', 'артистка', 'арфістка', 'архаїстка', 'археологиня', 'архівістка', 'архітекторка', 'асистентка', 'аскетка', 'аспірантка', 'астрологиня', 'астронавтка', 'атеїстка', 'аудиторка', 'афганка', 'аферистка', 'африканка', 'багатійка (багач', 'базарниця', 'бай

In [77]:
def find_fems_with_dict(list_of_words):
    res = []

    list_of_fems = list(dictionary.values())

    for x in list_of_words:
        if x in list_of_fems:
            res.append(x)

    return res

In [89]:
ng_res_dict = find_fems_with_dict(job_title_entities_ng_nouns)

In [90]:
ng_res_dict

['підприємиця',
 'підприємиця',
 'власниця',
 'власниця',
 'підприємиця',
 'підприємиця',
 'підприємиця',
 'лаборантка',
 'співзасновниця',
 'співзасновниця',
 'чиновниця',
 'керівниця',
 'заступниця',
 'співзасновниця',
 'чиновниця',
 'засновниця',
 'власниця',
 'засновниця',
 'журналістка',
 'журналістка']

In [91]:
print("------ FOR ng DATASET ---------")

print("Кількість фемінітивів у JOB TITLES класах:", len(ng_res_dict))
print("кількість таких унікальних значень(без дублів):", len(set(ng_res_dict)))

print("Відношення фемінітивів до усіх JOB TITLE класів: {:.1f}%".format(len(ng_res_dict)*100/len(job_title_entities_ng)))

------ FOR ng DATASET ---------
Кількість фемінітивів у JOB TITLES класах: 20
кількість таких унікальних значень(без дублів): 9
Відношення фемінітивів до усіх JOB TITLE класів: 1.5%


In [92]:
bruk_res_dict = find_fems_with_dict(job_title_entities_bruk_nouns)

In [93]:
bruk_res_dict

['вихователька',
 'продавчиня',
 'лікарка',
 'вчителька',
 'вчителька',
 'викладачка',
 'лікарка',
 'психологиня',
 'викладачка',
 'вчителька',
 'співачка',
 'журналістка',
 'журналістка',
 'вчителька',
 'спортсменка',
 'спортсменка',
 'садівниця',
 'письменниця',
 'професорка',
 'служниця',
 'вчителька']

In [94]:
print("------ FOR bruk DATASET ---------")

print("Кількість фемінітивів у JOB TITLES класах:", len(bruk_res_dict))
print("кількість таких унікальних значень(без дублів):", len(set(bruk_res_dict)))

print("Відношення фемінітивів до усіх JOB TITLE класів: {:.1f}%".format(len(bruk_res_dict)*100/len(job_title_entities_bruk)))

------ FOR bruk DATASET ---------
Кількість фемінітивів у JOB TITLES класах: 21
кількість таких унікальних значень(без дублів): 13
Відношення фемінітивів до усіх JOB TITLE класів: 3.3%
