In [None]:
import pandas as pd
import os
import re
import tqdm
from typing import List, Dict
import json

In [2]:
swapped_bruk_folder = "/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_swapped/bruk_changed"
swapped_ng_folder = "/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_swapped/ng_changed"

orig_bruk_folder = "/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_orig/bruk"
orig_ng_folder = "/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_orig/ng"

In [None]:
def parse_ann_file(ann_file):
    entities = []

    with open(ann_file, "r", encoding="utf-8") as f:
        for line in f:
            try:
                parts = line.strip().split("\t")
                if len(parts) < 3:
                    continue
                label = parts[1]
                start = parts[2]
                end = parts[3]
                text = parts[4]

                entities.append({"ind": parts[0], "text": text, "start": start, "end": end, "label": label})
            except:
                continue
                # print("issue with row:", line)

    return entities


def extract_entities(txt_file: str, ann_file: str):
    labeled_sentences_list = []
    sentences = []

    with open(txt_file, "r", encoding="utf-8") as f:
        sentence_lines = f.readlines()

    entities = parse_ann_file(ann_file)
    empty_lines_count = sentence_lines.count("\n")
    
    actual_counter = -1
    used_tags = []
    sent_end = 0
    for ind, sentence in enumerate(sentence_lines):
        actual_counter += 1
        sent_end += len(sentence)
        labeled_dict = {}
        job = False

        if sentence == "\n":
            actual_counter -= 1
        sentence = sentence.strip()

        for ent in entities:
            if re.search(rf"\b{re.escape(ent['text'])}\b", sentence):
                if ent["label"] == "JOB" and ent['ind'] not in used_tags and int(ent['start']) < sent_end:
                    labeled_dict[ent['ind']] = (ent["text"], ent["label"])
                    used_tags.append(ent['ind'])
                    job = True

        if job:  # Save sentences only if they contain a JOB entity
            labeled_sentences_list.append(labeled_dict)
            sentences.append((ind, sentence, actual_counter))

    return labeled_sentences_list, sentences, empty_lines_count, len(sentence_lines)


def get_sentences_with_job_titles(txt_file_names: List[str]):
    sentence_with_jobs = {}

    for txt_file in txt_file_names:
        ann_file = txt_file.replace(".txt", ".ann")
        labeled_sentences_list, sentences, empty_lines_count, numb_of_sents = extract_entities(txt_file, ann_file)
        for i in range(len(sentences)):
            sentence_with_jobs[sentences[i][1]] = (sentences[i][0], labeled_sentences_list[i],  empty_lines_count, numb_of_sents, sentences[i][2])

    return sentence_with_jobs


def process_files(original_folder: str, changed_folder: str):
    dataset = []

    original_files = [f for f in os.listdir(original_folder) if f.endswith('.txt')]
    # changed_files = [f for f in os.listdir(changed_folder) if f.endswith('.txt')]

    for filename in tqdm.tqdm(original_files):
        # try:
        orig_txt_path = os.path.join(original_folder, filename)
        changed_txt_path = os.path.join(changed_folder, filename.replace('.txt', '_1.txt'))

        if not os.path.exists(changed_txt_path):
            raise FileNotFoundError(f"Missing corresponding file for {filename} in the changed folder.")

        job_sentences = get_sentences_with_job_titles([orig_txt_path])

        with open(changed_txt_path, 'r', encoding='utf-8') as f:
            changed_sentences = f.readlines()

        for orig_sent, val in job_sentences.items():
            # val[0]
            if len(changed_sentences) != val[3]:
                if len(changed_sentences) + val[2] == val[3]:
                    # print(len(val))
                    # print(val[4])
                    # if len(val) <5:
                    #     print("here")
                    #     print(val)
                    #     # return
                    changed_sent = changed_sentences[val[4]]
                    dataset.append([orig_sent, val[0], changed_sent, val[4], filename, val[1]])
                else:
                    print(f"Cannot process file {filename}")
                    print("need len:", val[3], 'empty sents:', val[2])
                    print("actual len:", len(changed_sentences))
                    return
            else:
                changed_sent = changed_sentences[val[0]]
                dataset.append([orig_sent, val[0], changed_sent.strip(), val[0], filename, val[1]])
            # except Exception as e:
            #     print(f"Cannot process file totaly {filename}: {str(e)} \n val: {val}")
        # for orig_sentence in job_sentences.keys():
        #     if orig_sentence in changed_sentences:
        #         dataset.append([orig_sentence, orig_sentence, filename])
    # except Exception as e:
    #     print(f"Error processing file {filename}: {str(e)}")

    columns = ["original_sentence", "orig_sent_id", "changed_sentence", "changed_sent_id", "original_file_name", "orig_ann"]
    return pd.DataFrame(dataset, columns=columns)

In [None]:
# with open("/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_orig/bruk/c0c436cc9cb6.txt", 'r', encoding='utf-8') as f:
#     orig_sent = f.readlines()
#     print(len(orig_sent))

44


In [49]:
parallel_dataset_bruk_dataset = process_files(orig_bruk_folder, swapped_bruk_folder)

100%|██████████| 262/262 [00:06<00:00, 40.34it/s]


In [None]:
# parallel_dataset_bruk_dataset[parallel_dataset_bruk_dataset['original_file_name']=='0ac5140eb732.txt']

In [52]:
parallel_dataset_bruk_dataset.head()

Unnamed: 0,original_sentence,orig_sent_id,changed_sentence,changed_sent_id,original_file_name,orig_ann
0,Його редактором був поет-символіст Яків Савчен...,46,Його редакторкою була поетеса-символістка Анже...,46,e5e76a8efa0f.txt,"{'T30': ('поет-символіст', 'JOB')}"
1,Міжпредметні паралелі . Маніфест футуристів ск...,62,Міжпредметні паралелі . Маніфест футуристок ск...,62,e5e76a8efa0f.txt,"{'T49': ('поет', 'JOB')}"
2,Помітною була організація « Гарт » ( 1923 — 19...,96,Помітною була організація « Гарт » ( 1923 — 19...,96,e5e76a8efa0f.txt,"{'T104': ('поет', 'JOB')}"
3,Її очолив байкар і прозаїк Сергій Пилипенко .,127,Її очолила байкарка і прозаїкиня Марія Пилипен...,127,e5e76a8efa0f.txt,"{'T143': ('байкар', 'JOB'), 'T144': ('прозаїк'..."
4,У Галицько-Волинському літописі згадується спі...,171,У Галицько-Волинському літописі згадується спі...,171,e5e76a8efa0f.txt,"{'T218': ('співець', 'JOB')}"


In [53]:
parallel_dataset_ng_dataset = process_files(orig_ng_folder, swapped_ng_folder)

  0%|          | 0/298 [00:00<?, ?it/s]

100%|██████████| 298/298 [00:03<00:00, 90.87it/s] 


In [56]:
parallel_dataset_ng_dataset.head()

Unnamed: 0,original_sentence,orig_sent_id,changed_sentence,changed_sent_id,original_file_name,orig_ann,changed_ann
0,"Слідчі встановили, що у 2018-2019 рр. управлін...",2,"Слідчі встановили, що у 2018-2019 рр. управлін...",2,104263660695.txt,"{'T6': ('Слідчі', 'JOB')}","{'T6': ('Слідчі', 'JOB')}"
1,Суд надав слідчим доступ до документації щодо ...,7,Суд надав слідчій доступ до документації щодо ...,7,104263660695.txt,"{'T23': ('слідчим', 'JOB')}","{'T23': ('слідчій', 'JOB')}"
2,"Директором та засновником ТОВ «Армшляхбуд», ст...",8,"Директоркою та засновницею ТОВ «Армшляхбуд», с...",8,104263660695.txt,"{'T25': ('Директором', 'JOB'), 'T26': ('заснов...","{'T25': ('Директоркою', 'JOB'), 'T26': ('засно..."
3,Співвласником цієї компанії у свою чергу з час...,5,Співвласницею цієї компанії у свою чергу з час...,5,97c7987b8f9c.txt,"{'T17': ('голова наглядової ради', 'JOB')}","{'T17': ('голова наглядової ради', 'JOB')}"
4,Одесит Іван Плачков почав працювати в компанії...,6,Одеситка Іванна Плачкова почала працювати в ко...,6,97c7987b8f9c.txt,"{'T25': ('головою правління', 'JOB')}","{'T25': ('головою правління', 'JOB')}"


In [63]:
parallel_dataset_ng_dataset[parallel_dataset_ng_dataset['original_file_name']=='0e31947e4561.txt']


Unnamed: 0,original_sentence,orig_sent_id,changed_sentence,changed_sent_id,original_file_name,orig_ann,changed_ann
620,Службові особи лісових господарств Житомирсько...,0,Службові особи лісових господарств Житомирсько...,0,0e31947e4561.txt,"{'T2': ('підрядниками', 'JOB')}","{'T2': ('підрядницями', 'JOB')}"
621,"Приміром, слідство вказує, що одним із підрядн...",4,"Приміром, слідство вказує, що одним із підрядн...",4,0e31947e4561.txt,"{'T10': ('підрядників', 'JOB')}","{'T10': ('підрядниць', 'JOB')}"
622,"Слідчі встановили, що значну частину робіт для...",5,"Слідчі встановили, що значну частину робіт для...",5,0e31947e4561.txt,"{'T12': ('Слідчі', 'JOB')}","{'T12': ('Слідчі', 'JOB')}"
623,Суд надав слідчим доступ до документації остан...,7,Суд надав слідчим доступ до документації остан...,7,0e31947e4561.txt,"{'T15': ('слідчим', 'JOB')}","{'T15': ('слідчим', 'JOB')}"
624,У 2011 році директором фірми був тодішній депу...,9,У 2011 році директоркою фірми була тодішня деп...,9,0e31947e4561.txt,"{'T21': ('директором', 'JOB'), 'T22': ('депута...","{'T21': ('директоркою', 'JOB'), 'T22': ('депут..."
625,Надалі засновниками компанії ставали лондонськ...,12,Надалі засновницями компанії ставали лондонськ...,12,0e31947e4561.txt,"{'T30': ('засновниками', 'JOB'), 'T32': ('засн...","{'T30': ('засновницями', 'JOB'), 'T32': ('засн..."
626,"Нинішнім засновником і директором компанії, як...",13,"Нинішньою засновницею і директоркою компанії, ...",13,0e31947e4561.txt,"{'T38': ('засновником', 'JOB'), 'T39': ('дирек...","{'T38': ('засновницею', 'JOB'), 'T39': ('дирек..."
627,Засновником і директором ПП «Індустріальна ком...,15,Засновницею і директоркою ПП «Індустріальна ко...,15,0e31947e4561.txt,"{'T48': ('Засновником', 'JOB'), 'T49': ('дирек...","{'T48': ('Засновницею', 'JOB'), 'T49': ('дирек..."


In [60]:
def find_changed_ann(orig_annotation, filename, path):
    
    list_of_inds = [ind for ind, ent in orig_annotation.items()]

    changed_ann_file = path + filename.replace(".txt", "_1.ann")

    entities = parse_ann_file(changed_ann_file)
    labeled_dict = {}

    for ent in entities:
           if ent['ind'] in list_of_inds:
                labeled_dict[ent["ind"]] = (ent['text'], ent["label"])
    return labeled_dict

parallel_dataset_bruk_dataset['changed_ann'] = parallel_dataset_bruk_dataset.apply(lambda x: find_changed_ann(x['orig_ann'], x['original_file_name'], "/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_swapped/bruk_changed/"), axis=1)
parallel_dataset_ng_dataset['changed_ann'] = parallel_dataset_ng_dataset.apply(lambda x: find_changed_ann(x['orig_ann'], x['original_file_name'], "/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_swapped/ng_changed/"), axis=1)

In [None]:
# /Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_orig/bruk/87ae82667e2a.txt 

In [61]:
parallel_dataset_bruk_dataset.to_csv("/Users/linndfors/study/diploma/ner_for_fem/data/csv_files_with_par_sentences/bruk_parallel.csv", index=0)
parallel_dataset_ng_dataset.to_csv("/Users/linndfors/study/diploma/ner_for_fem/data/csv_files_with_par_sentences/ng_parallel.csv", index=0)

In [62]:
parallel_dataset_bruk_dataset[parallel_dataset_bruk_dataset['orig_sent_id'] != parallel_dataset_bruk_dataset['changed_sent_id']]

Unnamed: 0,original_sentence,orig_sent_id,changed_sentence,changed_sent_id,original_file_name,orig_ann,changed_ann
41,В наших умовах у таких « рольових коконах » пр...,6,В наших умовах у таких « рольових коконах » пр...,3,87ae82667e2a.txt,"{'T3': ('лектори', 'JOB')}","{'T3': ('лекторки', 'JOB')}"
42,"Можливо , комусь ця думка здасться блюзнірчою ...",16,"Можливо , комусь ця думка здасться блюзнірчою ...",8,87ae82667e2a.txt,"{'T18': ('режисером', 'JOB')}","{'T18': ('режисеркою', 'JOB')}"
73,Коломийська влада в особі міського голови Ігор...,2,Коломийська влада в особі міської голови Анаст...,1,e010e86e436c.txt,"{'T5': ('міського голови', 'JOB'), 'T7': ('нач...","{'T5': ('міської голови', 'JOB'), 'T7': ('нача..."
74,"Народний депутат України Андрій Іванчук , пере...",7,"Народна депутатка України Марія Іванчук , пере...",5,e010e86e436c.txt,"{'T10': ('Народний депутат', 'JOB')}","{'T10': ('Народна депутатка', 'JOB')}"
75,Львів ще від часів українських королів і князі...,23,Львів ще від часів українських королев і княги...,12,7b2c9399fee9.txt,"{'T26': ('королів', 'JOB'), 'T27': ('князів', ...","{'T26': ('королев', 'JOB'), 'T27': ('княгинь',..."
...,...,...,...,...,...,...,...
259,"І Лянґе зрозумів , що він більше не має сил об...",25,"І Лянґе зрозуміла , що вона більше не має сил ...",13,ef1b6bd52747.txt,"{'T31': ('мовознавцем', 'JOB')}","{'T31': ('мовознавицею', 'JOB')}"
293,Тож фон Трієру я винна окрему дяку : з усіх мо...,4,Тож фон Трієру я винна окрему дяку : з усіх мо...,2,f5bb37569413.txt,"{'T2': ('режисера', 'JOB')}","{'T2': ('режисерки', 'JOB')}"
294,"З погляду бджоли , різниці між мною і колишнім...",48,"З погляду бджоли , різниці між мною і колишньо...",24,f5bb37569413.txt,"{'T24': ('наркомом', 'JOB'), 'T25': ('головою'...","{'T24': ('наркомкою', 'JOB'), 'T25': ('головою..."
295,І за яким хріном ми з академіком Петросянцем б...,56,І за яким хріном ми з академікинею Петросянець...,28,f5bb37569413.txt,"{'T30': ('академіком', 'JOB')}","{'T30': ('академікинею', 'JOB')}"


## Split: Female, Male, Common genders

In [None]:
with open('/Users/linndfors/study/diploma/uk-gender-word-mapper/common_gender_words_list.txt') as file:
    common_gender_words_list = [line.strip() for line in file if line.strip()]

with open('/Users/linndfors/study/diploma/uk-gender-word-mapper/male_words_list.txt') as file:
    male_list = [line.strip() for line in file if line.strip()]

with open('/Users/linndfors/study/diploma/uk-gender-word-mapper/female_words_list.txt') as file:
    female_list = [line.strip() for line in file if line.strip()]

gender_dict_df = pd.read_csv("/Users/linndfors/study/diploma/uk-gender-word-mapper/gender_pairs_dictionary.csv")

gender_dict = {'male': [], 'female': []}

for _, row in gender_dict_df.iterrows():
    gender_dict['male'].append(row['male'])
    female_values = [f.strip() for f in row['female'].split(',')]
    gender_dict['female'].extend(female_values)

gender_dict['female'] = list(set(gender_dict['female']))

In [374]:
import stanza
import pymorphy3
import pymorphy2

nlp = stanza.Pipeline('uk', processors='tokenize,mwt,pos,lemma,depparse')
morph = pymorphy3.MorphAnalyzer()


# # # stanza.download('uk')
# nlp = stanza.Pipeline('uk', processors='tokenize,mwt,pos,lemma')

2025-03-17 22:05:17 INFO: Checking for updates to resources.json in case models have been updated.  Note: this behavior can be turned off with download_method=None or download_method=DownloadMethod.REUSE_RESOURCES


Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.10.0.json:   0%|  …

2025-03-17 22:05:17 INFO: Downloaded file to /Users/linndfors/stanza_resources/resources.json
2025-03-17 22:05:19 INFO: Loading these models for language: uk (Ukrainian):
| Processor | Package     |
---------------------------
| tokenize  | iu          |
| mwt       | iu          |
| pos       | iu_charlm   |
| lemma     | iu_nocharlm |
| depparse  | iu_charlm   |

2025-03-17 22:05:19 INFO: Using device: cpu
2025-03-17 22:05:19 INFO: Loading: tokenize
2025-03-17 22:05:19 INFO: Loading: mwt
2025-03-17 22:05:19 INFO: Loading: pos
2025-03-17 22:05:32 INFO: Loading: lemma
2025-03-17 22:05:38 INFO: Loading: depparse
2025-03-17 22:05:39 INFO: Done loading processors!


In [None]:
# def extract_main_word(text):
#     # Process the text with Stanza
#     doc = nlp(text)
    
#     # Check the dependency parse for the main word
#     for sentence in doc.sentences:
#         # Get the head word based on dependencies
#         for word in sentence.words:
#             if word.head == 0:  # The head of the sentence (the main word)
#                 return word.lemma

#     # Fallback if no head word found
#     return None

# # Test the function
# text = "докторантка відділу соціальної антропології"
# main_word = extract_main_word(text)
# print(main_word)

докторантка


In [None]:
# entity = 'судді'
# job = nlp(entity)

# job_ent_list = [word.lemma for sent in job.sentences for word in sent.words]
# job_lemma = " ".join(job_ent_list)

# print("Corrected lemma:", job_lemma)

# # if len(job_ent_list) > 1:
# #     job_lemma = extract_main_word(job_lemma)
# #     print("main word:", job_lemma)

lemma: судді
Corrected lemma: судді


In [None]:
# text = "топ-менеджерів"
# main_word = extract_main_word(text)
# print(f"Main word of '{text}': {main_word}")

In [None]:

# # Initialize pymorphy3 analyzer

# def get_lemma_from_pymorphy(entity):
#     # Split the entity into words and lemmatize each word
#     words = entity.split()  # Split by spaces to handle multi-word entities
#     lemmatized_words = [morph.parse(word)[0].normal_form for word in words]
    
#     # Join the lemmatized words back into a single string
#     return " ".join(lemmatized_words)
# get_lemma_from_pymorphy("голові")


In [385]:
def extract_main_word(text):
    if "-" in text:
        parts = text.split("-")
        main_word = parts[-1]
        doc = nlp(main_word)
        for sentence in doc.sentences:
            for word in sentence.words:
                return word.lemma

    doc = nlp(text)


    for sentence in doc.sentences:
        for word in sentence.words:
            if word.head == 0:
                main_word = word
                if main_word.text in {"рок", "анти", "псевдо", "віце", "топ"}:
                    continue
                return main_word.lemma
    for sentence in doc.sentences:
        for word in sentence.words:
            return word.lemma
        
def extract_gender(entity):
    entity = entity.lower()
    job = nlp(entity)
    join_sign = " " if " " in entity else ("" if "-" in entity else "")
    job_ent_list = [word.lemma for sent in job.sentences for word in sent.words]
    job_lemma = join_sign.join(job_ent_list)

    if len(job_ent_list) > 1:
        job_lemma = extract_main_word(job_lemma)

    words = entity.split()
    lemmatized_words = []
    for word in words:
        parsed_word = morph.parse(word)[0]
        if 'plur' in parsed_word.tag:
            singular_form = parsed_word.inflect({'sing'}).word if parsed_word.inflect({'sing'}) else parsed_word.normal_form
            lemmatized_words.append(singular_form)
        else:
            lemmatized_words.append(parsed_word.normal_form)
            
    job_lemma_pymorphy = join_sign.join(lemmatized_words)

    if len(job_ent_list) > 1:
        job_lemma_pymorphy = extract_main_word(job_lemma_pymorphy)
        
    for x in [job_lemma, entity, job_lemma_pymorphy]:
        if x in ["судді", "ченці", "ченців"]:
            return "common"
        elif (x in gender_dict['female']) or (x in female_list) or ("знавиця" in x):
            return "female"
        elif (x in gender_dict['male']) or (x in male_list) or ("знавець" in x) or (x=="мера"):
            return "male"
        elif x in common_gender_words_list:
            return "common"
        
    print("unkown for:", entity, " - ", job_lemma, " - ", job_lemma_pymorphy)
    return "unknown_gender"

In [386]:
file_gender_dict = {"male": {}, "female": {}, "common": {}, "unknown_gender": {}}

total_job_counter = 0
job_list = []

for x, row in tqdm.tqdm(parallel_dataset_ng_dataset.iterrows()):
    filename = row['original_file_name']
    orig_annotation = row['orig_ann']
    
    try:
        for ent, feat in orig_annotation.items():
            if feat[1] == 'JOB':
                total_job_counter += 1
                job_list.append(ent)
                gender_value = extract_gender(ent)
                
                if filename not in file_gender_dict[gender_value]:
                    file_gender_dict[gender_value][filename] = [(ent, feat[0])]
                else:
                    file_gender_dict[gender_value][filename].append((ent, feat[0]))
                
    except Exception as e:
        print(f"Issue with row: {row} - Error: {e}")

7it [00:03,  1.47it/s]

unkown for: начальником відділу  -  відділ  -  відділ


10it [00:05,  1.76it/s]

unkown for: начальника відділу  -  відділ  -  відділ


19it [00:08,  1.83it/s]

unkown for: першого віце – прем'єр – міністра україни  -  перший  -  українити


133it [00:45,  2.12it/s]

unkown for: в. о. голови  -  в  -  головити


181it [01:05,  4.60it/s]

unkown for: керівництво  -  керівництво  -  керівництво
unkown for: податківці  -  податок  -  податківці


185it [01:07,  2.40it/s]

unkown for: голови митниці  -  митниця  -  головити


198it [01:10,  4.33it/s]

unkown for: начальником виробничо-технічного відділу  -  технічний  -  технічний


222it [01:20,  1.53it/s]

unkown for: керівник проектів та програм у сфері науково-технічної діяльності компанії  -  технічний  -  технічний


235it [01:25,  2.92it/s]

unkown for: начальника відділу  -  відділ  -  відділ


237it [01:25,  2.99it/s]

unkown for: _керівником  -  ткерівник  -  _керівник


250it [01:28,  5.76it/s]

unkown for: начальник відділу міжнародних проектів  -  відділ  -  відділ


251it [01:31,  1.01it/s]

unkown for: т. в. о. начальника управління міжнародного співробітництва  -  в.  -  т.


267it [01:36,  4.24it/s]

unkown for: начальника відділу  -  відділ  -  відділ


314it [01:50,  2.79it/s]

unkown for: в. о. керівника  -  в  -  в.


320it [01:53,  2.19it/s]

unkown for: народного депутата-бютівця  -  бютівець  -  бютівець


331it [01:58,  1.16it/s]

unkown for: віце-прем'єра  -  прем’єрний  -  прем’єрый


336it [01:59,  3.54it/s]

unkown for: прем'єр  -  прем’єра  -  прем'єр


350it [02:05,  2.65it/s]

unkown for: в. о. начальника  -  в  -  в.


387it [02:17,  2.50it/s]

unkown for: директором комунального підприємства  -  підприємство  -  підприємство


418it [02:28,  1.69it/s]

unkown for: начальника відділу досліджень і розслідувань  -  відділ  -  відділ


469it [02:41,  3.16it/s]

unkown for: голови тендерного комітету  -  комітет  -  головити


509it [02:53,  2.93it/s]

unkown for: головні мисливствознавці держлісгоспів  -  мисливствітнавка  -  мисливствітнавка
unkown for: аграрія  -  аграрія  -  аграріть


567it [03:07,  4.98it/s]

unkown for: смотрящим  -  смотрящий  -  смотреть


640it [03:27,  3.69it/s]

unkown for: начальник юридично-експертного відділу  -  експертний  -  експертный


642it [03:29,  1.97it/s]

unkown for: начальник юридично-експертного відділу  -  експертний  -  експертный


662it [03:36,  2.12it/s]

unkown for: в. о. начальника управління  -  в  -  в.


674it [03:38,  6.35it/s]

unkown for: службовці  -  службовка  -  службовці


691it [03:44,  2.22it/s]

unkown for: директор департаменту з питань традиційних та альтернативних палив  -  департамент  -  палити


736it [03:57,  2.68it/s]

unkown for: прокурор відділу процесуального керівництва у кримінальних провадженнях слідчих  -  відділ  -  відділ


748it [04:06,  2.19it/s]

unkown for: в. о. генерального директора  -  в  -  в.


753it [04:11,  1.42it/s]

unkown for: голови економічної контррозвідки  -  контррозвідка  -  головити


754it [04:11,  1.53it/s]

unkown for: головою спецслужби  -  спецслужба  -  спецслужбіти


791it [04:25,  5.87it/s]

unkown for: аграрії  -  аграрія  -  аграрії


857it [04:44,  2.35it/s]

unkown for: підрядником департаменту  -  департамент  -  департамент


871it [04:47,  5.68it/s]

unkown for: податківців  -  податокець  -  податківціть


915it [05:04,  3.65it/s]

unkown for: в. о. гендиректора держкомпанії  -  в  -  в.


932it [05:10,  2.81it/s]

unkown for: генпідрядника  -  генпідрядник  -  генпідрядник


937it [05:12,  2.19it/s]

unkown for: т. в. о. директора  -  в.  -  в.


959it [05:20,  2.38it/s]

unkown for: податківка  -  податківка  -  податківка


961it [05:20,  2.73it/s]

unkown for: податківка  -  податківка  -  податківка


980it [05:29,  2.87it/s]

unkown for: в. о. управління  -  в  -  в.


996it [05:34,  3.97it/s]

unkown for: генпідрядником  -  генпідрядник  -  генпідрядник


997it [05:35,  3.43it/s]

unkown for: віце-прем'єра  -  прем’єрний  -  прем’єрый


1022it [05:45,  2.08it/s]

unkown for: глави держави  -  держава  -  державити


1028it [05:47,  2.96it/s]


In [387]:
print("total size:", total_job_counter)

for gender_class, val in file_gender_dict.items():
    print("gender:", gender_class)
    print("size:", len(file_gender_dict[gender_class]))

total size: 1353
gender: male
size: 267
gender: female
size: 16
gender: common
size: 68
gender: unknown_gender
size: 39


In [388]:
orig_female_files = []
orig_male_files = []
orig_common_files = []

In [389]:
for gen, file_with_ent in file_gender_dict.items():
    for filename, ent_with_ind in file_with_ent.items():
        if gen == "male":
            orig_male_files.append(filename)
        elif gen == "female":
            orig_female_files.append(filename)
        elif gen == "common":
            orig_common_files.append(filename)

In [390]:
file_gender_dict_swapped = {"male": {}, "female": {}, "common": {}, "unknown_gender": {}}

total_job_counter_swapped = 0
job_list_swapped = []

for x, row in tqdm.tqdm(parallel_dataset_ng_dataset.iterrows()):
    filename = row['original_file_name']
    filename = filename.replace(".txt", "_1.txt")
    orig_annotation = row['changed_ann']
    
    try:
        for ent, feat in orig_annotation.items():
            if feat[1] == 'JOB':
                total_job_counter_swapped += 1
                job_list_swapped.append(ent)
                gender_value = extract_gender(ent)
                
                if filename not in file_gender_dict_swapped[gender_value]:
                    file_gender_dict_swapped[gender_value][filename] = [(ent, feat[0])]
                else:
                    file_gender_dict_swapped[gender_value][filename].append((ent, feat[0]))
                
    except Exception as e:
        print(f"Issue with row: {row} - Error: {e}")

7it [00:04,  1.40it/s]

unkown for: начальницею відділу  -  відділ  -  відділ


9it [00:06,  1.15it/s]

unkown for: начальницю відділу  -  відділ  -  відділ


11it [00:06,  1.70it/s]

unkown for: психіатрині  -  психіатрина  -  психіатрині
unkown for: наркологині  -  наркологин  -  наркологині


19it [00:10,  1.61it/s]

unkown for: першої віце – прем'єр – міністерки україни  -  перший  -  українити


62it [00:19,  3.91it/s]

unkown for: рітейлерками  -  рітейлерко  -  рітейлеркой


85it [00:24,  3.34it/s]

unkown for: академічки  -  академічка  -  академічка


87it [00:25,  2.63it/s]

unkown for: екологині  -  екологина  -  екологині


128it [00:43,  1.25it/s]

unkown for: начальниці відділу розслідувань недобросовісної конкуренції невиробничої сфери  -  відділ  -  відділ


133it [00:46,  2.17it/s]

unkown for: в. о. голови  -  в  -  головити


152it [00:54,  4.99it/s]

unkown for: бойовички  -  бойовичка  -  бойовичка


181it [01:05,  4.10it/s]

unkown for: керівництво  -  керівництво  -  керівництво
unkown for: податківчині  -  податківчина  -  податківчині


185it [01:07,  2.26it/s]

unkown for: голови митниці  -  митниця  -  головити


189it [01:09,  2.78it/s]

unkown for: журналісткам  -  журналістки  -  журналістке


198it [01:11,  4.15it/s]

unkown for: начальником виробничо-технічного відділу  -  технічний  -  технічний


222it [01:22,  1.42it/s]

unkown for: керівниця проєктів та програм у сфері науково-технічної діяльності компанії  -  технічний  -  технічний


235it [01:26,  2.72it/s]

unkown for: начальниці відділу  -  відділ  -  відділ


237it [01:27,  2.91it/s]

unkown for: _керівницею  -  хкерівниця  -  _керівница


250it [01:30,  5.99it/s]

unkown for: начальниця відділу міжнародних проектів  -  відділ  -  відділ


251it [01:32,  1.37it/s]

unkown for: т. в. о. начальниці управління міжнародного співробітництва  -  т.  -  в.


252it [01:34,  1.23it/s]

unkown for: де  -  де  -  де
unkown for: антимонопольниць  -  антимонопольниця  -  антимонопольниць


258it [01:36,  3.16it/s]

unkown for: де  -  де  -  де


266it [01:38,  3.22it/s]

unkown for: начальниці відділу  -  відділ  -  відділ


280it [01:42,  2.78it/s]

unkown for: членкині наглядової ради  -  рада  -  членкин


314it [01:53,  2.67it/s]

unkown for: в. о. керівниці  -  в.  -  в.


320it [01:55,  2.45it/s]

unkown for: народну депутатку-бютівку  -  бютівка  -  бютівка


331it [02:01,  1.24it/s]

unkown for: віце-прем'єра  -  прем’єрний  -  прем’єрый


350it [02:08,  1.98it/s]

unkown for: в. о. начальниці  -  в.  -  в.


362it [02:12,  2.74it/s]

unkown for: освітя́нок  -  освітя́нка  -  освітя́нки


387it [02:20,  2.56it/s]

unkown for: директоркою комунального підприємства  -  підприємство  -  підприємство


418it [02:30,  1.61it/s]

unkown for: начальниці відділу досліджень і розслідувань  -  відділ  -  відділ


469it [02:43,  3.21it/s]

unkown for: голови тендерного комітету  -  комітет  -  головити


472it [02:45,  2.87it/s]

unkown for: головній інженерці  -  інженерець  -  головнити


509it [02:59,  2.70it/s]

unkown for: головні мисливствознавиці держлісгоспів  -  мисливствітнацець  -  держлісгоспіть


527it [03:04,  5.15it/s]

unkown for: юристок  -  юристок  -  юристок


567it [03:15,  4.91it/s]

unkown for: смотрящою  -  смотрящий  -  смотрящий


595it [03:24,  2.49it/s]

unkown for: держекоінспекторки  -  держекоінспоректор  -  держекоінспекторка


603it [03:26,  4.78it/s]

unkown for: компанії  -  компанія  -  компанії


639it [03:40,  2.64it/s]

unkown for: начальниця юридично-експертного відділу  -  експертний  -  експертный


641it [03:40,  2.49it/s]

unkown for: завідувачку виробничого відділу  -  відділ  -  відділ
unkown for: інженерок  -  інженерок  -  інженерки


642it [03:41,  1.86it/s]

unkown for: начальниця юридично-експертного відділу  -  експертний  -  експертный


645it [03:42,  3.00it/s]

unkown for: антимонопольниць  -  антимонопольниця  -  антимонопольниць


654it [03:47,  1.83it/s]

unkown for: начальницею відділу майна та приватизації  -  відділ  -  відділ


662it [03:53,  1.42it/s]

unkown for: в. о. начальниці управління  -  в  -  в.


674it [03:55,  5.70it/s]

unkown for: службовиці  -  службовице  -  службовиці


677it [03:55,  5.67it/s]

unkown for: нардепками  -  нардепок  -  нардепкой


679it [03:56,  3.43it/s]

unkown for: замгубернаторкою  -  замгубернаторка  -  замгубернаторка


682it [03:59,  1.55it/s]

unkown for: родина екс-презид  -  презид  -  презид


684it [04:00,  1.82it/s]

unkown for: родина екс-презид  -  презид  -  презид


688it [04:01,  2.27it/s]

unkown for: начальниці рекламного відділу  -  відділ  -  відділ


691it [04:03,  1.60it/s]

unkown for: директорка департаменту з питань традиційних та альтернативних палив  -  департамент  -  палити


736it [04:19,  2.31it/s]

unkown for: прокурорка відділу процесуального керівництва у кримінальних провадженнях слідчих  -  відділ  -  відділ


738it [04:20,  3.41it/s]

unkown for: начальниця відділу лісового господарства  -  відділ  -  відділ
unkown for: інженерка лісового господарства  -  господарство  -  господарство


747it [04:30,  1.58it/s]

unkown for: в. о. генеральної директорки  -  в  -  в.


752it [04:34,  1.35it/s]

unkown for: сбушниці  -  сбушниця  -  сбушниці


753it [04:35,  1.27it/s]

unkown for: голови економічної контррозвідки  -  контррозвідка  -  головити


754it [04:35,  1.43it/s]

unkown for: головою спецслужби  -  спецслужба  -  спецслужбіти
unkown for: ревізорок  -  ревізорок  -  ревізоркий


768it [04:41,  2.05it/s]

unkown for: нардепок  -  нардепок  -  нардепки


789it [04:50,  3.07it/s]

unkown for: бізнесменок  -  бізнесменок  -  бізнесменки


790it [04:51,  3.66it/s]

unkown for: аграрії  -  аграрія  -  аграрії


837it [05:04,  2.91it/s]

unkown for: прокуророк  -  прокуророк  -  прокуророк


855it [05:13,  1.57it/s]

unkown for: екс-замгубернаторки  -  замгубернаторка  -  замгубернаторка


856it [05:13,  1.62it/s]

unkown for: підрядницею департаменту  -  департамент  -  департамент


871it [05:19,  2.22it/s]

unkown for: податківниць  -  податківниця  -  податківниць


910it [05:36,  3.23it/s]

unkown for: прокуророк  -  прокуророк  -  прокуророк


915it [05:37,  3.20it/s]

unkown for: в. о. гендиректорки держкомпанії  -  в  -  в.


932it [05:45,  2.54it/s]

unkown for: генпідрядниці  -  генпідрядниця  -  генпідрядниці


937it [05:47,  2.46it/s]

unkown for: т. в. о. директорки  -  т.  -  в.


952it [05:52,  2.80it/s]

unkown for: екологині  -  екологина  -  екологині


953it [05:52,  3.26it/s]

unkown for: екологині  -  екологина  -  екологині


956it [05:55,  1.34it/s]

unkown for: начальницю відділу податків і зборів з юридичних осіб  -  відділ  -  податкути


968it [05:59,  2.40it/s]

unkown for: світлана зубачик  -  зубачик  -  зубачик


970it [06:00,  2.78it/s]

unkown for: світлана зубачик  -  зубачик  -  зубачик


980it [06:03,  3.92it/s]

unkown for: в. о. управління  -  в  -  в.


996it [06:07,  4.40it/s]

unkown for: генпідрядницею  -  генпідрядниця  -  генпідрядница


1022it [06:18,  2.59it/s]

unkown for: глави держави  -  держава  -  державити


1028it [06:19,  2.71it/s]


In [391]:
print("total size:", total_job_counter_swapped)

for gender_class, val in file_gender_dict_swapped.items():
    print("gender:", gender_class)
    print("size:", len(file_gender_dict_swapped[gender_class]))

total size: 1353
gender: male
size: 79
gender: female
size: 262
gender: common
size: 68
gender: unknown_gender
size: 62


In [392]:
swapped_female_files = []
swapped_male_files = []
swapped_common_files = []

In [393]:
for gen, file_with_ent in file_gender_dict_swapped.items():
    for filename, ent_with_ind in file_with_ent.items():
        if gen == "male":
            swapped_male_files.append(filename)
        elif gen == "female":
            swapped_female_files.append(filename)
        elif gen == "common":
            swapped_common_files.append(filename)

In [395]:
# swapped_female_files_global = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/bruk_changed/" + filename for filename in swapped_female_files]
# swapped_male_files_global = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/bruk_changed/" + filename for filename in swapped_male_files]
# swapped_common_files_global = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/bruk_changed/" + filename for filename in swapped_common_files]

swapped_female_files_global = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/ng_changed/" + filename for filename in swapped_female_files]
swapped_male_files_global = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/ng_changed/" + filename for filename in swapped_male_files]
swapped_common_files_global = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/ng_changed/" + filename for filename in swapped_common_files]

In [396]:
# orig_male_files = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/bruk/" + filename for filename in orig_male_files]
# orig_female_files = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/bruk/" + filename for filename in orig_female_files]
# orig_common_files = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/bruk/" + filename for filename in orig_common_files]

orig_male_files = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/ng/" + filename for filename in orig_male_files]
orig_female_files = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/ng/" + filename for filename in orig_female_files]
orig_common_files = ["/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_balanced/ng/" + filename for filename in orig_common_files]

In [397]:
# bruk_male_files = swapped_male_files_global + orig_male_files
# bruk_female_files = swapped_female_files_global + orig_female_files
# bruk_common_files = swapped_common_files_global + orig_common_files

ng_male_files = swapped_male_files_global + orig_male_files
ng_female_files = swapped_female_files_global + orig_female_files
ng_common_files = swapped_common_files_global + orig_common_files

In [399]:
import shutil

In [405]:
# for male_file in ng_male_files:
#     # source_path = male_file
#     source_path = male_file.replace(".txt", ".ann")
#     destination_dir = '/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_gender/data_for_ner_male/ng'

#     file_name = os.path.basename(source_path)

#     destination_path = os.path.join(destination_dir, file_name)

#     shutil.copy(source_path, destination_path)

# for female_file in ng_female_files:
#     # source_path = female_file
#     source_path = female_file.replace(".txt", ".ann")
#     destination_dir = '/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_gender/data_for_ner_female/ng'

#     file_name = os.path.basename(source_path)

#     destination_path = os.path.join(destination_dir, file_name)

#     shutil.copy(source_path, destination_path)

for common_file in ng_common_files:
    # source_path = common_file
    source_path = common_file.replace(".txt", ".ann")
    destination_dir = '/Users/linndfors/study/diploma/ner_for_fem/data/data_for_ner/data_for_ner_gender/data_for_ner_common/ng'

    file_name = os.path.basename(source_path)

    destination_path = os.path.join(destination_dir, file_name)

    shutil.copy(source_path, destination_path)