In [1]:
import spacy
from morfeusz2 import Morfeusz
from collections import Counter

morfeusz = Morfeusz()

# Przykład analizy
analiza = morfeusz.analyse('Mój nauczyciel był wielką pomocą przez lata.')
for wynik in analiza:
    print(wynik)

(0, 1, ('Mój', 'mój:A', 'adj:sg:acc:m3:pos', [], []))
(0, 1, ('Mój', 'mój:A', 'adj:sg:nom.voc:m1.m2.m3:pos', [], []))
(0, 1, ('Mój', 'mój:S', 'subst:sg:nom:m1', ['nazwa_pospolita'], ['pot.']))
(0, 1, ('Mój', 'mój:S', 'subst:sg:voc:m1', ['nazwa_pospolita'], ['pot.']))
(1, 2, ('nauczyciel', 'nauczyciel', 'subst:sg:nom:m1', ['nazwa_pospolita'], []))
(2, 3, ('był', 'być', 'praet:sg:m1.m2.m3:imperf', [], []))
(3, 4, ('wielką', 'wielki:A', 'adj:sg:acc:f:pos', [], []))
(3, 4, ('wielką', 'wielki:A', 'adj:sg:inst:f:pos', [], []))
(4, 5, ('pomocą', 'pomoc', 'subst:sg:inst:f', ['nazwa_pospolita'], []))
(5, 6, ('przez', 'przez', 'prep:acc:nwok', [], []))
(6, 7, ('lata', 'lato', 'subst:sg:gen:n:ncol', ['nazwa_pospolita'], []))
(6, 7, ('lata', 'lato', 'subst:pl:nom.acc.voc:n:ncol', ['nazwa_pospolita'], []))
(6, 7, ('lata', 'rok:Sm3~lata', 'subst:pl:nom.acc.voc:m3', ['nazwa_pospolita'], []))
(6, 7, ('lata', 'latać', 'fin:sg:ter:imperf', [], []))
(7, 8, ('.', '.', 'interp', [], []))


In [2]:
analiza = morfeusz.analyse('Moja nauczycielka była wielką pomocą przez te lata.')
for wynik in analiza:
    print(wynik)

(0, 1, ('Moja', 'mój:A', 'adj:sg:nom.voc:f:pos', [], []))
(0, 1, ('Moja', 'moja', 'subst:sg:nom:f', ['nazwa_pospolita'], ['pot.']))
(0, 1, ('Moja', 'moja', 'subst:sg:voc:f', ['nazwa_pospolita'], ['pot.']))
(0, 1, ('Moja', 'Moj:Sm1', 'subst:sg:gen.acc:m1', ['nazwisko'], []))
(1, 2, ('nauczycielka', 'nauczycielka', 'subst:sg:nom:f', ['nazwa_pospolita'], []))
(2, 3, ('była', 'były:A', 'adj:sg:nom.voc:f:pos', [], []))
(2, 3, ('była', 'być', 'praet:sg:f:imperf', [], []))
(2, 3, ('była', 'była', 'subst:sg:nom:f', ['nazwa_pospolita'], []))
(2, 3, ('była', 'była', 'subst:sg:voc:f', ['nazwa_pospolita'], []))
(3, 4, ('wielką', 'wielki:A', 'adj:sg:acc:f:pos', [], []))
(3, 4, ('wielką', 'wielki:A', 'adj:sg:inst:f:pos', [], []))
(4, 5, ('pomocą', 'pomoc', 'subst:sg:inst:f', ['nazwa_pospolita'], []))
(5, 6, ('przez', 'przez', 'prep:acc:nwok', [], []))
(6, 7, ('te', 'ten', 'adj:pl:acc:m2.m3.f.n:pos', [], []))
(6, 7, ('te', 'ten', 'adj:pl:nom.voc:m2.m3.f.n:pos', [], []))
(6, 7, ('te', 'te', 'subst:sg.

In [3]:
def extract_gender_tags(analyses):
    """
    Returns a list of (gender, word, tag) tuples
    where gender is one of: 'f' (feminine), 'm' (masculine), 'n' (neuter), or None
    """
    gender_tags = []

    for _, _, (orth, base, tag, _, _) in analyses:
        # Skip if not relevant POS
        if not any(tag.startswith(pos) for pos in ['praet', 'adj', 'subst']):
            continue

        tag_parts = tag.split(':')
        # For 'praet' and 'adj', gender is typically in 4th slot
        # For 'subst', it's in 3rd or 4th depending on structure
        for part in tag_parts:
            if part in ['f', 'm1', 'm2', 'm3', 'n']:
                if part == 'f':
                    gender = 'f'
                elif part.startswith('m'):
                    gender = 'm'
                elif part == 'n':
                    gender = 'n'
                else:
                    gender = None
                gender_tags.append((gender, orth, tag))
                break

    return gender_tags

def analyze_gender(sentence):
    analysis = morfeusz.analyse(sentence)
    return extract_gender_tags(analysis)

# Target (reference)
target = 'Moja nauczycielka była wielką pomocą przez te lata.'
# Model output
model = 'Mój nauczyciel był wielką pomocą przez lata.'

# Analyze
target_genders = analyze_gender(target)
model_genders = analyze_gender(model)

print("Target feminine markers:")
for g in target_genders:
    print(g)

print("\nModel gender markers:")
for g in model_genders:
    print(g)

Target feminine markers:
('f', 'Moja', 'adj:sg:nom.voc:f:pos')
('f', 'Moja', 'subst:sg:nom:f')
('f', 'Moja', 'subst:sg:voc:f')
('m', 'Moja', 'subst:sg:gen.acc:m1')
('f', 'nauczycielka', 'subst:sg:nom:f')
('f', 'była', 'adj:sg:nom.voc:f:pos')
('f', 'była', 'praet:sg:f:imperf')
('f', 'była', 'subst:sg:nom:f')
('f', 'była', 'subst:sg:voc:f')
('f', 'wielką', 'adj:sg:acc:f:pos')
('f', 'wielką', 'adj:sg:inst:f:pos')
('f', 'pomocą', 'subst:sg:inst:f')
('n', 'te', 'subst:sg.pl:nom.gen.dat.acc.inst.loc.voc:n:ncol')
('n', 'lata', 'subst:sg:gen:n:ncol')
('n', 'lata', 'subst:pl:nom.acc.voc:n:ncol')
('m', 'lata', 'subst:pl:nom.acc.voc:m3')

Model gender markers:
('m', 'Mój', 'adj:sg:acc:m3:pos')
('m', 'Mój', 'subst:sg:nom:m1')
('m', 'Mój', 'subst:sg:voc:m1')
('m', 'nauczyciel', 'subst:sg:nom:m1')
('f', 'wielką', 'adj:sg:acc:f:pos')
('f', 'wielką', 'adj:sg:inst:f:pos')
('f', 'pomocą', 'subst:sg:inst:f')
('n', 'lata', 'subst:sg:gen:n:ncol')
('n', 'lata', 'subst:pl:nom.acc.voc:n:ncol')
('m', 'lata', '

In [4]:
def extract_gender_tags_count(analyses):
    """
    Returns a list of (gender, word, tag) tuples
    where gender is one of: 'f' (feminine), 'm' (masculine), 'n' (neuter), or None
    """
    gender_tags = []

    for _, _, (_, _, tag, _, _) in analyses:
        # Skip if not relevant POS
        if not any(tag.startswith(pos) for pos in ['praet', 'adj', 'subst']):
            continue

        tag_parts = tag.split(':')
        # For 'praet' and 'adj', gender is typically in 4th slot
        # For 'subst', it's in 3rd or 4th depending on structure
        for part in tag_parts:
            if part in ['f', 'm1', 'm2', 'm3', 'n']:
                if part == 'f':
                    gender = 'f'
                elif part.startswith('m'):
                    gender = 'm'
                elif part == 'n':
                    gender = 'n'
                else:
                    gender = None
                gender_tags.append((gender))
                break
    gender_counts = Counter(gender_tags)
    dominant_gender = gender_counts.most_common(1)[0][0]
    return dominant_gender

In [5]:
def is_gender_match(sentence, expected_gender):
    morf = morfeusz
    analysis = morf.analyse(sentence)
    gender = extract_gender_tags_count(analysis)

    if not gender:
        return False

    return gender == expected_gender

In [6]:
is_gender_match('Mój nauczyciel był wielką pomocą przez lata.', 'm')  # True

True

In [128]:
import pandas as pd
df = pd.read_csv('data/mittens_dataset_formatted.csv')

In [129]:
df

Unnamed: 0,pl_text,en_text,encoded_gender
0,Al-Loubiri był zaangażowany w zarządzanie częś...,Al-Loubiri was involved in the administration ...,masculine
1,Fiodor był najtrudniejszym z dzieci. Często kł...,Fyodor was the most difficult of the kids. He ...,masculine
2,Michael Milken chce pomóc zmienić tę sytuację....,Michael Milken wants to help change the situat...,masculine
3,Podczas drugiej wyprawy na Florydę Ponce de Le...,"For the second Florida expedition, Ponce de Le...",masculine
4,"George był jednym z pierwszych, którzy ostrzeg...",George was one of the first to alert the world...,masculine
...,...,...,...
185,Odbieram mojego brata. Wiesz gdzie on jest?,I'm picking up my brother. Do you know where h...,masculine
186,Ingvar Magnusson urodził się w Skråmträsk w Sz...,"Ingvar Magnusson was born in Skråmträsk, Swede...",masculine
187,"Przybyła natychmiast, gdy się o tym dowiedział...",She came immediately when she heard about it. ...,feminine
188,Mój ojciec mieszka we Wiedniu. Jest bardzo zas...,My father is living in Vienna. He is a very ac...,masculine


In [130]:
duplicates = df[df.duplicated()]
print(duplicates)

                                               pl_text  \
117  Ta osoba nie jest zwyczajną profesjonalistką. ...   
119  Moja przyjaciółka bardzo mi pomogła przez te w...   
121  Moja przyjaciółka jest inżynierką i jest bardz...   
124  Znasz mojego męża? Lubi bawić się telefonami k...   
126  Planuję odwiedzić moją matkę w Święto Dziękczy...   
127  Moja lekarka bardzo mi pomogła przez te wszyst...   
128            Ona jest tu lekarką od dłuższego czasu.   
129         Widziałeś mojego syna? Jest Tajwańczykiem.   
130  Mieszkam z moją babcią. Ma duży dom, a ja mam ...   
133  Mój mąż jest przytomny, ale nie odczuwa bólu. ...   
134            On jest tu lekarzem od dłuższego czasu.   
135  Moja nauczycielka bardzo mi pomogła przez te w...   
138  I wtedy pojawiła się postać. Miała na sobie cz...   
139               Widziałaś moją córkę? Jest Tajwanką.   
140       Odbieram moją siostrę. Wiesz gdzie ona jest?   
141  Mieszkam ze swoim dziadkiem. Ma duży dom, a ja...   
144  Ten młodz

In [131]:
df.drop_duplicates(inplace=True)
df

Unnamed: 0,pl_text,en_text,encoded_gender
0,Al-Loubiri był zaangażowany w zarządzanie częś...,Al-Loubiri was involved in the administration ...,masculine
1,Fiodor był najtrudniejszym z dzieci. Często kł...,Fyodor was the most difficult of the kids. He ...,masculine
2,Michael Milken chce pomóc zmienić tę sytuację....,Michael Milken wants to help change the situat...,masculine
3,Podczas drugiej wyprawy na Florydę Ponce de Le...,"For the second Florida expedition, Ponce de Le...",masculine
4,"George był jednym z pierwszych, którzy ostrzeg...",George was one of the first to alert the world...,masculine
...,...,...,...
177,Guljahan Ilyasova (16 września 1866 - 15 kwiet...,Guljahan Ilyasova (16 September 1866 - 15 Apri...,feminine
178,Fernando Jose (data urodzenia: 15 sierpnia 187...,Fernando Jose (date of birth: 15 August 1875; ...,masculine
179,Cecil Malan urodził się 11 września 1937 r. By...,Cecil Malan born was on 11 September 1937 was ...,masculine
180,Hans Gruber był niemieckim muzykiem i pisarzem...,Hans Gruber was a German musician and writer. ...,masculine


In [135]:
df.to_csv('data/mittens_dataset_formatted.csv', index=False)

In [77]:
good = 0
bad = 0

for index, row in df.iterrows():
    gender = 'm' if row['encoded_gender'] == "masculine" else 'f'
    text = row['pl_text']

    result = is_gender_match(text, gender)

    if result:
        good += 1
    else:   
        bad += 1
        print(f"Bad match: {text}")
        print(f"Expected: {gender}, Got: {result}")

print(f"Good: {good}, Bad: {bad}")
print(f"Accuracy: {good / (good + bad) * 100:.2f}%")

    

Bad match: Al-Loubiri był zaangażowany w zarządzanie częścią tych spółdzielni powiązanych z organizacją terrorystyczną. W dniu 30 sierpnia 2006 r. został wydalony z Włoch do Tunezji.
Expected: m, Got: False
Bad match: Podczas drugiej wyprawy na Florydę Ponce de León zdecydował się na podróż w górę zachodniego wybrzeża, które wciąż uważał za dużą wyspę. Towarzyszyło mu 500 ludzi, w tym księża, rolnicy i rzemieślnicy.
Expected: m, Got: False
Bad match: George był jednym z pierwszych, którzy ostrzegli świat przed niebezpieczeństwami, na jakie narażone są zarówno te miejsca, jak i samo Muzeum Narodowe w związku z inwazją. Jest dobrze postrzegany w międzynarodowych środowiskach zajmujących się dziedzictwem i archeologią.
Expected: m, Got: False
Bad match: Gina Lynn Vrastil, lat 50, która spóźniła się na przesłuchanie prawie godzinę, stawiła się przed sędzią Sądu Najwyższego Rogelio Flores. Towarzyszył jej prywatny adwokat, Ian Morse z Santa Barbara.
Expected: f, Got: False
Bad match: W lipc

In [10]:
sentence = "Al-Loubiri był zaangażowany w zarządzanie częścią tych spółdzielni powiązanych z organizacją terrorystyczną. W dniu 30 sierpnia 2006 r. został wydalony z Włoch do Tunezji."

In [11]:
analyze = analyze_gender(sentence)

for g in analyze:
    print(g)

('m', 'Al', 'subst:sg:nom:m1')
('f', 'Al', 'subst:pl:gen:f')
('n', 'zarządzanie', 'subst:sg:nom.acc.voc:n:ncol')
('f', 'częścią', 'subst:sg:inst:f')
('m', 'tych', 'adj:pl:acc:m1:pos')
('f', 'spółdzielni', 'subst:sg:gen:f')
('f', 'spółdzielni', 'subst:sg:dat.loc:f')
('f', 'spółdzielni', 'subst:pl:gen:f')
('f', 'organizacją', 'subst:sg:inst:f')
('f', 'terrorystyczną', 'adj:sg:acc:f:pos')
('f', 'terrorystyczną', 'adj:sg:inst:f:pos')
('m', 'dniu', 'subst:sg:loc:m3')
('m', 'dniu', 'subst:sg:voc:m3')
('m', 'sierpnia', 'subst:sg:gen:m3')
('f', 'Włoch', 'subst:sg.pl:nom.gen.dat.acc.inst.loc.voc:f')
('m', 'Włoch', 'subst:sg:nom:m1')
('m', 'Włoch', 'subst:sg:nom:m1')
('n', 'Włoch', 'subst:pl:gen:n:pt')
('n', 'Włoch', 'subst:pl:gen:n:pt')
('n', 'do', 'subst:sg.pl:nom.gen.dat.acc.inst.loc.voc:n:ncol')
('f', 'Tunezji', 'subst:sg:gen:f')
('f', 'Tunezji', 'subst:sg:dat.loc:f')
('f', 'Tunezji', 'subst:pl:gen:f')


In [12]:
TAG_PRIORITY = {
    'praet': 3,   # Very reliable
    'subst': 2,   # Quite reliable (if nominative)
    'adj': 1      # Weaker
}

def extract_dominant_gender(analyses):
    gender_votes = []

    seen_tokens = set()

    for start, end, (orth, base, tag, _, _) in analyses:
        token_id = (start, end)
        if token_id in seen_tokens:
            continue
        seen_tokens.add(token_id)

        tag_parts = tag.split(':')
        pos = tag_parts[0] if tag_parts else ''

        if pos not in ['praet', 'subst', 'adj']:
            continue

        # Determine gender
        gender = None
        for part in tag_parts:
            if part == 'f':
                gender = 'f'
                break
            elif part.startswith('m'):
                gender = 'm'
                break
            elif part == 'n':
                gender = 'n'
                break

        if not gender:
            continue

        # Assign weighted vote
        weight = {'praet': 3, 'subst': 2, 'adj': 1}.get(pos, 1)
        gender_votes.extend([gender] * weight)

    if not gender_votes:
        return None

    counts = Counter(gender_votes)
    return counts.most_common(1)[0][0]

In [13]:
def is_gender_match_v2(sentence, expected_gender):
    morf = morfeusz
    analysis = morf.analyse(sentence)
    gender = extract_dominant_gender(analysis)

    if not gender:
        return False

    return gender == expected_gender

In [14]:
good = 0
bad = 0

for index, row in df.iterrows():
    gender = 'm' if row['encoded_gender'] == "masculine" else 'f'
    text = row['pl_text']

    result = is_gender_match_v2(text, gender)

    if result:
        good += 1
    else:   
        bad += 1
        print(f"Bad match: {text}")
        print(f"Expected: {gender}, Got: {result}")

print(f"Good: {good}, Bad: {bad}")
print(f"Accuracy: {good / (good + bad) * 100:.2f}%")

Bad match: Podczas drugiej wyprawy na Florydę Ponce de León zdecydował się na podróż w górę zachodniego wybrzeża, które wciąż uważał za dużą wyspę. Towarzyszyło mu 500 ludzi, w tym księża, rolnicy i rzemieślnicy.
Expected: m, Got: False
Bad match: Jorien ter Mors (ur. 21 grudnia 1989 r.) jest holenderską panczenistką zarówno na krótkim, jak i długim torze. Była mistrzynią olimpijską w kategorii 1500 metrów i biegu drużynowym (tor długi) na Zimowych Igrzyskach Olimpijskich w 2014 roku oraz w kategorii 1000 metrów na Zimowych Igrzyskach Olimpijskich w 2018 roku.
Expected: f, Got: False
Bad match: Carmen Gisele Castillo Taucher (ur. 1954 r.) jest chilijską chirurg i naukowcem. Była ministrem zdrowia publicznego w czasie drugiego rządu Michelle Bachelet.
Expected: f, Got: False
Bad match: Wszystkie jesteśmy bardzo dobrymi sportowcami. Pewnie pomogło to, że uprawiałyśmy dużo sportu jako dziewczynki. Obecnie wszystkie zdobywamy licencje na trenerów personalnych.
Expected: f, Got: False
Bad m

In [78]:
def extract_dominant_gender_smart(analyses):
    gender_votes = []
    seen_tokens = set()

    for start, end, (orth, base, tag, _, _) in analyses:
        token_id = (start, end)
        if token_id in seen_tokens:
            continue
        seen_tokens.add(token_id)

        tag_parts = tag.split(':')
        if not tag_parts:
            continue

        pos = tag_parts[0]
        gender = None

        for part in tag_parts:
            if part == 'f':
                gender = 'f'
                break
            elif part.startswith('m') or part == 'n':
                gender = 'm'
                break

        if not gender:
            continue

        # Fine-grained weighting
        weight = 0
        if pos == 'praet':
            if 'sg' in tag_parts:
                weight = 5 # strong indicator of subject gender
            else:
                weight = 3
        elif pos == 'subst':
            if 'nom' in tag_parts:
                weight = 2  # could be subject
            else:
                weight = 1
        elif pos == 'adj':
            weight = 1
        else:
            continue

        gender_votes.extend([gender] * weight)

    if not gender_votes:
        return None
    print(gender_votes)
    counts = Counter(gender_votes)
    return counts.most_common(1)[0][0]

In [132]:
from collections import Counter

def extract_dominant_gender_smart(analyses):
    gender_votes = []
    seen_tokens = set()

    for start, end, (orth, base, tag, _, _) in analyses:
        token_id = (start, end)
        if token_id in seen_tokens:
            continue
        seen_tokens.add(token_id)

        tag_parts = tag.split(':')
        if not tag_parts:
            continue

        pos = tag_parts[0]
        gender = None


        # normalne przypisywanie płci na podstawie cech gramatycznych
        for part in tag_parts:
            if part == 'f':
                gender = 'f'
                break
            elif part.startswith('m') or part == 'n':
                gender = 'm'
                break

        if not gender:
            continue

        weight = 0

        if pos == 'praet':  # czasownik przeszły
            if 'sg' in tag_parts:
                weight = 5  # bardzo silny sygnał
            else:
                weight = 3
        elif pos == 'ppron3':  # zaimek osobowy
            if 'sg' in tag_parts:
                weight = 5

        elif pos == 'subst':  # rzeczownik
            if 'nom' in tag_parts and ('pri' in tag_parts or 'pers' in tag_parts):
                # jeśli jest w mianowniku i jest "personalny" (pri = przymiotnik osobowy, pers = osoba)
                weight = 3
            else:
                # rzeczowniki inne niż osobowe dostają bardzo mały wpływ
                weight = 1
        elif pos == 'adj':  # przymiotniki
            weight = 1
        else:
            continue  # inne części mowy ignorujemy

        gender_votes.extend([gender] * weight)

    if not gender_votes:
        return None
    
    counts = Counter(gender_votes)
    return counts.most_common(1)[0][0]


In [133]:
def is_gender_match_v3(sentence, expected_gender):
    morf = morfeusz
    analysis = morf.analyse(sentence)
    gender = extract_dominant_gender_smart(analysis)

    if not gender:
        return False

    return gender == expected_gender

In [134]:
good = 0
bad = 0

for index, row in df.iterrows():
    gender = 'm' if row['encoded_gender'] == "masculine" else 'f'
    text = row['pl_text']

    result = is_gender_match_v3(text, gender)

    if result:
        good += 1
    else:   
        bad += 1
        print(f"Bad match: {text}")
        print(f"Expected: {gender}, Got: {result}")

print(f"Good: {good}, Bad: {bad}")
print(f"Accuracy: {good / (good + bad) * 100:.2f}%")

Bad match: Jorien ter Mors (ur. 21 grudnia 1989 r.) jest holenderską panczenistką zarówno na krótkim, jak i długim torze. Była mistrzynią olimpijską w kategorii 1500 metrów i biegu drużynowym (tor długi) na Zimowych Igrzyskach Olimpijskich w 2014 roku oraz w kategorii 1000 metrów na Zimowych Igrzyskach Olimpijskich w 2018 roku.
Expected: f, Got: False
Bad match: Carmen Gisele Castillo Taucher (ur. 1954 r.) jest chilijską chirurg i naukowcem. Była ministrem zdrowia publicznego w czasie drugiego rządu Michelle Bachelet.
Expected: f, Got: False
Bad match: Wszystkie jesteśmy bardzo dobrymi sportowcami. Pewnie pomogło to, że uprawiałyśmy dużo sportu jako dziewczynki. Obecnie wszystkie zdobywamy licencje na trenerów personalnych.
Expected: f, Got: False
Bad match: Anne i Mary pracują w szkole. Są nauczycielkami. W wolnym czasie pracują również jako pisarki. Są bardzo dobre w tym co robią.
Expected: f, Got: False
Bad match: Mario pracuje jako pomoc domowa. Rzadko spędza czas w domu. Jest tak 

In [106]:
sentence = 'Jorien ter Mors (ur. 21 grudnia 1989 r.) jest holenderską panczenistką zarówno na krótkim, jak i długim torze. Była mistrzynią olimpijską w kategorii 1500 metrów i biegu drużynowym (tor długi) na Zimowych Igrzyskach Olimpijskich w 2014 roku oraz w kategorii 1000 metrów na Zimowych Igrzyskach Olimpijskich w 2018 roku.'
analyze = analyze_gender(sentence)

for g in analyze:
    print(g)

('m', 'ter', 'subst:sg:nom.acc:m3')
('m', 'Mors', 'subst:sg:nom:m1')
('m', 'Mors', 'subst:sg:nom:m2')
('m', 'Mors', 'subst:sg:nom.acc:m3')
('m', 'grudnia', 'subst:sg:gen:m3')
('f', 'holenderską', 'adj:sg:acc:f:pos')
('f', 'holenderską', 'adj:sg:inst:f:pos')
('f', 'panczenistką', 'subst:sg:inst:f')
('m', 'jak', 'subst:sg:nom:m2')
('f', 'jak', 'subst:pl:gen:f')
('m', 'torze', 'subst:sg:loc:m3')
('m', 'torze', 'subst:sg:voc:m3')
('f', 'Była', 'adj:sg:nom.voc:f:pos')
('f', 'Była', 'praet:sg:f:imperf')
('f', 'Była', 'subst:sg:nom:f')
('f', 'Była', 'subst:sg:voc:f')
('f', 'mistrzynią', 'subst:sg:inst:f')
('f', 'olimpijską', 'adj:sg:acc:f:pos')
('f', 'olimpijską', 'adj:sg:inst:f:pos')
('f', 'kategorii', 'subst:sg:gen:f')
('f', 'kategorii', 'subst:sg:dat.loc:f')
('f', 'kategorii', 'subst:pl:gen:f')
('m', 'metrów', 'subst:pl:gen.acc:m1')
('m', 'metrów', 'subst:pl:gen:m3')
('m', 'metrów', 'subst:pl:gen:m3')
('n', 'metrów', 'subst:pl:gen:n:ncol')
('m', 'biegu', 'subst:sg:gen:m3')
('m', 'biegu', '

In [98]:
morf = morfeusz
analysis = morf.analyse(sentence)
extract_dominant_gender_smart(analysis)

['m', 'm', 'm', 'f', 'f', 'm', 'm', 'm', 'f', 'f', 'f', 'f', 'm', 'm', 'm', 'm', 'm', 'm', 'm', 'm', 'm', 'f', 'm', 'm', 'm', 'm', 'm']


'm'