#### Using pymorphy2 to check proportion on male & female names in Ukrainian text

In [12]:
import pymorphy2
import pymorphy2_dicts_uk
# Beware that PyPi version of pymorphy2 
# does not support Ukrainian dictionary. Therefore you have to
# install from git:
# pip install -U https://github.com/kmike/pymorphy2/archive/master.zip#egg=pymorphy2
# pip install -U pymorphy2-dicts-uk

Let's check the correctness of gender detection.

In [13]:
morph = pymorphy2.MorphAnalyzer(lang='uk')
p=morph.parse('Людмила')[0]
p.tag.gender

'femn'

Sometimes it's correct.

In [14]:
p=morph.parse('Олег')[0]
p.tag.gender

'masc'

In [15]:
p=morph.parse('Євгенія')[0]
p.tag.gender

'masc'

But sometimes it's not. So after autodetection you can check it manually.

In [16]:
from requests import get
from bs4 import BeautifulSoup

Let's collect the list of current Ukrainian Parliament MPs full names.

In [17]:
r=get("http://w1.c1.rada.gov.ua/pls/site2/fetch_mps?skl_id=10")
soup=BeautifulSoup(r.text, "html.parser")
fullnames=[i.text.strip() for i in soup.select("p.title")]
fullnames[:10]

['Абдуллін Олександр Рафкатович',
 'Абрамович Ігор Олександрович',
 'Алєксєєв Сергій Олегович',
 'Аліксійчук Олександр Васильович',
 'Аллахвердієва Ірина Валеріївна',
 'Ананченко Михайло Олегович',
 'Андрійович Зіновій Мирославович',
 'Арахамія Давид Георгійович',
 'Арешонков Володимир Юрійович',
 "Ар'єв Володимир Ігорович"]

Now autodetect each name gender.

In [18]:
genders=[morph.parse(i)[0].tag.gender for i in fullnames]
names_genders=list(zip(fullnames,genders))
names_genders[:10]

[('Абдуллін Олександр Рафкатович', 'masc'),
 ('Абрамович Ігор Олександрович', 'masc'),
 ('Алєксєєв Сергій Олегович', 'femn'),
 ('Аліксійчук Олександр Васильович', 'masc'),
 ('Аллахвердієва Ірина Валеріївна', 'femn'),
 ('Ананченко Михайло Олегович', 'femn'),
 ('Андрійович Зіновій Мирославович', 'masc'),
 ('Арахамія Давид Георгійович', 'masc'),
 ('Арешонков Володимир Юрійович', 'masc'),
 ("Ар'єв Володимир Ігорович", 'masc')]

Now we can see the percentage of male and female MPs.

In [19]:
print(f"Total MPs: {len(genders)}")
print(f"Female MPs: {genders.count('femn')} ({(genders.count('femn')/len(genders))*100} %)")
print(f"Male MPs: {genders.count('masc')} ({(genders.count('masc')/len(genders))*100} %)")


Total MPs: 423
Female MPs: 96 (22.69503546099291 %)
Male MPs: 327 (77.30496453900709 %)
