In [4]:
!pip install natasha



In [5]:
from natasha import (
    Segmenter,
    
    NewsEmbedding,
    NewsMorphTagger,

    Doc
)

In [6]:
class GenderIdentifier:
    
    def __init__(self):
        self.segmenter = Segmenter()
        self.emb = NewsEmbedding()
        self.morph_tagger = NewsMorphTagger(self.emb)


    def get_gender_from_text(self, news_title):
        doc = Doc(news_title)
        doc.segment(self.segmenter)
        doc.tag_morph(self.morph_tagger)
        is_female = self.is_female(doc)
        return is_female


    def is_female(self, doc):
        fem_count = 0
        masc_count = 0
        for token in doc.tokens:
            if token.pos == 'NOUN' and 'Anim' == token.feats['Animacy']:                
                if 'Fem' == token.feats['Gender']:
                    fem_count+=1
                elif 'Masc' == token.feats['Gender']:
                    masc_count+=1
            if token.pos == 'VERB' and 'Gender' in token.feats:
                if 'Fem' == token.feats['Gender']:
                    fem_count+=1
                elif 'Masc' == token.feats['Gender']:
                    masc_count+=1
        return fem_count, masc_count

In [7]:
gend_ident = GenderIdentifier()

In [8]:
text = 'Студентка СамГУ разбилась насмерть, спрыгнув с 9 этажа общежития'
fem, mal = gend_ident.get_gender_from_text(text)
print(f"females: {fem}, males: {mal}")

females: 2, males: 0


In [71]:
text = 'Студент СамГУ разбился насмерть, спрыгнув с 9 этажа общежития'
gend_ident.get_gender_from_text(text)

(0, 2)

In [12]:
text = 'В центре Ташкента водитель Spark, проигнорировав сигнал светофора, спровоцировал смертельное ДТП'
fem, mal = gend_ident.get_gender_from_text(text)
print(f"females: {fem}, males: {mal}")

females: 0, males: 2


In [73]:
text = 'В центре Ташкента водитель Spark, проигнорировав сигнал светофора, спровоцировала смертельное ДТП'
gend_ident.get_gender_from_text(text)

(1, 1)

In [74]:
text = '17-летняя школьница, выступавшая на мероприятии в честь Навруза, погибла — видео'
gend_ident.get_gender_from_text(text)

(3, 0)

In [75]:
text = '17-летняя школьница, выступавший на мероприятии в честь Навруза, погиб — видео'
gend_ident.get_gender_from_text(text)

(1, 2)

In [76]:
text = 'В ГНК своих должностей лишились 13 начальников'
gend_ident.get_gender_from_text(text)

(0, 1)

In [13]:
text = 'Определены суммы закята, фитр-садака и фидья-садака на 2022 год'
fem, mal = gend_ident.get_gender_from_text(text)
print(f"females: {fem}, males: {mal}")

females: 0, males: 0


In [78]:
text = 'В Ташкенте задержаны 14 женщин, предлагавших интим-услуги через Telegram'
gend_ident.get_gender_from_text(text)

(1, 1)

In [79]:
text = 'Более 154 кг гашиша, замаскированных под картофель, попытались ввезти в Узбекистан — видео'
gend_ident.get_gender_from_text(text)

(0, 0)

In [80]:
text = 'В Хорезме при получении взятки в размере $12 тыс. задержан замхокима района'
gend_ident.get_gender_from_text(text)

(0, 1)

In [None]:
!pip install polyglot
!pip install pyicu
!pip install pycld2
!pip install morfessor



In [None]:
from polyglot.text import Text as T
text = T("это очень плохо. А это намного лучше, даже хорошо!")
text.polarity