Для корпуса я взяла текст Доксы о квир-сообществе в СССР (https://doxajournal.ru/stadis/queer_in_ussr). Я взяла именно этот текст, потому что в нем присутствует довольно много своеобразной лексики, неологизмов, аббревиатур и сложных слов, написанных через дефис. Все это должно вызывать трудности для морфологических парсеров.

In [2]:
text = '''
Мы поговорили с 32 квир-персонами, которые выросли в СССР в 1970—1980-х годах, чтобы узнать, какой была их юность, как они ходили в школу, поступали в университет и получали первую работу, параллельно с этим переживая собственную инаковость.
В Советском Союзе поведение, отличавшееся от общепринятой морали, считалось девиантным и негативно воспринималось как обществом, так и государством. Эта «девиантность» не возникала сама по себе: она создавалась и воспроизводилась советской властью. Обладая контролем над дискурсом, политическая элита не только конструировала представление о том, кого стоит относить к маргиналам, но и внедряла его в массы. Особый статус получали так называемые «сексуально-гендерные диссиденты» — квир-персоны, приписывание которым статуса «исключенного» субъекта основывалось на контроле и подавлении желания.

В негетеросексуальных персонах советская власть видела политического и даже классового врага. Подобное иллюстрируют изменения в определении термина «гомосексуализм» в Большой Советской Энциклопедии (БСЭ) «до» и «после» введения статьи. В издании 1930 года говорилось, что в Советском союзе, в отличии от «буржуазных стран», нет преследования за однополые контакты. В следующем издании БСЭ формулировку исправили и «гомосексуализм» стал «позорным и преступным», а также «показывающим разложение правящих классов». Советское общество, в целом, разделяло навязываемую государством неприязнь, это видно и по данным опроса «Левада-центра» от 1989 года: 33,7% высказались за «ликвидацию» гомосексуалов, а 30,7% за их социальную изоляцию.

Квир-человек в СССР оказался в сложной и запутанной ситуации: гомо- и бисексуальные мужчины находились под угрозой преследования; женщины — под давлением нагнетаемой тревоги и гетеронормативных стандартов; трансгендерные персоны — в невозможности свободно проявлять свою гендерную идентичность. Все они имели мало источников информации о сексуальности и гендере, а окружавшие дискурсы патологизировали и криминализировали их идентичность, навязывая девиантность и осуществляя функционирование «власти-знания».

'''

Далее я разбиваю текст на слова и сохраняю в csv-файл, в котором и буду размечать слова вручную. Я использовала для разметки тэги universal dependencies.

In [9]:
import csv
import re
from nltk.tokenize import WordPunctTokenizer

In [3]:
tokens = WordPunctTokenizer().tokenize(text)

In [6]:
len(tokens), tokens[:10]

(351,
 ['Мы',
  'поговорили',
  'с',
  '32',
  'квир',
  '-',
  'персонами',
  ',',
  'которые',
  'выросли'])

In [8]:
with open('corpus.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    for w in tokens:
        writer.writerow([w, ' '])

Теперь открываем файл с разметкой и сохраняем в удобной структуре данных

In [12]:
tagged_corp = []
with open('corpus_tagged.csv', 'r') as csv_file:
    reader = csv.reader(csv_file, delimiter=';')
    for row in reader:
        if len(row) == 2:
            tagged_corp.append((row[0], row[1]))

In [13]:
len(tagged_corp), tagged_corp[:10]

(355,
 [('Мы', 'PRON'),
  ('поговорили', 'VERB'),
  ('с', 'ADP'),
  ('32', 'NUM'),
  ('квир', 'ADJ'),
  ('-', 'PUNCT'),
  ('персонами', 'NOUN'),
  (',', 'PUNCT'),
  ('которые', 'SCONJ'),
  ('выросли', 'VERB')])

Stanza: 


In [7]:
import stanza
stanza.download('ru')

Downloading https://raw.githubusercontent.com/stanfordnlp/stanza-resources/main/resources_1.2.2.json:   0%|   …

2021-09-22 19:12:51 INFO: Downloading default packages for language: ru (Russian)...


Downloading http://nlp.stanford.edu/software/stanza/1.2.2/ru/default.zip:   0%|          | 0.00/574M [00:00<?,…

2021-09-22 19:14:46 INFO: Finished downloading models and saved to /root/stanza_resources.


In [8]:
nlp = stanza.Pipeline(lang='RU', processors='tokenize,pos')
doc = nlp(text)
print(*[f'word: {word.text}\tupos: {word.upos}' for sent in doc.sentences for word in sent.words], sep='\n')

2021-09-22 19:14:49 INFO: Loading these models for language: ru (Russian):
| Processor | Package   |
-------------------------
| tokenize  | syntagrus |
| pos       | syntagrus |

2021-09-22 19:14:49 INFO: Use device: cpu
2021-09-22 19:14:49 INFO: Loading: tokenize
2021-09-22 19:14:49 INFO: Loading: pos
2021-09-22 19:14:50 INFO: Done loading processors!


word: Мы	upos: PRON
word: поговорили	upos: VERB
word: с	upos: ADP
word: 32	upos: NUM
word: квир	upos: NOUN
word: -	upos: PUNCT
word: персонами	upos: NOUN
word: ,	upos: PUNCT
word: которые	upos: PRON
word: выросли	upos: VERB
word: в	upos: ADP
word: СССР	upos: PROPN
word: в	upos: ADP
word: 1970	upos: NUM
word: —	upos: PUNCT
word: 1980-х	upos: ADJ
word: годах	upos: NOUN
word: ,	upos: PUNCT
word: чтобы	upos: SCONJ
word: узнать	upos: VERB
word: ,	upos: PUNCT
word: какой	upos: DET
word: была	upos: AUX
word: их	upos: DET
word: юность	upos: NOUN
word: ,	upos: PUNCT
word: как	upos: SCONJ
word: они	upos: PRON
word: ходили	upos: VERB
word: в	upos: ADP
word: школу	upos: NOUN
word: ,	upos: PUNCT
word: поступали	upos: VERB
word: в	upos: ADP
word: университет	upos: NOUN
word: и	upos: CCONJ
word: получали	upos: VERB
word: первую	upos: ADJ
word: работу	upos: NOUN
word: ,	upos: PUNCT
word: параллельно	upos: ADV
word: с	upos: ADP
word: этим	upos: PRON
word: переживая	upos: VERB
word: собственную	upos: AD

In [9]:
stanza_tagged = []
for sent in doc.sentences:
    for word in sent.words:
        stanza_tagged.append((word.text, word.upos))

In [10]:
len(stanza_tagged), stanza_tagged[:10]

(347,
 [('Мы', 'PRON'),
  ('поговорили', 'VERB'),
  ('с', 'ADP'),
  ('32', 'NUM'),
  ('квир', 'NOUN'),
  ('-', 'PUNCT'),
  ('персонами', 'NOUN'),
  (',', 'PUNCT'),
  ('которые', 'PRON'),
  ('выросли', 'VERB')])

In [12]:
with open('stanza_corpus.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    for s in stanza_tagged:
        writer.writerow([s[0], s[1]])

Natasha:

In [47]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    NewsEmbedding,
    NewsMorphTagger,
    NewsSyntaxParser,
    NewsNERTagger,

    Doc
)
emb = NewsEmbedding()
morph_tagger = NewsMorphTagger(emb)
segmenter = Segmenter()

In [18]:
doc = Doc(text)

In [49]:
doc.segment(segmenter)

In [52]:
doc.tag_morph(morph_tagger)

In [36]:
natasha_tagged = [(_.text, _.pos) for _ in doc.tokens]

In [37]:
len(natasha_tagged), natasha_tagged[:10]

(334,
 [('Мы', 'PRON'),
  ('поговорили', 'VERB'),
  ('с', 'ADP'),
  ('32', 'NUM'),
  ('квир-персонами', 'NOUN'),
  (',', 'PUNCT'),
  ('которые', 'PRON'),
  ('выросли', 'VERB'),
  ('в', 'ADP'),
  ('СССР', 'PROPN')])

In [38]:
with open('natasha_corpus.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    for s in natasha_tagged:
        writer.writerow([s[0], s[1]])

Pymorphy:

In [7]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [11]:
pymorphy_corp = []
with open('corpus_tagged.csv', 'r') as csv_file:
    reader = csv.reader(csv_file, delimiter=';')
    for row in reader:
        if len(row) == 2:
            pymorphy_corp.append(row[0])

In [12]:
len(pymorphy_corp)

355

In [16]:
pymorphy_tagged = []
for pc in pymorphy_corp:
    p = morph.parse(pc)[0]
    pos = p.tag.POS
    pymorphy_tagged.append((pc, pos))

In [17]:
pymorphy_tagged[:10]

[('Мы', 'NPRO'),
 ('поговорили', 'VERB'),
 ('с', 'PREP'),
 ('32', None),
 ('квир', 'NOUN'),
 ('-', None),
 ('персонами', 'NOUN'),
 (',', None),
 ('которые', 'ADJF'),
 ('выросли', 'VERB')]

In [18]:
with open('pymorphy_corpus.csv', 'w', newline='') as csvfile:
    writer = csv.writer(csvfile)
    for p in pymorphy_tagged:
        writer.writerow([p[0], p[1]])

Теперь напишем функцию, которая будет считать количество совпадений в разметке с золотым стандартом. 

In [1]:
#Создаю словарь соответствий тегов universal dependencies и pymorphy
pymorphy_dict = {
    'NOUN': 'NOUN',
    'ADJF': 'ADJ',
    'ADJS': 'ADJ',
    'COMP': 'ADJ',
    'VERB': 'VERB',
    'INFN': 'VERB',
    'PRTF': 'ADJ',
    'PRTS': 'ADJ',
    'GRND': 'VERB',
    'NUMR': 'NUM',
    'ADVB': 'ADV',
    'NPRO': 'PRON',
    'PRED': 'ADV',
    'PREP': 'ADP',
    'CONJ': 'CCONJ',
    'PRCL': 'PART',
    'INTJ': 'INTJ',
    '': ''
}

В связи с тем, что разные библиотеки по-разному токенизируют текст (например, где-то два знака пунктуции подряд будут разбиты на два разных токена, где-то - считаться одним токеном), в функции, считающей accuracy библиотек мы будем сначала проверять, соответствует ли индекс слова в золотом стандарте индексу в разметке той или иной библиотеки. Если получилось так, что одно и то же слово текста в разметках находится в разных местах, мы будем проходится по проверяемой разметке пока не найдем такое же слово. 

In [54]:
tagged_corp = []
accuracies = []
with open('corpus_tagged.csv', 'r') as csv_file:
    reader = csv.reader(csv_file, delimiter=',')
    for row in reader:
        if len(row) == 2:
            tagged_corp.append((row[0], row[1]))
            
def get_accuracy(file):
    with open(file, 'r') as csv_file:
        corp = []
        reader = csv.reader(csv_file, delimiter=',')
        if file == 'pymorphy_corpus.csv':
            for row in reader:
                if len(row) == 2:
                    pos_tag = pymorphy_dict[row[1]]
                    corp.append((row[0], pos_tag))
        else:
            for row in reader:
                if len(row) == 2:
                    corp.append((row[0], row[1]))
    
    for tc in range(len(tagged_corp)):
        check = 0
        if tagged_corp[tc][0] == corp[tc][0]:
            if tagged_corp[tc][1] == corp[tc][1]:
                accuracies.append(1)
                check = 1
            else:
                accuracies.append(0)
                check = 1
        else:
            for c in corp:
                if c[0] == tagged_corp[tc][0]:
                    if c[1] == tagged_corp[tc][1]:
                        accuracies.append(1)
                        check = 1
                        break
        if check == 0:
            accuracies.append(0)
    return accuracies
        

In [39]:
print(sum(get_accuracy('natasha_corpus.csv'))/len(get_accuracy('natasha_corpus.csv')))

0.6045454545454545


In [41]:
print(sum(get_accuracy('stanza_corpus.csv'))/len(get_accuracy('stanza_corpus.csv')))

0.6823232323232323


In [55]:
print(sum(get_accuracy('pymorphy_corpus.csv'))/len(get_accuracy('pymorphy_corpus.csv')))

0.3378787878787879


В результате лучший результат (с учетом того, что мой "золотой стандарт" может оказаться, мягко говоря, не вполне верным) показала stanza.

Теперь определяем функцию, которая будет искать биграммы и тестируем ее на разметке станзы. 

In [57]:
def chuncker(corpus):
    noun_phrases = [] # биграммы прилагательное + существительное
    verb_phrases = [] # биграмы существительное + глагол
    v_noun = [] # биграммы предлог "в" + существительное
    for c in range(len(corpus) - 1):
        if corpus[c][1] == 'ADJ' and corpus[c+1][1] == 'NOUN':
            noun_phrases.append((corpus[c][0], corpus[c+1][0]))
        if corpus[c][1] == 'NOUN' and corpus[c+1][1] == 'VERB':
            verb_phrases.append((corpus[c][0], corpus[c+1][0]))
        if corpus[c][0].lower() == 'в' and corpus[c+1][1] == 'NOUN':
            v_noun.append((corpus[c][0], corpus[c+1][0]))
    return noun_phrases, verb_phrases, v_noun

In [58]:
stanza_corpus = []
with open('stanza_corpus.csv', 'r') as csv_file:
    reader = csv.reader(csv_file, delimiter=',')
    for row in reader:
        if len(row) == 2:
            stanza_corpus.append((row[0], row[1]))
noun_phrases, verb_phrases, v_noun = chuncker(stanza_corpus)

In [59]:
noun_phrases

[('1980-х', 'годах'),
 ('первую', 'работу'),
 ('собственную', 'инаковость'),
 ('общепринятой', 'морали'),
 ('советской', 'властью'),
 ('политическая', 'элита'),
 ('Особый', 'статус'),
 ('гендерные', 'диссиденты'),
 ('негетеросексуальных', 'персонах'),
 ('советская', 'власть'),
 ('классового', 'врага'),
 ('Советском', 'союзе'),
 ('буржуазных', 'стран'),
 ('однополые', 'контакты'),
 ('следующем', 'издании'),
 ('Советское', 'общество'),
 ('социальную', 'изоляцию'),
 ('бисексуальные', 'мужчины'),
 ('гетеронормативных', 'стандартов'),
 ('трансгендерные', 'персоны'),
 ('гендерную', 'идентичность')]

In [60]:
verb_phrases

[('статус', 'получали'),
 ('субъекта', 'основывалось'),
 ('власть', 'видела'),
 ('года', 'говорилось'),
 ('формулировку', 'исправили'),
 ('разложение', 'правящих'),
 ('мужчины', 'находились'),
 ('давлением', 'нагнетаемой'),
 ('дискурсы', 'патологизировали')]

In [61]:
v_noun

[('в', 'школу'),
 ('в', 'университет'),
 ('в', 'массы'),
 ('в', 'определении'),
 ('В', 'издании'),
 ('в', 'отличии'),
 ('в', 'целом'),
 ('в', 'невозможности')]