### imports

In [1]:
!git clone https://github.com/Elena-Semerova/ru_stance_detection_twitter

Cloning into 'ru_stance_detection_twitter'...
remote: Enumerating objects: 18, done.[K
remote: Counting objects: 100% (18/18), done.[K
remote: Compressing objects: 100% (13/13), done.[K
Unpacking objects: 100% (18/18), done.
remote: Total 18 (delta 1), reused 0 (delta 0), pack-reused 0[K


In [2]:
import pymorphy2
import matplotlib.pyplot as plt
import seaborn as sns

from ru_stance_detection_twitter.data.keywords.keywords import *
from ru_stance_detection_twitter.data.keywords.semi_making import make_keywords

%matplotlib inline

sns.set(style="darkgrid")

In [3]:
morph = pymorphy2.MorphAnalyzer()

### cancel culture

In [4]:
keywords_cc, process_cc = make_keywords(KEYWORDS_CANCEL_CULTURE)

print('Need to process:\n\t', end='')
print(*process_cc, sep=',\n\t')

Need to process:
	культура отмены,
	кэнсел культура


In [5]:
first_cc = process_cc[0].split()
word_parse_1 = morph.parse(first_cc[0])[0]
new_words = list(set([lexem.word for lexem in word_parse_1.lexeme]))

for new_word in new_words:
    keywords_cc.append(new_word + ' ' + first_cc[1])

In [6]:
second_cc = process_cc[1].split()
word_parse_2 = morph.parse(second_cc[1])[0]
new_words = list(set([lexem.word for lexem in word_parse_2.lexeme]))

for new_word in new_words:
    keywords_cc.append(second_cc[0] + ' ' + new_word)

In [7]:
print('Ready:\n', end='')
print(*keywords_cc, sep=', ')

Ready:
кэнселинг, кэнселлинг, кэнселила, кэнселит, кэнселило, кэнселишь, кэнсели, кэнселим, кэнселю, кэнселил, кэнселили, кэнселят, кэнселите, культуре отмены, культурой отмены, культур отмены, культурами отмены, культуры отмены, культуру отмены, культурам отмены, культура отмены, культурах отмены, культурою отмены, кэнсел культуре, кэнсел культурой, кэнсел культур, кэнсел культурами, кэнсел культуры, кэнсел культуру, кэнсел культурам, кэнсел культура, кэнсел культурах, кэнсел культурою


In [8]:
with open('data/keywords/cancel_cullture_keywords.txt', 'w') as file:
    for keyword in keywords_cc:
        print(keyword, file=file)

### feminism

In [9]:
keywords_fem, process_fem = make_keywords(KEYWORDS_FEMINISM)

print('Need to process:\n\t', end='')
print(*process_fem, sep=',\n\t')

Need to process:
	домашнее насилие,
	права женщин


In [10]:
first_fem = process_fem[0].split()
word_parse_1 = morph.parse(first_fem[0])[0]
new_words = []

for lexem in word_parse_1.lexeme:
    if 'ADJF' in lexem.tag and 'sing' in lexem.tag and 'neut' in lexem.tag:
        if lexem.word not in new_words:
            new_words.append(lexem.word)
            word_parse_2 = morph.parse(first_fem[1])[0]
            for lexem2 in word_parse_2.lexeme:
                if 'sing' in lexem2.tag and 'neut' in lexem2.tag and lexem.tag.case in lexem2.tag:
                    keywords_fem.append(lexem.word + ' ' + lexem2.word)

In [11]:
second_fem = process_fem[1].split()
word_parse_1 = morph.parse(second_fem[0])[0]
new_words = list(set([lexem.word for lexem in word_parse_1.lexeme]))

for new_word in new_words:
    keywords_fem.append(new_word + ' ' + second_fem[1])

In [12]:
print('Ready:\n', end='')
print(*keywords_fem, sep=', ')

Ready:
феминизма, феминизмы, феминизму, феминизмов, феминизмом, феминизмами, феминизм, феминизмам, феминизме, феминизмах, сексизмов, сексизму, сексизмы, сексизме, сексизмами, сексизм, сексизмам, сексизмах, сексизмом, сексизма, патриархате, патриархату, патриархатах, патриархатов, патриархатам, патриархат, патриархаты, патриархатами, патриархата, патриархатом, феминитива, феминитивы, феминитивам, феминитиву, феминитивов, феминитивом, феминитивах, феминитиве, феминитив, феминитивами, домашнее насилие, домашнее насилье, домашнего насилия, домашнего насилья, домашнему насилию, домашнему насилью, домашним насилием, домашним насильем, домашнем насилии, домашнем насилье, домашнем насильи, правами женщин, правах женщин, праву женщин, правом женщин, прав женщин, правам женщин, права женщин, праве женщин, право женщин


In [13]:
with open('data/keywords/feminism_keywords.txt', 'w') as file:
    for keyword in keywords_fem:
        print(keyword, file=file)

### LGBTQ+

In [14]:
keywords_lgbt, process_lgbt = make_keywords(KEYWORDS_LGBTQ_PLUS)

print('Need to process:\n\t', end='')
print(*process_lgbt, sep=',\n\t')

Need to process:
	


In [15]:
print('Ready:\n', end='')
print(*keywords_lgbt, sep=', ')

Ready:
гей, лесби, лесбиянка, лесбиянками, лесбиянкам, лесбиянок, лесбиянкой, лесбиянку, лесбиянкою, лесбиянках, лесбиянки, лесбиянке, бисексуалом, бисексуал, бисексуалов, бисексуалу, бисексуалам, бисексуалах, бисексуале, бисексуалами, бисексуала, бисексуалы, лгбт, гомофобам, гомофобе, гомофобы, гомофобами, гомофобом, гомофоба, гомофоб, гомофобу, гомофобов, гомофобах, гомофобий, гомофобиях, гомофобиею, гомофобией, гомофобиями, гомофобии, гомофобиям, гомофобию, гомофобия, транс, трансов, трансами, трансу, трансом, трансах, транса, трансы, трансе, трансам, трансгендеру, трансгендерах, трансгендеры, трансгендер, трансгендере, трансгендерам, трансгендера, трансгендерами, трансгендеров, трансгендером, асексуалах, асексуал, асексуалу, асексуале, асексуалов, асексуалам, асексуала, асексуалы, асексуалами, асексуалом, пансексуалами, пансексуалом, пансексуалов, пансексуалах, пансексуале, пансексуала, пансексуал, пансексуалам, пансексуалы, пансексуалу


In [16]:
with open('data/keywords/lgbtq_plus_keywords.txt', 'w') as file:
    for keyword in keywords_lgbt:
        print(keyword, file=file)

### ageism

In [17]:
keywords_age, process_age = make_keywords(KEYWORDS_AGEISM)

print('Need to process:\n\t', end='')
print(*process_age, sep=',\n\t')

Need to process:
	дискриминация по возрасту,
	возрастная дискриминация


In [18]:
first_age = process_age[0].split()
word_parse_1 = morph.parse(first_age[0])[0]
new_words = list(set([lexem.word for lexem in word_parse_1.lexeme]))

for new_word in new_words:
    keywords_age.append(new_word + ' ' + first_age[1] + ' ' + first_age[2])

In [19]:
second_age = process_age[1].split()
word_parse_1 = morph.parse(second_age[0])[0]
new_words = []

for lexem in word_parse_1.lexeme:
    if 'ADJF' in lexem.tag and 'sing' in lexem.tag and 'femn' in lexem.tag:
        if lexem.word not in new_words:
            new_words.append(lexem.word)
            word_parse_2 = morph.parse(second_age[1])[0]
            for lexem2 in word_parse_2.lexeme:
                if 'sing' in lexem2.tag and 'femn' in lexem2.tag and lexem.tag.case in lexem2.tag:
                    keywords_age.append(lexem.word + ' ' + lexem2.word)

In [20]:
print('Ready:\n', end='')
print(*keywords_age, sep=', ')

Ready:
эйджизме, эйджизмом, эйджизмы, эйджизмов, эйджизмам, эйджизмах, эйджизм, эйджизму, эйджизмами, эйджизма, дискриминаций по возрасту, дискриминация по возрасту, дискриминациями по возрасту, дискриминации по возрасту, дискриминацией по возрасту, дискриминацию по возрасту, дискриминациею по возрасту, дискриминациях по возрасту, дискриминациям по возрасту, возрастная дискриминация, возрастной дискриминации, возрастную дискриминацию, возрастною дискриминацией, возрастною дискриминациею


In [21]:
with open('data/keywords/ageism_keywords.txt', 'w') as file:
    for keyword in keywords_age:
        print(keyword, file=file)