In [1]:
import pandas as pd
import re
import nltk
from pymystem3 import Mystem
from string import punctuation

In [2]:
nltk.download('stopwords')
stop_words = nltk.corpus.stopwords.words('russian')
punctuation = set(punctuation + ' ')
regex = re.compile(r'[А-ЯЁа-яёA-z-]+')
m = Mystem()

genres = [
    'аниме','биография','боевик','вестерн','военный','детектив','детский','для взрослых','документальный','драма',
    'история','комедия','короткометражка','криминал','мелодрама','музыка','мультфильм','мюзикл','приключения',
    'реальное ТВ','семейный','спорт','ток-шоу','триллер','ужасы','фантастика','фильм-нуар','фэнтези'
]

df = pd.DataFrame(columns=['descr','descr_lemmas']+genres)

def words_only(text, regex=regex):
    '''
    Очистка текста от наборов символов, не являющихся словами,
    и приведение к нижнему регистру
    '''
    try:
        return ' '.join(regex.findall(text)).lower()
    except:
        return ''

def preprocess_text(text):
    '''
    Лемматизация текста и его очистка от стоп-слов
    '''
    text = words_only(text)
    tokens = m.lemmatize(text)
    
    # Удаление токенов, являющихся стоп-словами, либо набором знаков пунктуации
    tokens = [token for token in tokens if token not in stop_words and not set(token.strip()) <= punctuation]
    
    text = ' '.join(tokens)
    return text

def make_example(genres_list, text):
    '''
    Добавления объекта в датасет с примерами. Заполнение столбцов
    с текстом, лемматизированным текстом, и жанрами.
    '''
    row_no = len(df)
    df.loc[row_no, 'descr'] = text
    df.loc[row_no, 'descr_lemmas'] = preprocess_text(text)
    
    for g in genres:
        if g not in genres_list:
            df.loc[row_no, g] = 0
        else:
            df.loc[row_no, g] = 1

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\79111\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [3]:
genres_list = []
text = """

"""

make_example(genres_list, text)


In [4]:
genres_list = []
text = """

"""

make_example(genres_list, text)


In [5]:
df.drop('descr', axis=1).to_csv('example.csv', index=False)