# Разметка датасета русских классических стихов

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [2]:
df_poems = pd.read_csv('../data/poems_prepared.csv')
df_poems

Unnamed: 0,author,title,part,text
0,Агнивцев,брат антонио,0,"В монастырской тихой келье,\nПозабывши о весел..."
1,Агнивцев,грузовик 1317,0,"Весь машинный свой век, каждый день по утрам\n..."
2,Агнивцев,грузовик 1317,1,"Грузовик № 1317.\nНо открылись фронты! О, услы..."
3,Агнивцев,мэри пикфорд,0,"В Америке где-то\nСудя по газетам,\nЕсть город..."
4,Агнивцев,бильбокэ,0,"К дофину Франции, в печали,\nСкользнув тайком,..."
...,...,...,...,...
54232,Яшин,зеркальце,2,"В руки зеркальце взяла\nИ сказала:\n«Удружи,\n..."
54233,Яшин,очень много солнечного света,0,"Очень много солнечного света,\nНад землей стои..."
54234,Яшин,огонек,0,"Светлячок во мгле —\nОгонек в лесах.\nМожет, о..."
54235,Яшин,назови меня именем светлым,0,"Назови меня именем светлым,\nЧистым именем наз..."


Каждому стихотворному фрагменту присваивается метка эпохи (течения, направления) в поэзии. Эпоха определяется по принадлежности к ней автора фрагмента.

In [3]:
authors = df_poems['author'].unique()
authors

array(['Агнивцев', 'Алигер', 'Анненский', 'Антокольский', 'Анчаров',
       'Апухтин', 'Асадов', 'Асеев', 'Ахмадулина', 'Ахматова',
       'Багрицкий-отец', 'Багрицкий-сын', 'Балтрушайтис', 'Бальмонт',
       'Баратынский', 'Барто', 'Батюшков', 'Бедный', 'Белый', 'Берггольц',
       'Бестужев', 'Блок', 'Боков', 'Бродский', 'Брюсов', 'Бунин',
       'Ваншенкин', 'Введенский', 'Веневитинов', 'Винокуров',
       'Вознесенский', 'Волошин', 'Высоцкий', 'Вяземский', 'Габриак',
       'Галина', 'Гамзатов', 'Герасимов', 'Герцык', 'Гиппиус', 'Глазков',
       'Глинка', 'Гончаров', 'Городецкий', 'Горький', 'Грибоедов',
       'Григорьев', 'Гудзенко', 'Гумилев', 'Гуро', 'Давыдов', 'Дельвиг',
       'Дементьев', 'Державин', 'Долматовский', 'Друнина', 'Дудин',
       'Евтушенко', 'Есенин', 'Жемчужников', 'Жигулин', 'Жуковский',
       'Заболоцкий', 'Зенкевич', 'Иванов-В', 'Иванов-Г', 'Ивнев', 'Инбер',
       'Исаковский', 'Казакова', 'Казин', 'Капнист', 'Карамзин',
       'Катенин', 'Кедрин', 'Кирс

In [4]:
# Классицизм
# XVIII век
authors_classicism = [
    'Державин',
    'Капнист',
    'Карамзин',
    'Ломоносов',
    'Радищев',
    'Сумароков',
    'Тредиаковский'
]

In [5]:
# Золотой век русской поэзии (близко к понятию романтизма)
# первая половина XIX века
authors_golden_age = [
    'Баратынский',
    'Батюшков',
    'Бестужев',
    'Веневитинов',
    'Вяземский',
    'Глинка',
    'Давыдов',
    'Дельвиг',
    'Жуковский',
    'Катенин',
    'Козлов',
    'Кольцов',
    'Кюхельбекер',
    'Лермонтов',
    'Мей',
    'Мятлев',
    'Одоевский',
    'Ознобишин',
    'Пушкин',
    'Раевский',
    'Ростопчина',
    'Рылеев',
    'Тютчев',
    'Фет',
    'Языков'
]

In [6]:
# Критический реализм (близко к понятию "натуральная школа")
# вторая половина XIX века
authors_critical_realism = [
    'Апухтин',
    'Грибоедов',
    'Григорьев',
    'Жемчужников',
    'Крылов',
    'Майков',
    'Надсон',
    'Некрасов',
    'Никитин',
    'Огарев',
    'Павлова',
    'Плещеев',
    'Полежаев',
    'Полонский',
    'Прутков',
    'Случевский',
    'Соловьев',
    'Суриков',
    'Толстой',
    'Тургенев',
    'Тэффи',
    'Черный'
]

In [7]:
# Серебряный век русской поэзии (близко к понятию символизма)
# первая половина XX века
authors_silver_age = [
    'Агнивцев',
    'Анненский',
    'Ахматова',
    'Багрицкий-отец',
    'Балтрушайтис',
    'Бальмонт',
    'Белый',
    'Блок',
    'Брюсов',
    'Бунин',
    'Волошин',
    'Габриак',
    'Галина',
    'Герцык',
    'Гиппиус',
    'Городецкий',
    'Горький',
    'Гумилев',
    'Есенин',
    'Зенкевич',
    'Иванов-В',
    'Иванов-Г',
    'Ивнев',
    'Клычков',
    'Клюев',
    'Кузмин',
    'Лохвицкая',
    'Мандельштам',
    'Мережковский',
    'Нарбут',
    'Одоевцева',
    'Парнок',
    'Пастернак',
    'Поплавский',
    'Рерих',
    'Рождественский-В',
    'Романов',
    'Сологуб',
    'Тарковский',
    'Фофанов',
    'Ходасевич',
    'Цветаева',
    'Шершеневич'
]

In [8]:
# Футуризм
# первая половина XX века
authors_futurism = [
    'Асеев',
    'Введенский',
    'Гуро',
    'Крученых',
    'Мартынов',
    'Маяковский',
    'Северянин',
    'Сельвинский',
    'Хармс',
    'Хлебников'
]

In [9]:
# Социалистический реализм
# середина XX века
authors_soviet_realism = [
    'Алигер',
    'Антокольский',
    'Асадов',
    'Багрицкий-сын',
    'Барто',
    'Бедный',
    'Берггольц',
    'Боков',
    'Ваншенкин',
    'Винокуров',
    'Гамзатов',
    'Герасимов',
    'Гончаров',
    'Гудзенко',
    'Долматовский',
    'Друнина',
    'Дудин',
    'Жигулин',
    'Заболоцкий',
    'Инбер',
    'Исаковский',
    'Казакова',
    'Казин',
    'Кедрин',
    'Кирсанов',
    'Коган',
    'Кочетков',
    'Кульчицкий',
    'Лебедев-Кумач',
    'Луговской',
    'Маршак',
    'Межиров',
    'Михалков',
    'Мориц',
    'Наровчатов',
    'Обрадович',
    'Озеров',
    'Олейников',
    'Орлов',
    'Отрада',
    'Ошанин',
    'Петровых',
    'Поделков',
    'Самойлов',
    'Светлов',
    'Симонов',
    'Слуцкий',
    'Смоленский',
    'Сурков',
    'Твардовский',
    'Тихонов',
    'Тушнова',
    'Уткин',
    'Федоров',
    'Чуковский',
    'Шефнер',
    'Щипачев',
    'Эренбург',
    'Яшин'
]

In [10]:
# Поэзия шестидесятников
# Вторая половина XX века
authors_sixtiers = [
    'Анчаров',
    'Ахмадулина',
    'Бродский',
    'Вознесенский',
    'Высоцкий',
    'Глазков',
    'Дементьев',
    'Евтушенко',
    'Коржавин',
    'Кривин',
    'Кушнер',
    'Левитанский',
    'Набоков',
    'Матвеева',
    'Окуджава',
    'Рождественский-Р',
    'Рубцов',
    'Смеляков',
    'Солоухин',
    'Сухарев',
    'Чичибабин',
    'Шаламов',
    'Шпаликов'
]

In [11]:
authors_with_movements = \
    authors_classicism + \
    authors_golden_age + \
    authors_critical_realism + \
    authors_silver_age + \
    authors_futurism + \
    authors_soviet_realism + \
    authors_sixtiers

In [12]:
df_authors = pd.DataFrame(columns=['name', 'epoch'])
df_authors['name'] = authors
df_authors = df_authors.set_index('name')

In [13]:
df_authors.loc[authors_classicism, 'epoch'] = 'классицизм'
df_authors.loc[authors_golden_age, 'epoch'] = 'золотой век'
df_authors.loc[authors_critical_realism, 'epoch'] = 'критический реализм'
df_authors.loc[authors_silver_age, 'epoch'] = 'серебряный век'
df_authors.loc[authors_futurism, 'epoch'] = 'футуризм'
df_authors.loc[authors_soviet_realism, 'epoch'] = 'соцреализм'
df_authors.loc[authors_sixtiers, 'epoch'] = 'шестидесятники'

In [14]:
df_authors

Unnamed: 0_level_0,epoch
name,Unnamed: 1_level_1
Агнивцев,серебряный век
Алигер,соцреализм
Анненский,серебряный век
Антокольский,соцреализм
Анчаров,шестидесятники
...,...
Шпаликов,шестидесятники
Щипачев,соцреализм
Эренбург,соцреализм
Языков,золотой век


In [15]:
df_poems = df_poems.drop('epoch', axis=1, errors='ignore')
df_poems.insert(1, 'epoch', df_authors.loc[df_poems['author']].reset_index()['epoch'])
df_poems

Unnamed: 0,author,epoch,title,part,text
0,Агнивцев,серебряный век,брат антонио,0,"В монастырской тихой келье,\nПозабывши о весел..."
1,Агнивцев,серебряный век,грузовик 1317,0,"Весь машинный свой век, каждый день по утрам\n..."
2,Агнивцев,серебряный век,грузовик 1317,1,"Грузовик № 1317.\nНо открылись фронты! О, услы..."
3,Агнивцев,серебряный век,мэри пикфорд,0,"В Америке где-то\nСудя по газетам,\nЕсть город..."
4,Агнивцев,серебряный век,бильбокэ,0,"К дофину Франции, в печали,\nСкользнув тайком,..."
...,...,...,...,...,...
54232,Яшин,соцреализм,зеркальце,2,"В руки зеркальце взяла\nИ сказала:\n«Удружи,\n..."
54233,Яшин,соцреализм,очень много солнечного света,0,"Очень много солнечного света,\nНад землей стои..."
54234,Яшин,соцреализм,огонек,0,"Светлячок во мгле —\nОгонек в лесах.\nМожет, о..."
54235,Яшин,соцреализм,назови меня именем светлым,0,"Назови меня именем светлым,\nЧистым именем наз..."


## Статистика по течениям

In [17]:
df_poems.groupby('epoch').size()

epoch
золотой век             8561
классицизм              3281
критический реализм     9428
серебряный век         16204
соцреализм              5883
футуризм                7642
шестидесятники          3238
dtype: int64

## Сохряняем

In [17]:
df_poems.to_csv('../data/poems_dataset.csv', index=False)