In [80]:
import pandas as pd
import numpy as np

df = pd.read_csv('poetry.csv')
df = df.drop(columns=df.columns[[5, 6, 7, 8]], axis=1)

df = df[:]

def get_century_roman(year):
	century = year // 100 + 1
	roman_numerals = {
		1: 'I', 2: 'II', 3: 'III', 4: 'IV', 5: 'V',
		6: 'VI', 7: 'VII', 8: 'VIII', 9: 'IX', 10: 'X',
		11: 'XI', 12: 'XII', 13: 'XIII', 14: 'XIV', 15: 'XV',
		16: 'XVI', 17: 'XVII', 18: 'XVIII', 19: 'XIX', 20: 'XX', 21: 'XXI'
	}
	return roman_numerals[century]

def proc_row(row):
	name = row['name'] if not pd.isna(row['name']) else row['text'].split('\n')[0]
	author = row['author'] if not pd.isna(row['author']) else 'неизвестен'

	date_from, date_to = row['date_from'], row['date_to']
	if pd.isna(date_from) and not pd.isna(date_to): date_from = date_to
	if pd.isna(date_to) and not pd.isna(date_from): date_to = date_from
	
	century = ''
	epoch = ''
	if pd.isna(date_to) and pd.isna(date_from): 
		date_to = date_from = -1
	else:
		century = f'{get_century_roman(date_to)} ({int(date_to//100+1)})'
		if date_to < 1500: epoch = 'древнерусская поэзия'
		if 1750 <= date_to < 1850: epoch = 'золотой век'
		if 1850 <= date_to < 1900: epoch = 'реализм и натурализм'
		if 1900 <= date_to < 1950: epoch = 'серебряный век, авангард'
		#if 1950 <= date_to < 1985: epoch = 'Советская поэзия'
		if 1990 <= date_to < 2010: epoch = 'бронзовый век'
		if 2010 <= date_to < 2100: epoch = 'современная поэзия'
	
	#text = '\n'.join(row['text'].split('\n')[:4])
	text = row['text'].replace('\r', '')

	line_count = text.count('\n')
	word_count = text.count(' ') + line_count

	return pd.Series({'author': author, 'name': name, 'text': text, 
				   	  'date_from': int(date_from), 'date_to': int(date_to), 'century': century, 'epoch': epoch, 
				  	  'line_count': line_count, 'word_count': word_count})

df = df.apply(proc_row, axis=1)

df.head()

Unnamed: 0,author,name,text,date_from,date_to,century,epoch,line_count,word_count
0,Михаил Лермонтов,Забывши волнения жизни мятежной...,"Забывши волнения жизни мятежной,\nОдин жил в п...",1829,1829,XIX (19),золотой век,7,29
1,Сергей Есенин,"Нивы сжаты, рощи голы...","Нивы сжаты, рощи голы,\nОт воды туман и сырост...",1917,1918,XX (20),"серебряный век, авангард",11,46
2,Игорь Северянин,ЧАРЫ ЛЮЧИНЬ,Лючинь печальная читала вечером ручьисто-вкрад...,1919,1919,XX (20),"серебряный век, авангард",11,85
3,Анатолий Жигулин,Золото,"Глыбу кварца разбили молотом,\nИ, веселым огне...",1963,1963,XX (20),,29,122
4,Николай Тихонов,Хоровод в Сульдуси,"Хлынул дождь, когда девушки, встав в хоровод,\...",1937,1940,XX (20),"серебряный век, авангард",15,92


In [81]:
len(df)

16694

In [82]:
from sentence_transformers import SentenceTransformer
import torch
from tqdm import tqdm
tqdm.pandas()

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

emb_model = SentenceTransformer('sentence-transformers/distiluse-base-multilingual-cased-v2')
#emb_model = SentenceTransformer('intfloat/multilingual-e5-large')
emb_model.to(device)

def emb_row(row):
	metadata = f'название: {row["name"]}, '
	if row['author'] != 'неизвестен': metadata += f'автор: {row["author"]}, '

	if row['date_from'] != -1:
		metadata += f'период написания: {row["century"]} век, {row["date_from"]} - {row["date_to"]} год, '

	if len(row['epoch']) > 0: metadata += row['epoch'] + ', '

	metadata += f'объем: количество строк {row["line_count"]}, '
	metadata += f'количество четверостиший: {int(row["line_count"]//4)}, '
	metadata += f'количество слов: {row["word_count"]}'
	
	row['text_embedding'] = emb_model.encode(row['text'])
	row['metadata_embedding'] = emb_model.encode(metadata)

	return pd.Series(row)


df = df.progress_apply(emb_row, axis=1)


Using device: cpu


100%|██████████| 16694/16694 [1:11:16<00:00,  3.90it/s]


In [83]:
df.to_pickle('poetry_data_prepared.pkl')

In [115]:
import pandas as pd

df = pd.read_pickle('poetry_data_prepared.pkl')
df.head()

Unnamed: 0.1,Unnamed: 0,author,name,text,date_from,date_to,century,epoch,line_count,word_count,text_embedding,metadata_embedding
0,0,Михаил Лермонтов,Забывши волнения жизни мятежной...,"Забывши волнения жизни мятежной,\nОдин жил в п...",1829,1829,XIX (19),золотой век,7,29,[-9.15968884e-03 2.05528717e-02 -2.54428294e-...,[ 6.93919510e-02 5.78579446e-03 -5.24416007e-...
1,1,Сергей Есенин,"Нивы сжаты, рощи голы...","Нивы сжаты, рощи голы,\nОт воды туман и сырост...",1917,1918,XX (20),"серебряный век, авангард",11,46,[-0.01985577 0.00113188 0.02673516 -0.001073...,[ 2.75703203e-02 3.91281471e-02 -1.82045661e-...
2,2,Игорь Северянин,ЧАРЫ ЛЮЧИНЬ,Лючинь печальная читала вечером ручьисто-вкрад...,1919,1919,XX (20),"серебряный век, авангард",11,85,[-5.21772653e-02 -6.42890483e-03 2.41918731e-...,[ 2.70281769e-02 4.64453958e-02 -4.95559396e-...
3,3,Анатолий Жигулин,Золото,"Глыбу кварца разбили молотом,\nИ, веселым огне...",1963,1963,XX (20),,29,122,[-2.90191974e-02 -1.09357918e-02 3.89384455e-...,[-1.32629194e-03 2.49236841e-02 1.14643015e-...
4,4,Николай Тихонов,Хоровод в Сульдуси,"Хлынул дождь, когда девушки, встав в хоровод,\...",1937,1940,XX (20),"серебряный век, авангард",15,92,[ 2.60227248e-02 2.13094316e-02 -2.77459323e-...,[-2.49936618e-02 5.71375005e-02 -3.75276245e-...


In [114]:
import numpy as np
from tqdm import tqdm
import matplotlib.pyplot as plt


def cosine_similarity(a, b):
	return np.dot(a, b) / np.linalg.norm(a) / np.linalg.norm(b)

def find_poem(request, top_n=10, lim=0.):
	req_emb = emb_model.encode(request)

	texts_datas = []

	for index, row in tqdm(df.iterrows()):
		text_sim = cosine_similarity(req_emb, row['text_embedding'])
		req_sim = cosine_similarity(req_emb, row['metadata_embedding'])
		score = text_sim * req_sim

		if score >= lim:
			texts_datas.append({'poem': row['text'], 'metadata': {k: v for k, v in row.items() if k != 'text' and k != 'metadata_embedding' and k != 'text_embedding'}, 
					   			'score': score, 'text_sim': text_sim, 'req_sim': req_sim})
	
	texts_datas.sort(key=lambda x: x['score'])

	plt.plot([x['text_sim'] for x in sorted(texts_datas, key=lambda x: x['score'])], label='text')
	plt.plot([x['req_sim'] for x in sorted(texts_datas, key=lambda x: x['score'])], label='req')
	plt.show()
	print(np.mean([x['req_sim'] for x in texts_datas]))
	print(np.mean([x['text_sim'] for x in texts_datas]))

	return texts_datas[-top_n:]


#request = 'из окны видны грустные пожелтевшие деревья но все же это моя любимая романтика'
#request = 'научный энтузиазм и борение за оригинальную идею'
#request = 'поднять! сделать! решительность! я! восклецания, Владимир Маяковский'
#request = 'дыр бул щыл убеш щур скум вы со бу р л эз'
request = 'стихотворение, поэзия, поэт, творчество, искусство'
#request = 'стихотворение, поэзия, поэт, творчество, искусство, серебрянный век, Автор: Владимир Маяковский'
#request = 'Автор: Александр Крученых Автор: Александр Крученых Автор: Александр Крученых Автор: Александр Крученых Автор: Александр Крученых'

finded = find_poem(request)

for d in finded:
	print(d['poem'])
	print({k: v for k, v in d.items() if k != 'poem'})
	print('------')

0it [00:00, ?it/s]


ValueError: could not convert string to float: '[-9.15968884e-03  2.05528717e-02 -2.54428294e-02 -1.48531245e-02\n  1.30124502e-02 -3.25524658e-02 -3.77138704e-02 -5.00245281e-02\n  1.49826836e-02  7.48177990e-03 -3.34518515e-02 -4.47052754e-02\n -3.25530278e-03 -7.04992712e-02  1.06156664e-02  5.77230798e-03\n  2.64669140e-03  1.40114902e-02 -5.50880954e-02  7.76266353e-03\n  6.48032501e-02  5.35690039e-02  2.64814147e-03  5.06590568e-02\n -4.29608952e-03 -5.32400869e-02  1.05339931e-02 -5.57884425e-02\n  1.24225346e-02  2.88664009e-02  3.32597084e-02  2.52631959e-04\n -2.37165708e-02  3.26288044e-02 -6.40792679e-03 -2.75005819e-04\n -2.01159604e-02  3.81386466e-02 -1.46067766e-02  2.94542406e-02\n  6.95203319e-02  3.31788473e-02  3.93318869e-02 -1.40048638e-02\n  7.89594278e-03 -3.69230174e-02  2.93830074e-02 -1.56003321e-02\n -4.95327171e-03 -2.02414319e-02 -1.05666518e-02 -1.10026738e-02\n -3.33168246e-02  1.54909901e-02  1.16648832e-02  5.39983669e-03\n  5.35076074e-02 -4.41131592e-02  4.33780663e-02 -2.13564690e-02\n -7.34394938e-02 -4.21830304e-02 -6.60753623e-02  1.10052596e-03\n -1.80748198e-03  1.96633171e-02  1.06374249e-02  9.89937689e-05\n -3.11997700e-02  3.61946449e-02  2.99836416e-02  4.64487299e-02\n  2.68317144e-02 -3.47563028e-02  3.06898747e-02  7.75284544e-02\n -3.43978032e-02 -1.04840118e-02  1.11348471e-02  4.61919717e-02\n  3.42334136e-02  7.58343935e-03 -3.47250625e-02 -1.16639063e-02\n -2.05521584e-02  3.58977057e-02 -3.24129523e-03 -6.12273905e-03\n -1.47581063e-02  5.08983284e-02  5.74021451e-02  1.57802943e-02\n -4.86322725e-03  3.91934924e-02 -6.10754872e-03  3.74420621e-02\n -1.75289661e-02  3.01224291e-02  8.04162398e-02  1.07804025e-02\n  4.03374396e-02 -3.69803458e-02  4.60662972e-03  8.57722573e-03\n -1.10252686e-02  4.32215296e-02  2.87279189e-02 -2.47300919e-02\n -2.54988484e-02 -3.36489417e-02  7.02564269e-02  3.90735688e-03\n  5.32679111e-02 -1.24595519e-02  9.41665098e-03  4.04212885e-02\n  6.54548854e-02  7.58975372e-02  2.43483819e-02 -7.63835327e-04\n -1.95015501e-02  2.45657153e-02  7.05362996e-03  2.12716423e-02\n  6.18572487e-03 -2.28005219e-02 -4.44128960e-02  5.13469577e-02\n  3.16364877e-02  1.17560895e-02 -2.05244012e-02  3.31581086e-02\n -1.95701271e-02 -2.98366370e-03 -3.77593958e-03 -8.67171511e-02\n -1.99167766e-02 -1.76137686e-02  1.38583202e-02  6.74662739e-02\n -1.70640666e-02 -1.74224228e-02 -2.47825105e-02  5.27368719e-03\n -3.75029258e-02 -1.50922639e-03 -4.03180979e-02 -2.67285272e-03\n  2.60978136e-02  9.32991225e-03  1.60727501e-02  4.55243774e-02\n  3.71898524e-02 -1.09211132e-02 -7.92541821e-03 -3.02841067e-02\n  3.24893221e-02  1.87207609e-02  5.49264252e-02 -2.68915370e-02\n -8.97438526e-02 -4.21153940e-02  1.52719999e-02  5.84579073e-02\n  1.04739738e-05  3.24009135e-02  1.01492452e-02  4.07622829e-02\n  3.43015380e-02  5.11489920e-02 -2.86790933e-02 -6.59481138e-02\n  6.94726259e-02 -2.07919050e-02  3.78937535e-02  2.30705347e-02\n  2.95274388e-02 -7.97015894e-03 -1.98973864e-02  2.96444818e-03\n -2.81479042e-02  7.13344105e-03 -3.59962061e-02 -3.06350309e-02\n  3.33671272e-02  3.65087651e-02  1.08860740e-02 -3.60709503e-02\n  9.73747112e-03  2.88347472e-02 -3.19635333e-03  3.68014090e-02\n -1.69579089e-02  2.45183031e-03 -5.58922440e-02 -4.45733982e-04\n -3.87067273e-02  3.85699756e-02 -8.57332908e-03  3.82900424e-02\n -1.94371361e-02 -6.60350770e-02  5.25875762e-02  3.56162861e-02\n  1.57638558e-03 -1.20493332e-02  2.39957310e-02 -2.04865113e-02\n -6.33407533e-02  1.68962777e-02  1.56457424e-02  1.44515470e-01\n  7.88234826e-03  2.46610027e-02  3.15892347e-03  1.67675857e-02\n  1.31838117e-02 -1.80461705e-02 -8.12056661e-03 -2.45908983e-02\n -4.37852703e-02  2.62950920e-02  4.91632149e-02 -1.49341943e-02\n -4.63645533e-02 -1.50916213e-02 -6.15974097e-03 -3.89021635e-03\n  3.59257050e-02 -1.36499163e-02  5.08097000e-03 -3.16274129e-02\n  3.11194472e-02  2.77214916e-03  2.31832638e-02  8.01684931e-02\n -3.75316143e-02  8.80677253e-03 -5.41959831e-04  1.44520414e-03\n -1.17820455e-02 -7.16473768e-03 -7.47571215e-02 -2.09256876e-02\n -1.08974529e-02 -3.68038118e-02  3.53959808e-03 -7.58049339e-02\n -8.87721032e-03 -2.50024255e-03  1.18175494e-02 -3.37150581e-02\n  5.81796141e-03  5.92637574e-03 -1.15528777e-02 -1.76808126e-02\n -2.46629417e-02 -1.01349568e-02  6.13367138e-03  1.78914052e-02\n -1.52220456e-02 -1.37120737e-02  1.84835086e-03  2.07009017e-02\n -2.03768425e-02  2.84267906e-02  1.32485591e-02 -7.15917116e-03\n  1.27797639e-02 -4.77340706e-02  1.13601359e-02 -5.98591715e-02\n  2.32182499e-02  2.86968295e-02 -5.12789562e-02 -4.40090382e-03\n  3.57939824e-02  3.98654565e-02  2.06347536e-02 -3.37656587e-02\n -7.80391134e-03  2.08505546e-03  4.21979912e-02 -2.22706143e-02\n  5.39560616e-03  5.30852238e-03 -2.59300601e-03  8.20166916e-02\n  5.95219899e-05 -5.09890309e-03  1.17138792e-02  2.29838621e-02\n  4.20074649e-02  3.68328951e-02 -3.68647128e-02 -2.13225950e-02\n  4.58906293e-02 -4.17512357e-02  5.65110892e-02  1.23613002e-02\n  5.33003546e-02  2.73439325e-02 -7.08629726e-04  3.12398076e-02\n  3.50609422e-02 -8.41097608e-02  3.95725183e-02 -3.37459370e-02\n  8.01075343e-03  4.17546220e-02  5.64538017e-02  3.61504935e-04\n  1.43317161e-02 -4.05225949e-03  4.26068008e-02 -2.27880869e-02\n  2.48603020e-02 -5.63558117e-02 -1.41899884e-02  5.55972084e-02\n  2.57110018e-02  9.68715455e-03  3.85412537e-02 -1.70158576e-02\n -7.53528904e-03 -3.74597088e-02  1.65961962e-02 -3.45641896e-02\n -1.22627225e-02  1.81316049e-03 -9.06122569e-03 -7.94047210e-03\n -1.18824271e-02  4.90897410e-02 -2.43471637e-02  5.51888905e-03\n  1.34842563e-02  2.13504024e-02 -1.59606393e-02  9.92217939e-03\n  3.92022878e-02 -2.65672412e-02 -1.16462086e-03  3.25370990e-02\n  1.39289792e-03 -1.54389534e-02 -1.40341278e-02  5.08272797e-02\n  1.33387800e-02 -2.04756912e-02  5.41926769e-04 -3.77820022e-02\n -7.32348263e-02  2.81396415e-02 -2.58208364e-02 -8.96263681e-03\n  2.52274498e-02  1.57626234e-02  3.70915717e-04 -1.98586192e-02\n -4.47295867e-02 -2.26723105e-02  2.96311192e-02  1.77119076e-02\n  1.96541212e-02 -4.16147523e-02  3.81719582e-02  1.59516819e-02\n  2.43561808e-02 -2.36885268e-02  6.15833998e-02 -1.87206659e-02\n -7.30058784e-03  3.44772898e-02 -2.15215702e-02 -1.40852751e-02\n  9.54343751e-03  1.05597731e-02  6.02617562e-02 -1.04355728e-02\n  4.01448086e-02 -1.24529807e-03  1.15344990e-02  6.70926878e-03\n  4.36334638e-03 -1.60295852e-02 -3.71951312e-02  2.09153518e-02\n -4.56196405e-02  9.78650618e-03 -3.48034017e-02 -1.75582804e-02\n  7.50308158e-03 -1.32688396e-02 -4.95987050e-02 -3.09103336e-02\n  2.15125792e-02 -1.53665068e-02 -1.26439780e-02  5.39343990e-02\n  6.33237325e-03 -5.47181517e-02  1.24819782e-02  3.20751104e-04\n  7.78506603e-03  1.35962246e-02 -1.34372963e-02 -2.07197014e-02\n -1.66715756e-02 -3.42197791e-02 -5.14997430e-02  3.24580516e-03\n  1.06360819e-02  5.14775626e-02  6.87932745e-02 -4.72825244e-02\n  1.06298337e-02 -2.46067513e-02 -2.57242769e-02  4.26465832e-03\n  2.89538205e-02  7.04114586e-02  2.78682653e-02  2.01506689e-02\n  3.14854980e-02  7.34586120e-02  5.39608225e-02  6.59354627e-02\n  4.79817986e-02 -4.72546965e-02  2.50760652e-02  1.88893452e-02\n  1.82855651e-02 -3.47997993e-05  2.66554654e-02 -2.58200280e-02\n -8.08194056e-02  5.23543544e-02  3.78209949e-02  1.88196898e-02\n -1.91267347e-03 -6.80877045e-02  5.13877086e-02  6.73219049e-03\n  5.71074113e-02 -8.32589250e-03 -3.62313502e-02  4.90373466e-03\n -2.54681520e-03  5.57802506e-02  2.83412691e-02  1.02191772e-02\n  1.98006183e-02 -2.81468220e-03 -6.36122981e-03 -7.57251829e-02\n -1.67678371e-02 -7.35436892e-03  2.03557522e-03  6.20917752e-02\n  2.21990459e-02  2.29356196e-02  7.58865476e-02  9.29380022e-03\n -3.85174975e-02  6.33558556e-02 -8.18431899e-02  2.85413954e-02\n -6.72515202e-03 -2.35608350e-02 -4.42166552e-02 -7.15447441e-02\n  6.19906513e-03  1.14447558e-02  2.19834708e-02 -4.57559852e-03\n -2.03253906e-02 -8.15467238e-02 -3.46514210e-02  2.00686399e-02\n  5.20353466e-02  3.04166824e-02  2.40780432e-02 -4.07669897e-04\n -1.76422279e-02  6.10207580e-03  6.59816200e-03 -2.02710237e-02\n  4.99673607e-03 -8.71053431e-03 -1.13867829e-02 -1.37374960e-02\n  2.80824173e-02  3.03346803e-03  3.37434262e-02  8.44176020e-03\n -2.21735667e-02 -3.66084091e-02 -2.10925657e-02  1.39947897e-02\n  1.13939885e-02  7.65973469e-03 -1.58887003e-02  5.60505986e-02\n -4.42767181e-02  2.58725062e-02  2.86341412e-03 -1.73004270e-02\n  1.06485281e-02  3.71398740e-02 -3.13833281e-02  9.29112267e-03]'