# Embeddings

In [None]:
import pandas as pd
import string

In [36]:
texts_df = pd.read_csv('../data/texts.csv')

# Preprocess texts

In [37]:
def preprocess(text):
    # convert input text to lower case.
    text = text.lower()
    # remove punctuations from string.
    translator = str.maketrans(string.punctuation, ' '*len(string.punctuation))
    text = text.translate(translator)
    # replace all whitespaces by a single space
    text = ' '.join(text.split())
    
    return text

In [38]:
preprocess(texts[0])

'tvá loď jde po vysokém moři v ně brázdu jako stříbro reje svou přídu v modré vlny nořía bok svůj pěnné do peřeje tvá lana sviští plachty dunía třepe vlajka v noční chvílizříš magický svit mořských tůní a ve snu albatros jak pílí já samotním jsem na ostrově ohýnek topím rybku lovězasedám na břeh za večera dým v kotoučích se modrých krade kdes písklo ptáče ještě mladé tma na mne hrozí z pološera'

In [39]:
texts_df['text_preprocessed'] = texts_df['text'].apply(lambda x: preprocess(x))

In [52]:
# add text length info
texts_df['n_words'] = texts_df['text_preprocessed'].apply(lambda x: len(x.split()))

In [53]:
texts_df.head()

Unnamed: 0,poem_id,text,text_preprocessed,text_len,n_words
0,0001-0000-0000-0001-0000,"Tvá loď jde po vysokém moři,v ně brázdu jako s...",tvá loď jde po vysokém moři v ně brázdu jako s...,73,73
1,0001-0001-0000-0001-0000,"Už míza naplňuje stonky,už přišly modré anemon...",už míza naplňuje stonky už přišly modré anemon...,126,126
2,0001-0001-0000-0002-0000,"Už jaro výskalo si na potkání,kosové pěli ze z...",už jaro výskalo si na potkání kosové pěli ze z...,147,147
3,0001-0001-0000-0003-0000,"Teď slunce prošlo poledníkem,dal znamení, a tí...",teď slunce prošlo poledníkem dal znamení a tím...,97,97
4,0001-0001-0000-0004-0000,"Skal nebetyčných shluky, řady,jež vystupují z ...",skal nebetyčných shluky řady jež vystupují z p...,237,237


In [54]:
texts_df.text_len.describe()

count    66428.000000
mean       183.178885
std        473.801865
min          2.000000
25%         56.000000
50%         90.000000
75%        163.000000
max      29319.000000
Name: text_len, dtype: float64

# Create embeddings for poem texts

In [49]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('sentence-transformers/distiluse-base-multilingual-cased-v2')

In [50]:
#Our sentences we like to encode
sentences = texts_df.text_preprocessed.to_numpy()

#Sentences are encoded by calling model.encode()
embeddings = model.encode(sentences)

In [51]:
len(embeddings)

66428

In [58]:
embeddings.shape

(66428, 512)

In [65]:
embeddings_list = embeddings.tolist()

In [67]:
len(embeddings_list)

66428

In [68]:
texts_df['embedding'] = embeddings_list

In [70]:
embeddings_df = texts_df[['poem_id', 'embedding']]

In [71]:
embeddings_df.head()

Unnamed: 0,poem_id,embedding
0,0001-0000-0000-0001-0000,"[-0.046550504863262177, -0.014515827409923077,..."
1,0001-0001-0000-0001-0000,"[0.0027238677721470594, 0.004033498000353575, ..."
2,0001-0001-0000-0002-0000,"[-0.032383304089307785, 0.010420155711472034, ..."
3,0001-0001-0000-0003-0000,"[-0.01692606881260872, 0.0020394506864249706, ..."
4,0001-0001-0000-0004-0000,"[-0.01918676681816578, 0.023260900750756264, 0..."


In [72]:
embeddings_df.to_csv('../data/embeddings.csv', index=False)