In [1]:
import numpy as np
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

### Preprocessing text

In [49]:
# our_data = pd.read_csv("../Cleaning CSV/lematized_trial.csv")
our_data = pd.read_csv("../Cleaning CSV/fully_cleaned_trial_100_with_sep.csv")

In [50]:
def remove_separators(dataframe: pd.DataFrame, col_name: str, separator: str):
    '''
    Remove separators from text
    Parameters
    ----------
    dataframe: pd.DataFrame
    col_name: str
    separator : str
    Returns
    -------
    text : pd.DataFrame
    Text without separators
    '''
    for index, one_col in enumerate(dataframe[col_name]):
        without_separators = ' '.join(one_col.split(sep=separator))
        dataframe[col_name][index] = without_separators

In [51]:
data_without_separator = our_data.copy()
remove_separators(data_without_separator, "content", "\u3002")

In [52]:
data_without_separator['content'][0]

'アンパ サンド アンパ サンド 並立 助詞 意味 記号   ラテン 語 表す 接続 詞 合字 起源   現代 フォント 一部 フォント 合字 容易 わかる 字 形 使用   語源 英 語 教育 行う 学校 アルファベット 復唱 場合 文字 自体 単語 文字 つく 伝統 的 ラテン 語 自体 用いる 唱える   アルファベット 最 後 番 目 文字 加える 広い 行う   ラテン 語 読ま 後 英語 読ま   結果 アルファベット 復唱 最後 形   最後 フレーズ 繰り返さ 訛っ いく 言葉 年 英語 一般 的 語法   アンドレマリ ・ アンペール 記号 著作 使う 広い 読ま 記号 呼ぶ 誤る 語 源 俗説   歴史 アンパサンド 起源 世紀 古 ローマ 筆記 体 遡る   古 ローマ 筆記 体 は しばしば 合字 繋げ 書く 左図 アンパサンド 変遷 字 形   続く 流麗 増す 新 ローマ 筆記 体 よう 合字 極めて 頻繁 使う   字 形 世紀 中頃 おく 合字 例   後 世紀 カロリング 小 文字 体 至る ラテン 文字 変遷 過程 合字 使用 一般 廃れる いう   合字 使う 続ける 次 第 元 文字 わかる にくい 字 形 変化 いう 字 形   現代 イタリック 体 アンパサンド ルネサンス 期 発展 筆記 体 合字 遡る   年 ヨーロッパ おく 印刷 技術 発明 以降 印刷 業 者 イタリック 体 ローマ 筆記 体 アンパサンド 両 方 多用   アンパサンド ルーツ ローマ 時代 遡る ラテン アル ファベット 使 用 多い 言語 アンパ サンド 使用   アンパサンド しばしば ラテン アルファベット 最後 文字   例えば 年 文字 表 例   同様 英語 アルファベット 番 目 文字 アメリカ 合衆 国 他 地域 子供 達 アンパサンド アルファベット 最後 文字 教える   年 著書 一 例 みる   ジョージ ・ エリオット 年 発表 小説 中 次 セリフ 語る   よく 知る 童謡 歌詞 締める くい   アンパサンド ティロ 式 記号 別   ティロ 式 記号 アンパ サンド 意味 同じ 数字 似る 形 記号   両者 古代 使用 中世 通す ラテン 語 表す 使用   アンパサンド ティロ 式 記号 独立 発明   ラ

#### TF-IDF

In [53]:
def creating_article_word_matrix(data: pd.DataFrame):
    # r"\S+" - all words and numbers
    vectorize = TfidfVectorizer(token_pattern=r"\S+")
    # data['article']?
    matrix_art_word = vectorize.fit_transform(data['content'].values)
    return matrix_art_word.toarray(), np.array(vectorize.get_feature_names())

In [54]:
matrix_tfidf, all_tfidfedwords = creating_article_word_matrix(data_without_separator)

In [57]:
all_tfidfedwords

array(['!', '?', '」', ..., '龍', '龍之', '龍山'], dtype='<U21')

In [56]:
matrix_tfidf.shape

(100, 19056)

In [None]:
# np.save("MAATRIX_WORDS", matrix_tfidf)
# np.save("WORD_LIST", all_tfidfedwords)

### SVD

k - number of singular values.

In [58]:
# from scipy.sparse.linalg import svds
# which_k = 1024  # from the instruction
# u, sig, v = svds(matrix_tfidf.T, k=50)

from numpy.linalg import svd
u, sig, v = svd(matrix_tfidf.T, full_matrices=False)

In [8]:
# np.save("U", u)
# np.save("sig", sig)
# np.save("v", v)

In [9]:
our_data['content'][0]

'アンパ サンド アンパ サンド 並立 助詞 意味 記号 。 ラテン 語 表す 接続 詞 合字 起源 。 現代 フォント 一部 フォント 合字 容易 わかる 字 形 使用 。 語源 英 語 教育 行う 学校 アルファベット 復唱 場合 文字 自体 単語 文字 つく 伝統 的 ラテン 語 自体 用いる 唱える 。 アルファベット 最 後 番 目 文字 加える 広い 行う 。 ラテン 語 読ま 後 英語 読ま 。 結果 アルファベット 復唱 最後 形 。 最後 フレーズ 繰り返さ 訛っ いく 言葉 年 英語 一般 的 語法 。 アンドレマリ ・ アンペール 記号 著作 使う 広い 読ま 記号 呼ぶ 誤る 語 源 俗説 。 歴史 アンパサンド 起源 世紀 古 ローマ 筆記 体 遡る 。 古 ローマ 筆記 体 は しばしば 合字 繋げ 書く 左図 アンパサンド 変遷 字 形 。 続く 流麗 増す 新 ローマ 筆記 体 よう 合字 極めて 頻繁 使う 。 字 形 世紀 中頃 おく 合字 例 。 後 世紀 カロリング 小 文字 体 至る ラテン 文字 変遷 過程 合字 使用 一般 廃れる いう 。 合字 使う 続ける 次 第 元 文字 わかる にくい 字 形 変化 いう 字 形 。 現代 イタリック 体 アンパサンド ルネサンス 期 発展 筆記 体 合字 遡る 。 年 ヨーロッパ おく 印刷 技術 発明 以降 印刷 業 者 イタリック 体 ローマ 筆記 体 アンパサンド 両 方 多用 。 アンパサンド ルーツ ローマ 時代 遡る ラテン アル ファベット 使 用 多い 言語 アンパ サンド 使用 。 アンパサンド しばしば ラテン アルファベット 最後 文字 。 例えば 年 文字 表 例 。 同様 英語 アルファベット 番 目 文字 アメリカ 合衆 国 他 地域 子供 達 アンパサンド アルファベット 最後 文字 教える 。 年 著書 一 例 みる 。 ジョージ ・ エリオット 年 発表 小説 中 次 セリフ 語る 。 よく 知る 童謡 歌詞 締める くい 。 アンパサンド ティロ 式 記号 別 。 ティロ 式 記号 アンパ サンド 意味 同じ 数字 似る 形 記号 。 両者 古代 使用 中世 通す ラテン 語 表す 使用 。 アンパサンド ティロ 式 記号 独立 発明 。 ラ

## Getting words vector dictionary

ПОЧЕМУ ОШИБКА"??!?!?!?!

In [63]:
def getting_dict(sigma: np.ndarray, u: np.ndarray, full_words_list: np.ndarray, shape: int):
    # getting number for words
    words_vector_mult = np.dot(u, np.diag(sigma))
    words_vect_dict = dict(zip(full_words_list, words_vector_mult))
    new_dict = {}
    for first, second in words_vect_dict.items():
        new_dict[first] = second.tolist()[:shape]
    return new_dict
    
    

In [64]:
word_and_vector_dictionary = getting_dict(sig, u, all_tfidfedwords, 1024)

In [65]:
word_and_vector_dictionary

{'!': [0.004889730074239362,
  -0.005691640479710808,
  -0.00519198528317938,
  0.0012973129803920526,
  0.001438354275264153,
  -0.0018221543455540655,
  0.000227143374624647,
  -0.00034124976516883857,
  -0.0016943752355593436,
  0.0007444983128659555,
  0.0001666773999913536,
  0.0016225110571959898,
  -0.0007757470045913036,
  -0.0009731994228045383,
  0.0010921666103251354,
  -0.00171242391670467,
  0.0006288477703831057,
  -0.0022853838357598027,
  0.005252819402527463,
  0.0004779628966932741,
  -0.0032675525765423347,
  0.0002464315156037551,
  -0.004548182712625195,
  0.0009059379693216085,
  -0.001638232719643671,
  -0.002133418176475293,
  0.0004239691300052281,
  -0.0014719592467609538,
  0.0004842156320649834,
  -0.0014060024522728068,
  -0.0035299462731563764,
  0.002237657334922905,
  -0.0006348303326424098,
  0.002034962416753568,
  -0.0027612955345655385,
  -0.002448808413515762,
  0.003127701396344398,
  -0.0013415481338327252,
  -0.0032549089082093523,
  0.0019808976

In [80]:
len(word_and_vector_dictionary)

19056

### Vectorizing data

In [76]:
from tqdm import tqdm

def vectorizing_sent(sent: str, words_dict: dict):
    splitted_text = sent.split()
    vects = list(map(words_dict.get, splitted_text))
    result = dict(zip(splitted_text, vects))
    return result


def vectorize_corpus(data_arr: list, separator: str, word_vectors: dict):
    all_data_vectorized = list()
    for one_id, article in enumerate(tqdm(data_arr)):
        all_sentences = article[0].split(sep=separator)
        vectorizing_text_data = list()
        for sent_id, sentence in enumerate(tqdm(all_sentences)):
            if not sentence:
                continue
            vected_data = vectorizing_sent(sentence, word_vectors)
            what_to_add = {"article_id": one_id, "sentence_id": sent_id, "sentence_text": sentence}
            vectorizing_text_data.append(what_to_add)
        all_data_vectorized.append(vectorizing_text_data)
    return np.array(all_data_vectorized)
        
        
        

In [88]:
def create_word_dict(sentence: str, words_values: dict):
    word_dict = dict()
    words_in_sent = sentence.split(sep=' ')
    # delete all empty strings
    words_in_sent = list(filter(lambda a: a != '', words_in_sent))
    for one_word in words_in_sent:
        word_dict[one_word] = words_values[one_word]
    return word_dict

def vectorize_corpus_trial(data_arr: list, separator: str, word_vectors: dict):
    all_data_vectorized = list()
    for one_id, article in enumerate(tqdm(data_arr)):
        all_sentences = article[0].split(sep=separator)
        vectorizing_text_data = list()
        for sent_id, sentence in enumerate(tqdm(all_sentences)):
            if not sentence:
                continue
            vected_data = vectorizing_sent(sentence, word_vectors)
            what_to_add = {"article_id": one_id, "sentence_id": sent_id, "sentence_text": create_word_dict(sentence, word_vectors)}
            vectorizing_text_data.append(what_to_add)
        all_data_vectorized.append(vectorizing_text_data)
    return np.array(all_data_vectorized)

SVD матрица довольно разряженная, нам надо ее сжать. Для этого вместо слов прикрутим вектора. В данном случае вместо японской точки будет японская запятая.

In [77]:
# new_one = dict(enumerate(all_tfidfedwords.flatten(), 1))
print('\u3002')

。


In [78]:
vectors_for_words = vectorize_corpus(our_data.values.tolist(), '\u3002', word_and_vector_dictionary)

  0%|          | 0/100 [00:00<?, ?it/s]
100%|██████████| 46/46 [00:00<00:00, 22968.81it/s]

100%|██████████| 145/145 [00:00<00:00, 71148.11it/s]

100%|██████████| 1223/1223 [00:00<00:00, 61121.64it/s]

100%|██████████| 41/41 [00:00<00:00, 40876.27it/s]

100%|██████████| 10/10 [00:00<?, ?it/s][A

100%|██████████| 394/394 [00:00<00:00, 32748.52it/s]

100%|██████████| 153/153 [00:00<00:00, 76761.78it/s]

100%|██████████| 69/69 [00:00<00:00, 23202.68it/s]

100%|██████████| 93/93 [00:00<00:00, 46459.06it/s]

100%|██████████| 80/80 [00:00<00:00, 26577.77it/s]
 10%|█         | 10/100 [00:00<00:00, 95.23it/s]
100%|██████████| 250/250 [00:00<00:00, 62605.29it/s]

100%|██████████| 328/328 [00:00<00:00, 54620.71it/s]

100%|██████████| 213/213 [00:00<00:00, 35485.65it/s]

100%|██████████| 47/47 [00:00<00:00, 46373.16it/s]

100%|██████████| 7/7 [00:00<00:00, 7049.25it/s]

100%|██████████| 184/184 [00:00<00:00, 45978.67it/s]

100%|██████████| 79/79 [00:00<00:00, 77928.04it/s]

100%|██████████| 7/7 [

In [79]:
vectors_for_words

array([list([{'article_id': 0, 'sentence_id': 0, 'sentence_text': 'アンパ サンド アンパ サンド 並立 助詞 意味 記号 '}, {'article_id': 0, 'sentence_id': 1, 'sentence_text': ' ラテン 語 表す 接続 詞 合字 起源 '}, {'article_id': 0, 'sentence_id': 2, 'sentence_text': ' 現代 フォント 一部 フォント 合字 容易 わかる 字 形 使用 '}, {'article_id': 0, 'sentence_id': 3, 'sentence_text': ' 語源 英 語 教育 行う 学校 アルファベット 復唱 場合 文字 自体 単語 文字 つく 伝統 的 ラテン 語 自体 用いる 唱える '}, {'article_id': 0, 'sentence_id': 4, 'sentence_text': ' アルファベット 最 後 番 目 文字 加える 広い 行う '}, {'article_id': 0, 'sentence_id': 5, 'sentence_text': ' ラテン 語 読ま 後 英語 読ま '}, {'article_id': 0, 'sentence_id': 6, 'sentence_text': ' 結果 アルファベット 復唱 最後 形 '}, {'article_id': 0, 'sentence_id': 7, 'sentence_text': ' 最後 フレーズ 繰り返さ 訛っ いく 言葉 年 英語 一般 的 語法 '}, {'article_id': 0, 'sentence_id': 8, 'sentence_text': ' アンドレマリ ・ アンペール 記号 著作 使う 広い 読ま 記号 呼ぶ 誤る 語 源 俗説 '}, {'article_id': 0, 'sentence_id': 9, 'sentence_text': ' 歴史 アンパサンド 起源 世紀 古 ローマ 筆記 体 遡る '}, {'article_id': 0, 'sentence_id': 10, 'sentence_text': ' 古 ローマ 筆記 体 は しばしば 

In [89]:
vectors = vectorize_corpus_trial(our_data.values.tolist(), '\u3002', word_and_vector_dictionary)

  0%|          | 0/100 [00:00<?, ?it/s]
100%|██████████| 46/46 [00:00<00:00, 633.42it/s]

100%|██████████| 145/145 [00:00<00:00, 3203.18it/s]
  2%|▏         | 2/100 [00:00<00:07, 12.86it/s]
  0%|          | 0/1223 [00:00<?, ?it/s][A
100%|██████████| 1223/1223 [00:00<00:00, 11086.76it/s][A
  3%|▎         | 3/100 [00:00<00:09, 10.03it/s]
100%|██████████| 41/41 [00:00<00:00, 8172.53it/s]

100%|██████████| 10/10 [00:00<00:00, 13706.88it/s]

100%|██████████| 394/394 [00:00<00:00, 8393.72it/s]

100%|██████████| 153/153 [00:00<00:00, 10931.78it/s]
  7%|▋         | 7/100 [00:00<00:07, 12.76it/s]
100%|██████████| 69/69 [00:00<00:00, 9860.21it/s]

100%|██████████| 93/93 [00:00<00:00, 11407.56it/s]

100%|██████████| 80/80 [00:00<00:00, 6156.32it/s]

100%|██████████| 250/250 [00:00<00:00, 11723.40it/s]
 11%|█         | 11/100 [00:00<00:05, 16.04it/s]
100%|██████████| 328/328 [00:00<00:00, 10549.69it/s]

100%|██████████| 213/213 [00:00<00:00, 9800.53it/s]

100%|██████████| 47/47 [00:00<00:00, 800

In [90]:
vectors

In [91]:
vectors[0]

[{'article_id': 0,
  'sentence_id': 0,
  'sentence_text': {'アンパ': [0.015780219020040415,
    0.013396479057558686,
    -0.004504611650901462,
    0.013911268735458643,
    -0.0028877193311962804,
    0.0028625729899141644,
    -0.00046801234471361113,
    0.008189152629899301,
    -0.01734687334446836,
    -0.01841586174087209,
    0.007839092861131531,
    -0.05233265105110567,
    0.02390837017558442,
    -0.022879023322070167,
    0.0564313701164939,
    -0.017684323132251045,
    0.002919153292393966,
    -0.04464990093259171,
    0.0248868161196102,
    -0.02543402951132438,
    0.023167626398008918,
    -0.014616071417460685,
    -0.007101829122568755,
    0.0012984175021880473,
    0.010265286477137571,
    0.0169546242318001,
    0.007819782660145744,
    -0.0025847101348038903,
    -0.01959869913796576,
    -0.010230322681541136,
    0.01494399173511016,
    0.016545096107291688,
    0.016293547961336557,
    0.010110502430907097,
    0.009333226763775985,
    0.01715233025982