# Чтение данных

In [1]:
import pandas as pd

from tqdm import tqdm
tqdm.pandas()

df_cleansed = pd.read_csv("df_cleansed.csv", sep=";")
df_cleansed.shape

(3893128, 3)

# Лемматизация

*Дальнейшая кластеризация строится на предположении, что первое слово в заголовке столбца отражает ту сущность, которая в нем содержится*

## 1. Добавление столбца с первым словом в названии столбца

In [2]:
df_cleansed["first_word"] = df_cleansed["column_name"].progress_apply(lambda x: str(x).split(" ")[0].lower())
df_cleansed

100%|████████████████████████████| 3893128/3893128 [00:01<00:00, 2029517.29it/s]


Unnamed: 0,table_id,column_id,column_name,first_word
0,dataset/Dataset/data/7779522/table_0_meta.json,0,Чарт,чарт
1,dataset/Dataset/data/7779522/table_0_meta.json,1,Высшаяпозиция,высшаяпозиция
2,dataset/Dataset/data/2863377/table_11_meta.json,1,Команда,команда
3,dataset/Dataset/data/2863377/table_11_meta.json,2,И,и
4,dataset/Dataset/data/2863377/table_11_meta.json,3,В,в
...,...,...,...,...
3893123,dataset/Dataset/data/35185/table_5_meta.json,2,Дата получения Любекского права,дата
3893124,dataset/Dataset/data/35185/table_5_meta.json,3,Дата получения Кульмского права,дата
3893125,dataset/Dataset/data/35185/table_5_meta.json,4,Дата получения Магдебургского права,дата
3893126,dataset/Dataset/data/35185/table_5_meta.json,5,Дата вступления в союз,дата


## 2. Необходимо удалить заголовки имеющие длину < 2 (т.к. вроде бы нет слов меньшей длины)

In [3]:
# пока что беру длину 3, потому что аббревиатуры не развернуты
no_word_in_header_cleansed = df_cleansed["first_word"].str.len() < 3
df_cleansed[no_word_in_header_cleansed]

Unnamed: 0,table_id,column_id,column_name,first_word
3,dataset/Dataset/data/2863377/table_11_meta.json,2,И,и
4,dataset/Dataset/data/2863377/table_11_meta.json,3,В,в
5,dataset/Dataset/data/2863377/table_11_meta.json,4,Н,н
6,dataset/Dataset/data/2863377/table_11_meta.json,5,П,п
7,dataset/Dataset/data/2863377/table_11_meta.json,6,ГЗ,гз
...,...,...,...,...
3893109,dataset/Dataset/data/5909973/table_3_meta.json,5,ВК,вк
3893110,dataset/Dataset/data/5909973/table_3_meta.json,6,ФФ,фф
3893111,dataset/Dataset/data/5909973/table_3_meta.json,7,БЛ,бл
3893112,dataset/Dataset/data/5909973/table_3_meta.json,8,В,в


In [4]:
df_cleansed = df_cleansed[~no_word_in_header_cleansed]
df_cleansed

Unnamed: 0,table_id,column_id,column_name,first_word
0,dataset/Dataset/data/7779522/table_0_meta.json,0,Чарт,чарт
1,dataset/Dataset/data/7779522/table_0_meta.json,1,Высшаяпозиция,высшаяпозиция
2,dataset/Dataset/data/2863377/table_11_meta.json,1,Команда,команда
9,dataset/Dataset/data/2863377/table_11_meta.json,9,Очки,очки
10,dataset/Dataset/data/4727026/table_0_meta.json,0,Год,год
...,...,...,...,...
3893123,dataset/Dataset/data/35185/table_5_meta.json,2,Дата получения Любекского права,дата
3893124,dataset/Dataset/data/35185/table_5_meta.json,3,Дата получения Кульмского права,дата
3893125,dataset/Dataset/data/35185/table_5_meta.json,4,Дата получения Магдебургского права,дата
3893126,dataset/Dataset/data/35185/table_5_meta.json,5,Дата вступления в союз,дата


In [5]:
df_cleansed["column_name"].isna().sum()

0

##  Далее работаю с подвыборкой, из-за нехватки ресурсов

In [6]:
df_cleansed_sample = df_cleansed.sample(random_state=2023, frac=0.025)
df_cleansed_sample

Unnamed: 0,table_id,column_id,column_name,first_word
485994,dataset/Dataset/data/1674874/table_0_meta.json,10,Окт,окт
486568,dataset/Dataset/data/8058169/table_1_meta.json,6,Комментарии,комментарии
130087,dataset/Dataset/data/4854488/table_0_meta.json,5,Произвкод,произвкод
2142820,dataset/Dataset/data/8668795/table_1_meta.json,1,Турнир,турнир
101958,dataset/Dataset/data/6067630/table_0_meta.json,0,Год,год
...,...,...,...,...
2629364,dataset/Dataset/data/7003087/table_3_meta.json,2,Категория,категория
564906,dataset/Dataset/data/6079239/table_3_meta.json,1,Матч,матч
293782,dataset/Dataset/data/6732730/table_0_meta.json,0,Сезон,сезон
1267866,dataset/Dataset/data/4068147/table_0_meta.json,3,Сборы,сборы


In [7]:
len(df_cleansed_sample["first_word"].unique())

5753

## 3. Построение леммы для первого слова заголовка

In [8]:
import spacy
nlp = spacy.load("ru_core_news_sm", disable=['parser', 'ner'])

In [9]:
# kernel dies when executes this

def lemmatize_first_word(first_word: str) -> str:
    try:
        return nlp(first_word)[0].lemma_
    except IndexError:
        return None

df_cleansed_sample["first_word_lemma"] = df_cleansed_sample["first_word"].progress_apply(lemmatize_first_word)

100%|████████████████████████████████████| 86502/86502 [01:45<00:00, 818.89it/s]


In [10]:
df_cleansed_sample["first_word_lemma"].isna().sum()

0

# Создание эмбеддингов
Для кластеризации удаляю столбцы, для которых не было получено ембеддингов

In [11]:
import gensim.downloader
import numpy as np

ru_model = gensim.downloader.load("word2vec-ruscorpora-300")

In [12]:
def get_embedding(word: str) -> list|None:
    try:
        return ru_model.__getitem__([f"{word}_NOUN"])[0].astype(float)
    except KeyError:
        return None

df_cleansed_sample["embedding"] = df_cleansed_sample["first_word_lemma"].progress_apply(get_embedding)
df_cleansed_sample

100%|█████████████████████████████████| 86502/86502 [00:00<00:00, 241196.31it/s]


Unnamed: 0,table_id,column_id,column_name,first_word,first_word_lemma,embedding
485994,dataset/Dataset/data/1674874/table_0_meta.json,10,Окт,окт,окт,"[0.11048173159360886, -0.06807802617549896, 0...."
486568,dataset/Dataset/data/8058169/table_1_meta.json,6,Комментарии,комментарии,комментарий,"[0.07857518643140793, -0.005067707505077124, -..."
130087,dataset/Dataset/data/4854488/table_0_meta.json,5,Произвкод,произвкод,произвкод,
2142820,dataset/Dataset/data/8668795/table_1_meta.json,1,Турнир,турнир,турнир,"[-0.016068028286099434, -0.013522529974579811,..."
101958,dataset/Dataset/data/6067630/table_0_meta.json,0,Год,год,год,"[-0.02274102345108986, -0.043927066028118134, ..."
...,...,...,...,...,...,...
2629364,dataset/Dataset/data/7003087/table_3_meta.json,2,Категория,категория,категория,"[0.06008725240826607, -0.03459995612502098, -0..."
564906,dataset/Dataset/data/6079239/table_3_meta.json,1,Матч,матч,матч,"[0.04683051258325577, 0.012336688116192818, 0...."
293782,dataset/Dataset/data/6732730/table_0_meta.json,0,Сезон,сезон,сезон,"[0.02808276005089283, -0.012687585316598415, 0..."
1267866,dataset/Dataset/data/4068147/table_0_meta.json,3,Сборы,сборы,сбор,"[0.1548513025045395, 0.04657189920544624, 0.00..."


## Фильтрация столбцов, для которых не построились эмбеддинги

In [13]:
mask_hasnt_embedding = df_cleansed_sample["embedding"].isna()
df_cleansed_sample = df_cleansed_sample[~mask_hasnt_embedding]
df_cleansed_sample

Unnamed: 0,table_id,column_id,column_name,first_word,first_word_lemma,embedding
485994,dataset/Dataset/data/1674874/table_0_meta.json,10,Окт,окт,окт,"[0.11048173159360886, -0.06807802617549896, 0...."
486568,dataset/Dataset/data/8058169/table_1_meta.json,6,Комментарии,комментарии,комментарий,"[0.07857518643140793, -0.005067707505077124, -..."
2142820,dataset/Dataset/data/8668795/table_1_meta.json,1,Турнир,турнир,турнир,"[-0.016068028286099434, -0.013522529974579811,..."
101958,dataset/Dataset/data/6067630/table_0_meta.json,0,Год,год,год,"[-0.02274102345108986, -0.043927066028118134, ..."
2819355,dataset/Dataset/data/1948124/table_0_meta.json,13,ЗАЗ подразделение УкрАвто время выпуска с года,заз,заз,"[0.007524707354605198, 0.12947626411914825, -0..."
...,...,...,...,...,...,...
2419080,dataset/Dataset/data/1804657/table_2_meta.json,0,Тариф,тариф,тариф,"[-0.03294992819428444, 0.0019375268602743745, ..."
2629364,dataset/Dataset/data/7003087/table_3_meta.json,2,Категория,категория,категория,"[0.06008725240826607, -0.03459995612502098, -0..."
564906,dataset/Dataset/data/6079239/table_3_meta.json,1,Матч,матч,матч,"[0.04683051258325577, 0.012336688116192818, 0...."
293782,dataset/Dataset/data/6732730/table_0_meta.json,0,Сезон,сезон,сезон,"[0.02808276005089283, -0.012687585316598415, 0..."


# Кластеризация

---
- DBScan O(n^2) + съедает ресурсы, не подходит для датасета.
- Использую mini batch k-means

Можно улучшить, взяв параллельный k-means на cuda https://github.com/src-d/kmcuda

---

## Reshape embeddings

In [14]:
import numpy as np
from random import randint

rs = 13

embeddings_reshaped = np.array(list(map(lambda x: x, df_cleansed_sample["embedding"])))
embeddings_reshaped.shape

df_cls = pd.DataFrame()
df_cls["first_word_lemma"] = df_cleansed_sample["first_word_lemma"]

## DBSCAN - out of memory

In [15]:
from sklearn.cluster import DBSCAN

name = "dbscan"
model = DBSCAN

# df_cls[name] = model().fit_predict(embeddings_reshaped)

## Affinity propagation - out of memory

In [16]:
from sklearn.cluster import AffinityPropagation

name = "affinity_prop"
model = AffinityPropagation
# df_cls[name] = model().fit_predict(embeddings_reshaped)

## Gaussian mixture

## BIRCH

In [18]:
from sklearn.cluster import Birch

num_clusters = 150
name = "birch"
model = Birch

df_cls[name] = model(n_clusters=num_clusters).fit_predict(embeddings_reshaped)

In [19]:
df_cls[df_cls[name] == randint(0, num_clusters - 1)]

Unnamed: 0,first_word_lemma,birch
1914224,нарушение,93
2228539,режим,93
286363,условие,93
1143357,режим,93
236494,условие,93
6296,режим,93
821728,условие,93
3645157,условие,93
1320229,требование,93
2499136,правило,93


In [20]:
df_cls[df_cls[name] == randint(0, num_clusters - 1)]["first_word_lemma"].unique()

array(['область', 'сфера'], dtype=object)

## Mean-Shift - slow

In [None]:
from sklearn.cluster import MeanShift

name = "mean_shift"
model = MeanShift

# df_cls[name] = model().fit_predict(embeddings_reshaped)

In [None]:
# df_cls[df_cls[name] == randint(0, num_clusters - 1)]

In [None]:
# df_cls[df_cls[name] == randint(0, num_clusters - 1)]["first_word_lemma"].unique()

## OPTICS - slow

In [None]:
from sklearn.cluster import OPTICS

name = "optics"
model = OPTICS
#df_cls[name] = model().fit_predict(embeddings_reshaped)

#num_clusters = max(df_cls[name])

In [None]:
#df_cls[df_cls[name] == randint(0, num_clusters - 1)]

In [None]:
#df_cls[df_cls[name] == randint(0, num_clusters - 1)]["first_word_lemma"].unique()

## Agglomerative Hierarchy - memory error

In [None]:
from sklearn.cluster import AgglomerativeClustering

num_clusters = 100

name = "agglomerative"
model = AgglomerativeClustering
# df_cls[name] = model(n_clusters=num_clusters).fit_predict(embeddings_reshaped)

In [None]:
# df_cls[df_cls[name] == randint(0, num_clusters - 1)]

In [None]:
# df_cls[df_cls[name] == randint(0, num_clusters - 1)]["first_word_lemma"].unique()

## K-means

In [21]:
from sklearn.cluster import KMeans

num_clusters = 150

name = "kmeans"
model = KMeans
df_cls[name] = model(n_clusters=num_clusters, random_state=rs).fit_predict(embeddings_reshaped)

  super()._check_params_vs_input(X, default_n_init=10)


In [22]:
df_cls[df_cls[name] == randint(0, num_clusters - 1)]

Unnamed: 0,first_word_lemma,birch,kmeans
324521,участие,136,66
352073,участник,136,66
200924,участница,136,66
2823746,участник,136,66
2865674,участник,136,66
...,...,...,...
1257771,участник,136,66
1261984,участник,136,66
3020629,участие,136,66
2957947,участие,136,66


In [23]:
df_cls[df_cls[name] == randint(0, num_clusters - 1)]["first_word_lemma"].unique()

array(['продажа', 'цена', 'рынок', 'производство', 'выпуск', 'торговля',
       'потребление', 'экспорт', 'импорт', 'сбыт', 'покупка'],
      dtype=object)

## Mini batch k-means
Берется батч (срез) данных, по ним строится k-means, за счет чего быстро работает)

In [24]:
from sklearn.cluster import MiniBatchKMeans

num_clusters = 150

name = "minibatch-kmeans"
model = MiniBatchKMeans
df_cls[name] = model(n_clusters=num_clusters, random_state=rs, max_iter=200).fit_predict(embeddings_reshaped)

  super()._check_params_vs_input(X, default_n_init=3)


In [25]:
df_cls[df_cls[name] == randint(0, num_clusters - 1)]

Unnamed: 0,first_word_lemma,birch,kmeans,minibatch-kmeans
258312,титул,69,37,17
2107730,титул,69,37,17
12389,титул,69,37,17
1504007,титул,69,37,17
3617617,титул,69,37,17
...,...,...,...,...
2502191,титул,69,37,17
2874759,титул,69,37,17
2569681,титул,69,37,17
3678911,титул,69,37,17


In [26]:
df_cls[df_cls[name] == randint(0, num_clusters - 1)]["first_word_lemma"].unique()

array(['код', 'расшифровка', 'кодирование', 'кодировка'], dtype=object)