In [None]:
import requests

class UseradeClient:
    def __init__(self, base_url="https://wuserade.onrender.com"):
        self.base_url = base_url

    def get_poems(self, page=1):
        """Получение списка стихов."""
        url = f"{self.base_url}/poems"
        params = {"page": page}
        response = requests.get(url, params=params)
        return response.json()

    def get_poem_by_id(self, poem_id):
        """Получение стиха по ID."""
        url = f"{self.base_url}/poems/{poem_id}"
        response = requests.get(url)
        return response.json()

    def get_authors(self, page=1):
        """Получение списка авторов."""
        url = f"{self.base_url}/authors"
        params = {"page": page}
        response = requests.get(url, params=params)
        return response.json()

    def get_author_by_id(self, author_id):
        """Получение информации об авторе по ID."""
        url = f"{self.base_url}/authors/{author_id}"
        response = requests.get(url)
        return response.json()

    def get_poems_of_author(self, author_id):
        """Получение стихов конкретного автора."""
        url = f"{self.base_url}/authors/{author_id}/poems"
        response = requests.get(url)
        return response.json()

    def search_poems(self, search_query):
        """Поиск стихов."""
        url = f"{self.base_url}/poems/search"
        params = {"q": search_query}
        response = requests.get(url, params=params)
        return response.json()

    def get_themes(self):
        """Получение списка тем."""
        url = f"{self.base_url}/themes"
        response = requests.get(url)
        return response.json()
    
    def all_poems(self):
        """Генератор для получения всех стихов, обходя пагинацию."""
        current_page = 1
        total_pages = 1  # Начинаем с 1, чтобы войти в цикл

        while current_page <= total_pages:
            response = self.get_poems(page=current_page)
            if 'total_pages' in response:
                total_pages = response['total_pages']

            if 'poems' in response:  # Предполагаем, что стихи возвращаются в ключе 'data'
                for poem in response['poems']:
                    yield poem

            current_page += 1
    
    # Здесь добавьте оставшиеся методы, если они есть.

# Пример использования
client = UseradeClient()

poems = {}

for poem in client.all_poems():
    poems[poem['id']] = poem

In [5]:
len(poems)

3829

In [None]:
import json

with open('../data/external/wuserade/poems.json', 'w', encoding='utf-8') as f:
    json.dump(poems, f, ensure_ascii=False, indent=4)

In [1]:
import json
with open('../data/external/wuserade/poems.json', 'r', encoding='utf-8') as f:
    poems = json.load(f)

In [2]:
import pandas as pd

df = pd.DataFrame(poems).T

In [3]:
df['author_id'] = df['author'].apply(lambda x: x['id'])
df['author_name'] = df['author'].apply(lambda x: x['name'])

df = df.drop(columns=['author'])

In [4]:
df['content'] = df['content'].apply(lambda x: x.replace('ӏ', 'I'))
df['content_len'] = df['content'].apply(lambda x: len(x))

In [5]:
import nltk

df['sentences'] = df['content'].apply(lambda x: nltk.sent_tokenize(x))
df['sentences_count'] = df['sentences'].apply(len)

In [6]:
df

Unnamed: 0,id,title,content,author_id,author_name,content_len,sentences,sentences_count
3868,3868,Абрэдж Нухь и гъыбз,Абрэджы ныохэр зызэхэIыстхьакIэ ужъэгъуузы аIо...,99,Зытхар тщӏэкъым,1492,[Абрэджы ныохэр зызэхэIыстхьакIэ ужъэгъуузы аI...,9
3867,3867,Абихъан иорэд,"Сэхътэн цуакъэхэри тэпаплъ, оо…\r\nУихъани плъ...",99,Зытхар тщӏэкъым,1103,"[Сэхътэн цуакъэхэри тэпаплъ, оо…\r\nУихъани пл...",9
3866,3866,Абдзахэм язекӏо орэд,"Абадзэхэр къумбылымэ щэхасэ гущэба,\r\nЖьыу: Е...",99,Зытхар тщӏэкъым,850,"[Абадзэхэр къумбылымэ щэхасэ гущэба,\r\nЖьыу: ...",21
3865,3865,Ӏэдииху гъыбзэ,"И чэзумэ дыщынэсым, (ар) си Iэдииху \r\nЛъэс п...",99,Зытхар тщӏэкъым,1516,"[И чэзумэ дыщынэсым, (ар) си Iэдииху \r\nЛъэс ...",17
3864,3864,Ӏазэм иорэд,"(Уэр), штаукIэу шъхьалымэ, \r\n(Уэр) зегъазэ, ...",99,Зытхар тщӏэкъым,502,"[(Уэр), штаукIэу шъхьалымэ, \r\n(Уэр) зегъазэ,...",4
...,...,...,...,...,...,...,...,...
9,9,ОНО,Ялъэгъуакъым псалъэ дахэм\nӀэм къимыщтэу илэжь...,81,Щоджэнцӏыкӏу Алий,826,[Ялъэгъуакъым псалъэ дахэм\nӀэм къимыщтэу илэж...,10
8,8,КЪАПЛЪЭТ МЫДЭ!,«Русски горкэ» хужаIами\nФоупс IэфIуэ къысщыхъ...,81,Щоджэнцӏыкӏу Алий,1017,[«Русски горкэ» хужаIами\nФоупс IэфIуэ къысщых...,9
7,7,НАНЭ,Уэ пщIэрэ уи щIалэ цIыкIур\nХы Iуфэм щепэзэзэх...,81,Щоджэнцӏыкӏу Алий,985,[Уэ пщIэрэ уи щIалэ цIыкIур\nХы Iуфэм щепэзэзэ...,11
6,6,ТХЬЭУСЫХАФЭ,Зи гуащIэр ин! Щхьэ сыбгъэщIа \nМураду щыIэм я...,88,Къуэдзокъуэ Лэкъумэн,902,"[Зи гуащIэр ин!, Щхьэ сыбгъэщIа \nМураду щыIэм...",17


In [7]:
df

Unnamed: 0,id,title,content,author_id,author_name,content_len,sentences,sentences_count
3868,3868,Абрэдж Нухь и гъыбз,Абрэджы ныохэр зызэхэIыстхьакIэ ужъэгъуузы аIо...,99,Зытхар тщӏэкъым,1492,[Абрэджы ныохэр зызэхэIыстхьакIэ ужъэгъуузы аI...,9
3867,3867,Абихъан иорэд,"Сэхътэн цуакъэхэри тэпаплъ, оо…\r\nУихъани плъ...",99,Зытхар тщӏэкъым,1103,"[Сэхътэн цуакъэхэри тэпаплъ, оо…\r\nУихъани пл...",9
3866,3866,Абдзахэм язекӏо орэд,"Абадзэхэр къумбылымэ щэхасэ гущэба,\r\nЖьыу: Е...",99,Зытхар тщӏэкъым,850,"[Абадзэхэр къумбылымэ щэхасэ гущэба,\r\nЖьыу: ...",21
3865,3865,Ӏэдииху гъыбзэ,"И чэзумэ дыщынэсым, (ар) си Iэдииху \r\nЛъэс п...",99,Зытхар тщӏэкъым,1516,"[И чэзумэ дыщынэсым, (ар) си Iэдииху \r\nЛъэс ...",17
3864,3864,Ӏазэм иорэд,"(Уэр), штаукIэу шъхьалымэ, \r\n(Уэр) зегъазэ, ...",99,Зытхар тщӏэкъым,502,"[(Уэр), штаукIэу шъхьалымэ, \r\n(Уэр) зегъазэ,...",4
...,...,...,...,...,...,...,...,...
9,9,ОНО,Ялъэгъуакъым псалъэ дахэм\nӀэм къимыщтэу илэжь...,81,Щоджэнцӏыкӏу Алий,826,[Ялъэгъуакъым псалъэ дахэм\nӀэм къимыщтэу илэж...,10
8,8,КЪАПЛЪЭТ МЫДЭ!,«Русски горкэ» хужаIами\nФоупс IэфIуэ къысщыхъ...,81,Щоджэнцӏыкӏу Алий,1017,[«Русски горкэ» хужаIами\nФоупс IэфIуэ къысщых...,9
7,7,НАНЭ,Уэ пщIэрэ уи щIалэ цIыкIур\nХы Iуфэм щепэзэзэх...,81,Щоджэнцӏыкӏу Алий,985,[Уэ пщIэрэ уи щIалэ цIыкIур\nХы Iуфэм щепэзэзэ...,11
6,6,ТХЬЭУСЫХАФЭ,Зи гуащIэр ин! Щхьэ сыбгъэщIа \nМураду щыIэм я...,88,Къуэдзокъуэ Лэкъумэн,902,"[Зи гуащIэр ин!, Щхьэ сыбгъэщIа \nМураду щыIэм...",17


In [8]:
from tqdm import tqdm
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('./sbert_from_mlm_bert_8')

vectors = [
    model.encode(sent)
    for sent in tqdm(df['content'].tolist())
]

100%|██████████| 3829/3829 [01:32<00:00, 41.29it/s]


In [9]:
from sklearn.cluster import AgglomerativeClustering
from collections import defaultdict


def get_clusters(vectors, n_clusters=20):
    agg_clustering = AgglomerativeClustering(n_clusters=n_clusters)
    labels = agg_clustering.fit_predict(vectors)
    return labels


def get_sents_by_clusters(words, labels):
    sents_by_clusters = defaultdict(list)
    for i, label in enumerate(labels):
        sents_by_clusters[label].append(words[i])

    return sents_by_clusters

In [13]:
n_clusters = 1000
labels = get_clusters(vectors, n_clusters=n_clusters)
sents_by_clusters = get_sents_by_clusters(df['id'], labels)
df['cluster'] = labels

for cluster_label, cluster_sents in sents_by_clusters.items():
    print(f'Cluster {cluster_label}:')
    print(cluster_sents)
    print()

Cluster 879:
[3868, 3779]

Cluster 991:
[3867]

Cluster 840:
[3866]

Cluster 394:
[3865, 3687, 3145, 3074, 2831, 2480, 2230, 2181, 2166, 2164, 1552, 585, 66]

Cluster 655:
[3864]

Cluster 374:
[3863, 3247, 317]

Cluster 720:
[3862]

Cluster 347:
[3861, 3590, 2544]

Cluster 193:
[3860, 3500, 3425, 997, 910, 416, 408, 336, 329, 303]

Cluster 311:
[3859, 2455, 2391, 1893]

Cluster 806:
[3858]

Cluster 319:
[3857, 3563, 3316, 2071, 1102]

Cluster 755:
[3856, 2827, 1787, 1497, 1331, 691, 32]

Cluster 86:
[3855, 3736]

Cluster 113:
[3854, 318]

Cluster 64:
[3853, 2244, 1526, 1202, 644]

Cluster 492:
[3852, 3349, 2814, 2432, 1914, 687, 558, 465, 219]

Cluster 307:
[3851, 3256, 3197, 2642, 824, 194]

Cluster 298:
[3850, 1843, 943]

Cluster 906:
[3849]

Cluster 30:
[3848, 2890, 1676, 1156, 316]

Cluster 826:
[3847]

Cluster 220:
[3846, 3541, 1908, 1577, 1364]

Cluster 93:
[3845, 3006, 2961, 2926, 2348, 1269, 951, 759, 151]

Cluster 340:
[3844, 2397, 351]

Cluster 522:
[3843, 3782, 3165, 3025, 2

In [17]:
import os

poems_cluster_dir = f'../data/processed/userade/poems_cluster/{n_clusters}'
os.makedirs(poems_cluster_dir, exist_ok=True)

In [18]:
for group_name, group in df.groupby('cluster'):
    group = group.drop(columns=['cluster'])
    group.to_csv(f'{poems_cluster_dir}/{group_name}.csv', index=False)