# Аугументация датасета, состоящего из данных с сайтов: Проза.ру, ЛитПричал, Брифли, Литрес

In [1]:
import re

import pandas as pd
import nltk
from sklearn.model_selection import train_test_split

nltk.download("punkt")

from nltk.tokenize import sent_tokenize

[nltk_data] Downloading package punkt to
[nltk_data]     /Users/veronika_steklo/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
dataset = pd.read_csv("../data/temp_data/all_data.csv")

In [3]:
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,­­… сказки осенних вечеров ... монохромные во...,классика зарубежного рассказа №
freq,1,25


In [4]:
dataset.dropna(inplace=True)

In [5]:
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,­­… сказки осенних вечеров ... монохромные во...,классика зарубежного рассказа №
freq,1,25


In [6]:
dataset = dataset[dataset.text != ""].reset_index(drop=True)
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,­­… сказки осенних вечеров ... монохромные во...,классика зарубежного рассказа №
freq,1,25


In [7]:
dataset[dataset.duplicated(keep=False)]

Unnamed: 0,text,title


In [8]:
dataset[dataset.text == "описание отсутствует"]

Unnamed: 0,text,title


In [9]:
dataset = dataset.drop_duplicates()

In [10]:
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,­­… сказки осенних вечеров ... монохромные во...,классика зарубежного рассказа №
freq,1,25


In [11]:
dataset.loc[195].text

'*настоящий материал (информация) произведен, распространен и (или) направлен иностранным агентом архангельским александром николаевичем, либо касается деятельности иностранного агента архангельского александра николаевича.русский царь и русский писатель оказались конкурентами. претензия на духовную власть сталкивалась с претензией на власть как таковую. и каждый выбирал свой путь, подчиниться, перехитрить, вступить в диалог или бросить вызов.казнены аввакум и сильвестр (медеведев); верой и правдой служил феофан (прокопович), страдали кантемир тредьяковский; приговорен к смертной казни и отправлен в милостивую ссылку радищев.державин, который говорил про себя – «я был до правды чёрт», успел побыть и губернатором, и первым министром юстиции… карамзин и пушкин попытались выстроить другие отношения, духовного партнерства и влияния. что из этого вышло, почему жанр «разговора с царем», а потом и с вождем, будет так важен для русской культуры – в лекции александра архангельского «русский пис

In [12]:
dataset = dataset[dataset.text != "\xad"].reset_index(drop=True)

In [13]:
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,­­… сказки осенних вечеров ... монохромные во...,классика зарубежного рассказа №
freq,1,25


In [14]:
dataset = dataset[~dataset.duplicated(subset=["text"], keep=False)]

In [15]:
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,­­… сказки осенних вечеров ... монохромные во...,классика зарубежного рассказа №
freq,1,25


In [16]:
dataset.reset_index(drop=True, inplace=True)

In [17]:
dataset

Unnamed: 0,text,title
0,­­… сказки осенних вечеров ... монохромные во...,время - октябрь
1,"здравствуйте, вы установили мессенджер max, по...",переписка
2,радиоспектакль по роману.англия времен царство...,айвенго спектакль-я. ричард – львиное сердце
3,где можно найти наиболее полный литературный о...,калевала
4,"новый, адаптированный перевод алексея козлова ...",янки из коннектикута при дворе короля артура
...,...,...
30555,борис житков увлекался астрономией и фотографи...,что бывало
30556,"«этот сон видел бедный макар, который загнал с...",сон макара
30557,раннее утро предвещало жаркий день. солнечные ...,финал. золотое солнце правосудия
30558,святки – удивительный период времени: один год...,святочные истории


In [18]:
dup_titles = (
    dataset.groupby("text")["title"]
    .nunique()
    .reset_index()
    .query("title > 1")
)

print(f"Текстов с одинаковыми содержаниями, но разными названиями: {len(dup_titles)}")

Текстов с одинаковыми содержаниями, но разными названиями: 0


In [19]:
dataset = dataset.groupby("text").agg(lambda x: x.value_counts().index[0]).reset_index()
dataset.describe()

Unnamed: 0,text,title
count,30560,30560
unique,30560,27805
top,"как любому живому организму, организации нуж...",классика зарубежного рассказа №
freq,1,25


In [20]:
def is_meaningful(text):
    return bool(re.search(r"[А-Яа-яA-Za-z0-9]", text))

def clean_leading_punct(text):
    return re.sub(r"^[^\wА-Яа-я0-9]+", "", text).strip()

In [21]:
dataset = dataset[dataset.text.apply(is_meaningful)].reset_index(drop=True)
dataset.describe()

Unnamed: 0,text,title
count,30556,30556
unique,30556,27802
top,"как любому живому организму, организации нуж...",классика зарубежного рассказа №
freq,1,25


In [22]:
dataset = dataset[dataset.text.str.len() > 10]
dataset = dataset[dataset.text.str.split().str.len() > 5]

In [23]:
dataset.text = dataset.text.str.replace(r"[^\w\s,.!?-]", " ", regex=True)
dataset.text = dataset.text.str.replace(r"\s+", " ", regex=True).str.strip()

In [24]:
dataset.text = dataset.text.apply(clean_leading_punct)
dataset.describe()

Unnamed: 0,text,title
count,30457,30457
unique,30412,27715
top,адам бид дебютный роман знаменитой английской ...,классика зарубежного рассказа №
freq,3,25


In [25]:
dataset.reset_index(drop=True, inplace=True)
dataset = dataset[~dataset.duplicated(subset=["text"], keep=False)].reset_index(drop=True)
dataset.describe()

Unnamed: 0,text,title
count,30368,30368
unique,30368,27665
top,"как любому живому организму, организации нужна...",классика зарубежного рассказа №
freq,1,25


## Разделение на выборки

In [26]:
train_df, val_df = train_test_split(
    dataset, test_size=0.2, random_state=42, shuffle=True
)

In [27]:
len(train_df), len(val_df)

(24294, 6074)

In [28]:
val_df.to_csv("../data/val_df.csv", index=False)

## Аугментация тренировочной выборки

In [29]:
def split_text_into_chunks(text, sentences_per_chunk=3):
    sentences = sent_tokenize(text, language="russian")
    chunks = []
    for i in range(0, len(sentences), sentences_per_chunk):
        chunk = " ".join(sentences[i:i+sentences_per_chunk])
        chunks.append(chunk)
    return chunks

In [30]:
from tqdm import tqdm

augmented_rows = []
for _, row in tqdm(train_df.iterrows(), total=len(train_df)):
    chunks = split_text_into_chunks(row.text, sentences_per_chunk=3)
    for chunk in chunks:
        augmented_rows.append({"text": chunk, "title": row.title})

augmented_dataset = pd.DataFrame(augmented_rows)

100%|██████████| 24294/24294 [00:24<00:00, 1009.53it/s]


In [31]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,1330311,1330311
unique,1306320,22466
top,. . .,чистый хозяин собственного мира
freq,79,13972


In [32]:
augmented_dataset = augmented_dataset[augmented_dataset.text.str.strip().str.len() > 10]
augmented_dataset = augmented_dataset[augmented_dataset.text != ". . ."]

max_per_title = 500
augmented_dataset = augmented_dataset.groupby("title").head(max_per_title).reset_index(drop=True)

print(augmented_dataset.title.value_counts().head(10))

title
ангел жизни                                       500
просл ик пр б-цы галатская чудотв!                500
сережа. рождение воина                            500
девичник у его стола                              500
записки на испанском балконе                      500
незнакомый знакомый                               500
шаги в бездну или любовь на острие ножа           500
в тени радуги                                     500
в поисках простых истин                           500
«о делах божиих возвещать похвально...» анализ    500
Name: count, dtype: int64


In [33]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,848986,848986
unique,835191,22466
top,если же кого-то заинтересует более подробно то...,ангел жизни
freq,51,500


In [34]:
augmented_dataset = augmented_dataset.drop_duplicates().reset_index(drop=True)

In [35]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,847308,847308
unique,835191,22466
top,если же кого-то заинтересует более подробно то...,прерванный бой
freq,51,500


In [36]:
dup_titles = (
    augmented_dataset.groupby("text")["title"]
    .nunique()
    .reset_index()
    .query("title > 1")
)

print(f"Текстов с одинаковыми содержаниями, но разными названиями: {len(dup_titles)}")

Текстов с одинаковыми содержаниями, но разными названиями: 3412


In [37]:
augmented_dataset = augmented_dataset.groupby("text").agg(lambda x: x.value_counts().index[0]).reset_index()

In [38]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,835191,835191
unique,835191,22465
top,"! ! если ссылка неактивна, просто вставьте в а...",последний прогноз
freq,1,500


In [39]:
augmented_dataset = augmented_dataset[augmented_dataset.text.apply(is_meaningful)].reset_index(drop=True)

In [40]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,834826,834826
unique,834826,22465
top,"! ! если ссылка неактивна, просто вставьте в а...",створ литературный киногсценарий
freq,1,500


In [41]:
augmented_dataset = augmented_dataset[augmented_dataset.text.str.len() > 10]
augmented_dataset = augmented_dataset[augmented_dataset.text.str.split().str.len() > 5]

In [42]:
augmented_dataset.reset_index(inplace=True, drop=True)

In [43]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,829549,829549
unique,829549,22463
top,"! ! если ссылка неактивна, просто вставьте в а...",домовой
freq,1,500


In [44]:
augmented_dataset.text = augmented_dataset.text.str.replace(r"[^\w\s,.!?-]", " ", regex=True)
augmented_dataset.text = augmented_dataset.text.str.replace(r"\s+", " ", regex=True).str.strip()

In [45]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,829549,829549
unique,829549,22463
top,"! ! если ссылка неактивна, просто вставьте в а...",домовой
freq,1,500


In [46]:
augmented_dataset.text = augmented_dataset.text.apply(clean_leading_punct)

In [47]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,829549,829549
unique,829541,22463
top,"ну, пойдем, земеля! перевозчик ждать не любит....",домовой
freq,2,500


In [48]:
augmented_dataset = augmented_dataset[~augmented_dataset.duplicated(subset=["text"], keep=False)]

In [49]:
augmented_dataset.describe()

Unnamed: 0,text,title
count,829533,829533
unique,829533,22462
top,"если ссылка неактивна, просто вставьте в адрес...","""сталин и гитлер в годы второй мировой"
freq,1,500


In [50]:
augmented_dataset.to_csv("../data/all_data_augmented/train_df.csv", index=False)

# Аугментация почищенных данных

In [51]:
data = pd.read_csv("../data/clean_data_aug/all_data.csv")

In [52]:
clean_train_df, clean_val_df = train_test_split(
    data, test_size=0.2, random_state=42, shuffle=True
)

In [53]:
len(clean_train_df), len(clean_val_df)

(24054, 6014)

In [54]:
clean_val_df.to_csv("../data/clean_data_aug/val_df.csv", index=False)

In [55]:
augmented_rows = []
for _, row in tqdm(clean_train_df.iterrows(), total=len(train_df)):
    chunks = split_text_into_chunks(row.text, sentences_per_chunk=3)
    for chunk in chunks:
        augmented_rows.append({"text": chunk, "title": row.title})

clean_augmented_dataset = pd.DataFrame(augmented_rows)

 99%|█████████▉| 24054/24294 [00:25<00:00, 959.73it/s] 


In [56]:
clean_augmented_dataset.describe()

Unnamed: 0,text,title
count,1339156,1339156
unique,1311324,22175
top,. . .,чистый хозяин собственного мира
freq,224,13958


In [57]:
clean_augmented_dataset = clean_augmented_dataset[clean_augmented_dataset.text.str.strip().str.len() > 10]
clean_augmented_dataset = clean_augmented_dataset[clean_augmented_dataset.text != ". . ."]

max_per_title = 500
clean_augmented_dataset = clean_augmented_dataset.groupby("title").head(max_per_title).reset_index(drop=True)

print(clean_augmented_dataset.title.value_counts().head(10))

title
мой вид                                             500
маленькие странники, или почти сказочная история    500
лев гунин, муравей - роман                          500
бесплатно. уже вся книга. противостояние 2014       500
итальянец, тетя, золушка, пухленькая гувернантка    500
сказочная повесть. кукла                            500
возможности радости                                 500
канинг. король поднебесья. книга первая             500
альтаир                                             500
когда просыпаются боги                              500
Name: count, dtype: int64


In [58]:
clean_augmented_dataset.describe()

Unnamed: 0,text,title
count,856311,856311
unique,840214,22170
top,"это не значит, что остальным жителям планеты н...",мой вид
freq,51,500


In [60]:
dup_titles = (
    clean_augmented_dataset.groupby("text")["title"]
    .nunique()
    .reset_index()
    .query("title > 1")
)

print(f"Текстов с одинаковыми содержаниями, но разными названиями: {len(dup_titles)}")

Текстов с одинаковыми содержаниями, но разными названиями: 3785


In [61]:
clean_augmented_dataset = clean_augmented_dataset[clean_augmented_dataset.text.apply(is_meaningful)].reset_index(drop=True)

In [62]:
clean_augmented_dataset.describe()

Unnamed: 0,text,title
count,856290,856290
unique,840196,22169
top,если же кого-то заинтересует более подробно то...,ирландка
freq,51,500


In [63]:
clean_augmented_dataset = clean_augmented_dataset[clean_augmented_dataset.text.str.split().str.len() > 5]

In [64]:
clean_augmented_dataset.describe()

Unnamed: 0,text,title
count,851198,851198
unique,835348,22106
top,"это не значит, что остальным жителям планеты н...",сто блюд из кошки
freq,51,500


In [66]:
clean_augmented_dataset.reset_index(drop=True, inplace=True)
clean_augmented_dataset.text = clean_augmented_dataset.text.str.replace(r"[^\w\s,.!?-]", " ", regex=True)
clean_augmented_dataset.text = clean_augmented_dataset.text.str.replace(r"\s+", " ", regex=True).str.strip()

In [67]:
clean_augmented_dataset.text = clean_augmented_dataset.text.apply(clean_leading_punct)

In [69]:
clean_augmented_dataset = clean_augmented_dataset[~clean_augmented_dataset.duplicated(subset=["text"], keep=False)].reset_index(drop=True)

In [70]:
clean_augmented_dataset.describe()

Unnamed: 0,text,title
count,830584,830584
unique,830584,22080
top,"это была моя первая женщина, мужчиной я стал т...",путь от атеизма к вере
freq,1,500


In [72]:
clean_augmented_dataset.to_csv("../data/clean_data_aug/train_df.csv", index=False)