# BERT

## Dataset creation

For the dataset

In [None]:
import kagglehub

# Download latest version
path = kagglehub.dataset_download("antonoof/avito-data")

print("Path to dataset files:", path)

Using Colab cache for faster access to the 'avito-data' dataset.
Path to dataset files: /kaggle/input/avito-data


In [None]:
reviews = pd.read_csv("reviews.csv", sep="\t", encoding="utf-8")

In [None]:
reviews= reviews[['review']]

In [None]:
def trim_review(text, min_words=5, max_words=20):
    words = text.split()
    return " ".join(words[:max_words])

reviews['review'] = reviews['review'].apply(trim_review)

In [None]:
reviews['review_no_spaces'] = reviews['review'].str.replace(" ", "", regex=False)

In [None]:
reviews = reviews.iloc[:15000]

In [None]:
from datasets import Dataset
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
from transformers import DataCollatorForSeq2Seq, Seq2SeqTrainingArguments, Seq2SeqTrainer

In [None]:
dataset = Dataset.from_pandas(reviews)
dataset = dataset.train_test_split(test_size=0.2)

In [None]:
model_name = "google/mt5-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)



In [None]:
def preprocess_function(examples):
    model_inputs = tokenizer(["fix spaces:" + text for text in examples["review_no_spaces"]], max_length=256, truncation=True)
    labels = tokenizer(examples["review"], max_length=256, truncation=True)
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs

In [None]:
tokenized_datasets = dataset.map(preprocess_function, batched=True)

Map:   0%|          | 0/12000 [00:00<?, ? examples/s]

Map:   0%|          | 0/3000 [00:00<?, ? examples/s]

In [None]:
data_collator = DataCollatorForSeq2Seq(tokenizer, model=model)

In [None]:
training_args = Seq2SeqTrainingArguments(
    output_dir="./t5-spaces",
    num_train_epochs=8,
    predict_with_generate=True,
    logging_dir="./logs",
)

In [None]:
trainer = Seq2SeqTrainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_datasets["train"],
    eval_dataset=tokenized_datasets["test"],
    tokenizer=tokenizer,
    data_collator=data_collator,
)

  trainer = Seq2SeqTrainer(


In [None]:
trainer.train()

Step,Training Loss
500,7.4523
1000,2.2377
1500,1.6572
2000,1.3683
2500,1.2113
3000,1.077
3500,0.9859
4000,0.9286
4500,0.8782
5000,0.8403


Step,Training Loss
500,7.4523
1000,2.2377
1500,1.6572
2000,1.3683
2500,1.2113
3000,1.077
3500,0.9859
4000,0.9286
4500,0.8782
5000,0.8403


KeyboardInterrupt: 

In [None]:
text = "новыйдивандоставканедорого"
inputs = tokenizer(text, return_tensors="pt").to("cuda")
outputs = model.generate(**inputs, max_length=64)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

]: новый тёнка доставка недорого


In [None]:
texts

Column(['совершеннонесоответствуютразмернойсетке,оказалисьмалы,продавецотказалсявернутьденьги...', 'Вообщеужас,тканьсоответствует,нуаформа....прямойквадратпросто', 'Ужаснаяюбкапришла!!!Онатонкая,ужасномятаяивоняет!!!Сверхунепрошита,разошлисьнитки...простокошмар!!!Какможноотправлятьлюдом', 'товарбылвскрыт.грязная.рукавакороткиеиоченьузкие.навыбросить.', 'Заказаланосочки8мая,сегодня16сентября.Доставкитакинебыло,носкинедошли.Жаль.'])

In [None]:

from torch import cuda
device = "cuda" if cuda.is_available() else "cpu"

texts_test = texts["bigrams"]  # берем тестовые строки без пробелов

# генерация исправленных текстов
corrected_texts = []
for text in tqdm(texts_test):
    text = "fix spaces:" + text
    inputs = tokenizer(text, return_tensors="pt").to(device)
    outputs = model.generate(**inputs, max_length=64)
    corrected = tokenizer.decode(outputs[0], skip_special_tokens=True)
    corrected_texts.append(corrected)


  1%|▏         | 14/1006 [00:03<04:12,  3.93it/s]


KeyboardInterrupt: 

In [None]:
corrected_texts

['цифр',
 'курила айбон 14 про',
 'ищу дом в Москве',
 'сдаю квартиру с талигой и техники',
 'новый диван доставка недорого',
 'отдам даром кошку',
 'работа в москве удален',
 'куплю телевизор Philips',
 'я ищу груз и в для переезда',
 'ремонт квартир под ключ',
 'коплю о Laptop',
 'ищу квартиру у',
 'новая микроволновка а',
 'трудно продам велосипед']

In [None]:
texts

Unnamed: 0,text_no_spaces,bigrams
0,text_no_spaces,text_no_spaces
1,куплюайфон14про,куплю айфон 14 про
2,ищудомвПодмосковье,ищу дом в Подмосковье
3,сдаюквартирусмебельюитехникой,сдаю квартиру с мебелью и техникой
4,новыйдивандоставканедорого,новый диван доставка недорого
...,...,...
1001,Янеусну.,Я не усну.
1002,Весна-яуженегреюпио.,Весна- я уже не грею пи о.
1003,Весна-скоровырастеттрава.,Вес на-скоро вырастет трава.
1004,Весна-выпосмотрите,Весна- вы посмотрите


In [None]:
д