In [2]:
!pip install kaggle




In [2]:
from google.colab import files

files.upload()  # Загрузите kaggle.json


Saving kaggle (1).json to kaggle (1).json


{'kaggle (1).json': b'{"username":"iliaberlov","key":"6487c99108ed1c040d407d5fbf8d95bf"}'}

In [3]:
!mkdir -p ~/.kaggle
!mv kaggle.json ~/.kaggle/
!chmod 600 ~/.kaggle/kaggle.json


In [4]:
!kaggle datasets download -d kyakovlev/yandex-geo-reviews-dataset-2023 --unzip


Dataset URL: https://www.kaggle.com/datasets/kyakovlev/yandex-geo-reviews-dataset-2023
License(s): other
Downloading yandex-geo-reviews-dataset-2023.zip to /content
100% 199M/200M [00:10<00:00, 24.4MB/s]
100% 200M/200M [00:10<00:00, 19.2MB/s]


In [3]:
import pandas as pd

df = pd.read_csv("geo-reviews-dataset-2023.csv")  # Проверьте название файла
df.head()

Unnamed: 0,address,name_ru,rating,rubrics,text
0,"Екатеринбург, ул. Московская / ул. Волгоградск...",Московский квартал,3.0,Жилой комплекс,Московский квартал 2.\nШумно : летом по ночам ...
1,"Московская область, Электросталь, проспект Лен...",Продукты Ермолино,5.0,Магазин продуктов;Продукты глубокой заморозки;...,"Замечательная сеть магазинов в общем, хороший ..."
2,"Краснодар, Прикубанский внутригородской округ,...",LimeFit,1.0,Фитнес-клуб,"Не знаю смутят ли кого-то данные правила, но я..."
3,"Санкт-Петербург, проспект Энгельса, 111, корп. 1",Snow-Express,4.0,Пункт проката;Прокат велосипедов;Сапсёрфинг,Хорошие условия аренды. \nДружелюбный персонал...
4,"Тверь, Волоколамский проспект, 39",Студия Beauty Brow,5.0,"Салон красоты;Визажисты, стилисты;Салон бровей...",Топ мастер Ангелина топ во всех смыслах ) Немн...


In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 500000 entries, 0 to 499999
Data columns (total 5 columns):
 #   Column   Non-Null Count   Dtype  
---  ------   --------------   -----  
 0   address  500000 non-null  object 
 1   name_ru  499030 non-null  object 
 2   rating   500000 non-null  float64
 3   rubrics  500000 non-null  object 
 4   text     500000 non-null  object 
dtypes: float64(1), object(4)
memory usage: 19.1+ MB


In [5]:
import numpy as np
import re
# Очистка данных:
# Удалим лишние пробелы и строки, если они присутствуют
df = df.dropna(subset=['name_ru', 'address', 'rating', 'rubrics', 'text'])
df['text'] = df['text'].apply(lambda x: re.sub(r'[^a-zA-Zа-яА-Я0-9\s]', '', x.lower()))  # Очистим текст от символов

In [6]:
# Рассмотрим возможные пропущенные значения и заполним их
df['name_ru'] = df['name_ru'].fillna('Unknown')
df['rubrics'] = df['rubrics'].fillna('Unknown')

In [7]:
# Очистка рейтингов, возможно есть невалидные данные
df['rating'] = df['rating'].apply(lambda x: float(x) if 0 <= x <= 5 else np.nan)  # Проверим, чтобы рейтинг был от 0 до 5
df = df.dropna(subset=['rating'])

In [8]:
# Баланс классов по рейтингам (если нужно)
rating_counts = df['rating'].value_counts()
print(rating_counts)

rating
5.0    389693
4.0     41116
1.0     34298
3.0     21652
2.0     12071
0.0       200
Name: count, dtype: int64


Архитектура модели (например, GPT-2)

In [9]:
!pip install datasets



Создание комбинированного текста: Сначала нужно комбинировать все входные данные в единый текст: категорию, рейтинг и ключевые слова. Это будет наш вход для генерации текста. Мы можем создать текст в формате: "Категория: , Рейтинг: , Место: , Отзыв: ".

In [18]:
from transformers import GPT2Tokenizer, GPT2LMHeadModel, Trainer, TrainingArguments
from datasets import Dataset
import pandas as pd
import torch
# Инициализация токенизатора
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')

# Устанавливаем pad_token
tokenizer.pad_token = tokenizer.eos_token  # Используем eos_token как pad_token

# Создаем колонки для входного и выходного текста
df['input_text'] = "Категория: " + df['rubrics'] + " Рейтинг: " + df['rating'].astype(str) + " Место: " + df['name_ru']
df['output_text'] = df['text']

In [24]:
# Создаем словарь для Dataset
train_encodings = {
    "input_text": df['input_text'].tolist(),
    "output_text": df['output_text'].tolist()
}

# Преобразуем в Dataset
train_dataset = Dataset.from_dict(train_encodings)

# Функция для токенизации
def tokenize_function(examples):
    encodings = tokenizer(
        examples['input_text'],  # Токенизируем input_text
        padding='max_length',
        truncation=True,
        max_length=512,
    )

    # Attention mask создается автоматически, но можно явно задать:
    encodings["attention_mask"] = [
        [1 if token != tokenizer.pad_token_id else 0 for token in seq] for seq in encodings["input_ids"]
    ]

    # Копируем input_ids в labels (GPT обучается предсказывать следующий токен)
    encodings["labels"] = encodings["input_ids"].copy()

    return encodings


In [25]:
# Токенизация данных
train_dataset = train_dataset.map(tokenize_function, batched=True)

Map:   0%|          | 0/499030 [00:00<?, ? examples/s]

In [26]:
# Проверяем токенизацию
print(train_dataset[0])

{'input_text': 'Категория: Жилой комплекс Рейтинг: 3.0 Место: Московский квартал', 'output_text': 'московский квартал 2nшумно  летом по ночам дикие гонки грязно  кругом стройки невозможно открыть окна 16 этаж  вечно по району летает мусор детские площадки убогие на большой площади однотипные конструкции очень дорогая коммуналка часто срабатывает пожарная сигнализация жильцы уже не реагируют в это время обычно около часа не работают лифты из плюсов  отличная планировка квартир  московская 194  на мой взгляд ремонт от застройщика на 3 окна вообще жуть  вместо вентиляции по соотношению ценакачество  3\n', 'input_ids': [140, 248, 16142, 20375, 16843, 140, 111, 15166, 21169, 18849, 40623, 25, 12466, 244, 18849, 30143, 25443, 117, 12466, 118, 25443, 120, 140, 123, 30143, 16843, 31583, 21727, 12466, 254, 16843, 140, 117, 20375, 18849, 22177, 140, 111, 25, 513, 13, 15, 12466, 250, 16843, 21727, 20375, 15166, 25, 12466, 250, 15166, 21727, 31583, 25443, 110, 21727, 31583, 18849, 140, 117, 12466,

In [27]:
from torch.utils.data import Subset
small_train_dataset = Subset(train_dataset, range(2000))
small_eval_dataset = Subset(train_dataset, range(500))

In [28]:
# Инициализация модели
model = GPT2LMHeadModel.from_pretrained('gpt2')

# Перенос модели на GPU, если доступен
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Настройка гиперпараметров для тренировки
training_args = TrainingArguments(
    output_dir='./results',
    eval_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=1,
    num_train_epochs=0.05,
    logging_dir='./logs',
    logging_steps=500,
    report_to="none",
)

# Тренировка модели
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
)

trainer.train()  # Начало обучения


Epoch,Training Loss,Validation Loss
0,No log,0.222108


TrainOutput(global_step=100, training_loss=0.42654727935791015, metrics={'train_runtime': 112.117, 'train_samples_per_second': 0.892, 'train_steps_per_second': 0.892, 'total_flos': 26129203200000.0, 'train_loss': 0.42654727935791015, 'epoch': 0.05})

In [29]:
# Входной текст
input_text = "Категория: Жилой комплекс Рейтинг: 4.0 Место: Московский квартал"

# Токенизация с attention_mask
input_ids = tokenizer.encode(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)
attention_mask = input_ids.ne(tokenizer.pad_token_id)

# Перенос на GPU, если доступен
input_ids = input_ids.to(device)
attention_mask = attention_mask.to(device)

# Генерация текста
generated_text = model.generate(
    input_ids,
    attention_mask=attention_mask,  # Передаем attention_mask
    max_length=150,
    num_return_sequences=1,
    no_repeat_ngram_size=2,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
    do_sample=True,
    pad_token_id=tokenizer.eos_token_id  # Указываем pad_token_id
)

# Декодируем результат
generated_review = tokenizer.decode(generated_text[0], skip_special_tokens=True)

print("Сгенерированный отзыв: ", generated_review)


Сгенерированный отзыв:  Категория: Жилой комплекс Рейтинг: 4.0 Место: Московский квартали пошьтод Уетробе мецок в Нербу


In [10]:
from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments
from datasets import Dataset
import pandas as pd
import torch

# Инициализация токенизатора RuGPT-3 Small
model_name = "sberbank-ai/rugpt3small_based_on_gpt2"
tokenizer = AutoTokenizer.from_pretrained(model_name)

# Устанавливаем pad_token
tokenizer.pad_token = tokenizer.eos_token  # Используем eos_token как pad_token

# Создаем колонки для входного и выходного текста
df['input_text'] = "Категория: " + df['rubrics'] + " Рейтинг: " + df['rating'].astype(str) + " Место: " + df['name_ru']
df['output_text'] = df['text']


In [11]:
# Создаем словарь для Dataset
train_encodings = {
    "input_text": df['input_text'].tolist(),
    "output_text": df['output_text'].tolist()
}

# Преобразуем в Dataset
train_dataset = Dataset.from_dict(train_encodings)

# Функция для токенизации
def tokenize_function(examples):
    encodings = tokenizer(
        examples['input_text'],
        padding='max_length',
        truncation=True,
        max_length=512,
    )

    # Создаем attention_mask
    encodings["attention_mask"] = [
        [1 if token != tokenizer.pad_token_id else 0 for token in seq] for seq in encodings["input_ids"]
    ]

    # Копируем input_ids в labels (GPT обучается предсказывать следующий токен)
    encodings["labels"] = encodings["input_ids"].copy()

    return encodings

In [18]:
train_dataset = train_dataset.map(tokenize_function, batched=True)




Map:   0%|          | 0/499030 [00:00<?, ? examples/s]

In [20]:
# Сохраняем в диск
train_dataset.save_to_disk("tokenized_data")

Saving the dataset (0/8 shards):   0%|          | 0/499030 [00:00<?, ? examples/s]

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [21]:
# Проверяем токенизацию
print(train_dataset[0])

{'input_text': 'Категория: Жилой комплекс Рейтинг: 3.0 Место: Московский квартал', 'output_text': 'московский квартал 2nшумно  летом по ночам дикие гонки грязно  кругом стройки невозможно открыть окна 16 этаж  вечно по району летает мусор детские площадки убогие на большой площади однотипные конструкции очень дорогая коммуналка часто срабатывает пожарная сигнализация жильцы уже не реагируют в это время обычно около часа не работают лифты из плюсов  отличная планировка квартир  московская 194  на мой взгляд ремонт от застройщика на 3 окна вообще жуть  вместо вентиляции по соотношению ценакачество  3\n', 'input_ids': [2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2

In [22]:
# Разделение на обучающую и валидационную выборки
from torch.utils.data import Subset
small_train_dataset = Subset(train_dataset, range(4000))
small_eval_dataset = Subset(train_dataset, range(1000))

In [23]:
# Инициализация модели RuGPT-3 Small
model = AutoModelForCausalLM.from_pretrained(model_name)

config.json:   0%|          | 0.00/720 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/551M [00:00<?, ?B/s]

In [24]:
# Перенос модели на GPU, если доступен
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Настройка гиперпараметров для тренировки
training_args = TrainingArguments(
    output_dir='./results',
    eval_strategy="epoch",
    learning_rate=2e-5,
    per_device_train_batch_size=1,
    num_train_epochs=0.05,
    logging_dir='./logs',
    logging_steps=500,
    report_to="none",
)

# Тренировка модели
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset,
    eval_dataset=small_eval_dataset,
)

trainer.train()  # Начало обучения

Epoch,Training Loss,Validation Loss
0,No log,0.092242


TrainOutput(global_step=200, training_loss=0.3708207702636719, metrics={'train_runtime': 110.5365, 'train_samples_per_second': 1.809, 'train_steps_per_second': 1.809, 'total_flos': 52258406400000.0, 'train_loss': 0.3708207702636719, 'epoch': 0.05})

In [30]:
model.save_pretrained('./results')
tokenizer.save_pretrained('./results')

('./results/tokenizer_config.json',
 './results/special_tokens_map.json',
 './results/vocab.json',
 './results/merges.txt',
 './results/added_tokens.json',
 './results/tokenizer.json')

In [33]:
from transformers import GPT2LMHeadModel, GPT2Tokenizer
import torch

# Загрузка обученной модели и токенизатора из директории './results'
tokenizer = GPT2Tokenizer.from_pretrained('./results')  # Путь к директории с результатами тренировки
model = GPT2LMHeadModel.from_pretrained('./results')  # Модель также сохранена в этой папке

# Переносим модель на GPU, если доступен
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

# Пример улучшенного ввода
category = "Жилой комплекс"
rating = "4.5"
keywords = "удобное расположение, высокий стандарт, хороший сервис"

input_text = f"Категория: {category} Рейтинг: {rating} Ключевые слова: {keywords}"

# Токенизация входного текста
input_ids = tokenizer.encode(input_text, return_tensors="pt", padding=True, truncation=True, max_length=512)

# Переносим на GPU
input_ids = input_ids.to(device)

# Создаем attention_mask
attention_mask = (input_ids != tokenizer.pad_token_id).long()

# Генерация текста
generated_text = model.generate(
    input_ids,
    attention_mask=attention_mask,  # Передаем attention_mask
    max_length=150,
    num_return_sequences=1,
    no_repeat_ngram_size=2,
    top_k=50,
    top_p=0.95,
    temperature=1.0,
    do_sample=True,
    pad_token_id=tokenizer.eos_token_id  # Указываем pad_token_id
)

# Декодируем результат
generated_review = tokenizer.decode(generated_text[0], skip_special_tokens=True)

print("Сгенерированный отзыв: ", generated_review)

Сгенерированный отзыв:  Категория: Жилой комплекс Рейтинг: 4.5 Ключевые слова: удобное расположение, высокий стандарт, хороший сервис и комфорт.Митинский район (Новокосино) Рейтинг жилья: 5.0 Место: Коттеджный комплекс, 3-комнатная квартира на первом этаже; Гостиница Рейтинг на уровне 4,0.  Месторасположение: В доме 5 этаж, охраняемая парковка, салон красоты Рейтинг, 5,5 Место – Микрорайон Северный район, ул. Парковая, 15.Рядом с домом остановка общественного транспорта Рейтинг 4; Свежий воздух, центр города Рейтинг 5; Кафе, пиццерия Рейтинг 3.1 Место работы: ТЦ Столица Рейтинг 9.4 Рейтинг коттеджа


In [34]:
import re

def clean_review(text):
    # Удаляем фразы "Категория", "Рейтинг", "Ключевые слова" и т. д.
    text = re.sub(r"Категория:.*?Рейтинг:|Рейтинг на уровне.*?Место:|Ключевые слова:.*?Рейтинг", "", text)

    # Удаляем все числа и проценты
    text = re.sub(r"\d+(\.\d+)?%?", "", text)

    # Удаляем лишние символы, такие как запятые, двоеточия и т. д.
    text = re.sub(r"[^\w\s]", "", text)

    # Удаляем возможные повторы слов и пробелы
    text = re.sub(r"\s+", " ", text).strip()

    return text

# Сгенерированный отзыв
generated_review = "Категория: Жилой комплекс Рейтинг: 4.5 Ключевые слова: удобное расположение, высокий стандарт, хороший сервис и комфорт.Митинский район (Новокосино) Рейтинг жилья: 5.0 Место: Коттеджный комплекс, 3-комнатная квартира на первом этаже; Гостиница Рейтинг на уровне 4,0.  Месторасположение: В доме 5 этаж, охраняемая парковка, салон красоты Рейтинг, 5,5 Место – Микрорайон Северный район, ул. Парковая, 15.Рядом с домом остановка общественного транспорта Рейтинг 4; Свежий воздух, центр города Рейтинг 5; Кафе, пиццерия Рейтинг 3.1 Место работы: ТЦ Столица Рейтинг 9.4"

# Очищаем отзыв
cleaned_review = clean_review(generated_review)

print("Очищенный отзыв: ", cleaned_review)


Очищенный отзыв:  жилья Место Коттеджный комплекс комнатная квартира на первом этаже Гостиница Рейтинг на уровне Месторасположение В доме этаж охраняемая парковка салон красоты Рейтинг Место Микрорайон Северный район ул Парковая Рядом с домом остановка общественного транспорта Рейтинг Свежий воздух центр города Рейтинг Кафе пиццерия Рейтинг Место работы ТЦ Столица Рейтинг
