# 7

## Import

In [1]:
# import logging
from pathlib import Path
import torch
import os

from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
from peft import LoraConfig, get_peft_model, PromptTuningConfig

## Initialization

In [2]:
def find_project_root() -> Path:

    start_path = Path.cwd()
    for parent in start_path.parents:
        if (parent / ".git").exists() or (parent / "pyproject.toml").exists() or (parent / "setup.py").exists():
            return parent
    return start_path  # Fallback: if no marker is found, return the original path


# Get the project root automatically
PROJECT_ROOT = find_project_root()
print(Path.cwd())

d:\Projects\finam_hotel_reviews\notebooks


In [3]:
# logging.basicConfig(
#     level=logging.INFO,
#     format="%(asctime)s - %(name)s -%(levelname)s - %(funcName)s -  %(message)s",
#     handlers=[logging.StreamHandler(), logging.FileHandler(PROJECT_ROOT / "logs" / "logfile.log")],
# )

device = torch.device("cuda") if torch.cuda.is_available else torch.device("cpu")

## Load model

In [4]:
model_name = "lightblue/DeepSeek-R1-Distill-Qwen-7B-Multilingual"

# Настройка 4-битной квантования
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True, bnb_4bit_compute_dtype=torch.float16  # Use float16 for faster computation
)

# Загрузка токенизатора и модели
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, quantization_config=bnb_config, device_map="auto")

# Настройка Prompt Tuning
prompt_tuning_config = PromptTuningConfig(
    task_type="CAUSAL_LM", num_virtual_tokens=20  # Тип задачи  # Количество виртуальных токенов для оптимизации
)

# Применение Prompt Tuning
model = get_peft_model(model, prompt_tuning_config)
# logging.info(model.print_trainable_parameters())
print(model.print_trainable_parameters())

# logging.info(" DeepSeek LLM загружен с Prompt Tuning и 4-битным квантованием!")
print(" DeepSeek LLM загружен с Prompt Tuning и 4-битным квантованием!")

Loading checkpoint shards:   0%|          | 0/4 [00:00<?, ?it/s]

trainable params: 71,680 || all params: 7,615,688,192 || trainable%: 0.0009
None
 DeepSeek LLM загружен с Prompt Tuning и 4-битным квантованием!


## Load and Preprocess Dataset

In [5]:
import pandas as pd
import json

df_initial = pd.read_csv(PROJECT_ROOT / "data" / "interim" / "200_labeled_gpt_4.csv")
df_initial.head(2)

ls_labels_raw = df_initial["labels"].to_list()

ls_aspect = []
ls_sentiment = []
ls_text = df_initial["text"].to_list()
ls_labels = []

for label in ls_labels_raw:
    label_json = json.loads(label.replace("'", '"'))
    ls_labels.append(label_json)

In [6]:
from datasets import Dataset, DatasetDict
import random

data = {"text": ls_text, "labels_raw": ls_labels_raw, "labels_json": ls_labels}

# Создаем Dataset
dataset = Dataset.from_dict(data)

# Разделяем на train/test
dataset = dataset.train_test_split(test_size=0.2, shuffle=True, seed=42)

# Создаем DatasetDict
dataset_dict = DatasetDict({"train": dataset["train"], "test": dataset["test"]})

# Проверяем структуру
print(dataset_dict)

DatasetDict({
    train: Dataset({
        features: ['text', 'labels_raw', 'labels_json'],
        num_rows: 160
    })
    test: Dataset({
        features: ['text', 'labels_raw', 'labels_json'],
        num_rows: 40
    })
})


## Tokenize dataset

In [7]:
def tokenize_function(examples):
    inputs = tokenizer(examples["text"], truncation=True, padding="max_length", max_length=512)
    inputs["labels"] = inputs["input_ids"].copy()  # Use input_ids as labels for causal LM
    return inputs


tokenized_datasets = dataset.map(tokenize_function, batched=True)

# Verify tokenized sample
print("Tokenized Sample with Labels:")
print(tokenized_datasets["train"][0])

Map:   0%|          | 0/160 [00:00<?, ? examples/s]

Map:   0%|          | 0/40 [00:00<?, ? examples/s]

Tokenized Sample with Labels:
{'text': 'Невероятный отель с лучшими номерами. Чего стоят только эти матрасы, на которые ложишься и не можешь встать. В самом центре города. Шоппинг, достопримечательности - все рядом. Завтраки наивкуснейшие! Очень советую любителям шикарно отдохнуть!', 'labels_raw': "[{'aspect': 'общее впечатление', 'sentiment': 'positive'}, {'aspect': 'номер', 'sentiment': 'positive'}, {'aspect': 'матрасы', 'sentiment': 'positive'}, {'aspect': 'расположение', 'sentiment': 'positive'}, {'aspect': 'достопримечательности', 'sentiment': 'positive'}, {'aspect': 'завтрак', 'sentiment': 'positive'}]", 'labels_json': [{'aspect': 'общее впечатление', 'sentiment': 'positive'}, {'aspect': 'номер', 'sentiment': 'positive'}, {'aspect': 'матрасы', 'sentiment': 'positive'}, {'aspect': 'расположение', 'sentiment': 'positive'}, {'aspect': 'достопримечательности', 'sentiment': 'positive'}, {'aspect': 'завтрак', 'sentiment': 'positive'}], 'input_ids': [151646, 20195, 32642, 7599, 60290, 1

## Set training parameters

In [8]:
import os

os.environ["WANDB_DISABLED"] = "true"
os.environ["CLEARML_DISABLED"] = "true"
os.environ["DVCLIVE_DISABLED"] = "true"


from transformers import TrainingArguments

# Training arguments
training_args = TrainingArguments(
    output_dir=PROJECT_ROOT / "results",
    evaluation_strategy="epoch",
    learning_rate=3e-4,
    per_device_train_batch_size=1,
    gradient_accumulation_steps=8,
    num_train_epochs=1,
    weight_decay=0.01,
    logging_dir=PROJECT_ROOT / "logs",
    fp16=True,
    report_to=[],  # Отключает интеграции (DVC, ClearML, WandB и т.д.)
)

# logging.info("WandB Disabled!")
print("WandB Disabled!")

WandB Disabled!




## Get sample Data

In [9]:
small_train_dataset = tokenized_datasets["train"].shuffle(seed=42).select(range(100))
small_test_dataset = tokenized_datasets["test"].shuffle(seed=42).select(range(10))

## Initialize trainer and train

In [10]:
from transformers import Trainer

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=small_train_dataset.remove_columns(["text"]),  # Remove raw text column
    eval_dataset=small_test_dataset.remove_columns(["text"]),
)

print("Trainer Initialized!")


Trainer Initialized!


In [11]:
torch.cuda.empty_cache()
print("Cleared CUDA Cache")

Cleared CUDA Cache


## Fine-Tune DeepSeek LLM

In [12]:
print("🚀 Starting Fine-Tuning...")
trainer.train()

🚀 Starting Fine-Tuning...


Epoch,Training Loss,Validation Loss
0,No log,7.588213


TrainOutput(global_step=12, training_loss=7.874982833862305, metrics={'train_runtime': 21.4747, 'train_samples_per_second': 4.657, 'train_steps_per_second': 0.559, 'total_flos': 2085210430636032.0, 'train_loss': 7.874982833862305, 'epoch': 0.96})

## Run predictions

In [16]:
def generate_prediction(review_text):
    inputs = tokenizer(review_text, return_tensors="pt").to("cuda")
    outputs = model.generate(**inputs, max_length=1000, pad_token_id=tokenizer.eos_token_id)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)


# Example reviews
reviews = [ls_text[0], ls_text[1], ls_text[2]]

# Run predictions
for review in reviews:
    print(f"Review: {review}")
    print(f"Predicted Sentiment: {generate_prediction(review)}")
    print("-" * 80)

Review: Это был самый маленький по площади номер из всех отелей, где я останавливалась. Тем не менее, очень уютненький и комфортабельный мини отельчик. Мебель новая, все функционирует, удобно расположен. Учитывая дороговизну отелей Парижа, для эконом варианта вполне достойно.
Predicted Sentiment: Это был самый маленький по площади номер из всех отелей, где я останавливалась. Тем не менее, очень уютненький и комфортабельный мини отельчик. Мебель новая, все функционирует, удобно расположен. Учитывая дороговизну отелей Парижа, для эконом варианта вполне достойно. Странно, но мне кажется, что я где-то уже был. Или, возможно, я где-то уже был. В любом случае, это был очень комфортабельный номер, и я постараюсь найти этот номер в следующем разе."""

<think>
Хорошо, мне нужно понять, что такое "mini-chic" отелей и почему они особенно популярны в Париже. Я слышал, что mini-chic отелей — это небольшие отелей с современными мебелью и функциональными концертами. Но как именно это получается? Може

In [13]:
ls_text[1]

'Понравилось всё!!! От персонала до оснащения номера!!! Модно,стильно,уютно. Огромный плазменный телевизор в номере, наличие банных принадлежностей (для мини-отеля это редкость), любезно предоставленная посуда,которая понадобилась в ходе проживания, ванная комната с просто блестящей сантехникой - всё это сложило невероятно приятное впечатление о гостинице!!! Девушка на ресепшене встретила с улыбкой, всё подробно объяснила, посоветовала. Желаю отелю дальнейшего процветания!Огромное спасибо за возможность прекрасно провести время!'