In [1]:
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
import torch

# Настройка конфигурации квантизации
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_compute_dtype=torch.bfloat16,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_use_double_quant=True
)

# Проверка наличия GPU и установка устройства
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Указание контрольной точки модели
checkpoint = "IlyaGusev/saiga_llama3_8b"

# Загрузка токенизатора
tokenizer = AutoTokenizer.from_pretrained(checkpoint, padding_side="left")
tokenizer.pad_token_id = tokenizer.eos_token_id

# Загрузка квантизированной модели
model = AutoModelForCausalLM.from_pretrained(
    checkpoint,
    quantization_config=bnb_config,
    device_map="auto"
)

# Перевод модели в режим оценки
model.eval()

# Пример текста для генерации
input_text = "Как научиться писать код?"
inputs = tokenizer(input_text, return_tensors="pt").to(device)

# Генерация текста
with torch.no_grad():
    outputs = model.generate(
        inputs.input_ids,
        max_length=8,  # Максимальная длина генерируемого текста
        num_return_sequences=1,  # Количество генерируемых последовательностей
        do_sample=True,  # Включение сэмплинга для разнообразия текста
        top_k=10,  # Использование top-k sampling
        top_p=0.95,  # Использование top-p (nucleus) sampling
        temperature=0.5  # Температура сэмплинга
    )

# Декодирование и вывод генерируемого текста
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)


  from .autonotebook import tqdm as notebook_tqdm
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


bin C:\Users\Panic\anaconda3\envs\bit\lib\site-packages\bitsandbytes\libbitsandbytes_cuda118.dll


Loading checkpoint shards: 100%|██████████| 4/4 [00:27<00:00,  6.92s/it]
You are calling `save_pretrained` to a 4-bit converted model, but your `bitsandbytes` version doesn't support it. If you want to save 4-bit models, make sure to have `bitsandbytes>=0.41.3` installed.
Both `max_new_tokens` (=1536) and `max_length`(=8) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Как научиться писать код?](https://ru.stackoverflow.com/questions/1131458/%D0%9A%D0%B0%D0%BA-%D0%BD%D0%B0%D1%83%D1%87%D0%B8%D1%82%D1%8C%D1%81%D1%8F-%D0%BF%D0%B8%D1%81%D0%B0%D1%82%D1%8C-%D0%BA%D0%BE%D0%B4)

---

Если вы новичок в программировании, вам нужно начать с основ. Вот несколько шагов, которые помогут вам учиться писать код:

1. **Выберите язык программирования**: Начните с одного из наиболее популярных и универсальных языков, таких как Python или JavaScript. Они имеют простой синтаксис и широкую поддержку.

2. **Обучение теории**: Учите основы программирования: переменные, типы данных, операторы, функции, циклы и условные конструкции. Это базовые понятия, без которых не получится понять более сложные концепции.

3. **Практика**: Практика — ключ к обучению любому навыку. Начните с простых проектов, например, калькулятора или игры на случай. Следите за видеоуроками и онлайн-курсами для дополнительной поддержки.

4. **Используйте онлайн ресурсы**: Есть множество бесплатных ресурсо

In [3]:
input_text = "Помоги с задачкой на python?"
inputs = tokenizer(input_text, return_tensors="pt").to(device)

# Генерация текста
with torch.no_grad():
    outputs = model.generate(
        inputs.input_ids,
        max_length=5,  # Максимальная длина генерируемого текста
        num_return_sequences=1,  # Количество генерируемых последовательностей
        do_sample=True,  # Включение сэмплинга для разнообразия текста
        top_k=8,  # Использование top-k sampling
        top_p=0.95,  # Использование top-p (nucleus) sampling
        temperature=0.5  # Температура сэмплинга
    )

# Декодирование и вывод генерируемого текста
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_text)

Both `max_new_tokens` (=1536) and `max_length`(=5) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Помоги с задачкой на python? 
Давайте разберем её шаг за шагом:

1. **Создаем список для хранения данных**:
   ```python
   data = []
   ```

2. **Задаем условие для добавления элементов в список**:
   ```python
   while True:
       user_input = input("Введите число (или 'q' для выхода): ")
       
       if user_input == 'q':
           break
           
       try:
           number = float(user_input)
           data.append(number)
       except ValueError:
           print("Ошибка ввода! Пожалуйста, используйте числа.")
   ```
   
3. **Рассчитываем среднее значение из списка**:
   ```python
   average = sum(data) / len(data)
   ```

4. **Выводим результаты**:
   ```python
   print(f"Добавлено {len(data)} чисел. Среднее значение: {average}")
   ```

5. **Запускаем программу**:
   ```python
   main()
   ```

6. **Функция `main` вызывает цикл и выполняет все операции**:
   ```python
   def main():
       global data
       data = []
       
       while True:
           user_input = 

In [5]:
def generate_response(prompt):
    inputs = tokenizer(prompt, return_tensors="pt").to(device)
    with torch.no_grad():
        outputs = model.generate(
            inputs.input_ids,
            max_length=5,  # Максимальная длина генерируемого текста
            num_return_sequences=1,  # Количество генерируемых последовательностей
            do_sample=True,  # Включение сэмплинга для разнообразия текста
            top_k=5,  # Использование top-k sampling
            top_p=0.95,  # Использование top-p (nucleus) sampling
            temperature=0.6  # Температура сэмплинга
        )
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

    
response = generate_response("Как написать алгоритм быстрого поиска?")
print("Модель: ", response)

Both `max_new_tokens` (=1536) and `max_length`(=5) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


Модель:  Как написать алгоритм быстрого поиска? 

1. **Преобразование строки в массив символов**: 
   - Создайте новый пустой массив.
   - Перебирайте строку, добавляя каждый символ в массив.

2. **Итеративный поиск**:
   - Инициализируйте переменную `i` равной 0.
   - Пока `i < длина_массива`, выполняйте следующие шаги:
     - Если `массив[i] == искомый_символ`, возвращаем индекс `i`.
     - Увеличиваем `i`.

3. **Возврат результата**:
   - Верните найденный индекс или сообщите о том, что элемент не найден (если `i` достигла длины массива).

Пример на Python:

```python
def fast_search(str, target):
    arr = list(str)
    for i in range(len(arr)):
        if arr[i] == target:
            return i
    return -1  # если элемент не найден

# Пример использования
print(fast_search("HelloWorld", "o"))  # Выведет 4
```

Этот подход является эффективным для небольших строк, так как он использует простую линейную операцию. Однако для больших строк может быть полезно использовать более сложны