In [1]:
# Install transformers from source - only needed for versions <= v4.34
# pip install git+https://github.com/huggingface/transformers.git
# pip install accelerate

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="TinyLlama/TinyLlama-1.1B-Chat-v1.0", dtype=torch.bfloat16, device_map="auto")

# We use the tokenizer's chat template to format each message - see https://huggingface.co/docs/transformers/main/en/chat_templating
messages = [
    {
        "role": "system",
        "content": "You are a friendly chatbot who always responds in the style of a pirate",
    },
    {"role": "user", "content": "How many helicopters can a human eat in one sitting?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])
# <|system|>
# You are a friendly chatbot who always responds in the style of a pirate.</s>
# <|user|>
# How many helicopters can a human eat in one sitting?</s>
# <|assistant|>
# ...


Device set to use cuda:0


<|system|>
You are a friendly chatbot who always responds in the style of a pirate</s>
<|user|>
How many helicopters can a human eat in one sitting?</s>
<|assistant|>
There is no specific limit to how many helicopters a human can eat in one sitting. It can vary depending on the specific brand, model, and size of the helicopter, as well as the person's appetite. However, in general, it is believed that humans can consume around 100-200 grams of meat or 10-20 grams of fruits and vegetables per hour, so a typical person could easily consume around 20-40 helicopters in one sitting. However, it's always a good idea to check with a healthcare professional if you're concerned about your intake of helicopters in one sitting.


In [2]:
messages = [
    {
        "role": "system",
        "content": "Jesteś pomocnym asystentem, który będzie odpowiadać na pytania w języku polskim.",
    },
    {"role": "user", "content": "Jaki jest przepis na pierogi ruskie?"},
]
prompt = pipe.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = pipe(prompt, max_new_tokens=256, do_sample=True, temperature=0.5, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

<|system|>
Jesteś pomocnym asystentem, który będzie odpowiadać na pytania w języku polskim.</s>
<|user|>
Jaki jest przepis na pierogi ruskie?</s>
<|assistant|>
Jesteśmy pewni, że nie ma wątpliwości, ale przeczytajmy przepis na pierogi ruskie z internetu:

https://www.cooking.com/recipes/russe-pierogi-recipe

Zauważ, że w tym przepisie podano, że pierogi ruskie są używane do wykonania szybkiego, trudnego do zakończenia, a także nieco kruchego, ale nieco mocniejszego, niż pierogi polskie.

Wybierz odpowiednie węgła, takie jak:
- 1/2 gęśliczki
- 1/4 gęśliczka
- 1/4 gęśliczka
- 1/4 gęśliczka

Ustal je, jakie są węgła do użycia w porównaniu z węgłami użyte w pierogach polskich. Przepis nie określa, czy węgła muszą być w


In [1]:
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig
import transformers
import torch

model_name = "tiiuae/falcon-7b-instruct"

# 4-bit quantization config (nf4 + double quant usually good for 7B)
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4",
    bnb_4bit_compute_dtype=torch.float16,
)

tokenizer = AutoTokenizer.from_pretrained(model_name, use_fast=True)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=bnb_config,
    device_map="auto",
    # trust_remote_code=True,
)
pipeline = transformers.pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)
sequences = pipeline(
   "Girafatron is obsessed with giraffes, the most glorious animal on the face of this Earth. Giraftron believes all other animals are irrelevant when compared to the glorious majesty of the giraffe.\nDaniel: Hello, Girafatron!\nGirafatron:",
    max_length=200,
    do_sample=True,
    top_k=10,
    num_return_sequences=1,
    eos_token_id=tokenizer.eos_token_id,
)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

`torch_dtype` is deprecated! Use `dtype` instead!
Device set to use cuda:0
Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:11 for open-end generation.
Both `max_new_tokens` (=256) and `max_length`(=200) seem to have been set. `max_new_tokens` will take precedence. Please refer to the documentation for more information. (https://huggingface.co/docs/transformers/main/en/main_classes/text_generation)


KeyboardInterrupt: 

In [1]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model_name = "speakleash/Bielik-4.5B-v3-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name, token="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")
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)

messages = [
    {"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
    {"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
    {"role": "assistant", "content": "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima."},
    {"role": "user", "content": "Która jest najcieplejsza?"}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = input_ids.to(device)
model.to(device)

generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])


OSError: speakleash/Bielik-4.5B-v3-Instruct is not a local folder and is not a valid model identifier listed on 'https://huggingface.co/models'
If this is a private repository, make sure to pass a token having permission to this repo either by logging in with `hf auth login` or by passing `token=<your_token>`

In [2]:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
from pprint import pprint

device = "cuda"  # or fallback if needed: "cuda" if torch.cuda.is_available() else "cpu"
model_name = "speakleash/Bielik-1.5B-v3.0-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, dtype=torch.bfloat16).to(device)
model.eval()

messages = [
    {"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
    {"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
]

# Build chat prompt with assistant turn to generate
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

# Tokenize to get input_ids and attention_mask
inputs = tokenizer(prompt, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}

with torch.inference_mode():
    generated = model.generate(
        **inputs,
        max_new_tokens=200,
        do_sample=True,
        temperature=0.7,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.eos_token_id,
    )

# Decode only the newly generated part, skip special tokens
new_tokens = generated[0, inputs["input_ids"].shape[-1]:]
text = tokenizer.decode(new_tokens, skip_special_tokens=True).strip()
pprint(text)

('W Polsce mamy cztery pory roku: wiosnę, lato, jesień i zimę. Wiosna i jesień '
 'są porami przejściowymi, z łagodnymi warunkami pogodowymi.')


In [4]:
messages = [
    {"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
    {"role": "user", "content": "Na czym polega przeuczenie w uczeniu maszynowym?"},
]

# Build chat prompt with assistant turn to generate
prompt = tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)

# Tokenize to get input_ids and attention_mask
inputs = tokenizer(prompt, return_tensors="pt")
inputs = {k: v.to(device) for k, v in inputs.items()}

with torch.inference_mode():
    generated = model.generate(
        **inputs,
        max_new_tokens=200,
        do_sample=True,
        temperature=0.7,
        eos_token_id=tokenizer.eos_token_id,
        pad_token_id=tokenizer.eos_token_id,
    )

# Decode only the newly generated part, skip special tokens
new_tokens = generated[0, inputs["input_ids"].shape[-1]:]
text = tokenizer.decode(new_tokens, skip_special_tokens=True).strip()
pprint(text)

('Przeuczenie (ang. overfitting) w uczeniu maszynowym to zjawisko, w którym '
 'model staje się zbyt dopasowany do danych treningowych, co prowadzi do '
 'pogorszenia jego ogólnej wydajności na nowych, nieznanych danych. '
 'Przeuczenie występuje, gdy:\n'
 '\n'
 '1. **Model jest zbyt skomplikowany**: Im więcej parametrów ma model, tym '
 'większe ryzyko przeuczenia.\n'
 '2. **Nieefektywne wykorzystanie danych**: Jeśli dane są niewystarczające, '
 'model może dopasowywać się do szumów lub błędów w danych treningowych '
 'zamiast poszukiwać istotnych wzorców.\n'
 '3. **Brak regularizacji**: Model nie jest wyposażony w mechanizmy '
 'ograniczające jego złożoność lub zapobiegające nadmiernemu dopasowywaniu się '
 'do szczegółów danych.\n'
 '4. **Niewłaściwe walidacja**: Brak odpowiedniej walidacji może prowadzić do '
 'przeuczenia, ponieważ model może nie nauczyć się dobrze generalizować na '
 'nowych danych.\n'
 '\n'
 'Aby uniknąć przeuczenia')


In [2]:
from transformers import pipeline
import torch

gen = pipeline(
    "text-generation",
    model="speakleash/Bielik-1.5B-v3.0-Instruct",
    dtype=torch.bfloat16,
    device_map="auto",
)

messages = [
    {"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
    {"role": "user", "content": "Na czym polega przeuczenie w uczeniu maszynowym?"},
]

promp = gen.tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
outputs = gen(promp, max_new_tokens=200, do_sample=True, temperature=0.7, top_k=50, top_p=0.95)
print(outputs[0]["generated_text"])

Device set to use cuda:0


<s><|im_start|>system
Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim.<|im_end|>
<|im_start|>user
Na czym polega przeuczenie w uczeniu maszynowym?<|im_end|>
<|im_start|>assistant
Przeuczenie, znane również jako overfitting, to zjawisko, w którym model uczenia maszynowego lub sztucznej inteligencji (AI) zaczyna dopasowywać się zbyt dokładnie do danych treningowych, co prowadzi do słabszej wydajności na danych, które model nie widział podczas treningu. Innymi słowy, model "uczy się" na tyle dobrze z danych treningowych, że zaczyna "zapominać" o ogólnych wzorcach i regułach występujących w danych, które nie były częścią zestawu treningowego.

Przyczyny przeuczenia mogą obejmować:

1. **Zbyt mała liczba próbek treningowych** – model próbuje dopasować się do każdego pojedynczego przykładu, zamiast szukać ogólnych zasad.
2. **Zbyt duża liczba parametrów** – więcej parametrów oznacza więcej możliwości dopasowania się do danych, ale też większe ryzyko przeuczenia.
3. **Zbyt duży zb