In [1]:
import pandas as pd
import torch
import secret
from transformers import pipeline, AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig

In [2]:
secret

<module 'secret' from 'c:\\Users\\ankaz\\OneDrive\\Dokumenty\\GitHUB\\Bielik_projects\\bielik_projects\\secret.py'>

In [3]:
def load_dataset():  # -> pd.DataFrame:
    """
    Wczytuje dane z arkusza Google Sheets, usuwa nadmiarowe kolumny i filtruje wiersze z "prawidłowe" == "T".

    Returns:
        pd.DataFrame: Odfiltrowana ramka danych.
    """
    # URL do arkusza Google Sheets w formacie CSV
    sheet_url = "https://docs.google.com/spreadsheets/d/1-Ag5DOHUywOeg_lwDi8ymRsREmHZ87s6d6FUPfLr8tc/export?format=csv"
    
    # Wczytanie arkusza
    df = pd.read_csv(sheet_url)

    # Usunięcie nadmiarowych kolumn (np. 'Unnamed')
    df.drop(columns=df.columns[df.columns.str.contains('^Unnamed')], inplace=True)

    # Filtrowanie wierszy, gdzie "Prawidłowe" == "T"
    if "Prawidłowe" in df.columns:
        df = df.loc[df["Prawidłowe"] == "T"]
    else:
        raise ValueError("Brak wymaganej kolumny 'prawidłowe' w ramce danych.")
    
    return df

In [4]:
df = load_dataset()
df.head()

Unnamed: 0,Pytanie,Odpowiedź,link do testu w B2,rodzaj zagadki,Zaskakujące odpowiedzi Bielika,Prawidłowe
0,Kto ma imieniny 30 lutego?,"Nikt, bo nie ma takiego dnia.",,,,T
1,Ile przekątnych ma trójkąt?,"Zero, trójkąt nie ma przekątnych",,sprzeczność z uwagi na definicję pojęcia,,T
2,W którym roku wydarzyła się na terenie Polski ...,Nie było takiej bitwy.,,,,T
3,W którym miesiącu zaczyna się 5 kwartał roku?,Rok ma tylko 4 kwartały.,,,,T
4,Ile skrzydeł ma pies?,Zero. Psy nie mają skrzydeł.,,,,T


In [5]:
# wczytanie modelu 
model_id = "speakleash/Bielik-7B-Instruct-v0.1"

# kwantyzacja modelu
quantization_config = BitsAndBytesConfig(load_in_4bit=True)

model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    quantization_config=quantization_config
)

# Wczytanie tokenizer z przypisaniem pad_token_id
tokenizer = AutoTokenizer.from_pretrained(model_id)
# tokenizer.pad_token = tokenizer.eos_token  # Ustawienie pad_token_id jako eos_token_id

pipe = pipeline(
    "text-generation", 
    model=model, 
    tokenizer=tokenizer,
    return_full_text=False
)

Loading checkpoint shards:   0%|          | 0/3 [00:00<?, ?it/s]

Device set to use cuda:0


In [6]:
# pipe("Ile jest procent cukru w cukrze?",
#      max_length=100,
#      # temperature=0.6,
#      # top_k=10
#      )

In [7]:
# def get_answer_old():
#     for question in df['Pytanie']:
#        answer = 'example'
#        return answer

In [8]:
def get_answer(df, pipe, num_rows: int = 5):
    """
    Generuje odpowiedzi dla pytań w kolumnie 'Pytanie' i zapisuje je w nowej kolumnie 'Odpowiedź'.

    Args:
        df (pd.DataFrame): Ramka danych z kolumną 'Pytanie'.
        pipe: Pipeline modelu językowego.
        num_rows (int): Liczba wierszy do przetworzenia (dla testowania).

    Returns:
        pd.DataFrame: Zaktualizowana ramka danych z nową kolumną 'Odpowiedź'.
    """
    # Filtrowanie tylko pierwszych num_rows wierszy dla testów
    df_subset = df.head(num_rows).copy()

     # Sprawdzenie, czy kolumna 'Pytanie' istnieje
    if "Pytanie" not in df.columns:
        raise ValueError("Ramka danych musi zawierać kolumnę 'Pytanie'.")
    
    # Iteracja po pytaniach i generowanie odpowiedzi
    answers = []
    for question in df_subset["Pytanie"]:
        response = pipe(question, max_length=100)
        generated_text = response[0]["generated_text"]
        answers.append(generated_text)
    
    # Zapisanie odpowiedzi w kolumnie 'Odpowiedź'
    df_subset["Odpowiedź"] = answers
    
    return df_subset

In [9]:
df_2=get_answer(df, pipe)

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.
Setting `pad_token_id` to `eos_token_id`:2 for open-end generation.


In [11]:
df_2.head()

Unnamed: 0,Pytanie,Odpowiedź,link do testu w B2,rodzaj zagadki,Zaskakujące odpowiedzi Bielika,Prawidłowe
0,Kto ma imieniny 30 lutego?,Imieniny 30.02 - które są popularne? Imieniny...,,,,T
1,Ile przekątnych ma trójkąt?,\nA co to jest trójkąt?\nTrójkąt to figura geo...,,sprzeczność z uwagi na definicję pojęcia,,T
2,W którym roku wydarzyła się na terenie Polski ...,W którym roku odbyła się w Polsce historyczna...,,,,T
3,W którym miesiącu zaczyna się 5 kwartał roku?,5.00000000000000000000000000000000000000000000...,,,,T
4,Ile skrzydeł ma pies?,"10 faktów o psach, które każdy psiarz powinien...",,,,T
