In [7]:
import torch
from transformers import BertTokenizer, BertForSequenceClassification
from sklearn.metrics import classification_report
from torch.utils.data import DataLoader, Dataset

# Przykładowe opisy przestępstw
data = {
    'opis': [
        "Kradzież z włamaniem",
        "Oszustwo finansowe",
        "Poberanie korzyści majątkowej w wyniku oszustwa",
        "Przemoc w rodzinie",
        "Nielegalne posiadanie broni",
        "Niszczenie mienia"
    ],
    'kara': [
        "Do 10 lat pozbawienia wolności",
        "Do 8 lat pozbawienia wolności",
        "Do 5 lat pozbawienia wolności",
        "Do 2 lat pozbawienia wolności",
        "Do 10 lat pozbawienia wolności",
        "Grzywna lub do 5 lat pozbawienia wolności"
    ]
}

# Przygotowanie tokenizera i modelu BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=len(data['opis']))

# Przykładowa klasa Dataset dla BERT
class SentimentDataset(Dataset):
    def __init__(self, texts, labels):
        self.texts = texts
        self.labels = labels

    def __len__(self):
        return len(self.texts)

    def __getitem__(self, idx):
        return {
            'input_ids': torch.tensor(tokenizer.encode(self.texts[idx], add_special_tokens=True)),
            'labels': torch.tensor(self.labels[idx])
        }

# Mapowanie etykiet na indeksy
label_map = {desc: idx for idx, desc in enumerate(data['opis'])}
tasks = ["Kradzież z włamaniem", "Oszustwo finansowe", "Poberanie korzyści majątkowej w wyniku oszustwa",
         "Przemoc w rodzinie", "Nielegalne posiadanie broni", "Niszczenie mienia"]

labels = [label_map[task] for task in tasks]

# Tworzenie datasetu
dataset = SentimentDataset(data['opis'], labels)

# Stworzenie DataLoader
dataloader = DataLoader(dataset, batch_size=2)

# Trenowanie modelu (przykładowe uproszczenie)
model.train()
optimizer = torch.optim.AdamW(model.parameters(), lr=5e-5)

for epoch in range(3):  # liczba epok
    for batch in dataloader:
        optimizer.zero_grad()
        outputs = model(batch['input_ids'], labels=batch['labels'])
        loss = outputs.loss
        loss.backward()
        optimizer.step()

# Testowanie modelu przy przykładowym wejściu
def classify_with_bert(input_text):
    model.eval()
    inputs = tokenizer.encode(input_text, return_tensors='pt')
    
    with torch.no_grad():
        outputs = model(inputs)
    
    prediction = torch.argmax(outputs.logits, dim=1).item()
    return tasks[prediction]

# Przykład użycia
input_text = "Nie oszukiwać w finansach."

# Klasyfikowanie tekstu
predicted_description = classify_with_bert(input_text)

print(f"Dopasowane przestępstwo: {predicted_description}")

Some weights of BertForSequenceClassification were not initialized from the model checkpoint at bert-base-uncased and are newly initialized: ['classifier.weight', 'classifier.bias']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


RuntimeError: stack expects each tensor to be equal size, but got [11] at entry 0 and [9] at entry 1