In [None]:
!pip install datasets

Collecting datasets
  Downloading datasets-3.1.0-py3-none-any.whl.metadata (20 kB)
Collecting pyarrow>=15.0.0 (from datasets)
  Downloading pyarrow-18.0.0-cp310-cp310-manylinux_2_28_x86_64.whl.metadata (3.3 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from datasets)
  Downloading multiprocess-0.70.16-py310-none-any.whl.metadata (7.2 kB)
Collecting fsspec<=2024.9.0,>=2023.1.0 (from fsspec[http]<=2024.9.0,>=2023.1.0->datasets)
  Downloading fsspec-2024.9.0-py3-none-any.whl.metadata (11 kB)
Collecting huggingface-hub>=0.23.0 (from datasets)
  Downloading huggingface_hub-0.26.2-py3-none-any.whl.metadata (13 kB)
Downloading datasets-3.1.0-py3-none-any.whl (480 kB)
Downloading dill-0.3.8-py3-none-any.whl (116 kB)
Downloading fsspec-2024.9.0-py3-none-any.whl (179

In [1]:
!pip install transformers



In [None]:
#import wandb  # we will talk about wandb next lecture
from datasets import load_dataset
from transformers import AutoTokenizer
from transformers import DataCollatorForLanguageModeling
from transformers import GPT2Config, GPT2LMHeadModel
from transformers import TrainingArguments, Trainer

In [None]:
from datasets import load_dataset

dataset = load_dataset("chromanna/hasek_dataset")

# Make validation split
dataset = dataset['train'].train_test_split(test_size=0.0015)

In [None]:
# load the gpt-2 tokenizer
tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokenizer.pad_token=tokenizer.eos_token

In [None]:
# tokenize the dataset
def tokenize_function(example):
    return tokenizer(text=example["text"], truncation=True, max_length=1024)

tokenized_ds = dataset.map(tokenize_function, batched=True, remove_columns='text')
tokenized_ds

Map:   0%|          | 0/128 [00:00<?, ? examples/s]

Map:   0%|          | 0/1 [00:00<?, ? examples/s]

DatasetDict({
    train: Dataset({
        features: ['title', 'tokens', 'url', 'input_ids', 'attention_mask'],
        num_rows: 128
    })
    test: Dataset({
        features: ['title', 'tokens', 'url', 'input_ids', 'attention_mask'],
        num_rows: 1
    })
})

In [None]:
from itertools import chain
from datasets import Dataset, DatasetDict

def concatenate_and_chunk(dataset, chunk_size=512):
    # Flatten all `input_ids` into a single list
    all_input_ids = list(chain(*dataset["input_ids"]))

    # Create chunks of `chunk_size`
    chunks = [all_input_ids[i:i + chunk_size] for i in range(0, len(all_input_ids), chunk_size)]

    # Only keep chunks that are exactly of length `chunk_size`
    chunks = [chunk for chunk in chunks if len(chunk) == chunk_size]

    # Create a new dataset with only the `input_ids` chunks
    return Dataset.from_dict({"input_ids": chunks})

# Apply this function to each split (train and test) in the DatasetDict
chunked_ds = DatasetDict({
    split: concatenate_and_chunk(split_ds, chunk_size=512)
    for split, split_ds in tokenized_ds.items()
})

chunked_ds

DatasetDict({
    train: Dataset({
        features: ['input_ids'],
        num_rows: 251
    })
    test: Dataset({
        features: ['input_ids'],
        num_rows: 2
    })
})

In [None]:
# data collator joins chunks into batches
# see https://huggingface.co/docs/transformers/en/main_classes/data_collator
data_collator = DataCollatorForLanguageModeling(tokenizer, mlm=False)

## Model

In [None]:
# Define the model configuration for the smallest GPT-2
config = GPT2Config(
    vocab_size=len(tokenizer),      # Standard GPT-2 vocab size 50257
    n_positions=512,                # Context size (512 is enough for small-scale models)
    n_embd=768,                     # Embedding size
    n_layer=12,                     # Number of transformer layers
    n_head=12,                      # Number of attention heads
)

# Initialize the model and tokenizer
model = GPT2LMHeadModel(config)

In [None]:
import torch
import math
import numpy as np

# Define the perplexity metric
def compute_metrics(eval_pred):
    # `eval_pred` is a tuple of (logits, labels)
    logits, labels = eval_pred

    # Convert logits and labels to PyTorch tensors if they are NumPy arrays
    if isinstance(logits, np.ndarray):
        logits = torch.tensor(logits)
    if isinstance(labels, np.ndarray):
        labels = torch.tensor(labels)

    # Shift labels so that tokens align for calculating loss
    shift_labels = labels[:, 1:].reshape(-1)
    shift_logits = logits[:, :-1, :].reshape(-1, logits.shape[-1])

    # Calculate the cross-entropy loss
    loss_fct = torch.nn.CrossEntropyLoss(ignore_index=-100)  # Ignore padding tokens
    loss = loss_fct(shift_logits, shift_labels)

    # Calculate perplexity
    perplexity = math.exp(loss.item())
    return {"perplexity": perplexity}


## Training

In [None]:
# pip install "accelerate>=0.26.0"

In [None]:
# Set this according to size of your dataset
# You should train for at least 15 mins on A10 GPU to get something reasonable
TRAIN_EPOCHS = 200

SAVE_STEPS = 1000
EVAL_STEPS = SAVE_STEPS // 2

# training arguments
training_args = TrainingArguments(
    output_dir="./gpt2-training",  # Directory to save the model checkpoints and other outputs
    eval_strategy="steps",  # Evaluation strategy to use during training ('steps' or 'epochs')
    eval_steps=EVAL_STEPS,  # Perform evaluation every EVAL_STEPS steps
    num_train_epochs=TRAIN_EPOCHS,  # Total number of training epochs
    per_device_train_batch_size=4,  # Batch size for training on each device
    per_device_eval_batch_size=4,  # Batch size for evaluation on each device
    learning_rate=1e-4,  # Initial learning rate for the optimizer
    lr_scheduler_type='cosine',  # Learning rate scheduler type. 'cosine' provides a cosine decay schedule.
    warmup_ratio=0.05,  # Proportion of training to perform linear learning rate warmup for
    adam_beta1=0.9,  # Beta1 parameter for the Adam optimizer (first moment decay)
    adam_beta2=0.999,  # Beta2 parameter for the Adam optimizer (second moment decay)
    weight_decay=0.01,  # Weight decay to apply (L2 regularization)
    logging_strategy="steps",  # Logging strategy to use. 'steps' logs at specified steps.
    logging_steps=EVAL_STEPS,  # Log training metrics every EVAL_STEPS steps
    save_steps=SAVE_STEPS,  # Save a checkpoint every SAVE_STEPS steps
    save_total_limit=10,  # Maximum number of checkpoints to keep. Older checkpoints are deleted.
    # report_to='wandb',  # Uncomment to report metrics to Weights and Biases (optional)
    fp16=True,  # Enable mixed precision training

)

trainer = Trainer(model=model,
                 args = training_args,
                 tokenizer=tokenizer,
                 train_dataset=chunked_ds["train"],
                 eval_dataset=chunked_ds["test"],
                 compute_metrics=compute_metrics,
                 data_collator = data_collator)


  trainer = Trainer(model=model,


In [None]:
trainer.train()

Step,Training Loss,Validation Loss,Perplexity
500,5.5547,3.911297,49.963979
1000,3.1208,4.331063,76.020584
1500,1.6945,5.332773,207.010968
2000,0.6982,5.978467,394.804872
2500,0.2791,6.470409,645.689844
3000,0.1442,6.459249,638.589231
3500,0.0975,6.821347,917.146416
4000,0.0716,6.940217,1032.836759
4500,0.0553,7.224874,1373.083768
5000,0.0434,7.21359,1357.612412


TrainOutput(global_step=12600, training_loss=0.47303776493384725, metrics={'train_runtime': 1563.4809, 'train_samples_per_second': 32.108, 'train_steps_per_second': 8.059, 'total_flos': 1.31168600064e+16, 'train_loss': 0.47303776493384725, 'epoch': 200.0})

In [None]:
trainer.save_model("./gpt2-small-final")

In [None]:
YOUR_MODEL_NAME = "my_small_gpt2_hasek_dataset"
HF_TOKEN = "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"

model.push_to_hub(YOUR_MODEL_NAME, token=HF_TOKEN)
tokenizer.push_to_hub(YOUR_MODEL_NAME, token=HF_TOKEN)

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

No files have been modified since last commit. Skipping to prevent empty commit.


CommitInfo(commit_url='https://huggingface.co/michizavrel14/my_small_gpt2_hasek_dataset/commit/ca5f1c985864a17f81b034d3211536396db6b504', commit_message='Upload tokenizer', commit_description='', oid='ca5f1c985864a17f81b034d3211536396db6b504', pr_url=None, repo_url=RepoUrl('https://huggingface.co/michizavrel14/my_small_gpt2_hasek_dataset', endpoint='https://huggingface.co', repo_type='model', repo_id='michizavrel14/my_small_gpt2_hasek_dataset'), pr_revision=None, pr_num=None)

## Evaluation

Now you can switch from GPU to CPU. Try to complete some prompt specific to your dataset.

Does it make sense? Is it at least in Czech/Slovak?

In [None]:
from transformers import  GPT2LMHeadModel, AutoTokenizer, pipeline

tokenizer = AutoTokenizer.from_pretrained("gpt2")
tokenizer.pad_token=tokenizer.eos_token

In [None]:
model =  GPT2LMHeadModel.from_pretrained("./gpt2-small-final")
generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [None]:
PROMPT = "Zabili nám Ferdinanda," # Set starting prompt, something specific for your dataset

generator(
    PROMPT,
    max_length=50,       # Maximum length of the generated text
    do_sample=True,
    temperature=0.8,         # Experiment with this
    repetition_penalty=1.8, # Experiment with this
    truncation=True
)

[{'generated_text': 'Zabili nám Ferdinanda,ostzy srdého. Lola přítě-licí bral: „Napr“ Překla panu a pole pos'}]

Now go back to your training folder `.gpt2-training/`. Each `checkpoint-N` folder contains the model saved after N steps.

If you experiment with the older models, you should see that the models improves with time.

In [None]:
def get_sample_after_N_steps(N, prompt, **kwargs):
    model =  GPT2LMHeadModel.from_pretrained(f"./gpt2-training/checkpoint-{N}/")
    generator = pipeline("text-generation", model=model, tokenizer=tokenizer)

    output = generator(prompt, **kwargs)
    return output

In [None]:
get_sample_after_N_steps(1000, "Pokus", do_sample=True, temperature=0.5)

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.




[{'generated_text': 'Pokus z dneou dky, kterátělou kdo'}]

In [None]:
get_sample_after_N_steps(2000, "Pokus", do_sample=True, temperature=0.5)

OSError: Incorrect path_or_model_id: './gpt2-training/checkpoint-2000/'. Please provide either the path to a local folder or the repo_id of a model on the Hub.

In [None]:
get_sample_after_N_steps(3000, "Pokus", do_sample=True, temperature=0.5)

# Analýza kapitol Švejka

Osudy dobrého vojáka Švejka za světové války (1921–1923) je čtyřdílný protiválečný humoristický román Jaroslava Haška. Jde o nejpřekládanější český román, v roce 2013 byl přeložený do 58 jazyků. Skládá se z následujících knih:

1. V zázemí: prvních 17 kapitol (řádků)
2. Na frontě: dalších 5 kapitol
3. Slavný výprask: další 4 kapitoly
4. Pokračování slavného výprasku: další 3 kapitoly

Inspirací k sepsání románu Haškovi byly mj. jeho zážitky z působení v armádě za 1. světové války. Knihu nikdy nedopsal, protože zemřel na ochrnutí srdce. Ke konci psaní byl ve stavu, že nemohl psát, přesto dále diktoval kapitoly Švejka ve své ložnici.

Je zajímavé zjistit **nakolik se jeho zdravotní stav a postup v práci (flow) propsaly do vyznění navazujících kapitol**.



## Krok 1: Načtení datasetu "hasek_dataset"

Za využití knihovny Hugging Face načteme dataset "[hasek_dataset](https://huggingface.co/datasets/chromanna/hasek_dataset)" v češtině.



In [None]:
# !pip install datasets # uncomment in case of Colab
from transformers import pipeline, MarianMTModel, MarianTokenizer
from datasets import load_dataset

# Načtení datasetu
dataset = load_dataset("chromanna/hasek_dataset")

## Krok 2: Funkce na přeložení textů do angličtiny

S využitím modelu Helsinki-NLP/opus-mt-cs-en překládáme české texty do angličtiny.

In [None]:
# knihovna sacremoses je doporučena pro správnou funkci tokenizace s modelem MarianMT.
# sacremoses se používá k pokročilému zpracování textu, které může zlepšit kvalitu překladu.
!pip install sacremoses

In [None]:
# Načtení překladu modelu a tokenizéru pro češtinu -> angličtinu
model_name = "Helsinki-NLP/opus-mt-cs-en"
translation_model = MarianMTModel.from_pretrained(model_name)
translation_tokenizer = MarianTokenizer.from_pretrained(model_name)

# Překlad textu do angličtiny
def translate_to_english(text):
    inputs = translation_tokenizer(text, return_tensors="pt", padding=True, truncation=True)
    translated = translation_model.generate(**inputs)
    return translation_tokenizer.decode(translated[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

# Krok 3: Detekce nenávistných projevů

Pomocí modelu "multilingual-hate-speech-robacofi" aplikujeme klasifikaci nenávistného obsahu na přeložené texty. Pro každý vstup zobrazíme původní text, překlad a predikci. Kód níže pracuje s prvními 29 záznamy v datasetu, které zahrnují kompletní román. Pro větší dataset nebo zpracování veškerého Haškova díla může být potřeba přidat dávkování (batching) pro efektivnější běh a lepší správu paměti.


In [None]:
# Načtení modelu pro detekci nenávistných projevů
hate_speech_classifier = pipeline("text-classification", model="Andrazp/multilingual-hate-speech-robacofi")
max_length = 512  # Maximální délka v tokenech

# Použití překladu a detekce nenávistných projevů na vzorek dat
n = 29 # kolik textů chci analyzovat (Komplet Švejk)
translated_texts = [translate_to_english(text) for text in dataset["train"][:n]['text']]  # Prvních n textů pro ukázku

In [None]:
# Inicializace seznamu pro uložení všech predikcí
all_predictions = []

# Process each translated text individually
for translated_text in translated_texts:
    tokens = hate_speech_classifier.tokenizer(translated_text, truncation=True, max_length=max_length, return_tensors="pt")
    truncated_text = hate_speech_classifier.tokenizer.decode(tokens["input_ids"][0], skip_special_tokens=True, clean_up_tokenization_spaces=True)
    prediction = hate_speech_classifier(truncated_text)
    all_predictions.append(prediction)

In [None]:
# Zobrazení výsledků - kontrola
for title, original, translated, prediction in zip(dataset["train"][:n]["title"], dataset["train"][:n]["text"], translated_texts, all_predictions):
    print(f"Název: {title}")
    print(f"Původní text: {original[:50]}")
    print(f"Přeloženo: {translated[:50]}")
    print(f"Predikce: {prediction}")
    print("="*50)

Název: Úvod
Původní text: Veliká doba žádá velké lidi. Jsou nepoznaní hrdino
Přeloženo: Today you can meet in the streets of Prague a scra
Predikce: [{'label': 'not offensive', 'score': 0.8561887145042419}]
Název: Zasáhnutí dobrého vojáka Švejka do světové války
Původní text: „Tak nám zabili Ferdinanda,“ řekla posluhovačka pa
Přeloženo: So Ferdinand was killed, and so did Mrs.Mr.Mr.Mr.M
Predikce: [{'label': 'offensive', 'score': 0.9532903432846069}]
Název: Dobrý voják Švejk na policejním ředitelství
Původní text: Sarajevský atentát naplnil policejní ředitelství č
Přeloženo: This was the case with two people, and the old ins
Predikce: [{'label': 'not offensive', 'score': 0.9995518326759338}]
Název: Švejk před soudními lékaři
Původní text: Čisté, útulné pokojíky zemského „co trestního“ sou
Přeloženo: Clean, cozy rooms of the earth were the same as th
Predikce: [{'label': 'not offensive', 'score': 0.9840944409370422}]
Název: Švejka vyhodili z blázince
Původní text: Když později Švejk líči

Analýza jednotlivých kapitol Švejka.

In [None]:
import pandas as pd

# Vytvoření DataFrame s výsledky
df_hate = pd.DataFrame({
    "Title": dataset["train"]["title"][:n],
    "Label": [pred[0]['label'] for pred in all_predictions],
    "Score": [pred[0]['score'] for pred in all_predictions]
})

# Použití funkce k extrahování labelů a skóre výběr řádků pro každou kapitolu)
chapter_1_lines = df_hate[:17]  # Prvních 17 řádků
chapter_2_lines = df_hate[17:22]  # Dalších 5 řádků
chapter_3_lines = df_hate[22:26]  # Další 4 řádky
chapter_4_lines = df_hate[26:29]  # Další 3 řádky

In [None]:
chapter_4_lines # kontola

Unnamed: 0,Title,Label,Score
26,Švejk v transportu ruských zajatců,not offensive,0.996596
27,Duchovní útěcha,not offensive,0.998009
28,Švejk opět u své marškumpanie,offensive,0.916819


In [None]:
# Definice funkce pro výpočet požadovaných statistik
def analyze_chapter(df):
    # Počet řádků
    row_count = len(df)

    # Průměrné skóre
    avg_score = round(df['Score'].mean(), 5)

    # Nejčastější hodnota v 'Label' (medián labelu)
    median_label = df['Label'].mode()[0]

    # Počet nejčastějších hodnot
    median_count = df['Label'].value_counts()[median_label]

    # Procentuální zastoupení této hodnoty
    median_label_percentage = round(df['Label'].value_counts(normalize=True)[median_label] * 100, 3)

    return row_count, avg_score, median_label, median_count, median_label_percentage

In [None]:
# Analýza pro každou kapitolu
chapter_1_stats = analyze_chapter(chapter_1_lines)
chapter_2_stats = analyze_chapter(chapter_2_lines)
chapter_3_stats = analyze_chapter(chapter_3_lines)
chapter_4_stats = analyze_chapter(chapter_4_lines)

# Výsledky
print(f"Kapitola 1 - Průměrné skóre: {chapter_1_stats[1]}, Nejčastější label: {chapter_1_stats[2]}, Procento: {chapter_1_stats[4]}% ({chapter_1_stats[3]} ze {chapter_1_stats[0]} kapitol)")
print(f"Kapitola 2 - Průměrné skóre: {chapter_2_stats[1]}, Nejčastější label: {chapter_2_stats[2]}, Procento: {chapter_2_stats[4]}% ({chapter_2_stats[3]} z {chapter_2_stats[0]} kapitol)")
print(f"Kapitola 3 - Průměrné skóre: {chapter_3_stats[1]}, Nejčastější label: {chapter_3_stats[2]}, Procento: {chapter_3_stats[4]}% ({chapter_3_stats[3]} z {chapter_3_stats[0]} kapitol)")
print(f"Kapitola 4 - Průměrné skóre: {chapter_4_stats[1]}, Nejčastější label: {chapter_4_stats[2]}, Procento: {chapter_4_stats[4]}% ({chapter_4_stats[3]} z {chapter_4_stats[0]} kapitol)")

Kapitola 1 - Průměrné skóre: 0.9506, Nejčastější label: not offensive, Procento: 88.235% (15 ze 17 kapitol)
Kapitola 2 - Průměrné skóre: 0.91148, Nejčastější label: not offensive, Procento: 80.0% (4 z 5 kapitol)
Kapitola 3 - Průměrné skóre: 0.99252, Nejčastější label: not offensive, Procento: 100.0% (4 z 4 kapitol)
Kapitola 4 - Průměrné skóre: 0.97047, Nejčastější label: not offensive, Procento: 66.667% (2 z 3 kapitol)


S horšícím zdravotním stavem autora se skóre nenávistného textu rapidně nezhoršilo. Přičemž přiřazení správného tónu textu je celkem jisté (viz vysoké skóre). Ale je diskutabilní, zda analýza na malém počtu podkapitol je relevantní. Navíc do modelu vstupuje omezený počet tokenů (max 512). V našem případě jsme tam dali prvních 512 tokenů každé podkapitoly, ale třeba jsou naopak více plné frustrace závěry podkapitol :-)

## Krok 4: Analýzu sentimentu

Pro analýzu sentimentu na datasetu chromanna/hasek_dataset můžeme využít model [cardiffnlp/twitter-xlm-roberta-base-sentiment-multilingual](https://huggingface.co/cardiffnlp/twitter-xlm-roberta-base-sentiment-multilingual), který je navržen pro vícejazyčnou analýzu sentimentu.

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification, pipeline

# Načtení tokenizeru a modelu pro analýzu sentimentu
model_name = "cardiffnlp/twitter-xlm-roberta-base-sentiment-multilingual"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Vytvoření pipeline pro analýzu sentimentu
sentiment_analyzer = pipeline("sentiment-analysis", model=model, tokenizer=tokenizer, truncation=True, max_length=512)

# Výběr prvních 29 řádků a jejich textů pro analýzu
texts = dataset["train"]["text"][:29]

# Provádění analýzy sentimentu
sentiments = sentiment_analyzer(texts)

Vyhodnocení pro jednotlivé hlavní kapitoly.

In [None]:
# Vytvoření DataFrame s výsledky
df_sentiment = pd.DataFrame({
    "Title": dataset["train"]["title"][:29],
    "Label": [result['label'] for result in sentiments],
    "Score": [result['score'] for result in sentiments]
})

# Rozdělení na hlavní kapitoly
chapter_1_lines = df_sentiment[:17] # Prvních 17 řádků
chapter_2_lines = df_sentiment[17:22]  # Dalších 5 řádků
chapter_3_lines = df_sentiment[22:26]  # Další 4 řádky
chapter_4_lines = df_sentiment[26:29]  # Další 3 řádky

In [None]:
# Analýza pro každou kapitolu
chapter_1_stats = analyze_chapter(chapter_1_lines)
chapter_2_stats = analyze_chapter(chapter_2_lines)
chapter_3_stats = analyze_chapter(chapter_3_lines)
chapter_4_stats = analyze_chapter(chapter_4_lines)

# Výsledky
print(f"Kapitola 1 - Průměrné skóre: {chapter_1_stats[1]}, Nejčastější label: {chapter_1_stats[2]}, Procento: {chapter_1_stats[4]}% ({chapter_1_stats[3]} ze {chapter_1_stats[0]} kapitol)")
print(f"Kapitola 2 - Průměrné skóre: {chapter_2_stats[1]}, Nejčastější label: {chapter_2_stats[2]}, Procento: {chapter_2_stats[4]}% ({chapter_2_stats[3]} z {chapter_2_stats[0]} kapitol)")
print(f"Kapitola 3 - Průměrné skóre: {chapter_3_stats[1]}, Nejčastější label: {chapter_3_stats[2]}, Procento: {chapter_3_stats[4]}% ({chapter_3_stats[3]} z {chapter_3_stats[0]} kapitol)")
print(f"Kapitola 4 - Průměrné skóre: {chapter_4_stats[1]}, Nejčastější label: {chapter_4_stats[2]}, Procento: {chapter_4_stats[4]}% ({chapter_4_stats[3]} z {chapter_4_stats[0]} kapitol)")

Kapitola 1 - Průměrné skóre: 0.54387, Nejčastější label: neutral, Procento: 94.118% (16 ze 17 kapitol)
Kapitola 2 - Průměrné skóre: 0.53562, Nejčastější label: neutral, Procento: 100.0% (5 z 5 kapitol)
Kapitola 3 - Průměrné skóre: 0.52247, Nejčastější label: neutral, Procento: 100.0% (4 z 4 kapitol)
Kapitola 4 - Průměrné skóre: 0.46977, Nejčastější label: neutral, Procento: 100.0% (3 z 3 kapitol)


Většina podkapitol byla vyhodnocena jako neutrální. Není patrné, že by se nálada a vyznění podkapitol ke konci autorova života, kdy už neměl sílu ani psát, nějak zhoršovala. Model vykazuje menší jistotu správně přiřazeného sentimentu (skóre $≈$ .5). Opět je diskutabilní malý počet podkapitol a jak se text ořízl (v našem případě prvních 512 tokenů každé podkapitoly).


## Krok 5: Detekce emocí

Pro analýzu emocí v českém textu můžete využít model [bert-base-multilingual-cased-finetuned-emotion](https://huggingface.co/Toshifumi/bert-base-multilingual-cased-finetuned-emotion), který je dostupný na platformě Hugging Face. Tento model byl natrénován na rozpoznávání emocí v různých jazycích a je schopen zpracovávat i české texty.

In [None]:
# Načtení tokenizeru a modelu pro analýzu emocí
model_name = "Toshifumi/bert-base-multilingual-cased-finetuned-emotion"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Vytvoření pipeline pro analýzu emocí
emotion_analyzer = pipeline("text-classification", model=model, tokenizer=tokenizer)

# Provádění analýzy emocí
emotions = emotion_analyzer(texts, truncation=True, padding=True)

Model je doladěn pro detekci následujících šesti emocí:

In [None]:
# Definice slovníku pro přemapování labelů
label_map = {
    "LABEL_0": "sadness",
    "LABEL_1": "joy",
    "LABEL_2": "love",
    "LABEL_3": "anger",
    "LABEL_4": "fear",
    "LABEL_5": "surprise"
}

Toto přiřazení štítků bylo aktualizováno [v souboru config.json](https://huggingface.co/Toshifumi/bert-base-multilingual-cased-finetuned-emotion/discussions/1/files) modelu, aby odpovídalo datové sadě použití pro trénink.

Vyhodnocení pro jednotlivé hlavní kapitoly.

In [None]:
# Vytvoření DataFrame s výsledky
df_emotion = pd.DataFrame({
    "Text": texts,
    "Label": [label_map[emotion['label']] for emotion in emotions],  # Přemapování labelů
    "Score": [emotion['score'] for emotion in emotions]
})

# Rozdělení na hlavní kapitoly
chapter_1_lines = df_emotion[:17] # Prvních 17 řádků
chapter_2_lines = df_emotion[17:22]  # Dalších 5 řádků
chapter_3_lines = df_emotion[22:26]  # Další 4 řádky
chapter_4_lines = df_emotion[26:29]  # Další 3 řádky

In [None]:
# Analýza pro každou kapitolu
chapter_1_stats = analyze_chapter(chapter_1_lines)
chapter_2_stats = analyze_chapter(chapter_2_lines)
chapter_3_stats = analyze_chapter(chapter_3_lines)
chapter_4_stats = analyze_chapter(chapter_4_lines)

# Výsledky
print(f"Kapitola 1 - Průměrné skóre: {chapter_1_stats[1]}, Nejčastější label: {chapter_1_stats[2]}, Procento: {chapter_1_stats[4]}% ({chapter_1_stats[3]} ze {chapter_1_stats[0]} kapitol)")
print(f"Kapitola 2 - Průměrné skóre: {chapter_2_stats[1]}, Nejčastější label: {chapter_2_stats[2]}, Procento: {chapter_2_stats[4]}% ({chapter_2_stats[3]} z {chapter_2_stats[0]} kapitol)")
print(f"Kapitola 3 - Průměrné skóre: {chapter_3_stats[1]}, Nejčastější label: {chapter_3_stats[2]}, Procento: {chapter_3_stats[4]}% ({chapter_3_stats[3]} z {chapter_3_stats[0]} kapitol)")
print(f"Kapitola 4 - Průměrné skóre: {chapter_4_stats[1]}, Nejčastější label: {chapter_4_stats[2]}, Procento: {chapter_4_stats[4]}% ({chapter_4_stats[3]} z {chapter_4_stats[0]} kapitol)")

Kapitola 1 - Průměrné skóre: 0.35453, Nejčastější label: joy, Procento: 100.0% (17 ze 17 kapitol)
Kapitola 2 - Průměrné skóre: 0.42902, Nejčastější label: joy, Procento: 100.0% (5 z 5 kapitol)
Kapitola 3 - Průměrné skóre: 0.49682, Nejčastější label: joy, Procento: 100.0% (4 z 4 kapitol)
Kapitola 4 - Průměrné skóre: 0.30083, Nejčastější label: joy, Procento: 100.0% (3 z 3 kapitol)


Všechny podkapitoly byly vyhodnoceny jako radostné. Není patrné, že by se emoce v textu ke konci autorova života nějak vyostřovaly. Model vykazuje ještě menší jistotu správně přiřazené emoce (skóre $≈$ .4) než jiné výše zkoušené modely analýzy textu.



---
## Závěr analýzy textu

Na základě různých analýz textu nevyplynulo, že by se rapidně zhoršující se fyzický stav Jaroslava Haška výrazně promítl do podoby kapitol románu o Švejkovi. A to i přes skutečnost, že knihu autor nestihl dopsat a ke konci ji už pouze diktoval. Text si po celou dobu s vysokou mírou jistoty drží nekonfliktní postoj, s nižší jistotou neutrální tón a radostnou náladu.