# Analiza zależnościowa

![image.png](attachment:image.png)

## Wstęp

Język, którym posługujemy się na co dzień, funkcjonuje na zasadzie kompozycyjności. Oznacza to, że znaczenie złożonych wyrażeń językowych można wywnioskować z ich części składowych i z relacji między nimi. Ta właściwość pozwala użytkownikom języka na daleko idącą kreatywność w sposobie konstruowania wypowiedzi, przy zachowaniu precyzji komunikacji. Sposób w jaki słowa w zdaniu są ze sobą związane, tworzy strukturę ukorzenionego drzewa. Problemem, który rozważamy w tym zadaniu, jest automatyczna konstrukcja takich drzew dla zdań w języku polskim. Problem nosi nazwę analizy składniowej zdań, a konkretnie dokonywać będziemy analizy zależnościowej.

Analiza składniowa jest w ogólności trudna. Na przykład, mimo że zdania `(1) Maria do jutra jest zajęta.` oraz `(2) Droga do domu jest zajęta.` zawierają kolejno te same części mowy, w dodatku o dokładnie tej samej formie gramatycznej, to w zdaniu (1) fraza "do jutra" modyfikuje czasownik "jest zajęta", natomiast w zdaniu (2) fraza "do domu" jest podrzędnikiem rzeczownika "droga". W dodatku, czasami nawet natywni użytkownicy języka mogą zinterpretować strukturę zdania na dwa różne sposoby: zdanie `Zauważyłem dziś samochód Adama, którego dawno nie widziałem.` może być interpretowane na dwa sposoby w zależności od tego, do czego odnosi się "którego": czy do "samochodu Adama", czy może do "Adama".

Istnieje wiele różnych algorytmów rozwiązujących problem analizy zależnościowej. Klasyczne metody przetwarzają zdanie słowo po słowie, od lewej do prawej i wstawiają krawędzie w oparciu albo o pewien ustalony zbiór reguł lub o algorytm uczenia maszynowego. W tym zadaniu użyjemy innej metody. Twoim zadaniem będzie przewidzenie drzewa zależnościowego w oparciu o wektory słów otrzymane modelem HerBERT.

HerBERT to polska wersja BERT, który jest modelem językowym i działa następująco:
1. BERT posiada moduł nazywany tokenizatorem (ang. tokenizer), który dzieli zdanie na pewne podsłowa. Na przykład zdanie `Dostaję klucz i biegnę do swojego pokoju.` dzieli na `'Dosta', 'ję', 'klucz', 'i', 'bieg', 'nę', 'do', 'swojego', 'pokoju', '.'`. Tokenizator jest wyposażony w słownik, który podsłowom przypisuje unikalne liczby: w praktyce zatem otrzymujemy mało zrozumiałe dla człowieka `18577, 2779, 22816, 1009, 4775, 2788, 2041, 5058, 7217, 1899`.
1. Następnie BERT posiada słownik, który zamienia te liczby na wektory o długości 768. Otrzymujemy zatem macierz o rozmiarach `10 x 768`.
1. BERT posiada 12 warstw, z których każda bierze wynik poprzedniej i wykonuje na niej pewną transformację. Szczegóły nie są istotne w tym zadaniu! Ważne jest natomiast to, że cały model jest uczony automatycznie, przy użyciu dużych korpusów tekstu. Zinterpretowanie działania każdej warstwy jest niemożliwe! Natomiast być może w skomplikowanym algorytmie, którego nauczył się BERT różne warstwy pełnią różne role.

## Zadanie

Twoim zadaniem będzie automatyczna analiza składniowa zdań w języku polskim. Pominiemy dokładne objaśnienie sposobu konstruowania takich drzew, możesz samemu popatrzeć na przykłady! Dostaniesz zbiór danych treningowych zawierający 1000 przykładów rozkładów zdań. W pliku `train.conll` znajdują się poetykietowane zdania, na przykład:

| # | Word      | - | - | - | - | Head | - | - | - |
|---|-----------|---|---|---|---|--------|---|---|---|
| 1 | Wyobraź   | _ | _ | _ | _ | 0      | _ | _ | _ |
| 2 | sobie     | _ | _ | _ | _ | 1      | _ | _ | _ |
| 3 | człowieka | _ | _ | _ | _ | 1      | _ | _ | _ |
| 4 | znajdującego | _ | _ | _ | _ | 3    | _ | _ | _ |
| 5 | się       | _ | _ | _ | _ | 4      | _ | _ | _ |
| 6 | na        | _ | _ | _ | _ | 4      | _ | _ | _ |
| 7 | ogromnej  | _ | _ | _ | _ | 8      | _ | _ | _ |
| 8 | górze     | _ | _ | _ | _ | 6      | _ | _ | _ |
| 9 | .         | _ | _ | _ | _ | 1      | _ | _ | _ |

Co jest sposobem na zakodowanie następującego drzewa składniowego zdania złożonego:
```
      Wyobraź                          
   ______|_____________                 
  |      |         człowieka           
  |      |             |                
  |      |        znajdującego         
  |      |      _______|__________      
  |      |     |                  na   
  |      |     |                  |     
  |      |     |                górze  
  |      |     |                  |     
sobie    .    się              ogromnej
```
Dostarczamy Ci funkcję w Pythonie służącą do wczytania przykładów z tego pliku i na ich wizualizację. Twoje rozwiązanie powinno:
1. Dzielić zdanie na podsłowa.
1. Dla każdego podsłowa przypisywać wektor. Należy użyć tutaj finalnych lub pośrednich wektorów wyliczonych przez model HerBERT.
1. Agregować wektory podsłów tak aby otrzymać wektory słów.
1. Zaimplementować i wyuczyć prosty model przewidujący odległości w drzewie i głębokości w drzewie poszczególnych słów w zdaniu.
1. Użyć modeli odległości i głębokości do skonstruowania drzewa składniowego.


## Ograniczenia
- Twoje finalne rozwiązanie będzie testowane w środowisku **bez** GPU.
- Ewaluacja twojego rozwiązania (bez treningu) na 200 przykładach testowych powinna trwać nie dłużej niż 5 minut na Google Colab bez GPU.
- Do dyspozycji masz model typu BERT: `allegro/herbert-base-cased` oraz tokenizer `allegro/herbert-base-cased`. Nie wolno korzystać z innych uprzednio wytrenowanych modeli oraz ze zbiorów danych innych niż dostarczony.
- Lista dopuszczalnych bibliotek: `transformers`, `nltk`, `torch`.

## Uwagi i wskazówki
- Liczne wskazówki znajdują się we wzorcach funkcji, które powinieneś zaimplementować.

## Pliki zgłoszeniowe
Rozwiązanie zadania stanowi plik archiwum zip zawierające:
1. Ten notebook
2. Plik z wagami modelu odległości: `distance_model.pth`
3. Plik z wagami modelu głębokości: `depth_model.pth`

Uruchomienie całego notebooka z flagą `FINAL_EVALUATION_MODE` ustawioną na `False` powinno w maksymalnie 10 minut skutkować utworzeniem obu plików z wagami.

## Ewaluacja
Podczas sprawdzania flaga `FINAL_EVALUATION_MODE` zostanie ustawiona na `True`, a następnie zostanie uruchomiony cały notebook.
Zaimplementowana przez Ciebie funkcja `parse_sentence`, której wzorzec znajdziesz na końcu tego notatnika, zostanie oceniona na 200 przykładach testowych.
Ewaluacja będzie podobna do tej zaimplementowanej w funkcji `evaluate_model`.
Pamiętaj jednak, że ostateczna funkcja do ewaluacji sprawdzała będzie dodatkowo, czy zwracane przez twoją funkcję `parse_sentence` drzewa są poprawne!

Ewaluacja nie może zajmować więcej niż 3 minuty. Możesz uruchomić walidację swojego rozwiązania na dostarczonym zbiorze danych walidacyjnych na Google Colab, aby przekonać się czy nie przekraczasz czasu.
Za pomocą skryptu `validation_script.py` będziesz mógł upewnić się, że Twoje rozwiązanie zostanie prawidłowo wykonane na naszych serwerach oceniających:

```
python3 validation_script.py --train
python3 validation_script.py
```

Podczas sprawdzania zadania, użyjemy dwóch metryk: UUAS oraz root placement.
1. Root placemenet oznacza ułamek przykładów na których poprawnie wskażesz korzeń drzewa składniowego,
2. UUAS dla konkretnego zdania to ułamek poprawnie umieszczonych krawędzi. UUAS dla zbioru to średnia wyników dla poszczególnych zdań.


Za to zadanie możesz zdobyć pomiędzy pomiędzy 0 i 2 punkty. Twój wynik za to zadanie zostanie wyliczony za pomocą funkcji:
```Python
def points(root_placement, uuas):
    def scale(x, lower=0.5, upper=0.85):
        scaled = min(max(x, lower), upper)
        return (scaled - lower) / (upper - lower)
    return (scale(root_placement) + scale(uuas))
```
Innymi słowy, twój wynik jest sumą wyników za root placement i UUAS. Wynik za daną metrykę jest 0 jeśli wartość danej metryki jest poniżej 0.5 i 1 jeśli jest powyżej 0.85. Pomiędzy tymi wartościami, wynik rośnie liniowo z wartością metryki.

# Kod startowy

In [None]:
FINAL_EVALUATION_MODE = (
    False  # W czasie sprawdzania twojego rozwiązania, zmienimy tą wartość na True
)
DEPTH_MODEL_PATH = "depth_model.pth"  # Nie zmieniaj!
DISTANCE_MODEL_PATH = "distance_model.pth"  # Nie zmieniaj!

In [None]:
from typing import List

import numpy as np
import torch
from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import AutoModel, AutoTokenizer, PreTrainedModel, PreTrainedTokenizer
from utils import (
    ListDataset,
    ParsedSentence,
    Sentence,
    merge_subword_tokens,
    read_conll,
    uuas_score,
)

In [None]:
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
model = AutoModel.from_pretrained("allegro/herbert-base-cased")

In [None]:
train_sentences = read_conll("train.conll")  # 1000 zdań
val_sentences = read_conll("valid.conll")  # 200 zdań

train_sentences[6].pretty_print()  # wyświetl drzewo jednego zdania
print(train_sentences[6])

# Twoje rozwiązanie

In [None]:
def get_distances(sentence: ParsedSentence):
    """Znajdź odległości między każdą parą słów w zdaniu.
    Zwraca macierz numpy o wymiarach (len(sentence), len(sentence))."""
    distances = np.zeros((len(sentence), len(sentence)))
    neighbors = [[] for _ in range(len(sentence))]
    for a, b in sentence.get_sorted_edges():
        neighbors[a].append(b)
        neighbors[b].append(a)

    def dfs(v, vis, dist):
        vis[v] = True
        for neighbor in neighbors[v]:
            if vis[neighbor]:
                continue
            dist[neighbor] = dist[v] + 1
            dfs(neighbor, vis, dist)

    for i in range(len(sentence)):
        visited = [False for _ in range(len(sentence))]
        visited[i] = True
        distan = [0 for _ in range(len(sentence))]
        dfs(i, visited, distan)
        for idx, dist in enumerate(distan):
            distances[i][idx] = dist

    return distances


print(get_distances(train_sentences[1]))

In [None]:
def get_bert_embeddings(
    sentences_s: List[str],
    tokenizer: PreTrainedTokenizer,
    model: PreTrainedModel,
    progress_bar: bool = False,
):
    """
    Ekstraktuje embeddingi podsłów z modelu HerBERT dla listy zdań.

    DLACZEGO UŻYWAMY MODELU BERT:
    - BERT (HerBERT w przypadku polskiego) to kontekstowy model językowy
    - Każde słowo otrzymuje reprezentację wektorową która zależy od kontekstu
    - Embeddingi BERT zawierają bogatą informację semantyczną i składniową

    PROCES TOKENIZACJI:
    1. BERT dzieli zdania na podsłowa (subwords) używając algorytmu WordPiece
    2. Przykład: "Dostaję" → ["Dosta", "ję"]
    3. Każdy podsłów otrzymuje unikalny ID ze słownika

    ARCHITEKTURA BERT:
    - 12 warstw transformer'a
    - Każda warstwa przetwarza reprezentacje z poprzedniej warstwy
    - Używamy warstwy 7 (środkowej) jako kompromis między specjalizacją a ogólnością

    Args:
        sentences_s: Lista zdań jako stringi
        tokenizer: Tokenizator HerBERT do podziału na podsłowa
        model: Model HerBERT do generowania embeddingów
        progress_bar: Czy pokazywać pasek postępu (opcjonalne)

    Returns:
        tuple zawierająca:
        - tokens: Lista tensorów z ID tokenów dla każdego zdania
        - embeddings: Lista tensorów z embeddingami o wymiarach (seq_len, 768)
    """

    # Wskazówki:
    #  1. Możesz użyć funkcji:
    #   encoded = tokenizer.batch_encode_plus(...)
    #   with torch.no_grad():
    #     model(**encoded, output_hidden_states=True)
    #  2. Aby przyspieszyć obliczenia, pamiętaj o zgrupowaniu (batching) zdań, przed podaniem ich do modelu.
    #  3. Pamiętaj, że każde zdanie może mieć inną długość, więc żeby wypełnić dodatkowe miejsce w zwracanym
    #   tensorze, HERBERT zastosuje padding. Pamiętaj o usunięciu paddingu z wyników.
    #  4. Tokenizator i model używa specjalnych tokenów (np. początku i końca zdania), które również powinny
    #   zostać usunięte.

    # KROK 1: Tokenizacja i kodowanie wszystkich zdań jednocześnie (batching)
    # batch_encode_plus automatycznie:
    # - Dodaje specjalne tokeny [CLS] na początku i [SEP] na końcu
    # - Aplikuje padding do najdłuższego zdania w batchu
    # - Tworzy attention_mask wskazującą prawdziwe tokeny vs padding
    encoded = tokenizer.batch_encode_plus(
        sentences_s,
        return_tensors="pt",  # Zwróć jako PyTorch tensory
        padding=True,  # Dodaj padding do jednakowej długości
        truncation=True,  # Obetnij za długie zdania
    )

    # KROK 2: Przepuszczenie przez model BERT
    # torch.no_grad() wyłącza obliczanie gradientów (oszczędność pamięci)
    # output_hidden_states=True zwraca ukryte stany ze wszystkich warstw
    with torch.no_grad():
        bert_output = model(**encoded, output_hidden_states=True)

    # KROK 3: Ekstrakcja tokenów i embeddingów dla każdego zdania
    tokens = []
    embeddings = []

    for sentence_idx in range(len(sentences_s)):
        # Maska wskazująca które pozycje to prawdziwe tokeny (nie padding)
        attention_mask = encoded["attention_mask"][sentence_idx].bool()

        # Ekstraktujemy prawdziwe tokeny (bez padding)
        sentence_tokens = encoded["input_ids"][sentence_idx, attention_mask]

        # Usuwamy specjalne tokeny [CLS] (pierwszy) i [SEP] (ostatni)
        sentence_tokens_clean = sentence_tokens[1:-1]
        tokens.append(sentence_tokens_clean)

        # Ekstraktujemy embeddingi z warstwy 7 (indeksowane od 0)
        # hidden_states[0] = embeddingi wejściowe
        # hidden_states[1-12] = warstwy transformer'a
        # Wybieramy warstwę 7 jako dobry kompromis między ogólnością a specjalizacją
        layer_7_embeddings = bert_output.hidden_states[7][sentence_idx]

        # Usuwamy embeddingi dla padding i specjalnych tokenów
        sentence_embeddings = layer_7_embeddings[attention_mask][1:-1]
        embeddings.append(sentence_embeddings)

    return tokens, embeddings

In [None]:
def get_word_embeddings(
    sentences: List[Sentence], tokenizer, model
) -> List[torch.Tensor]:
    """
    Konwertuje embeddingi podsłów na embeddingi pełnych słów poprzez agregację.

    PROBLEM DO ROZWIĄZANIA:
    - BERT tokenizuje słowa na podsłowa (np. "programowanie" → ["program", "owanie"])
    - Potrzebujemy jednego embeddingu na słowo, nie na podsłowo
    - Rozwiązanie: agregujemy embeddingi podsłów należących do tego samego słowa

    STRATEGIA AGREGACJI:
    - Używamy średniej arytmetycznej embeddingów podsłów
    - Alternatywy: suma, pierwsza pozycja, ostatnia pozycja
    - Średnia zachowuje informację ze wszystkich podsłów

    PROCES:
    1. Otrzymujemy embeddingi podsłów z get_bert_embeddings
    2. Grupujemy podsłowa należące do tego samego słowa
    3. Obliczamy średnią embeddingów w każdej grupie
    4. Zwracamy embedding na poziomie słów

    Args:
        sentences: Lista obiektów Sentence zawierających słowa do przetworzenia
        tokenizer: Tokenizator HerBERT
        model: Model HerBERT

    Returns:
        Lista tensorów, każdy tensor zawiera embeddingi słów dla jednego zdania
        Wymiary: [num_words, embedding_dim] dla każdego zdania
    """

    # KROK 1: Konwertujemy obiekty Sentence na stringi
    # Potrzebne do przekazania do get_bert_embeddings
    sentence_strings = [str(sentence) for sentence in sentences]

    # KROK 2: Definiujemy funkcję agregacji
    # Używamy średniej arytmetycznej - najczęściej stosowana metoda
    def aggregation_function(subword_embeddings: torch.Tensor) -> torch.Tensor:
        """
        Agreguje embeddingi podsłów do jednego embeddingu słowa.

        Args:
            subword_embeddings: Tensor o wymiarach [num_subwords, embedding_dim]

        Returns:
            Tensor o wymiarach [embedding_dim] - embedding słowa
        """
        return torch.mean(subword_embeddings, dim=0)

    # KROK 3: Otrzymujemy embeddingi podsłów
    subword_tokens, subword_embeddings = get_bert_embeddings(
        sentence_strings, tokenizer, model
    )

    # KROK 4: Agregujemy podsłowa do słów dla każdego zdania
    word_embeddings = []
    for sentence, tokens, embeddings in zip(
        sentences, subword_tokens, subword_embeddings
    ):
        # merge_subword_tokens to pomocnicza funkcja która:
        # - Mapuje tokeny podsłów z powrotem na oryginalne słowa
        # - Stosuje funkcję agregacji do podsłów należących do tego samego słowa
        sentence_word_embeddings = merge_subword_tokens(
            words=sentence.words,  # Lista oryginalnych słów
            subword_tokens=tokens,  # Lista tokenów podsłów
            subword_embeddings=embeddings,  # Embeddingi podsłów
            tokenizer=tokenizer,  # Tokenizator do dekodowania
            aggregation_fn=aggregation_function,  # Funkcja agregacji
            verbose=False,  # Bez logowania szczegółów
        )
        word_embeddings.append(sentence_word_embeddings)

    return word_embeddings

In [None]:
def get_datasets(
    sentences: List[ParsedSentence], tokenizer, model
) -> tuple[ListDataset, ListDataset]:
    """
    Przygotowuje zbiory danych do trenowania modeli odległości i głębokości.

    DLACZEGO POTRZEBUJEMY DWÓCH MODELI:
    1. Model odległości - przewiduje czy dwa słowa są połączone krawędzią
    2. Model głębokości - przewiduje które słowo jest korzeniem drzewa

    ARCHITEKTURA TRENINGU:
    - Oba modele używają tych samych embeddingów słów jako wejście
    - Model odległości: input = para embeddingów, output = prawdopodobieństwo krawędzi
    - Model głębokości: input = embedding słowa, output = prawdopodobieństwo korzenia

    PRZYGOTOWANIE DANYCH:
    1. Obliczamy embeddingi słów używając HerBERT
    2. Obliczamy prawdziwe odległości w drzewie zależnościowym
    3. Wyznaczamy głębokości (odległość od korzenia)
    4. Pakujemy dane w formę gotową do treningu

    Args:
        sentences: Lista ParsedSentence z prawdziwymi drzewami zależnościowymi
        tokenizer: Tokenizator HerBERT
        model: Model HerBERT

    Returns:
        tuple zawierająca:
        - dataset_dist: Dataset do treningu modelu odległości
        - dataset_depth: Dataset do treningu modelu głębokości
    """

    # KROK 1: Obliczamy embeddingi słów dla wszystkich zdań
    # To jest najbardziej czasochłonna operacja, więc robimy ją raz
    print("Obliczam embeddingi słów...")
    word_embeddings = get_word_embeddings(sentences, tokenizer, model)

    # KROK 2: Obliczamy macierze odległości dla każdego zdania
    # Odległość = liczba krawędzi między dwoma słowami w drzewie
    print("Obliczam macierze odległości...")
    distance_matrices = []
    for sentence in sentences:
        distance_matrix = get_distances(sentence)
        distance_matrices.append(distance_matrix)

    # KROK 3: Obliczamy głębokości słów (odległość od korzenia)
    # Głębokość = odległość od korzenia drzewa do danego słowa
    print("Obliczam głębokości słów...")
    depth_vectors = []
    for distance_matrix, sentence in zip(distance_matrices, sentences):
        # Głębokość każdego słowa = odległość od korzenia
        root_index = sentence.root
        depths = distance_matrix[root_index]  # Wiersz odpowiadający korzeniowi

        # Dodajemy wymiar [1] żeby otrzymać tensor 2D: [num_words, 1]
        depths = depths[..., None]  # Przekształca [n] na [n, 1]
        depth_vectors.append(depths)

    # KROK 4: Tworzymy datasety
    # Każdy element datasetu to krotka: (embeddings, targets, sentence)

    # Dataset dla modelu odległości
    # Targets = macierz odległości między wszystkimi parami słów
    distance_data = list(zip(word_embeddings, distance_matrices, sentences))
    dataset_dist = ListDataset(distance_data)

    # Dataset dla modelu głębokości
    # Targets = wektor głębokości dla każdego słowa
    depth_data = list(zip(word_embeddings, depth_vectors, sentences))
    dataset_depth = ListDataset(depth_data)

    print(f"Utworzono datasety: {len(dataset_dist)} przykładów")
    return dataset_dist, dataset_depth


# Tworzenie zbiorów treningowych i walidacyjnych
if not FINAL_EVALUATION_MODE:
    print("Przygotowuję zbiory treningowe...")
    trainset_dist, trainset_depth = get_datasets(train_sentences, tokenizer, model)

    print("Przygotowuję zbiory walidacyjne...")
    valset_dist, valset_depth = get_datasets(val_sentences, tokenizer, model)

In [None]:
def pad_arrays(sequence: List[np.ndarray], pad_with: float = np.inf) -> torch.Tensor:
    """
    Dopełnia tablice o różnych rozmiarach do jednakowych wymiarów.

    PROBLEM BATCH'OWANIA:
    - Zdania mają różne długości (różną liczbę słów)
    - PyTorch wymaga tensorów o jednakowych wymiarach w batch'u
    - Rozwiązanie: padding - dopełnianie krótszych sekwencji

    ALGORYTM:
    1. Znajdź maksymalne wymiary we wszystkich tablicach
    2. Dopełnij każdą tablicę do maksymalnych wymiarów
    3. Użyj specjalnej wartości (pad_with) do oznaczenia dopełnienia

    DLACZEGO np.inf:
    - Umożliwia łatwe tworzenie masek (prawdziwe dane != inf)
    - Nie wpływa na obliczenia gdy używamy mask

    Args:
        sequence: Lista tablic numpy o potencjalnie różnych rozmiarach
        pad_with: Wartość używana do dopełnienia (domyślnie np.inf)

    Returns:
        torch.Tensor: Tensor z dopełnionymi danymi
    """
    # KROK 1: Znajdź maksymalne wymiary
    # Pobieramy kształty wszystkich tablic w sekwencji
    shapes = np.array([list(array.shape) for array in sequence])
    max_dimensions = list(shapes.max(axis=0))  # Maksimum dla każdego wymiaru

    # KROK 2: Dopełnij każdą tablicę do maksymalnych wymiarów
    padded_arrays = []
    for array in sequence:
        # Oblicz ile dopełnienia potrzeba dla każdego wymiaru
        padding_amounts = []
        for dim_idx in range(array.ndim):
            current_size = array.shape[dim_idx]
            max_size = max_dimensions[dim_idx]
            padding_needed = max_size - current_size
            # np.pad przyjmuje padding jako (przed, po) dla każdego wymiaru
            padding_amounts.append((0, padding_needed))

        # Zastosuj padding
        padded_array = np.pad(
            array, tuple(padding_amounts), mode="constant", constant_values=pad_with
        )
        padded_arrays.append(padded_array)

    # KROK 3: Konwertuj na tensor PyTorch
    return torch.tensor(padded_arrays, dtype=torch.float32)


def collate_fn(
    batch: List[tuple],
) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, tuple]:
    """
    Funkcja kolizji (collate function) dla DataLoader'a.

    ROLA FUNKCJI COLLATE:
    - DataLoader pobiera pojedyncze przykłady z datasetu
    - collate_fn łączy je w batch (paczkę) do efektywnego przetwarzania
    - Musi rozwiązać problem różnych rozmiarów tensorów

    PROCES:
    1. Rozpakuj batch na składniki (embeddingi, targety, zdania)
    2. Zastosuj padding do embeddingów i targetów
    3. Utwórz maskę wskazującą prawdziwe dane (vs padding)
    4. Zwróć wszystko jako tensory gotowe do treningu

    Args:
        batch: Lista krotek (embeddings, targets, sentences) z datasetu

    Returns:
        tuple zawierająca:
        - padded_embeddings: Tensor embeddingów z paddingiem
        - padded_targets: Tensor targetów z paddingiem
        - mask: Maska prawdziwych danych (True) vs padding (False)
        - sentences: Oryginalne zdania (do debugowania)
    """
    # KROK 1: Rozpakuj batch na składniki
    embeddings, targets, sentences = zip(*batch)

    # KROK 2: Zastosuj padding
    # Embeddingi dopełniamy zerami (neutralne dla sieci neuronowej)
    padded_embeddings = pad_arrays(embeddings, pad_with=0.0)

    # Targety dopełniamy nieskończonością (łatwe do maskowania)
    padded_targets = pad_arrays(targets, pad_with=np.inf)

    # KROK 3: Utwórz maskę prawdziwych danych
    # mask[i,j] = True jeśli pozycja (i,j) zawiera prawdziwe dane
    # mask[i,j] = False jeśli pozycja (i,j) to padding
    mask = padded_targets != torch.inf

    return padded_embeddings, padded_targets, mask, sentences


# Tworzenie DataLoader'ów - obiektów odpowiedzialnych za batch'owanie danych
if not FINAL_EVALUATION_MODE:
    # KONFIGURACJA DATALOADER'ÓW:
    # - batch_size=32: Kompromis między wydajnością a zużyciem pamięci
    # - shuffle=True dla treningu: Zapobiega overfittingowi, poprawia generalizację
    # - shuffle=False dla walidacji: Deterministyczne wyniki, łatwiejsze debugowanie
    # - collate_fn: Nasza funkcja łącząca przykłady w batche

    # DataLoader'y dla modelu odległości
    dist_trainloader = DataLoader(
        trainset_dist,
        batch_size=32,
        shuffle=True,  # Mieszanie dla lepszego treningu
        collate_fn=collate_fn,  # Nasza funkcja paddingu
    )
    dist_valloader = DataLoader(
        valset_dist,
        batch_size=32,
        shuffle=False,  # Bez mieszania dla walidacji
        collate_fn=collate_fn,
    )

    # DataLoader'y dla modelu głębokości
    depth_trainloader = DataLoader(
        trainset_depth, batch_size=32, shuffle=True, collate_fn=collate_fn
    )
    depth_valloader = DataLoader(
        valset_depth, batch_size=32, shuffle=False, collate_fn=collate_fn
    )

# DOKUMENTACJA FORMATÓW DANYCH:
#
# DataLoader'y zwracają krotki w formacie:
# (padded_embeddings, padded_targets, mask, sentences)
#
# Dla modelu odległości (dist_*loader):
# - embeddings.shape: (batch_size, max_seq_len, 768)  # Embeddingi słów
# - distances.shape: (batch_size, max_seq_len, max_seq_len)  # Macierz odległości
# - mask.shape: (batch_size, max_seq_len, max_seq_len)  # Maska prawdziwych danych
#
# Dla modelu głębokości (depth_*loader):
# - embeddings.shape: (batch_size, max_seq_len, 768)  # Embeddingi słów
# - depths.shape: (batch_size, max_seq_len, 1)  # Głębokości słów
# - mask.shape: (batch_size, max_seq_len, 1)  # Maska prawdziwych danych

In [None]:
class DistanceModel(torch.nn.Module):
    """
    Model przewidujący prawdopodobieństwo krawędzi między parami słów.

    ARCHITEKTURA:
    - Wejście: Konkatenacja embeddingów dwóch słów (768*2 = 1536 wymiarów)
    - Warstwa ukryta: 256 neuronów z aktywacją LeakyReLU
    - Dropout: 30% dla regularyzacji (zapobieganie overfittingowi)
    - Wyjście: 1 neuron z sigmoidą → prawdopodobieństwo krawędzi

    DLACZEGO TAKA ARCHITEKTURA:
    - LeakyReLU: Lepsze niż ReLU dla gradient flow
    - Dropout: Zapobiega overfittingowi na małym zbiorze danych
    - Sigmoid: Wyjście w zakresie [0,1] jako prawdopodobieństwo
    """

    def __init__(self):
        super().__init__()

        # ARCHITEKTURA SIECI:
        self.net = torch.nn.Sequential(
            # Warstwa wejściowa: 768*2 (dwa embeddingi) → 256
            torch.nn.Linear(768 * 2, 256),
            # Aktywacja: LeakyReLU pozwala na małe gradienty dla ujemnych wartości
            torch.nn.LeakyReLU(negative_slope=0.01),
            # Regularyzacja: Dropout losowo wyłącza 30% neuronów podczas treningu
            torch.nn.Dropout(p=0.3),
            # Warstwa wyjściowa: 256 → 1 (prawdopodobieństwo krawędzi)
            torch.nn.Linear(256, 1),
            # Sigmoid: mapuje dowolną liczbę rzeczywistą na zakres [0,1]
            torch.nn.Sigmoid(),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        Propagacja w przód przez sieć.

        Args:
            x: Tensor o wymiarach [batch_size, 768*2] - para embeddingów

        Returns:
            Tensor o wymiarach [batch_size, 1] - prawdopodobieństwo krawędzi
        """
        return self.net(x)


class DepthModel(torch.nn.Module):
    """
    Model przewidujący prawdopodobieństwo że słowo jest korzeniem drzewa.

    ARCHITEKTURA:
    - Wejście: Embedding pojedynczego słowa (768 wymiarów)
    - Warstwa ukryta: 256 neuronów z aktywacją LeakyReLU
    - Dropout: 30% dla regularyzacji
    - Wyjście: 1 neuron z sigmoidą → prawdopodobieństwo bycia korzeniem

    ZADANIE MODELU:
    - Głębokość 0 = korzeń drzewa
    - Głębokość > 0 = nie korzeń
    - Model przewiduje P(głębokość = 0)
    """

    def __init__(self):
        super().__init__()

        # ARCHITEKTURA SIECI:
        self.net = torch.nn.Sequential(
            # Warstwa wejściowa: 768 (jeden embedding) → 256
            torch.nn.Linear(768, 256),
            # Aktywacja: LeakyReLU
            torch.nn.LeakyReLU(negative_slope=0.01),
            # Regularyzacja: Dropout 30%
            torch.nn.Dropout(p=0.3),
            # Warstwa wyjściowa: 256 → 1 (prawdopodobieństwo korzenia)
            torch.nn.Linear(256, 1),
            # Sigmoid: prawdopodobieństwo w zakresie [0,1]
            torch.nn.Sigmoid(),
        )

    def forward(self, x: torch.Tensor) -> torch.Tensor:
        """
        Propagacja w przód przez sieć.

        Args:
            x: Tensor o wymiarach [batch_size, 768] - embeddingi słów

        Returns:
            Tensor o wymiarach [batch_size, 1] - prawdopodobieństwo korzenia
        """
        return self.net(x)

In [None]:
def loss_fn(output, target, mask): ...


def train_model(model, dataloader, valloader, epochs, lr):
    """Pętla ucząca twoich modeli."""
    # TODO: implement me
    l = torch.nn.BCELoss()
    optimizer = torch.optim.Adam(model.parameters(), lr, weight_decay=1e-4)

    for epoch in range(epochs):
        if isinstance(model, DepthModel):
            loss_sum = 0
            correct = 0
            size = 0
            for input, label, mask, sentences in dataloader:
                zero = input[(mask & (label == 0)).squeeze()]
                not_zero = input[(mask & (label != 0)).squeeze()]

                selected = not_zero[torch.randint(not_zero.shape[0], (zero.shape[0],))]
                batch = torch.cat((zero, selected))
                labels = torch.cat(
                    (torch.zeros(zero.shape[0]), torch.ones(selected.shape[0]))
                )

                # print(labels)
                output = model(batch).squeeze()
                loss = l(output, labels.float())
                with torch.no_grad():
                    correct += torch.sum(labels == torch.round(output))
                    loss_sum += loss * batch.shape[0]
                    size += batch.shape[0]
                loss.backward()
                optimizer.step()
                optimizer.zero_grad()
            val_correct = 0
            val_sum = 0
            with torch.no_grad():
                for input, label, mask, sentences in valloader:
                    val_sum += torch.sum(mask)
                    val_correct += torch.sum(
                        torch.round(model(input[mask.squeeze()]))
                        == torch.where(label[mask.squeeze()] == 0, 0, 1)
                    )
            print(
                f"epoch: {epoch} loss:{loss_sum/size} accuracy:{correct/size} accuracy_val: {val_correct/val_sum}"
            )

        else:
            loss_sum = 0
            correct = 0
            size = 0
            for inputs, label, mask, sentences in dataloader:
                n, m, d = inputs.shape
                # Repeat and permute the tensor to get all pairwise combinations
                tensor_i = inputs.unsqueeze(2).expand(n, m, m, d)  # Shape: (n, m, m, d)
                tensor_j = inputs.unsqueeze(1).expand(n, m, m, d)  # Shape: (n, m, m, d)

                # Concatenate along the last dimension
                pairwise_concat = torch.cat((tensor_i, tensor_j), dim=-1)
                input_processed = pairwise_concat[mask]
                targets = np.where(label[mask] == 1, 1, 0)

                edges = input_processed[label[mask] == 1]
                notedges = input_processed[label[mask] != 1]

                notedges_in = notedges[
                    torch.randint(notedges.shape[0], (edges.shape[0],))
                ]
                inputs_final = torch.cat((edges, notedges))
                labels_final = torch.cat(
                    (torch.ones(edges.shape[0]), torch.zeros(notedges.shape[0]))
                )

                output = model(inputs_final).squeeze()
                loss = l(output, labels_final.float())
                with torch.no_grad():
                    correct += torch.sum(labels_final == torch.round(output))
                    loss_sum += loss * inputs_final.shape[0]
                    size += inputs_final.shape[0]
                loss.backward()
                optimizer.step()
                optimizer.zero_grad()

            print(f"epoch: {epoch} loss:{loss_sum/size} accuracy:{correct/size}")


# W czasie ewaluacji, modele nie powinny być ponownie trenowane.
if not FINAL_EVALUATION_MODE:
    print("Training depth model")
    depth_model = DepthModel()
    # TODO: ustaw hiperparametry
    train_model(depth_model, depth_trainloader, depth_valloader, lr=0.0001, epochs=15)
    # zapisz wagi modelu do pliku
    torch.save(depth_model.state_dict(), DEPTH_MODEL_PATH)

    print("Training distance model")
    distance_model = DistanceModel()
    # # TODO: ustaw hiperparametry
    train_model(distance_model, dist_trainloader, dist_valloader, lr=0.001, epochs=15)
    # # zapisz wagi modelu do pliku
    torch.save(distance_model.state_dict(), DISTANCE_MODEL_PATH)

In [None]:
def parse_sentence(
    sent: Sentence, distance_model, depth_model, tokenizer, model
) -> ParsedSentence:
    """
    Buduje drzewo składniowe dla pojedynczego zdania używając wytrenowanych modeli.

    ALGORYTM PARSOWANIA:
    1. Oblicz embeddingi słów używając HerBERT
    2. Wybierz korzeń używając modelu głębokości
    3. Oblicz prawdopodobieństwa krawędzi używając modelu odległości
    4. Zbuduj drzewo algorytmem zachłannym (greedy tree construction)

    STRATEGIA BUDOWY DRZEWA:
    - Zaczynamy od korzenia (wybrane przez model głębokości)
    - Iteracyjnie dodajemy najbardziej prawdopodobne krawędzie
    - Zapewniamy że wynik to drzewo (dokładnie n-1 krawędzi, połączony)

    DLACZEGO TEN ALGORYTM:
    - Prosty i deterministyczny
    - Gwarantuje poprawne drzewo
    - Wykorzystuje przewidywania obu modeli

    Args:
        sent: Zdanie do sparsowania
        distance_model: Wytrenowany model przewidujący krawędzie
        depth_model: Wytrenowany model przewidujący korzeń
        tokenizer: Tokenizator HerBERT
        model: Model HerBERT

    Returns:
        ParsedSentence: Zdanie z przewidzianym drzewem składniowym
    """

    # KROK 1: Oblicz embeddingi słów dla zdania
    # Funkcja get_word_embeddings zwraca listę, więc bierzemy pierwszy (i jedyny) element
    word_embeddings = get_word_embeddings([sent], tokenizer, model)[0]

    # Dodajemy wymiar batch (unsqueeze(0)) żeby dopasować format oczekiwany przez modele
    # Wymiary: [1, num_words, 768]
    embeddings_batch = word_embeddings.unsqueeze(0)

    # KROK 2: Przygotuj dane dla modelu odległości
    # Tworzymy wszystkie możliwe pary embeddingów słów
    batch_size, num_words, embedding_dim = embeddings_batch.shape

    # Rozszerzamy tensor żeby otrzymać wszystkie pary (i,j)
    # tensor_i[b,i,j,:] = embedding słowa i w zdaniu b
    tensor_i = embeddings_batch.unsqueeze(2).expand(
        batch_size, num_words, num_words, embedding_dim
    )
    # tensor_j[b,i,j,:] = embedding słowa j w zdaniu b
    tensor_j = embeddings_batch.unsqueeze(1).expand(
        batch_size, num_words, num_words, embedding_dim
    )

    # Konkatenujemy embeddingi par słów
    # pairwise_concat[b,i,j,:] = [embedding_i, embedding_j]
    pairwise_concat = torch.cat((tensor_i, tensor_j), dim=-1)

    # KROK 3: Przewidywania modeli
    with torch.no_grad():  # Wyłączamy gradient tracking dla inferencji
        # Model odległości: prawdopodobieństwa krawędzi dla wszystkich par
        edge_probabilities = distance_model(pairwise_concat)[
            0
        ]  # [num_words, num_words]

        # Model głębokości: prawdopodobieństwa korzenia dla każdego słowa
        root_probabilities = depth_model(embeddings_batch)[0]  # [num_words, 1]

    # KROK 4: Wybierz korzeń drzewa
    # Słowo z najwyższym prawdopodobieństwem bycia korzeniem
    root_index = torch.argmax(root_probabilities.squeeze()).item()

    # KROK 5: Buduj drzewo algorytmem zachłannym
    # Zaczynamy z korzeniem w drzewie
    nodes_in_tree = {root_index}
    edges = []

    # Dodajemy dokładnie n-1 krawędzi (właściwość drzewa)
    for _ in range(len(sent) - 1):
        best_edge = None
        best_probability = -np.inf

        # Sprawdzamy wszystkie możliwe krawędzie z drzewa do węzłów spoza drzewa
        for node_in_tree in nodes_in_tree:
            for candidate_node in range(len(sent)):
                # Pomijamy węzły już w drzewie
                if candidate_node in nodes_in_tree:
                    continue

                # Sprawdzamy prawdopodobieństwo krawędzi
                edge_prob = edge_probabilities[node_in_tree][candidate_node].item()

                # Aktualizujemy najlepszą krawędź
                if edge_prob > best_probability:
                    best_probability = edge_prob
                    best_edge = (node_in_tree, candidate_node)

        # Dodajemy najlepszą krawędź do drzewa
        if best_edge is not None:
            parent, child = best_edge
            edges.append((parent, child))
            nodes_in_tree.add(child)

    # KROK 6: Utwórz obiekt ParsedSentence
    # from_edges_and_root automatycznie waliduje czy wynik to poprawne drzewo
    return ParsedSentence.from_edges_and_root(sent.words, edges, root_index)


# TESTOWANIE ALGORYTMU PARSOWANIA
if not FINAL_EVALUATION_MODE:
    print("=" * 60)
    print("TESTOWANIE ALGORYTMU NA PRZYKŁADOWYM ZDANIU")
    print("=" * 60)

    # Wybieramy przykładowe zdanie do analizy
    example_sentence = train_sentences[30]
    print(f"Analizowane zdanie: {example_sentence}")
    print()

    # Parsujemy zdanie naszym algorytmem
    print("🤖 PRZEWIDZIANE DRZEWO (nasz algorytm):")
    predicted_tree = parse_sentence(
        example_sentence, distance_model, depth_model, tokenizer, model
    )
    predicted_tree.pretty_print()
    print()

    # Pokazujemy prawdziwe drzewo z danych treningowych
    print("✅ PRAWDZIWE DRZEWO (dane treningowe):")
    example_sentence.pretty_print()
    print()

    # Porównanie wyników
    print("📊 PORÓWNANIE:")
    print(
        f"Przewidziany korzeń: {predicted_tree.root} (słowo: '{example_sentence.words[predicted_tree.root]}')"
    )
    print(
        f"Prawdziwy korzeń: {example_sentence.root} (słowo: '{example_sentence.words[example_sentence.root]}')"
    )
    print(
        f"Korzeń poprawny: {'✅' if predicted_tree.root == example_sentence.root else '❌'}"
    )

    # Obliczamy dokładność krawędzi
    predicted_edges = set(predicted_tree.get_sorted_edges())
    true_edges = set(example_sentence.get_sorted_edges())
    correct_edges = len(predicted_edges & true_edges)
    total_edges = len(true_edges)
    edge_accuracy = correct_edges / total_edges if total_edges > 0 else 0

    print(f"Poprawne krawędzie: {correct_edges}/{total_edges} ({edge_accuracy:.1%})")
    print("=" * 60)

# Ewaluacja
Kod bardzo podobny do poniższego będzie służył do ewaluacji rozwiązania na zdaniach testowych. Wywołując poniższe komórki możesz dowiedzieć się ile punktów zdobyłoby twoje rozwiązanie, gdybyśmy ocenili je na danych walidacyjnych. Przed wysłaniem rozwiązania upewnij się, że cały notebook wykonuje się od początku do końca bez błędów i bez ingerencji użytkownika po wykonaniu polecenia `Run All`.

In [None]:
def points(root_placement, uuas):
    def scale(x, lower=0.5, upper=0.85):
        scaled = min(max(x, lower), upper)
        return (scaled - lower) / (upper - lower)

    return scale(root_placement) + scale(uuas)


def evaluate_model(
    sentences: List[ParsedSentence], distance_model, depth_model, tokenizer, model
):
    sum_uuas = 0
    root_correct = 0
    with torch.no_grad():
        for sent in sentences:
            parsed = parse_sentence(sent, distance_model, depth_model, tokenizer, model)
            root_correct += int(parsed.root == sent.root)
            sum_uuas += uuas_score(sent, parsed)

    root_placement = root_correct / len(sentences)
    uuas = sum_uuas / len(sentences)

    print(f"UUAS: {uuas * 100:.3}%")
    print(f"Root placement: {root_placement * 100:.3}%")
    print(f"Your score: {points(root_placement, uuas):.1}/2.0")

In [None]:
if not FINAL_EVALUATION_MODE:
    distance_model_loaded = DistanceModel()
    distance_model_loaded.load_state_dict(torch.load(DISTANCE_MODEL_PATH))

    depth_model_loaded = DepthModel()
    depth_model_loaded.load_state_dict(torch.load(DEPTH_MODEL_PATH))

    evaluate_model(
        val_sentences, distance_model_loaded, depth_model_loaded, tokenizer, model
    )