# Analiza zależnościowa

![image.png](attachment:image.png)

## Wstęp

Język, którym posługujemy się na co dzień, funkcjonuje na zasadzie kompozycyjności. Oznacza to, że znaczenie złożonych wyrażeń językowych można wywnioskować z ich części składowych i z relacji między nimi. Ta właściwość pozwala użytkownikom języka na daleko idącą kreatywność w sposobie konstruowania wypowiedzi, przy zachowaniu precyzji komunikacji. Sposób w jaki słowa w zdaniu są ze sobą związane, tworzy strukturę ukorzenionego drzewa. Problemem, który rozważamy w tym zadaniu, jest automatyczna konstrukcja takich drzew dla zdań w języku polskim. Problem nosi nazwę analizy składniowej zdań, a konkretnie dokonywać będziemy analizy zależnościowej.

Analiza składniowa jest w ogólności trudna. Na przykład, mimo że zdania `(1) Maria do jutra jest zajęta.` oraz `(2) Droga do domu jest zajęta.` zawierają kolejno te same części mowy, w dodatku o dokładnie tej samej formie gramatycznej, to w zdaniu (1) fraza "do jutra" modyfikuje czasownik "jest zajęta", natomiast w zdaniu (2) fraza "do domu" jest podrzędnikiem rzeczownika "droga". W dodatku, czasami nawet natywni użytkownicy języka mogą zinterpretować strukturę zdania na dwa różne sposoby: zdanie `Zauważyłem dziś samochód Adama, którego dawno nie widziałem.` może być interpretowane na dwa sposoby w zależności od tego, do czego odnosi się "którego": czy do "samochodu Adama", czy może do "Adama".

Istnieje wiele różnych algorytmów rozwiązujących problem analizy zależnościowej. Klasyczne metody przetwarzają zdanie słowo po słowie, od lewej do prawej i wstawiają krawędzie w oparciu albo o pewien ustalony zbiór reguł lub o algorytm uczenia maszynowego. W tym zadaniu użyjemy innej metody. Twoim zadaniem będzie przewidzenie drzewa zależnościowego w oparciu o wektory słów otrzymane modelem HerBERT.

HerBERT to polska wersja BERT, który jest modelem językowym i działa następująco:
1. BERT posiada moduł nazywany tokenizatorem (ang. tokenizer), który dzieli zdanie na pewne podsłowa. Na przykład zdanie `Dostaję klucz i biegnę do swojego pokoju.` dzieli na `'Dosta', 'ję', 'klucz', 'i', 'bieg', 'nę', 'do', 'swojego', 'pokoju', '.'`. Tokenizator jest wyposażony w słownik, który podsłowom przypisuje unikalne liczby: w praktyce zatem otrzymujemy mało zrozumiałe dla człowieka `18577, 2779, 22816, 1009, 4775, 2788, 2041, 5058, 7217, 1899`.
1. Następnie BERT posiada słownik, który zamienia te liczby na wektory o długości 768. Otrzymujemy zatem macierz o rozmiarach `10 x 768`.
1. BERT posiada 12 warstw, z których każda bierze wynik poprzedniej i wykonuje na niej pewną transformację. Szczegóły nie są istotne w tym zadaniu! Ważne jest natomiast to, że cały model jest uczony automatycznie, przy użyciu dużych korpusów tekstu. Zinterpretowanie działania każdej warstwy jest niemożliwe! Natomiast być może w skomplikowanym algorytmie, którego nauczył się BERT różne warstwy pełnią różne role.

## Zadanie

Twoim zadaniem będzie automatyczna analiza składniowa zdań w języku polskim. Pominiemy dokładne objaśnienie sposobu konstruowania takich drzew, możesz samemu popatrzeć na przykłady! Dostaniesz zbiór danych treningowych zawierający 1000 przykładów rozkładów zdań. W pliku `train.conll` znajdują się poetykietowane zdania, na przykład:

| # | Word      | - | - | - | - | Head | - | - | - |
|---|-----------|---|---|---|---|--------|---|---|---|
| 1 | Wyobraź   | _ | _ | _ | _ | 0      | _ | _ | _ |
| 2 | sobie     | _ | _ | _ | _ | 1      | _ | _ | _ |
| 3 | człowieka | _ | _ | _ | _ | 1      | _ | _ | _ |
| 4 | znajdującego | _ | _ | _ | _ | 3    | _ | _ | _ |
| 5 | się       | _ | _ | _ | _ | 4      | _ | _ | _ |
| 6 | na        | _ | _ | _ | _ | 4      | _ | _ | _ |
| 7 | ogromnej  | _ | _ | _ | _ | 8      | _ | _ | _ |
| 8 | górze     | _ | _ | _ | _ | 6      | _ | _ | _ |
| 9 | .         | _ | _ | _ | _ | 1      | _ | _ | _ |

Co jest sposobem na zakodowanie następującego drzewa składniowego zdania złożonego:
```
      Wyobraź                          
   ______|_____________                 
  |      |         człowieka           
  |      |             |                
  |      |        znajdującego         
  |      |      _______|__________      
  |      |     |                  na   
  |      |     |                  |     
  |      |     |                górze  
  |      |     |                  |     
sobie    .    się              ogromnej
```
Dostarczamy Ci funkcję w Pythonie służącą do wczytania przykładów z tego pliku i na ich wizualizację. Twoje rozwiązanie powinno:
1. Dzielić zdanie na podsłowa.
1. Dla każdego podsłowa przypisywać wektor. Należy użyć tutaj finalnych lub pośrednich wektorów wyliczonych przez model HerBERT.
1. Agregować wektory podsłów tak aby otrzymać wektory słów.
1. Zaimplementować i wyuczyć prosty model przewidujący odległości w drzewie i głębokości w drzewie poszczególnych słów w zdaniu.
1. Użyć modeli odległości i głębokości do skonstruowania drzewa składniowego.


## Ograniczenia
- Twoje finalne rozwiązanie będzie testowane w środowisku **bez** GPU.
- Ewaluacja twojego rozwiązania (bez treningu) na 200 przykładach testowych powinna trwać nie dłużej niż 5 minut na Google Colab bez GPU.
- Do dyspozycji masz model typu BERT: `allegro/herbert-base-cased` oraz tokenizer `allegro/herbert-base-cased`. Nie wolno korzystać z innych uprzednio wytrenowanych modeli oraz ze zbiorów danych innych niż dostarczony.
- Lista dopuszczalnych bibliotek: `transformers`, `nltk`, `torch`.

## Uwagi i wskazówki
- Liczne wskazówki znajdują się we wzorcach funkcji, które powinieneś zaimplementować.

## Pliki zgłoszeniowe
Rozwiązanie zadania stanowi plik archiwum zip zawierające:
1. Ten notebook
2. Plik z wagami modelu odległości: `distance_model.pth`
3. Plik z wagami modelu głębokości: `depth_model.pth`

Uruchomienie całego notebooka z flagą `FINAL_EVALUATION_MODE` ustawioną na `False` powinno w maksymalnie 10 minut skutkować utworzeniem obu plików z wagami.

## Ewaluacja
Podczas sprawdzania flaga `FINAL_EVALUATION_MODE` zostanie ustawiona na `True`, a następnie zostanie uruchomiony cały notebook.
Zaimplementowana przez Ciebie funkcja `parse_sentence`, której wzorzec znajdziesz na końcu tego notatnika, zostanie oceniona na 200 przykładach testowych.
Ewaluacja będzie podobna do tej zaimplementowanej w funkcji `evaluate_model`.
Pamiętaj jednak, że ostateczna funkcja do ewaluacji sprawdzała będzie dodatkowo, czy zwracane przez twoją funkcję `parse_sentence` drzewa są poprawne!

Ewaluacja nie może zajmować więcej niż 3 minuty. Możesz uruchomić walidację swojego rozwiązania na dostarczonym zbiorze danych walidacyjnych na Google Colab, aby przekonać się czy nie przekraczasz czasu.
Za pomocą skryptu `validation_script.py` będziesz mógł upewnić się, że Twoje rozwiązanie zostanie prawidłowo wykonane na naszych serwerach oceniających:

```
python3 validation_script.py --train
python3 validation_script.py
```

Podczas sprawdzania zadania, użyjemy dwóch metryk: UUAS oraz root placement.
1. Root placemenet oznacza ułamek przykładów na których poprawnie wskażesz korzeń drzewa składniowego,
2. UUAS dla konkretnego zdania to ułamek poprawnie umieszczonych krawędzi. UUAS dla zbioru to średnia wyników dla poszczególnych zdań.


Za to zadanie możesz zdobyć pomiędzy pomiędzy 0 i 2 punkty. Twój wynik za to zadanie zostanie wyliczony za pomocą funkcji:
```Python
def points(root_placement, uuas):
    def scale(x, lower=0.5, upper=0.85):
        scaled = min(max(x, lower), upper)
        return (scaled - lower) / (upper - lower)
    return (scale(root_placement) + scale(uuas))
```
Innymi słowy, twój wynik jest sumą wyników za root placement i UUAS. Wynik za daną metrykę jest 0 jeśli wartość danej metryki jest poniżej 0.5 i 1 jeśli jest powyżej 0.85. Pomiędzy tymi wartościami, wynik rośnie liniowo z wartością metryki.

# Kod startowy

In [1]:
FINAL_EVALUATION_MODE = False  # W czasie sprawdzania twojego rozwiązania, zmienimy tą wartość na True
DEPTH_MODEL_PATH = 'depth_model.pth'  # Nie zmieniaj!
DISTANCE_MODEL_PATH = 'distance_model.pth'  # Nie zmieniaj!

In [2]:
from typing import List

import numpy as np
import torch
from torch.optim import Adam
from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import (AutoModel, AutoTokenizer, PreTrainedModel,
                          PreTrainedTokenizer)
from utils import (ListDataset, ParsedSentence, Sentence, merge_subword_tokens,
                   read_conll, uuas_score)

In [3]:
!pip install sacremoses

Collecting sacremoses
  Downloading sacremoses-0.1.1-py3-none-any.whl (897 kB)
[?25l     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/897.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K     [91m━━━━━[0m[90m╺[0m[90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m112.6/897.5 kB[0m [31m3.3 MB/s[0m eta [36m0:00:01[0m[2K     [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[91m╸[0m [32m890.9/897.5 kB[0m [31m13.8 MB/s[0m eta [36m0:00:01[0m[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m897.5/897.5 kB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: sacremoses
Successfully installed sacremoses-0.1.1


In [4]:
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
model = AutoModel.from_pretrained("allegro/herbert-base-cased")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/472 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/907k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/556k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/129 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/654M [00:00<?, ?B/s]

Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.sso.sso_relationship.bias', 'cls.sso.sso_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [5]:
train_sentences = read_conll('train.conll')  # 1000 zdań
val_sentences = read_conll('valid.conll')  # 200 zdań

print(train_sentences[2])
train_sentences[2].pretty_print()  # wyświetl drzewo jednego zdania
print(train_sentences[6])

Przedstawione powyżej podejścia , koncepcje i metody dają duży wybór w określeniu docelowego modelu alokacji .
                   dają                                                   
  __________________|___________________________                           
 |          |                                 wybór                       
 |          |                            _______|__________                
 |          i                           |                  w              
 |    ______|__________________         |                  |               
 |   |      |       |      podejścia    |              określeniu         
 |   |      |       |          |        |                  |               
 |   |      |       |    Przedstawione  |                modelu           
 |   |      |       |          |        |        __________|_________      
 .   ,  koncepcje metody    powyżej    duży docelowego            alokacji

Wyobraź sobie człowieka znajdującego się na ogromnej górze

# Twoje rozwiązanie

In [6]:
def create_graph(node_to_children):
    node_to_children = node_to_children.copy()

    graph = {}

    for i in range(len(node_to_children)):
        graph[i] = node_to_children[i][:]

    for node in graph:
        for child in graph[node]:
            if(node not in graph[child]):
                graph[child].append(node)

    return graph


def dfs(graph, node, parent, distances, depth):
    distances[node] = depth
    for child in graph[node]:
        if(child != parent):
            dfs(graph, child, node, distances, depth + 1)


In [7]:
def get_distances(sentence: ParsedSentence):
    graph = create_graph(sentence.node_to_children)
    n = len(graph)
    matrix = np.zeros((n,n))

    for node in graph:
        distances = {}
        dfs(graph, node, -1, distances, 0)
        for i in range(n):
            matrix[node][i] = distances.get(i, -1)
            matrix[i][node] = distances.get(i, -1)

    return matrix


In [8]:
def get_bert_embeddings(
    sentences_s: List[str],
    tokenizer: PreTrainedTokenizer,
    model: PreTrainedModel,
    progress_bar: bool = False,
):
    tokens = []
    embeddings = []

    batch_size = 8

    batched_sentences = [sentences_s[i:i+batch_size] for i in range(0, len(sentences_s), batch_size)]

    for batch_sentences in batched_sentences:
        encoded = tokenizer.batch_encode_plus(batch_sentences, padding=True, return_tensors="pt")

        with torch.no_grad():
            outputs = model(**encoded, output_hidden_states=True)

        sequence_lengths = encoded["attention_mask"].sum(dim=1)
        trimmed_encoding = [token[1:length-1] for token, length in zip(encoded["input_ids"], sequence_lengths)]
        trimmed_outputs = [output[1:length-1] for output, length in zip(outputs.last_hidden_state, sequence_lengths)]

        embeddings = embeddings + trimmed_outputs
        tokens = tokens + trimmed_encoding

    return tokens, embeddings


In [9]:
def agg_fn(embeddings_list):
    word_embedding = np.sum(np.array(embeddings_list), axis=0)/len(embeddings_list)
    #mozesz sprobowac ze średnią
    return torch.tensor(word_embedding)

def get_word_embeddings(sentences: List[Sentence], tokenizer, model):
    """Funkcja zwraca embeddingi słów dla listy zdań, używając modelu i tokenizatora."""

    word_tokens = [sentence.words for sentence in sentences]
    subword_tokens, subword_embeddings = get_bert_embeddings([repr(sentence) for sentence in sentences], tokenizer, model)

    embeddings = []

    for i in range(len(sentences)):
        embedding = merge_subword_tokens(
            word_tokens[i],
            subword_tokens[i],
            subword_embeddings[i],
            tokenizer,
            agg_fn
        )

        embeddings.append(embedding)

    return embeddings

In [10]:
def get_datasets(sentences: List[ParsedSentence], tokenizer, model):
    embeddings = get_word_embeddings(sentences, tokenizer, model) # .flatten() - by móc całe batche wrzucać w model
    distances = [get_distances(sent) for sent in sentences]
    depths = [dist[sent.root][..., None] for dist, sent in zip(distances, sentences)]
    dataset_dist = ListDataset(list(zip(embeddings, distances, sentences)))
    dataset_depth = ListDataset(list(zip(embeddings, depths, sentences)))
    return dataset_dist, dataset_depth


if not FINAL_EVALUATION_MODE:
    trainset_dist, trainset_depth =  get_datasets(train_sentences, tokenizer, model)
    valset_dist, valset_depth = get_datasets(val_sentences, tokenizer, model)

In [None]:
max(len(depth[1]) for depth in trainset_depth)

39

In [11]:
def pad_arrays(sequence, pad_with=0):
    shapes = np.array([list(seq.shape) for seq in sequence])
    max_lens = list(shapes.max(axis=0))
    max_lens[0] = 40
    padded = [np.pad(
                seq,
                tuple((0, max_lens[i] - seq.shape[i]) for i in range(seq.ndim)),
                'constant',
                constant_values=pad_with
            ) for seq in sequence]
    return torch.tensor(np.array(padded))

def my_pad_arrays(sequence, pad_with=0):
    padded = np.concatenate((np.array(sequence), np.full((40 - len(sequence),len(sequence[0])), pad_with)),axis=0)
    return torch.tensor(np.array(padded)).float()


def collate_fn(batch):
    embeddings, targets, sentences = zip(*batch)
    padded_embeddings = pad_arrays(embeddings, pad_with=0)
    padded_targets = pad_arrays(targets, pad_with=0)
    mask = padded_targets != 0
    return padded_embeddings, padded_targets, mask, sentences


if not FINAL_EVALUATION_MODE:
    dist_trainloader = DataLoader(trainset_dist, batch_size=32, shuffle=True, collate_fn=collate_fn)
    dist_valloader = DataLoader(valset_dist, batch_size=32, shuffle=False, collate_fn=collate_fn)

    depth_trainloader = DataLoader(trainset_depth, batch_size=32, shuffle=True, collate_fn=collate_fn)
    depth_valloader = DataLoader(valset_depth, batch_size=32, shuffle=False, collate_fn=collate_fn)

# dist_trainloader i dist_valloader zwracają krotki (embeddings, distances, masks, sentences)
# depths_trainloader i depths_valloader zwracają krotki (embeddings, depths, masks, sentences)
# embeddings.shape: (batch_size, max_seq_len, emb_dim)
# distances.shape: (batch_size, max_seq_len, max_seq_len)
# depths.shape: (batch_size, max_seq_len, 1)

In [36]:
# class DistanceModel(torch.nn.Module):
#     def __init__(self):
#         # TODO: implement me
#         ...

#     def forward(self, x):
#         # TODO: implement me
#         ...


class DepthModel(torch.nn.Module):
    def __init__(self):
        super(DepthModel, self).__init__()

        self.rnn = torch.nn.GRU(input_size=768, hidden_size=256, num_layers=6, batch_first=True)

        self.fully_connected = torch.nn.Linear(256, 64)

        self.output_layer = torch.nn.Linear(64,40)

        self.relu = torch.nn.Sigmoid()

    def forward(self, x, mask_len):
        if self.training:
            h0 = torch.zeros(6,32,256)

            output, _ = self.rnn(x, h0)
            output = self.relu(output[:,-1,:]) #mask_len
            output = self.relu(self.fully_connected(output))
            output = self.relu(self.output_layer(output))

        else:
            h0 = torch.zeros(6,256)

            output, _ = self.rnn(x, h0)
            output = self.relu(output[mask_len,:])
            output = self.relu(self.fully_connected(output))
            output = self.relu(self.output_layer(output))

        return output

In [13]:
def only_root_target(target: torch.tensor):
    new_target = torch.zeros(target.size())
    roots = torch.argmax((target == 0).int(), dim=1)
    for i in range(len(new_target)):
        new_target[i, roots[i]] = 1

    return new_target, roots

In [48]:
import torch.nn.functional as F
import math

def loss_fn(output, target, mask, loss_func):
    target = target.squeeze().float()
    mask = mask.squeeze()

    new_target, roots = only_root_target(target)

    # print(mask.size())
    # print(output.size())

    for i in range(len(roots)):
        mask[i,roots[i]] = True
    output = output * mask

    # print(output.size())

    guesses = torch.argmax(output, dim=1)

    # print("///")
    # print("NEW TARGET: " + str(new_target[0]))
    # print("OLD TARGET: " + str(target[0]))
    # print("ROOTS: " + str(roots[0]))
    # print("GUESSESL    " + str(guesses[0]))
    # print("OUTPUTS     " + str(output[0]))

    # print(guesses)
    # print(roots.size())

    evaluation = [int(guesses[i] == roots[i]) for i in range(32)]

    loss = loss_func(output, new_target.float()) # new_target.float()

    loss.backward()

    return sum(evaluation)/len(evaluation)
    return loss.item()

def train_model(model, dataloader, valloader, epochs, lr):
    num_epochs = epochs
    learning_rate = lr

    criterion = torch.nn.BCELoss()
    optimizer = Adam(model.parameters(), lr=learning_rate)

    loss_wyn = []

    for epoch in range(num_epochs):
        for (embeddings, target, masks, sentences) in dataloader:
            if embeddings.size()[0] == 32:
                sizes = max([len(sentences[i]) for i in range(32)])
                output = model(embeddings,sizes) # .flatten()
                optimizer.zero_grad()
                loss_wyn.append(loss_fn(output, target, masks, criterion))
                optimizer.step()

        print(f'Epoch [{epoch+1}/{num_epochs}] [{sum(loss_wyn)/len(loss_wyn)}]== FINISHED')
        loss_wyn = []

if not FINAL_EVALUATION_MODE:
    print("Training depth model")

    # Inicjalizacja modelu
    depth_model = DepthModel()
    # TODO: ustaw hiperparametry
    train_model(depth_model, depth_trainloader, depth_valloader, lr=0.01, epochs=4)
    # zapisz wagi modelu do pliku
    torch.save(depth_model.state_dict(), DEPTH_MODEL_PATH)


    #
    # TYMCZASOWO ZAKOMENTOWANE
    #


    # print("Training distance model")
    # distance_model = DistanceModel()
    # # TODO: ustaw hiperparametry
    # train_model(distance_model, dist_trainloader, dist_valloader, lr=..., epochs=...)
    # # zapisz wagi modelu do pliku
    # torch.save(distance_model.state_dict(), DISTANCE_MODEL_PATH)

Training depth model
Epoch [1/4] [0.14717741935483872]== FINISHED
Epoch [2/4] [0.1875]== FINISHED
Epoch [3/4] [0.17842741935483872]== FINISHED
Epoch [4/4] [0.16532258064516128]== FINISHED


In [47]:
we = get_word_embeddings([Sentence(["ania", "szybko", "je", "banana"])],tokenizer, model)[0]
pad_we = my_pad_arrays((we),pad_with = 0).float()

depth_model.eval()
depth_model(pad_we, 39)

tensor([0.0822, 0.1493, 0.1227, 0.1676, 0.0610, 0.0390, 0.0322, 0.0305, 0.0226,
        0.0333, 0.0293, 0.0415, 0.0277, 0.0460, 0.0534, 0.0379, 0.0321, 0.0631,
        0.0792, 0.0979, 0.0390, 0.2012, 0.0634, 0.0716, 0.0312, 0.0182, 0.1114,
        0.0712, 0.0878, 0.2424, 0.3642, 0.3928, 0.5259, 0.4360, 0.5536, 0.3490,
        0.4736, 0.4444, 0.4744, 0.7124], grad_fn=<SigmoidBackward0>)

In [None]:
def parse_sentence(sent: Sentence, distance_model, depth_model, tokenizer, model) -> ParsedSentence:
    """Zbuduj drzewo składniowe dla pojedynczego zdania.

    Argumenty:
        sent: Zdanie do sparsowania.
        distance_model: Wytrenowany model odległości
        depth_model: Wytrenowany model głębokości
        tokenizer: Tokenizator HERBERT
        model: Model HERBERT

    Zwraca:
        ParsedSentence: Zdanie z przewidzianym drzewem składniowym.

    """

    # Twoje rozwiązanie powinno:
    # 1. Uzyskać embeddingi słów dla zdania.
    # 2. Wybrać korzeń drzewa składniowego heurystycznie, używając depth_model.
    # 3. Obliczyć odległości między każdą parą węzłów, używając distance_model.
    # 4. Zaimplementować wymyśloną przez Ciebie heurystyczną metodę wyboru krawędzi
    #    drzewa na podstawie przewidywanych odległości.
    # 5. Uzyskać obiekt ParsedSentence. Możesz użyć funkcji ParsedSentence.from_edges_and_root
    # 6. Zwróć obiekt ParsedSentence.

    # Wskazówki:
    #  Możesz użyć sent.pretty_print() do wizualizacji sparsowanego zdania.

    # Uwaga:
    # Ta funkcja zostanie użyta do oceny twojego rozwiązania. Ta funkcja powinna zwrócić rzeczywiste drzewo,
    # z len(sent) - 1 krawędziami. Jeśli twoje przewidywanie nie będzie drzewem, będzie ono nieprawidłowe i
    # nie zdobędziesz za nie punktów. Jeśli chcesz zdobyć tylko część punktów, konkurując tylko w metryce
    # root placement, nadal powinieneś zwrócić poprawne drzewo.

    # TODO: implement me
    ...

if not FINAL_EVALUATION_MODE:
    sent = train_sentences[30]
    parse_sentence(sent, distance_model, depth_model, tokenizer, model).pretty_print()  # Przewidziane drzewo
    sent.pretty_print()  # Złote drzewo (ze zbioru danych)
    print(sent)

# Ewaluacja
Kod bardzo podobny do poniższego będzie służył do ewaluacji rozwiązania na zdaniach testowych. Wywołując poniższe komórki możesz dowiedzieć się ile punktów zdobyłoby twoje rozwiązanie, gdybyśmy ocenili je na danych walidacyjnych. Przed wysłaniem rozwiązania upewnij się, że cały notebook wykonuje się od początku do końca bez błędów i bez ingerencji użytkownika po wykonaniu polecenia `Run All`.

In [None]:
def points(root_placement, uuas):
    def scale(x, lower=0.5, upper=0.85):
        scaled = min(max(x, lower), upper)
        return (scaled - lower) / (upper - lower)
    return (scale(root_placement) + scale(uuas))

def evaluate_model(sentences: List[ParsedSentence], distance_model, depth_model, tokenizer, model):
    sum_uuas = 0
    root_correct = 0
    with torch.no_grad():
        for sent in sentences:
            parsed = parse_sentence(sent, distance_model, depth_model, tokenizer, model)
            root_correct += int(parsed.root == sent.root)
            sum_uuas += uuas_score(sent, parsed)

    root_placement = root_correct / len(sentences)
    uuas = sum_uuas / len(sentences)

    print(f"UUAS: {uuas * 100:.3}%")
    print(f"Root placement: {root_placement * 100:.3}%")
    print(f"Your score: {points(root_placement, uuas):.1}/2.0")

In [None]:
if not FINAL_EVALUATION_MODE:
    distance_model_loaded = DistanceModel()
    distance_model_loaded.load_state_dict(torch.load(DISTANCE_MODEL_PATH))

    depth_model_loaded = DepthModel()
    depth_model_loaded.load_state_dict(torch.load(DEPTH_MODEL_PATH))

    evaluate_model(val_sentences, distance_model_loaded, depth_model_loaded, tokenizer, model)