# Analiza zależnościowa

![image.png](attachment:image.png)

## Wstęp

Język, którym posługujemy się na co dzień, funkcjonuje na zasadzie kompozycyjności. Oznacza to, że znaczenie złożonych wyrażeń językowych można wywnioskować z ich części składowych i z relacji między nimi. Ta właściwość pozwala użytkownikom języka na daleko idącą kreatywność w sposobie konstruowania wypowiedzi, przy zachowaniu precyzji komunikacji. Sposób w jaki słowa w zdaniu są ze sobą związane, tworzy strukturę ukorzenionego drzewa. Problemem, który rozważamy w tym zadaniu, jest automatyczna konstrukcja takich drzew dla zdań w języku polskim. Problem nosi nazwę analizy składniowej zdań, a konkretnie dokonywać będziemy analizy zależnościowej.

Analiza składniowa jest w ogólności trudna. Na przykład, mimo że zdania `(1) Maria do jutra jest zajęta.` oraz `(2) Droga do domu jest zajęta.` zawierają kolejno te same części mowy, w dodatku o dokładnie tej samej formie gramatycznej, to w zdaniu (1) fraza "do jutra" modyfikuje czasownik "jest zajęta", natomiast w zdaniu (2) fraza "do domu" jest podrzędnikiem rzeczownika "droga". W dodatku, czasami nawet natywni użytkownicy języka mogą zinterpretować strukturę zdania na dwa różne sposoby: zdanie `Zauważyłem dziś samochód Adama, którego dawno nie widziałem.` może być interpretowane na dwa sposoby w zależności od tego, do czego odnosi się "którego": czy do "samochodu Adama", czy może do "Adama".

Istnieje wiele różnych algorytmów rozwiązujących problem analizy zależnościowej. Klasyczne metody przetwarzają zdanie słowo po słowie, od lewej do prawej i wstawiają krawędzie w oparciu albo o pewien ustalony zbiór reguł lub o algorytm uczenia maszynowego. W tym zadaniu użyjemy innej metody. Twoim zadaniem będzie przewidzenie drzewa zależnościowego w oparciu o wektory słów otrzymane modelem HerBERT.

HerBERT to polska wersja BERT, który jest modelem językowym i działa następująco:
1. BERT posiada moduł nazywany tokenizatorem (ang. tokenizer), który dzieli zdanie na pewne podsłowa. Na przykład zdanie `Dostaję klucz i biegnę do swojego pokoju.` dzieli na `'Dosta', 'ję', 'klucz', 'i', 'bieg', 'nę', 'do', 'swojego', 'pokoju', '.'`. Tokenizator jest wyposażony w słownik, który podsłowom przypisuje unikalne liczby: w praktyce zatem otrzymujemy mało zrozumiałe dla człowieka `18577, 2779, 22816, 1009, 4775, 2788, 2041, 5058, 7217, 1899`.
1. Następnie BERT posiada słownik, który zamienia te liczby na wektory o długości 768. Otrzymujemy zatem macierz o rozmiarach `10 x 768`.
1. BERT posiada 12 warstw, z których każda bierze wynik poprzedniej i wykonuje na niej pewną transformację. Szczegóły nie są istotne w tym zadaniu! Ważne jest natomiast to, że cały model jest uczony automatycznie, przy użyciu dużych korpusów tekstu. Zinterpretowanie działania każdej warstwy jest niemożliwe! Natomiast być może w skomplikowanym algorytmie, którego nauczył się BERT różne warstwy pełnią różne role.

## Zadanie

Twoim zadaniem będzie automatyczna analiza składniowa zdań w języku polskim. Pominiemy dokładne objaśnienie sposobu konstruowania takich drzew, możesz samemu popatrzeć na przykłady! Dostaniesz zbiór danych treningowych zawierający 1000 przykładów rozkładów zdań. W pliku `train.conll` znajdują się poetykietowane zdania, na przykład:

| # | Word         | - | - | - | - | Head | - | - | - |
|---|--------------|---|---|---|---|--------|---|---|---|
| 1 | Wyobraź      | _ | _ | _ | _ | 0      | _ | _ | _ |
| 2 | sobie        | _ | _ | _ | _ | 1      | _ | _ | _ |
| 3 | człowieka    | _ | _ | _ | _ | 1      | _ | _ | _ |
| 4 | znajdującego | _ | _ | _ | _ | 3      | _ | _ | _ |
| 5 | się          | _ | _ | _ | _ | 4      | _ | _ | _ |
| 6 | na           | _ | _ | _ | _ | 4      | _ | _ | _ |
| 7 | ogromnej     | _ | _ | _ | _ | 8      | _ | _ | _ |
| 8 | górze        | _ | _ | _ | _ | 6      | _ | _ | _ |
| 9 | .            | _ | _ | _ | _ | 1      | _ | _ | _ |

Co jest sposobem na zakodowanie następującego drzewa składniowego zdania złożonego:
```
      Wyobraź                          
   ______|_____________                 
  |      |         człowieka           
  |      |             |                
  |      |        znajdującego         
  |      |      _______|__________      
  |      |     |                  na   
  |      |     |                  |     
  |      |     |                górze  
  |      |     |                  |     
sobie    .    się              ogromnej
```
Dostarczamy Ci funkcję w Pythonie służącą do wczytania przykładów z tego pliku i na ich wizualizację. Twoje rozwiązanie powinno:
1. Dzielić zdanie na podsłowa.
1. Dla każdego podsłowa przypisywać wektor. Należy użyć tutaj finalnych lub pośrednich wektorów wyliczonych przez model HerBERT.
1. Agregować wektory podsłów tak aby otrzymać wektory słów.
1. Zaimplementować i wyuczyć prosty model przewidujący odległości w drzewie i głębokości w drzewie poszczególnych słów w zdaniu.
1. Użyć modeli odległości i głębokości do skonstruowania drzewa składniowego.


## Ograniczenia
- Twoje finalne rozwiązanie będzie testowane w środowisku **bez** GPU.
- Ewaluacja twojego rozwiązania (bez treningu) na 200 przykładach testowych powinna trwać nie dłużej niż 5 minut na Google Colab bez GPU.
- Do dyspozycji masz model typu BERT: `allegro/herbert-base-cased` oraz tokenizer `allegro/herbert-base-cased`. Nie wolno korzystać z innych uprzednio wytrenowanych modeli oraz ze zbiorów danych innych niż dostarczony.
- Lista dopuszczalnych bibliotek: `transformers`, `nltk`, `torch`.

## Uwagi i wskazówki
- Liczne wskazówki znajdują się we wzorcach funkcji, które powinieneś zaimplementować.

## Pliki zgłoszeniowe
Rozwiązanie zadania stanowi plik archiwum zip zawierające:
1. Ten notebook
2. Plik z wagami modelu odległości: `distance_model.pth`
3. Plik z wagami modelu głębokości: `depth_model.pth`

Uruchomienie całego notebooka z flagą `FINAL_EVALUATION_MODE` ustawioną na `False` powinno w maksymalnie 10 minut skutkować utworzeniem obu plików z wagami.

## Ewaluacja
Podczas sprawdzania flaga `FINAL_EVALUATION_MODE` zostanie ustawiona na `True`, a następnie zostanie uruchomiony cały notebook.
Zaimplementowana przez Ciebie funkcja `parse_sentence`, której wzorzec znajdziesz na końcu tego notatnika, zostanie oceniona na 200 przykładach testowych.
Ewaluacja będzie podobna do tej zaimplementowanej w funkcji `evaluate_model`.
Pamiętaj jednak, że ostateczna funkcja do ewaluacji sprawdzała będzie dodatkowo, czy zwracane przez twoją funkcję `parse_sentence` drzewa są poprawne!

Ewaluacja nie może zajmować więcej niż 3 minuty. Możesz uruchomić walidację swojego rozwiązania na dostarczonym zbiorze danych walidacyjnych na Google Colab, aby przekonać się czy nie przekraczasz czasu.
Za pomocą skryptu `validation_script.py` będziesz mógł upewnić się, że Twoje rozwiązanie zostanie prawidłowo wykonane na naszych serwerach oceniających:

```
python3 validation_script.py --train
python3 validation_script.py
```

Podczas sprawdzania zadania, użyjemy dwóch metryk: UUAS oraz root placement.
1. Root placemenet oznacza ułamek przykładów na których poprawnie wskażesz korzeń drzewa składniowego,
2. UUAS dla konkretnego zdania to ułamek poprawnie umieszczonych krawędzi. UUAS dla zbioru to średnia wyników dla poszczególnych zdań.


Za to zadanie możesz zdobyć pomiędzy pomiędzy 0 i 2 punkty. Twój wynik za to zadanie zostanie wyliczony za pomocą funkcji:
```Python
def points(root_placement, uuas):
    def scale(x, lower=0.5, upper=0.85):
        scaled = min(max(x, lower), upper)
        return (scaled - lower) / (upper - lower)
    return (scale(root_placement) + scale(uuas))
```
Innymi słowy, twój wynik jest sumą wyników za root placement i UUAS. Wynik za daną metrykę jest 0 jeśli wartość danej metryki jest poniżej 0.5 i 1 jeśli jest powyżej 0.85. Pomiędzy tymi wartościami, wynik rośnie liniowo z wartością metryki.

# Kod startowy

In [1]:
FINAL_EVALUATION_MODE = False  # W czasie sprawdzania twojego rozwiązania, zmienimy tą wartość na True
DEPTH_MODEL_PATH = 'depth_model.pth'  # Nie zmieniaj!
DISTANCE_MODEL_PATH = 'distance_model.pth'  # Nie zmieniaj!

In [2]:
from typing import List

import numpy as np
import torch
from torch.optim import Adam
from torch.utils.data import DataLoader
from tqdm import tqdm
from transformers import (AutoModel, AutoTokenizer, PreTrainedModel,
                          PreTrainedTokenizer)
from utils import (ListDataset, ParsedSentence, Sentence, merge_subword_tokens,
                   read_conll, uuas_score)

In [3]:
!pip install sacremoses



In [4]:
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-base-cased")
model = AutoModel.from_pretrained("allegro/herbert-base-cased")

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.
Some weights of the model checkpoint at allegro/herbert-base-cased were not used when initializing BertModel: ['cls.predictions.bias', 'cls.predictions.decoder.bias', 'cls.predictions.decoder.weight', 'cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.predictions.transform.dense.bias', 'cls.predictions.transform.dense.weight', 'cls.sso.sso_relationship.bias', 'cls.sso.sso_relationship.weight']
- This IS expected if you are initializing BertModel from the checkpoint of a model trained on another task or with another architecture (e.g. init

In [5]:
train_sentences = read_conll('train.conll')  # 1000 zdań
val_sentences = read_conll('valid.conll')  # 200 zdań

print(train_sentences[2])
train_sentences[2].pretty_print()  # wyświetl drzewo jednego zdania
print(train_sentences[6])

Przedstawione powyżej podejścia , koncepcje i metody dają duży wybór w określeniu docelowego modelu alokacji .
                   dają                                                   
  __________________|___________________________                           
 |          |                                 wybór                       
 |          |                            _______|__________                
 |          i                           |                  w              
 |    ______|__________________         |                  |               
 |   |      |       |      podejścia    |              określeniu         
 |   |      |       |          |        |                  |               
 |   |      |       |    Przedstawione  |                modelu           
 |   |      |       |          |        |        __________|_________      
 .   ,  koncepcje metody    powyżej    duży docelowego            alokacji

Wyobraź sobie człowieka znajdującego się na ogromnej górze

# Twoje rozwiązanie

In [6]:
def create_graph(node_to_children):
    node_to_children = node_to_children.copy()

    graph = {}

    for i in range(len(node_to_children)):
        graph[i] = node_to_children[i][:]

    for node in graph:
        for child in graph[node]:
            if(node not in graph[child]):
                graph[child].append(node)

    return graph


def dfs(graph, node, parent, distances, depth):
    distances[node] = depth
    for child in graph[node]:
        if(child != parent):
            dfs(graph, child, node, distances, depth + 1)

In [7]:
def get_distances(sentence: ParsedSentence):
    graph = create_graph(sentence.node_to_children)
    n = len(graph)
    matrix = np.zeros((n,n))

    for node in graph:
        distances = {}
        dfs(graph, node, -1, distances, 0)
        for i in range(n):
            matrix[node][i] = distances.get(i, -1)
            matrix[i][node] = distances.get(i, -1)

    return matrix

In [8]:
def get_bert_embeddings(
    sentences_s: List[str],
    tokenizer: PreTrainedTokenizer,
    model: PreTrainedModel,
    progress_bar: bool = False,
):
    tokens = []
    embeddings = []

    batch_size = 8

    batched_sentences = [sentences_s[i:i+batch_size] for i in range(0, len(sentences_s), batch_size)]

    for batch_sentences in batched_sentences:
        encoded = tokenizer.batch_encode_plus(batch_sentences, padding=True, return_tensors="pt")

        with torch.no_grad():
            outputs = model(**encoded, output_hidden_states=True)

        sequence_lengths = encoded["attention_mask"].sum(dim=1)
        trimmed_encoding = [token[1:length-1] for token, length in zip(encoded["input_ids"], sequence_lengths)]
        trimmed_outputs = [output[1:length-1] for output, length in zip(outputs.last_hidden_state, sequence_lengths)]

        embeddings = embeddings + trimmed_outputs
        tokens = tokens + trimmed_encoding

    return tokens, embeddings

In [9]:
def agg_fn(embeddings_list):
    word_embedding = np.sum(np.array(embeddings_list), axis=0)
    #mozesz sprobowac ze średnią
    return torch.tensor(word_embedding)

def get_word_embeddings(sentences: List[Sentence], tokenizer, model):
    """Funkcja zwraca embeddingi słów dla listy zdań, używając modelu i tokenizatora."""

    word_tokens = [sentence.words for sentence in sentences]
    subword_tokens, subword_embeddings = get_bert_embeddings([repr(sentence) for sentence in sentences], tokenizer, model)

    embeddings = []

    for i in range(len(sentences)):
        embedding = merge_subword_tokens(
            word_tokens[i],
            subword_tokens[i],
            subword_embeddings[i],
            tokenizer,
            agg_fn
        )

        embeddings.append(embedding)

    return embeddings

In [10]:
def get_datasets(sentences: List[ParsedSentence], tokenizer, model):
    embeddings = get_word_embeddings(sentences, tokenizer, model) # .flatten() - by móc całe batche wrzucać w model
    distances = [get_distances(sent) for sent in sentences]
    depths = [dist[sent.root][..., None] for dist, sent in zip(distances, sentences)]
    dataset_dist = ListDataset(list(zip(embeddings, distances, sentences)))
    dataset_depth = ListDataset(list(zip(embeddings, depths, sentences)))
    return dataset_dist, dataset_depth

if not FINAL_EVALUATION_MODE:
    trainset_dist, trainset_depth =  get_datasets(train_sentences, tokenizer, model)
    valset_dist, valset_depth = get_datasets(val_sentences, tokenizer, model)

In [11]:
max(len(depth[1]) for depth in trainset_depth)

39

In [12]:
def pad_arrays(sequence, pad_with=np.inf):
    shapes = np.array([list(seq.shape) for seq in sequence])
    max_lens = list(shapes.max(axis=0))
    padded = [np.pad(
                seq,
                tuple((0, max_lens[i] - seq.shape[i]) for i in range(seq.ndim)),
                'constant',
                constant_values=pad_with
            ) for seq in sequence]
    return torch.tensor(np.array(padded))

def my_pad_arrays(sequence, pad_with=0):
    padded = np.concatenate((np.array(sequence), np.full((40 - len(sequence),len(sequence[0])), pad_with)),axis=0)
    return torch.tensor(np.array(padded)).float()


def collate_fn(batch):
    embeddings, targets, sentences = zip(*batch)
    padded_embeddings = pad_arrays(embeddings, pad_with=0)
    padded_targets = pad_arrays(targets, pad_with=0)
    mask = padded_targets != 0
    return padded_embeddings, padded_targets, mask, sentences


if not FINAL_EVALUATION_MODE:
    dist_trainloader = DataLoader(trainset_dist, batch_size=32, shuffle=True, collate_fn=collate_fn)
    dist_valloader = DataLoader(valset_dist, batch_size=32, shuffle=False, collate_fn=collate_fn)

    depth_trainloader = DataLoader(trainset_depth, batch_size=32, shuffle=True, collate_fn=collate_fn)
    depth_valloader = DataLoader(valset_depth, batch_size=32, shuffle=False, collate_fn=collate_fn)

# dist_trainloader i dist_valloader zwracają krotki (embeddings, distances, masks, sentences)
# depths_trainloader i depths_valloader zwracają krotki (embeddings, depths, masks, sentences)
# embeddings.shape: (batch_size, max_seq_len, emb_dim)
# distances.shape: (batch_size, max_seq_len, max_seq_len)
# depths.shape: (batch_size, max_seq_len, 1)

In [13]:
def only_root_target(target):
    new_target = torch.zeros(target.size())
    roots = get_roots_from_target(target, 0)
    for i in range(len(new_target)):
        new_target[i, roots[i]] = 1

    return new_target

In [14]:
def get_roots_from_target(target, looking_for):
    return torch.argmax((target == looking_for).int(), dim=1)

In [15]:
def root_and_first_depth(target):
    new_target = torch.zeros(target.size())
    for i in range(len(target)):
        no_zeros_before = True
        for j in range(len(target[i])):
            if target[i,j] == 1:
                new_target[i,j] = 1
            # if target[i,j] == 0 and no_zeros_before:
            #     new_target[i,j] = 1
            #     no_zeros_before = False
    return remove_dots(new_target)


In [16]:
def remove_dots(tens: torch.tensor):
    reversed_tensor = torch.flip(tens, [0])

    index = torch.argmax((reversed_tensor == 1).int())
    last_index = len(tens) - index - 1

    tens[last_index] = 0

    return tens

In [17]:
# distance_model2 = DistanceModel()
# distance_model2.load_state_dict(torch.load(DISTANCE_MODEL_PATH))

# depth_model = DepthModel()
# depth_model.load_state_dict(torch.load(DEPTH_MODEL_PATH))

# distance_model2.magic_bias = torch.nn.Parameter(torch.tensor(1,dtype=torch.float), requires_grad=False)
# distance_model2.magic_bias = learn_magic_bias(distance_model2, depth_model, tokenizer, model, depth_trainloader)

# torch.save(distance_model2.state_dict(), DISTANCE_MODEL_PATH)
# print(distance_model2.magic_bias)

In [18]:
def mask_target(target, mask):
    batch_size = target.shape[0]
    n = target.shape[1]
    padding = torch.zeros(batch_size, n, 45 - n)
    masked_target = torch.cat((target, padding), dim=2)
    masked_mask = torch.cat((mask, padding), dim=2)

    return masked_target.float(), masked_mask

In [19]:
class DistanceModel(torch.nn.Module):
    def __init__(self):
        super(DistanceModel, self).__init__()
        self.embedding_dim = 768
        self.hidden_dim  = 256
        self.num_layers = 2

        self.bilstm = torch.nn.LSTM(self.embedding_dim, self.hidden_dim, self.num_layers, bidirectional=True, batch_first=True)
        self.fc = torch.nn.Linear(self.hidden_dim * self.num_layers, 45)

    def forward(self, x):
        x, _ = self.bilstm(x)
        x = self.fc(x)

        return x.squeeze(-1)

class DepthModel(torch.nn.Module):
    def __init__(self):
        super(DepthModel, self).__init__()
        self.embedding_dim = 768
        self.hidden_dim = 256
        self.num_layers = 2

        self.bilstm = torch.nn.LSTM(self.embedding_dim, self.hidden_dim, self.num_layers, bidirectional=True, batch_first=True)
        self.fc = torch.nn.Linear(self.hidden_dim * self.num_layers, 1)


    def forward(self, x):
        x, _ = self.bilstm(x)
        # x = torch.relu(x)
        x = torch.relu(self.fc(x))

        return x.squeeze(-1)

In [20]:
def train_distance_model(model, dataloader, valloader, epochs, lr):
    model.train()

    criterion = torch.nn.MSELoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)

    for epoch in range(epochs):
        loss_val = []
        for (embeddings, targets, masks, sentences) in dataloader:
            outputs = model(embeddings)

            targets, masks = mask_target(targets, masks)
            outputs = outputs * masks

            loss = criterion(outputs, targets)
            loss_val.append(loss.item())

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()


        print(f'Epoch [{epoch+1}/{epochs}], Loss: {sum(loss_val)/len(loss_val):.4f}')
        loss_val = []

In [21]:
# def good_length(masks):
#     sum = torch.sum(masks.squeeze(),1)
#     avg = torch.sum(sum,0)/len(sum)

#     return avg > 9.4

In [22]:
import torch.nn.functional as F
import math

def train_model(model, dataloader, valloader, epochs, lr):
    model.train()

    criterion = torch.nn.MSELoss()
    optimizer = torch.optim.Adam(model.parameters(), lr=lr)

    for epoch in range(epochs):
        for (embeddings, targets, masks, sentences) in dataloader:
            if ((epoch+1) % 3 != 0):
                masks = masks.squeeze()
            else:
                masks = torch.zeros(masks.squeeze().shape)

                for i in range(len(sentences)):
                    masks[i][sentences[i].root] = 1

                # print(targets.squeeze()[0])
                # print(masks[0])

            outputs = model(embeddings)

            outputs = outputs * masks

            targets = targets.squeeze().float() * masks

            loss = criterion(outputs, targets)

            optimizer.zero_grad()
            loss.backward()
            optimizer.step()


        # Print the loss for the current epoch
        print(f'Epoch [{epoch+1}/{epochs}], Loss: {loss.item():.4f}')

In [89]:
if not FINAL_EVALUATION_MODE:
    print("Training depth model")
    depth_model = DepthModel()
    train_model(depth_model, depth_trainloader, depth_valloader, 29, 0.0005)
    torch.save(depth_model.state_dict(), DEPTH_MODEL_PATH)

    # print("Training distance model")
    # distance_model = DistanceModel()
    # train_distance_model(distance_model, dist_trainloader, dist_valloader, 12, 0.001)
    # torch.save(distance_model.state_dict(), DISTANCE_MODEL_PATH)

Training depth model
Epoch [1/29], Loss: 2.6743
Epoch [2/29], Loss: 2.1054
Epoch [3/29], Loss: 0.0000
Epoch [4/29], Loss: 1.1457
Epoch [5/29], Loss: 0.4333
Epoch [6/29], Loss: 0.0009
Epoch [7/29], Loss: 0.2230
Epoch [8/29], Loss: 0.4335
Epoch [9/29], Loss: 0.0056
Epoch [10/29], Loss: 0.1873
Epoch [11/29], Loss: 0.1145
Epoch [12/29], Loss: 0.0060
Epoch [13/29], Loss: 0.2037
Epoch [14/29], Loss: 0.2164
Epoch [15/29], Loss: 0.0094
Epoch [16/29], Loss: 0.0519
Epoch [17/29], Loss: 0.1168
Epoch [18/29], Loss: 0.0017
Epoch [19/29], Loss: 0.1344
Epoch [20/29], Loss: 0.0930
Epoch [21/29], Loss: 0.0027
Epoch [22/29], Loss: 0.0928
Epoch [23/29], Loss: 0.0548
Epoch [24/29], Loss: 0.0027
Epoch [25/29], Loss: 0.0734
Epoch [26/29], Loss: 0.1515
Epoch [27/29], Loss: 0.0004
Epoch [28/29], Loss: 0.0472
Epoch [29/29], Loss: 0.0418


In [26]:
iypol = 0

number_of_ones = []

for (embeddings, targets, masks, sentences) in depth_trainloader:
    if iypol == 0:
        iypol = 1
        print(sentences[0])
        print(sentences[0].heads)
        print(get_distances(sentences[0]))
    for t in targets:
        number_of_ones.append(sum(t.squeeze() == 1)/len(targets))
print(sum(number_of_ones)/len(number_of_ones))

Wszystko dzieje się za sprawą wichru . . .
[2, 0, 2, 2, 4, 5, 2, 7, 8]
[[0. 1. 2. 2. 3. 4. 2. 3. 4.]
 [1. 0. 1. 1. 2. 3. 1. 2. 3.]
 [2. 1. 0. 2. 3. 4. 2. 3. 4.]
 [2. 1. 2. 0. 1. 2. 2. 3. 4.]
 [3. 2. 3. 1. 0. 1. 3. 4. 5.]
 [4. 3. 4. 2. 1. 0. 4. 5. 6.]
 [2. 1. 2. 2. 3. 4. 0. 1. 2.]
 [3. 2. 3. 3. 4. 5. 1. 0. 1.]
 [4. 3. 4. 4. 5. 6. 2. 1. 0.]]
tensor(0.1183)


In [23]:
sentence = "Wszystko dzieje się za sprawą wichru . . .".split(" ")

we = get_word_embeddings([Sentence(sentence)],tokenizer, model)[0]

distance_model.eval()
opt = depth_model(torch.tensor(we))
output = torch.round(opt)
root = torch.argmin(opt[:len(opt)-1],0)
print(f"Root: {root}")
print(output[:len(sentence)])


NameError: name 'distance_model' is not defined

In [None]:
# sent = train_sentences[0]
# parse_sentence(sent, distance_model, depth_model, tokenizer, model).pretty_print()# .pretty_print()  # Przewidziane drzewo
# sent.pretty_print()
# print(sent)

In [None]:
# def eval_model(model, valloader):
#     model.eval()
#     loss_sum = []
#     criterion = torch.nn.CrossEntropyLoss()

#     for (embeddings, targets, masks, sentences) in valloader:

#         outputs = model(embeddings)

#         targets = only_root_target(targets.squeeze()).float()

#         guesses = torch.argmax(outputs, dim=1)
#         roots = get_roots_from_target(targets, 1)

#         loss = criterion(outputs, targets)

#         loss_sum.append(loss.item())

#     print(f"EVALUTAION = [{sum(loss_sum)/len(loss_sum)}]")

In [None]:
# eval_model(depth_model, depth_valloader)

In [67]:
def parse_sentence(sent: Sentence, distance_model, depth_model, tokenizer, model) -> ParsedSentence:

    depth_model.eval()
    distance_model.eval()

    embedded = get_word_embeddings([sent],tokenizer, model)[0]

    depths = depth_model(embedded)
    distance_matrix = distance_model(embedded)

    for i in range(distance_matrix.shape[0]):
        for j in range(i+1,distance_matrix.shape[0]):
            avg = (distance_matrix[i,j] + distance_matrix[j,i])/2
            distance_matrix[j,i] = avg
            distance_matrix[i,j] = avg



    root = torch.argmin(depths[:len(depths)-1], 0)
    # print(depths)
    # print(root)
    # print(sent)

    heads = np.full(len(sent),root+1)
    heads[root] = 0

    depths = torch.round(depths)

    # print(torch.round(depths))
    # print(distance_matrix[:len(sent),:len(sent)])

    current_depth = 2
    while current_depth<=torch.max(depths):
        for i in range(len(depths)-1):
            if(depths[i]==current_depth):
                min_dist = torch.argmin(distance_matrix[i][:len(sent)-1],0)
                while(depths[min_dist] != current_depth - 1):
                    distance_matrix[i,min_dist] = np.inf
                    min_dist = torch.argmin(distance_matrix[i][:len(sent)-1],0)

                    if(distance_matrix[i,min_dist] == np.inf):
                        depths[i] -= 1
                        if current_depth > 3:
                            current_depth -= 2
                        break
                if (distance_matrix[i,min_dist] != np.inf):
                    heads[i] = min_dist+1
        current_depth += 1

    heads[root] = 0

    parsed = ParsedSentence(sent.words, list(heads))

    return parsed



In [27]:
# def parse_sentence(sent: Sentence, distance_model, depth_model, tokenizer, model) -> ParsedSentence:
#     def parse_sentence_from_edges(word_tokens, edges, root):
#         adj = [[] for _ in word_tokens]
#         for i, j in edges:
#             adj[i].append(j)
#             adj[j].append(i)
#         heads = [root+1] * len(word_tokens)
#         visited = [False] * len(word_tokens)

#         def helper(v, parent):
#             heads[v] = parent + 1
#             visited[v] = True
#             for u in adj[v]:
#                 if u != parent and not visited[u]:
#                     helper(u, v)
#         helper(root, -1)
#         return ParsedSentence(word_tokens, heads)

#     depth_model.eval()
#     distance_model.eval()

#     embedded = get_word_embeddings([sent],tokenizer, model)[0]

#     output = depth_model(embedded)
#     distance_matrix = distance_model(embedded)

#     distance_matrix = torch.round(distance_matrix)

#     edges = []
#     for i in range(distance_matrix.shape[0]):
#         for j in range(i+1,distance_matrix.shape[0]):
#             if distance_matrix[i,j] == 1:
#                 edges.append((i,j))

#     root = torch.argmin(output[:len(output)-1], 0)

#     parsed = parse_sentence_from_edges(sent.words, edges, root.item())

#     return parsed

if not FINAL_EVALUATION_MODE:
    sent = train_sentences[7]
    parse_sentence(sent, distance_model, depth_model, tokenizer, model).pretty_print()# .pretty_print()  # Przewidziane drzewo
    sent.pretty_print()
    print(sent)

NameError: name 'parse_sentence' is not defined

# Ewaluacja
Kod bardzo podobny do poniższego będzie służył do ewaluacji rozwiązania na zdaniach testowych. Wywołując poniższe komórki możesz dowiedzieć się ile punktów zdobyłoby twoje rozwiązanie, gdybyśmy ocenili je na danych walidacyjnych. Przed wysłaniem rozwiązania upewnij się, że cały notebook wykonuje się od początku do końca bez błędów i bez ingerencji użytkownika po wykonaniu polecenia `Run All`.

In [75]:
def points(root_placement, uuas):
    def scale(x, lower=0.5, upper=0.85):
        scaled = min(max(x, lower), upper)
        return (scaled - lower) / (upper - lower)
    return (scale(root_placement) + scale(uuas))

def evaluate_model(sentences: List[ParsedSentence], distance_model, depth_model, tokenizer, model):
    sum_uuas = 0
    root_correct = 0
    with torch.no_grad():
        for sent in sentences:
            parsed = parse_sentence(sent, distance_model, depth_model, tokenizer, model)
            root_correct += int(parsed.root == sent.root)
            sum_uuas += uuas_score(sent, parsed)
            # if uuas_score(sent,parsed) < 0.75:
            #     print(f"Root: {sent.root}, Prediciton: {parsed.root}")
            #     print(sent)
            #     print("///////////////\n///////////////////\n///////////////")

            #     sent.pretty_print()
            #     parsed.pretty_print()

            #     print(get_distances(sent)[sent.root] - get_distances(parsed)[parsed.root])

    root_placement = root_correct / len(sentences)
    uuas = sum_uuas / len(sentences)

    print(f"UUAS: {uuas * 100:.3}%")
    print(f"Root placement: {root_placement * 100:.3}%")
    print(f"Your score: {points(root_placement, uuas):.3}/2.0")

In [90]:
if not FINAL_EVALUATION_MODE:
    distance_model_loaded = DistanceModel()
    distance_model_loaded.load_state_dict(torch.load(DISTANCE_MODEL_PATH))

    depth_model_loaded = DepthModel()
    depth_model_loaded.load_state_dict(torch.load(DEPTH_MODEL_PATH))

    evaluate_model(val_sentences, distance_model_loaded, depth_model_loaded, tokenizer, model)

UUAS: 72.8%
Root placement: 85.5%
Your score: 1.65/2.0
