Przed oddaniem zadania upewnij się, że wszystko działa poprawnie.
**Uruchom ponownie kernel** (z paska menu: Kernel$\rightarrow$Restart) a następnie
**wykonaj wszystkie komórki** (z paska menu: Cell$\rightarrow$Run All).

Upewnij się, że wypełniłeś wszystkie pola `TU WPISZ KOD` lub `TU WPISZ ODPOWIEDŹ`, oraz
że podałeś swoje imię i nazwisko poniżej:

In [1]:
NAME = "Maciej Wilhelmi"

---

# 2. Zadania w przetwarzaniu grafów

## 2.1. Uczenie reprezentacji wierzchołków

W poniższych rozważaniach będziemy się skupiać na zadaniu uczenia reprezentacji dla wierzchołków w grafie (ang. *node embedding*). Celem będzie znalezienie funkcji $h: \mathcal{V} \to \mathbb{R}^d$, która dla każdego wierzchołka $u$ wyznaczy (obliczy) jego wektor reprezentacji $\mathbf{z}_u$. Zobaczymy, że za pomocą reprezentacji wierzchołków możemy również uzyskać reprezentacje krawędzi oraz całych grafów. 

## 2.2. Zadania uczenia maszynowego na grafach

Zanim przejdziemy do omówienia konkretnych metod uczenia reprezentacji grafów, przygotujemy sobie narzędzia (funkcje) do ewaluacji otrzymanych wektorów reprezentacji trzech najpopularniejszych zadaniach związanych z przetwarzaniem grafów:

1. Klasyfikacja wierzchołków
2. Predykcja krawędzi
3. Klasyfikacja grafów

## 2.3. Klasyfikacja wierzchołków

Zakładamy, że każdy wierzchołek w grafie może zostać skojarzony z pewną klasą – np.:
- w sieci społecznej – płeć,
- w cząsteczkach chemicznych – rodzaj atomu). 

Korzystając z wektorów reprezentacji $\mathbf{Z}$, uczymy klasyfikator $f$ (np. liniowy lub sieć MLP) przewidywania klasy $c_u$ danego wierzchołka $u$, tzn. $f(z_u) = c_u$ (ang. **node classification**). Musimy podzielić zbiór wierzchołków na treningowe oraz testowe. Klasyfikator uczymy na wektorach reprezentacji i klasach wierzchołków treningowych, a metryki ewaluacyjne wyliczamy uwzględniając predykcje klasyfikatora na wektorach reprezentacji wierzchołków ze zbioru testowego. 

Często w grafach tylko niewielka część wierzchołków jest oznaczona (ma przypisane klasy).

**Uwaga:** W trakcie uczenia wektorów reprezentacji pomijamy informację o klasach wierzchołków (*unsupervised learning*).

### Zadanie 2.1. (1.5 pkt)
Zaimplementuj poniższą funkcję `evaluate_node_classification`, która zweryfikuje jakość podanych wektorów reprezentacji wierzchołków `z` w zadaniu klasyfikacji wierzchołków:

- podziel wierzchołki grafu na zbiór treningowy oraz testowy, uwzględniając rozmiar zbioru testowego `test_size`,
- zastosuj klasyfikator regresji logistycznej na wektorach reprezentacji oraz etykietach wierzchołków,
- oblicz metrykę AUC na zbiorze treningowym oraz testowym.


**Uwaga:** Pomijamy w tym zadaniu fakt, że wiele zbiorów ma zdefiniowany "odgórnie" podział wierzchołków - zobacz atrybuty `train_mask`, `val_mask` oraz `test_mask` w obiekcie `Data`.

In [2]:
# !pip install torch_geometric

In [3]:
from typing import Dict

import torch
from torch_geometric.data import Data
from sklearn.model_selection import train_test_split
import torch_geometric
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score

def evaluate_node_classification(
    data: Data,
    z: torch.Tensor,
    test_size: float = 0.4,
) -> Dict[str, float]:
    # TU WPISZ KOD

    num_nodes = data.num_nodes
    indices = torch.arange(num_nodes)

    train_indices, test_indices = train_test_split(
        indices, test_size=test_size, random_state=42
    )

    # nasze dane
    z_train = z[train_indices]
    z_test = z[test_indices]
    # nasze etykiety
    y_train = data.y[train_indices]
    y_test = data.y[test_indices]

    # regresja logistyczna
    model = LogisticRegression().fit(z_train, y_train)
    
    preds_train = model.predict_proba(z_train)
    preds_test = model.predict_proba(z_test)

    auc_train = roc_auc_score(y_train, preds_train, multi_class='ovr')
    auc_test = roc_auc_score(y_test, preds_test, multi_class='ovr')

    results = {
        "train_auc": auc_train,
        "test_auc": auc_test,
    }

    return results

Zweryfikujmy, że funkcja działa na losowo zainicjalizowanej macierzy wektorów reprezentacji wierzchołków i zbiorze Cora:

In [4]:
def test_evaluate_node_classification():
    from torch_geometric.datasets import Planetoid

    torch.manual_seed(42)

    data = Planetoid(root="./data/", name="Cora")[0]
    z = torch.randn(data.num_nodes, 128)

    metrics = evaluate_node_classification(data=data, z=z)

    assert "train_auc" in metrics
    assert "test_auc" in  metrics

    print(metrics)
    
    
test_evaluate_node_classification()

Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.x
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.tx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.allx
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.y
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ty
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.ally
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.graph
Downloading https://github.com/kimiyoung/planetoid/raw/master/data/ind.cora.test.index
Processing...
Done!


{'train_auc': 0.7447835710684279, 'test_auc': 0.5119679007496767}


## 2.4. Predykcja krawędzi

W wielu przypadkach możemy założyć, że nie posiadamy pełnej informacji o strukturze grafu, tzn. nie obserwujemy w zbiorze wszystkich krawędzi, które w rzeczywistości istnieją w danym grafie. Możemy jednak wyuczyć model, który uzupełni brakujące krawędzie (ang. **link prediction**). 

Zbiór krawędzi grafu dzielimy na zbiór treningowy oraz testowy. Krawędzie ze zbioru testowego *usuwamy z grafu*, aby były nieobserwowane w trakcie uczenia wektorów reprezentacji. W niektórych wariantach tego zadania, staramy się również podzielić wierzchołki tak, aby krawędzie testowe występowały tylko między wybranym podzbiorem wierzchołków (które również na czas uczenia usuwamy) – ten scenariusz jednak nie będziemy stosować w ramach zajęć.

Na tym etapie możemy zauważyć pewnien problem – mamy tylko informację o istniejących w grafie krawędziach. Nie wiadomo jak wyuczyć model klasyfikatora? Potrzebowalibyśmy jeszcze informacji o krawędziach, które nie istnieją w grafie, wtedy możemy uznać istniejące krawędzie (przykłady pozytywne) jako klasę $1$, a nieistniejące (przykłady negatywne) jako klasę $0$. 

Dokładnie tak rozwiążemy nasz problem – każdej krawędzi w obecnym zbiorze treningowym i testowym przypisujemy klasę $1$. Następnie dla każdej krawędzi losujemy ze zbioru wszystkich możliwych krawędzi, taką która nie istnieje w danym grafie i przypisujemy jej klasę $0$ (ang. *balanced negative sampling*).

Wybór odpowiednich negatywnych przypadków jest bardziej skomplikowany i istnieje wiele strategii losowania, jednak pozostaniemy przy najprostszym scenariuszu losując krawędź zgodnie z rozkładem jednostajnym (tzn. każdy wybór tak samo prawdopodobny).

Kolejnym zagadnieniem jest jak otrzymać wektor reprezentacji dla krawędzi, skoro założyliśmy, że korzystamy z wektorów dla wierzchołków? Tutaj również mamy wiele możliwości, jednak najpopularniejszym rozwiązaniem jest wykorzystanie jednej z następujących transformacji wektorów reprezentacji wierzchołków $z_{uv} = z_u \circ z_v$, gdzie $\circ: \mathcal{V} \times \mathcal{V} \to \mathbb{R}^{d}$. Metody te zostały zaproponowane w pracy [Node2vec](https://arxiv.org/pdf/1607.00653.pdf) i są aplikowane na każdym elemencie wektora reprezentacji osobno (ang. *element-wise*):

| Nazwa | Wzór  |
|-------|-------|
| Średnia  | $$ z_{uv} = \frac{z_u + z_v}{2}$$ |
| Hadamard | $$ z_{uv} = z_u * z_v$$ |
| L1       | $$ z_{uv} = |z_u - z_v|$$ |
| L2       | $$ z_{uv} = |z_u - z_v|^2$$ |

Po przekształceniu wektorów reprezentacji wierzchołków na wektory krawędzi, możemy wyuczyć klasyfikator binarny na wektorach krawędzi ze zbioru treningowego (uwzględniając przypadki pozytywne i negatywne), a następnie wyliczyć wartości miar ewaluacyjnych w oparciu o predykcje klasyfikatora na wektorach krawędzi ze zbioru testowego.

### Zadanie 2.2 (5 pkt)
Zaimplementuj następujące funkcje:

- `prepare_train_test_sets` (2 pkt):
    - podaną listę krawędzi `edge_index` podziel na zbiór treningowy (`train_edges_pos`) oraz testowy (`test_edges_pos`) uwzględniając wielkość zbioru testowego `test_size`,
    - dla każdej krawędzi wylosuj przypadek negatywny: `train_edges_neg` oraz `test_edges_neg` (zobacz funkcję `negative_sampling` z biblioteki PyTorch-Geometric),
    - utwórz listę (tensor) krawędzi treningowych `train_edges` (konkatenacja `train_edges_pos` oraz `train_edges_neg`) o wymiarach `2 x łączna liczba krawędzi`,
    - utwórz taką samą listę dla krawędzi testowych `test_edges`,
    - utwórz wektory etykiet (zera i jedynki): `y_train` oraz `y_test`.
    
- `transform_to_edge_embeddings` (2 pkt):
    - dla podanej listy krawędzi `edge_index` oraz wektorów reprezentacji wierzchołków `z` obliczy reprezentacje krawędzi
    - argument `transformation_name` wyznacza metodę transformacji: "average", "hadamard", "L1" lub "L2" (zgodnie z powyższą tabelką)

- `evalute_link_prediction` (1 pkt):
    - dla podanych: listy krawędzi treningowych `train_edges` (wraz z `y_train`) oraz testowych `test_edges` (wraz z `y_test`), metody transformacji do reprezentacji krawędzi `transformation_name` oraz reprezentacji wierzchołków `z`, przeprowadzi ewaluację tych reprezentacji w zadaniu predykcji krawędzi
    - zastosuj klasyfikator regresji logistycznej
    - oblicz miary AUC dla zbioru treningowego i testowego

In [5]:
from typing import Dict

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import roc_auc_score
from sklearn.model_selection import train_test_split
from torch_geometric.data import Data
from torch_geometric.utils import negative_sampling



def prepare_train_test_sets(
    edge_index: torch.Tensor,
    test_size: float = 0.4,
) -> Dict[str, torch.Tensor]:
    # TU WPISZ KOD
    train_edges_pos, test_edges_pos = train_test_split(
        edge_index.T, test_size=test_size, random_state=42
    )

    train_edges_pos = train_edges_pos.T  #powrót do wymiarów sprzed splitu
    test_edges_pos = test_edges_pos.T

    all_nodes_len = len(torch.cat([edge_index[0], edge_index[1]]).unique())

    train_edges_neg = negative_sampling(
        edge_index=train_edges_pos, num_nodes=all_nodes_len
    )

    test_edges_neg = negative_sampling(
        edge_index=test_edges_pos, num_nodes=all_nodes_len
    )

    train_edges = torch.cat([train_edges_pos, train_edges_neg], dim=1)
    test_edges = torch.cat([test_edges_pos, test_edges_neg], dim=1)

    y_train = torch.cat(
        [torch.ones(train_edges_pos[1].shape),
         torch.zeros(train_edges_pos[1].shape)]
         )
        
    y_test = torch.cat(
        [torch.ones(test_edges_pos[1].shape),
         torch.zeros(test_edges_pos[1].shape)]
         )
    

    return {
        "train_edges_pos": train_edges_pos,
        
        "train_edges": train_edges,
        "y_train": y_train,
        
        "test_edges": test_edges,
        "y_test": y_test,
    }
    
    
    
def test_prepare_train_test_sets():
    from torch_geometric.datasets import Planetoid
    
    data = Planetoid(root="./data/", name="Cora")[0]

    train_size = 0.6
    out = prepare_train_test_sets(
        edge_index=data.edge_index,
        test_size=1 - train_size,
    )

    num_train_edges_pos = int(train_size * data.num_edges)
    num_test_edges_pos = data.num_edges - num_train_edges_pos
    
    assert out["train_edges_pos"].shape[1] == num_train_edges_pos
    
    assert out["train_edges"].shape == (2, 2 * num_train_edges_pos)
    assert out["y_train"].shape == (2 * num_train_edges_pos,)
    
    assert out["test_edges"].shape == (2, 2 * num_test_edges_pos)
    assert out["y_test"].shape == (2 * num_test_edges_pos,)
    
    
test_prepare_train_test_sets()

In [6]:
def transform_to_edge_embeddings(
    edge_index: torch.Tensor,
    z: torch.Tensor,
    transformation_name: str,
) -> torch.Tensor:
    # TU WPISZ KOD
    if transformation_name=='average':
      return (z[edge_index[0]] + z[edge_index[1]]) / 2
    elif transformation_name=='hadamard':
      return (z[edge_index[0]] * z[edge_index[1]])
    elif transformation_name=='L1':
      return torch.abs(z[edge_index[0]] - z[edge_index[1]])
    else:
      return torch.abs(z[edge_index[0]] - z[edge_index[1]])**2




def test_transform_to_edge_embeddings():
    ei = torch.tensor([[0], [1]])
    z = torch.tensor([
        [1, 2, 3],
        [4, 5, 6],
    ])
    
    assert (transform_to_edge_embeddings(ei, z, "average") == torch.tensor([[2.5, 3.5, 4.5]])).all()
    assert (transform_to_edge_embeddings(ei, z, "hadamard") == torch.tensor([[4, 10, 18]])).all()
    assert (transform_to_edge_embeddings(ei, z, "L1") == torch.tensor([[3, 3, 3]])).all()
    assert (transform_to_edge_embeddings(ei, z, "L2") == torch.tensor([[9, 9, 9]])).all()
    
    
test_transform_to_edge_embeddings()

evalute_link_prediction (1 pkt):

dla podanych: listy krawędzi treningowych train_edges (wraz z y_train) oraz testowych test_edges (wraz z y_test), metody transformacji do reprezentacji krawędzi transformation_name oraz reprezentacji wierzchołków z, przeprowadzi ewaluację tych reprezentacji w zadaniu predykcji krawędzi
zastosuj klasyfikator regresji logistycznej
oblicz miary AUC dla zbioru treningowego i testowego

In [7]:
def evaluate_link_prediction(
    train_edges: torch.Tensor,
    y_train: torch.Tensor,
    test_edges: torch.Tensor,
    y_test: torch.Tensor,
    transformation_name: str,
    z: torch.Tensor,
) -> Dict[str, float]:
    # TU WPISZ KOD
    z_train = transform_to_edge_embeddings(train_edges, z, transformation_name)

    z_test = transform_to_edge_embeddings(test_edges, z, transformation_name)

    
    # regresja logistyczna
    model = LogisticRegression().fit(z_train, y_train)
    
    preds_train = model.predict(z_train)
    preds_test = model.predict(z_test)


    auc_train = roc_auc_score(y_train, preds_train, multi_class='ovr')
    auc_test = roc_auc_score(y_test, preds_test, multi_class='ovr')

    results = {
        "train_auc": auc_train,
        "test_auc": auc_test,
    }

    return results
    

def test_evaluate_link_prediction():
    from torch_geometric.datasets import Planetoid
    
    data = Planetoid(root="./data/", name="Cora")[0]

    out = prepare_train_test_sets(edge_index=data.edge_index)
    
    z = torch.randn(data.num_nodes, 128)
    
    metrics = evaluate_link_prediction(
        train_edges=out["train_edges"],
        y_train=out["y_train"],
        test_edges=out["test_edges"],
        y_test=out["y_test"],
        transformation_name="average",
        z=z,
    )
    
    assert "train_auc" in metrics.keys()
    assert "test_auc" in metrics.keys()
    
    print(metrics)


test_evaluate_link_prediction()

{'train_auc': 0.5698720985315016, 'test_auc': 0.5488988870471229}


## 2.5. Klasyfikacja grafów

Zadanie to jest podobne do klasyfikacji wierzchołków, przy czym tutaj klasa jest przypisana do całego grafu. Przykładem może być klasyfikacja białek (reprezentowanych jako grafy). 

Podejście jest analogiczne jak w punkcie **2.3**. Zbiór grafów dzielimy na zbiór treningowy oraz testowy i uczymy odpowiedni klasyfikator. Jedynym zagadnieniem, które musimy rozwiązać jest sposób uzyskania wektora reprezentacji dla całego grafu na podstawie wektorów reprezentacji pojedynczych wierzchołków. Będziemy rozważać proste przekształcenia, które będą agregować wektory wierzchołków w jeden wektor opisujacy cały graf:

- uśrednianie: $z_\mathcal{G} = \frac{1}{|\mathcal{V}|} \sum_{u \in \mathcal{V}} z_u$
- redukcja max (ang. **max pooling**): $z_\mathcal{G} = \max_i \{z_1^{(i)}, z_2^{(i)}, \ldots, z_{|\mathcal{V}|}^{(i)} \} \;\forall i = 1 \ldots d$, gdzie $z_u^{(i)}$ oznacza $i$-ty element wektora $z_u$,
- redukcja min (ang. **min pooling**): $z_\mathcal{G} = \min_i \{z_1^{(i)}, z_2^{(i)}, \ldots, z_{|\mathcal{V}|}^{(i)} \} \;\forall i = 1 \ldots d$

Możemy również zastosować inne strategie wyznaczania wektora opisującego cały graf, ale więcej o tym na następnym wykładzie.

### Zadanie 2.3. (3.5 pkt)
Zaimplementuj funkcje:

- `transform_to_graph_embedding` (1.5 pkt):
    - dla podanej macierzy reprezentacji wierzchołków `z` wyznaczy wektor reprezentacji całego grafu
    - argument `transformation_name` wyznacza metodę transformacji: "average", "max_pooling", "min_pooling"
    
- `evaluate_graph_classification` (2 pkt):
    - dla podanej listy macierzy reprezentacji grafów `z`, wektora etykiet grafów `y` oraz metody transformacji `transformation_name`, przeprowadzi ewaluację reprezentacji w zadaniu klasyfikacji grafów
    - podziel grafy na zbiór treningowy oraz testowy, gdzie wielkość zbioru testowego jest określona za pomocą parametru `test_size`,
    - przetransformuj listę macierzy reprezentacji wierzchołków w jedną macierz reprezentacji grafów,
    - zastosuj klasyfikator regresji logistycznej
    - oblicz miary AUC dla zbioru treningowego i testowego

In [8]:
def transform_to_graph_embedding(
    z: torch.Tensor,
    transformation_name: str,
) -> torch.Tensor:
    # TU WPISZ KOD
    if transformation_name=='average':
      return z.sum(dim=0)/z.shape[0]
    if transformation_name=='max_pooling':
      return z.max(dim=0).values
    if transformation_name=='min_pooling':
      return z.min(dim=0).values
  

def test_transform_to_graph_embedding():
    z = torch.tensor([
        [1, 2, 3],
        [4, 5, 6],
        [7, 8, 9],
    ])
    
    assert (transform_to_graph_embedding(z, "average") == torch.tensor([4, 5, 6])).all()
    assert (transform_to_graph_embedding(z, "max_pooling") == torch.tensor([7, 8, 9])).all()
    assert (transform_to_graph_embedding(z, "min_pooling") == torch.tensor([1, 2, 3])).all()

test_transform_to_graph_embedding()

In [1]:
from typing import List


def evaluate_graph_classification(
    z: List[torch.Tensor],
    y: torch.Tensor,
    transformation_name: str,
    test_size: float = 0.4,
) -> Dict[str, float]:
    # TU WPISZ KOD

    z_train, z_test, y_train, y_test = train_test_split(
        z, y, test_size=test_size, random_state=42
    )

    z_x = []
    for z in z_train:
      z_x.append(transform_to_graph_embedding(z, transformation_name))

    z_y = []
    for z in z_test:
      z_y.append(transform_to_graph_embedding(z, transformation_name))


    z_train = torch.stack(z_x)
    z_test = torch.stack(z_y)

    
    # regresja logistyczna
    model = LogisticRegression(max_iter=500).fit(z_train, y_train)
    preds_train = model.predict_proba(z_train)
    preds_test = model.predict_proba(z_test)


    auc_train = roc_auc_score(y_train, preds_train, multi_class='ovr')
    auc_test = roc_auc_score(y_test, preds_test, multi_class='ovr')

    results = {
        "train_auc": auc_train,
        "test_auc": auc_test,
    }

    return results
    
    
    
def test_evaluate_graph_classification():
    from torch_geometric.datasets import TUDataset
    
    enzymes = TUDataset(root="./data", name="ENZYMES")
    
    y = torch.tensor([e.y for e in enzymes])
    z = [torch.randn(e.num_nodes, 128) for e in enzymes]

    metrics = evaluate_graph_classification(z, y, "average")
    
    assert "train_auc" in metrics.keys()
    assert "test_auc" in metrics.keys()
    
    print(metrics)
    
    
test_evaluate_graph_classification()

NameError: name 'torch' is not defined