# Uczenie głębokie na białkach

Choć pracę na białkach często zalicza się do bioinformatyki bardziej niż do cheminformatyki, to są one bardzo istotnym elementem w projektowaniu leków. Szczególnie istotna jest możliwość kodowania struktury przestrzennej białek, która jest związana z funkcjonowaniem tych biologicznych maszyn w organizmie.

## Reprezentacje

Białka są również związkami chemicznymi, ale ze względu na ich pokaźne rozmiary, są przetwarzane często inaczej niż leki małocząsteczkowe. Typowe reprezentacje to:

1. **Dane sekwencyjne** - białka są nićmi aminokwasów, które można przedstawiać w formie tekstowej, a dodając informację o kątach dwuściennych, możemy również kodować informację przestrzenną; możemy tę reprezentację przetwarzać sieciami rekurencyjnymi lub transformerami;
![dihedrals](https://upload.wikimedia.org/wikipedia/commons/c/c0/Protein_backbone_PhiPsiOmega_drawing.jpg)
2. **Grafy** - kolejną reprezentacją są grafy, ale tym razem często upraszcza się strukturę związku i wierzchołkami stają się tylko węgle α, które mają w swych cechach zakodowaną resztę aminokwasową; reprezentację grafową możemy przetwarzać poznanymi wcześniej sieciami grafowymi;
3. **Woksele** - reprezentacja polegająca na ustawieniu siatki 3D wokseli (sześcianów kodujących atomy, które się z nimi przecinają) wokół całego białka; najczęściej używa się wokseli o wielkości 1 Å^3 (1 Å = 10^-10 m); reprezentację tę można przetwarzać sieciami konwolucyjnymi 3D;
![voxel](https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0221347.g002&type=large)
4. **Mapy odległości lub kontaktów** - reprezentacja dwuwymiarowa przedstawiająca odległości w przestrzeni między węglami alfa; gdy odległości te są zamienione na zera i jedynki przy wybranym progu, mówimy o mapach kontaktów; reprezentację tę przetwarzamy zwykle sieciami konwolucyjnymi 2D;
![contact](https://upload.wikimedia.org/wikipedia/commons/8/8d/Protein_Contact_Map%2C_2-Color%2C_2QIP-A.png)
5. **Chmury punktów** - zbiory niepołączonych ze sobą punktów 3D (węgle alfa) kodujących pewne cechy (m.in. kod aminokwasu); reprezentację tę możemy przetwarzać specjalnymi architekturami dla chmur punktów lub sieciami grafowymi.

## Problemy, które możemy rozwiązać

1. Odwrotne zwijanie białek, czyli inaczej projektowanie białek - zadaniem jest znalezienie sekwencji aminokwasów, która da określoną strukturę 3D; 
2. Szukanie kieszeni wiążących - znajdowanie w białkach wgłębień, które mogą służyć jako kieszenie wiążące dla ligandów; często realizowane jest przez segmentację przestrzeni 3D przy pomocy 3D Conv U-Netu;
3. Ocena powinowactwa liganda do kieszeni wiążącej białka - ocena jak mocne interakcje zachodzą między ligandem a białkiem w kompleksie ligand-białko (zadokowane lub ze struktury krystalograficznej).
![deepsite](https://oup.silverchair-cdn.com/oup/backfile/Content_public/Journal/bioinformatics/33/19/10.1093_bioinformatics_btx350/3/m_btx350f5.jpeg?Expires=1642462433&Signature=bBkAYrlkC5r6kINdTcMSUJc2acQPTYYGWVJXxhNKzEFRRU-cnXU0mlstJi0SKd3~9w35sdajA68QjbkbvnldzbVF5otlArXYR62Z-51QviWioYOc3rXgigBg~VkwipI4MKb~jf6oIMaSubY8DtHImkEBQk3d94y1jX8xYb8MONpErE-5QpQY9jhSbgANiUZydKW74665QntKdGnUiW1-nFEAmAPL4~Xc54YHwyyTM9fAOdPVL1RrlCY2kBzsXoN9VR8TDaIVkTzDKfAZtX9MMuIcm2xvxALc0cbV8tDaH4-c1PjwClu8gL~mjFyx-lSRbnTnh4DVv3BoE9iJdcpo~A__&Key-Pair-Id=APKAIE5G5CRDK6RD3PGA)

**Zadanie 1:** Zaimplementuj wybraną reprezentację białka.

**Zadanie 2:** Zaimplementuj sieć, która będzie tę reprezentację przetwarzała (nie musi się nic uczyć, a jedynie zwracać poprawnych wymiarów wyjście).

## Przykładowy fragment implementacji wokseli

In [1]:
from rdkit import Chem
import numpy as np
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D

%matplotlib notebook

In [None]:
symbols = ['C', 'N', 'O', 'S']

In [1]:
# Load protein from a PDB file
mol = Chem.MolFromPDBFile('../data/bace/4ivt.pdb')
pos = ...  # Create a position matrix of dimensions number_of_atoms x 3
bounding_box = ...  # Create a bounding box definition, e.g. two corners of the protein bounding box
box_size = ...  # Calculate bounding box size (you can use 1 unit as the voxel size)
grid = ...  # Create an empty grid with 4 channels (number of symbols) and size corresponding to the bounding box

In [8]:
for i, atom in enumerate(mol.GetAtoms()):
    ...  # Map atoms onto the grid, use 1 to mark the corresponding grid position and channel
    # tip: you will need the atom symbol and atom position aligned with the grid

In [2]:
# The code below will plot your voxel grid
fig = plt.figure(figsize=(7, 5))
ax = fig.add_subplot(111, projection='3d')
ax.voxels(grid[:, :, :, 0], facecolors='grey', alpha=0.7)
ax.voxels(grid[:, :, :, 1], facecolors='blue', alpha=0.7)
ax.voxels(grid[:, :, :, 2], facecolors='red', alpha=0.7)
ax.voxels(grid[:, :, :, 3], facecolors='orange', alpha=0.7)
plt.show()