# Interações entre proteínas e entre domínios
---

**Autor:** Lucas Machado Moschen

**Professor:** Luciano Guimarães de Castro 

## Resumo
---

Um estudo sobre como redes de interação proteína-proteína podem inferir interações domínio-domínio utilizando uma abordagem de programação linear e inteira. 


## Introdução
--- 

<p style = "text-align: justify"> 
    Proteínas são <i>macromoléculas</i> formadas por cadeias de aminoácidos. Elas são construídas em formato <i>modular</i>, compostas por <i>domínios</i>, que são unidades da proteína funcionais ou estruturais independentes do resto. Muitas são construídas por dois ou mais domínios dentro de um repertório relativamente pequeno. O que variam são as combinações e a ordem de disposição. Frequentemente, os domínios individuais têm funções específicas, como catalisar uma reação ou ligação de uma molécula particular. 
</p>

<center>
    <figure>
      <img src="figure-protein-domains.png" alt="protein-domains" style="width:50%">
        <figcaption><i><b>Fig.1</b> Representação da proteína citoplasmática Nck com seus três domínios SH3 e outro domínio SH2. Cada um desses domínios possui  um parceiro de ligação em outras proteínas. Disponível em <a href="https://www.ebi.ac.uk/training/online/courses/protein-classification-intro-ebi-resources/protein-classification/what-are-protein-domains/"> EMBL-EBI </a>. </i></figcaption>
    </figure>
</center>

<p style = "text-align: justify"> 
Proteínas interagem umas com as outras nas células e o conjunto dessas interações é chamado de <i>Rede de Interações Proteína-Proteína (Rede PPI)</i>. Matematicamente, representamo elas como um grafo (direcionado ou não direcionado) cujos nós são as proteínas e cujas arestas são as interações entre as proteínas, verificadas experimentalmente. Uma rede PPI é a base molecular do desenvolvimento e do funcionamento dos organismos. Seu entendimento é essencial, tanto para a compreensão de estados normais e doentes de células, quanto para o desenvolvimento de drogas. Ela pode ser construídas para descrever uma série de informações, como, por exemplo, proteínas que estão na mesma regiões ao mesmo tempo; proteínas que são correguladas; proteínas que estão envolvidas com alguma função biológica; entre outras. Em particular, o tópico de minha possível dissertação vai nesse sentido e, por esse motivo, foi o tema escolhido. 
</p>

<center>
    <figure>
        <img src="ppi-network.png" alt="ppi-network-example" style="width:50%"> 
        <figcaption><i><b>Fig. 2</b> Exemplo de rede PPI usando NetworkAnalysist. <a href="https://www.researchgate.net/figure/An-overview-of-the-PPI-network-The-PPI-network-was-generated-using-NetworkAnalyst-Red_fig5_323136513"> Desenvolvido por Wei Zhong, et al. </i></a></figcaption>
    </figure>
</center>

<p style = "text-align: justify"> 
Como as interações entre proteínas geralmente ocorrem via domínios ao invés de toda a molécula, entender como os domínios interagem entre si pode facilitar a obtenção de redes PPI mais completas, com menor custo e tempo. Por esse motivo, predizer interações entre domínios (DDI) é um passo importante para a predição de PPI. Chamamos esse problema de <i>problema de interação domínio-domínio (DDIP)</i>. 
</p>

## O problema de interação domínio-domínio (DDIP)
---

<p style="text-align:justify">
    Denotamos uma rede PPI conhecida por um grafo não direcionado $\mathcal{N} = (\mathcal{P}, \mathcal{E})$, em que $\mathcal{P}$ é o conjunto de proteínas e $\mathcal{E}$ é o conjunto de pares de proteínas que interagem, dado algum experimento. Para cada proteína $P \in \mathcal{P}$, supomos conhecidos seus domínios $D_P$ e definimos $\mathcal{D} = \{\{d_1, d_2\} : d_1 \in D_{P_1}, d_2 \in D_{P_2}, \text{ e } (P_1, P_2) \in \mathcal{E}\}$, isto é, o conjunto dos pares (não ordernados) de <b> possíveis </b> interações domínio domínio. Então, queremos inferir, para cada $I = (P_1, P_2) \in \mathcal{E}$, quais pares de domínios distintos em $d_1$ e $d_2$ explicam a interação entre as proteínas. 
</p>

<p style="text-align:justify">
    Vamos assumir que as interações domínio-domínio são <i>conservadas</i> entre as várias interações entre proteínas, isto é, elas tendem a repetir em diversos contextos. Também supomos que a interação entre proteínas evolui de forma parcimoniosa e que o conjunto DDI é bem aproximado pelo menor conjunto de interações necessárias para explicar a rede PPI, ou seja, sabemos que as relações domínio-domínio influenciam fortemente as relações proteína-proteína e utilizamos um método baseado em parcimônia para explicar essa inferência. O objetivo será, portanto, minimizar o número de interações domínio-domínio que justifiquem a interação entre proteínas observada na rede. 
</p>


<p style="text-align:justify"> 
    Seja $\mathcal{B}$ um grafo bipartido não direcionado com dois conjuntos independentes: $\mathcal{P}^2 = \mathcal{E}$ (conjunto dos pares de interações proteína-proteína) e $\mathcal{D}$ (pares de domínios), em que um elemento $\{P_1, P_2\} \in \mathcal{P}^2$ é ligado a $\{d_1, d_2\} \in \mathcal{D}$ se $d_1 \in D_{P_1}$ e $d_2 \in D_{P_2}$.  
</p>

<figure>
    <center>
        <img src="ddi-ppi-example.svg" alt="test" style="width:50%" >    
        <figcaption><i><b> Fig. 3 </b> Exemplo simplificado de rede PPI com respectivos domínios e a construção do grafo bipartido correspondente.</i></figcaption>
    </center>
<\figure>

<p style="text-align:justify">
    <b>Definição (Cobertura):</b> Um conjunto $S \subset \mathcal{D}$ é <i>cobertura DDI</i> se cada nó em $\mathcal{P}^2$ é adjacente a pelo menos um nó de $S$. Trivialmente $\mathcal{D}$ é uma cobertura por definição, portanto, sabemos que ela existe.  
</p>

<p style="text-align:justify">
Para cada nó $x \in \mathcal{P}^2$, denotamos por $\mathcal{V}(x)$ o conjunto de nós em $\mathcal{D}$ que são vizinhos de $x$. Podemos resumir o problema, portanto, com a seguinte a proposição:
</p>

> Dado um grafo bipartido $\mathcal{B}$ derivado de $\mathcal{P}^2$ e $\mathcal{D}$, encontre uma cobertura DDI de tamanho mínimo em $\mathcal{B}$.

Nesse caso, o conjunto solução $S^*$ é o conjunto mínimo que aproxima a explicação da interação entre proteínas (como explicado anteriormente). 

## Formulação com programação linear
---

Vamos definir as variáveis binárias $x_{ij}$ que indicam se o nó $\{i,j\} \in \mathcal{D}$ pertence à cobertura $S$. 

Queremos minimizar o tamanho dessa cobertura, portanto, a função objetivo a ser minimizada é 

$$\sum_{\{i,j\} \in \mathcal{D}} x_{ij}.$$

Para cada nó $x \in \mathbb{P}^2$, ou seja, para cada interação entre duas proteínas, queremos que pelo uma dupla de seus domínios interajam entre si. Assim, pelo menos um par de domínios vizinhos de $x$ deve existir para explicar a PPI. Definimos a restrição, para cada $x$, 

$$\sum_{\{i,j\} \in \mathcal{V}(x)} x_{ij} \ge 1$$

Além disso, temos, é claro, $0 \le x_{ij} \le 1, x_{ij} \in \mathbb{Z}$. 

## Experimentação 

Nessa seção, vamos usar o ferramental de otimização na linguagem de programação *Julia* para fazer experimentos do problema. 

In [None]:
using Pkg
pkg"activate ../."
pkg"instantiate"
using Plots, LinearAlgebra, JuMP, GLPK 

## Referências

Althaus, Ernst & Klau, Gunnar & Kohlbacher, Oliver & Lenhof, Hans-Peter & Knut, Reinert. (2009). *Integer Linear Programming In Computational Biology*. J Proteome Res, Volume 5760 of Lecture Notes in Computer Science. 5760. 199-218. 10.1007/978-3-642-03456-5_14. 

EMBL-EBI. Protein classification: An introduction to EMBL-EBI resources. Disponível [nesse site](https://www.ebi.ac.uk/training/online/courses/protein-classification-intro-ebi-resources/).

Guimarães, K.S., Jothi, R., Zotenko, E. et al. Predicting domain-domain interactions using a parsimony approach. Genome Biol 7, R104 (2006). https://doi.org/10.1186/gb-2006-7-11-r104
