# Introducción

El campo de la Teoría de Grafos ha sido utilizado ampliamente en los últimos años para modelizar y analizar datos biológicos de diversa naturaleza, como redes de interacción de proteínas o redes metabólicas. Esto se debe a la versatilidad que ofrecen este tipo de representaciones, ya que, entre otro tipo de análisis, permiten conocer su topología, la detección sesgos estructurales o la identificación nodos más relevantes dentro de la red, características que ayudan al entendimiento de los sistemas biológicos. En concreto, en el presente estudio se ha llevado a cabo el análisis de la red de interacción de proteínas de *Drosophila melanogaster* (mosca de la fruta), organismo modelo de gran importancia que ha sido y es utilizado para entender la biología, el desarrollo y las enfermedades humanas. Los datos utilizados han sido obtenidos del apartado de datasets de ejemplo de la base de datos GraphWeb, pero proceden de la base de datos IntAct del EMBL-EBI sobre redes de interacción de proteínas. 


# Métodos

El análisis y la visualización de la red ha sido llevado a cabo mediante el módulo de Python ``nerworkx`` y el software Cytoscape (poner versiones). Respecto a la búsqueda de comunidades, se ha utilizado la librería ``community`` que implementa el algoritmo de Louvain. Los análisis de enriquecimiento de genes se han llevado a cabo mediante el paquete ``clusterProfiler`` de Bioconductor a través de R. 

# Análisis (serían los resultados, lo llamamos como tú quieras)

## Descripción. 

La red descargada está contenida en un fichero *txt* en formato de lista de adyacencia y consiste en proteínas, representadas por nodos, que se unen mediante ramas en el caso de que existan evidencias experimentales de interacción entre ellas (**ME LO ESTOY INVENTANDO**). Presenta un orden de 8.080 nodos con un total de 26.197 ramas sin ponderación ni dirección (grafo no ponderado y no dirigido), los cuales se dividen en 69 componentes conexas, ya que se trata de un grafo disconexo. De los subgrafos que la componen, cabe destacar que aquel con mayor tamaño representa prácticamente la totalidad de la red, ya que tiene 26.116 ramas y 7.942 nodos, es decir, el 99.69% del total de ramas y el 98.29% del total de nodos. El resto de componentes conexas consisten principalmente en nodos autoconectados y motivos de dos nodos conectados entre sí. Respecto a la densidad de la red completa, presenta un coeficiente de 0.0008026, por lo que no se puede considerar como densa (**mirar significado coeficiente de densidad**). A continuación se muestran las métricas más importantes obtenidas durante el análisis de la red, como la presencia de bucles o el número de K-cores presente.


Tabla con métricas. 


Respecto a la distribución de grados de la red (Figura 1), se puede observar la presencia de una gran cantidad de nodos con grado entre 0 y 25 (7.641 nodos, el 95% de la red), mientras que el número desciende enormemente conforme aumenta el número de vecinos que presentan, habiendo solo 25 nodos con un grado mayor o igual que 75 y 9 con un grado mayor o igual que 100. Esta distribución es típica de las redes libres de escala, caracterizadas por la presencia de agrupaciones de nodos, llamados *hubs*, que muestran una gran cantidad de conexiones en relación al resto de la red, que se mantiene con una densidad de conexión relativamente baja. Para determinar si verdaeramente se trata de una red de este tipo, en el siguiente apartado se procede a su comparación con grafos aleatorios. 



## Sesgos estructurales: comparación con redes aleatorias.

Con el fin de encontrar algún tipo de sesgo estructural en las características mencionadas en el apartado anterior, se procede a la comparación de las características más importantes con grafos aleatorios del mismo tamaño y orden generados mediante la función 
``gnm_random_graph``. 

Comparaciones de métricas rollo número de bucles, k-cores, ...

Comparación de medidas de centralidad: se puede meter, además de una aleatoria, una libre de escala. 

Comparación de distribución de grados de libre de escala vs aleatoria.


## Ataques a redes





## Búsqueda de comunidades

Bajo la premisa de que aquellas proteínas que presenten un mayor número de interacciones entre sí tendrán funciones similares o estarán involucradas en procesos biológicos relacionados, se lleva a cabo una aproximación típica del estudio de las redes sociales que en los últimos años ha cobrado mayor importancia en el campo de la Biología: la búsqueda de comunidades. Una comunidad consiste en una agrupación de nodos más densamente conectados entre sí que con otros nodos, de forma que, en el contexto de las redes de interacción de proteínas, representarán grupos de proteínas que, en principio, deberían estar más relacionadas entre sí. Hay diferentes métodos para la detección de estas divisiones (métodos aglomerativos, etc.), pero los más populares se basan en la maximización de una función objetivo, la modularidad ($Q$). Se trata de una medida de la calidad de la división particular en comunidades de una red, y consise en un valor escalar entre -1 y 1 que mide la densidad de uniones dentro de las agrupaciones en comparación con la densidad de enlaces entre ellos. Esta métrica viene dada por la siguiente expresión: 

\begin{equation*}
    Q = \frac{1}{2m} \sum_{i,j}\left[A_{i,j} - \frac{k_i k_j}{2m}\right]\delta(c_i,c_j)  
\end{equation*}

donde $A_{ij}$ es el número de ejes existentes entre los nodos $i$ y $j$ (en este caso, será 0 o 1), $k_i$ y $k_j$ el grado de los nodos considerados, $\delta(c_i, c_j)$ una función Delta de Kronecker que solo es 1 en el caso de que los dos nodos pertenezcan a la misma red y $m$ el total de ejes de la red, dado por la expresión $\frac{1}{2} \sum_ik_1$. En definitiva, su cálculo consiste en el recorrido de todos los pares de nodos que componen la red y, solo para aquellos que pertenecen a la misma comunidad, se lleva a cabo el sumatorio de la diferencia entre el número de ejes presentes entre esos dos nodos menos el número de ejes que esperaríamos en una red aleatoria ($k_ik_j/2m$). Esta expresión es equivalente a la siguiente más intuitiva:  

\begin{equation*}
    Q = \sum_{i = 1}^c(e_{ii} - a^2_i)
\end{equation*}

en la que $c$ son las cumunidades de la red, $e_{ii}$ es la fracción de ejes cuyos nodos pertenecen a la comunidad $i$ y $a_i$ es la fracción de ejes que aleatoriamente pertenecen a la comunidad $i$. **meter definiciones**

Sin embargo, a pesar de que esta función permita en teoría obtener el óptimo global de $Q$ para una determinada red y, por definición, su partición óptima en comunidades, la cantidad de cálculos necesarios convierten al proceso en una tarea computacionalmente inviable, ya que se trata de un problema de optimización combinatorial NP-completo. Para reducir el número de veces que $Q$ es calculada, existen diferentes métodos heurísticos que buscan hacer converger la red en agrupaciones con cada vez un mayor número de nodos en función de $Q$, siendo el método de Louvain la aproximación utilizada en el presente estudio. El algoritmo está compuesto por la repetición iterativa de dos fases que, mediante la partición jerárquica de la red, se repetirán hasta que $Q$ converga a un máximo local.

En el presente análisis de la red de estudio, tal y como se ha comentado en la sección de Métodos, se ha utilizado la implementación del método de Louvain del módulo ``community`` para Python debido a su alta integración con el módulo ``networkx``. Dado que se trata de un algoritmo relativamente rápido a pesar del tamaño y orden de la red, se ha repetido el proceso de búsqueda 100 veces reteniendo aquella configuración con mayor modularidad, aunque cabe destacar que, tanto en el caso de la red aleatoria como en el de la red de *Drosophila*, la modularidad resultante fue muy similar con desviaciones estándar muy bajas (Tabla 1), indicando que el algoritmo, a pesar de ser heurístico, converge hacia resultados similares. El proceso se llevó a cabo sobre la componente conexa de mayor tamaño (26.116 ramas y 7.942 nodos), debido a que no tiene sentido la búsqueda de comunidades sobre un grafo disjunto, y sobre un grafo aleatorio del mismo tamaño y orden generado mediante la función ``gnm_random_graph`` con propósitos comparativos. 

En la Tabla 1 se muestran los resultados relativos a la modularidad. Se puede observar que la red de estudio presenta una modularidad más alta que la red aleatoria tanto en el máximo obtenido como en el valor medio de las 100 iteraciones llevadas a cabo. Respecto al número de comunidades detectadas, los resultados encajan con lo esperado, ya que la red de estudio presenta un menor número que la red aleatoria. Esto se debe a que la red biológica presenta un sesgo estructural hacia la presencia de agrupaciones de nodos más densamente conectados entre sí que con otros por ser proteínas con funciones relacionadas, mientras que en el caso de la red aleatoria a priori no se espera ese tipo de topología, presentando de hecho una modularidad más baja y un mayor número de comunidades. Respecto a la estructura de las comunidades obtenidas, en la Tabla 2 se puede observar que la red de Drosophila presenta comunidades con mayor número de nodos que la red aleatoria, cuya comunidad de mayor tamaño no llega a alcanzar la mitad de la comunidad de la red biológica con mayor orden. 



Respecto a la representación gráfica de la red, en la Figura **X** se pueden observar las agrupaciones generadas mediante un layout CoSE en el que se han posicionado las comunidades con mayor orden más alejadas entre sí con el fin de hacer más legible el gráfico. En el apartado A, las agrupaciones están representadas por color, mientras que en el B se han coloreado los nodos en función del grafo que presentan. Como se puede observar, los nodos localizados en el interior de las comunidades tienden a presentar un mayor grado, sobre todo en las comunidades que presentan un mayor número de nodos, lo que parece indicarnos que las comunidades obtenidas son robustas, al menos aquellas que presentan un mayor orden. 






Respecto al estudio funcional de las proteínas que forman las diferentes comunidades, se ha llevado a cabo un análisis de enriquecimiento de genes basado en términos (Gene Ontology) de aquellas comunidades con mas de 600 nodos.  



Resultados: tabla con modularidad, número de comunidades, 









**Links con info**

* https://mathoverflow.net/questions/212761/modularity-in-a-graph-definition-of-the-random-component
* https://www.cs.cmu.edu/~ckingsf/bioinfo-lectures/modularity.pdf