# Introducción

El campo de la Teoría de Grafos ha sido utilizado ampliamente en los últimos años para modelizar y analizar datos biológicos de diversa naturaleza, como redes de interacción de proteínas o redes metabólicas. Esto se debe a la versatilidad que ofrecen este tipo de representaciones, ya que, entre otro tipo de análisis, permiten conocer su topología, la detección sesgos estructurales o la identificación nodos más relevantes dentro de la red, características que ayudan al entendimiento de los sistemas biológicos. En concreto, en el presente estudio se ha llevado a cabo el análisis de la red de interacción de proteínas de *Drosophila melanogaster* (mosca de la fruta), organismo modelo de gran importancia que ha sido y es utilizado para entender la biología, el desarrollo y las enfermedades humanas. Los datos utilizados han sido obtenidos del apartado de datasets de ejemplo de la base de datos GraphWeb, pero proceden de la base de datos IntAct del EMBL-EBI sobre redes de interacción de proteínas. 


# Métodos

El análisis y la visualización de la red ha sido llevado a cabo mediante el módulo de Python ``nerworkx`` y el software Cytoscape (poner versiones). Respecto a la búsqueda de comunidades, se ha utilizado la librería ``community`` que implementa el algoritmo de Louvain.

# Análisis (serían los resultados, lo llamamos como tú quieras)

## Descripción. 

La red descargada está contenida en un fichero *txt* en formato de lista de adyacencia y consiste en proteínas, representadas por nodos, que se unen mediante ramas en el caso de que existan evidencias experimentales de interacción entre ellas (**ME LO ESTOY INVENTANDO**). Presenta un orden de 8.080 nodos con un total de 26.197 ramas sin ponderación ni dirección (grafo no ponderado y no dirigido), los cuales se dividen en 69 componentes conexas, ya que se trata de un grafo disconexo. De los subgrafos que la componen, cabe destacar que aquel con mayor tamaño representa prácticamente la totalidad de la red, ya que tiene 26.116 ramas y 7.942 nodos, es decir, el 99.69% del total de ramas y el 98.29% del total de nodos. El resto de componentes conexas consisten principalmente en nodos autoconectados y motivos de dos nodos conectados entre sí. Respecto a la densidad de la red completa, presenta un coeficiente de 0.0008026, por lo que no se puede considerar como densa (**mirar significado coeficiente de densidad**). A continuación se muestran las métricas más importantes obtenidas durante el análisis de la red, como la presencia de bucles o el número de K-cores presente.


Tabla con métricas. 


Respecto a la distribución de grados de la red (Figura 1), se puede observar la presencia de una gran cantidad de nodos con grado entre 0 y 25 (7.641 nodos, el 95% de la red), mientras que el número desciende enormemente conforme aumenta el número de vecinos que presentan, habiendo solo 25 nodos con un grado mayor o igual que 75 y 9 con un grado mayor o igual que 100. Esta distribución es típica de las redes libres de escala, caracterizadas por la presencia de agrupaciones de nodos, llamados *hubs*, que muestran una gran cantidad de conexiones en relación al resto de la red, que se mantiene con una densidad de conexión relativamente baja. Para determinar si verdaeramente se trata de una red de este tipo, en el siguiente apartado se procede a su comparación con grafos aleatorios. 



## Sesgos estructurales: comparación con redes aleatorias.

Con el fin de encontrar algún tipo de sesgo estructural en las características mencionadas en el apartado anterior, se procede a la comparación de las características más importantes con grafos aleatorios del mismo tamaño y orden generados mediante la función 
``gnm_random_graph``. 

Comparaciones de métricas rollo número de bucles, k-cores, ...

Comparación de medidas de centralidad: se puede meter, además de una aleatoria, una libre de escala. 

Comparación de distribución de grados de libre de escala vs aleatoria.


## Ataques a redes





## Búsqueda de comunidades

Con el fin de agrupar las proteínas que componen la red en función de las interacciones que establecen con otras proteínas, se lleva a cabo la aplicación del algoritmo de Louvain para la búsqueda de comunidades. Una comunidad consiste en agrupaciones de nodos más densamente conectados entre sí que con otros nodos, de forma que, dado que estamos trabajando con una red de interacción de proteínas, las comunidades representarán grupos de proteínas que, en principio, deberían estar más relacionadas. La presencia de las comunidades se basa en el concepto de modularidad ($Q$), una medida de la calidad de la división en comunidades de una red particular. Esta métrica viene dada por la siguiente expresión: 

\begin{equation*}
    Q = \frac{1}{2m} \sum_{i,j}\left[A_{i,j} - \frac{k_i k_j}{2m}\right]\delta(c_i,c_j)  
\end{equation*}


donde $A_{ij}$ es el número de ejes existentes entre los nodos $i$ y $j$ (en este caso, será 0 o 1), $k_i$ y $k_j$ el grado de los nodos considerados, $\delta(c_i, c_j)$ una función Delta de Kronecker que solo es 1 en el caso de que los dos nodos pertenezcan a la misma red y $m$ el total de ejes de la red, dado por la expresión $\frac{1}{2} \sum_ik_1$. En definitiva, su cálculo consiste en recorrer todos los pares de nodos ue componen la red y, solo para aquellos que pertenecen a la misma comunidad, se lleva a cabo el sumatorio de la diferencia entre el número de ejes presentes entre esos dos nodos menos el número de ejes que esperaríamos en una red aleatoria, siendo $k_ik_j/2m$. 

Esta función es utilizada como función objetivo a maximizar por los algoritmos de detección de comunidades, pero encontrar el óptimo global para una determinada red se trata de un problema de optimización combinatorial NP-completo imposible de resolver en cuanto la red presente un tamaño mediano. 
