<a href="https://colab.research.google.com/github/deborapcopa/eci2019-nlp/blob/master/TPC01.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Introducción a Redes Complejas en Biología de Sistemas**



> Trabajo Computacional 1 (Entrega 05/05)



In [0]:
# Montar google Drive
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [0]:
################################################################################
#                                 PAQUETES 
################################################################################

import scipy.io as spio   #cargar matlab
import pandas as pd       #DB
import numpy as np        # matemática, simil maltab 
import networkx as nx
import matplotlib.pylab as plt

# Evitar acumulación de mensajes de warning en el display
import warnings  
warnings.filterwarnings("ignore")

#Introducción


En este cuaderno, se darán los lineamientos principales para la realización del [TPC01 - Conceptos Básicos](http://materias.df.uba.ar/scytda2020c1/files/2020/04/TC01_ConceptosBasicos.pdf). Se incluirán algunas funciones de interés, así también como propuestas de resolución de los problemas. Es importante aclarar que no es obligatorio el uso de Colab, ni de Jupiter Notebook, pero sí es necesario que se entreguen: los resultados de los ejercicios, el código implementado para la resolución y comentarios que den cuenta de la comprensión de las tareas realizadas.
Para cada ejercicio, se requiere trabajar con una base de datos distinta. Algunas redes están dadas por archivos .txt donde lo que se informa es una lista de enlaces (a veces pesados, a veces no). Otras, vienen como archivos .gml. 
[Aquí un enlace a los datos](http://materias.df.uba.ar/scytda2020c1/files/2020/04/TC01_data.zip). Tengan en cuenta que deben subirlos al directorio del cuaderno donde trabajen para poder cargarlo.

Para abrir los .txt, podemos utilizar la siguiente función:


```
def abrir_txt(nombre_archivo):
	archivo=open(nombre_archivo)
	data=[]
	for linea in archivo:
		linea=linea.strip()
		columna=linea.split()
		data.append(columna)	
	return data
```

Para abrir los .gml, se sugiere la función perteneciente a la librería networkx:
```
import networkx as nx
Red = nx.read_gml('nombre_archivo.gml')
```




In [0]:
################################################################################
#                               LOAD DATASET 
################################################################################

def abrir_txt(lista_de_enlaces_txt):
    archivo=open(lista_de_enlaces_txt)
    data=[]
    for linea in archivo:
        linea=linea.strip()
        columna=linea.split()
        data.append(columna)    
    return data

# Red = nx.read_gml(drive_as_22july06_gml)

#Ejercicio 1
1) Considere las tres redes de interacción de proteínas relevadas para levadura disponibles en la
página de la materia. Se trata de: una red de interacciones binarias (yeast_Y2H.txt), de copertenencia a complejos proteicos (yeast_AP-MS.txt) y obtenida de literatura (yeast_LIT.txt)
obtenidas del Yeast Interactome Database.

a. Presente una comparación gráfica de las 3 redes.

b. Resuma en una tabla las siguientes características de dichas redes

i. El número total de nodos, N

ii. El número total de enlaces L, de la red

iii. Si se trata de una red dirigida o no-dirigida

iv. El grado medio <k> (<kin>,<kout> en caso de red dirigida), el grado máximo y
mínimo de la red

v. La densidad de la red

vi. Los coeficientes de clustering <Ci> y CΔ de la red.

vii. Diámetro de la red.


c. Teniendo en cuenta la naturaleza de las interacciones reportadas, diga si es razonable lo
que encuentra para ciertos observables calculados.

d. Construya un diagrama de Venn que permita reconocer la cobertura, especificidad y coherencia de las interacciones reportadas por los tres datasets

-----------------------------------------------------
La idea de este ejercicio es indagar en algunas de las características topológicas principales de tres redes de interacción de proteínas de la levadura de cerveza.
##Inciso (a)
En este inciso, queremos simplemente visualizar las tres redes. Para esto, primero, necesitamos generarnos las redes a partir de las listas de enlaces obtenidas de la lectura de los .txt. Luego, podemos generar las visualizaciones con networkx.
```
import networkx as nx
import matplotlib.pylab as plt # se recomienda fuertemente importar todos los paquetes en una celda aparte al principio del cuaderno

Red_proteinas_1 = nx.Graph()
Red_proteinas_1.add_edges_from(lista_de_enlaces_1) #lista_de_enlaces_1 es la que obtuvimos aplicando la función abrir_txt a alguno de los .txt. En networkx, no es necesario agregar primero los nodos y luego los enlaces. Podemos pasar los enlaces y agrega los nodos automáticamente.
nx.draw(Red_proteinas_1)
plt.show()
```
##Inciso (b)
En este inciso buscamos comparar características topológicas de las redes. El grado, coeficiente de clustering, etc. Cada una de estas características puede obtenerse con funciones propias de la librería networkx. Recomendamos que ustedes mismxs las busquen y si tienen dudas nos consultan. Una forma interesante de dar cuenta de las distintas características de las redes es mediante una tabla. Para esto, pueden usar el paquete pandas
```
import pandas as pd
# Lo más cómodo es utilizar diccionarios para cada columna
diccionario_columna_nodos = {'Redes' : [Red_proteinas_1, Red_proteinas_2, Red_proteinas_3], 'Número de nodos' : [N1,N2,N3]} # y así una llave para cada una de las características que querramos
tabla_comparativa = pd.DataFrame(data = diccionario_columna_nodos) # Existen múltiples atributos para esta función, recomendamos fuertemente incursionar en la documentación de la librería
# Para visualizar la tabla, basta con escribir el nombre de la misma en la última línea de la celda utilizada y ejecutar
tabla_comparativa
```

##Inciso (c)
En este inciso se busca discutir lo obtenido en el anterior teniendo en cuenta la naturaleza de cada una de las redes estudiadas. 
##Inciso (d)
En este inciso se busca utilizar diagramas de Venn para estudiar qué tan distintas son las redes en el sentido de enlaces y nodos. Es decir, se sugiere realizar dos diagramas de Venn: uno para los nodos y otro para los enlaces.

In [0]:
# folders
drive_yeast_Y2H_txt = '/content/drive/My Drive/Colab NotebooksDCopa/Redes_TP1/TC01_data/yeast_Y2H.txt'
drive_yeast_AP-MS_txt = '/content/drive/My Drive/Colab NotebooksDCopa/Redes_TP1/TC01_data/yeast_AP-MS.txt'
drive_yeast_LIT_txt = '/content/drive/My Drive/Colab NotebooksDCopa/Redes_TP1/TC01_data/yeast_LIT.txt'
  
lista_de_enlaces_1 = abrir_txt(drive_yeast_Y2H_txt)
lista_de_enlaces_2 = abrir_txt(drive_yeast_AP-MS_txt)
lista_de_enlaces_3 = abrir_txt(drive_yeast_LIT_txt)

Red_proteinas_1 = nx.Graph()
Red_proteinas_1.add_edges_from(lista_de_enlaces_1) #lista_de_enlaces_1 es la que obtuvimos aplicando la función abrir_txt a alguno de los .txt. En networkx, no es necesario agregar primero los nodos y luego los enlaces. Podemos pasar los enlaces y agrega los nodos automáticamente.
nx.draw(Red_proteinas_1)

Red_proteinas_2 = nx.Graph()
Red_proteinas_2.add_edges_from(lista_de_enlaces_2) #lista_de_enlaces_2 es la que obtuvimos aplicando la función abrir_txt a alguno de los .txt. En networkx, no es necesario agregar primero los nodos y luego los enlaces. Podemos pasar los enlaces y agrega los nodos automáticamente.
nx.draw(Red_proteinas_2)

Red_proteinas_3 = nx.Graph()
Red_proteinas_3.add_edges_from(lista_de_enlaces_3) #lista_de_enlaces_3 es la que obtuvimos aplicando la función abrir_txt a alguno de los .txt. En networkx, no es necesario agregar primero los nodos y luego los enlaces. Podemos pasar los enlaces y agrega los nodos automáticamente.
nx.draw(Red_proteinas_3)

plt.show()

NameError: ignored

#Ejercicio 2
Considere la red social de 62 delfines de Nueva Zelanda (dolphins.txt).

a. Examine diferentes opciones de layout para este grafo e identifique la que le resulte más
informativa. Justifique su elección detallando las características estructurales de la red
que su elección pone en evidencia. Incluya en la representación gráfica de la red información sobre el sexo de los delfines.

b. Se trata una red donde prevalece la homofilia en la variable género? Para responder
i. Considere la distribución nula para la fracción de enlaces que vinculan géneros
diferentes, generada a partir de al menos 1000 asignaciones aleatorias de género.
ii. A partir de lo obtenido proponga una estimación para el valor y el error de dicha
cantidad cuando no existe vínculo entre topolgía de la red medio y asignación de
género. Compare su estimación con el valor medio esperado.
iii. Estime la significancia estadística (p-valor) del valor observado en el caso de la
red real.

c. (*) Identifique alguna metodología basada en observables topológicos para eliminar
nodos secuencialmente de la red de manera de dividirla en dos componentes de tamaños
comparables en el menor número de pasos. Explique y muestre los resultados obtenidos.
Intente cuantificar su estrategia comparándola con lo que se obtendría al eliminar nodos
de manera aleatoria.


---------------------------------------------------------

En este ejercicio se busca estudiar una población de delfines y tratar de entender cómo son los vínculos entre dicha población y si dichos vínculos tienen que ver con el sexo de los delfines. Basicamente, queremos entender si la población de delfines es homofílica
##Inciso (a)
La idea de este inciso es explorar las distintas posibilidades de layout que nos otorga networkx en función de determinar cuál es la mejor para dar cuenta de la estructura subyacente a la red.
Existen múltilpes layouts, la idea es que probemos tres o cuatro. Algunos de ellos son: 'spring', 'random', 'circle'.
La nomenclatura para aplicar cada uno de ellos sería:




```
# Habiendo importado las librerías networkx y matplotlib y habiendo generado los grafos basta con:
nx.draw(Red_delfines, layout = 'layout_1')
plt.show()
nx.draw(Red_delfines, layout = 'layout_2')
plt.show()
nx.draw(Red_delfines, layout = 'layout_3')
plt.show()
```

##Inciso (b)
La idea de este inciso es estudiar si existe o no homofilia en la red de delfines. La idea es estudiar la fracción de enlaces, sobre el total, que vincule delfines del mismo sexo. Una posibilidad es contar por separado aquellos enlaces que vinculan macho con macho, con los de hembra con hembra. Lo importante es comprender que resulta necesario saber si este valor es grande o chico, saber con qué compararlo. Para eso es necesario repetir el cálculo anterior (averiguar fracción de enlaces entre mismo sexo) sobre redes aleatorias. Pero enteniendo aleatoriedad en el sentido de romper algunas de las relaciones existentes en la red real pero no todas. Por ejemplo, una posibilidad es asignar los géneros aleatoriamente entre los delfines, utilizando la distribución real de géneros. Otra posibilidad es recablear la red, manteniendo la distirbución de grado intacta. Para esta última alternativa existen funciones en networkx.

##Inciso (c)*
Este inciso es opcional, pero no por ello menos importante (a no preocuparse, que en otros TPs se pide lo mismo). La idea es encontrar una estrategia para romper la red en la menor cantidad de pasos posibles. Es decir, ir eliminando nodos, o enlaces, de manera iterativa, estudiando el tamaño de la componente gigante paso a paso. Las estrategias en este tipo de trabajos se basan en el concepto de centralidad de los nodos, o enlaces, en la red.

# Ejercicio 3
3) Considere la red as-22july06.gml creada por Mark Newman que contiene la estructura de los
sistemas autónomos de internet relevada a mediados de 2006.

a. Encuentre gráficamente la distribución de grado Pk como función de k explorando
diferentes alternativas: un bineado lineal o logarítmico, utilizando escalas logarítmicas o
lineales en uno o ambos ejes. Discuta que alternativa permite apreciar mejor el carácter
libre de escala de dicha distribución.

b. Utilizando funcionalidad de la librería igraph, estime el exponente de dicha distribución

--------------------------------------------------------

La idea general de este ejercicio es, a partir de la red de sistemas autónomos de internet, adquirir la noción de distribución de grado y las distintas estrategias que pueden utilizarse para estudiar dicha distribución.
## Inciso (a)
La idea de este inciso es graficar la distribución de grado de distintas maneras para tener una apoximación a la naturaleza de dicha distribución.
Si bien existen muchas librerías que permiten generar histogramas, las dos más usuales son: numpy y matplotlib. La segunda nos permite mediante un simple comando generar el histograma y graficar al mismo tiempo. En cambio, con la primera, generamos la distribución, y después necesitamso de otra librería para graficar.


```
# Lista con los grados de los nodos (una de las posibilidades de generarla)

lista_de_grados = []
for nodo in Red.nodes()
  grado = Red.degree(nodo)
  lista_de_grados.append(grado)

# Caso 1
plt.hist(lista_de_grados) # La función plt.hist() tiene muchos atributos: cantidades de bins, normalización, etc
plt.show()

# Caso 2
hist, bins = np.histogram(lista_de_grados) # Esta función también tiene varios atributos: cantidad de bins, espaciado, etc.
# bins es un array que da cuenta de dónde comienza y dónde termina cada bin, por lo tanto, tiene un elemento más que hist, que son la cantidad de nodos que caen dentro de un determinado bin. Tenemos que definir si tomaremos el centro de los bines, el comienzo o el final. En el siguiente ejemplo tomamos el comienzo
plt.bar(x = bins[:-1], height = hist, width = np.diff(bins))
plt.show()

```
La idea es que prueben cómo se ve la distribución de grado al variar la escala con la que se grafica (lineal o logarítmica) y al variar el bineado que se utiliza, es decir: bineado lineal o bineado logaritmico (usar un tamaño de bin constante o uno que varíe).
## Inciso (b)
Se busca encontrar la relación funcional para la distribución de grado. Para esto, se recomienda utilizar la librería scipy y sus funciones para ajustar.



#Ejercicio 4
Asortatividad

a. Considere la red de colaboraciones científicas (netscience.gml) y la red de internet (asjuly06.gml). Analice si nodos de alto grado tienden a conectarse con nodos de alto grado
o por el contrario suelen conectarse a nodos de bajo grado? (i.e la red es asortativa o disortativa respecto al grado?). Para ello:

i. Determine, para nodos de grado k, cuánto vale en media el grado de sus vecinos.
[hint R: se puede estimar primero el grado medio de los vecinos de cada nodo de
la red y luego utilizar aggregate sobre esos datos, que permite estimar cantidades
sobre subconjuntos determinados de datos de acuerdo a diferentes criterios]

ii. Analizar la tendencia observada en un gráfico que consigne dicho valor knn(k)
como función del grado.

iii. Asumiendo que k_{nn}(k)=akmu
, estime el exponente de correlación a partir de
realizar una regresión de . Asegurese de graficar el fiteo en el
grafico anterior. [hint R: lm permite hacer regresiones lineales]

iv. Considere la red de colaboraciones y la de internet nuevamente Encuentre
cuantitativamente la asortatividad de la red utilizando ahora el estimador
propuesto por Newman:

Para ello tenga encuenta lo desarrollado en las eqs [8.26 – 8.29] del libro de
Newman.Como se corresponde este coeficiente con el estimado en el punto
anterior? A qué se debe?

b. Corra el script de cálculo (puntos i-iii) para las redes Y2H y AP-MS. Puede explicar lo
que observa en cuanto a la asortatividad reportada?

------------------------------------------

La idea principal de este ejercicio es estudiar si en las redes propuestas (ojo, la red de colaboraciones es una red pesada) existe asortatividad en el grado. Más en general, comprender cuál es el grado medio de los vecinos de un nodo, en función del grado de este nodo. A su vez, se pide que se repita el análisis para las redes de proteínas vistas anteriormente.

# Inciso (a)
Para este inciso, es importante entender los pasos necesarios para llevar acabo la tarea pedida. Entendemos que, en primer lugar, es recomendable trabajar con el diccionario de nodos y sus respesctivos grados antes que una lista de grados (pensar, de forma alternativa, si puede ser útil trabajar con un diccionario cuyas llaves -keys- sean los distintos grados y los valores -values- listas de nodos con determinado grado). A su vez, para tener acceso a los vecinos de un nodo, podemos hacer uso de la matriz de adyacencia de la red, pero también tenemos una función de la librería networkx que nos permite acceder a un iterable con los vecinos de determinado nodo:



```
# Opción 1
vecinos_nodo_i = Red.neighbors(i) # donde Red es un nx.Graph() e i un nodo cualquiera

# Opción 2
vecinos_nodo_i = Red[i] # ojo porque acá obtenemos un diccionario donde podemso tener información sobre el enlace entre el nodo i y sus vecinos (por ejemplo el peso)
```
La idea final es que estudiemos la relación entre el grado medio de los vecinos de los nodos de grado k en función de k. El estudio de esta relación se debe hacer en base a los dos modelos propuestos (Newman y Barabasai) sobre el origen de la asortatividad.

## Inciso (b)
Repetir lo anterior pero para las redes de proteínas



# Recomendaciones
Dejamos acá links a la documentación de las librerías utilizadas en esta práctica. Sepan que no hay que saber todo lo que puede hacer una librería, pero sí saber cómo leer la documentación. El día de mañana nos puede ser muy útil. También, vayan a foros: el error que les salta, ya lo tuvieron otrxs.



*   Numpy : https://docs.scipy.org/doc/numpy/reference/
*   Scipy : https://docs.scipy.org/doc/scipy/reference/
*   Networkx : https://networkx.github.io/documentation/stable/reference/index.html
*   Matplotlib : https://matplotlib.org/3.2.1/contents.html
*   Pandas : https://pandas.pydata.org/docs/reference/index.html
*   Posible foro : https://stackoverflow.com/

Dos aclaraciones: a veces resulta más fácil buscar directamente la función y la librería que navegar por toda la librería. Además, tengan cuidado en sus compus de estar usando la versión de la librería a la cual hace referencia la documentación (sobre todo consideren esto si no están laburando con Colab).
