# Taller de Manejo y Análisis de Datos

**Profesor**: Pedro Montealegre


## Introducción: Análisis de redes en Python

En matemáticas y ciencias de la computación, los *grafos* son estructuras usadas para representar relaciones entre pares de elementos. Un grafo está compuesto de *vértices* (también llamados *nodos* o *puntos*) que están conectados por *aristas* (también llamados *arcos*, *conexiones* o *líneas*).

Un grafo puede  *dirigido*, lo que siginifica que las conexiones no son necesariamente simétricas: un nodo `a` puede tener una arista (apuntar) al nodo `b`, y al mismo tiempo `b` **no** tener una arista hacia el nodo `a`. La dirección de las conexiones se representa con una flecha. 


<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/a2/Directed.svg/440px-Directed.svg.png" width="200">
</div>

o bien puede ser *no-dirigido*, lo que significa que todas las conexiones son simétricas: si hay una arista desde  `a` hacia `b` entonces también hay una arista desde  `b` hacia `a`. Por lo tanto, en este caso se dibujan las aristas simplemente como líneas. 

<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/b/bf/Undirected.svg/440px-Undirected.svg.png" width="200">
</div>
    
Los grafos se pueden usar para representar diversos tipos de relaciones y procesos en sistemas físicos, biológicos y sociales.  Muchos problemas prácticos se pueden representar por grafos. Para enfatizar su aplicación a sistemas del "mundo real", a veces se emplea el término *red* (*network*) en lugar de *grafo*, sobre todo cuando se considera que cada nodo y/o arista está etiquetada con ciertos atributos (por ejemplo nombres).    
    
Los grafos son, por lo tanto, una herramienta fundamental para el manejo y análisis de datos. 

Los grafos son uno de los principales objetos de estudios de la *matemática discreta*. Su estudio en matemáticas se conoce como la *teoría de grafos* (Graph Theory) y también en ciencias de la computación se conoce como *Ciencia de Redes* (Network Science).



## Networkx

En este capítulo vamos a aprender acerca del módulo de Python llamado `NetworkX`. Este módulo está dedicado principalmente en la creación, manipulación y el estudio de *grafos* (o *redes*).

Comencemos instalando el módulo. 

In [None]:
pip install networkx

Convencionalmente el módulo `networkx` se importa con la abreviación `nx`, y en este cuaderno no haremos excepción a esta convención:

In [None]:
import networkx as nx

### Definición matemática de grafos

Formalmente, un grafo $G$ es un par de conjuntos $(V,E)$ donde $V$ se conoce como el conjunto de *vertices* y $E$ es un subconjunto $V \times V$, llamado conjunto de *aristas* o *arcos*. 

Cuando el grafo es *no-dirigido* definimos el conjunto de aristas de manera un poco más concisa. Como sabemos que para cada par $(u,v) \in E$ se tiene que también $(v,u) \in E$, entonces simplemente definimos las aristas como conjuntos $\{u,v\}$ de dos elementos de $V$. 

Si el grafo no es dirigido y $\{u,v\}$ pertenece al conjunto de aristas $E$ decimos que $u$ y $v$ son *adjacentes*, y que $v$ es un *vecino* de $u$. 

Si el grafo es dirigido y $(u,v)$ es una aista, decimos que $u$ es un vecino *entrante* de $v$ y que $v$ es un vecino *saliente* de $u$. 

Convencionalmente, a menos que se diga lo contrario, cuando decimos **grafo** nos referimos a un grafo no-dirigido, y usamos el término **digrafo** para referirnos a un grafo dirigido. 

## Definiendo grafos con `NetworkX`

`NetworkX` tiene métodos distintos para crear grafos y digrafos. 

Comencemos creando un grafo, que inicialmente estará vacío, es decir, no tendrá ni nodos ni aristas:

### Agregando Nodos

Se le puede agregar nodos a $G$ o $D$ de diversas maneras. `NetworkX` incluye varios funciones generadoras de grafos y digrafos que facilitan la lectura y escritura de grafos en múltiples formatos. 

Para comenzar, veamos algunas manipulaciones simples. 

* En primer lugar, podemos agregar nodos uno a uno:

In [None]:
G = nx.Graph()

De manera similar, podemos crear un digrafo usando el método `DiGraph`:

In [None]:
D = nx.DiGraph()

In [None]:
G.add_node(1)

In [None]:
D.add_node("a")

* O agregar varios nodos entregándole cualquier tipo de secuencia (iterable), por ejemplo:

In [None]:
G.add_nodes_from([2,3])

In [None]:
D.add_nodes_from("bc") 
# Obs: se lee el string "bc" como la lista con el caracter "b" y luego "c"

## Dibujar grafos

`NetworkX` incluye métodos simples para dibujar grafos, los cuales utilizan `Matplotlib` y un software de visualización de grafos llamado `graphviz`. 

In [None]:
import matplotlib.pyplot as plt

In [None]:
pip install decorator==5.0.9

En este caso usaremos el método `draw_networkx` el cual, entre otros, recibe como argumentos un grafo `G`, unos ejes `ax` y varias otras opciones para cambiar colores, tipografías, etc.

Para más detalles ver la documentación: https://networkx.org/documentation/stable/reference/drawing.html

In [None]:
# Primero, creamos una figura con dos ejes
fig, ax = plt.subplots(1,2,figsize = (10,5))

# En unos ejes deibujamos el grafo
nx.draw_networkx(G, ax = ax[0])

# Y en los otros el digrafo
nx.draw_networkx(D, ax = ax[1])

Observamos que por el momento no hay ninguna arista (dado que no hemos agregado ninguna), es decir, tenemos **grafos vacíos**.  Veamos como se puede ir agregando aristas a nuestros grafos. 

### Agregando aristas

Podemos agregar aristas a un grafo de una a la vez con el método `add_edge`:

In [None]:
# Agregamos:
G.add_edge(1, 2) # una conexión entre el nodo "1" y el nodo "2"
D.add_edge("a", "b") # Una arista dirigida que va desde "a" a "b"

Veamos como quedaron los grafos resultantes:

In [None]:
fig, ax = plt.subplots(1,2,figsize = (10,5))
nx.draw_networkx(G, ax = ax[0])
nx.draw_networkx(D, ax = ax[1])

Una observación importante es que si agregamos una arista entre nodos que no están previamente definidos, entonces se crearan esos nodos.

In [None]:
# Agregamos:
G.add_edge(3, 4) # una conexión entre el nodo "3" y el nodo "4" (inexistente)
D.add_edge("c", "d") # Una arista dirigida que va desde "c" a "d" (inexistente)

fig, ax = plt.subplots(1,2,figsize = (10,5))
nx.draw_networkx(G, ax = ax[0])
nx.draw_networkx(D, ax = ax[1])

También podemos agregar listas de aristas, usando el método `add_edges_from()`

In [None]:
# El método clear se usa para eliminar todos los nodos y aristas
G.clear() 
D.clear()

# Agregamos aristas como listas de pares
G.add_edges_from((["a","b"],["b","c"])) 
D.add_edges_from([(1,2),(2,3)]) 

fig, ax = plt.subplots(1,2,figsize = (10,5))
nx.draw_networkx(G, ax = ax[0])
nx.draw_networkx(D, ax = ax[1])

Podemos conocer los elementos de un grafo con los atributos `nodes` y `edges`:

In [None]:
print("Los nodos de G son", list(G.nodes), "y sus aristas son", list(G.edges))
print("Los nodos de D son", list(D.nodes), "y sus aristas son", list(D.edges))

Usando estos atributos, podemos agregar todos los vértices o aristas de un grafo en otro:

In [None]:
G.add_edges_from(D.edges) # Agregamos a G las aristas de D

# Dibujamos el resultado
fig, ax = plt.subplots(figsize = (5,5))
nx.draw_networkx(G, ax = ax)

Observamos que como $G$ es no-dirigido, las aristas de $D$ se agregan sin dirección. 

### Eliminando elementos de un grafo

Se pueden eliminar nodos y aristas de un grafo de manera similar a como se añaden. 

Los métodos son:
`Graph.remove_node()`,
`Graph.remove_nodes_from()`,
`Graph.remove_edge()`
y
`Graph.remove_edges_from()`, por ejemplo:

In [None]:
D.add_edges_from([(1,2),(1,4),(2,3),(3,4),(4,5)]) 
D.edges

In [None]:
D.clear()

# Agregamos aristas como listas de pares
D.add_edges_from([(1,2),(1,4),(2,3),(3,4),(4,5)]) 

fig, ax = plt.subplots(1,3,figsize = (15,8))

nx.draw_networkx(D,ax=ax[0], node_color = ["r","r","w","w","w"], edge_color= ["k","k","k","k","r"])
D.remove_nodes_from([1,2]) # Borramos los nodos 1 y 2
nx.draw_networkx(D,ax=ax[1], node_color = "w",edge_color= ["k","r"])
D.remove_edge(3,4) # Borramos la arista (3,4)
nx.draw_networkx(D,ax=ax[2], node_color = "w")

ax[0].set_title("Vamos a borrar los nodos y aristas rojos")
ax[1].set_title("Borramos los nodos rojos")
ax[1].set_title("Borramos la arista roja")

-----

## Ejercicio:

1. Construya el siguiente grafo y dibújelo. 
<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/5/5b/6n-graf.svg/440px-6n-graf.svg.png" width="200">
</div>

**HINT** Mire la documentación del método `draw_networkx` para asignar las posiciones. 


In [None]:
# Escriba aquí su solución

2. Construya el siguiente digrafo y dibújelo. 


<div>
<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/7/77/DirectedDegrees.svg/440px-DirectedDegrees.svg.png" width="200">
</div>


In [None]:
# Escriba aquí su solución

----

## Examinando los elementos de un grafo

Como vimos antes, podemos conocer la lista de nodos y de aristas de un grafo llamando a los atributos `.nodes` y `.edges` de un grafo `G`

In [None]:
G.nodes

In [None]:
G.edges

Estos atributos tienen un tipo iterable específico de NetworkX, `NodeView` y `EdgeView`, respectivamente:

In [None]:
type(G.nodes)

In [None]:
type(G.edges)

Al igual que en otros casos, podemos obtener transformar estos objetos a una lista con el comando `list`

In [None]:
print(list(G.nodes))
print(list(G.edges))

Dado un grafo $G$ y un nodo $v$, el *grado* de $v$, denotado $d(v)$, corresponde al número de vecinos que tiene el nodo. 

Podemos conocer el grado de un nodo `x` con el método `G.degree[x]`

In [None]:
G.degree[2]

De manera más general, `G.degree` entrega un objeto del tipo `DegreeView`, que se puede transformar en una lista de pares $(v, d(v))$

In [None]:
list(G.degree)

Tenemos métodos simples para conocer el tamaño del grafo (número de vértices)

In [None]:
G.number_of_nodes()

o simplemente

In [None]:
len(G)

De manera similar podemos conocer el número de aristas

In [None]:
G.number_of_edges()

o también

In [None]:
G.size()

Un grafo es iterable, lo que significa que podemos "recorrerlo" en un ciclo for. La iteración corresponderá a un recorrido sobre sus vértices:

In [None]:
for i in G:
    print(i)

Por otra parte, si `x` es un nodo, entonces con `G[x]` obtenemos un objeto de tipo `AtlasView`, el cual se puede transformar en la lista de vecinos de un nodo: 

In [None]:
list(G[1])

lo cual también se puede obtener escribiendo

## Grafos dirigidos

La clase `DiGraph` provee métodos adicionales y propiedades específicas para grafos dirigidos. Por ejemplo `DiGraph.out_edges`, `DiGraph.in_degree`:



In [None]:
D.clear()
D.add_edges_from([(1,2),(1,4),(2,3),(3,4)]) 

fig, ax = plt.subplots(figsize = (5,5))
ax.axis("off")
nx.draw_networkx(D, ax = ax, node_color = "white")

In [None]:
list(D.in_degree)

In [None]:
list(D.out_degree)

Para permitir que los algoritmos funcionen para ambas tanto grafos como digrafos, la versión dirigida de `degree` entrega la suma de `in_degree` y `out_degree`:

In [None]:
list(D.degree)

## Generadores de grafos


Networkx incluye también varias funciones generadoras de grafos pre-definidos. Aquí veremos algunos ejemplos importantes.

Podemos encontrar la lista de generadores de grafos pre definidos en la documentacion:
https://networkx.org/documentation/stable/reference/generators.html

**Ejemplos**

Un **camino** es un grafo de vertices $V = \{v_1, \dots, v_n\}$ y aristas $\{v_i, v_{i+1}\} $ para cada $i \in \{1,\dots, n-1\}$. 

Usando el método `path_graph(n)` podemos hacer un camino de `n` nodos. 

In [None]:
P = nx.path_graph(8)

fig, ax = plt.subplots(figsize = (5,5))
nx.draw_networkx(P)
ax.axis("off");

Un **grafo completo** es un grafo de que contiene todas las aristas posibles. 

Usando el método `complete_graph(n)` podemos generar el grafo completo de `n` nodos. 

In [None]:
K = nx.complete_graph(6)

fig, ax = plt.subplots(figsize = (5,5))
nx.draw_networkx(K)
ax.axis("off");


Los *grafos de Erdös-Renyi*, también conocidos como *grafos binomiales*, son un tipo de grafos aleatorios. Se definen por dos parametros $G(n,p)$, donde $n$ es un natural y $p$ es un valor $[0,1]$. 

El grafo $G(n,p)$ se define tomando un grafo de $n$ nodos y conectando cada par de vértices con probabilidad $p$ (y no conectándolos con probabilidad $1-p$). Usando la función `erdos_renyi_graph(n,p)` podemos generar una realización de un grafo $G(n,p)$. 

In [None]:
G = nx.erdos_renyi_graph(100,1/10)

fig, ax = plt.subplots(figsize = (10,10))
# Achicamos el tamaño de los nodos y borramos las etiquetas
nx.draw_networkx(G, node_size=20, with_labels = False) 
ax.axis("off");

Otro modelo importante de grafos aleatorios son los *grafos de Barabási-Albert*. Estos grafos se definen por dos parámetros $n$ y $m$ con $m<n$. Se construyen comenzando de un grafo de $m$ nodos aleatorios. A continuación se agregan nodos de manera secuencial hasta alcanzar los $n$ nodos. Cada vez que se agrega un nodo, éste se conecta con $m$ otros nodos ya presentes en el grafo. 

Cada vez que se agrega un nodo nuevo, la regla de conexión se conoce como *preferential attachment*. Ésta regla consiste en escoger vecinos de manera directamente proporcional a su grado. 

Más precisamente, llamemos $G_i$ al grafo que se tiene al momento de agregar al $i$-ésimo nodo $v_i$. Entonces escogemos $m$ vecinos del nodo $v_i$, escogiendo como vecino al nodo $v_j$ con probabilidad: $$\frac{d_{v_j}}{\sum_{k=1}^{i-1}d(v_k)}$$


Usando la función `barabasi_albert_graph(n,m)` podemos generar una realización de un grafo de Barabási-Albert de parámetros $n$ y $m$.

In [None]:
G = nx.barabasi_albert_graph(100,1)

fig, ax = plt.subplots(figsize = (10,10))
# Achicamos el tamaño de los nodos y borramos las etiquetas
nx.draw_networkx(G, node_size = 20, with_labels = False)
ax.axis("off");

----
## Ejercicio

Escriba un programa que haga una figura de 2 filas y dos columnas. En la primera fila se grafica un grafo de Erdös Renyi de paramestros $n=100$ y $p=1/20$, y un grafo de Barabási-Albert de parametros $n=100$ y $m=1$. En la segunda fila se grafican histogramas de los grados de cada grafo. 

In [None]:
# Escriba aquí su solución

----