# Teoría de Grafos y su Implementación en Python

La teoría de grafos es una rama de las matemáticas y la informática que estudia las relaciones entre pares de objetos y cómo estas relaciones pueden ser representadas y analizadas matemáticamente. Un grafo consta de vértices (o nodos) y aristas (o conexiones) que los conectan. En este cuaderno, exploraremos cómo podemos modelar y visualizar grafos usando Python.

## Importación de Bibliotecas

Para comenzar, importaremos la biblioteca `numpy`. Esta biblioteca nos proporcionará las herramientas necesarias para trabajar con matrices y realizar operaciones matriciales, que son fundamentales al tratar con grafos y matrices de adyacencia.

In [None]:
import warnings
warnings.filterwarnings('ignore')

import numpy as np

## Creación de un Grafo Erdos-Renyi

Un modelo popular en la teoría de grafos es el modelo Erdos-Renyi. En este modelo, se comienza con \( N \) vértices aislados y se añade entre cada par de vértices una arista con probabilidad \( p \). En otras palabras, cada posible arista tiene una probabilidad \( p \) de estar presente en el grafo.

En el código a continuación, inicializamos un grafo con \( N = 100 \) vértices y una probabilidad \( p = 0.1 \) de que exista una arista entre cualquier par de vértices. El resultado es una matriz de adyacencia, donde cada entrada (i, j) es 1 si hay una arista entre los vértices i y j, y 0 en caso contrario.

In [None]:
#grafo Erdos-Renyi binario no dirigido
N=100
p=0.02 #va entre 0 y 1

grafo=np.zeros((N,N))
for i in range(N):
    for j in range(i+1,N):
        if np.random.random()<p:
            grafo[i,j]=1
            grafo[j,i]=1

## Visualización de la Matriz de Adyacencia

Para visualizar la matriz de adyacencia del grafo que hemos creado, utilizaremos la biblioteca `matplotlib`. Esta biblioteca nos permite generar una variedad de gráficos y visualizaciones en Python.

In [None]:
import matplotlib.pyplot as plt
import matplotlib.cm as cm

A continuación, visualizamos la matriz de adyacencia del grafo utilizando `matshow`. Las celdas en blanco representan ceros (sin arista) y las celdas en negro representan unos (presencia de una arista).

In [None]:
plt.matshow(grafo,cmap='gray')
plt.colorbar()
plt.show()

## Creación y Visualización del Grafo con NetworkX

`networkx` es una biblioteca de Python diseñada específicamente para trabajar con grafos. Con ella, podemos crear, manipular y estudiar la estructura, dinámica y funciones de grafos complejos.

In [None]:
import networkx as nx

Para trabajar más eficientemente con nuestro grafo y poder visualizarlo, convertiremos nuestra matriz de adyacencia en un objeto de grafo usando `networkx`.

In [None]:
G=nx.from_numpy_array(grafo)

Ahora que tenemos nuestro objeto de grafo, podemos visualizarlo. A continuación, visualizamos el grafo usando dos disposiciones diferentes: una disposición predeterminada y una disposición circular.

In [None]:
# Define la posición de los nodos usando uno de los algoritmos de layout, como spring_layout
pos = nx.spring_layout(G, k=0.3, seed=42)  # seed para reproducibilidad

# Dibuja los nodos
nx.draw_networkx_nodes(G, pos, node_size=200, node_color='skyblue', alpha=0.6)

# Dibuja las aristas
nx.draw_networkx_edges(G, pos, width=2, alpha=1, edge_color='gray')

# Dibuja las etiquetas de los nodos
nx.draw_networkx_labels(G, pos, font_size=12, font_family='sans-serif')

plt.title("Visualización Mejorada del Grafo del Karate Club")
plt.axis('off')  # Oculta los ejes para mejorar la visualización
plt.show()

In [None]:
# Define la posición de los nodos usando el layout circular
pos = nx.circular_layout(G)

# Configura el tamaño del gráfico para tener una forma más equilibrada
plt.figure(figsize=(8, 8))  # Tamaño del gráfico en pulgadas (ancho, alto)

# Dibuja los nodos
nx.draw_networkx_nodes(G, pos, node_size=100, node_color='skyblue', alpha=0.6)

# Dibuja las aristas
nx.draw_networkx_edges(G, pos, width=1, alpha=1, edge_color='gray')

# Dibuja las etiquetas de los nodos
nx.draw_networkx_labels(G, pos, font_size=8, font_family='sans-serif')

plt.title("Visualización Mejorada del Grafo del Karate Club con Layout Circular")
plt.axis('off')  # Oculta los ejes para mejorar la visualización
plt.show()

## Introducción a la Detección de Comunidades

En el estudio de redes y grafos, una **comunidad** se refiere a un grupo de nodos que están más densamente conectados entre sí que con el resto de la red. En otras palabras, los miembros de una comunidad tienden a tener más enlaces entre sí que con nodos fuera de la comunidad. Estos grupos pueden ser evidencia de estructuras organizativas, módulos funcionales, o agrupaciones de nodos con propiedades o roles similares.

La **detección de comunidades** es una tarea crucial en la ciencia de redes, ya que permite revelar la estructura interna de las redes y obtener una visión más detallada de su funcionamiento y organización.

Las comunidades pueden surgir en una variedad de contextos en redes reales. Por ejemplo:

- En una **red social**, las comunidades pueden corresponder a grupos de amigos, familias, colegas de trabajo, entre otros.
- En una **red de coautoría científica**, las comunidades pueden corresponder a campos de investigación o instituciones académicas.
- En una **red de interacciones proteína-proteína**, las comunidades pueden corresponder a complejos proteicos o vías metabólicas.

La detección de comunidades es, en esencia, un problema de agrupación o *clustering*, pero aplicado a la estructura de la red en lugar de a vectores de características de los nodos. El objetivo es identificar los grupos de nodos (comunidades) que están más estrechamente relacionados entre sí.

En términos matemáticos, podemos describir una comunidad de la siguiente manera:

- Dado un grafo $G = (V, E)$, donde $V$ es el conjunto de todos los nodos y $E$ es el conjunto de todos los enlaces, una **comunidad** $C$ es un subconjunto de nodos $V$ tal que hay más enlaces entre los nodos en $C$ que entre los nodos en $C$ y los nodos en el conjunto complementario $V \setminus C$.

Aquí, $V \setminus C$ denota la diferencia de conjuntos entre $V$ y $C$ - en otras palabras, es el conjunto de todos los nodos que *no* están en la comunidad $C$.

Por lo tanto, la densidad de enlaces dentro de la comunidad $C$ es mayor que la densidad de enlaces entre $C$ y $V \setminus C$. Esto es lo que significa decir que los nodos dentro de una comunidad están "más densamente conectados" entre sí que con el resto de la red.

La **detección de comunidades** es entonces el proceso de identificar estas comunidades dentro de la red. En otras palabras, estamos buscando subconjuntos de nodos que tengan esta propiedad de densidad de enlace superior.

Existen varios algoritmos y enfoques para la detección de comunidades en redes, cada uno con sus propias fortalezas y debilidades. Algunos de estos métodos se basan en la optimización de una función objetivo, como la modularidad, mientras que otros utilizan técnicas de agrupamiento basadas en la estructura de la red.


# Definición de Modularidad y su importancia en la detección de comunidades

La modularidad es una medida de la estructura de la red que se utiliza para evaluar la calidad de una división particular de la red en comunidades. Se calcula como la fracción de los enlaces que caen dentro de las comunidades en comparación con el número esperado de enlaces que caerían dentro de las comunidades si los enlaces fueran distribuidos al azar.

Matemáticamente, la modularidad $Q$ se define como:

$$Q = \frac{1}{2m} \sum_{ij} \left[ A_{ij} - \frac{k_ik_j}{2m} \right] \delta(c_i,c_j)$$

Donde:

- $A_{ij}$ es la matriz de adyacencia, que es 1 si hay un enlace entre los nodos $i$ y $j$, y 0 en caso contrario.
- $k_i$ y $k_j$ son los grados de los nodos $i$ y $j$, respectivamente, es decir, el número de enlaces que conectan con el nodo.
- $m$ es el número total de enlaces en la red.
- $c_i$ y $c_j$ son las comunidades a las que pertenecen los nodos $i$ y $j$, respectivamente.
- $\delta(c_i,c_j)$ es la función delta de Kronecker, que es 1 si $c_i=c_j$ y 0 en caso contrario.

El término $\frac{k_ik_j}{2m}$ representa el número esperado de enlaces entre los nodos $i$ y $j$ si los enlaces fueran distribuidos al azar, manteniendo los grados de los nodos fijos.

En términos simples, la modularidad es alta si el número de enlaces dentro de las comunidades es mayor de lo esperado al azar, y es baja si el número de enlaces es igual o menor de lo esperado. Por lo tanto, un buen agrupamiento en comunidades tendrá una modularidad alta.

Un aspecto importante a tener en cuenta es que la modularidad sufre de una resolución limitada: para redes muy grandes, puede fallar al detectar comunidades pequeñas. Además, la maximización de la modularidad es un problema NP-completo, lo que significa que encontrar la partición de máxima modularidad puede ser computacionalmente costoso para redes grandes.


# Métodos para la Detección de Comunidades

Hay muchos métodos disponibles para la detección de comunidades en redes. Algunos de los más populares incluyen el método de Louvain y el algoritmo de Girvan-Newman. Cada método tiene sus propias ventajas y desventajas, y puede ser más adecuado para ciertos tipos de redes o problemas de detección de comunidades.

## Algoritmo de Girvan-Newman

El algoritmo de Girvan-Newman es un método popular para la detección de comunidades que se basa en la idea de "betweenness" de los enlaces, que es una medida de la centralidad en una red.

En términos sencillos, la centralidad de intermediación de un enlace se define como el número de caminos más cortos entre cualquier par de nodos que pasan por ese enlace. En el contexto de la detección de comunidades, los enlaces con alta intermediación son los que conectan comunidades, ya que cualquier camino que pase de una comunidad a otra debe pasar por estos enlaces.

El algoritmo funciona de la siguiente manera:

1. Calcula la centralidad de intermediación para todos los enlaces en la red.
2. Elimina el enlace con mayor centralidad de intermediación.
3. Recalcula la centralidad de intermediación para todos los enlaces restantes.
4. Repite los pasos 2 y 3 hasta que no queden enlaces.
5. Al final, cada nodo se encuentra en su propia comunidad. La partición con la mayor modularidad a lo largo de este proceso es la que se selecciona como la división de la comunidad.

Este algoritmo tiene la ventaja de que no requiere un número predefinido de comunidades, y puede encontrar comunidades de diferentes tamaños. Sin embargo, tiene la desventaja de que el cálculo de la centralidad de intermediación es computacionalmente costoso, especialmente para redes grandes. Además, este algoritmo puede no ser efectivo si hay enlaces "puente" con baja centralidad de intermediación que conectan comunidades.

In [None]:
# Crea un grafo de Karate Club como ejemplo
G = nx.karate_club_graph()

# Aplica el algoritmo de Girvan-Newman
communities_generator = nx.algorithms.community.centrality.girvan_newman(G)

# Convierte el generador en una lista
communities = list(communities_generator)

# Imprime el desglose en dos comunidades (primera partición)
print("Desglose en dos comunidades: ", communities[0])

# Imprime el desglose en tres comunidades (segunda partición)
print("Desglose en tres comunidades: ", communities[1])

# Y así sucesivamente

In [None]:
# Inicializa la modularidad máxima en -1
max_modularity = -1

# Inicializa la mejor división en None
best_division = None

# Recorre todas las particiones generadas
for division in communities:
    partition = {}
    for i, community in enumerate(division):
        for node in community:
            partition[node] = i

    # Calcula la modularidad de la partición actual
    modularity = nx.algorithms.community.quality.modularity(G, division)

    # Si la modularidad de la partición actual es mayor que la modularidad máxima encontrada hasta ahora
    if modularity > max_modularity:
        # Actualiza la modularidad máxima y la mejor división
        max_modularity = modularity
        best_division = partition

# Imprime la mejor división y su modularidad
print("Mejor división: ", best_division)
print("Modularidad de la mejor división: ", max_modularity)

In [None]:
# Genera una lista de colores de la misma longitud que el número de comunidades
colors = ["#1f77b4", "#ff7f0e", "#2ca02c", "#d62728",
          "#9467bd", "#8c564b", "#e377c2", "#7f7f7f",
          "#bcbd22", "#17becf"]

# Asigna a cada nodo un color en función de su comunidad
node_colors = [colors[best_division[node]] for node in G.nodes]

# Dibuja el grafo
plt.figure(figsize=(10, 10))
nx.draw(G, node_color=node_colors, with_labels=True)
plt.show()

## Algoritmo de Propagación de Etiquetas

El Algoritmo de Propagación de Etiquetas, propuesto por Raghavan, Albert y Kumara en 2007, es una técnica simple y rápida para la detección de comunidades. Este método se basa en la idea de que una etiqueta (o comunidad) puede propagarse de un nodo a sus vecinos.

El algoritmo se ejecuta de la siguiente manera:

1. Inicialmente, cada nodo tiene una etiqueta única. Esta etiqueta representa la comunidad a la que pertenece el nodo.

2. En cada paso, los nodos son visitados de manera aleatoria. Cada nodo adopta la etiqueta que la mayoría de sus vecinos tienen en ese momento. En caso de empate, se selecciona una etiqueta al azar.

3. El algoritmo se detiene cuando cada nodo tiene la etiqueta que la mayoría de sus vecinos tienen.

### Ventajas y desventajas del Algoritmo de Propagación de Etiquetas

**Ventajas**:

*  Es muy simple de entender e implementar.
*  Es muy rápido y eficiente en términos de tiempo de ejecución.
*  No requiere ninguna configuración de parámetros.
*  Es capaz de detectar comunidades de diferentes tamaños.

**Desventajas**:

*  Puede no ser tan preciso como otros métodos más sofisticados.
*  La solución puede no ser óptima ya que depende de la secuencia de visitas a los nodos.
*  Puede producir resultados diferentes en diferentes ejecuciones debido a su naturaleza estocástica.
*  Te proporcionaré un ejemplo de código para mostrar cómo funciona esto en la siguiente respuesta.

In [None]:
# Carga el grafo del libro los miserables
G = nx.les_miserables_graph()

# Ejecuta el algoritmo de propagación de etiquetas
communities_generator = nx.algorithms.community.label_propagation.asyn_lpa_communities(G)

# Convierte el generador en una lista
communities = list(communities_generator)

# Inicializa un diccionario vacío para la partition
partition = {}

# Llena el diccionario con la partición
for i, community in enumerate(communities):
    for node in community:
        partition[node] = i

# Imprime la partición
print(partition)

In [None]:
# Genera una lista de colores de la misma longitud que el número de comunidades
colors = ["#1f77b4", "#ff7f0e", "#2ca02c", "#d62728", "#9467bd", "#8c564b", "#e377c2", "#7f7f7f", "#bcbd22", "#17becf"]

# Asigna a cada nodo un color en función de su comunidad
node_colors = [colors[partition[node]] for node in G.nodes]

# Dibuja el grafo
plt.figure(figsize=(10, 10))
nx.draw(G, node_color=node_colors, with_labels=True)
plt.show()