<a href="https://colab.research.google.com/github/chsanabriam/Taller_Redes_Complejas/blob/main/Archivo_Trabajo_S6.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 2. Creación de una red utilizando NetworkX.

In [None]:
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline

# Construir un grafo vacío
G = nx.Graph()

# Añadir nodos al grafo
G.add_node(1)
G.add_nodes_from([2, 3, 4])

# Añadir aristas al grafo
G.add_edge(1, 2)
G.add_edges_from([(2, 3), (3, 4), (4, 1)])

# Número total de nodos
print(f"Número total de nodos: {G.number_of_nodes()}")

# Número total de enlaces
print(f"Número total de enlaces: {G.number_of_edges()}")


# Visualizar el grafo
nx.draw(G, with_labels=True)
plt.show()


In [None]:
# Creando un grafo a partir de un dataframe creando inicialmente un grafo vacio
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'source': [1, 2, 3, 4],
                   'target': [2, 3, 4, 1]})

# Crear un grafo vacío
G = nx.Graph()

# Añadir las aristas al grafo utilizando los datos del DataFrame
edges = df[['source', 'target']].values.tolist()
G.add_edges_from(edges)

# Visualizar el grafo
nx.draw(G, with_labels=True)
plt.show()


In [None]:
# Creando un grafo a partir de un dataframe usando from_pandas_edgelist()
import networkx as nx
import matplotlib.pyplot as plt

# Crear un DataFrame de ejemplo
df = pd.DataFrame({'source': [1, 2, 3, 4],
                   'target': [2, 3, 4, 1]})


# Crear el grafo utilizando los datos del DataFrame
# source y target sob las columnas en el dataframe que
# identifican el origen y el destino del enlace.
g = nx.from_pandas_edgelist(df, source='source', target='target')

# Visualizar el grafo
nx.draw(G, with_labels=True)
plt.show()


# 3. Análisis de propiedades de la red utilizando NetworkX.


In [None]:
# Calculo de propiedades usando networkx
import networkx as nx

# Crear un grafo de ejemplo
G = nx.Graph()
G.add_edges_from([(1, 2), (1, 3), (2, 3), (2, 4)])

# Calcular el grado de los nodos
degree = nx.degree(G)
print("Grado de los nodos:", degree)

# Calcular la centralidad de intermediación
betweenness_centrality = nx.betweenness_centrality(G)
print("Centralidad de intermediación:", betweenness_centrality)

# Calcular la centralidad de cercanía
closeness_centrality = nx.closeness_centrality(G)
print("Centralidad de cercanía:", closeness_centrality)

# Calcular la centralidad de grado
degree_centrality = nx.degree_centrality(G)
print("Centralidad de grado:", degree_centrality)

# Calcular la centralidad de autovector
eigenvector_centrality = nx.eigenvector_centrality(G)
print("Centralidad de autovector:", eigenvector_centrality)

# Calcular el coeficiente de agrupamiento
clustering_coefficient = nx.clustering(G)
print("Coeficiente de clustering:", clustering_coefficient)


# 4. Visualización avanzada de la red.

In [None]:
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')

# Crear un grafo de ejemplo
G = nx.Graph()
G.add_edges_from([(1, 2), (2, 3), (3, 4), (4, 1)])

# Personalizar la apariencia de los nodos y aristas
node_color = 'blue'
node_size = 300
edge_color = 'gray'
edge_width = 2

# Utilizar el algoritmo de disposición spring layout
pos = nx.spring_layout(G)

# Dibujar la red con las personalizaciones y la disposición mejorada
nx.draw_networkx(G, pos, node_color=node_color, node_size=node_size, edge_color=edge_color, width=edge_width)

# Mostrar la visualización
plt.axis('off')
plt.show()


# 5. Ejercicio práctico
## Análisis de la red de Facebook
J. McAuley and J. Leskovec. Learning to Discover Social Circles in Ego Networks. NIPS, 2012.

In [None]:
# Importando los datos
!wget https://github.com/chsanabriam/Taller_Redes_Complejas/raw/main/Insumos_Taller/facebook_combined.txt.gz

In [None]:
# Importamos las librerias
import pandas as pd
import numpy as np
import networkx as nx
import matplotlib.pyplot as plt
%matplotlib inline
plt.style.use('ggplot')
from random import randint

In [None]:
# Los enlaces se cargan desde la carpeta y se guardan en un dataframe. 
# Cada enlace es una nueva fila y para cada enlace hay una start_node y una end_node columna
facebook = pd.read_csv(
    "facebook_combined.txt.gz",
    compression="gzip",
    sep=" ",
    names=["start_node", "end_node"],
)
facebook.head()

In [None]:
# Revisemos el dataframe
facebook.info()

#### Creación del Grafo
El grafo se crea a partir del dataframe de aristas de Facebook.

In [None]:
G = nx.from_pandas_edgelist(facebook, "start_node", "end_node")

#### Visualización del grafo
Comencemos nuestra exploración visualizando el grafo. La visualización desempeña un papel central en el análisis exploratorio de datos para ayudar a obtener una comprensión cualitativa de los datos.

Dado que no tenemos una idea real de la estructura de los datos, comencemos por ver el grafo con `random_layout`, que es una de las funciones de distribución más rápidas.

In [None]:
fig, ax = plt.subplots(figsize=(15, 9))
ax.axis("off")
plot_options = {"node_size": 10, "with_labels": False, "width": 0.15}
nx.draw_networkx(G, pos=nx.random_layout(G), ax=ax, **plot_options)

La imagen resultante no es muy útil. Las visualizaciones gráficas de este tipo a veces se denominan coloquialmente "bolas de pelo" debido a los bordes superpuestos que resultan en un enredo confuso.

Es evidente que necesitamos imponer más estructura en la disposición de los elementos si queremos obtener una idea de los datos. Para esto, podemos utilizar la función spring_layout, que es la función de disposición predeterminada del módulo de dibujo networkx. La función spring_layout tiene la ventaja de que tiene en cuenta los nodos y las aristas para calcular las ubicaciones de los nodos. Sin embargo, la desventaja es que este proceso es mucho más costoso computacionalmente y puede ser bastante lento para grafos con cientos de nodos y miles de aristas.

Dado que nuestro conjunto de datos tiene más de 80 mil aristas, limitaremos el número de iteraciones utilizadas en la función spring_layout para reducir el tiempo de cálculo. También guardaremos la disposición calculada para poder utilizarla en futuras visualizaciones.

In [None]:
pos = nx.spring_layout(G, iterations=15, seed=1721)
fig, ax = plt.subplots(figsize=(15, 9))
ax.axis("off")
nx.draw_networkx(G, pos=pos, ax=ax, **plot_options)

Esta visualización es mucho más útil que la anterior! Ya podemos deducir algo sobre la estructura de la red; por ejemplo, muchos de los nodos parecen estar altamente conectados, como cabría esperar en una red social. También nos damos cuenta de que los nodos tienden a formar grupos. El `spring_layout`
 sirve para proporcionar una idea cualitativa de clustering, pero no está diseñado para un análisis de clustering cuantitativo y repetible. Volveremos a evaluar el clustering de la red más adelante en el análisis.

#### Atributos básicos topológicos


In [None]:
# Total de nodos

In [None]:
# Total de enlaces

In [None]:
# Grado promedio de la red

Existen muchas propiedades interesantes relacionadas con la distribución de caminos a través del grafo. Por ejemplo, el diámetro de un grafo representa la longitud del camino más largo entre dos nodos en el grafo. De manera similar, la longitud promedio de los caminos proporciona una medida del número promedio de aristas que se deben recorrer para ir de un nodo a otro en la red. Estos atributos se pueden calcular utilizando las funciones `nx.diameter` y `nx.average_shortest_path_length`, respectivamente. Sin embargo, es importante tener en cuenta que estos análisis requieren calcular el camino más corto entre cada par de nodos en la red, lo cual puede ser bastante costoso para redes de este tamaño. Dado que estamos interesados en varios análisis que involucran la longitud del camino más corto para todos los nodos en la red, podemos calcular esto una vez y reutilizar la información para ahorrar tiempo de computación.

Comencemos calculando la longitud del camino más corto para todos los pares de nodos en la red:

In [None]:
shortest_path_lengths = dict(nx.all_pairs_shortest_path_length(G))

La función `nx.all_pairs_shortest_path_length` devuelve un diccionario de diccionarios que asigna un nodo $u$ a todos los demás nodos en la red, donde el mapeo más interno devuelve la longitud del camino más corto entre los dos nodos. En otras palabras, `shortest_path_lengths[u][v]` devolverá la longitud del camino más corto entre cualquier par de nodos $u$ y $v$.

In [None]:
shortest_path_lengths[0][42]  # Longitud del camino más corto entre los nodos 0 y 42

Ahora vamos a utilizar `shortest_path_lengths` para realizar nuestros análisis, comenzando con el diámetro de $G$. Si observamos detenidamente la cadena de documentación para `nx.diameter`, veremos que es equivalente a la excentricidad máxima del grafo. Resulta que `nx.eccentricity` tiene un argumento opcional `sp` donde podemos pasar nuestros `shortest_path_lengths` precalculados para ahorrar el cálculo adicional:

In [None]:
# Esto es equivalente al diametro `diameter = nx.diameter(G), pero mucho más eficiente desde que
# reusemos los precalculados shortest path lengths!
diameter = max(nx.eccentricity(G, sp=shortest_path_lengths).values())
diameter

Para conectar desde un nodo a cualquier otro, tendríamos que atravesar 8 aristas o menos.

A continuación, se encuentra la longitud promedio del camino. Una vez más, podríamos usar `nx.average_shortest_path_length` para calcular esto directamente, pero es mucho más eficiente utilizar `shortest_path_length` que ya hemos calculado previamente.

In [None]:
# Calcular la longitud promedio de camino para cada nodo.
average_path_lengths = [
    np.mean(list(spl.values())) for spl in shortest_path_lengths.values()
]
# The average over all nodes
np.mean(average_path_lengths)

Esto representa el promedio de la longitud del camino más corto para todos los pares de nodos: en promedio, se recorrerán aproximadamente 3.6 aristas para llegar de un nodo a otro.

Las medidas anteriores capturan información útil sobre la red, pero las métricas como el valor promedio representan solo un momento de la distribución; también suele ser valioso observar la distribución en sí misma. Una vez más, podemos construir una visualización de la distribución de las longitudes de camino más cortas a partir de nuestro diccionario precomputado de diccionarios.

In [None]:
# Conocemos la longitud máxima del camino más corto (el diámetro), así que crea 
# un arreglo para almacenar valores desde 0 hasta (e incluyendo) el diámetro.
path_lengths = np.zeros(diameter + 1, dtype=int)

# Extrae la frecuencia de las longitudes de camino más cortas entre dos nodos.
for pls in shortest_path_lengths.values():
    pl, cnts = np.unique(list(pls.values()), return_counts=True)
    path_lengths[pl] += cnts

# Expresar la distribución de frecuencias como porcentaje (ignorando las longitudes de camino igual a 0).
freq_percent = 100 * path_lengths[1:] / path_lengths[1:].sum()

# Graficar la distribución de frecuencia (ignorando las longitudes de camino de 0) como porcentaje.
fig, ax = plt.subplots(figsize=(15, 8))
ax.bar(np.arange(1, diameter + 1), height=freq_percent)
ax.set_title(
    "Distribución de la longitud de camino más corto n G", fontdict={"size": 35}, loc="center"
)
ax.set_xlabel("Shortest Path Length", fontdict={"size": 22})
ax.set_ylabel("Frequency (%)", fontdict={"size": 22})

La mayoría de las longitudes de los caminos más cortos oscilan entre 2 y 5 aristas. Además, es muy improbable que un par de nodos tenga un camino más corto de longitud 8 (longitud del diámetro), ya que la probabilidad es inferior al 0,1 %.

In [None]:
# Densidad del grafo

In [None]:
# Número de componentes

Como se esperaba la red tiene una componente gigante.

#### Medidas de centralidad

**Centralidad de grado**
La centralidad de grado asigna una puntuación de importancia basada simplemente en el número de enlaces que posee cada nodo. En este análisis, esto significa que cuanto mayor sea la centralidad de grado de un nodo, más aristas están conectadas a dicho nodo y, por lo tanto, más nodos vecinos (amigos de Facebook) tiene este nodo. De hecho, la centralidad de grado de un nodo es la fracción de nodos a los que está conectado. En otras palabras, es el porcentaje de la red al que el nodo en particular está conectado, es decir, tener amigos.

* Comenzando, encontramos los nodos con las centralidades de grado más altas. Específicamente, a continuación se muestran los nodos con las 8 centralidades de grado más altas, junto con la centralidad de grado correspondiente:


In [None]:
degree_centrality = nx.centrality.degree_centrality(
    G
)  # save results in a variable to use again
(sorted(degree_centrality.items(), key=lambda item: item[1], reverse=True))[:8]

Eso significa que el nodo 107 tiene la centralidad de grado más alta con 0.259, lo que significa que este usuario de Facebook es amigo de aproximadamente el 26% de toda la red. De manera similar, los nodos 1684, 1912, 3437 y 0 también tienen centralidades de grado muy altas. Sin embargo, eso es algo esperado, ya que esos nodos son aquellos círculos de amigos de Facebook que examinamos. Muy interesante es el hecho de que los nodos 2543, 2347 y 1888 tienen algunas de las 8 centralidades de grado más altas, a pesar de que no investigamos sus círculos. En otras palabras, esos tres nodos son muy populares entre los círculos que estamos examinando ahora, lo que significa que tienen la mayoría de amigos de Facebook dentro de esta red, aparte de los nodos destacados.

Ahora también podemos ver el número de vecinos para los nodos con las centralidades de grado más altas.

In [None]:
(sorted(G.degree, key=lambda item: item[1], reverse=True))[:8]

Como se esperaba, el nodo 107 tiene 1045 amigos en Facebook, lo cual es la cifra más alta entre todos los usuarios de Facebook en este análisis. Además, los nodos 1684 y 1912 tienen más de 750 amigos en Facebook en esta red. Asimismo, los nodos 3437 y 0 tienen el siguiente mayor número de amigos en Facebook en esta red, con 547 y 347 respectivamente. Por último, los dos amigos más populares de los nodos destacados tienen alrededor de 290 amigos en Facebook en esta red.

Ahora se graficará la distribución de la centralidad de grado.

In [None]:
plt.figure(figsize=(15, 8))
plt.hist(degree_centrality.values(), bins=25)
plt.xticks(ticks=[0, 0.025, 0.05, 0.1, 0.15, 0.2])  # set the x axis ticks
plt.title("Histograma de centralidad de grado ", fontdict={"size": 35}, loc="center")
plt.xlabel("Degree Centrality", fontdict={"size": 20})
plt.ylabel("Counts", fontdict={"size": 20})

Es notorio que la gran mayoría de los usuarios de Facebook tienen centralidades de grado inferiores a 0.05. De hecho, la mayoría tiene menos de 0.0125. En realidad, esto tiene sentido porque la red consiste en listas de amigos de nodos particulares, que obviamente son los que tienen las centralidades de grado más altas. En otras palabras, debido a que solo se utilizaron las listas de amigos de nodos particulares para crear esta red en particular, muchos nodos tienen centralidades de grado extremadamente bajas, ya que no están muy interconectados en esta red.

Ahora veamos a los usuarios con las centralidades de grado más altas según el tamaño de sus nodos:

In [None]:
node_size = [
    v * 1000 for v in degree_centrality.values()
]  # set up nodes size for a nice graph representation
plt.figure(figsize=(15, 8))
nx.draw_networkx(G, pos=pos, node_size=node_size, with_labels=False, width=0.15)
plt.axis("off")