# **Análisis Estadístico de Redes Sociales:** *Taller 1*

## Valentina Cardona Saldaña

In [None]:
# Paquetes
import pandas as pd
import numpy as np

#import igraph as ig
import networkx as nx

import matplotlib.pyplot as plt
import seaborn as sns

import warnings

### Ejercicio 1
Reproducir los ejemplos 3.1, 3.2, 3.3, 4.2, 4.4 de [Gestión de datos relacionales](https://rpubs.com/jstats1702/931287) en Python usando igraph y/o NetworkX

#### 3.1 Ejemplo: Red binaria no dirigida

In [None]:
# red binaria no dirigida
G1 = nx.Graph()
G1.add_edges_from([(1,2), (1,3), (2,3), (2,4), (3,5), (4,5), (4,6), (4,7), (5,6), (6,7)])

In [None]:
# Clase de objeto
print(type(G1))

In [None]:
# Identificador
id(G1)

In [None]:
# Vértices / Nodos
list(G1.nodes)

In [None]:
# Orden
## Número de nodos
print(G1.number_of_nodes())

## Otra forma
print(G1.order())

In [None]:
# Aristas
list(G1.edges)

In [None]:
# Tamaño
## Número de aristas
print(G1.number_of_edges())

## Otra forma
print(G1.size())

In [None]:
# Ponderada?
nx.is_weighted(G1)

In [None]:
# Simple?
not G1.is_multigraph()

In [None]:
# Visualización

## Establecer la semilla
np.random.seed(21022024)

## Sin etiquetas (Por defecto)
plt.figure()
plt.title("Red binaria no dirigida")
nx.draw(G1)
plt.show()

In [None]:
# Visualización

## Establecer la semilla
np.random.seed(21022024)

## Con etiquetas
plt.figure()
plt.title("Red binaria no dirigida")
nx.draw(G1, with_labels = True)
plt.show()

#### 3.2 Ejemplo: Red ponderada no dirigida

In [None]:
# red ponderada no dirigida
G2 = G1.copy()

## Establecer la semilla
np.random.seed(21022024)
## Establecer los pesos
weights = list(np.round(np.random.rand(G1.size()), 3))

## Iterar sobre las aristas del grafo y asignar los pesos
for i, edge in enumerate(G1.edges()):
    G2[edge[0]][edge[1]]['weight'] = weights[i]
    
## Verificación
print(G2.edges(data = 'weight'))

In [None]:
# Ponderada?
nx.is_weighted(G2)

In [None]:
# Visualización

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Red ponderada no dirigida")
widths = nx.get_edge_attributes(G2, 'weight')
## Multiplica cada valor por 5
widths_scaled = [5 * width for width in widths.values()]
nx.draw(G2, with_labels = True, width = widths_scaled)
plt.show()

#### 3.3 Ejemplo: Red binaria dirigida

In [None]:
# red binaria dirigida
D1 = nx.DiGraph()
D1.add_edges_from([(1,2), (1,3), (2,3), (3,2)])

In [None]:
# Aristas
list(D1.edges())

In [None]:
# Etiquetas
## Establecer el nombre de los nodos
names = {1: "Juan", 2: "Maria", 3: "Pedro"}
D1 = nx.relabel_nodes(D1, names)

# Atributo 'sexo' como atributo
sexo = {"Juan": "M", "Maria": "F", "Pedro": "M"}
nx.set_node_attributes(D1, sexo, "sexo")

# Aristas
print(D1.nodes(data = True))

In [None]:
# Visualización

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Red binaria dirigida")
nx.draw(D1, with_labels = True, node_size = 1000)
plt.show()

#### 4.2 Ejemplo: Red binaria no dirigida

In [None]:
# red binaria no dirigida
G1 = nx.Graph()
G1.add_edges_from([(1,2), (1,3), (2,3), (2,4), (3,5), (4,5), (4,6), (4,7), (5,6), (6,7)])

In [None]:
# Visualización

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Red binaria no dirigida")
nx.draw(G1, with_labels = True)
plt.show()

In [None]:
# Matriz de adyacencia
A = nx.adjacency_matrix(G1)

# Clase de objeto
type(A)

In [None]:
print(A)

In [None]:
# Convertir la matriz dispersa a una matriz densa
Y = A.todense()
## Otra forma
#Y = nx.to_numpy_array(G1)

# Clase de objeto
type(Y)

In [None]:
# Simétrica?
np.array_equal(Y, Y.T)

In [None]:
print(Y)

In [None]:
# Versión vectorizada exhaustiva
r = np.arange(len(Y))

mask = r[:,None]<r

## Triangular inferior
yvec1 = Y.T[mask]

print(yvec1)

In [None]:
# Versión vectorizada indexada
yvec2 = np.where(yvec1 == 1)

print(yvec2[0])

#### 4.4 Ejemplo: Red binaria no dirigida (cont.)

In [None]:
# Matriz de aristas
n = Y.shape[0]
A = []
for i in range(n-1):
    for j in range(i+1, n):
        if Y[i, j] == 1:
            A.append([i+1, j+1])  # Suma 1 a i y j para que los índices comiencen desde 1

A = np.array(A)

In [None]:
# Clase de objeto
type(A)

In [None]:
print(A)

### Ejercicio 2
Considere el grafo $G = (V,E)$, con

$V = \{1, 2, 3, 4, 5\}$ y $E = \{\{1, 2\}; \{1, 3\}; \{2, 3\}; \{2, 4\}; \{2, 5\}; \{3, 5\}; \{4, 5\}\}$.

(a) Visualizar G.

(b) Calcular el orden, el tamaño, y el diámetro del grafo.

(c) Calcular el grado de cada vértice.

(d) Graficar el subgrafo generado por los nodos 1, 2, 3, y 4.

In [None]:
# Definir grafo
G3 = nx.Graph()
G3.add_nodes_from([1, 2, 3, 4, 5])
G3.add_edges_from([(1,2), (1,3), (2,3), (2,4), (2,5), (3,5), (4,5)])

print(G3.nodes())
print(G3.edges())

In [None]:
# (a) Visualizar G

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Red binaria no dirigida")
nx.draw(G3, with_labels = True, node_color = '#22bbbb', node_size = 500)
plt.show()

In [None]:
# (b) Calcular el orden, el tamaño, y el diámetro del grafo.

print("Orden del grafo: ", G3.order())
print("Tamaño del grafo: ", G3.size())
print("Diámetro del grafo: ", nx.diameter(G3))

In [None]:
# (c) Calcular el grado de cada vértice.

#print(G3.degree())

for nodo, grado in G3.degree():
    print("El grado del nodo", nodo, "es:", grado)

In [None]:
# (d) Graficar el subgrafo generado por los nodos 1, 2, 3, y 4.

## Eliminar nodo 5
G3.remove_node(5)

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Subgrafo con nodos 1, 2, 3 y 4")
nx.draw(G3, with_labels = True, node_color = '#22bbbb', node_size = 500)
plt.show()

### Ejercicio 3
Considere el digrafo $G = (V,E)$, con

$V = \{1, 2, 3, 4, 5\}$ y $E = \{(1, 3); (2, 3); (2, 4); (2, 5); (3, 1); (3, 5); (4, 5); (5, 4)\}$.

(a) Visualizar G.

(b) Calcular el orden, el tamaño, y el diámetro del grafo.

(c) Calcular el grado de cada vértice del grafo.

(d) Graficar el subgrafo generado por los nodos 1, 2, 3, y 4.

In [None]:
# Crear digrafo
D2 = nx.DiGraph()
D2.add_nodes_from([1, 2, 3, 4, 5])
D2.add_edges_from([(1,3), (2,3), (2,4), (2,5), (3,1), (3,5), (4,5), (5,4)])

print(D2.nodes())
print(D2.edges())

In [None]:
# (a) Visualizar G.

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Red binaria dirigida")
nx.draw(D2, with_labels = True, node_color = '#bbbb22', node_size = 500)
plt.show()

In [None]:
# (b) Calcular el orden, el tamaño, y el diámetro del grafo.
print("Orden del digrafo: ", D2.order())
print("Tamaño del digrafo: ", D2.size())
print("Diámetro del digrafo: ", nx.diameter(D2.to_undirected()))

In [None]:
# (c) Calcular el grado de cada vértice del grafo.

## Calcular el grado de entrada y de salida de cada nodo
grado_entrada = dict(D2.in_degree())
grado_salida = dict(D2.out_degree())

## Imprimir los grados de cada nodo
for nodo in D2.nodes():
    grado_in = grado_entrada.get(nodo, 0)
    grado_out = grado_salida.get(nodo, 0)
    print("El nodo", nodo, "tiene grado de entrada:", grado_in, "y grado de salida:", grado_out)

In [None]:
# (d) Graficar el subgrafo generado por los nodos 1, 2, 3, y 4.

## Eliminar nodo 5
D2.remove_node(5)

## Establecer la semilla
np.random.seed(21022024)

plt.figure()
plt.title("Subgrafo con nodos 1, 2, 3 y 4")
nx.draw_circular(D2, with_labels = True, node_color = '#bbbb22', node_size = 500)
plt.show()

### Ejercicio 4
Una triada es un subgrafo generado a partir de una tripla de vértices.

(a) Graficar todos los posibles estados triádicos no dirigidos.

(b) Identificar los estados isomorfos.

In [None]:
# (a) Graficar todos los posibles estados triádicos no dirigidos.

## Establecer la semilla
np.random.seed(21022024)

## Crear grafo con 3 nodos
G4 = nx.Graph()
G4.add_nodes_from([1, 2, 3])

## Definir la posición de los nodos
pos = {1: (0, 0), 2: (0, 1), 3: (1, 0)}

## Crear la figura y los ejes
fig, axes = plt.subplots(3, 3)
fig.set_size_inches(10, 10)

## Definir una función para dibujar la red en cada subfigura
def draw_graph(graph, ax, pos, **kwargs):
    ## Dibujar los nodos y las aristas
    nx.draw(graph, ax=ax, pos=pos, with_labels=True, node_color='lightblue', node_size=500, **kwargs)
    ## Limitar los ejes para que se ajusten al rectángulo
    ax.set_xlim(-0.5, 1.5)
    ax.set_ylim(-0.5, 1.5)

## Dibujar cada configuración en una subfigura diferente
configurations = [
    [(1, 2)], 
    [(1, 3)], 
    [(2, 3)], 
    [(1, 2), (1, 3)], 
    [(2, 1), (2, 3)], 
    [(3, 1), (3, 2)], 
    [(1, 2), (1, 3), (2, 3)], 
    []
]

for i, config in enumerate(configurations):
    ## Agregar las aristas correspondientes
    G4.add_edges_from(config)
    ## Dibujar la red en la subfigura correspondiente, excepto para la última
    if i < 8:
        draw_graph(G4, ax=axes[i//3, i%3], pos=pos)
        ## Agregar el número de la subfigura en la esquina superior izquierda
        axes[i//3, i%3].text(0.05, 0.95, str(i+1), transform=axes[i//3, i%3].transAxes, fontsize=12,
                            verticalalignment='top', bbox=dict(facecolor='white', alpha=0.5))
    ## Remover las aristas para la próxima configuración
    G4.remove_edges_from(config)

## Eliminar los ejes para la última subfigura
axes[2, 2].axis('off')

## Mostrar el gráfico
plt.tight_layout()
plt.show()

In [None]:
# (b) Identificar los estados isomorfos.

## Inicializar una lista para almacenar los gráficos
graphs = []

## Generar los gráficos y agregarlos a la lista
for config in configurations:
    G = nx.Graph()
    G.add_edges_from(config)
    graphs.append(G)

## Determinar qué gráficos son isomorfos
for i in range(len(graphs)):
    for j in range(len(graphs)):
        if j > i and nx.is_isomorphic(graphs[i], graphs[j]):
            print(f"Los gráficos {i+1} y {j+1} son isomorfos.")

### Ejercicio 5

Visualizar todos los grafos (no dirigidos) conectados con 4 vértices.

In [None]:
## Establecer la semilla
np.random.seed(21022024)

fig, axes = plt.subplots(2, 3, figsize = (10, 5))

## Función
def draw_square_configuration(plots, ax):
    G = nx.Graph()
    G.add_nodes_from([1, 2, 3, 4])
    G.add_edges_from(plots)
    
    ## Coordenadas de los nodos
    pos = {1: (0, 1), 2: (1, 1),
           3: (0, 0), 4: (1, 0)}
    
    ## Dibujar el grafo
    nx.draw(G, pos = pos, ax = ax, with_labels = True,
            node_color = 'lightblue', node_size = 500, font_size = 12)

## Configuraciones
conf = {
    "1": [(1, 2), (2, 4), (4, 3), (3, 1)],
    "2": [(1, 3), (3, 4), (4, 2)],
    "3": [(1, 3), (3, 4), (3, 2)],
    "4": [(1, 3), (3, 4), (4, 2), (3, 2)],
    "5": [(1, 3), (3, 4), (4, 2), (2, 1), (3, 2)],
    "6": [(1, 3), (3, 4), (4, 2), (2, 1), (3, 2), (1, 4)],
}

## Ciclo por cada grafo
for (title, plots), ax in zip(conf.items(), axes.flatten()):
    draw_square_configuration(plots, ax)
    ax.set_title(title, fontsize = 12, fontweight = "extra bold")

fig.tight_layout()
plt.show()

### Ejercicio 6
Escribir una rutina que reconstruya la matriz de adyacencia a partir de la matriz
de aristas y una lista de vértices.

(a) Simular una red no dirigida de 25 nodos generada a partir de enlaces aleatorios independientes e idénticamente distribuidos con probabilidad de éxito 0.1.

(b) Probar la rutina con la red simulada.

(c) Visualizar la red simulada por medio de un grafo y una socio-matriz.

In [None]:
# Función
def matriz_adyacencia(matriz_aristas, lista_vertices):
    ## Inicializar una matriz de adyacencia llena de ceros
    n = len(lista_vertices)
    matriz_adj = np.zeros((n, n), dtype = int)
    
    ## Recorrer la matriz de aristas
    for arista in matriz_aristas:
        ## Obtener los índices de los vértices
        vertice_1 = arista[0] - 1  ## Restar 1 para ajustar al índice de Python (comienza en 0)
        vertice_2 = arista[1] - 1
        
        ## Marcar la conexión en ambas direcciones
        matriz_adj[vertice_1, vertice_2] = 1
        matriz_adj[vertice_2, vertice_1] = 1
    
    return matriz_adj

In [None]:
# (a) Simular una red no dirigida de 25 nodos generada a partir de enlaces aleatorios independientes e idénticamente distribuidos con probabilidad de éxito 0.1.

## Establecer la semilla
np.random.seed(21022024)

## Número de nodos
n = 25

## Lista de vértices
G6_Vertices = list(range(1, n + 1))

## Matriz de matriz de aristas
G6_Aristas = []

## Iterar sobre todas las parejas de nodos y agregar un enlace con la probabilidad dada
for i in G6_Vertices:
    for j in range(i+1, n+1):
        if np.random.binomial(1, 0.1) == 1:
            G6_Aristas.append([i, j])
            
print(G6_Aristas)

In [None]:
# (b) Probar la rutina con la red simulada.
A = matriz_adyacencia(G6_Aristas, G6_Vertices)

# Clase de objeto
print(type(A))
# Simétrica?
print(np.array_equal(A, A.T))
# Visualizar A
print(A)

In [None]:
# (c) Visualizar la red simulada por medio de un grafo y una socio-matriz.

## Crear grafo de la matriz de adyacencia
G6 = nx.from_numpy_array(A)
## Establecer el nombre de los nodos
mapping = {i: v for i, v in enumerate(G6_Vertices)}
G6 = nx.relabel_nodes(G6, mapping)

## Establecer la semilla
np.random.seed(21022024)

## Ignorar advertencias
warnings.filterwarnings("ignore")

## Crear una figura y ejes para los subplots
fig, axs = plt.subplots(1, 2, figsize = (12, 6))

## Primer subplot: Grafo
plt.sca(axs[0])
plt.title("Red no dirigida simulada")
pos = nx.spring_layout(G6, k = 0.15, iterations = 20)
nx.draw(G6, pos = pos, with_labels = True, node_color = '#F6CEFC', node_size = 400)

## Segundo subplot: Heatmap
plt.sca(axs[1])
sns.heatmap(A, annot = False, cmap = sns.cubehelix_palette(as_cmap = True), vmin = 0, vmax = 1, square = True)
plt.xticks(ticks=np.arange(0.5, len(G6_Vertices)), labels=G6_Vertices)
plt.yticks(ticks=np.arange(0.5, len(G6_Vertices)), labels=G6_Vertices)
plt.title('Socio-matriz')

## Ajustar diseño
plt.tight_layout()

## Mostrar los subplots
plt.show()


### Ejercicio 7
Escribir una rutina que reconstruya la matriz de aristas y la lista de vértices a partir de la matriz de adyacencia.

(a) Simular una red no dirigida de 25 nodos generada a partir de enlaces aleatorios independientes e idénticamente distribuidos con probabilidad de éxito 0.1.

(b) Probar la rutina con la red simulada.

(c) Visualizar la red simulada por medio de un grafo y una socio-matriz.

In [None]:
# Función
def aristas_y_vertices(matriz_adj):
    ## Obtener el tamaño de la matriz de adyacencia
    n = len(matriz_adj)
    
    ## Lista para almacenar las aristas y la lista de los vértices
    aristas = []
    lista_vertices = list(range(1, n+1))
    
    ## Recorrer la matriz de adyacencia para encontrar las aristas
    for i in range(n):
        for j in range(i+1, n):  ## Solo mitad superior de la matriz debido a la simetría
            if matriz_adj[i, j] == 1:
                aristas.append([i+1, j+1])  ## Añadir 1 para ajustar al índice de los vértices
    
    return aristas, lista_vertices

In [None]:
#(a) Simular una red no dirigida de 25 nodos generada a partir de enlaces aleatorios independientes e idénticamente distribuidos con probabilidad de éxito 0.1.

## Establecer la semilla
np.random.seed(21022024)

## Número de nodos
n = 25

## Matriz de adyacencia llena de 0s
G7_MatrizAdj = np.zeros((n, n), dtype = int)

## Iterar sobre matriz y agregar un enlace con la probabilidad dada
for i in range(n):
    for j in range(i+1, n):
        if np.random.binomial(1, 0.1) == 1:
            G7_MatrizAdj[i, j] = 1
            G7_MatrizAdj[j, i] = 1
            
print(G7_MatrizAdj)

In [None]:
# (b) Probar la rutina con la red simulada.
G7_Aristas, G7_Vertices = aristas_y_vertices(A)

print(G7_Vertices)
print(G7_Aristas)

In [None]:
# (c) Visualizar la red simulada por medio de un grafo y una socio-matriz.

## Crear grafo a partir de la matriz de aristas y lista de vértices
G7 = nx.Graph()
G7.add_nodes_from(G7_Vertices)
G7.add_edges_from(G7_Aristas)

## Establecer la semilla
np.random.seed(21022024)

## Ignorar advertencias
warnings.filterwarnings("ignore")

## Crear una figura y ejes para los subplots
fig, axs = plt.subplots(1, 2, figsize = (12, 6))

## Primer subplot: Grafo
plt.sca(axs[0])
plt.title("Red no dirigida simulada")
pos = nx.spring_layout(G7, k = 0.15, iterations = 20)
nx.draw(G7, pos = pos, with_labels = True, node_color = '#F6CEFC', node_size = 400)

## Segundo subplot: Heatmap
plt.sca(axs[1])
sns.heatmap(A, annot = False, cmap = sns.cubehelix_palette(as_cmap = True), vmin = 0, vmax = 1, square = True)
plt.xticks(ticks=np.arange(0.5, len(G7_Vertices)), labels=G7_Vertices)
plt.yticks(ticks=np.arange(0.5, len(G7_Vertices)), labels=G7_Vertices)
plt.title('Socio-matriz')

## Ajustar diseño
plt.tight_layout()

## Mostrar los subplots
plt.show()

### Ejercicio 8
Escribir una rutina que simule redes tanto dirigidas como no dirigidas a partir de enlaces aleatorios independientes e idénticamente distribuidos con una probabilidad de éxito dada. Esta rutina debe tener como argumentos el orden de la red, la probabilidad de interacción (por defecto 0.5), el tipo de red (por defecto como no dirigida) y la semilla (por defecto 123), y además, tener como retorno una versión vectorizada de la matriz de adyacencia y una visualización. Probar esta rutina generando cuatro casos diferentes

In [163]:
# Función
def red_simulada(orden, prob = 0.5, tipo = "No dirigida", semilla = 123):
    
    ## Establecer la semilla
    np.random.seed(semilla)
    
    ## Tipo de red
    if tipo == "No dirigida":
        ## Iterar sobre número de nodos (orden) y agregar un enlace con la probabilidad dada
        edges = [(i, j) for i in range(1, orden+1) for j in range(i+1, orden+1) if np.random.binomial(1, prob) == 1]
        ## Crear grafo
        g = nx.Graph()
        g.add_nodes_from(list(range(1, orden+1)))
        g.add_edges_from(edges)
        
    
    elif tipo == "Dirigida":
        edges = []
        for _ in range(2):  # Replicar el comportamiento del bucle while ejecutándolo dos veces
            edges.extend([(i, j) for i in range(1, orden+1) for j in range(i+1, orden+1) if np.random.binomial(1, prob) == 1])

        g = nx.DiGraph()
        g.add_nodes_from(list(range(1, orden+1)))
        g.add_edges_from(edges)

    else:
        return "Tipo de red no válida"
    
    ## Matriz de Adyacencia
    MatrizAdj = nx.adjacency_matrix(g).todense()
    ## Versión vectorizada
    r = np.arange(len(MatrizAdj)) 
    ## Triangulares
    Vec = f"Triangular inferior: {MatrizAdj.T[r[:, None] < r]}"
    if tipo == "Dirigida":
        Vec += f"\nTriangular superior: {MatrizAdj.T[r[:, None] > r]}"

    ## Ignorar advertencias
    warnings.filterwarnings("ignore")
    ## Visualización
    plt.figure(figsize = (8, 6))
    pos = nx.spring_layout(g)
    nx.draw(g, pos, with_labels = True, node_color = 'skyblue', node_size = 500)
    plt.title("Red Simulada Dirigida" if tipo == "Digida" else "Red Simulada No Dirigida")
     
    return Vec, plt

### Ejercicio 9 ??
Considere el conjunto de datos dado en el archivo ```addhealth.RData``` disponible en la página web del curso. Estos datos fueron recopilados por *The National Longitudinal Study of Adolescent Health* y están asociados con un estudio escolar sobre salud y comportamientos sociales de adolescentes de varias escuelas en los Estados Unidos.
Los participantes nominaron hasta 5 niños y 5 niñas como amigos y reportaron el número de actividades extracurriculares en las que participaron juntos.

El archivo ```addhealth.RData``` contiene una lista con dos arreglos, ```X y E. X``` tiene tres campos: ```female``` (0 = No, 1 = Sí), ```race``` (1 = Blanco, 2 = Negro, 3 = Hispano, 4 = Otro) y ```grade``` (grado del estudiante). ```E``` también tiene tres campos: ```V1``` (vértice de salida) ```V2``` (vértice de llegada) y ```activities``` (número de actividades extracurriculares).

(a) Identificar y clasificar las variables nodales.

(b) Identificar y clasificar las variables relacionales.

(c) Calcular el orden, el tamaño, y el diámetro de la red.

(d) Visualizar la red sin tener en cuenta las variables nodales por medio de un grafo y una socio-matriz.

(e) Identificar el top 5 de los nodos más propensos a emitir/recibir relaciones.

### Ejercicio 10
Sintetizar y replicar la sección 2.4.2 (Special Types of Graphs, p. 24) de Kolaczyk and Csárdi (2020).