## U4 :: Análisis de estructuras en red
# **Práctica 3 - Medidas de centralidad**


---

<br>

En esta práctica revisaremos algunas las medidas de centralidad de uso más común a través de redes diferentes: 1) amistades entre los miembros de un casal fallero y 2) red de blogs que tratan temas de política en internet.

A continuación tienes enunciados con diferentes preguntas a las que debes dar respuesta.

In [1]:
from google.colab import drive
drive.mount('/content/drive')

import networkx as nx
import matplotlib.pyplot as plt

path ='/content/drive/MyDrive/Colab Notebooks/U4 :: Análisis de estructuras en red/P3/'

Mounted at /content/drive


## **PARTE 1**

Responde las preguntas 1-3 usando la red `G1`, que es una red de amistades en un casal fallero. Cada nodo corresponde a una persona, y cada enlace indica amistad entre cierto par de personas.

*La red ha sido cargada como en el grafo `G1`.*

In [2]:
import networkx as nx

G_amistades = nx.read_gml(path + 'amistades.gml')
print("Número de nodos: ", G_amistades.number_of_nodes())
print("Número de enlaces: ", G_amistades.number_of_edges())

Número de nodos:  1133
Número de enlaces:  5453


### Pregunta 1

Encuentra la centralidad de grado y la centralidad de intermediación del nodo 100.

*Esta función debe devolver una tupla de flotantes `(degree_centrality, betweenness_centrality)`.*

In [3]:
def pregunta_1(G):

  grado_nodo_100 = nx.degree_centrality(G)[100]
  intermed_nodo_100 = nx.betweenness_centrality(G)[100]
  return (grado_nodo_100, intermed_nodo_100)


print(pregunta_1(G_amistades))




(0.0026501766784452294, 7.142902633244772e-05)


<br>
<b>Para las Preguntas 2 y 3, supon que no sabes nada sobre la estructura de la red, excepto todos los valores de centralidad de los nodos. Es decir, basta con usar una de las medidas de centralidad para clasificar los nodos y encontrar el candidato más apropiado.</b>
<br>

### Pregunta 2

Supongamos que estás al cargo de una web de comercio electrónico que actualmente usan los miembros del casal fallero para realizar compras de comestibles y bebidas. Tienes la tarea de seleccionar un miembro al que se le podría enviar un cupón de compras con la expectativa de que esta persona que recibe el cupón lo envíe a tantos otros conocidos en el casal como sea posible. El cupón se puede reenviar a varias personas al mismo tiempo, pero la distancia a cubrir en el reenvío está limitada a un salto (es decir, debe haber contacto directo), lo que significa que si el cupón viaja más de un salto en esta red, ya no no sería válido. Aplica tus conocimientos en centralidad de redes para seleccionar al mejor candidato para el cupón.

*Esta función debe devolver un número `int` con el nombre del nodo.*

In [7]:
def pregunta_2(G):

   grado_nodos = nx.degree_centrality(G)
   nodo_central = max(grado_nodos, key = lambda x: grado_nodos[x])
   return nodo_central


print("El nodo mejor posicionado es:", pregunta_2(G_amistades))

El nodo mejor posicionado es: 105


### Pregunta 3

Supongamos ahora que una empresa competidora ha desarrollado una forma de *eliminar* a una persona de la red (por ejemplo, seduciéndolo con otro tipo de descuento) con el fin de dificultar la distribución del cupón de la empresa para la que trabajas. Este competidor se dirige específicamente a personas que a menudo hacen de puente en el flujo de información entre otros pares de personas.

Identifica a la persona cuya eliminación implicaría un mayor riesgo de seguir la estrategia de dicho competidor.

*Esta función debe devolver un número `int`, el nombre del nodo.*

In [9]:
def pregunta_3(G):

  intermed_nodos = nx.betweenness_centrality(G)
  nodo_elegido = max(intermed_nodos.items(), key=lambda x: x[1])
  return nodo_elegido[0]

print("El nodo elegido es:", pregunta_3(G_amistades))

El nodo elegido es: 333


## **PARTE 2**

`G2` es una red dirigida de blogs que tratan temas de política, donde cada nodo corresponde a un blog y los enlaces corresponden a blogs vinculados. Utiliza lo que sabes sobre *PageRank* para responder a las dos preguntas siguientes.

In [10]:
G_blogs = nx.read_gml(path + 'blogs.gml')
print("Número de nodos: ", G_blogs.number_of_nodes())
print("Número de enlaces: ", G_blogs.number_of_edges())

Número de nodos:  1490
Número de enlaces:  19025


### Pregunta 5

Consulta en internet cómo aplicar el algoritmo de *Scaled PageRank* a la red `G2`. Encuentra el *Page Rank* del nodo 'realclearpolitics.com' con un valor de amortiguación de 0,85.

*Esta función debe devolver un número `float`.*

In [11]:
def pregunta_5(G):

    page_rank = nx.pagerank(G, alpha=0.85)
    nodo_page_rank = page_rank['realclearpolitics.com']
    return nodo_page_rank


print("El Page Rank del nodo 'realclearpolitics.com'", pregunta_5(G_blogs))

El Page Rank del nodo 'realclearpolitics.com' 0.004636694781649098


### Pregunta 6

Aplica el algoritmo de *Scaled PageRank* a toda la red `G2` con un valor de amortiguación de 0,85 a fin de encontrar los 5 nodos con el *PageRank* más alto.

*Esta función debe devolver una lista con los 5 mejores blogs en orden descendente de Page Rank.*

In [12]:
def pregunta_6(G):

    page_rank = nx.pagerank(G, alpha=0.85)
    page_rank_ordenado = sorted(page_rank.items(), reverse=True, key=lambda x: x[1])
    top_5 = page_rank_ordenado[:5]
    top_5_blogs = [blog for blog, page_rank in top_5]
    return top_5_blogs

print("Los 5 blogs con mayor Page Rank son", pregunta_6(G_blogs))

Los 5 blogs con mayor Page Rank son ['dailykos.com', 'atrios.blogspot.com', 'instapundit.com', 'blogsforbush.com', 'talkingpointsmemo.com']


Pregunta 7

Sin abandonar este grafo, consulta en internet una medida de centralidad adicional no abordada en clase: la centralidad de cercanía.

*Esta función debe devolver los 3 blogs con mayor centralidad de cercanía*.

In [14]:
def pregunta_7(G):
  centralidad_cercania = nx.closeness_centrality(G)

  # Ordenar los nodos por centralidad de cercanía en orden descendente
  nodos_ordenados = sorted(centralidad_cercania, key=centralidad_cercania.get, reverse=True)

  # Obtener los 3 nodos con mayor centralidad de cercanía
  top_3_nodos = nodos_ordenados[:3]

  return top_3_nodos


top_3_nblogs = pregunta_7(G)
print(f"Los 3 blogs con mayor centralidad de cercanía son {top_3_nblogs}")

Los 3 blogs con mayor centralidad de cercanía son [2, 1, 3]


###Pregunta 8

Finalmente, muestra mediante un *dataframe* de Pandas un resumen de las medidas de centralidad (centralidad de grado, centralidad de cercanía, centralidad de intermediación y PageRank) para los 5 nodos más importantes del grafo.

In [17]:
import networkx as nx
import pandas as pd

def pregunta_8(G):
    # Calcular centralidad de grado
    centralidad_grado = nx.degree_centrality(G)
    # Calcular centralidad de cercanía
    centralidad_cercania = nx.closeness_centrality(G)
    # Calcular centralidad de intermediación
    centralidad_intermediacion = nx.betweenness_centrality(G)
    # Calcular PageRank
    pagerank = nx.pagerank(G, alpha=0.85)

    # Crear un DataFrame con las medidas de centralidad
    centralidad_df = pd.DataFrame({
        'Nodo': list(G.nodes),
        'Centralidad de Grado': [centralidad_grado[node] for node in G.nodes],
        'Centralidad de Cercanía': [centralidad_cercania[node] for node in G.nodes],
        'Centralidad de Intermediación': [centralidad_intermediacion[node] for node in G.nodes],
        'PageRank': [pagerank[node] for node in G.nodes]
    })

    # Seleccionar los 5 nodos más importantes basándonos en PageRank (puede ajustarse a otra medida)
    top_5_nodos = centralidad_df.sort_values(by='PageRank', ascending=False).head(5)

    return top_5_nodos

# Calcular y mostrar el DataFrame
top_5_nodos = pregunta_8(G_blogs)
top_5_nodos

Unnamed: 0,Nodo,Centralidad de Grado,Centralidad de Cercanía,Centralidad de Intermediación,PageRank
1263,dailykos.com,0.25722,0.367736,0.024816,0.017901
719,atrios.blogspot.com,0.235057,0.345373,0.041065,0.015179
1469,instapundit.com,0.243116,0.351405,0.034424,0.012627
231,blogsforbush.com,0.313633,0.287669,0.098601,0.012509
1034,talkingpointsmemo.com,0.189389,0.346052,0.005453,0.012393
