## U4:: Análisis de estructuras en red
# **Práctica 3 - Medidas de centralidad**


---

<br>

En esta práctica revisaremos algunas las medidas de centralidad de uso más común a través de redes diferentes: 1) amistades entre los miembros de un casal fallero y 2) red de blogs que tratan temas de política en internet.

A continuación tienes enunciados con diferentes preguntas a las que debes dar respuesta.

In [56]:
# # Usa las siguientes líneas si te son de utilidad
# 
# from google.colab import drive
# drive.mount('/content/drive')
# 
# import networkx as nx
# import matplotlib.pyplot as plt
# 
# path ='/content/drive/MyDrive/Colab Notebooks/U4 :: Análisis de estructuras en red/P3/'

## **PARTE 1**

Responde las preguntas 1-3 usando la red `G1`, que es una red de amistades en un casal fallero. Cada nodo corresponde a una persona, y cada enlace indica amistad entre cierto par de personas.

*Carga los datos del fichero 'amistades.gml' en el grafo `G1` y muestra el número de nodos y enlaces que lo componen.*

In [57]:
import networkx as nx
import pandas as pd

G1 = nx.read_gml('./amistades.gml')

print(f"El grafo se compone de {len(G1.nodes)} nodos y {len(G1.edges)} enlaces")

El grafo se compone de 1133 nodos y 5453 enlaces


### Pregunta 1

Encuentra la centralidad de grado y la centralidad de intermediación del nodo 100.

*Esta función debe devolver una tupla de flotantes `(degree_centrality, betweenness_centrality)`.*

In [58]:
def pregunta_1(G):
    degree_centrality = nx.degree_centrality(G)
    betweenness_centrality = nx.betweenness_centrality(G)
    return degree_centrality[100], betweenness_centrality[100]


pregunta_1(G1)

(0.0026501766784452294, 7.142902633244772e-05)

<br>
<b>Para las Preguntas 2 y 3, supon que no sabes nada sobre la estructura de la red, excepto todos los valores de centralidad de los nodos. Es decir, basta con usar una de las medidas de centralidad para clasificar los nodos y encontrar el candidato más apropiado.</b>
<br>

### Pregunta 2

Supongamos que estás al cargo de una web de comercio electrónico que actualmente usan los miembros del casal fallero para realizar compras de comestibles y bebidas. Tienes la tarea de seleccionar un miembro al que se le podría enviar un cupón de compras con la expectativa de que esta persona que recibe el cupón lo envíe a tantos otros conocidos en el casal como sea posible. El cupón se puede reenviar a varias personas al mismo tiempo, pero la distancia a cubrir en el reenvío está limitada a un salto (es decir, debe haber contacto directo), lo que significa que si el cupón viaja más de un salto en esta red, ya no sería válido. Aplica tus conocimientos en centralidad de redes para seleccionar al mejor candidato para el cupón.

*Esta función debe devolver un número `int` con el nombre del nodo.*

In [59]:
def pregunta_2(G):
    degree_centrality = nx.degree_centrality(G)
    most_central_node = sorted(degree_centrality.items(), key=lambda x: x[1], reverse=True)[0]
    return most_central_node[0]


pregunta_2(G1)

105

### Pregunta 3

Supongamos ahora que una empresa competidora ha desarrollado una forma de *eliminar* a una persona de la red (por ejemplo, seduciéndolo con otro tipo de descuento) con el fin de dificultar la distribución del cupón de la empresa para la que trabajas. Este competidor se dirige específicamente a personas que a menudo hacen de puente en el flujo de información entre otros pares de personas.

Identifica a la persona cuya eliminación implicaría un mayor riesgo de seguir la estrategia de dicho competidor.

*Esta función debe devolver un número `int`, el nombre del nodo.*

In [60]:
def pregunta_3(G):
    betweenness_centrality = nx.betweenness_centrality(G)
    most_central_node = sorted(betweenness_centrality.items(), key=lambda x: x[1], reverse=True)[0]
    return most_central_node[0]


pregunta_3(G1)

333

## **PARTE 2**

`G2` es una red dirigida de blogs que tratan temas de política, donde cada nodo corresponde a un blog y los enlaces corresponden a blogs vinculados. Utiliza lo que sabes sobre *PageRank* para responder a las dos preguntas siguientes.

*Carga los datos del fichero 'blogs.gml' en el grafo `G2` y muestra el número de nodos y enlaces que lo componen.*

In [61]:
G2 = nx.read_gml('./blogs.gml')

print(f"The graph has {len(G2.nodes)} nodes and {len(G2.edges)} edges.")

The graph has 1490 nodes and 19025 edges.


### Pregunta 5

Aplica el algoritmo de *Scaled PageRank* a la red `G2`. Encuentra el *Page Rank* del nodo 'realclearpolitics.com' con un valor de amortiguación de 0,85.

*Esta función debe devolver un número `float`.*

In [62]:
def pregunta_5(G):
    ranks = nx.pagerank(G, alpha=.85)
    return ranks['realclearpolitics.com']


pregunta_5(G2)

0.004636694781649098

### Pregunta 6

Aplica el algoritmo de *Scaled PageRank* a toda la red `G2` con un valor de amortiguación de 0,85 a fin de encontrar los 5 nodos con el *PageRank* más alto.

*Esta función debe devolver una lista con los 5 mejores blogs en orden descendente de Page Rank.*

In [63]:
def pregunta_6(G):
    ranks = nx.pagerank(G, alpha=.85)
    top_5_ranks = [key for key, value in sorted(ranks.items(), key=lambda x: x[1], reverse=True)[:5]]
    return top_5_ranks


pregunta_6(G2)

['dailykos.com',
 'atrios.blogspot.com',
 'instapundit.com',
 'blogsforbush.com',
 'talkingpointsmemo.com']

###Pregunta 7

Sin abandonar este grafo, consulta en internet una medida de centralidad adicional no abordada en clase: la centralidad de cercanía.

*Esta función debe devolver los 3 blogs con mayor centralidad de cercanía*.

In [64]:
def pregunta_7(G):
    closeness = nx.closeness_centrality(G)
    top_3_closeness = [key for key, value in sorted(closeness.items(), key=lambda x: x[1], reverse=True)[:3]]
    return top_3_closeness


pregunta_7(G2)

['dailykos.com', 'instapundit.com', 'talkingpointsmemo.com']

###Pregunta 8

Finalmente, muestra mediante un *dataframe* de Pandas un resumen de las medidas de centralidad (centralidad de grado, centralidad de cercanía, centralidad de intermediación y PageRank) para los 5 nodos más importantes del grafo.

In [65]:
def pregunta_8(G):
    degree = nx.degree_centrality(G)
    closeness = nx.closeness_centrality(G)
    betweenness = nx.betweenness_centrality(G)
    ranks = nx.pagerank(G)

    degree_top_5 = [f"{key} ({value:.2f})" for key, value in
                    sorted(degree.items(), key=lambda x: x[1], reverse=True)[:5]]
    closeness_top_5 = [f"{key} ({value:.2f})" for key, value in
                       sorted(closeness.items(), key=lambda x: x[1], reverse=True)[:5]]
    betweenness_top_5 = [f"{key} ({value:.2f})" for key, value in
                         sorted(betweenness.items(), key=lambda x: x[1], reverse=True)[:5]]
    ranks_top_5 = [f"{key} ({value:.2f})" for key, value in sorted(ranks.items(), key=lambda x: x[1], reverse=True)[:5]]

    result_df = pd.DataFrame({
        'Degree centrality': degree_top_5,
        'Closeness centrality': closeness_top_5,
        'Betweeness centrality': betweenness_top_5,
        'PageRank': ranks_top_5,
    })

    return result_df


pregunta_8(G2)

Unnamed: 0,Degree centrality,Closeness centrality,Betweeness centrality,PageRank
0,blogsforbush.com (0.31),dailykos.com (0.37),blogsforbush.com (0.10),dailykos.com (0.02)
1,dailykos.com (0.26),instapundit.com (0.35),atrios.blogspot.com (0.04),atrios.blogspot.com (0.02)
2,instapundit.com (0.24),talkingpointsmemo.com (0.35),instapundit.com (0.03),instapundit.com (0.01)
3,atrios.blogspot.com (0.24),atrios.blogspot.com (0.35),dailykos.com (0.02),blogsforbush.com (0.01)
4,talkingpointsmemo.com (0.19),drudgereport.com (0.33),newleftblogs.blogspot.com (0.02),talkingpointsmemo.com (0.01)
