# Metricas de una red Individual.

Ahora que sabemos como cargar y visualizar datos de twitter, veamos algunas formas de analizar estos datos de forma cuantitativa.

Para esta sección nos centraremos en alunas métricas de rede a nivel de nodo, digamos que nos gustaria entender quién e el usuario mas importante de la red o encontrar el grupo de ususarios más influyentes , aquellos que son las élites de la comunicación.

Aquí es donde entra el concepto de centralidad, esta es una métric en el análisis de redes sociales que intenta encontrar el nodo más importante en una red determinada.

Hay muchas formas diferentes de hacer esto, pero vamos a centrarnos en dos formas:

* centralidad de grado :

![](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.f0Y1reAERxyLJtydibkvGgHaFj%26pid%3DApi&f=1)

 Esta es la medida más simple de centralidad, es una medida de cuántos bordes están conectados a un nodo en particular.En una red dirigida , podemos descomponer aún mas en grados de entrada y salida.Recordemos que las redes de Twitter están dirigdas, lo que significa que los bordes solo van en una dirección y no son mutuos.
 - In-degree: Es el número de bordes que entran en un nodo.

 - Out-degree- Es el numero de bordes que salen de un nodo.

Podemos pensar en esto como la cantidad de veces que alguien es retuiteado frente a la cantidad de retuits que hacen.


* Centralidad de intermediación.

![](https://external-content.duckduckgo.com/iu/?u=https%3A%2F%2Ftse1.mm.bing.net%2Fth%3Fid%3DOIP.MswpgOqaLy1h53AS8LI26QHaFj%26pid%3DApi&f=1)


Mide cuántas rutas más cortas entre pares de nodos deben pasar por un nodo dado, pensemos en un aeropuerto , no tiene que tener muchos planos entrantes para ser importante, pero si nos concetamos a muchas partes del mundo entre si, tendriamos una alta centralidad de intermediación.

Para las métricas a nivel de nodo , a menudo queremos ver que los usuarios tienen el valor mas alto para un tipo particular de centralidad.



In [2]:
from urllib.request import urlretrieve
import pandas as pd
import networkx as nx
import matplotlib.pyplot as plt


retweets = 'https://assets.datacamp.com/production/repositories/2161/datasets/51e79668580cdb86969c2c625172eaed2ded684a/sotu2018-rt.csv'
urlretrieve(retweets)
sotu_retweets = pd.read_csv(retweets)

replies = 'https://assets.datacamp.com/production/repositories/2161/datasets/55860c218310485e9400997ae33aecd0e97f8b51/sotu2018-reply.csv'
urlretrieve(replies)
sotu_replies = pd.read_csv(replies)

G_rt = nx.from_pandas_edgelist(
    sotu_retweets,
    source = 'user-screen_name',
    target = 'retweeted_status-user-screen_name',
    create_using = nx.DiGraph())

G_reply = nx.from_pandas_edgelist(
    sotu_retweets,
    source = 'user-screen_name', 
    target = 'in_reply_to_screen_name',
    create_using = nx.DiGraph())

REPASANDO:

## Centralidad en grado

La centralidad es una medida de la importancia de un nodo para una red. Hay muchos tipos diferentes de centralidad y cada uno de ellos tiene un significado ligeramente diferente en las redes de Twitter. En primer lugar, nos centramos en la centralidad de los grados, ya que su cálculo es sencillo y tiene una explicación intuitiva.

Para redes dirigidas como Twitter, debemos tener cuidado de distinguir entre centralidad de grado interno y externo, especialmente en redes de retweet. 

La centralidad de grado para las redes de retweet indica a los usuarios **que están recibiendo muchos retweets.**

### INSTRUCCIONES:

* Calculamos la centralidad en grado para la red de retweet con `nx.in_degree_centrality()` y loguárdamos en `rt_centrality`.

* Hagamos lo mismo con la red de respuesta y guárdelo en `reply_centrality`.

* Pasamos los elementos (es decir, las tuplas clave-valor) de las centralidades de respuesta al constructor de DataFrame.


* Hagamos lo mismo para la red de respuesta

In [9]:
column_names = ['screen_name', 'degree_centrality']
# Generamos el grado de centralidad para los retweets
rt_centrality = nx.in_degree_centrality(G_rt)

# Generamos el grado de centralidad para los replies
reply_centrality = nx.in_degree_centrality(G_reply)

# Almacenamos centralidades en DataFrame
rt = pd.DataFrame(list(rt_centrality.items()), columns = column_names)
reply = pd.DataFrame(list(reply_centrality.items()), columns = column_names)



A continuación veremos los perfiles que sta resiviendo mas retweets y mas replies:

In [7]:
# Imprima los primeros cinco resultados en orden descendente de centralidad
print(rt.sort_values('degree_centrality', ascending = False).head())



      screen_name  degree_centrality
84        FoxNews           0.055993
38     WhiteHouse           0.031059
1    ScottPresler           0.029746
7      TomiLahren           0.019685
175      HouseGOP           0.017060


In [8]:
# Imprima los primeros cinco resultados en orden descendente de centralidad
print(reply.sort_values('degree_centrality', ascending = False).head())

     screen_name  degree_centrality
4297         NaN           0.000233
3388         NaN           0.000233
3399         NaN           0.000233
1842         NaN           0.000233
1844         NaN           0.000233


## Centralidad de intermediación

La centralidad de intermediación para las redes de retweet y respuesta señala a los usuarios que se conectan entre las diferentes comunidades de Twitter. Estas comunidades pueden estar vinculadas por tema o ideología.

## Instrucciones:

* - Calculamos la centralidad de intermediación para la red de retweet usando `nx.betweenness_centrality()`.

* - Hagamos lo mismo para la red de respuesta.


* - Creamos un DataFrame a partir de centralidades de retweet.

* - Hagmos lo mismo con la red de respuesta.

In [None]:
# Generar centralidad de intermediación para retweets
rt_centrality = nx.betweenness_centrality(G_rt)
# Generar centralidad de intermediación para respuestas
reply_centrality = nx.betweenness_centrality(G_reply)

# Almacenar centralidades en DataFrame
rt = pd.DataFrame(list(rt_centrality.items()), columns = column_names)
reply = pd.DataFrame(list(reply_centrality.items()), columns = column_names)



In [None]:
# Imprimir los primeros cinco resultados en orden descendente de centralidad
print(rt.sort_values('betweenness_centrality', ascending = False).head())

# Imprimir los primeros cinco resultados en orden descendente de centralidad
print(reply.sort_values('betweenness_centrality', ascending = False).head())

## RATIOS

Si bien no es estrictamente una medida de importancia para una red, la idea de ser "proporcionados" es una medida de la red que es particular de Twitter y se usa típicamente para juzgar la impopularidad de un tweet. "La proporción", como se le llama, se calcula tomando el número de respuestas y dividiéndolo por el número de retweets. Para nuestros propósitos, tiene sentido conceptual tomar solo los grados internos de las redes de retweet y respuesta.

In [13]:
# Calculate in-degrees and store in DataFrame
degree_rt = pd.DataFrame(list(G_rt.in_degree()), columns = column_names)
degree_reply = pd.DataFrame(list(G_reply.in_degree()), columns = column_names)

# Merge the two DataFrames on screen name
ratio = degree_rt.merge(degree_reply, on = 'screen_name', suffixes = ('_rt', '_reply'))

# Calculate the ratio
ratio['ratio'] = ratio['degree_reply'] / ratio['degree_rt']

# Exclude any tweets with less than 5 retweets
ratio = ratio[ratio['degree_rt'] >= 5]

# Print out first five with highest ratio
print(ratio.sort_values('ratio', ascending = False).head())

KeyError: ignored