# Creando una red para analizar los personajes de Juego de Tronos

# 1. Se acerca el invierno. Vamos a cargar el conjunto de datos lo antes posible

<p> Si no has oído hablar de <em> Juego de Tronos </em>, debes ser realmente bueno escondiéndote!. Juego de Tronos es la popular serie de televisión de HBO basada en la (también) popular serie de libros <em> Una canción de Hielo y Fuego </em> de George R.R. Martin. En este cuaderno, analizaremos la red de co-ocurrencia de los personajes en los libros de Juego de Tronos. Aquí se considera que dos caracteres co-ocurren conjuntamente si sus nombres aparecen cerca de 15 palabras uno del otro en los libros. </p><p> <img src = "https://s3.amazonaws.com/assets.datacamp.com/production/project_76/img/got_network.jpeg" style = "width: 550px"> </p><p> Este conjunto de datos constituye una red y se proporciona como un archivo de texto que describe las <em> aristas </em> entre los caracteres, con algunos atributos adjuntos a cada arista. Comencemos cargando los datos del primer libro <em> Juego de Tronos </em> y examinémoslo. </p>

## Tarea 1

Cargue e inspeccione la lista de aristas del primer libro.

1. Importar el módulo de pandas.
2. Cargue el archivo csv para el libro 1 desde la carpeta `datasets/book1.csv` y asígnelo a book1.
3. Imprima la cabecera (las primeras 5 filas por defecto) del DataFrame book1.

In [2]:
# Importing modules
# ... YOUR CODE FOR TASK 1 ...

# Reading in datasets/book1.csv
book1 = ...

# Printing out the head of the dataset
# ... YOUR CODE FOR TASK 1 ...

# 2. Tiempo para alguna red de tronos

<p> El DataFrame <code>book1</code> resultante tiene 5 columnas: <code>Source</code>, <code>Target</code>, <code>Type</code>, <code>weight</code> y <code>book</code>. <code>Source</code> y <code>Target</code> son los dos nodos que están vinculados por una arista. Una red puede tener aristas dirigidas o no dirigidas y en esta red todas las aristas son no dirigidas. El atributo <code>weight</code> de cada arista nos dice la cantidad de interacciones que los personajes han tenido sobre el libro, y la columna <code>book</code> nos dice el número del libro.</p>
<p>Una vez que tengamos los datos cargados como un <b>dataframe</b> de pandas, es hora de crear una red. Usaremos <code>networkx</code>, una libreria para el análisis de redes, y crearemos un objeto grafo para el primer libro.</p>

## Tarea 2: Instrucciones

Crea un grafo para el primer libro.

- Importa la libreria `networkx` y dale el alias de `nx`
- Crea un grafo vacío y asignalo a la variable `G_book1`

Nota para mi:
En este caso, creará un objeto `graph` porque la red no está dirigida, es decir, una arista del personaje A al personaje B implica que también existe una de la otra manera, del personaje B al personaje A.


In [None]:
# Importing modules
# ... YOUR CODE FOR TASK 2 ...

# Creating an empty graph object
G_book1 = ...

# 3. Rellena la red con el DataFrame

<p> Actualmente, el grafo <code> G_book1 </code> está vacío. Ahora rellenémoslo con las aristas de <code> book1 </code>. Y mientras estamos en eso, ¡cargemos el resto de los libros también! </p>

In [None]:
# Iterating through the DataFrame to add edges
# ... YOUR CODE FOR TASK 3 ...

# Creating a list of networks for all the books
books = [G_book1]
book_fnames = ['datasets/book2.csv', 'datasets/book3.csv', 'datasets/book4.csv', 'datasets/book5.csv']
for book_fname in book_fnames:
    book = pd.read_csv(book_fname)
    G_book = nx.Graph()
    for _, edge in book.iterrows():
        G_book.add_edge(edge['Source'], edge['Target'], weight=edge['weight'])
    books.append(G_book)

# 4. Encontrar al personaje más importante en Juego de tronos

<p> ¿Es Jon Snow, Tyrion, Daenerys o alguien más? ¡Veamos! Network Science nos ofrece muchas métricas diferentes para medir la importancia de un nodo en una red. Tenga en cuenta que no hay una forma "correcta" de calcular el nodo más importante en una red, cada métrica tiene un significado diferente. </p>
<p> Primero, midamos la importancia de un nodo en una red observando la cantidad de vecinos que tiene, es decir, la cantidad de nodos a los que está conectado. Por ejemplo, una cuenta influyente en Twitter, donde la relación seguido-seguidores forma la red, es una cuenta que tiene un gran número de seguidores. Esta medida de importancia se denomina <em> grado de centralidad </em>.</p>
<p> Usando esta medida, extraigamos los diez primeros personajes importantes del primer libro y el quinto libro.</p>

In [None]:
# Calculating the degree centrality of book 1
deg_cen_book1 = nx.degree_centrality(books[0])

# Calculating the degree centrality of book 5
deg_cen_book5 = ...

# Sorting the dictionaries according to their degree centrality and storing the top 10
sorted_deg_cen_book1 = ...

# Sorting the dictionaries according to their degree centrality and storing the top 10
sorted_deg_cen_book5 = ...

# Printing out the top 10 of book1 and book5
# ... YOUR CODE FOR TASK 4 ...

# 5. Evolución de la importancia de los personajes sobre los libros

<p> Según el grado de centralidad, el personaje más importante en el primer libro es Eddard Stark, pero ni siquiera está en el top 10 del quinto libro. La importancia de los personajes cambia a lo largo de cinco libros porque, ya sabes, pasan cosas ...;) </p>
<p> Veamos la evolución del grado de centralidad de un par de personajes como Eddard Stark, Jon Snow y Tyrion, que aparecieron en el top 10 del grado de centralidad en el primer libro. </p>

In [None]:
%matplotlib inline

# Creating a list of degree centrality of all the books
evol = [nx.degree_centrality(book) for book in books]
 
# Creating a DataFrame from the list of degree centralities in all the books
degree_evol_df = ...

# Plotting the degree centrality evolution of Eddard-Stark, Tyrion-Lannister and Jon-Snow
# ... YOUR CODE FOR TASK 5 ...

# 6. ¿Qué pasa con Stannis Baratheon?

<p>Podemos ver que la importancia de Eddard Stark desaparece a medida que avanza la serie de libros. Con Jon Snow, hay una caída en el cuarto libro, pero un aumento repentino en el quinto libro.</p>
<p>Ahora veamos otras medidas como <em>intermediación (betweenness centrality)</em> y <em>PageRank</em> para encontrar personajes importantes en nuestra red de co-ocurrencia de personajes de Juego de Tronos y ver si podemos descubrir algunos datos más interesantes sobre esta red. Vamos a trazar la evolución de la centralidad de la intermediación de esta red en los cinco libros. Tomaremos la evolución de los cuatro personajes principales de cada libro y lo graficaremos.</p>

In [None]:
# Creating a list of betweenness centrality of all the books just like we did for degree centrality
evol = ...

# Making a DataFrame from the list
betweenness_evol_df = ...

# Finding the top 4 characters in every book
set_of_char = set()
for i in range(5):
    set_of_char |= set(list(betweenness_evol_df.T[i].sort_values(ascending=False)[0:4].index))
list_of_char = list(set_of_char)

# Plotting the evolution of the top characters
# ... YOUR CODE FOR TASK 6 ...

# 7. ¿Qué nos dice el algoritmo de PageRank de Google sobre Juego de Tronos?

<p>Vemos un aumento peculiar en la importancia de Stannis Baratheon sobre los libros. En el quinto libro, es significativamente más importante que otros personajes de la red, incluso es el tercer personaje más importante según el grado de centralidad.</p>

<p>PageRank fue la forma inicial en que Google clasificó las páginas web. Evalúa los enlaces internos y externos de las páginas web en la red mundial, que es, esencialmente, una red dirigida. Veamos la importancia de los personajes en la red de Juego de Tronos según el algoritmo PageRank.</p>

In [None]:
# Creating a list of pagerank of all the characters in all the books
evol = ...

# Making a DataFrame from the list
pagerank_evol_df = ...

# Finding the top 4 characters in every book
set_of_char = set()
for i in range(5):
    set_of_char |= set(list(pagerank_evol_df.T[i].sort_values(ascending=False)[0:4].index))
list_of_char = list(set_of_char)

# Plotting the top characters
# ... YOUR CODE FOR TASK 7 ...

# 8. Correlación entre diferentes medidas

<p>Stannis, Jon Snow y Daenerys son los personajes más importantes del quinto libro según PageRank. Eddard Stark sigue una curva similar, pero para el grado de centralidad y de intermediación: es importante en el primer libro, pero muere en el olvido por la serie de libros.</p>
<p>Hemos visto tres medidas diferentes para calcular la importancia de un nodo en una red, y todas ellas nos dicen algo sobre los personajes y su importancia en la red de co-ocurrencia. Vemos algunos nombres que aparecen en las tres medidas, así que tal vez haya una fuerte correlación entre ellos.</p>
<p>Veamos la correlación entre el PageRank, la intermediación y el grado de centralidad para el quinto libro utilizando la correlación de Pearson.</p>

In [None]:
# Creating a list of pagerank, betweenness centrality, degree centrality
# of all the characters in the fifth book.
measures = [nx.pagerank(books[4]), 
            nx.betweenness_centrality(books[4], weight='weight'), 
            nx.degree_centrality(books[4])]

# Creating the correlation DataFrame
cor = ...

# Calculating the correlation
# ... YOUR CODE FOR TASK 8 ...

# 9. Conclusión 

<p>Vemos una alta correlación entre estas tres medidas para nuestra red de co-ocurrencia de personajes.</p>
<p> Así que hemos estado buscando diferentes maneras de encontrar a los personajes importantes en la red de co-ocurrencia de Juego de Tronos. Según el grado de centralidad, Eddard Stark es el personaje más importante inicialmente en los libros. Pero, ¿quién es o son los personajes más importantes en el quinto libro según estas tres medidas? </p>

In [None]:
# Finding the most important character in the fifth book,  
# according to degree centrality, betweenness centrality and pagerank.
p_rank, b_cent, d_cent = ...

# Printing out the top character accoding to the three measures
# ... YOUR CODE FOR TASK 9 ...