# Practica-13: Visualización de redes

## Introducción
Red o Grafo es una representación especial de entidades que tienen relaciones entre sí. Se compone de una colección de dos objetos genéricos: 

- **nodo**: que representa una entidad  
- **borde**: que representa la conexión entre dos nodos cualesquiera. 

En una red compleja, también tenemos *atributos* o *características asociadas* con cada **nodo** y **borde**. 

Por ejemplo, una *persona* representada como un **nodo** puede tener atributos como *edad*, *género*, etc. 

De manera similar, un **borde** entre dos personas que representa una conexión de 'amigo' puede tener atributos como: amigos_desde, última_reunión, amigos_en_común, etc. 

Debido a esta naturaleza compleja, se vuelve imperativo que presentemos una red de manera intuitiva, de modo que muestre la mayor cantidad de información posible. 

## Definición

Un grafo $G$ se define como un par $(V, E)$, donde $V$ es un conjunto cuyos elementos son
denominados **vértices** o **nodos** y $E$ es un subconjunto de pares no ordenados de vértices y que reciben el nombre de **aristas** o **arcos**. 

Si $V=\{v_{1},..., v_{n}\}$, los elementos de $E$ se representa de la forma ${v_{i}, v_{j}}$, donde $i\neq j$. Los elementos de una arista o arco se denominan **extremos** de dicha arista. Dos vértices $v_{i}$ y $v_{j}$ se dicen adyacentes si $\{v_{i}, v_{j}\}\in E$. 

Un grafo $G=(V, E)$ se dice finito si $V$ es un conjunto finito.

Un multigrafo $G$ se define, al igual que un grafo, por un par $(V, E)$ donde $V$ es el conjunto de vértices o nodos y $E$ el de aristas o arcos, pero con la salvedad de que en este caso el conjunto $E$ puede contener mas de una arista cuyos extremos son los mismos, así como aristas del tipo $\{v_{i}, v_{i}\}$ denominadas **lazos**.

Dado $G$ un grafo es posible hacerle corresponder una matriz. Dicha matriz $M=(m_{ij})$ viene definida por $m_{ij}=1$ en caso de que los vértices $v_{i}$ y $v_{j}$ sean adyacentes y 0 en caso contrario. Es claro pues que la matriz de adyacencias de un grafo es siempre una matriz simétrica.

## Opción 1: Red-X
**NetworkX** tiene su propio módulo de dibujo que proporciona múltiples opciones para trazar. 
A continuación podemos encontrar la visualización de algunos de los módulos de dibujo del paquete. 
Para usar cualquiera de ellos lo que se necesita hacer es llamar al módulo y pasar la variable gráfica G.

## Opción 2: PyVis 
PyVis es un paquete Python de visualización de red interactiva que toma el gráfico NetworkX como entrada. 
También proporciona múltiples opciones de estilo para personalizar los nodos, los bordes e incluso el diseño 
completo. Aparte de esto, en cuanto a la visualización, se tiene la opción básica de hacer zoom, seleccionar, 
pasar el cursor, entre otras.

In [None]:
!pip install pyvis

Collecting pyvis
  Downloading pyvis-0.2.1.tar.gz (21 kB)
Collecting jsonpickle>=1.4.1
  Downloading jsonpickle-2.1.0-py2.py3-none-any.whl (38 kB)
Building wheels for collected packages: pyvis
  Building wheel for pyvis (setup.py) ... [?25l[?25hdone
  Created wheel for pyvis: filename=pyvis-0.2.1-py3-none-any.whl size=23688 sha256=f7caee0d0e3ccf1c0681a091f93c966970598de9759fa7a2e0c086074a4a1fc8
  Stored in directory: /root/.cache/pip/wheels/2a/8f/04/6340d46afc74f59cc857a594ca1a2a14a1f4cbd4fd6c2e9306
Successfully built pyvis
Installing collected packages: jsonpickle, pyvis
Successfully installed jsonpickle-2.1.0 pyvis-0.2.1


In [None]:
from pyvis import network as net
import networkx as nx
import matplotlib.pyplot as plt

In [None]:
g=net.Network(height='400px', width='80%',heading='simple graph', notebook=True)
g.add_node(1)
g.add_node(2)
g.add_node(3)
g.add_node(4)
g.add_node(5)
g.add_edge(1,2)
g.add_edge(2,3)
g.add_edge(1,4)
g.add_edge(2,5)
g.add_edge(3,1)
g.add_edge(3,5)
g.show('example.html')
import IPython
IPython.display.HTML(filename='example.html')

## Ejemplo de visualización de personajes de juego de tronos

A continuación podemos ver la formulación tabular de la red social Juego de Tronos. Aquí, los nodos representan los personajes de GoT y el borde entre dos personajes significa que sus nombres coexisten en la vecindad entre sí en los libros.

In [None]:
from pyvis.network import Network
import pandas as pd

In [None]:
got_net = Network(height='750px', width='100%', bgcolor='#222222', font_color='white', notebook=True)
got_data = pd.read_csv('GOT_graph.csv')
got_data.head(15)

Unnamed: 0,Source,Target,Weight
0,Aemon,Grenn,5
1,Aemon,Samwell,31
2,Aerys,Jaime,18
3,Aerys,Robert,6
4,Aerys,Tyrion,5
5,Aerys,Tywin,8
6,Alliser,Mance,5
7,Amory,Oberyn,5
8,Arya,Anguy,11
9,Arya,Beric,23


Las primeras dos columnas contienen los nodos (aquí los caracteres de GoT), y un par de **Origen** y **Destino** 
representa un borde entre los dos caracteres. 

Solo mirando el conjunto de datos del libro 1 tenemos 187 caracteres únicos y 684 conexiones (filas). 
Además, la columna de **peso** da una idea de la importancia de la conexión, aquí es la *cantidad de veces* que 
hemos visto los nombres de dos personajes cercanos (como se definió anteriormente) en el libro 1. 

In [None]:
sources = got_data['Source']
targets = got_data['Target']
weights = got_data['Weight']

In [None]:
# Datos de borde
edge_data = zip(sources, targets, weights)


In [None]:
for e in edge_data:
    src = e[0]
    dst = e[1]
    w = e[2]

    got_net.add_node(src, src, title=src)
    got_net.add_node(dst, dst, title=dst)
    got_net.add_edge(src, dst, value=w)

neighbor_map = got_net.get_adj_list()

# Agregar datos vecinos a los datos de desplazamiento del nodo
for node in got_net.nodes:
    node['title'] += ' Neighbors:<br>' + '<br>'.join(neighbor_map[node['id']])
    node['value'] = len(neighbor_map[node['id']])

got_net.show('GOT.html')
IPython.display.HTML(filename='GOT.html')

In [None]:
G=nx.from_pandas_edgelist(got_data, 'Source', 'Target')

In [None]:
nx.draw(G, with_labels=True)
plt.show()

In [None]:
netw = net.Network(height='750px', width='100%', bgcolor='#222222', font_color='white',notebook=True)

In [None]:
netw.from_nx(G)

In [None]:
netw.show("got1Example.html")

## Ejemplo de gráfico aleatorio

In [None]:
import plotly.graph_objects as go
import networkx as nx

G = nx.random_geometric_graph(200, 0.125)

**Crear bordes**. Agregue bordes como líneas desconectadas en un solo trazo y nodos como un trazo disperso

In [None]:
edge_x = []
edge_y = []
for edge in G.edges():
    x0, y0 = G.nodes[edge[0]]['pos']
    x1, y1 = G.nodes[edge[1]]['pos']
    edge_x.append(x0)
    edge_x.append(x1)
    edge_x.append(None)
    edge_y.append(y0)
    edge_y.append(y1)
    edge_y.append(None)

edge_trace = go.Scatter(
    x=edge_x, y=edge_y,
    line=dict(width=0.5, color='#888'),
    hoverinfo='none',
    mode='lines')

node_x = []
node_y = []
for node in G.nodes():
    x, y = G.nodes[node]['pos']
    node_x.append(x)
    node_y.append(y)

node_trace = go.Scatter(
    x=node_x, y=node_y,
    mode='markers',
    hoverinfo='text',
    marker=dict(
        showscale=True,
        # colorscale options
        #'Greys' | 'YlGnBu' | 'Greens' | 'YlOrRd' | 'Bluered' | 'RdBu' |
        #'Reds' | 'Blues' | 'Picnic' | 'Rainbow' | 'Portland' | 'Jet' |
        #'Hot' | 'Blackbody' | 'Earth' | 'Electric' | 'Viridis' |
        colorscale='YlGnBu',
        reversescale=True,
        color=[],
        size=10,
        colorbar=dict(
            thickness=15,
            title='Conexiones de nodo',
            xanchor='left',
            titleside='right'
        ),
        line_width=2))

**Puntos de nodo de color**. Puntos de nodo de color por el número de conexiones.
Otra opción sería dimensionar los puntos por el número de conexiones, es decir, 
node_trace.marker.size = node_adjacencies

In [None]:
node_adjacencies = []
node_text = []
for node, adjacencies in enumerate(G.adjacency()):
    node_adjacencies.append(len(adjacencies[1]))
    node_text.append('# of connections: '+str(len(adjacencies[1])))

node_trace.marker.color = node_adjacencies
node_trace.text = node_text

Crear gráfico de red

In [None]:
fig = go.Figure(data=[edge_trace, node_trace],
             layout=go.Layout(
                title='<br>Gráfico de red hecho con Python',
                titlefont_size=16,
                showlegend=False,
                hovermode='closest',
                margin=dict(b=20,l=5,r=5,t=40),
                annotations=[ dict(
                    text="código Python: <a href='https://plotly.com/ipython-notebooks/network-graphs/'> https://plotly.com/ipython-notebooks/network-graphs/</a>",
                    showarrow=False,
                    xref="paper", yref="paper",
                    x=0.005, y=-0.002 ) ],
                xaxis=dict(showgrid=False, zeroline=False, showticklabels=False),
                yaxis=dict(showgrid=False, zeroline=False, showticklabels=False))
                )
fig.show()

# Bibliotecas de Python: una visualización de red

In [None]:
import numpy as np #algebra lineal
import pandas as pd #procesamiento de datos
import pandas as pd
import numpy as np
import networkx as nx
from pyvis.network import Network

## Definición de nodos.
Primero, tenemos que agregar los **nodos** que en general presentarán las diferentes bibliotecas. Además, hay *nodos principales* y *secundarios* que pueden tratarse como el encabezado del clúster.

- El gráfico de red en sí sigue básicamente una estructura de árbol donde "Python" se asigna al **nodo raíz**. Los bordes que salen del nodo raíz conducirán a grupos principales temáticos que describen las diferentes áreas en las que se usa Python. 

- Siguiendo esa idea, uno puede encontrar el mismo enfoque dejando los grupos principales y conduciendo a subgrupos temáticos que son más granulares. En consecuencia, la capa más profunda estará definida por las bibliotecas específicas.

- Con esa configuración en mente, está claro que, en algunos casos, una biblioteca puede ser un nodo de hoja en la parte inferior y un elemento secundario directo de otro clúster principal al mismo tiempo.

In [None]:
root = ["Python"]
main_cluster = [
    "Visualization", 
    "Machine Learning", 
    "NLP", 
    "Testing", 
    "Data Analysis / EDA", 
    "Data Processing", 
    "Finance",
    "Basic Usage",
]
sub_cluster = [
    "Dashboard",
    "D3.js",
    "Extraordinary Visualization", 
    "Feature Engineering", 
    "FlowChart",
    "Geo",
    "Graph / Network",
    "Hyperparameter Tuning", 
    "Information Retrieval", 
    "Integration", 
    "Interactive Visualization",
    "Keras",
    "Performance",
    "Pytorch",
    "Static Visualization",
    "TimeSeries",
    "Tensorflow",
    "TPOT",
    "XAI",

]
libraries = [
     'altair',
     'auto-sklearn',
     'auto-viml',
     'bokeh',
     'candela',
     'cufflinks',
     'd3py',
     'dash',
     'dask',
     'dtale',
     'dtreeviz',
     'dx_analytics',
     'eli5',
     'featuretools',
     'folium',
     'functools',
     'fundamentalanalysis',
     'gensim',
     'geopandas',
     'geopy',
     'graph-tool',
     'holoview',
     'itertools',
     'jaal',
     'lazypredict',
     'leaflet',
     'lime',
     'luminaire',
     'lux',
     'matplotlib',
     'missingno',
     'more-itertools',
     'mutmut',
     'neptune',
     'networkx',
     'neuraxle',
     'nltk',
     'numpy',
     'nvd3',
     'pandas',
     'pandas-datareader',
     'pandas-log',
     'pandas-profiler',
     'pandera',
     'panel',
     'pattern',
     'plotly',
     'polyglot',
     'pycaret',
     'pydantic',
     'pyflowchart',
     'pynlpl',
     'pypolars',
     'pystemmer',
     'pyterrier',
     'pytest',
     'pyts',
     'pyvis',
     'roughviz',
     'rshap',
     'scikit-learn',
     'scikit-optimize',
     'seaborn',
     'shapash',
     'sigma.js',
     'sklearn laboratory',
     'sklearn-deap',
     'sklearn-pandas',
     'sklearn-xarray',
     'spacy',
     'sql-test',
     'stanford corenlp python',
     'stumpy',
     'sweetviz',
     'textblob',
     'tpot',
     'tsfresh',
     'vaex',
     'visdcc',
     'vocabulary',
     'yfinance'
]

## Definición de los bordes
A continuación definimos la estructura básica de nuestros bordes:

In [None]:
# configurar los bordes que están construyendo el gráfico
data = [
    ["Python", "Basic Usage"],
    ["Python", "Finance"],
    ["Python", "Data Processing"],
    ["Python", "Data Analysis / EDA"],
    ["Python", "Machine Learning"],
    ["Python", "Visualization"],
    ["Python", "Testing"],
    
    ["Basic Usage","functools"],
    ["Basic Usage", "itertools"],
    ["Basic Usage", "more-itertools"],
    
    ["Data Processing", "pandas"],
    ["Data Processing", "numpy"],
    ["Data Processing", "Performance"],
    
    ["Performance", "vaex"],
    ["Performance", "pypolars"],
    ["Performance", "dask"],
    
    ["Finance", "cufflinks"],
    ["Finance", "dx_analytics"],
    ["Finance", "fundamentalanalysis"],
    ["Finance", "yfinance"],
    
    ["cufflinks", "Visualization"],
    
    ["Machine Learning", "Feature Engineering"],
    ["Machine Learning", "Hyperparameter Tuning"],
    ["Machine Learning", "Keras"],
    ["Machine Learning", "NLP"],
    ["Machine Learning", "Pytorch"],
    ["Machine Learning", "Tensorflow"],
    ["Machine Learning", "TPOT"],
    ["Machine Learning", "XAI"],
    ["Machine Learning", "auto-viml"],
    ["Machine Learning", "dtreeviz"], 
    ["Machine Learning", "pycaret"],
    ["Machine Learning", "lazypredict"],
    ["Machine Learning", "scikit-learn"],
    
    ["pycaret", "lazypredict"],
    
    ["Feature Engineering", "featuretools"],
    ["Feature Engineering", "tsfresh"],
    
    ["scikit-learn", "sklearn-xarray"],
    ["scikit-learn", "sklearn-pandas"],
    ["scikit-learn", "sklearn-deap"],
    ["scikit-learn", "auto-sklearn"],
    ["scikit-learn", "sklearn laboratory"],
    
    ["sklearn laboratory", "neptune"],
    
    ["Hyperparameter Tuning", "neuraxle"],
    ["Hyperparameter Tuning", "scikit-optimize"],
    
    ["XAI", "auto-viml"],
    ["XAI", "eli5"],
    ["XAI", "rshap"],
    ["XAI", "lime"],
    
    ["NLP", "Information Retrieval"],
    ["NLP", "nltk"],
    ["NLP", "gensim"],
    ["NLP", "scikit-learn"],
    ["NLP", "spacy"],
    ["NLP", "pystemmer"],
    ["NLP", "stanford corenlp python"],
    ["NLP", "textblob"],
    ["NLP", "pattern"],
    ["NLP", "polyglot"],
    ["NLP", "pynlpl"],
    ["NLP", "vocabulary"],
    
    ["Information Retrieval", "pyterrier"],
    
    ["Visualization", "D3.js"],
    ["Visualization", "Dashboard"],
    ["Visualization", "Extraordinary Visualization"],
    ["Visualization", "FlowChart"],
    ["Visualization", "Geo"],
    ["Visualization", "Graph / Network"],
    ["Visualization", "Interactive Visualization"],
    ["Visualization", "Static Visualization"],
    
    ["D3.js", "d3py"],
    ["D3.js", "nvd3"],
    
    ["Dashboard", "bokeh"],
    ["Dashboard", "dash"],
    ["Dashboard", "holoview"],
    ["Dashboard", "panel"],
    ["Dashboard", "plotly"],
    
    ["Extraordinary Visualization", "candela"],
    ["Extraordinary Visualization", "roughviz"],
    
    ["FlowChart", "pyflowchart"],
    
    ["Geo", "geopy"],
    ["Geo", "folium"],
    ["Geo", "leaflet"],
    ["Geo", "geopandas"],
    
    ["Graph / Network", "dtreeviz"],
    ["Graph / Network", "graph-tool"],
    ["Graph / Network", "jaal"],
    ["Graph / Network", "networkx"],
    ["Graph / Network", "pyvis"],
    ["Graph / Network", "sigma.js"],
    ["Graph / Network", "visdcc"],
    
    ["Interactive Visualization", "altair"],
    ["Interactive Visualization", "bokeh"],
    ["Interactive Visualization", "cufflinks"],
    ["Interactive Visualization", "holoview"],
    ["Interactive Visualization", "plotly"],
    ["Interactive Visualization", "shapash"],

    ["Static Visualization", "lux"],
    ["Static Visualization", "matplotlib"],
    ["Static Visualization", "missingno"],
    ["Static Visualization", "pandas-profiler"],
    ["Static Visualization", "seaborn"],
    ["Static Visualization", "shapash"],
    
    ["Data Analysis / EDA", "TimeSeries"],
    ["Data Analysis / EDA", "dtale"],
    ["Data Analysis / EDA", "lux"],
    ["Data Analysis / EDA", "shapash"],
    ["Data Analysis / EDA", "sweetviz"],
    ["Data Analysis / EDA", "missingno"],
    ["Data Analysis / EDA", "pandas"],
    
    ["pandas", "pandas-datareader"],
    ["pandas", "pandas-log"],
    ["pandas", "pandas-profiler"],
    
    ["TimeSeries", "luminaire"],
    ["TimeSeries", "pyts"],
    ["pandas", "sklearn-pandas"],

    ["TimeSeries", "stumpy"],

    ["visdcc", "dash"],

    ["Testing", "Integration"],
    ["Testing", "mutmut"],
    ["Testing", "pytest"],
    ["Testing", "sql-test"],

    ["Integration", "pandera"],
    ["Integration", "pydantic"],
]

## Construyendo el gráfico de red
A continuación, agregaremos ambos, nodos y bordes, a nuestro gráfico. Es importante volver a calcular a qué id o número se asigna un nodo, para poder dibujar los bordes correctamente.

In [None]:
"""Define edges."""
from more_itertools import locate

test_nw = Network(height='750px', width="100%", notebook=True)
nodes = root + main_cluster + sub_cluster + libraries

# añadir nodo raíz
root_node = list(locate(nodes, lambda x: x in root))
root_size, root_color = [35 for _ in root], ["red" for _ in root]

test_nw.add_nodes(root_node, size=root_size, label=root, color=root_color)

# agregar nodos cluster principal.
main_nodes = list(locate(nodes, lambda x: x in main_cluster))
main_size, main_color = [30 for _ in main_cluster], ["orange" for _ in main_cluster]

test_nw.add_nodes(main_nodes, size=main_size, label=main_cluster, color=main_color)

# agregar nodos de subclúster
sub_nodes = list(locate(nodes, lambda x: x in sub_cluster))
sub_size, sub_color = [25 for _ in sub_cluster], ["green" for _ in sub_cluster]

test_nw.add_nodes(sub_nodes, size=sub_size, label=sub_cluster, color=sub_color)

# añadir nodos de biblioteca
lib_nodes = list(locate(nodes, lambda x: x in libraries))
lib_size, lib_color = [15 for _ in libraries], ["blue" for _ in libraries]

test_nw.add_nodes(lib_nodes, size=lib_size, label=libraries, color=lib_color)

# agregar bordes
for edge in data:
    node_from, node_to = list(locate(nodes, lambda x: x in edge))
    test_nw.add_edge(node_from, node_to)

test_nw.show("test.html")
IPython.display.HTML(filename='test.html')

## EJERCICIO: Tipos de redes sociales
Utilice un modelo de red que permita visualizar las funciones de cada tipo de red social que se presentan a continuación:
- **Facebook** (fotos, videos, noticias)
- **Twitter** (fotos, opinión)
- **LinkedIn** (empleo)
- **Instagram** (fotos)
- **Snapchat** (videos)
- **YouTube** (videos, noticias)

Utilice un **nodo raíz** 


In [None]:
root = ['Redes Sociales']

main_cluster = [
                'Facebook',
                'Twitter',
                'Linkedin',
                'Instagram',
                'Snapchat',
                'YouTube'
]

sub_cluster = [
               'fotos',
               'videos',
               'noticias',
               'opinion',
               'empleo'
               ]

data = [
        ['Redes Sociales', 'Facebook'],
        ['Redes Sociales', 'Twitter'],
        ['Redes Sociales', 'Linkedin'],
        ['Redes Sociales', 'Instagram'],
        ['Redes Sociales', 'Snapchat'],
        ['Redes Sociales', 'YouTube'],

        ['Facebook', 'fotos'],
        ['Facebook', 'videos'],
        ['Facebook', 'noticias'],

        ['Twitter', 'fotos'],
        ['Twitter', 'opinion'],

        ['Instagram', 'fotos'],
        ['Instagram', 'empleo'],
        
        ['Snapchat', 'videos'],

        ['YouTube', 'videos'],
        ['YouTube', 'noticias']
]


In [None]:
"""Define edges."""
from more_itertools import locate

test_nw = Network(height='750px', width="100%", notebook=True)
nodes = root + main_cluster + sub_cluster

# añadir nodo raíz
root_node = list(locate(nodes, lambda x: x in root))
root_size, root_color = [35 for _ in root], ["#EE5007" for _ in root]

test_nw.add_nodes(root_node, size=root_size, label=root, color=root_color)

# agregar nodos cluster principal
main_nodes = list(locate(nodes, lambda x: x in main_cluster))
main_size, main_color = [30 for _ in main_cluster], ["#006E7F" for _ in main_cluster]

test_nw.add_nodes(main_nodes, size=main_size, label=main_cluster, color=main_color)

# agregar nodos de subclúster
sub_nodes = list(locate(nodes, lambda x: x in sub_cluster))
sub_size, sub_color = [25 for _ in sub_cluster], ["#F8CB2E" for _ in sub_cluster]

test_nw.add_nodes(sub_nodes, size=sub_size, label=sub_cluster, color=sub_color)

# agregar bordes
for edge in data:
    node_from, node_to = list(locate(nodes, lambda x: x in edge))
    test_nw.add_edge(node_from, node_to)

test_nw.show("test.html")
IPython.display.HTML(filename='/content/test.html')