# Visualizacion del Origen del PIB utilizando un Diagrama Sankey
por Luis Despradel

In [5]:
import pandas as pd

## Introducción

Estaremos diagramando el origen del PIB de diferentes actividades economicas. Disclaimer: varias partes de los textos explicativos fueron generados con ChatGPT. 


Un diagrama de Sankey es un tipo de gráfico de flujo que se utiliza para mostrar la transferencia de datos. Lo que lo distingue es su capacidad para visualizar los volúmenes de flujo a través de anchos de banda proporcionales. Estos anchos varían en tamaño según la cantidad de flujo, facilitando una interpretación rápida y efectiva. Los graficos de Sankey ofrecen una manera intuitiva de representar flujos 
complejos y transferencias cuantitativas.

Usos Comunes de los Diagramas de Sankey
- Gestión de Energía: Utilizados para ilustrar dónde se produce y consume energía, identificando posibles áreas de ahorro.
- Cadena de Suministro y Logística: Ayudan a visualizar el movimiento de materiales, productos y costos a través de una cadena de suministro.
- Análisis Financiero: Perfectos para representar flujos de dinero en presupuestos o transacciones financieras.
- Investigación Medioambiental: Usados para estudiar flujos ecológicos, como el ciclo del agua o las emisiones de carbono.

## Fuente de informacion

La data que estaremos utilizando es el "Producto Interno Bruto (PIB) por sectores de origen. Valores corrientes e índices de volumen encadenados referenciados al año 2007, trimestral" publicado por el Banco Central de la República Dominicana. Este puede ser adquirido en su pagina web https://www.bancentral.gov.do/a/d/2533-sector-real. Al igual el archivo esta en el folder de "Data". 

## Estructura de la data

Los diagramas Sankeys son un poco complicados dado a como se tiene que estructurar la data. Esta se divide en 2 secciones, los "Nodos" y "Enlaces o Flujos". En algunos casos de poca data, como este del PIB, es mas facil utilizar otros programas como Excel para organizar la data. 

### Nodos: 
Los nodos son las entidades entre las cuales se mueven los flujos. Pueden representar, por ejemplo, diferentes departamentos en una organización, etapas en un proceso de producción, o categorías de gastos.Cada nodo debe tener un identificador único. En la mayoría de los casos, se representan como una lista de nombres o etiquetas.

In [48]:
df_nodes = pd.read_excel('Data/pib_data_estructurada.xlsx',sheet_name='Nodes')
df_nodes.head(10)

Unnamed: 0,label,id
0,Producto Interno Bruto,0
1,Agropecuario,1
2,Industrias,2
3,Servicios,3
4,Impuestos a la producción netos de subsidios,4
5,Subsector Agrícola,5
6,"Ganadería, Silvicultura y Pesca",6
7,Explotación de Minas y Canteras,7
8,Manufactura Local,8
9,Manufactura Zonas Francas,9


Aqui se puede ver como cada "nodo" de nuestro futuro diagrama tiene un identificador unico. 

### Enlaces:
Los enlaces representan la cantidad de algo (como energía, materiales, dinero) que se mueve entre los nodos. Cada enlace se define típicamente por un punto de origen (de qué nodo sale), un destino (a qué nodo llega) y un valor que representa la magnitud del flujo. La representación común es una lista de registros, donde cada registro contiene el identificador del nodo de origen, el identificador del nodo de destino, y el valor del flujo.

In [49]:
df_links = pd.read_excel('Data/pib_data_estructurada.xlsx',sheet_name='Links')
df_links.head(10)

Unnamed: 0,fuente_id,objetivo_id,valor,fuente_texto,objetivo_texto,link_color
0,0,1,362360.9,PIB,Agropecuario,#386150
1,0,2,1978718.0,PIB,Industrias,#ff7f0e
2,0,3,3500298.0,PIB,Servicios,#084887
3,0,4,419187.3,PIB,Impuestos a la producción netos de subsidios,#f95738
4,1,5,238895.2,Agropecuario,Subsector Agrícola,#7dcd85
5,1,6,123465.7,Agropecuario,"Ganadería, Silvicultura y Pesca",#7dcd85
6,2,7,90666.11,Industrias,Explotación de Minas y Canteras,#f58a07
7,2,8,728743.7,Industrias,Manufactura Local,#f58a07
8,2,9,205037.2,Industrias,Manufactura Zonas Francas,#f58a07
9,2,10,954270.8,Industrias,Construcción,#f58a07


donde:
- "fuente_id": es el id de la fuente, es decir, el punto de partida de donde va el flujo.
- "objetivo_id": es el id del objetivo, es decir, el destino del flujo. 
- "valor": es la cantidad en numeros
- "link_color": es opcional, pero aqui es el codigo CSS o nombre del color a elegir para ese enlace en especifico. Para elegir los colores recomiendo la pagina "https://coolors.co/". 

despues "fuente_texto" y "objetivo_texto" es solo para poder visualizar en este ejemplo las conexciones que estamos haciendo.

## Crear Sankey

Utilizaremos la libreria _plotly_ para generar el diagrama. El codigo es el siguiente:

In [45]:
import plotly.graph_objects as go

# Construir la figura. 
fig = go.Figure(data=[go.Sankey(

    # Para elegir el font a utilizar, tamaño, etc
    textfont = dict(
        family = 'Arial',
        size = 12
    ),

    # Para especificar los nombres de los nodes, tamaños, colores, etc
   node = dict(
      pad = 15,
      thickness = 15,
      line = dict(color = "black", width = 0.5),
      label = df_nodes['label'],
      color = 'black'
   ),

    # Insertar los links
   link = dict(
      source=df_links['fuente_id'],
      target=df_links['objetivo_id'],
      value=df_links['valor'],
      color=df_links['link_color'],
   )
)])

# Cambiar caracteristicas de la figura, como titulo, tamaño, etc
fig.update_layout(
   title_text="Origen del Producto Interno Bruto - 2022",
   font_size=10,
   width = 1200,
   height=800
)

In [46]:
# Salvar en formato HTML interactivo
fig.write_html("PIB_Sankey.html")

### Otros recursos

Blog explicativo: https://plotly.com/blog/sankey-diagrams/

Documentacion: https://plotly.github.io/plotly.py-docs/generated/plotly.graph_objects.Sankey.html

