<a href="https://colab.research.google.com/github/panicoro/FS-course-data-ai/blob/master/Clase_Visualizacio%CC%81n_CACDIA_2024.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## <div style="text-align: right"> Clase 5: Visualización de datos </div>
#### <div style="text-align: right"> Capacitación Avanzada en Ciencia de Datos e Inteligencia Artificial - Edición 2024 </div>
##### <div style="text-align: right"> Fundación Sadosky </div>

---

# Elegir el formato en función de lo que se quiere mostrar
Una vez definido el objetivo de la visualización, la audiencia la que nos dirigimos y la historia que queremos contar, el próximo objetivo será definir qué tipo de relación es más importante en esa historia, analizar los tipos de gráficos dentro de esa categoría para así empezar a formar las primeras ideas de qué podría funcionar mejor. La idea de esta clase es que les sirva como punto de partida para conseguir visualizaciones efectivas.

## 1. Desviación
Enfatiza la variación positiva o negativa respecto a un punto de referencia fijo. Típicamente el punto de referenica es el cero pero podría ser un objetivo o promedio. Se puede utilizar también para mostrar sentimientos (positivo/neutral/negativo).


### 1.1 Barras divergentes

Un gráfico de barras que puede tomar valores positivos o negativos

In [None]:
import plotly.graph_objects as go

years = ['2016','2017','2018']

fig = go.Figure()
fig.add_trace(go.Bar(x=years, y=[500, 600, 700],
                base=[-500,-600,-700],
                marker_color='crimson',
                name='Pérdidas'))
fig.add_trace(go.Bar(x=years, y=[300, 400, 700],
                base=0,
                marker_color='lightslategrey',
                name='Ganancias'
                ))

fig.update_layout(template='plotly_white')
fig.show()

### 1.2 Barras apiladas divergentes

In [None]:
import plotly.graph_objects as go
x = [1, 2, 3, 4]

fig = go.Figure()
fig.add_trace(go.Bar(x=x, y=[10, 8, 2, 8], name="Conforme", marker=dict(color='#fdb863')))
fig.add_trace(go.Bar(x=x, y=[5, 4, 9, 13], name="Muy conforme", marker=dict(color='#e66101')))
fig.add_trace(go.Bar(x=x, y=[-15, -3, -4, -8], name="Algo disconforme", marker=dict(color='#b2abd2')))
fig.add_trace(go.Bar(x=x, y=[-1, -3, -5, -4], name="Muy disconforme", marker=dict(color='#5e3c99')))

fig.update_layout(template='plotly_white', barmode='relative', title_text='Cómo se siente frente al cambio de sistema de gestión?', legend={'traceorder':'normal'})
fig.show()

### 1.3 Espinograma (o Spine plot)

Un tipo especial de barras apiladas (o mosaico) donde las variables que interesa contrastar son solo dos

In [None]:
import plotly.graph_objects as go
y = ['0-10', '10-20', '20-30', '30-40', '40-50','50-60','60-70','70-80','80-90','90-100']

fig = go.Figure()
fig.add_trace(go.Bar(x=[-5, -10, -8, -2, -8, -6, -3, -3, -4, -2], y=y, name="Mujeres", marker=dict(color='#fdb863'), orientation='h'))
fig.add_trace(go.Bar(x=[4, 5, 4, 9, 13, 11, 4, 5, 4, 3], y=y, name="Hombres", marker=dict(color='#e66101'), orientation='h'))

fig.update_layout(template='plotly_white', barmode='relative', title_text='Participación por género y rango etario', legend={'traceorder':'normal'})
fig.show()



### 1.4 Área sobre o debajo del umbral (superávit/déficit)

Permite mostrar un balance respecto a un umbral de base o entre dos series

In [None]:
import plotly.graph_objects as go

fig = go.Figure()
fig.add_trace(go.Scatter(x=[1, 2, 3, 4, 5], y=[5, 2, 3, 5, 0], fill='tozeroy')) # fill down to xaxis
fig.add_trace(go.Scatter(x=[5, 6, 7, 8, 9], y=[0, -5, -1, -7, -3], fill='tozeroy')) # fill to trace0 y

fig.update_layout(template='plotly_white')

fig.show()

---
## 2. Correlación

Mostrar la relación entre dos o más variables.
Cuidado! Es posible que muchos lectores asuman que las relaciones son causales.

### 2.1 Dispersión

Es la forma más estándar de mostrar la relación entre dos variables continuas. En este ejemplo se agregan líneas de tendencia y distribuciones marginales.

In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.scatter(df, x="sepal_width", y="sepal_length", color="species", marginal_y="violin",
           marginal_x="box", trendline="ols", template="simple_white")
fig.show()

### 2.2 Barras + línea

In [None]:
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Create figure with secondary y-axis
fig = make_subplots(specs=[[{"secondary_y": True}]])

data_argentina = px.data.gapminder().query("country == 'Argentina'")

fig.add_trace(go.Bar(x=data_argentina['year'],
                     y=data_argentina['pop'],
                     name="Población",
                     marker=dict(color='#fdb863')),
                     secondary_y=False)

fig.add_trace(go.Scatter(x=data_argentina['year'],
                         y=data_argentina['gdpPercap'],
                         name="PBI per cápita"),
                         secondary_y=True)

# Título de la figura
fig.update_layout(
    title_text="Evolución de la población Argentina y su PBI - [Ejemplo de figura con doble eje y]"
)

# Título del eje x
fig.update_xaxes(title_text="Año")

# Títulos de los ejes y
fig.update_yaxes(title_text="Población", secondary_y=False)
fig.update_yaxes(title_text="PBI per cápita", secondary_y=True)

fig.update_layout(template='plotly_white')

fig.show()

### 2.3 Dispersión conectado

Permite mostrar cómo cambió la relación entre dos variables con el paso del tiempo

In [None]:
import plotly.express as px

df = px.data.gapminder().query("country in ['Argentina', 'Brazil']")

fig = px.line(df, x="lifeExp", y="gdpPercap",
              color="country", text="year",
              labels={
                     "country": "País"
                 },)
fig.update_traces(textposition="bottom right")

# Título de la figura
fig.update_layout(
    title_text="Evolución de la expectativa de vida y el PBI per cápita entre 1952 y 2007"
)

# Título del eje x
fig.update_xaxes(title_text="Expectativa de vida")

# Título del eje y
fig.update_yaxes(title_text="PBI per cápita")

fig.update_layout(template='plotly_white')

fig.show()

### 2.4 Burbujas
Es similar al gráfico de dispersión pero incorpora la capacidad de agregar una dimensión más asociada al tamaño de los círculos

In [None]:
import plotly.express as px
df = px.data.gapminder()

fig = px.scatter(df.query("year==2007"), x="gdpPercap", y="lifeExp",
                 size="pop", color="continent",
                 hover_name="country", log_x=True, size_max=60,
                 labels={
                     "continent": "Continente"
                 },)

# Título de la figura
fig.update_layout(
    title_text="Expectativa de vida vs PBI per cápita en 2007"
)

# Título del eje x
fig.update_xaxes(title_text="Expectativa de vida")

# Título del eje y
fig.update_yaxes(title_text="PBI per cápita")

fig.update_layout(template='plotly_white')

fig.show()

### 2.5 Mapa de calor (heatmap)

Una buena alternativa para mostrar patrones generales entre categorías de datos. Es poco efectivo para mostrar pequeñas diferencias en cantidades.

In [None]:
import plotly.express as px

df = px.data.medals_wide(indexed=True)
fig = px.imshow(df, color_continuous_scale='YlOrRd')

fig.update_xaxes(side="top")

# Título del eje x
fig.update_xaxes(title_text="Medallas")

# Título del eje y
fig.update_yaxes(title_text="País")

fig.show()

---

## 3. Posición (Ranking)

Muchas veces la posición de un elemento en una lista ordenada es más importante que su valor absoluto o relativo.


### 3.1 Barras ordenadas

Un simple gráfico de barras permite comparar los valores mucho más fácilmente si éstas están ordenadas.

Veamos un ejemplo desordenado:

In [None]:
import plotly.express as px

df = px.data.gapminder().query("continent == 'Americas' and year == 2007 and pop > 2.e6")
fig = px.bar(df, y='pop', x='country', text='pop')
fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig.update_layout(template='plotly_white')
fig.show()

Y ahora el mismo ordenado:

In [None]:
import plotly.express as px

df = px.data.gapminder().query("continent == 'Americas' and year == 2007 and pop > 2.e6")
fig = px.bar(df, y='pop', x='country', text='pop')
fig.update_traces(texttemplate='%{text:.2s}', textposition='outside')
fig.update_layout(uniformtext_minsize=8, uniformtext_mode='hide')
fig.update_xaxes(categoryorder="total descending")
fig.update_layout(template='plotly_white')
fig.show()

### 3.2 Símbolos proporcionales ordenados

Sirve en casos en que hay grandes variaciones entre valores y/o no se requiere poder hacer una comparación muy fina entre los valores

In [None]:
import plotly.graph_objects as go

fig = go.Figure(data=[go.Scatter(
    x=[1, 2, 3, 4], y=[10, 11, 12, 13],
    mode='markers',
    marker_size=[30, 60, 90, 140],
    marker=dict(color='#fdb863'))
])

fig.update_layout(template='plotly_white')
fig.show()

### 3.3 Dot plot

In [None]:
import plotly.graph_objects as go

schools = ["Brown", "NYU", "Notre Dame", "Cornell", "Tufts", "Yale",
           "Dartmouth", "Chicago", "Columbia", "Duke", "Georgetown",
           "Princeton", "U.Penn", "Stanford", "MIT", "Harvard"]

fig = go.Figure()
fig.add_trace(go.Scatter(
    x=[72, 67, 73, 80, 76, 79, 84, 78, 86, 93, 94, 90, 92, 96, 94, 112],
    y=schools,
    marker=dict(color="mediumpurple", size=12),
    mode="markers",
    name="Mujeres",
))

fig.add_trace(go.Scatter(
    x=[92, 94, 100, 107, 112, 114, 114, 118, 119, 124, 131, 137, 141, 151, 152, 165],
    y=schools,
    marker=dict(color="mediumseagreen", size=12),
    mode="markers",
    name="Hombres",
))

fig.update_layout(template='plotly_white', title="Disparidad de género en el ingreso",
                  xaxis_title="Salario anual (en miles)",
                  yaxis_title="Institución")

fig.show()

### 3.4 Slopegraph

In [None]:
import plotly.graph_objects as go
fig = go.Figure(go.Scatter(x=[0, 1], y=[10, 3], mode='lines+markers+text', name = 'Cat 1',
                           text='Cat 1', textposition=['middle left', 'middle right']))
fig.add_trace(go.Scatter(x=[0, 1], y=[8, 5], mode='lines+markers+text', name = 'Cat 2',
                           text='Cat 2', textposition=['middle left', 'middle right']))


# Agrego líneas verticales para inicio y fin
fig.add_trace(go.Scatter(x=[0, 0], y=[0, 11], mode='text',
                           text=['','<b>Inicio</b> '], textposition='top left'))
fig.add_trace(go.Scatter(x=[1, 1], y=[1, 11], mode='text',
                           text=['',' <b>Fin</b> '], textposition='top right'))

fig.add_shape(type='line', x0=0, x1=0, y0=0, y1=1, xref='x', yref='paper')
fig.add_shape(type='line', x0=1, x1=1, y0=0, y1=1, xref='x', yref='paper')

fig.update_layout(template='plotly_white',showlegend=False)
fig.show()

### 3.5 Lollipop chart

Es una variante del gráfico de barras que pone más foco en los valores

In [None]:
import numpy as np
import plotly.offline as pyo
import plotly.graph_objs as go
import plotly.io as pio

# Generate a random signal
np.random.seed(42)
random_signal = np.random.normal(size=100)

# Offset the line length by the marker size to avoid overlapping
marker_offset = 0.04

def offset_signal(signal, marker_offset):
    if abs(signal) <= marker_offset:
        return 0
    return signal - marker_offset if signal > 0 else signal + marker_offset

data = [
    go.Scatter(
        x=list(range(len(random_signal))),
        y=random_signal,
        mode='markers',
        marker=dict(color='red')
    )
]

# Use the 'shapes' attribute from the layout to draw the vertical lines
layout = go.Layout(
    shapes=[dict(
        type='line',
        xref='x',
        yref='y',
        x0=i,
        y0=0,
        x1=i,
        y1=offset_signal(random_signal[i], marker_offset),
        line=dict(
            color='#e66101',
            width=1
        )
    ) for i in range(len(random_signal))],
    title='Lollipop Chart'
)

# Plot the chart
fig = go.Figure(data, layout)
# Templates posibles: ["plotly", "plotly_white", "plotly_dark", "ggplot2", "seaborn", "simple_white", "none"]
fig.update_layout(template='plotly_white')


pyo.iplot(fig)


---
## 4. Distribución

#### Ejemplos de uso:
Distribución del ingreso, distribución poblacional por edad y sexo

### 4.1 Histograma

In [None]:
import plotly.express as px
df = px.data.tips()
fig = px.histogram(df, x="total_bill",
                   nbins=30,
                   labels={'total_bill':'Total de la factura'},
                   color_discrete_sequence=['#e66101'],
                   opacity=0.8,
                   marginal="rug",
                   template='plotly_white')
fig.show()

#### 4.1.1 Varias distribuciones

In [None]:
import plotly.figure_factory as ff
import numpy as np

# Add histogram data
x1 = np.random.randn(200) - 2
x2 = np.random.randn(200)
x3 = np.random.randn(200) + 2
x4 = np.random.randn(200) + 4

# Group data together
hist_data = [x1, x2, x3, x4]

group_labels = ['Grupo 1', 'Grupo 2', 'Grupo 3', 'Grupo 4']

colors = ['#a6cee3','#1f78b4','#b2df8a','#33a02c']

# Create distplot with custom bin_size
fig = ff.create_distplot(hist_data, group_labels, bin_size=.1, colors=colors)
fig.update_layout(template='plotly_white')
fig.show()

### 4.2. Strip plot

In [None]:
import plotly.express as px

df = px.data.tips()
fig = px.strip(df, x="total_bill", y="day",
               template='plotly_white')
fig.show()

### 4.3 Box plot

In [None]:
import plotly.express as px
df = px.data.tips()
fig = px.box(df, x="time", y="total_bill",
             points="all", # Agrega la distribución de puntos
             template='plotly_white')
fig.show()

#### 4.3.1 Elegir el método para calcular los cuartiles

Por defecto se calculan usando el método lineal (ver http://www.amstat.org/publications/jse/v14n3/langford.html y https://en.wikipedia.org/wiki/Quartile para más detalles). Pero también es posible elegir un algoritmo _exclusivo_ o _inclusivo_.

El algoritmo _exclusivo_ usa la mediana para dividir el dataset ordenado en dos mitades. Si la muestra es impar, no incluye la mediana en ninguna de las mitades. Q1 es la mediana de la mitad inferior y Q3 es la mediana de la mitad superior.

El algoritmo _inclusivo_ también utiliza la mediana para dividir el dataset ordenado en dos mitades, pero si la muestra es impar incluye a la mediana en ambas mitades, Q1 es la mediana de la mitad inferior y Q3 es la mediana de la mitad superior.

Veamos un ejemplo:

In [None]:
import plotly.express as px
import pandas as pd

data = [1,2,3,4,5,6,7,8,9]
df = pd.DataFrame(dict(
    linear=data,
    inclusive=data,
    exclusive=data
)).melt(var_name="quartilemethod")


fig = px.box(df, y="value", facet_col="quartilemethod", color="quartilemethod",
             boxmode="overlay", points='all')

fig.update_traces(quartilemethod="linear", jitter=0, col=1)
fig.update_traces(quartilemethod="inclusive", jitter=0, col=2)
fig.update_traces(quartilemethod="exclusive", jitter=0, col=3)

fig.update_layout(template='plotly_white')
fig.show()

### 4.4 Violin plot

In [None]:
import plotly.express as px

df = px.data.tips()
fig = px.violin(df, y="tip", x="smoker",
                color="sex",
                box=True,
                hover_data=df.columns)

fig.update_layout(template='plotly_white')
fig.show()

---
## 5. Parte de un todo



### 5.1 Gráfico de torta - Pie chart / Donut chart

In [None]:
import plotly.graph_objects as go
from plotly.subplots import make_subplots

labels = ["US", "China", "European Union", "Russian Federation", "Brazil", "India",
          "Rest of World"]

# Create subplots: use 'domain' type for Pie subplot
fig = make_subplots(rows=1, cols=2, specs=[[{'type':'domain'}, {'type':'domain'}]])
fig.add_trace(go.Pie(labels=labels,
                     values=[16, 15, 12, 6, 5, 4, 42],
                     name="GHG Emissions",
                     marker_colors=px.colors.qualitative.Safe),
              1, 1)
fig.add_trace(go.Pie(labels=labels, values=[27, 11, 25, 8, 1, 3, 25], name="CO2 Emissions"),
              1, 2)

# Use `hole` to create a donut-like pie chart
fig.update_traces(hole=.4, hoverinfo="label+percent+name")

fig.update_layout(
    title_text="Global Emissions 1990-2011",
    # Add annotations in the center of the donut pies.
    annotations=[dict(text='GHG', x=0.18, y=0.5, font_size=20, showarrow=False),
                 dict(text='CO2', x=0.82, y=0.5, font_size=20, showarrow=False)])
fig.show()

### 5.2 Mosaico

Útil para visualizar información jerárquica.

In [None]:
import plotly.express as px
import numpy as np
df = px.data.gapminder().query("year == 2007")
fig = px.treemap(df, path=[px.Constant("world"), 'continent', 'country'], values='pop',
                  color='lifeExp', hover_data=['iso_alpha'],
                  color_continuous_scale='BrBG',
                  color_continuous_midpoint=np.average(df['lifeExp'], weights=df['pop']))
fig.update_layout(margin = dict(t=50, l=25, r=25, b=25), template='plotly_white')
fig.show()

### 5.3 Sunburst chart

Otra opción para visualizar información jerárquica. La jerarquía mayor se encuentra en el centro y se explande hacia afuera del círculo.

In [None]:
import plotly.express as px
import numpy as np
df = px.data.gapminder().query("year == 2007")
fig = px.sunburst(df, path=['continent', 'country'], values='pop',
                  color='lifeExp', hover_data=['iso_alpha'],
                  color_continuous_scale='BrBG',
                  color_continuous_midpoint=np.average(df['lifeExp'], weights=df['pop']))
fig.show()

---

## Otros

### Embudo

Muy usado para representar datos en diferentes etapas de un proceso de negocio. Es un mecanismo importante en bussines intelligence para identificar potenciales áreas problemáticas de un proceso.

In [None]:
import plotly.express as px
import pandas as pd
stages = ["Website visit", "Downloads", "Potential customers", "Requested price", "invoice sent"]
df_mtl = pd.DataFrame(dict(number=[39, 27.4, 20.6, 11, 3], stage=stages))
df_mtl['office'] = 'Montreal'
df_toronto = pd.DataFrame(dict(number=[52, 36, 18, 14, 5], stage=stages))
df_toronto['office'] = 'Toronto'
df = pd.concat([df_mtl, df_toronto], axis=0)
fig = px.funnel(df, x='number', y='stage', color='office')
fig.update_layout(template='plotly_white')
fig.show()

### Coordenadas paralelas

In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.parallel_coordinates(df, color="species_id", labels={"species_id": "Species",
                "sepal_width": "Sepal Width", "sepal_length": "Sepal Length",
                "petal_width": "Petal Width", "petal_length": "Petal Length", },
                             color_continuous_scale=px.colors.diverging.Tealrose,
                             color_continuous_midpoint=2)

fig.show()

### Matriz de gráficos de dispersión

Permite comparar las distribuciones de valores de todas las varibales del dataset una contra otra.

In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.scatter_matrix(df, dimensions=["sepal_width", "sepal_length", "petal_width", "petal_length"], color="species")
fig.show()