# Visualización

Este *notebook* trata sobre visualización de datos, presente en todo proceso KDD. Aquí se presenta el desarrollo del trabajo realizado para la asignatura Machine Learning Engineering, del Máster en Ingeniería del Software: Cloud, Datos y Gestión TI de la Universidad de Sevilla, curso académico 2022-23.

## Tabla de contenidos

* [Autor](#autor)
* [Introducción](#introduccion)
* [Elementos para la visualización](#elementos)
* [Tipos](#tipos)
* [Caso práctico: Bokeh library](#bokeh)
* [Referencias](#referencias)

___

<a name="autor"></a>
## Autor

Este trabajo y este *notebook* han sido desarrollados por **Mario Ruano Fernández** ([mruano@us.es](mailto:mruano@us.es)).

<a name="introduccion"></a>
## Introducción

La visualización de los datos puede definirse como una forma gráfica y visual de representar información y datos a través de tablas, gráficos, mapas y otros elementos visuales (Tableau). Gracias a la visualización, las personas pueden acceder a la información de los datos de manera más sencilla y más comprensible (Sahay).

Frente a grandes cantidades y conjuntos de datos, la visualización ayuda a sintetizar y detectar de manera efectiva características que los datos esconden, relaciones entre variables, patrones, tendencias, etc. Por esta razón, la visualización se utiliza en la gran mayoría de fases o etapas de cualquier proceso KDD. Desde la selección de datos hasta la comunicación del conocimiento extraido de los mismo, pasando por el preprocesamiento, el análisis y la aplicación de técnicas de Machine Learning y Data Mining.

La visualización de datos es un proceso, en esencia, simple: tomamos los valores de los datos y los convertimos sistemática y lógicamente en elementos visuales que conforman una representación gráfica o visual (Wilke, 2019).

Sin embargo, el campo de la visualización es extremadamente amplio. Aquí convergen una serie de disciplinas, como el diseño gráfico, el arte, la ciencia cognitiva, las matemáticas, la geometría, etc.

En este trabajo se pretende realizar un estudio del estado del arte de la visualización de datos, marcando como objetivos.

- Establecer una serie de criterios para el correcto uso de la visualización.
- Describir los diferentes tipos de formas gráficas que se utilizan para la visualización de datos.
- Desarrollo de ejemplos y casos de uso.

Para dar cumplimiento a estos objetivos, en la sección [Elementos para la visualización](#elementos) se especifican algunas características importantes que deben tenerse en cuenta en toda representación gráfica, de modo que pueda obtenerse, como resultado, una buena visualización de datos. En la sección [Tipos](#tipos) se incluye una descripción de los diferentes tipos de visualizaciones que se pueden encontrar, cómo se clasifican y cuáles son las más utilizadas. Por último, en la sección [Caso práctico](#bokeh), se pondrán en práctica los aspectos teóricos estudiados, realizándose ejemplos con la librería [Bokeh](https://bokeh.org/).

<a name="elementos"></a>
## Elementos para la visualización

Tal y como define Wilke (2019) en su libro Fundamentals of Data Visualization, la visualización de datos comprende una parte de arte y otra parte de ciencia. Se debe buscar un equilibrio entre ambas partes para cumplir con su propósito de uso: comunicar una información correcta, comprensible, sin ambigüedades, útil y de interés. En definitiva, la visualización de datos no es más que una forma de comunicación visual que presenta los datos de forma gráfica (Sahay, 2016).

Por esta razón, y debido a esa necesidad de equilibrar las creaciones gráficas, aquí se identifican una serie de elementos y aspectos a tener en cuenta a la hora de generar visualizaciones. Es un amplio campo de trabajo y todos estos elementos pueden ser estudiados con gran profundidad y detalle. En este *notebook* solo se van a identificar y se indicarán algunas buenas prácticas, especialmente en aquellos elementos que pueden ser manipulados a través de las librerías de visualización, en general, y de los que permite personalizar la librería Bokeh, en particular.

En definitiva, cuando se pretende generar gráficos a partir de datos, se está tratando de desarrollar un procedimiento de mapeo, mediante el cual se pasa de una serie de datos en bruto, normalmente numéricos, a una representación estética y visual de los mismos. Aquí entran en juego aspectos como la posición, las formas, el tamaño, el color, etc.

Es, en ese procedimiento de mapeo, donde se detectan los elementos que darán identidad visual a la realidad intrínseca de los propios datos que representan, y que se enuncian a continuación.

### Ejes

En este trabajo se hace referencia a gráficos en 2D, generalmente aquellos que utilizan un sistema de coordenadas cartesianas para sus ejes.

Respecto a los ejes hay que tener en cuenta un par de aspectos:

- El ratio de aspecto del eje horizontal frente al vertical. Esto está relacionado con el ancho y alto de la gráfica que se visualiza. Afecta a cómo se visualizan los resultados, aunque sean diferentes versiones correctas.
- La escala numérica de los ejes. Pueden seguir una escala lineal, logarítmica o de raíz cuadrada, entre otras. Esto afectará a la forma de visualizar los datos y de dar una correcta interpretación de los ellos.

Es recomendable hacer uso de la escala logarítmica en aquellos casos en los que se quieren representar valores en los que hay una gran diferencia en cuanto a magnitudes (Wilke, 2019).

Otro tipo de sistema de representación es el sistema de coordenadas polares, con eje curvo. Es óptimo hacer uso de este tipo de ejes cuando se quieren representar datos de naturaleza periódica.

### Color

El color es uno de los principales elementos visuales que captan la atención en un gráfico. Por tanto, si se hace una correcta elección y aplicación del mismo puede ser de gran utilidad para comunicar la información. De manera general, el color cubre los siguientes requisitos (Wilke, 2019):

- Distinción de elementos discretos o grupos: mediante el uso de escalas cualitativas de color, el objetivo es poder distinguir de forma clara entre distintos conjuntos, evitando que algún color destaque por encima de otros o que den sensación de ordenación. Por ejemplo, esto es muy importante a la hora de representar clusters.
- Representación de valores: generalmente se busca representar una escala de valores o un rango, por lo que se aplica una escala secuencial de color. Esta debe presentar un rango uniforme perceptible, que puede bien puede ser monocromático o multicromático, pero lo importante es que en todo momento se pueda comprender ya apreciar con facilidad la diferencia de magnitud entre los valores de los datos.
- Resaltar algún valor o elemento de los datos: con la intención de llamar la atención o resaltar un aspecto concreto, usar un color que destaca sobre el resto hace resaltar una idea. Para conseguir este efecto, es muy importante que el resto de colores que acompañen al color de resaltado no distraigan. Una buena técnica es dejar sin color o utilizar un tono gris para todos los elementos, frente a un color para el elemento a resaltar, aumentando el efecto.

Con esto, en todo caso se debe tratar de hacer una elección de color correcta, evitando algunos problemas que pueden derivar de un mal uso del color:

- Codificar (colorear) demasiada información de forma irrelevante, no solo no llegando a aportar nada, sino haciendo absolutamente compleja la tarea de destinguir elementos. Cuando se quiere diferenciar más de ocho elementos categóricos, se recomienda usar etiquetas textuales, siempre y cuando no saturen tampoco.
- Utilizar demasiados colores muy saturados o intensos dificulta la visión y provoca una lectura estresante del gráfico. Estos colores pueden tener cabida, pero de forma mínima y para resaltar algún aspecto.
- Seleccionar escalas de color que hacen compleja la comprensión para aquellas personas tienen deficiencias cognitivias de visión. Se recomienda utilizar algún simulador que simula estas patologías para testear los colores elegidos y certificar que funcionan en todos los casos.
- Elegir escalas de colores que no permiten diferenciar las magnitudes de los valores, qué es mayor o qué es menor. Esto suele pasar si se utilizan escalas como la escala arcoíris, en la que hay más de un color y donde hay tonalidades monótonas.

### Texto

### Tipología

<a name="tipos"></a>
## Tipos

<a name="bokeh"></a>
## Caso práctico: Bokeh library

In [17]:
import numpy as np
import pandas as pd

from bokeh.plotting import figure, show
from bokeh.io import output_notebook

output_notebook()

In [24]:
df = pd.read_csv("../data/drug200.csv")

df.head()

Unnamed: 0,Age,Sex,BP,Cholesterol,Na_to_K,Drug
0,23,F,HIGH,HIGH,25.355,DrugY
1,47,M,LOW,HIGH,13.093,drugC
2,47,M,LOW,HIGH,10.114,drugC
3,28,F,NORMAL,HIGH,7.798,drugX
4,61,F,LOW,HIGH,18.043,DrugY


In [27]:
p = figure(
  title="Patient Age",
  x_axis_label='Age',
  y_axis_label='Pacient',
  sizing_mode='stretch_width',
  max_width=800,
  height=300,
)
p.line(df["Age"].index, df["Age"].values, legend="Age.", line_width=2)
show(p)



In [33]:
def plot_histogram(df, column, title, x_label, y_label):
  hist = df[column].value_counts()
  p = figure(
    title=title,
    x_axis_label=x_label,
    y_axis_label=y_label,
    sizing_mode='stretch_width',
    max_width=800,
    height=300,
  )
  p.vbar(x=hist.index, top=hist.values, width=0.9)
  show(p)

plot_histogram(df, "Age", "Patient Age", "Age", "n Pacient")

<a name="referencias"></a>
## Referencias

- Pajankar, A. (2020). Practical Python Data Visualization: A Fast Track Approach To Learning Data Visualization With Python. Apress.
- Wilke, C. O. (2019). Fundamentals of Data Visualization: A Primer on Making Informative and Compelling Figures (1.). O’Reilly Media.
- Iliinsky, N., & Steele, J. (2011). Designing Data Visualizations: Representing Informational Relationships. Van Duuren Media.
- Sahay, A. (2016). Data visualization, volume i : Recent trends and applications using conventional and big data. Business Expert Press.
- Guía de visualización de datos: definición, ejemplos y recursos de aprendizaje. (s. f.). Tableau. https://www.tableau.com/es-es/learn/articles/data-visualization
- A Complete Guide to Data Visualization in Python With Libraries, Chart, Graphs & More. (s. f.). Simplilearn. https://www.simplilearn.com/tutorials/python-tutorial/data-visualization-in-python