#  Capitulo II

## Gráficos con diferentes estructuras de datos

Ahora que ha aprendido a construir una visualización desde cero utilizando Glifos, podemos ampliar este concepto y construir gráficos utilizando estructuras de datos como la matriz NumPy y el DataFrame de pandas.

¡Este capítulo también le enseñará sobre ColumnDataSource, la esencia central de la biblioteca Bokeh, que le permitirá compartir sus datos en múltiples graficas y widgets!

En pocas palabras, obtendrá experiencia práctica de usar Bokeh con varias estructuras de datos, ya que este capítulo lo llevará a través de:

- Crear gráficas usando matrices NumPy
- Crear gráficas con pandas DataFrames
- Crear gráficos usando ColumnDataSource ”



## Crear trazados Usando matrices NumPy

Las matrices NumPy son una de las estructuras de datos más fundamentales que se encuentran en Python y, como tales, son una estructura de datos importante cuando se trata de crear visualizaciones interactivas en Bokeh. En esta sección, cubriremos cómo puede construir líneas y diagramas de dispersión utilizando matrices NumPy. "


## Crear gráficos de línea utilizando matrices NumPy

In [1]:
# Importar las libreías necesarias

import numpy as np
import random
from bokeh.io import output_notebook, show
from bokeh.plotting import figure

# Crear una matriz para los puntos en los ejex x, y

x_arrego = np.array([1,2,3,4,5,6,7])
y_arrego = np.array([6,7,8,9,10,11,12])

# crear la gráfica

pl = figure()
pl.line(x_arrego, y_arrego, color='green', line_width = 10)
pl.cross(x_arrego, y_arrego, size=30, color='red')
output_notebook()
show(pl)




En el código anterior, creamos dos matrices NumPy para mantener los puntos a lo largo de los ejes x y y. Luego usamos las llamadas regulares a la función Bokeh que aprendimos en el capítulo anterior con Glifos para construir el diagrama lineal, modificando parámetros como: ancho de la línea, color, puntos de cruce.m

# Creación de gráficas utilizando los arreglos o matrices de NymPy

In [2]:
# importar las librerias 

import numpy as np
import random
from bokeh.io import output_notebook, show
from bokeh.plotting import figure

# crear los puntos de datos en dos categorías de arreglos diferentes

x_rojo = np.array([3,3,2,4,1,4])
y_rojo = np.array([3,3,4,4,3,3])

x_verdes = np.array([12,13,12,13])
y_verdes = np.array([20,21,21,22])

# Crear la categoría gráfica de disperción

pl = figure()
pl.circle(x_rojo, y_rojo, size=10, color='red', alpha=0.8)
pl.circle(x_verdes, y_verdes, size=12, color='green', alpha=0.7)

# Definir el tipo de visulización

output_notebook()

show(pl)


En el código anterior, creamos dos grupos distintos de puntos: un grupo rojo y un grupo azul. Cada grupo tenía su propio conjunto de puntos x e y, que son matrices NumPy. Luego creamos un diagrama de dispersión coloreando cada grupo.

Ahora puede ver dos conjuntos distintos de puntos de colores en su diagrama de dispersión. Este tipo de gráficas son útiles para visualizar datos categóricos o para correlacionar variables.



# Crear gráficos utilizando pandas DataFrames

La mayoría de los datos con los que trabajará en el mundo real estarán disponibles en los formatos CSV o Excel y, por lo tanto, inevitablemente los convertirá en un DataFrame de pandas para trabajar con ellos de manera efectiva. 

Bokeh extiende su funcionalidad para ayudarnos a construir gráficas interactivas y significativas usando un DataFrame de pandas en Python. 

En esta sección, construiremos gráficos de dispersión y gráficos de series de tiempo utilizando un DataFrame de pandas.

Para esta sección, utilizaremos un conjunto de datos popular sobre el mercado de valores que se encuentra en Kaggle.



Como primer paso, carguemos el conjunto de datos en Jupyter Notebook. Podemos hacer esto usando el código que se muestra aquí:

In [3]:
!ls

Extensión Trabajo Eje 1 Investigación Cualitativa.png
Untitled.ipynb
all_stocks_5yr.csv
caso 3-1.xlsx
todatetime.csv


In [4]:
import pandas as pd
df = pd.read_csv('all_stocks_5yr.csv')
df

Unnamed: 0,Date,Open,High,Low,Close,Volume,Name
0,2012-08-13,92.29,92.59,91.74,92.40,2075391.0,MMM
1,2012-08-14,92.36,92.50,92.01,92.30,1843476.0,MMM
2,2012-08-15,92.00,92.74,91.94,92.54,1983395.0,MMM
3,2012-08-16,92.75,93.87,92.21,93.74,3395145.0,MMM
4,2012-08-17,93.93,94.30,93.59,94.24,3069513.0,MMM
...,...,...,...,...,...,...,...
606796,2017-08-07,62.12,62.34,61.25,61.83,4208287.0,ZTS
606797,2017-08-08,60.49,61.00,59.50,60.00,4663668.0,ZTS
606798,2017-08-09,59.95,60.87,59.76,60.81,4017297.0,ZTS
606799,2017-08-10,60.87,61.37,59.71,59.74,2690725.0,ZTS


In [5]:
# miremos las estadísticas de resumen

df.describe()


Unnamed: 0,Open,High,Low,Close,Volume
count,606417.0,606593.0,606574.0,606801.0,606395.0
mean,79.529041,80.257435,78.799338,79.55792,4500925.0
std,93.383162,94.187977,92.5353,93.382168,9336171.0
min,1.62,1.69,1.5,1.59,0.0
25%,38.07,38.46,37.7,38.09,1077091.0
50%,59.24,59.79,58.69,59.27,2131913.0
75%,89.39,90.15,88.62,89.43,4442768.0
max,2044.0,2067.99,2035.11,2049.0,618237600.0


In [6]:
# filtrar por apples stock

df_apple = df[df['Name']=='AAL']
df_apple

Unnamed: 0,Date,Open,High,Low,Close,Volume,Name
38314,2013-12-09,23.85,25.44,23.45,24.60,43197268.0,AAL
38315,2013-12-10,24.50,25.17,24.41,24.88,18660625.0,AAL
38316,2013-12-11,25.48,27.20,25.37,25.99,38843371.0,AAL
38317,2013-12-12,26.20,26.71,25.45,25.45,19981824.0,AAL
38318,2013-12-13,25.75,26.30,25.52,26.23,12192421.0,AAL
...,...,...,...,...,...,...,...
39235,2017-08-07,50.82,51.13,50.46,50.58,3016726.0,AAL
39236,2017-08-08,50.68,50.78,49.89,50.00,4274416.0,AAL
39237,2017-08-09,49.74,49.92,49.23,49.40,5020809.0,AAL
39238,2017-08-10,49.03,49.34,48.19,48.55,5441375.0,AAL


In [7]:
df['Date'] = pd.to_datetime(df['Date'])



In [8]:
# Crear una gráfica a partir de una serie de tiempo
# Utilizando un DataFrame de Pandas

# Importar las librerias requeridas

from bokeh.io import output_notebook, show
from bokeh.plotting import figure

# Leer los datos desde el archivo


# Filtrar por Apple stock

df_apple = df[df['Name'] == 'AAL']

plot = figure(x_axis_type = 'datetime', x_axis_label = 'Date', 
              y_axis_label = 'High Price')

plot.line(x = df_apple['Date'], y = df_apple['High'])

output_notebook()

show(plot)

# Convertir la columna Date en una serie de tiempo


#df_apple.loc['date'] = df_apple['date'].astype('datetime64')



En el código anterior, tuvimos que establecer el tipo de eje x en datetime en la función de figura para representar las fechas a lo largo del eje x. Luego, utilizamos la función de línea para generar un diagrama de series de tiempo entre la fecha y los altos precios de Apple en los últimos 5 años.





## Creación de Gráficas de dispersión utilizando DataFrames.

Para crear un diagrama de dispersión entre los precios bajos y altos, junto con los precios de apertura y cierre representados en el mismo diagrama.



In [9]:
# importar las librerias respectivas

from bokeh.io import output_notebook, show
from bokeh.plotting import figure

fig = figure()

fig.circle(x = df_apple['High'], y = df_apple['Low'], 
          color = 'red', size=10, alpha = 0.9)

fig.diamond(x = df_apple['Open'], y = df_apple['Close'],
           color='green', size=10, alpha= 0.7)

output_notebook()
show(fig)

En la gráfica anterior, los círculos rojos representan la relación entre los precios altos y bajos de Apple, mientras que los diamantes verdes representan la relación entre los precios de apertura y cierre. Utilizamos la función de círculo para crear los círculos rojos entre los precios altos y bajos, mientras que utilizamos la función de diamante para crear los diamantes verdes entre los precios de apertura y cierre.



## Crear trazados con ColumnDataSource

ColumnDataSource proporciona una forma de utilizar los mismos datos en múltiples gr y widgets. Al alimentar los datos en ColumnDataSource, construye una base de datos a los que puede recurrir siempre que lo desee, en lugar de cargar los datos en su Jupyter Notebook varias veces.

Básicamente, ColumnDataSource crea un diccionario en el que el valor son los datos contenidos en la columna y la clave es un nombre de cadena que usted especifica para esa columna en particular. "

Fragmento de: Kevin Jolly. "Visualización práctica de datos con Bokeh: trazado web interactivo para Python usando Bokeh". Apple Books.

## Crear un gráfica de serie de tiempo con ColumnDataSource

In [10]:
#  las libretías necesariasm

from bokeh.io import output_notebook, show
from bokeh.plotting import figure
from bokeh.plotting import ColumnDataSource

data = ColumnDataSource(df_apple)


plot = figure(x_axis_type = 'datetime', x_axis_label = 'Date',
              y_axis_label = 'High Prices')

plot.line(x = 'Date', y = 'High', source = data, color = 'red')

plot.circle(x = 'Date', y = 'High', source = data, 
            fill_color = 'white', size = 3)

#Output the plot

output_notebook()

show(plot)




La gráfica nos muestra cómo los altos precios de las acciones de Apple variaron durante un período de 5 años con los círculos azules que indican cada punto de precio de las acciones.

Al crear este gráfico, pasamos todo el DataFrame de Apple a la función ColumnDataSource y lo guardamos en una variable llamada data.

Luego usamos el argumento fuente cuando creamos el diagrama y pasamos estos datos. Ahora podemos usar los nombres de columna directamente al crear el diagrama en lugar de llamar al DataFrame.

Finalmente, utilizamos la función de círculo para generar los círculos azules con un relleno blanco para representar los puntos de datos individuales. "



## Creación de un diagrama de dispersión utilizando ColumnDataSource

In [15]:
df_apple.columns


Index(['Date', 'Open', 'High', 'Low', 'Close', 'Volume', 'Name'], dtype='object')

In [19]:

from bokeh.io import output_file, show
from bokeh.plotting import figure
from bokeh.models import ColumnDataSource

data = ColumnDataSource(data = {
    'x' : df_apple['High'],
    'y' : df_apple['Low'],
    'x1': df_apple['Open'],
    'x2': df_apple['Close'],
})

plot = figure()

plot.cross(x = 'x', y = 'y', source = data, color = 'red', 
            size = 10, alpha = 0.8)

plot.circle(x = 'x1', y = 'x2', source = data, color = 'green', 
            size = 10, alpha = 0.3)

output_notebook()
show(plot)


En el código anterior, mapeamos las columnas del DataFrame que queríamos trazar como los valores en un diccionario que consiste en pares de valor/clave, siendo las claves un nombre de cadena de su elección y el valor siendo las columnas del DataFrame.

Luego pasamos este diccionario como el valor para el argumento de datos de la función ColumnDataSource. Finalmente, las claves del diccionario se pasaron a los argumentos x y y al crear los gráficos de dispersión circular y cruzada. "



## Resumen de Capítulo

Este capítulo le dio una introducción a los formatos de datos más comunes que encontrará al trabajar con Python, y cómo puede crear visualizaciones en Bokeh usando estos formatos.

También aprendió sobre el uso de ColumnDataSource para asignar los nombres de las columnas a una lista de valores de datos que se pueden usar en varios gráficos y widgets. "

