## Construcción de un diagramas interactivos

Para la realización de gráficos interactivos se apoya en la librería Bokeh que despliegua representaciones visualemente estéticas e informativas en el navegador.

Como elemento básico se tienen los pictogramas o Glyphs, son propiedades visuales tales como color, tamaño, o posición y forma de las observaciones

In [52]:
import pandas as pd
import numpy as np
from bokeh.plotting import figure
from bokeh.models import HoverTool
from bokeh.io import output_file, show
from bokeh.models import CategoricalColorMapper

## Importar datos

El conjunto de datos corresponde a observaciones sobre la fertilidad, alfabetismo y tamaño de la población en paises de diferentes continentes

In [2]:
data = pd.read_excel("../Datos/Fertility.xls", header=7)
data.dropna(inplace=True)                                 # Eliminar valores perdidos

## 1. Primeros diagramas de dispersión interactivos

In [4]:
# Se definen las variables x y y

x = data["fertility"]
y = data["female literacy"]

# Se crea la figura donde se especifica los títulos de los ejes

p = figure(x_axis_label='Fertilidad (niños por mujer)', 
           y_axis_label='Alfabetismo (% de la población)')

# Para realizar el diagrama de dispersión se toman los círculos para relacionar los pares de observaciones
p.circle(x,y)     # p representa la figura donde se desplegaran las observaciones x y y. circle es la forma que toma cada valor
output_file("fert_lit.html") # Guardar el archivo en formato HTML
show(p)

In [6]:
# Dentro de estos diagramas es posible incluir múltiples datos. En este caso se comparan continentes

# Se filtran los datos para Africa y Latinoamerica. Se sigue tomando la fertilidad y el alfabetísmo

x_latam = data[data["Continent"] == "LAT"]["fertility"]     
x_africa = data[data["Continent"] == "AF"]["fertility"]

y_latam = data[data["Continent"] == "LAT"]["female literacy"]
y_africa = data[data["Continent"] == "AF"]["female literacy"]

# Se especifican los títulos de los ejes

p = figure(x_axis_label='Fertilidad (niños por mujer)', 
           y_axis_label='Alfabetismo (% de la población)')

# A cada una de las regiones se les asigna una formadiferente para representar las observaciones, por ejemplo, tríangulos o x's

p.triangle(x_latam, y_latam, color="cyan", size=10, alpha=0.8)       # Latinoamerica
p.x(x_africa, y_africa, color="green", size=10, alpha=0.8)           # Africa

show(p)

## 2. Otros pictogramas

In [7]:
df_2 = pd.read_csv("../Datos/Stock.csv", index_col=0) # Se importa un segundo conjunto de datos
df_2.head()

Unnamed: 0,Date,AAPL,IBM,CSCO,MSFT
0,2000-01-03,111.937502,116.0,108.0625,116.5625
1,2000-01-04,102.500003,112.0625,102.0,112.625
2,2000-01-05,103.999997,116.0,101.6875,113.8125
3,2000-01-06,94.999998,114.0,100.0,110.0
4,2000-01-07,99.500001,113.5,105.875,111.4375


### Líneas y serie de tiempo

In [8]:
date = pd.to_datetime(df_2["Date"]) # Se transforma la columna Date a formato fecha usando pandas
AAPL = df_2["AAPL"]

p = figure(x_axis_type="datetime", x_axis_label="Fecha", y_axis_label="Dólares")

p.line(date, AAPL)
p.circle(date, AAPL, fill_color="white",size=4)   # Se agregan marcadores dentro del diagrama de líneas
show(p)

In [9]:
x = np.linspace(0,10,1000)     # Se genera una secuencia de 1000 números desde el 0 hasta el 10
y = np.cos(x)                  # Se evalúa la función coseno

p = figure()
p.line(x,y,color="purple")
show(p)

## 2. ColumnDataSource

Una estructura de datos comunmente utilizada para la visualización en Bokeh es ColumnDataSource. El propósito de esta estructura es actuar de manera similar a como lo hacen los dataframes para Seaborn, es decir, no definir de manera explícita las variables a graficar sino tomandolas directamente de la estructura

In [23]:
from bokeh.plotting import ColumnDataSource
from bokeh.sampledata.iris import flowers   # Importar dataset de iris    
from bokeh.io import export_png             # Exportar png

In [11]:
source = ColumnDataSource(data)      # Se crea la estructura ColumnDataSource partiendo de un dataframe

p = figure()
p.circle(x = "fertility", y = "female literacy", color="Continent", source=source, size=8)
show(p)

In [29]:
source = ColumnDataSource(flowers)

p = figure(x_axis_label="petal_length", y_axis_label="sepal_length", tools='box_select, lasso_select')

p.circle(x="petal_length", y='sepal_length',selection_color="red", source= source)

show(p)

### Hover

### Diagrama de dispersión

In [61]:
p = figure()

# Convert df to a ColumnDataSource: source
source = ColumnDataSource(data)

# Make a CategoricalColorMapper object: color_mapper
color_mapper = CategoricalColorMapper(factors=['ASI', 'NAM', 'LAT', 'AF', 'EUR', 'OCE'],
                                      palette=['red', 'green', "yellow", "darkblue", "cyan", 'blue'])

# Add a circle glyph to the figure p
p.circle('fertility', 'female literacy', source=source,
            color=dict(field='Continent', transform=color_mapper),
            legend_group='Continent')

# Specify the name of the output file and show the result
output_file('colormap.html')
show(p)

In [62]:
x = date
y = AAPL

p = figure()

# Add a circle glyphs to figure p
p.circle(x, y, size=10,
         fill_color='grey', alpha=0.1, line_color=None,
         hover_fill_color='firebrick', hover_alpha=0.5,
         hover_line_color='white')

# Create a HoverTool: hover
hover = HoverTool(tooltips=None, mode='vline')

# Add the hover tool to the figure p 
p.add_tools(hover)

# Specify the name of the output file and show the result
output_file('hover_glyph.html')
show(p)