# Plotly

## Introducción

Plotly ofrece un servicio web para hostear gráficos. Cree una cuenta gratis para empezar. Los gráficos se guardan dentro de su cuenta de Plotly en línea. El alojamiento público es gratuito, para alojamiento privado tienen planes pagos.
Existen 3 niveles diferentes de privacidad:

* **Público**: cualquiera puede ver este gráfico. Aparecerá en su perfil y puede aparecer en los motores de búsqueda. No necesita iniciar sesión en Plotly para ver este cuadro.

* **Privado**: solo el usuario puede ver este plot. No aparecerá en el feed de Plotly, su perfil o los motores de búsqueda. Debe haber iniciado sesión en Plotly para ver este gráfico. Puede compartir este gráfico de forma privada con otros usuarios de Plotly en su cuenta de Plotly en línea y deberán iniciar sesión para ver este gráfico.

* **Secreto**: cualquier persona con este enlace secreto puede ver esta tabla. 

Para cambiar esta configuración:

``` python 
import plotly
plotly.tools.set_config_file(world_readable=False,
                             sharing='private') ```

In [1]:
import plotly
import plotly.plotly as py
import plotly.tools as tls
import plotly.graph_objs as go
from plotly.offline import init_notebook_mode, iplot

import numpy as np
import pandas as pd

Para poder generar los gráficos de plotly es necesario obtener una cuenta en <a href="https://plot.ly/settings/api#/" target="_blank">plot.ly</a>

In [4]:
usuario = 'rcatala79'
key_api = '3at1hMRsHGEH0882vefe'
tls.set_credentials_file(username = usuario, api_key = key_api)

### Plots online

Al graficar en línea, el plot y los datos se guardarán en su cuenta en la nube. Hay dos métodos para  plotear en línea: `py.plot()` y `py.iplot()`. Ambas opciones crean una URL única para la trama y la guardan en su cuenta de Plotly.

Utilice `py.plot()` para devolver la URL única y, opcionalmente, abra la URL.

Utilice  `py.iplot()` cuando trabaje en un cuaderno de Jupyter para visualizar el gráfico en la notebook.

In [5]:
trace0 = go.Scatter(x = [1, 2, 3, 4],
                    y = [10, 15, 13, 17])

trace1 = go.Scatter(x = [1, 2, 3, 4],
                    y = [16, 5, 11, 9])

data = [trace0, trace1]

py.plot(data, filename = 'basic-line', auto_open = True)

High five! You successfully sent some data to your account on plotly. View your plot in your browser at https://plot.ly/~rcatala79/0 or inside your plot.ly account where it is named 'basic-line'


'https://plot.ly/~rcatala79/0'

### Plots offline

Plotly Offline le permite crear gráficos fuera de línea y guardarlos localmente. También hay dos métodos para graficar offline:  `plotly.offline.plot()`  y `plotly.offline.iplot()`

Use `plotly.offline.plot()` para crear un HTML que se guarda localmente y se abre dentro de su navegador web.
Use `plotly.offline.iplot()` cuando trabaje offline en un Jupyter Notebook para visualizar el plot  en la notebook. 

In [None]:
plotly.offline.plot({"data": [go.Scatter(x = [1, 2, 3, 4], y = [4, 3, 2, 1])],
                     "layout": go.Layout(title = "hello world")})

In [None]:
plotly.offline.init_notebook_mode()

plotly.offline.iplot({"data": [go.Scatter(x = [1, 2, 3, 4], y = [4, 3, 2, 1])],
                      "layout": go.Layout(title="hello world")})

## Algunos ejemplos sencillos

### Bar Chart

In [None]:
data = [go.Bar(x=['data scientist ', 'data engineer', 'software engineer'],
               y=[20, 14, 23])]

py.iplot(data, filename ='basic-bar')

### Bar Chart agrupado 


In [None]:
trace1 = go.Bar(x=['data sciencetist ', 'data engineer', 'software engineer'],
                y=[20, 14, 23],
                name='Buenos Aires')

trace2 = go.Bar(x=['data sciencetist ', 'data engineer', 'software engineer'],
                y=[12, 18, 29],
                name='NY')

data = [trace1, trace2]

layout = go.Layout(barmode = 'group')

fig = go.Figure(data = data, layout = layout)
py.iplot(fig, filename = 'grouped-bar')

### Stacked Bar Chart 

In [None]:
trace1 = go.Bar(
    x=['data sciencetist ', 'data engineer', 'software engineer'],
    y=[20, 14, 23],
    name='Buenos Aires'
)

trace2 = go.Bar(
    x=['data sciencetist ', 'data engineer', 'software engineer'],
    y=[12, 18, 29],
    name='NY'
)

data = [trace1, trace2]
layout = go.Layout(
    barmode='stack'
)

fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename='stacked-bar')

### Bar Chart con Hover text

In [None]:
trace0 = go.Bar(
    x=['Product A', 'Product B', 'Product C'],
    y=[20, 14, 23],
    text=['27% market share', '24% market share', '19% market share'],
    marker=dict(
        color='rgb(158,202,225)',
        line=dict(
            color='rgb(8,48,107)',
            width=1.5,
        )
    ),
    opacity=0.6
)

data = [trace0]
layout = go.Layout(
    title='January 2013 Sales Report'
)

fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename='text-hover-bar')

### Waterfall bar Chart

In [None]:
x_data = ['Product<br>Revenue', 'Services<br>Revenue',
          'Total<br>Revenue', 'Fixed<br>Costs',
          'Variable<br>Costs', 'Total<br>Costs', 'Total']

y_data = [400, 660, 660, 660, 545, -30, 340]

text = ['$430K', '$260K', '$690K', '$-120K', '$-200K', '$-320K', '$370K']

# Base
trace0 = go.Bar( x = x_data,
                 y = [0, 430, 0, 690, 570, 0, 0],
                 marker = {'color' : 'rgba(1,1,1, 0.0)'} )

# Revenue
trace1 = go.Bar( x = x_data,
                 y = [430, 260, 690, 0, 0, 0, 0],
                 marker = {'color':'rgba(55, 128, 191, 0.7)',
                           'line' : {'color':'rgba(55, 128, 191, 1.0)', 'width':2} } )
# Costs
trace2 = go.Bar( x = x_data ,
                 y = [0, 0, 0, -120, -200, -320, 0],
                 marker = { 'color':'rgba(219, 64, 82, 0.7)',
                            'line' : { 'color':'rgba(219, 64, 82, 1.0)', 'width':2} } )
# Profit
trace3 = go.Bar( x = x_data,
                 y = [0, 0, 0, 0, 0, 0, 370],
                 marker = { 'color':'rgba(50, 171, 96, 0.7)',
                            'line' : {'color':'rgba(50, 171, 96, 1.0)', 'width':2 } } )


data = [trace0, trace1, trace2, trace3]

layout = go.Layout( title  = 'Annual Profit t- 2015',
                    barmode  = 'stack',
                    paper_bgcolor = 'rgba(245, 246, 249, 1)',
                    plot_bgcolor  = 'rgba(245, 246, 249, 1)',
                    showlegend = False )

annotations = []

for i in range(0, 7):
    
    annotations.append({'x' : x_data[i], 
                        'y' : y_data[i],
                        'showarrow':False,
                        'text' : text[i],
                        'font': { 'family':'Arial', 
                                  'size'  : 14,
                                  'color' :'rgba(245, 246, 249, 1)'} })
    
layout['annotations'] = annotations

fig = go.Figure(data=data, layout=layout)
py.iplot(fig, filename='waterfall-bar-profit')

## Un ejemplo más complejo...

### Carga de datos

Los datos informan sobre la expectativa de vida, el producto interno bruto per cápita y la población, por año, continente y país.

In [None]:
df = pd.read_csv('gapminderDataFiveYear.txt', sep='\t')

df.sample(5)

### Explicación

* Expectativa de vida versus PIB per cápita para un año específico para todos los países en el dataset, completando las  keys `'y'`  `'x'` keys en `Scatter`.

* El tamaño de los marcadores es creciente en el tamaño de la población (¡las bubbles!), con la `'size'` key en el objeto  `Marker`  vinculado al  `'marker'` en `Scatter`.

* Los colores del marcado corresponden a diferentes continentes con la clave `'color'` key en el objeto marcador  `Marker`  vinculado al  `'marker'` en `Scatter`.

Finalmente, para asegurarnos de que cada burbuja sea visible, modificamos la opaciddad de cada marcador.  Esto se hace linkeando la key  `'opacity'` en `Marker` a un valor entre 0 y 1.

In [None]:
the_year = 2007 # Filtramos para el año 2007
i_year = (df['year'] == 2007)
df_year = df[df['year'] == 2007] 

Se definen los colores por continente

In [None]:
colors = {"Asia"    :'#1f77b4', 
          "Europe"  :'#ff7f0e', 
          "Africa"  :'#2ca02c',
          "Americas":'#d62728',
          "Oceania" :'#9467bd' }

### Notar sizes

In [None]:
sizemode = 'area'
sizeref = df_year['pop'].max() / 1e2 ** 2

# Definimos una función generadora de  anotaciones (devuelve un objeto Scatter)
def make_trace(X, continent, sizes, color):
    
    valor_x  = X['gdpPercap']
    valor_y  = X['lifeExp']
    
    marcador = Marker(color = color, size = sizes,
                      sizeref = sizeref, sizemode = sizemode, 
                      opacity=0.6, line=Line(width=0.0))
    
    scatt = Scatter(x = valor_x, 
                    y = valor_y, 
                    name = continent, 
                    mode = 'markers',
                    marker = marcador )
    
    return scatt

### Se carga el objeto data

In [None]:
plotly.__version__


In [None]:
data = []

for continente, df_continente in df_year.groupby('continent'):
    
    # serie que contiene la poblacion
    sizes = df_continente['pop']
    
    # diccionario con los colores de continente
    color = colors[continente]
    
    data.append(make_trace(df_continente, continente, sizes, color))                     

In [None]:
title = "Grafico de burbujas - 2007"
x_title = "Producto interno bruto per cápita [USD]"
y_title = "Expectativa de vida [años]"

# Zeroline = marca una linea en los ejes en cero
axis_style = { 'zeroline'  : False,       
               'gridcolor' :'#FFFFFF',
               'ticks'     :'outside', 
               'ticklen'   : 8,
               'tickwidth' : 1.5 }

# Inicializamos una capa
layout = Layout(title = title,
                plot_bgcolor='#EFECEA',
                xaxis = XAxis(axis_style, title= x_title),
                yaxis = YAxis(axis_style, title= y_title) )

### Se empaquetan las instancias de data y  layout en el objeto `Figure` 

In [None]:
fig = Figure(data = data, layout = layout)
py.iplot(fig, filename='grafico_burbujas')

### Axis types

Más generalmente, Plotly permite elegir a los usuarios entre diferentes  *exponent format*  con las claves  `'exponentformat'`  en `XAxis` y `YAxis`. Los valores disponibles para  `'exponentformat'` son:

* `'none'`, para ningún exponente,
* `'e'`,  para lower-case exponent form, . `1000` es mostrado como `1e-3`,
* `'E'`, para upper-case exponent form,  `1000` es mostrado  como `1E-3`,
* `'power'`, para potencias de $10$ ,  `1000` es mostrado como $10^3$,
* `'SI'`, prejijos del Sistema Internacional  `10,000` es `10k` y 1 billon es `1G`,
* `'B'`, para prefijos alternativos  1 billon es `1B`.

La key `'showexponent'`, también  en `XAxis` y `YAxis`, determina qué  ticks labels son mostradas en exponent form. Los usos disponibles para  `'showexponent'` son:

* `'none'`, para no exponents,
* `'all'`, para  exponents en todas las  tick labels,
* `'first'`, para  exponent sólo en la primer  tick label,
* `'last'`, para  exponente sólo en la última tick label.

En próximo gráfico, seteamos todos los exponentes a `'power'`.

Adempas, como la relación entre GDP per cápita y expectartiva de vida parece ser logarítmica reploteamos nuestro primer bubble chart usando log x-axis mediante la key `type. 

Por lo que cambiar el tipo del eje es tan fácil como agregar un key-value pair en `XAxis` (o `YAxis`). 

### Hover-mode options

Agregemoos un poco de hover text (la key  `'text'`  en `Scatter`) y cambiando el  *hover mode* del plot

In [None]:
help(Layout)

Por default, cuando nos posamos sobre un data point, Plotly imprime el valor de la variable y cerca del cursor y su valor x sobre este eje. El comportamiento por default corresponde a `'hovermode':'x'` definido en `Layout`. En contraste, con  `'hovermode':'y'`,  Plotly imprime los valores de x cerca del cursor y los valores de y en este último eje.

Alternativamente, cuando `'hovermode'` es seteado a `'closest'`, se muestra la información de los data points más cercanos al lugar donde se encuentra el cursor. Plotly imprime esta información dentro de la misma caja de texto como el texto linkeado a la key `'text'` (si está definida) en el objeto trace en cuestión.

In [None]:
fig

In [None]:
# Update de la key de 'xaxis', la seteamos a tipo logarítmico y con formato power exponent
fig['layout']['xaxis'].update({'type':'log',
                               'exponentformat':'power',
                               'showexponent':'all' })

# Update del objeto layout
fig['layout'].update({'hovermode' :'closest',
                      'showlegend': False,
                      'autosize'  : False,
                      'width'     : 650,
                      'height'    : 500      })

Vamos a actualizar cada objeto trace para que que haya un texto que presenta los valores de todas las variables del dataset a medida que nos acercamos. 

In [None]:
def make_text(data_fr):
    return 'País: %s\
    <br>Expectativa de vida: %s años\
    <br>PIB per cápita: USD %s\
    <br>Población: %s millones'\
    % (data_fr['country'], data_fr['lifeExp'], data_fr['gdpPercap'], data_fr['pop']/1e6)     
    
# Se agrupa el dataframe por continentes
for traza, (continente, df_continente) in enumerate(df_year.groupby('continent')):
    
    texto = df_continente.apply(make_text, axis = 1).tolist()
    
    fig['data'][traza].update(text = texto)

El método `apply()` de los dataframes loopea por cada fila (con `axis=1`) y llama  a a una función, en nuestro caso  `make_text()`.

Antes de enviar el objeto figura  a Plotly  agregamos una anotación citando la fuente de datos

In [None]:
# Se cita la fuente
anot = {'text'      :'Data source: GapMinder 2007',
        'showarrow' : False,
        'xref'      :'paper',
        'yref'      :'paper',
        'x'         : 0.02,
        'y'         : 0.98,
        'font'      : Font(size=14),
        'bgcolor'   :'#FFFFFF',
        'borderpad' : 4 }

anot_object = Annotation(anot)

fig['layout'].update( { 'annotations'  : Annotations([anot_object])})  

title = "Gráfico de burbujas - {}".format(the_year)
fig['layout'].update(title = title)

In [None]:
# (@) Enviar a Plotly y mostrar en notebook
py.iplot(fig, filename='s3_life-gdp-log')    

### Gráfico de burbujas pequeño



Aunque pudimos incorporar mucha información en nuestros dos primeros gráficos de burbujas, solo se pudo mostrar el valor de un año. Nuestra próximo gráfico mostrará la evolución temporal de la variable del PIB per cápita en el conjunto de datos de GapMinder utilizando un * pequeño múltiplo*.

Un pequeño múltiplo es una serie de gráficos o diagramas similares trazados como subtramas que les permiten ser fácilmente comparados entre sí. En nuestro caso, habrá una subtrama por país. Cada subtrama mostrará el PIB per cápita en función del tiempo, donde el tamaño de cada punto de datos será una función de la esperanza de vida de ese año.

Primero, encontramos los años de inicio y finalización, así como la cantidad de países en el conjunto de datos:

In [None]:
# Año de inicio, de fin, y cantidad de años en el dataset 
df['year'].min(), df['year'].max(), len(df['year'].unique())

In [None]:
N_country = df['country'].unique().shape[0]

N_rowcol = int(round(np.sqrt(N_country)))   

N_country, N_rowcol


Hay 142 países en el dataset, por lo tanto, al elegir tener un pequeño múltiplo cuadrado para la estética, necesitamos una grilla de subplots de 12 por 12 para incluir a todos los países. En consecuencia, habrá 2 subplots vacíos.

A continuación, generamos una grilla de subplot de 12 por 12 con ejes x e y compartidos usando `make_subplots()`:

In [None]:
# Generamos objeto figura con 144 axes (12 rows x 12 columns)
fig = tls.make_subplots( rows = N_rowcol,
                         cols = N_rowcol,
                         shared_xaxes = True,
                         shared_yaxes = True )

De forma predeterminada, `make_subplots()` genera subplots de ejes en filas empezando desde la esquina superior izquierda de la gráfica.

A continuación, definimos una función generadora de anotaciones. El color de cada burbuja está determinado por el continente y el texto emergente se agrega usando `make_text()`:

In [None]:
sizemode = 'dimeter'
sizeref = df['lifeExp'].max() / 30

# Definimos una función generadora de anotaciones (retorna un objeto scatter)
def make_Scatter_gdp(i, j, x , y, color, sizes, name, text):
    
    mark = Marker( color    = color, 
                   size     = sizes, 
                   sizeref  = sizeref, 
                   sizemode = sizemode, 
                   opacity  = 0.6 )
    
    scatt = Scatter(x      = x,
                    y      = y,
                    name   = name,
                    text   = text,
                    mode   = 'markers',
                    marker = mark,           
                    xaxis  = 'x{}'.format(i),
                    yaxis  = 'y{}'.format(j))
    
    
    return scatt


Para tratar de limitar la cantidad de información redundante en el gráfico, solo los subplots en el lado izquierdo de la grilla de subplots tendrán los ejes y etiquetados y solo las subplots en la fila inferior de la grilla de los subplots tendrán ejes x etiquetadas.

Además, para una mejor comparación entre países, todas las subplots tendrán el mismo rango de ejes. Entonces, tengamos una idea del rango en el PIB per cápita en el conjunto de datos:

In [None]:
df['gdpPercap'].min(), df['gdpPercap'].max()

Luego, definimos diccionarios de estilo para los objetos del eje $x$ e $y$  y los pegamos en el objeto figura:

In [None]:
# Para todos los ejes y
yaxis_style = { 'type'    : 'log',
                'range'   : [np.log10(90), np.log10(5e5)], 
                'title'   : 'PIB per cápita', # título del eje y
                'ticks'   : 'outside',
                'showline': True,
                'showgrid': False,
                'zeroline': False }

xaxis_style = { 'range'    : [1950, 2010],
                'title'    : 'Año',
                'ticks'    : 'outside',
                'showline' : True,
                'showgrid' : False,
                'zeroline' : False }

# Pegamos los dicccionarios de estilo en el objeto figura
for i in range(N_rowcol):
    
    yaxis_splt = fig['layout']['yaxis{}'.format(i+1)]
    yaxis_splt.update(yaxis_style)
    
    xaxis_splt = fig['layout']['xaxis{}'.format(i+1)]
    xaxis_splt.update(xaxis_style)


Ahora, creamos una función de generación de anotaciones para etiquetar los subplots con el nombre de cada país:

In [None]:
# Definimos una función generadora de anotaciones, para etiquetar cada subplot
def make_splt_anno(i, j, country):
    if len(country) > 14:
        country = country[0:14] + '.'  # Trunca el nombre del país si es muy largo
    
    annot = Annotation( { 'xref'     : 'x{}'.format(i), 
                          'yref'     : 'y{}'.format(j),
                          'x'        :  1955, 
                          'xanchor'  : 'left', 
                          'y'        : np.log10(2.5e5), 
                          'text'     : country, 
                          'showarrow': False, 
                          'align'    : 'center', 
                          'font'     : Font(size=14) } )
    
    return annot

Agregamos algunas  keys al objeto `layout`:

In [None]:
width  = 2000   
height = 1800  

title = "PIB per cápita desde 1952 a 2007 en dólares del año 2000"

fig['layout'].update( {'title'     : title,
                       'titlefont' : Font(size=30),
                       'showlegend': False,
                       'autosize'  : False,
                       'width'     : width,
                       'height'    :height } )

# Key inicialización de'annotations'   
fig['layout']['annotations'] = Annotations([])

Ahora, recorremos todos los países en el dataframe y completamos el objeto de datos y actualizamos el estilo de cada eje:

In [None]:
i = 1
j = 1

for country, sub_df in df.groupby('country'):
    
    x = sub_df['year'].values 
    y = sub_df['gdpPercap'].values 
   
    sizes     = sub_df['lifeExp'].values 
    continent = sub_df['continent'].values[0] 
    
    color = colors[continent] 
    text = sub_df.apply(make_text, axis=1).tolist()
    
    scatt = make_Scatter_gdp(i, j, x, y, color, sizes, continent, text)
    
    fig['data'].append(scatt)
    
    fig['layout']['annotations'].append(make_splt_anno(i, j, country))
    
    if i == 12:
        j += 1
        i = 1
    else:
        i += 1


Ahora estamos listos para enviar el objeto figura a Plotly y ver los resultados:

In [None]:
py.iplot(fig, filename='s3_small-multiples', width=width, height=height)       

## 3D Visualización de ADN

In [None]:
import plotly.plotly as py
import plotly.graph_objs as go

Datos disponibles en https://www.wwpdb.org/.

In [None]:
with open('265d.pdb') as f:
    data = [x.split()[6:9] + [x.split()[-1]] for x in f.readlines() if 'ATOM' ==  x.split()[0]]

In [None]:
data[0:10]

In [None]:
x, y, z = [], [], [] # Creamos tres listas vacías

for i in data: # Separamos en listas distintas la data
    
    x.append(i[0])
    y.append(i[1])
    z.append(i[2])

In [None]:
print('x: ', x[0:10], '\n', 'y: ', y[0:10], '\n','z: ', z[0:10])

In [None]:
import numpy as np

x, y, z = np.array(x), np.array(y), np.array(z) # Convertimos las listas a arrays

In [None]:
trace1 = go.Scatter3d(
    x = x,
    y = y,
    z = z,
    mode ='markers',
    marker =dict(
        size = 2,
        color = z,                # Los colores se definen en función de la variable z
        colorscale = 'Viridis',   # Elegimos una escala de colores
        opacity = 0.8))

In [None]:
data = [trace1]

layout = go.Layout(
    margin=dict(
        l=0,
        r=0,
        b=0,
        t=0))

fig = go.Figure(data = data, layout = layout)
py.iplot(fig, filename = '3d-scatter-colorscale')