# Plotly

Para ejecutar **Plotly** y **Dash** primero es necesario instalar los paquetes `plotly` y `dash` así como sus dependencias. En la carpeta del curso se encuentra el archivo `requirements.txt` que contiene los módulos a instalar. La instalación de estos puede hacerse mediante `pip` o `conda`. En la carpeta donde se encuentra el archivo de requirimientos escribir el comando: `pip install -r requirements.txt`.

Con los paquetes y dependencias instalados podemos comenzar a trabajar con Plotly.

En las recursos del curso de Udemy se ofrece un documento de referencia de todos los ejemplos y ejercicios realizados, no obstante para tener una referencia completa de Plotly se recomienda revisar la sección **Full Reference** en el sitio web de Plotly.

## Introducción
Plotly es una librería que permite hacer gráficos interactivos de excelente calidad. Plotly tiene una interface de programación de aplicaciónes (API) para Python, estudiaremos a continuacion los elementos que contiene esta API. 

In [2]:
from IPython.display import IFrame
IFrame('https://plot.ly/python/', width='100%', height=350)

Iniciemos la introduccion a **Plotly** con un ejemplo básico. 

In [2]:
import numpy as np
import scipy as sp
import pandas as pd

import plotly.offline as pyo
import plotly.graph_objs as go

In [4]:
np.random.seed(42)

In [5]:
random_x = np.random.randint(1, 101,100)
random_y = np.random.randint(1, 101,100)

In [6]:
data = [go.Scatter(x = random_x, y = random_y, mode = 'markers')]

In [7]:
pyo.plot(data, filename = 'scatter-temp-plot.html')

'file:///home/oscar/Escritorio/Plotly-Dash/data/scatter-temp-plot.html'

Por ahora no se insertarán los gráficos directamente en el notebook pues se requieren recursos directamente de la API de Plotly lo cual requiere una cuenta de usuario (gratuita). Los gráficos se generarán en archivos con extensión `.html` y podrán ser visualizados en una pestaña adicional del navegador.

Para modelar o estilizar un gráfico, es necesario definir características a cada elemento del gráfico. La API de Plotly ofrece un variado número de características y opciones para modificar el estilo del gráfico. La mayoría de las características se especifican por medio de diccionarios. El método `Layout()` contendrá todos los elementos a estilizar y sus características.

In [8]:
mydata =[go.Scatter(x = random_x, y = random_y,
                  mode = 'markers',
                  marker = dict(
                      size = 8,
                      color = 'rgb(118, 212, 220)',
                      symbol = 'square',
                      line = {'width': 1}
                    )
            )
    ] 

In [11]:
mylayout = go.Layout(title = 'Hello FIrst Plot',
                     xaxis = {'title': 'My X axis'},
                     yaxis = dict(title = 'My Y axis'), # alternativa a {k:v} en los diccionarios
                     hovermode = 'closest')

In [12]:
fig = go.Figure(data = mydata, layout = mylayout) # alternativamente fig = dic(data=, layout=)
pyo.plot(fig, filename = 'scatter-temp-plot.html')

'file:///home/oscar/Escritorio/Plotly-Dash/data/scatter-temp-plot.html'

Revisar https://htmlcolorcodes.com/es/ para obtener códigos de colores RGB 

## Line Chart

In [13]:
np.random.seed(56)

In [14]:
x_values = np.linspace(0,1,100)
y_values = np.random.randn(100)

In [15]:
# en la documentación se sigue la convención de usar trace para
# colocar las caracteristicas del objeto a graficar
trace = go.Scatter(
            x = x_values,
            y = y_values + 5,
            mode = 'markers',
            name = 'mymarkers'
        )

data = [trace]

layout = go.Layout(
            title = 'Line Charts'
    )

fig = go.Figure(data = data, layout = layout)

pyo.plot(fig)

'file:///home/oscar/Escritorio/Plotly-Dash/data/temp-plot.html'

Elaboremos varios gráficos en un solo lienzo (varios plots en un solo figure) definiendo nuevos objetos `trace` y agregándolos a `data`.

In [13]:
trace0 = go.Scatter(
            x = x_values,
            y = y_values + 5,
            mode = 'markers',
            name = 'mymarkers'
        )

trace1 = go.Scatter(
            x = x_values,
            y = y_values,
            mode = 'lines',
            name = 'mylines'
        )

trace2 = go.Scatter(
            x = x_values,
            y = y_values-5,
            mode = 'lines+markers',
            name = 'mylinesmarkers'
        )

data = [trace0, trace1, trace2]

layout = go.Layout(
            title = 'Line Charts'
    )

fig = go.Figure(data = data, layout = layout)

pyo.plot(fig)

'file:///home/oscar/Escritorio/Plotly-Dash/data/temp-plot.html'

### Line Chart con datos reales
Utilicemos datos de la estimación anual de la población en EUA auxiliándonos de Pandas

In [4]:
#mainpath = "/home/oscar/Escritorio/Plotly-Dash/data/"
#filename = "nst-est2017-alldata.csv"
#fullpath = mainpath + filename
filename = 'nst-est2017-alldata.csv'

dataframe1 = pd.read_csv(filename)

In [5]:
dataframe1.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,NAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,...,RDOMESTICMIG2015,RDOMESTICMIG2016,RDOMESTICMIG2017,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015,RNETMIG2016,RNETMIG2017
0,10.0,0,0,0.0,United States,308745538.0,308758105.0,309338421.0,311644280.0,313993272.0,...,0.0,0.0,0.0,2.7209,2.920371,2.883643,3.173228,3.516743,3.513394,3.423941
1,20.0,1,0,0.0,Northeast Region,55317240.0,55318350.0,55388349.0,55642659.0,55860261.0,...,-6.103092,-6.619089,-5.55957,1.46795,0.779137,0.605873,-0.082832,-0.903931,-1.307503,-0.28893
2,20.0,2,0,0.0,Midwest Region,66927001.0,66929794.0,66973360.0,67141501.0,67318295.0,...,-3.458531,-3.307295,-2.30464,-1.187519,-1.010696,-0.120354,-0.752477,-1.323952,-1.160735,-0.191323
3,20.0,3,0,0.0,South Region,114555744.0,114563024.0,114869241.0,116060993.0,117291728.0,...,3.788037,3.592695,2.900528,5.544289,5.831747,5.362083,6.31731,7.336162,7.113818,6.30401
4,20.0,4,0,0.0,West Region,71945553.0,71946937.0,72107471.0,72799127.0,73522988.0,...,1.61345,2.099001,1.475519,2.798796,3.521423,3.396627,4.163576,5.067452,5.488965,4.737979


In [6]:
dataframe1.shape

(59, 121)

In [7]:
dataframe1.columns

Index(['SUMLEV', 'REGION', 'DIVISION', 'STATE', 'NAME', 'CENSUS2010POP',
       'ESTIMATESBASE2010', 'POPESTIMATE2010', 'POPESTIMATE2011',
       'POPESTIMATE2012',
       ...
       'RDOMESTICMIG2015', 'RDOMESTICMIG2016', 'RDOMESTICMIG2017',
       'RNETMIG2011', 'RNETMIG2012', 'RNETMIG2013', 'RNETMIG2014',
       'RNETMIG2015', 'RNETMIG2016', 'RNETMIG2017'],
      dtype='object', length=121)

In [8]:
df_filter = dataframe1['DIVISION'] == '1'

In [9]:
dataframe2 = dataframe1[df_filter]

In [10]:
dataframe2.head()

Unnamed: 0,SUMLEV,REGION,DIVISION,STATE,NAME,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,...,RDOMESTICMIG2015,RDOMESTICMIG2016,RDOMESTICMIG2017,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015,RNETMIG2016,RNETMIG2017
11,40.0,1,1,9.0,Connecticut,3574097.0,3574114.0,3580171.0,3591927.0,3597705.0,...,-8.376089,-8.106331,-6.206914,0.993851,-0.542726,-0.420268,-2.479362,-3.464252,-3.112421,-1.257548
24,40.0,1,1,23.0,Maine,1328361.0,1328362.0,1327568.0,1327968.0,1328101.0,...,-0.781424,1.807361,4.032798,0.685361,0.178459,0.392308,1.301528,0.389959,3.000731,5.216532
26,40.0,1,1,25.0,Massachusetts,6547629.0,6547808.0,6564943.0,6612178.0,6659627.0,...,-3.270088,-4.423353,-3.374712,4.364383,4.266338,5.21137,4.538697,3.276287,2.261905,3.24609
34,40.0,1,1,33.0,New Hampshire,1316470.0,1316460.0,1316700.0,1318345.0,1320923.0,...,-0.850002,1.333509,3.500622,-0.403029,0.632751,0.061281,3.793602,0.852258,3.037729,5.170643
44,40.0,1,1,44.0,Rhode Island,1052567.0,1052945.0,1053169.0,1052154.0,1052761.0,...,-4.21851,-4.093718,-3.640649,-2.170688,-0.991964,-1.139847,1.029624,0.368598,0.526146,0.891742


In [11]:
dataframe2.shape

(6, 121)

In [12]:
dataframe2.set_index('NAME', inplace = True)
dataframe2.head()

Unnamed: 0_level_0,SUMLEV,REGION,DIVISION,STATE,CENSUS2010POP,ESTIMATESBASE2010,POPESTIMATE2010,POPESTIMATE2011,POPESTIMATE2012,POPESTIMATE2013,...,RDOMESTICMIG2015,RDOMESTICMIG2016,RDOMESTICMIG2017,RNETMIG2011,RNETMIG2012,RNETMIG2013,RNETMIG2014,RNETMIG2015,RNETMIG2016,RNETMIG2017
NAME,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
Connecticut,40.0,1,1,9.0,3574097.0,3574114.0,3580171.0,3591927.0,3597705.0,3602470.0,...,-8.376089,-8.106331,-6.206914,0.993851,-0.542726,-0.420268,-2.479362,-3.464252,-3.112421,-1.257548
Maine,40.0,1,1,23.0,1328361.0,1328362.0,1327568.0,1327968.0,1328101.0,1327975.0,...,-0.781424,1.807361,4.032798,0.685361,0.178459,0.392308,1.301528,0.389959,3.000731,5.216532
Massachusetts,40.0,1,1,25.0,6547629.0,6547808.0,6564943.0,6612178.0,6659627.0,6711138.0,...,-3.270088,-4.423353,-3.374712,4.364383,4.266338,5.21137,4.538697,3.276287,2.261905,3.24609
New Hampshire,40.0,1,1,33.0,1316470.0,1316460.0,1316700.0,1318345.0,1320923.0,1322622.0,...,-0.850002,1.333509,3.500622,-0.403029,0.632751,0.061281,3.793602,0.852258,3.037729,5.170643
Rhode Island,40.0,1,1,44.0,1052567.0,1052945.0,1053169.0,1052154.0,1052761.0,1052784.0,...,-4.21851,-4.093718,-3.640649,-2.170688,-0.991964,-1.139847,1.029624,0.368598,0.526146,0.891742


In [13]:
# filtra columnas con una comprehensión de lista
list_population_cols = [col for col in dataframe2.columns if col.startswith('POP')]

In [14]:
dataframe2 = dataframe2[list_population_cols]

In [15]:
dataframe2.shape

(6, 8)

In [16]:
# especifica indice de renglón y columnas por etiqueta con df.loc()
dataframe2.loc['Maine', ['POPESTIMATE2010', 'POPESTIMATE2011']]

POPESTIMATE2010    1327568.0
POPESTIMATE2011    1327968.0
Name: Maine, dtype: float64

In [17]:
# grafica la población estimada por año para cada estado
# itera sobre cada estado en la columna index usando un listcomprehension
data = [go.Scatter(
            x = dataframe2.columns,
            y = dataframe2.loc[state_name],
            mode = 'lines',
            name = state_name
        ) for state_name in dataframe2.index  
]

pyo.plot(data)

'file://C:\\Users\\Examen\\Desktop\\tec-seminario-datascience-master\\Plotly-Dash\\data\\temp-plot.html'

### Ejercicio
Usando el archivo `2010YumaAZ.csv`, elaborar una LineChart que grafique la temperatura de los 7 días de la semana en una sola gráfica. Utilizar un `for-loop` para asignar a cada día su propia traza. 

In [30]:
# import here
import numpy as np
import pandas as pd

import plotly.offline as pyo
import plotly.graph_objs as go

In [43]:
# create a pandas DataFrame from 2010YumaAZ.csv

mainpath = "/home/oscar/Escritorio/Plotly-Dash/data/"
filename = "2010YumaAZ.csv"
fullpath = mainpath + filename
dataframe = pd.read_csv(fullpath)

# create a day list 

days = dataframe['DAY'].unique().tolist()


In [44]:
dataframe.shape

(168, 4)

In [45]:
dataframe.head(10)

Unnamed: 0,LST_DATE,DAY,LST_TIME,T_HR_AVG
0,20100601,TUESDAY,0:00,25.2
1,20100601,TUESDAY,1:00,24.1
2,20100601,TUESDAY,2:00,24.4
3,20100601,TUESDAY,3:00,24.9
4,20100601,TUESDAY,4:00,22.8
5,20100601,TUESDAY,5:00,19.8
6,20100601,TUESDAY,6:00,18.8
7,20100601,TUESDAY,7:00,21.2
8,20100601,TUESDAY,8:00,24.2
9,20100601,TUESDAY,9:00,27.1


In [46]:
days

['TUESDAY', 'WEDNESDAY', 'THURSDAY', 'FRIDAY', 'SATURDAY', 'SUNDAY', 'MONDAY']

In [47]:
# use a for-loop (or list comprehension to create traces for the data list)

data = []
for day in days:
    day_filter = dataframe['DAY'] == day
    data_day = dataframe[day_filter]
    
    x_values = data_day['LST_TIME']
    y_values = data_day['T_HR_AVG']
    
    trace = go.Scatter(
                x = x_values,
                y = y_values,
                mode = 'lines',
                name = day
                )
    data.append(trace)

In [48]:
data

[Scatter({
     'mode': 'lines',
     'name': 'TUESDAY',
     'x': array(['0:00', '1:00', '2:00', '3:00', '4:00', '5:00', '6:00', '7:00', '8:00',
                 '9:00', '10:00', '11:00', '12:00', '13:00', '14:00', '15:00', '16:00',
                 '17:00', '18:00', '19:00', '20:00', '21:00', '22:00', '23:00'],
                dtype=object),
     'y': array([25.2, 24.1, 24.4, 24.9, 22.8, 19.8, 18.8, 21.2, 24.2, 27.1, 29.3, 30.6,
                 32.6, 34. , 34. , 34.9, 34.6, 33.8, 33.5, 32.8, 31. , 29. , 27.6, 26.3])
 }), Scatter({
     'mode': 'lines',
     'name': 'WEDNESDAY',
     'x': array(['0:00', '1:00', '2:00', '3:00', '4:00', '5:00', '6:00', '7:00', '8:00',
                 '9:00', '10:00', '11:00', '12:00', '13:00', '14:00', '15:00', '16:00',
                 '17:00', '18:00', '19:00', '20:00', '21:00', '22:00', '23:00'],
                dtype=object),
     'y': array([23.8, 20.6, 19.1, 18.4, 18.9, 18.2, 17.9, 20.2, 23.8, 26.1, 27.9, 29.3,
                 30.9, 32.2, 33.1,

In [39]:
# define el Layout

layout = go.Layout(title = 'Daily temp avgs')

In [40]:
# create a figure from data ad Layout and the figure

fig = go.Figure(data = data, layout = layout)
pyo.plot(data)

'file:///home/oscar/Escritorio/Plotly-Dash/data/temp-plot.html'

Vamos a revisar dos códigos que también resuelven el ejercicio:

* La primera opción, itera sobre la lista días y crea una lista de diccionarios que genera`go. Scatter()`. Dentro de esta función se aplica un **filtro** por día al dataframe para construir el vector `y`, no así para el vector `x`. Esto es de difícil lectura y comprensión pues por una parte el filtro tiene una sintaxis un tanto engorrosa, además la función `Scatter()`, a pesar de la diferecia de longitud en los vectores, no devuelve error y utiliza tantas tuplas `(x,y)` como le sea posible.
* La segunda opción es finamente elegante pues utiliza comprehensión de listas. Utiliza una lista de diccionarios, sin el uso de la función `Scatter()` por tanto utiliza la sintaxis {k,v} iterando sobre el campo `['DAY']` agrupado con `unique()`. No obstante continúa utilizando el filtro anterior y no construye `trace` como en las dos opciones anteriores.

In [41]:
# primera opción

data = []

for day in days:
    trace = go.Scatter(
                x = dataframe['LST_TIME'],
                y = dataframe[dataframe['DAY'] == day]['T_HR_AVG'],
                mode = 'lines',
                name = day
                )
    data.append(trace)

layout = go.Layout(title = 'Daily temp avgs')

fig = go.Figure(data = data, layout = layout)
pyo.plot(data)

'file:///home/oscar/Escritorio/Plotly-Dash/data/temp-plot.html'

In [42]:
# segunda opción

data = [{
    'x': dataframe['LST_TIME'],
    'y': dataframe[dataframe['DAY'] == day]['T_HR_AVG'],
    'mode': 'lines',
    'name': day,
} for day in dataframe['DAY'].unique() ]
    
layout = go.Layout(title = 'Daily temp avgs')

fig = go.Figure(data = data, layout = layout)
pyo.plot(data)

'file:///home/oscar/Escritorio/Plotly-Dash/data/temp-plot.html'