# Visualización de datos con Plot.ly

La biblioteca Python (plotly.py) es una biblioteca de visualización de datos interactiva y de código abierto que soporta más de 40 tipos de gráficos únicos que cubren una amplia gama de casos de uso estadísticos, financieros, geográficos, científicos y tridimensionales.



Construido sobre la librería Plotly JavaScript (plotly.js), plotly.py permite a los usuarios de Python crear visualizaciones interactivas basadas en web que pueden ser renderizadas en los cuadernos de Jupyter, guardadas en archivos HTML independientes, o servidas como parte de aplicaciones web construidas por Python.

Plotly.py también proporciona un gran soporte para contextos no web, incluyendo editores de escritorio (p.ej. QtConsole, Spyder, PyCharm) y publicación de documentos estáticos (p.ej. exportación de portátiles a PDF con imágenes vectoriales de alta calidad).

In [1]:
import plotly
import pandas as pd
import numpy as np

In [2]:
import plotly.plotly as py
import plotly.graph_objs as go

Dentro de esta librería podemos trabajar de varias maneras diferentes, pero las principales son:
    - Generando un archivo .html y compartirlo
    - Incrustando el gráfico dentro del notebook. 

## Creando archivos html con plotly

Para crear figuras básicas en un archivo .html podemos hacerlo de la siguente manera

In [3]:
from plotly.graph_objs import Scatter, Layout
plotly.offline.plot({
    "data": [Scatter(x=[1, 2, 3, 4], y=[4, 3, 2, 1])],
    "layout": Layout(title="Archivo generado con plotly")
})


'temp-plot.html'

"import plotly.graph_objs as go"
- Tiene las funciones para generar objetos de gráficos. Este es un módulo útil para llamar a la ayuda para ver todos los atributos tomados como parámetros de un objeto. 
- También hay diferentes métodos útiles del objeto disponibles, como el método de actualización que se puede utilizar para actualizar el objeto del gráfico y añadir más información al mismo.

In [4]:
N = 1000
random_x = np.random.randn(N)
random_y = np.random.randn(N)

# Crear las trazas de datos
trace = go.Scatter(
    x = random_x,
    y = random_y,
    mode = 'markers'
)
data = [trace]

# visualizar
plotly.offline.plot(data, filename='basic-scatter')


Your filename `basic-scatter` didn't end with .html. Adding .html to the end of your file.



'basic-scatter.html'

En el gráfico anterior podemos comprobar lo siguiente:
- La clase graph_objs contiene varias estructuras que son consistentes a través de visualizaciones hechas en plot.ly, sin importar el tipo.
- Comenzamos con el trazado, que puede considerarse como una capa individual que contiene los datos y las especificaciones de cómo se deben trazar los datos (es decir, líneas, marcadores, tipo de gráfico).

Vamos a ver como se pueden combinar las diferentes variables visuales en el mismo gráfico. Con el atributo "mode"

In [5]:
N = 100
random_x = np.linspace(0, 1, N)
random_y0 = np.random.randn(N)+5
random_y1 = np.random.randn(N)
random_y2 = np.random.randn(N)-5


trace0 = go.Scatter(
    x = random_x,
    y = random_y0,
    mode = 'markers',
    name = 'markers'
)

trace1 = go.Scatter(
    x = random_x,
    y = random_y1,
    mode = 'lines+markers',
    name = 'lines+markers'
)

trace2 = go.Scatter(
    x = random_x,
    y = random_y2,
    mode = 'lines',
    name = 'lines'
)

data = [trace0, trace1, trace2]
plotly.offline.plot(data, filename='scatter-mode')


Your filename `scatter-mode` didn't end with .html. Adding .html to the end of your file.



'scatter-mode.html'

O en este caso una serie temporal con diagrama de líneas sencillo

In [6]:
df = pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/finance-charts-apple.csv")

data = [go.Scatter(
          x=df.Date,
          y=df['AAPL.Close'])]

plotly.offline.plot(data)

'temp-plot.html'

Para más información: 
    - https://towardsdatascience.com/getting-started-with-plot-ly-3c73706a837c
    - https://towardsdatascience.com/the-next-level-of-data-visualization-in-python-dd6e99039d5e
    - https://www.journaldev.com/19692/python-plotly-tutorial

## Incrustando los gráficos en nuestro notebook

In [7]:
from plotly.offline import init_notebook_mode, iplot
init_notebook_mode(connected=True)

De esta manera especificamos la manera de trabaja offline y de poder renderizar los gráficos en nuestro notebook

In [8]:
df = pd.read_csv('timesData.csv')

In [9]:
df.head()

Unnamed: 0,world_rank,university_name,country,teaching,international,research,citations,income,total_score,num_students,student_staff_ratio,international_students,female_male_ratio,year
0,1,Harvard University,United States of America,99.7,72.4,98.7,98.8,34.5,96.1,20152,8.9,25%,,2011
1,2,California Institute of Technology,United States of America,97.7,54.6,98.0,99.9,83.7,96.0,2243,6.9,27%,33 : 67,2011
2,3,Massachusetts Institute of Technology,United States of America,97.8,82.3,91.4,99.9,87.5,95.6,11074,9.0,33%,37 : 63,2011
3,4,Stanford University,United States of America,98.3,29.5,98.1,99.2,64.3,94.3,15596,7.8,22%,42 : 58,2011
4,5,Princeton University,United States of America,90.9,70.3,95.4,99.9,-,94.2,7929,8.4,27%,45 : 55,2011


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2603 entries, 0 to 2602
Data columns (total 14 columns):
world_rank                2603 non-null object
university_name           2603 non-null object
country                   2603 non-null object
teaching                  2603 non-null float64
international             2603 non-null object
research                  2603 non-null float64
citations                 2603 non-null float64
income                    2603 non-null object
total_score               2603 non-null object
num_students              2544 non-null object
student_staff_ratio       2544 non-null float64
international_students    2536 non-null object
female_male_ratio         2370 non-null object
year                      2603 non-null int64
dtypes: float64(4), int64(1), object(9)
memory usage: 284.8+ KB


### Creando un linechart:  Citation and Teaching vs World Rank of Top 100 Universities

Información:
- Crear de trazas
- x = eje x
- y = eje y
- mode = tipo de trazado como marcador, línea o línea + marcadores
- nombre = nombre de las gráficos
- marker = marcador se usa con el diccionario.
- color = color de las líneas. Toma RGB (rojo, verde, azul) y opacidad (alfa)
- text = El texto del hover 
- data = es una lista que añadimos trazas en ella
- layout = es un diccionario.
- title = título del diseño
- eje x = es un diccionario
- title = etiqueta del eje x
- ticklen = longitud de las marcas del eje x
- zeroline = mostrar o no la línea cero
- fig = incluye datos y layout
- iplot() = grafica la figura(fig) que es creada por los datos y el diseño



In [11]:
# Creating trace1
trace1 = go.Scatter(
                    x = df.world_rank,
                    y = df.citations,
                    mode = "lines",
                    name = "citations",
                    marker = dict(color = 'rgba(16, 112, 2, 0.8)'),
                    text= df.university_name)
# Creating trace2
trace2 = go.Scatter(
                    x = df.world_rank,
                    y = df.teaching,
                    mode = "lines+markers",
                    name = "teaching",
                    marker = dict(color = 'rgba(80, 26, 80, 0.8)'),
                    text= df.university_name)
data = [trace1, trace2]
layout = dict(title = 'Citation and Teaching vs World Rank of Top 100 Universities',
              xaxis= dict(title= 'World Rank',ticklen= 5,zeroline= False)
             )
fig = dict(data = data, layout = layout)
iplot(fig)

### Ejemplo de Scatter. Citation vs world rank of top 100 universities en 2014, 2015 y 2016



Información a tener en cuenta: 
- Creación de trazas
- x = eje x
- y = eje y
- mode = tipo de trazado como marcador, línea o línea + marcadores
- nombre = nombre del gráfico
- marker = marcador se usa con el diccionario.
- color = color de las líneas. Toma RGB (rojo, verde, azul) y opacidad (alfa)
- text = El texto del hover
- data = es una lista que añadimos trazas en ella
- layout = es un diccionario.
- title = título del diseño
- eje x = es un diccionario
- title = etiqueta del eje x
- ticklen = longitud de las garrapatas del eje x
- zeroline = mostrar o no la línea cero
- eje y = es un diccionario e igual con el eje x
- fig = incluye datos y layout
- iplot() = grafica la figura(fig) que es creada por los datos y el diseño


In [12]:
df2014 = df[df.year == 2014].iloc[:100,:]
df2015 = df[df.year == 2015].iloc[:100,:]
df2016 = df[df.year == 2016].iloc[:100,:]

import plotly.graph_objs as go

trace1 =go.Scatter(
                    x = df2014.world_rank,
                    y = df2014.citations,
                    mode = "markers",
                    name = "2014",
                    marker = dict(color = 'rgba(255, 128, 255, 0.8)'),
                    text= df2014.university_name)
trace2 =go.Scatter(
                    x = df2015.world_rank,
                    y = df2015.citations,
                    mode = "markers",
                    name = "2015",
                    marker = dict(color = 'rgba(255, 128, 2, 0.8)'),
                    text= df2015.university_name)
trace3 =go.Scatter(
                    x = df2016.world_rank,
                    y = df2016.citations,
                    mode = "markers",
                    name = "2016",
                    marker = dict(color = 'rgba(0, 255, 200, 0.8)'),
                    text= df2016.university_name)
data = [trace1, trace2, trace3]
layout = dict(title = 'Citation vs world rank del top100 en 2014, 2015 y 2016',
              xaxis= dict(title= 'World Rank',ticklen= 5,zeroline= False),
              yaxis= dict(title= 'Citation',ticklen= 5,zeroline= False)
             )
fig = dict(data = data, layout = layout)
iplot(fig)

In [None]:


plotly.offline.plot({
    "data": [Scatter(x=df1.Datetime, y=df1.Passengers)],
    "layout": Layout(title="Airport Dataset 1")
})

### Ejemplo de Bar Charts: citations y teaching de las top 3 universidades en 2014



Información:
- Creación de trazas
- x = eje x
- y = eje y
- mode = tipo de trazado como marcador, línea o línea + marcadores
- nombre = nombre de las parcelas
- marker = marcador se usa con el diccionario.
- color = color de las líneas. Toma RGB (rojo, verde, azul) y opacidad (alfa)
- line = Linea entre las barras
- color = color de la línea alrededor de las barras
- text = El texto del hover
- data = es una lista que añadimos trazas en ella
- layout = es un diccionario.
- modo de barra = group o relative
- fig = incluye datos y layout
- iplot() = grafica la figura(fig) que es creada por los datos y el diseño

In [13]:
df2014 = df[df.year == 2014].iloc[:3,:]


import plotly.graph_objs as go

trace1 = go.Bar(
                x = df2014.university_name,
                y = df2014.citations,
                name = "citations",
                marker = dict(color = 'rgba(255, 174, 255, 0.5)',
                             line=dict(color='rgb(0,0,0)',width=1.5)),
                text = df2014.country)

trace2 = go.Bar(
                x = df2014.university_name,
                y = df2014.teaching,
                name = "teaching",
                marker = dict(color = 'rgba(255, 255, 128, 0.5)',
                              line=dict(color='rgb(0,0,0)',width=1.5)),
                text = df2014.country)
data = [trace1, trace2]
layout = go.Layout(barmode = "group") #agrupamos las barras
fig = go.Figure(data = data, layout = layout)
iplot(fig)

Misma información pero haciendo el modo de las barras relativo barmode=relative

In [14]:
df2014 = df[df.year == 2014].iloc[:3,:]

x = df2014.university_name

trace1 = {
  'x': x,
  'y': df2014.citations,
  'name': 'citation',
  'type': 'bar'
};
trace2 = {
  'x': x,
  'y': df2014.teaching,
  'name': 'teaching',
  'type': 'bar'
};
data = [trace1, trace2];
layout = {
  'xaxis': {'title': 'Top 3 universities'},
  'barmode': 'relative',
  'title': 'citations and teaching of top 3 universities in 2014'
};
fig = go.Figure(data = data, layout = layout)
iplot(fig)

### Pie Charts Ejemplo: Students rate of top 7 universities in 2016


Información:
- fig: crear figuras
- datos: tipo de la figura
- valores: valores de la figura
- labels: etiquetas de figura
- nombre: nombre de las figura
- hoverinfo: información en hover
- hole: ancho del agujero
- type: tipo de parcela como pie
- trazado: trazado de la parcela
- título: título de la maqueta
- anotaciones: font, showarrow, text, x, y

In [15]:

df2016 = df[df.year == 2016].iloc[:7,:]
pie1 = df2016.num_students
pie1_list = [float(each.replace(',', '.')) for each in df2016.num_students]  # str(2,4) => str(2.4) = > float(2.4) = 2.4
labels = df2016.university_name

fig = {
  "data": [
    {
      "values": pie1_list,
      "labels": labels,
      "domain": {"x": [0, .5]},
      "name": "Number Of Students Rates",
      "hoverinfo":"label+percent+name",
      "hole": .3,
      "type": "pie"
    },],
  "layout": {
        "title":"Universities Number of Students rates",
        "annotations": [
            { "font": { "size": 20},
              "showarrow": False,
              "text": "Number of Students",
                "x": 0.20,
                "y": 1
            },
        ]
    }
}
iplot(fig)

### Ejemplo de Bubblechart: University world rank (first 20) vs teaching score with number of students(size) and international score (color) in 2016

Información: 
 - x = x axis
 - y = y axis
- mode = markers(scatter)
- marker = marker properties
- color = third dimension of plot. Internaltional score
- size = fourth dimension of plot. Number of students
- text: university names

In [16]:
df2016 = df[df.year == 2016].iloc[:20,:]
num_students_size  = [float(each.replace(',', '.')) for each in df2016.num_students]
international_color = [float(each) for each in df2016.international]
data = [
    {
        'y': df2016.teaching,
        'x': df2016.world_rank,
        'mode': 'markers',
        'marker': {
            'color': international_color,
            'size': num_students_size,
            'showscale': True
        },
        "text" :  df2016.university_name    
    }
]
iplot(data)

### Ejemplo de Histograma: tudents-staff ratio in 2011 and 2012 years.

barmode = overlay

In [17]:
x2011 = df.student_staff_ratio[df.year == 2011]
x2012 = df.student_staff_ratio[df.year == 2012]

trace1 = go.Histogram(
    x=x2011,
    opacity=0.75,
    name = "2011",
    marker=dict(color='rgba(171, 50, 96, 0.6)'))
trace2 = go.Histogram(
    x=x2012,
    opacity=0.75,
    name = "2012",
    marker=dict(color='rgba(0, 210, 196, 0.6)'))

data = [trace1, trace2]
layout = go.Layout(barmode='overlay',
                   title=' students-staff ratio in 2011 and 2012',
                   xaxis=dict(title='students-staff ratio'),
                   yaxis=dict( title='Count'),
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)

### Ejemplo de Box Plot

In [18]:
# data preparation
x2015 = df[df.year == 2015]

trace0 = go.Box(
    y=x2015.total_score,
    name = 'total score of universities in 2015',
    marker = dict(
        color = 'rgb(12, 12, 140)',
    )
)
trace1 = go.Box(
    y=x2015.research,
    name = 'research of universities in 2015',
    marker = dict(
        color = 'rgb(12, 128, 128)',
    )
)
data = [trace0, trace1]
iplot(data)

In [19]:
df2 = df[df.year == 2016]

In [20]:
df2

Unnamed: 0,world_rank,university_name,country,teaching,international,research,citations,income,total_score,num_students,student_staff_ratio,international_students,female_male_ratio,year
1803,1,California Institute of Technology,United States of America,95.6,64.0,97.6,99.8,97.8,95.2,2243,6.9,27%,33 : 67,2016
1804,2,University of Oxford,United Kingdom,86.5,94.4,98.9,98.8,73.1,94.2,19919,11.6,34%,46 : 54,2016
1805,3,Stanford University,United States of America,92.5,76.3,96.2,99.9,63.3,93.9,15596,7.8,22%,42 : 58,2016
1806,4,University of Cambridge,United Kingdom,88.2,91.5,96.7,97.0,55.0,92.8,18812,11.8,34%,46 : 54,2016
1807,5,Massachusetts Institute of Technology,United States of America,89.4,84.0,88.6,99.7,95.4,92.0,11074,9.0,33%,37 : 63,2016
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2598,601-800,Yeungnam University,South Korea,18.6,24.3,10.9,26.5,35.4,-,21958,15.3,3%,48 : 52,2016
2599,601-800,Yıldız Technical University,Turkey,14.5,14.9,7.6,19.3,44.0,-,31268,28.7,2%,36 : 64,2016
2600,601-800,Yokohama City University,Japan,24.0,16.1,10.2,36.4,37.9,-,4122,3.7,3%,,2016
2601,601-800,Yokohama National University,Japan,20.1,23.3,16.0,13.5,40.4,-,10117,12.1,8%,28 : 72,2016


### Combinando diferentes tipos de gráficos

In [21]:

trace1 = go.Scatter(
    x=df2.world_rank,
    y=df2.teaching,
    name = "teaching",
    marker = dict(color = 'rgba(16, 112, 2, 0.8)'),
)
trace2 = go.Scatter(
    x=df2.world_rank,
    y=df2.income,
    xaxis='x2',
    yaxis='y2',
    name = "income",
    marker = dict(color = 'rgba(160, 112, 20, 0.8)'),
)
data = [trace1, trace2]
layout = go.Layout(
    xaxis2=dict(
        domain=[0.6, 0.95],
        anchor='y2',        
    ),
    yaxis2=dict(
        domain=[0.6, 0.95],
        anchor='x2',
    ),
    title = 'Income and Teaching vs World Rank of Universities'

)

fig = go.Figure(data=data, layout=layout)
iplot(fig)

### Un ejemplo mas complicado: 3D Scatter Plot con Colorscaling

- go.Scatter3d: create 3d scatter plot
- x,y,z: axis of plots
- mode: market that is scatter
- size: marker size
- color: axis of colorscale


In [22]:
trace1 = go.Scatter3d(
    x=df2.world_rank,
    y=df2.research,
    z=df2.citations,
    mode='markers',
    marker=dict(
        size=10,
        color='rgb(255,0,0)',                     
    )
)

data = [trace1]
layout = go.Layout(
    margin=dict(
        l=0,
        r=0,
        b=0,
        t=0  
    )
    
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)

### Ejemplo de multiples subplots

Multiple Subplots: While comparing more than one features, multiple subplots can be useful.



In [23]:
trace1 = go.Scatter(
    x=df2.world_rank,
    y=df2.research,
    name = "research"
)
trace2 = go.Scatter(
    x=df2.world_rank,
    y=df2.citations,
    xaxis='x2',
    yaxis='y2',
    name = "citations"
)
trace3 = go.Scatter(
    x=df2.world_rank,
    y=df2.income,
    xaxis='x3',
    yaxis='y3',
    name = "income"
)
trace4 = go.Scatter(
    x=df2.world_rank,
    y=df2.total_score,
    xaxis='x4',
    yaxis='y4',
    name = "total_score"
)
data = [trace1, trace2, trace3, trace4]
layout = go.Layout(
    xaxis=dict(
        domain=[0, 0.45]
    ),
    yaxis=dict(
        domain=[0, 0.45]
    ),
    xaxis2=dict(
        domain=[0.55, 1]
    ),
    xaxis3=dict(
        domain=[0, 0.45],
        anchor='y3'
    ),
    xaxis4=dict(
        domain=[0.55, 1],
        anchor='y4'
    ),
    yaxis2=dict(
        domain=[0, 0.45],
        anchor='x2'
    ),
    yaxis3=dict(
        domain=[0.55, 1]
    ),
    yaxis4=dict(
        domain=[0.55, 1],
        anchor='x4'
    ),
    title = 'Research, citation, income and total score VS World Rank of Universities'
)
fig = go.Figure(data=data, layout=layout)
iplot(fig)