# Introducción al tratamiento de datos no estructurados (textos)

## 1. Preámbulo

Un **dato** es una representación cuantitativa o cualitativa (numérica, alfabética, espacial, etc.) de un atributo asociado a un concepto o a una relación entre conceptos.

ejemplos:
- "color: azul" --> auto
- "edad: 24" --> persona
- "diagnóstico: enfermedad A"  --> médico-paciente

![](modelo-data-wisdom.png)

Los **datos estructurados** son datos asociados a un conjunto de metadatos que explicitan su semántica y su relación.

Ejemplos: Tabla o Documento JSON

Tabla: Persona

| Nombre  | Edad  | Color de auto |
|---|---|---|
| Maria  | 52 | azul  |
| Juan  | 29  | negra  |



Los **datos no estucturados** son datos que no están asociados con metadatos que explicitan su semántica.

Ejemplos: Textos, Imágenes

"Sismo sacude a Tokio y otras ciudades del este de Japón"

--> ¿De qué país habla este texto?
--> ¿De qué categoría de noticias se trata?

## 2. Caso de estudio

En este notebook, utilizaremos una colección de noticias de prensa chilena llamada "Aegir" recopilada en el proyecto Sophia2.

Queremos estructurar los datos disponible en una Base de Datos Relacional para poder responder facilmente a las consultas siguiente:

C1- ¿De qué personas se habla en las noticias?

C2- ¿De qué localidades (ciudades, paises) se hablan en las noticias?

C3- ¿Cuál es el género de las personas mencionadas?

C4- ¿Cómo se distribuye el género de las personas mencionadas según el medio de prensa?

C5- ¿Cómo se distribuyen las noticias seǵun las localidades?


Noticia (id, fecha, texto, titulo, nombre_medio)

Mencionar_personas(#id_noticia,nombre_persona,genero)

Mencionar_localidades(#id_noticia, nombre_localidad)




## 3. Cargar y descubrir el dataset Aegir

In [None]:
!pip install pandas

In [1]:
from datetime import datetime
import pandas as pd

In [2]:
DATASET_CSV="sophia2-aegir-100k.csv"

In [3]:
data_df = pd.read_csv(DATASET_CSV,sep=',')
data_df['date'] = pd.to_datetime(data_df['date'])
data_df[2:10]

Unnamed: 0,date,news outlet,title,text,semester,year
2,2016-05-16 12:58:16,24HorasTVN,Policía de Chicago reporta desaparición de la...,La irlandesa fue vista por última vez en un b...,0,2016
3,2016-05-16 11:14:32,24HorasTVN,Más de 20 ballenas piloto mueren tras varar e...,Sólo tres de los 27 cetáceos que quedaron var...,0,2016
4,2016-05-16 12:04:57,24HorasTVN,Sismo sacude a Tokio y otras ciudades del est...,"Según la cadena de televisión pública NHK, no...",0,2016
5,2016-05-16 12:03:36,24HorasTVN,Presidenta Bachelet designa a Pablo Silva Ama...,Quien fuera Seremi de Obras Públicas ocupará ...,0,2016
6,2016-07-18 14:00:23,24HorasTVN,Madre que amamanta a su hijo de cinco años ca...,La historia de esta mujer ha causado gran exp...,1,2016
7,2016-07-11 10:30:14,24HorasTVN,Quiroga: El 2018 el 60% de los estudiantes ac...,La subsecretaria de Educación destacó que a p...,1,2016
8,2016-07-11 14:32:48,24HorasTVN,Brasil pierde a una de sus estrellas para dis...,"Por Agencia AFP • 11 julio, 2016 El atacante...",1,2016
9,2016-07-11 14:29:17,24HorasTVN,Fiscal de Cancillería formulan cargos en cont...,La investigación está en manos del embajador ...,1,2016


In [4]:
print(data_df[4:5].title)

4     Sismo sacude a Tokio y otras ciudades del est...
Name: title, dtype: object


In [5]:
print(pd.options.display.max_colwidth)
pd.options.display.max_colwidth = 300

50


In [None]:
#!pip install pandasql

## 4. Consultas SQL con Pandas

In [6]:
from pandasql import sqldf

query="SELECT DISTINCT \"news outlet\" FROM data_df;"
result=sqldf(query)
result

Unnamed: 0,news outlet
0,24HorasTVN
1,biobio
2,Cooperativa
3,Emol
4,latercera


In [7]:
query="SELECT \"news outlet\", count(*) FROM data_df GROUP BY \"news outlet\";"
result=sqldf(query)
result

Unnamed: 0,news outlet,count(*)
0,24HorasTVN,24735
1,Cooperativa,19703
2,Emol,24648
3,biobio,14880
4,latercera,16033


In [8]:
query="SELECT * FROM data_df LIMIT 1;"
result=sqldf(query)
result

Unnamed: 0,date,news outlet,title,text,semester,year
0,2016-07-04 15:03:04.000000,24HorasTVN,"Caso ""dólar futuro"": Juez cita a nueva audiencia a Cristina Fernández - Internacional - 24horas","La ex mandataria será notificada de su procesamiento en la causa por venta de dólares a futuro. Además, se le informará de que se le trabará un embargo sobre sus bienes. El juez federal del caso ""dólar futuro"", Claudio Bonadio, fijó una nueva citación a tribunales a la ex presidenta de Argenti...",1,2016


## 4. Procesamiento Automático del Lenguaje (Natural Language Processing) con Spacy

In [None]:
#!pip install spacy
#!python -m spacy download es_core_news_sm

In [10]:
import spacy

nlp = spacy.load('es_core_news_sm')
spacy_stopwords = spacy.lang.es.stop_words.STOP_WORDS

In [12]:
for index,row in result.iterrows():
    # Text of the news
    text=row[3]
    print(text)
    doc = nlp(text)
    
    #tokenizar
    #postagging --> etiquetar la categoria gramatical de las palabras
    #segmentar las frases
    #reconocimiento de entidades 

 La ex mandataria será notificada de su procesamiento en la causa por venta de dólares a futuro. Además, se le informará de que se le trabará un embargo sobre sus bienes.  El juez federal del caso "dólar futuro", Claudio Bonadio, fijó una nueva citación a tribunales a la ex presidenta de Argentina, Cristina Fernández. La audiencia quedó fijada para el próximo miércoles 6 de julio, instancia en la que se le notificará su procesamiento en la causa por venta de dólares a futuro. Además, será informada de que se le trabará un embargo sobre sus bienes, según consigna el medio trasandinoTN. En una entrevista emitida el domingo, la "Señora K" desmintió que su arribo a Buenos Aires se debiera a la citación de Bonadio, aclarando que su hija, Florencia Kirchner, "cumple años el próximo miércoles" y que quiso viajar a la capital argentina para "tener una impresión de primerísima mano de lo social". Foto: AFP


In [13]:
 for entity in doc.ents:
        print(str(entity)+" "+str(entity.label_))

Además LOC
El juez federal del caso MISC
Claudio Bonadio PER
Argentina LOC
Cristina Fernández PER
La audiencia quedó fijada MISC
Además MISC
trasandinoTN MISC
Señora K MISC
Buenos Aires LOC
Bonadio PER
Florencia Kirchner PER
Foto MISC


In [14]:
 for sentence in doc.sents:
        print("FRASE: "+str(sentence))

FRASE:  La ex mandataria será notificada de su procesamiento en la causa por venta de dólares a futuro.
FRASE: Además, se le informará de que se le trabará un embargo sobre sus bienes.  
FRASE: El juez federal del caso "dólar futuro", Claudio Bonadio, fijó una nueva citación a tribunales a la ex presidenta de Argentina, Cristina Fernández.
FRASE: La audiencia quedó fijada para el próximo miércoles 6 de julio, instancia en la que se le notificará su procesamiento en la causa por venta de dólares a futuro.
FRASE: Además, será informada de que se le trabará un embargo sobre sus bienes, según consigna el medio trasandinoTN.
FRASE: En una entrevista emitida el domingo, la "Señora K" desmintió que su arribo a Buenos Aires se debiera a la citación de Bonadio, aclarando que su hija, Florencia Kirchner, "cumple años el próximo miércoles" y que quiso viajar a la capital argentina para "tener una impresión de primerísima mano de lo social".
FRASE: Foto: AFP


In [15]:
for token in doc:
    print(str(token)+" "+str(token.pos_))

  SPACE
La DET
ex ADJ
mandataria NOUN
será AUX
notificada VERB
de ADP
su DET
procesamiento NOUN
en ADP
la DET
causa NOUN
por ADP
venta NOUN
de ADP
dólares NOUN
a ADP
futuro NOUN
. PUNCT
Además ADV
, PUNCT
se PRON
le PRON
informará VERB
de ADP
que SCONJ
se PRON
le PRON
trabará VERB
un DET
embargo NOUN
sobre ADP
sus DET
bienes NOUN
. PUNCT
  SPACE
El DET
juez NOUN
federal ADJ
del ADP
caso NOUN
" PUNCT
dólar NOUN
futuro ADJ
" PUNCT
, PUNCT
Claudio PROPN
Bonadio PROPN
, PUNCT
fijó VERB
una DET
nueva ADJ
citación NOUN
a ADP
tribunales NOUN
a ADP
la DET
ex ADJ
presidenta NOUN
de ADP
Argentina PROPN
, PUNCT
Cristina PROPN
Fernández PROPN
. PUNCT
La DET
audiencia NOUN
quedó VERB
fijada ADJ
para ADP
el DET
próximo ADJ
miércoles NOUN
6 NUM
de ADP
julio NOUN
, PUNCT
instancia NOUN
en ADP
la DET
que PRON
se PRON
le PRON
notificará VERB
su DET
procesamiento NOUN
en ADP
la DET
causa NOUN
por ADP
venta NOUN
de ADP
dólares NOUN
a ADP
futuro NOUN
. PUNCT
Además ADV
, PUNCT
será AUX
informada VERB
de AD

## 5. Utilizar un diccionario de nombres

In [16]:
### Loading the dictionary of names (men=0, woman= 1) 

DICTIONARY_FILE = "diccionario_nombre_v2.csv"

def load_dictionary(filename):
    dictionary= dict()
    with open(filename, 'r') as file:         
        next(file)
        for line in file:
            line = line.rstrip().split(",")
            
            ### 'H' in spanish for Hombre --> Male
            if(line[1] == 'H'):                
                dictionary[line[0]] = 0
            ### 'M' in spanish for Mujer --> Female
            if(line[1] == 'M'):                
                dictionary[line[0]] = 1
                
    return dictionary

dictionary = load_dictionary(filename=DICTIONARY_FILE)
dictionary

{'Juan': 0,
 'Jorge': 0,
 'Sebastián': 0,
 'José': 0,
 'Carlos': 0,
 'Pablo': 0,
 'Luis': 0,
 'Nicolás': 0,
 'Felipe': 0,
 'Alejandro': 0,
 'Marcelo': 0,
 'Claudio': 0,
 'Rodrigo': 0,
 'Ricardo': 0,
 'Mario': 0,
 'Andrés': 0,
 'Fernando': 0,
 'Donald': 0,
 'Gonzalo': 0,
 'Jaime': 0,
 'Francisco': 0,
 'Arturo': 0,
 'Mauricio': 0,
 'Eduardo': 0,
 'Sergio': 0,
 'Manuel': 0,
 'Pedro': 0,
 'Diego': 0,
 'Roberto': 0,
 'Alberto': 0,
 'Miguel': 0,
 'Daniel': 0,
 'Patricio': 0,
 'David': 0,
 'Michelle': 1,
 'Matías': 0,
 'Alexis': 0,
 'Gabriel': 0,
 'María': 1,
 'Julio': 0,
 'Alvaro': 0,
 'John': 0,
 'Guillermo': 0,
 'Héctor': 0,
 'Rafael': 0,
 'Raúl': 0,
 'Michael': 0,
 'Javier': 0,
 'Ivan': 0,
 'Hugo': 0,
 'Ignacio': 0,
 'Oscar': 0,
 'Víctor': 0,
 'Gustavo': 0,
 'Cristián': 0,
 'Cecilia': 1,
 'Antonio': 0,
 'James': 0,
 'Paul': 0,
 'Evo': 0,
 'Alfredo': 0,
 'Leonardo': 0,
 'Enrique': 0,
 'Joaquín': 0,
 'Beatriz': 1,
 'Santiago': 0,
 'Christian': 0,
 'Martin': 0,
 'Charles': 0,
 'Kim': 0,
 'Cr

## 6. Diseñar e implementar una Base de Datos MySQL

Diseñar e implementar una base de datos MySQL que permite resolver las consultas C1, C2, C3, C y C5.

Pueden ayudarse de los esqueletos de codigo siguientes.

## 6.1 Diseño y creación de la base de datos

In [17]:
import mysql.connector 
##conexión a MySQL

db_connection = mysql.connector.connect(user="root",host="localhost",password="root")
cursor = db_connection.cursor()

In [None]:
##Creación de la estructura de la base de datos
#cursor.execute("DROP DATABASE Aegir;")
#cursor.execute("CREATE DATABASE Aegir;")
#cursor.execute("USE Aegir")
#cursor.execute("CREATE TABLE Noticia (id_noticia INT PRIMARY KEY, fecha DATE, "+
#               "titulo TEXT(1000) CHARACTER SET utf8mb4, "+
#               "texto MEDIUMTEXT CHARACTER SET utf8mb4, nombre_medio VARCHAR(20))")
cursor.execute("CREATE TABLE Mencionar_personas "+
               "(id_noticia INT, nombre_completo VARCHAR(200), "+
               "nombre VARCHAR(100), apellido VARCHAR(100), genero VARCHAR(5), "+
              "PRIMARY KEY (id_noticia,nombre_completo), "+
              "FOREIGN KEY (id_noticia) REFERENCES Noticia(id_noticia))")
#cursor.execute("CREATE TABLE Mencionar_localidades "+
#               "(id_noticia INT, nombre_localidad VARCHAR(100), "+
#              "PRIMARY KEY (id_noticia,nombre_localidad), "+
#              "FOREIGN KEY (id_noticia) REFERENCES Noticia(id_noticia))")

## 6.2 Llenar la base con datos

In [18]:
data_df[:5]

Unnamed: 0,date,news outlet,title,text,semester,year
0,2016-07-04 15:03:04,24HorasTVN,"Caso ""dólar futuro"": Juez cita a nueva audiencia a Cristina Fernández - Internacional - 24horas","La ex mandataria será notificada de su procesamiento en la causa por venta de dólares a futuro. Además, se le informará de que se le trabará un embargo sobre sus bienes. El juez federal del caso ""dólar futuro"", Claudio Bonadio, fijó una nueva citación a tribunales a la ex presidenta de Argenti...",1,2016
1,2016-07-04 15:35:01,24HorasTVN,Corte de Apelaciones deja sin efecto cobro de la ANFP a Deportes Valdivia - Fútbol Nacional - 24horas,La justicia acogió el recurso de protección contra la Asociación Nacional de Fútbol Profesional. La primera sala de la Corte de Apelaciones de Valdivia acogió el recurso de protección de Deportes Valdivia y determinó que no deberán pagar la cuota de incorporación de 50 mil unidades de fomento ...,1,2016
2,2016-05-16 12:58:16,24HorasTVN,Policía de Chicago reporta desaparición de la cantante Sinead O'Connor - Espectáculos y Cultura - 24horas,"La irlandesa fue vista por última vez en un barrio al norte de Chicago durante la mañana del pasado domingo y es buscada por las autoridades. La policía de Chicago, Estados Unidos, anunció este lunes que la cantante irlandesa Sinead O'Connor desapareció el pasado domingo 15 de mayo en la mañan...",0,2016
3,2016-05-16 11:14:32,24HorasTVN,Más de 20 ballenas piloto mueren tras varar en Baja California - Internacional - 24horas,"Sólo tres de los 27 cetáceos que quedaron varados en Playa Bufeo se salvaron. Sólo tres de las 27 ballenas que quedaron varadas en Playa Bufeo se salvaron tras volver a aguas más profundas. Pese a que se desconocen las causas del accidente, se presume que los cetáceos se encontraban desorientad...",0,2016
4,2016-05-16 12:04:57,24HorasTVN,Sismo sacude a Tokio y otras ciudades del este de Japón - Internacional - 24horas,"Según la cadena de televisión pública NHK, no se han registrado ni daños ni heridos, pero los inmuebles de la capital se han tambaleado con el temblor. Un sismo de magnitud 5,4 Richter sacudió este lunes a Tokio y gran parte del este de Japón, anunció el Servicio Geológico de Estados Unidos (U...",0,2016


In [None]:
#We will do a commit each 1000 texts
commit_count = 0

### We itereate over the news dataset 'data_df'
for index,row in data_df.iterrows():
    
    commit_count = commit_count+1
    
    # Text of the news
    text=row[3]
    # Title of the news
    title=row[2]
    # News outlet
    media=row[1]
    # Date of the news
    date_news=str(row[0]).partition(' ')[0]  
    #Id of the news
    id_news=str(index)
    
    
    ##### INSERT EN LA TABLA "NOTICIA" ######
    
    sql = "INSERT INTO Noticia (id_noticia, fecha, titulo, texto, nombre_medio) VALUES (%s, %s, %s,%s,%s)"
    val = (id_news, date_news, title, text, media)
    cursor.execute(sql, val)
    
    #########################################
    
    
    # We apply NLP prcommit_count = commit_count+1ocessing here, in particular Tokenization and Entity Name Recognition
    try:
        doc = nlp(text)
    except:
        continue

    
    # We analyze the entities from the document, and we use only the Person type(PER) and Locality type (LOC)
    for ent in doc.ents:
        
        # We check if entity is a Person type using the SpaCy model
        if(ent.label_=="PER"):
            
            # We tokenize the entity
            tokenized_entity=(ent.text).split(" ") 
            
            # We preserve only the entities that has between 2 and 4 tokens (Usual name annotation in Chile)
            if ((len(tokenized_entity)>1) and len(tokenized_entity)<=4):
                        
                ### We verify if the first token appears in our dictionary
                if(tokenized_entity[0] in dictionary):
                    ## If it appears, we clasify the genden - 0 = Men, 1 = Woman
                    if(dictionary[tokenized_entity[0]] == 0):
                        gender = str("M")
                    elif(dictionary[tokenized_entity[0]] == 1):
                        gender = str("F")
                    else:
                        continue

                    # We store two forms of name, Frist Name and Last Name --> entity name
                    # And full name ,which in Chile it is Two Names and Two Last Names
                    
                    entity_name = tokenized_entity[0] + " " + tokenized_entity[1]
                    entity_full_name = ent.text
                    
                    #Once everything has a good format, we send it to MySQL
                    
                    ##### INSERT EN LA TABLA "MENCIONAR_PERSONAS" ######
                    try:
                        sql = "INSERT INTO Mencionar_personas (id_noticia, nombre_completo, nombre, apellido, genero) VALUES (%s, %s, %s,%s,%s)"
                        val = (id_news, entity_name, tokenized_entity[0], tokenized_entity[1], gender)
                        cursor.execute(sql, val)
                    except:
                        continue
                    #########################################
                    
        # We check if entity is a Locality type using the SpaCy model
        if(ent.label_=="LOC"):
            ##### INSERT EN LA TABLA "MENCIONAR_LOCALIDADES" ######
            try:
                sql = "INSERT INTO Mencionar_localidades (id_noticia, nombre_localidad) VALUES (%s,%s)"
                val = (id_news, ent.text)
                cursor.execute(sql, val)
            except:
                continue
            #########################################
                           
                    
                                  
    # With commit count, each x, we make a commit to SQL to save the results
    if(commit_count%1000 == 0):
        print(commit_count)
        cursor.execute("COMMIT")

## 7. Responder a las consultas

In [None]:
from pandas import DataFrame
import mysql.connector
##conexión a MySQL

db_connection = mysql.connector.connect(user="root",host="localhost",password="root")
cursor = db_connection.cursor()
cursor.execute("USE Aegir")

In [None]:
#C1- ¿De qué personas se habla en las noticias?

sql = "SELECT nombre_completo, count(*) as freq FROM Mencionar_personas GROUP BY nombre_completo ORDER BY count(*) DESC LIMIT 20;"
cursor.execute(sql)
df1 = DataFrame(cursor.fetchall())
df1.columns = cursor.column_names
df1


In [None]:
#C2- ¿De qué localidades (ciudades, paises) se hablan en las noticias?

sql = "SELECT nombre_localidad, count(*) as freq FROM Mencionar_localidades WHERE nombre_localidad IN ('Chile', 'Argentina', 'Rusia', 'Perú', 'China') GROUP BY nombre_localidad ORDER BY freq DESC;"
cursor.execute(sql)
df2 = DataFrame(cursor.fetchall())
df2.columns = cursor.column_names
df2


In [None]:
#C2- ¿De qué localidades (ciudades, paises) se hablan en las noticias?

sql = "SELECT nombre_localidad, count(*) as freq FROM Mencionar_localidades WHERE nombre_localidad IN (SELECT country from countries) GROUP BY nombre_localidad ORDER BY freq DESC;"
cursor.execute(sql)
df2 = DataFrame(cursor.fetchall())
df2.columns = cursor.column_names
df2

In [None]:
#C3- ¿Cuál es el género de las personas mencionadas?

sql = "SELECT genero, count(*) as freq FROM Mencionar_personas GROUP BY genero;"
cursor.execute(sql)
df3 = DataFrame(cursor.fetchall())
df3.columns = cursor.column_names
df3


In [None]:
#C4- ¿Cómo se distribuye el género de las personas mencionadas según el medio de prensa?

sql = "SELECT nombre_medio, genero, count(*) as freq FROM Mencionar_personas JOIN Noticia USING (id_noticia) GROUP BY nombre_medio,genero;"
cursor.execute(sql)
df4 = DataFrame(cursor.fetchall())
df4.columns = cursor.column_names
df4


In [None]:
#C5- ¿Cómo se distribuyen las noticias seǵun las localidades?

sql = "SELECT nombre_medio, nombre_localidad, count(*) as freq FROM Mencionar_localidades JOIN Noticia USING (id_noticia) WHERE nombre_localidad IN ('Santiago', 'Valdivia') GROUP BY nombre_medio, nombre_localidad;"
cursor.execute(sql)
df5 = DataFrame(cursor.fetchall())
df5.columns = cursor.column_names
df5

## 8. Visualización de datos

In [None]:
!pip install geopandas

In [None]:
import pandas as pd
import geopandas as gpd

shapefile = 'shapefiles/ne_110m_admin_0_countries.shp'

gdf = gpd.read_file(shapefile)[['ADMIN', 'ADM0_A3', 'geometry']]
gdf.columns = ['country', 'country_code', 'geometry']
gdf.head()


In [None]:
print(gdf[gdf['country'] == 'Antarctica'])

#Drop row corresponding to 'Antarctica'
gdf = gdf.drop(gdf.index[159])

In [None]:
df_country = df2
#df_country = pd.read_csv("df_country.csv")
df_country

In [None]:
merged = gdf.merge(df_country, left_on = 'country', right_on = 'nombre_localidad',  how = 'left')

#Replace NaN values to string 'No data'.
merged.fillna('No data', inplace = True)

merged

In [None]:
import json

#Read data to json
merged_json = json.loads(merged.to_json())

#Convert to str like object
json_data = json.dumps(merged_json)

In [None]:
#!pip install bokeh

In [None]:
from bokeh.io import output_notebook, show, output_file
from bokeh.plotting import figure
from bokeh.models import GeoJSONDataSource, LinearColorMapper, ColorBar
from bokeh.palettes import brewer

#Input GeoJSON source that contains features for plotting.
geosource = GeoJSONDataSource(geojson = json_data)

#Define a sequential multi-hue color palette.
palette = brewer['YlGnBu'][8]

#Reverse color order so that dark blue is highest obesity.
palette = palette[::-1]

#Instantiate LinearColorMapper that linearly maps numbers in a range, into a sequence of colors.
color_mapper = LinearColorMapper(palette = palette, low = 0, high = 100)

#Define custom tick labels for color bar.
tick_labels = {'0': '0%', '5': '5%', '10':'10%', '15':'15%', '20':'20%', '25':'25%', '30':'30%','35':'35%', '40': '40%',
               '50': '50%', '60': '60%', '70': '70%', '80': '80%', '90': '90%', '100': '100%'}

#Create color bar. 
color_bar = ColorBar(color_mapper=color_mapper, label_standoff=8,width = 500, height = 20,
border_line_color=None,location = (0,0), orientation = 'horizontal', major_label_overrides = tick_labels)

#Create figure object.
p = figure(title = 'Share of countries mentionned in chilean press', plot_height = 600 , plot_width = 950, toolbar_location = None)
p.xgrid.grid_line_color = None
p.ygrid.grid_line_color = None

#Add patch renderer to figure. 
p.patches('xs','ys', source = geosource,fill_color = {'field' :'freq', 'transform' : color_mapper},
          line_color = 'black', line_width = 0.25, fill_alpha = 1)

#Specify figure layout.
p.add_layout(color_bar, 'below')

#Display figure inline in Jupyter Notebook.
output_notebook()

#Display figure.
show(p)