# Elaborar un gráfico de puntos en Python con Bokeh

In [207]:
#Esta celda la incluyo para que Nikola(https://getnikola.com/) me lea directamente del Jupyter Notebook los gráficos creados con Bokeh.
#Si alguien está dispuesto a utilizar este bloque debe tener en cuenta que la versión de Bokeh utilizada en este notebook es la 0.12.16.
from IPython.display import HTML
HTML('''
<html>
<script src="https://cdnjs.cloudflare.com/ajax/libs/require.js/2.1.10/require.min.js"></script>
<script src="https://cdnjs.cloudflare.com/ajax/libs/jquery/2.0.3/jquery.min.js"></script>
<script src="https://cdn.pydata.org/bokeh/release/bokeh-gl-0.12.16.min.js"></script>
<script src="https://cdn.pydata.org/bokeh/release/bokeh-0.12.16.min.js"></script>
<script src="https://cdn.pydata.org/bokeh/release/bokeh-widgets-0.12.16.min.js"></script>
<script src="https://cdn.pydata.org/bokeh/release/bokeh-tables-0.12.16.min.js"></script>
<script src="https://cdn.pydata.org/bokeh/release/bokeh-gl-0.12.16.min.js"></script>
''')

Continúo con la aventura en Python. Los datos son más entendibles si se visualizan en un gráfico, ¿qué tal uno dinámico?. 

[Bokeh](https://bokeh.pydata.org/en/latest/) es una librería de Python que ofrece una manera alternativa de hacer gráficos Javascript sin necesidad de programar en Javascript. En este ejercicio haremos un scatter.

Los datos que vamos a utilizar se encuentran en la web de Datacamp.
https://assets.datacamp.com/production/course_1392/datasets/literacy_birth_rate.csv

Contiene dos variables necesarias para este ejercicio:
   
   *female_literacy*: que contiene el nivel de alfabetización femenina en porcentaje de la población total.
    
   *fertility*: tasa de natalidad presentado en números de niños por cada mujer.
    
Nos intersará averiguar qué tipo de relación tienen estas dos variables. 

- Directa: Entre mayor alfabetización de la mujer, mayor la tasa de natalidad.
- Inversa: Entre mayor alfabetización de la mujer, menor la tasa de natalidad.
- Ninguna: No se define visualmente una relación. Ninguna variable afecta a la otra.


Vamos con los pasos:

- Importar la librería pandas para poder extraer la base de datos.

In [194]:
import pandas as pd
import numpy as np

- Extraer la base desde internet.

In [195]:
datos = pd.read_csv('https://assets.datacamp.com/production/course_1392/datasets/literacy_birth_rate.csv')

In [196]:
datos.head(10) #Estas son las primeras observaciones

Unnamed: 0,Country,Continent,female literacy,fertility,population
0,Chine,ASI,90.5,1.769,1324655000.0
1,Inde,ASI,50.8,2.682,1139965000.0
2,USA,NAM,99.0,2.077,304060000.0
3,Indonésie,ASI,88.8,2.132,227345100.0
4,Brésil,LAT,90.2,1.827,191971500.0
5,Pakistan,ASI,40.0,3.872,166111500.0
6,Bangladesh,ASI,49.8,2.288,160000100.0
7,Nigéria,AF,48.8,5.173,151212300.0
8,Fédération de Russie,EUR,99.4,1.393,141950000.0
9,Japan,ASI,99.0,1.262,127704000.0


In [197]:
datos.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 182 entries, 0 to 181
Data columns (total 5 columns):
Country            169 non-null object
Continent          164 non-null object
female literacy    169 non-null object
fertility          163 non-null object
population         162 non-null float64
dtypes: float64(1), object(4)
memory usage: 7.2+ KB


Contiene 182 observaciones con 5 variables. Pero además tiene información faltante. Esto se puede notar cuando la cantidad de *no valores faltantes* no concuerda con la totalidad de entradas.
<!-- TEASER_END -->

In [198]:
datos.shape

(182, 5)

No estaría de más, hacer una limpieza. En este caso utilizaré el .dropna() para eliminar las filas que contengan valores perdidos que en este caso está nombrado como 'NaN'.

In [199]:
datos_limpio = datos.dropna()
datos_limpio.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 162 entries, 0 to 161
Data columns (total 5 columns):
Country            162 non-null object
Continent          162 non-null object
female literacy    162 non-null object
fertility          162 non-null object
population         162 non-null float64
dtypes: float64(1), object(4)
memory usage: 7.6+ KB


El número de entradas ya concuerda con el número de observaciones *no perdidas* en cada columna.

- Voy a definir las variables a meter en el Bokeh:

In [200]:
x = pd.to_numeric(datos_limpio['fertility'])
y = pd.to_numeric(datos_limpio['female literacy'])
#Convirtiendo a la vez las variables en numéricas.

- Importar Bokeh

In [201]:
from bokeh.plotting import figure, show
from bokeh.io import output_notebook
output_notebook()

- Manos a la obra

In [202]:
#poniendo nombre a los ejes 'x' y 'y'
p = figure(x_axis_label = 'Tasa de natalidad (niños por mujer)', y_axis_label = 'Alfabetización femenina (% de la población)') 

In [203]:
p.circle(x,y) #Colocando los ejes

In [204]:
show(p) #imprimir en el notebook

In [205]:
p.circle(x,y, color = 'Red') #Rojo
show(p)

In [206]:
p.circle(x,y, color = 'Red', size = 10) #Tamaño
show(p)

Conclusión: Es fácil graficar un scatter con Bokeh, sin embargo, tuve unas complicaciones al inicio y era que las variables a incluir en los ejes tienen que estar en números.
    
Respecto a lo que hemos descubierto es que la relación entre natalidad y alfabetización de la mujer es inversamente proporcional. Entre mayor es la educación de una mujer en una población, menor es la tasa de natalidad.