# Trabajo Final - Grupal

## Manejo y Visualización de Datos con Python

### Jupyter

Trabajamos con Jupyter mediante su notebook ya instalado en nuestro PC. Utilizamos el lenguaje *Python* con su version más reciente. 

### Pandas

Importamos la libreria `pandas` para leer la base de datos en formato .csv y la denominamos `pd`.

In [1]:
import pandas as pd

Creamos la variable `datos` para que se convierta en la lectura de nuestra base de datos, la cual esta en formato .csv, para ello usamos `read_csv`.

Dentro de los parentesis utilizamos funciones de *Pandas*, primeramente el archivo, la separacion, el lenguaje, el rango de las columnas, y por ultimo un "default" para los espacios en blanco.

Por ultimo imprimimos nuestra tabla con un intervalo de columnas de 0 a 5.

In [11]:
datos=pd.read_csv('1.3. Intervalos de confianza.csv', sep=';|"', engine='python', usecols=range(0, 10), index_col=0, keep_default_na=False)
datos.iloc[0:5]

Unnamed: 0_level_0,Nacional,Unnamed: 2,Unnamed: 3,Urbano,Unnamed: 5,Unnamed: 6,Rural,Unnamed: 8,Unnamed: 9
Año,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
,Incidencia,Limite Inferior,Limite Superior,Incidencia,Limite Inferior,Limite Superior,Incidencia,Limite Inferior,Limite Superior
2014.0,2453,236,2547,163,1518,1742,4169,4002,4337
2015.0,2201,2096,2305,1444,1327,1561,3804,3605,4004
2016.0,237,2238,2501,1564,1428,1701,4091,3832,435
2017.0,2309,2159,2459,1464,1337,1591,4098,3822,4374


Nuestros datos son los indices de pobreza por ingresos para el diseño de medidas sociales en tres campos (nacional, rural y urbano) en el intervalo de 2014 a 2017. Dichos datos fueron realizados por la Encuesta Nacional de Empleo, Desempleo y Subempleo - ENEMDU, junio 2017.

Para poder trabajar con esta tabla necesitamos definir un nuevo _DataFrame_ qu usaremos para graficar en Bokeh.

In [8]:
import pandas as pd
d = {'Año':[2014, 2015, 2016, 2017], 'Nacional':[24.53, 22.01, 23.7, 23.09], 
    'Urbano':[16.3, 14.44, 15.64, 14.64], 'Rural':[41.69, 38.04, 40.91, 40.98]}
df = pd.DataFrame(data = d)
df

Unnamed: 0,Año,Nacional,Rural,Urbano
0,2014,24.53,41.69,16.3
1,2015,22.01,38.04,14.44
2,2016,23.7,40.91,15.64
3,2017,23.09,40.98,14.64


En Bokeh utilizamos nuestros indices de las columnas para proceder a los realizar nuestros graficos.

In [16]:
df.columns

Index(['Año', 'Nacional', 'Rural', 'Urbano'], dtype='object')

### Bokeh

Importamos las funciones `show` de `.io` para enseñar nuestros gráficos y `figure` de `.plotting` para obtener las figuras.

In [13]:
from bokeh.io import show
from bokeh.plotting import figure

Importamos la funcion `output_notebook` de `.io` y la ejecutamos para cargar el programa en nuestro notebook.

In [12]:
from bokeh.io import output_notebook
output_notebook()

Importamos los modelos y las paletas de colores que queremos usar para nuestro graficos y los definimos al crear nuestra figura.

In [20]:
# PARA HACER ESTO MIRA AQUI: https://bokeh.pydata.org/en/latest/docs/gallery/bar_colormapped.html
# http://chdoig.github.io/scipy2015-blaze-bokeh/#/4/2

from bokeh.models import ColumnDataSource
from bokeh.palettes import Spectral6
from bokeh.transform import factor_cmap

fruits = ['2014', '2015', '2016', '2017']
counts = [24.53, 22.01, 23.70, 23.09]

source = ColumnDataSource(data=dict(fruits=fruits, counts=counts))

p = figure(x_range=fruits, plot_height=350, toolbar_location=None, title="Incidencia")
p.vbar(x='fruits', top='counts', width=0.5, source=source, legend="fruits",
       line_color='white', fill_color=factor_cmap('fruits', palette=Spectral6, factors=fruits))

p.xgrid.grid_line_color = None
p.y_range.start = 0
p.y_range.end = 30
p.legend.orientation = "horizontal"
p.legend.location = "top_center"

show(p)


Para nuestro siguiente grafico utilizamos el mismo modelo anterior, pero le damos diferentes atributos.

In [21]:
from bokeh.core.properties import value
from bokeh.models import ColumnDataSource
from bokeh.transform import dodge

fruits = ['2014', '2015', '2016', '2017']
years = ['Nacional', 'Urbano', 'Rural']

data = {'fruits' : fruits,
        'Nacional'   : [24.53, 22.01, 23.70, 23.09],
        'Urbana'   : [41.69, 38.04, 40.91, 40.98],
        'Rural'   : [16.30, 14.44, 15.64, 14.64]}

source = ColumnDataSource(data=data)

p = figure(x_range=fruits, y_range=(0, 45), plot_height=350, title="Incidencia Nacional, Urbana y Rural",
           toolbar_location=None, tools="")

p.vbar(x=dodge('fruits', -0.25, range=p.x_range), top='Nacional', width=0.2, source=source,
       color="#c9d9d3", legend=value("Nacional"))

p.vbar(x=dodge('fruits',  0.0,  range=p.x_range), top='Urbana', width=0.2, source=source,
       color="#718dbf", legend=value("Urbana"))

p.vbar(x=dodge('fruits',  0.25, range=p.x_range), top='Rural', width=0.2, source=source,
       color="#e84d60", legend=value("Rural"))

p.x_range.range_padding = 0.1
p.xgrid.grid_line_color = None
p.legend.location = "top_left"
p.legend.orientation = "horizontal"

show(p)