# PROYECTO DE VISUALIZACION DE DATOS 

## SET DE DATOS
----
**Los datos que trabajaremos son del sitio web Ecuador en cifras, sobre la pobreza en ciudades como Quito, Guayaquil, y otras del Ecuador**

Para poder cargar nuestro set de datos necesitamos importar la librería de `pandas`

In [20]:
import pandas as pd

Nuestro conjunto de datos está en formato `.csv`, por lo que usaremos `read_csv` de pandas.

In [21]:
# guardamos nuestra tabla en una variable data, después de haber sido leída por pandas
raw_data = pd.read_csv(
    './assets/datosPobreza.csv', # dirección donde esta nuestra data
    sep=';', # separador de datos para ser leídos por pandas
    decimal="," # el separador, o sino nuestros números serán tratados como strings si contienen "comas"
)

`read_csv` devuelve un `DataFrame`, una estructura tabular de datos proporcionada por pandas. Un `DataFrame` está dotado de varios atributos y métodos útiles para explorar los datos.

Con la función `head()` sobre nuestro `DataFrame` podemos mostrar los primeras filas de nuestra data, para no presentar todas las filas. 

In [22]:
raw_data.head()

Unnamed: 0,Período,Anios,Quito,Quito.1,Quito.2,Guayaquil,Guayaquil.1,Guayaquil.2,Cuenca,Cuenca.1,Cuenca.2,Machala,Machala.1,Machala.2,Ambato,Ambato.1,Ambato.2
0,,,,,,,,,,,,,,,,,
1,Marzo,2008.0,10.45,3.32,1.76,22.06,6.38,2.87,11.68,3.74,1.88,20.76,6.43,2.82,21.2,6.38,3.11
2,Marzo,2009.0,11.16,3.71,1.97,24.28,7.5,3.26,10.91,3.31,1.51,20.76,6.32,2.94,17.55,5.81,2.99
3,Marzo,2010.0,13.01,4.34,2.31,20.8,5.82,2.37,13.78,3.8,1.6,15.54,4.2,1.77,11.63,3.47,1.47
4,Marzo,2011.0,10.33,3.34,1.81,19.21,4.99,1.99,12.39,4.13,2.2,14.76,4.07,1.62,10.58,2.68,1.02


Con la función `[1:]` eliminamos la primera fila, ya que no son parte de los datos que usaremos

In [23]:
raw_data = raw_data[1:]

In [24]:
raw_data.shape  # números de campos de nuestra data

(10, 17)

Un `DataFrame` se compone de dos componentes principales; 
 - Los datos mismos, que se pueden extraer a través del atributo de valores
 - Conjunto de índices, que son esencialmente etiquetas para las filas y columnas del DataFrame.

In [25]:
raw_data.index

RangeIndex(start=1, stop=11, step=1)

In [26]:
raw_data.columns

Index(['Período', 'Anios', 'Quito', 'Quito.1', 'Quito.2', 'Guayaquil',
       'Guayaquil.1', 'Guayaquil.2', 'Cuenca', 'Cuenca.1', 'Cuenca.2',
       'Machala', 'Machala.1', 'Machala.2', 'Ambato', 'Ambato.1', 'Ambato.2'],
      dtype='object')

Pero, un `índice` es más que un conjunto de etiquetas. Es importante destacar que asegura la **alineación de datos** cuando se agregan datos o se combinan estructuras de datos.

De hecho, podemos especificar un índice más apropiado para nuestros datos. El campo Año aquí es un índice único para los valores de análisis correspondientes.

`set_index` nos permite convertir cualquier columna (o matriz externa) que elijamos en el índice de fila.

In [27]:
temp = raw_data.set_index('Anios')
temp.head(2)

Unnamed: 0_level_0,Período,Quito,Quito.1,Quito.2,Guayaquil,Guayaquil.1,Guayaquil.2,Cuenca,Cuenca.1,Cuenca.2,Machala,Machala.1,Machala.2,Ambato,Ambato.1,Ambato.2
Anios,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2008.0,Marzo,10.45,3.32,1.76,22.06,6.38,2.87,11.68,3.74,1.88,20.76,6.43,2.82,21.2,6.38,3.11
2009.0,Marzo,11.16,3.71,1.97,24.28,7.5,3.26,10.91,3.31,1.51,20.76,6.32,2.94,17.55,5.81,2.99


## Data
Para nuestra tabla agruparemos los datos de Quito para nuestras graficas

In [28]:
data = raw_data.drop(['Período', 'Guayaquil', 'Guayaquil.1', 'Guayaquil.2', 'Cuenca', 'Cuenca.1', 'Cuenca.2', 'Machala', 'Machala.1', 'Machala.2', 'Ambato', 'Ambato.1', 'Ambato.2'], axis=1)
data['Anios'] = data['Anios'].astype(int).astype(str)
data.head(1)

Unnamed: 0,Anios,Quito,Quito.1,Quito.2
1,2008,10.45,3.32,1.76


Cambiaremos los nombres de las columnas de nuestra data para ver lo que representaremos

In [29]:
data.columns = ['Anios', 'Incidencia', 'Brecha', 'Severidad']
data.head(1)

Unnamed: 0,Anios,Incidencia,Brecha,Severidad
1,2008,10.45,3.32,1.76


### ¿Qué es incidencia de la pobreza?
Número de personas pobres expresado como porcentaje del total de la población en un determinado año. Se define como "pobres" a aquellas personas que pertenecen a hogares cuyo consumo per cápita, en un período determinado, es inferior al valor de la línea de pobreza.
### ¿Qué es la brecha de la pobreza?
La línea de pobreza es el equivalente monetario del costo de una canasta básica de bienes y servicios. La brecha de la pobreza refleja cuan pobres son los pobres y, por tanto, proporciona una idea de la profundidad de las carencias de ingreso o consumo que definen una situación de pobreza.
### ¿Qué es la severidad de la pobreza?
P es un promedio (sobre la población total, n) de las distancias que separan a individuos u hogares de la línea de pobreza, ponderado por un exponente. El valor del exponente permite que la misma fórmula dé como resultado la incidencia, brecha y severidad de la pobreza como casos especiales de la medida.

## MARCO TEORICO 
----

## Python 

Python es un lenguaje de programación interpretado cuya filosofía hace hincapié en una sintaxis que favorezca un código legible.

Se trata de un lenguaje de programación multiparadigma, ya que soporta orientación a objetos, programación imperativa y, en menor medida, programación funcional. Es un lenguaje interpretado, usa tipado dinámico y es multiplataforma.


## Pandas

Pandas es una biblioteca de código abierto con licencia de BSD que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fácil de usar para el lenguaje de programación Python.

pandas es un proyecto patrocinado por NUMFocus. Esto ayudará a garantizar el éxito del desarrollo de los pandas como un proyecto de código abierto de clase mundial, y hace posible donar para el proyecto.

## Bokeh

Bokeh es una biblioteca de visualización interactiva de Python que se dirige a navegadores web modernos para su presentación. Su objetivo es proporcionar una construcción elegante y concisa de gráficos novedosos al estilo de D3.js y ampliar esta capacidad con interactividad de alto rendimiento en conjuntos de datos de gran tamaño o de transmisión

## PROPUESTAS DE VISUALIZACION
---
**Para la visualización de datos se utilizo la librería bokeh**
Con los datos descritos anterior mente utilizaremos bokeh como una manera grafica de visualizar nuestra tabla.

 - Usarnos gráficos de líneas para visualizar la diferencia que existe en nuestros datos
 - Utilizaremos gráficos de barras para visualizar la semejanza de los datos del mismo año
 - También utilizaremos gráficos de pastel interactivos con los que podremos observar la variación de datos dentro de nuestro rango de años.

Al usar la interfaz bokeh.plotting, necesitamos importar:

 - Use la función de `figure` para crear nuevos objetos de trazado para trabajar.
 - Las funciones `output_file`, `output_notebook` para indicar a Bokeh cómo mostrar el resultado.

In [30]:
from bokeh.io import show
from bokeh.plotting import figure
from bokeh.models import ColumnDataSource

Importamos `gridplot` - para presentar varias graficas en una

In [31]:
from bokeh.layouts import gridplot

En este caso, estamos en `jupyter notebook`, así que llamamos a `output_notebook()`. Solo debemos llamar esto una vez para mostrar nuestras graficas en el cuaderno usando la función `show()` de bokeh.

In [32]:
from bokeh.io import output_notebook
output_notebook()

# GRAFICAS
----

## Gráfico de Líneas

In [33]:
group1 = data.groupby('Anios')

source = ColumnDataSource(group1)

In [37]:
# Características que tendrá nuestra grafica
graph_line = figure(
    plot_height=400, # ancho
    plot_width=900, # alto
    x_range=group1,
    title='POBREZA-QUITO' # titulo
)

# Definimos los datos que representara cada "Línea", y otras opciones como color y leyenda
graph_line.line(
    x='Anios', # datos en x
    y='Incidencia_mean', # datos en y
    color='#f4d341', # color de las líneas
    legend='Incidencia', # leyenda que representa nuestra grafica
    line_width=5,
    source=source
)
graph_line.line(x='Anios', y='Brecha_mean', color='#42f4bf', legend='Brecha',line_width=5,source=source)
graph_line.line(x='Anios', y='Severidad_mean', color='#f44171', legend='Severidad',line_width=5,source=source)

# Para no mostramos los trazados del plano y presentamos nuestra grafica
graph_line.xgrid.grid_line_color = None # eliminamos las lineas verticales
graph_line.ygrid.grid_line_color = None # horizontales

show(graph_line) # mostramos nuestra grafica

**En esta gráfica, podemos observar la pobreza recuerdo con la incidencia, que desde el año 2008 al 2010, tiene una mayoría de pobreza y del 2010 al 2012 a disminuido de la misma, y del 2012 en adelante sido desmullendo la pobreza, mientras que la pobreza recuerdo con la brecha, casi se aumentado en un rango mínimo, desde el año 2008 al 2016, y por último la pobreza de acuerdo con la serenidad no ha existido un rango alto de pobreza, si no que se ha ido manteniendo en un porcentaje medio.**

## Gráfico de barras

In [35]:
# Creamos un objeto de figura por cada gráfica y establecemos sus opciones y titulo. (opciones)
graph_bar_1 = figure(
    title='Incidencia', # título de esta grafica en particular
    plot_width=300, plot_height=300, # Tamaño
    x_range=group1, # Mandamos el rango de x
)
graph_bar_2 = figure(title='Brecha', plot_width=300, plot_height=300, x_range=group1)
graph_bar_3 = figure(title='Severidad', plot_width=300, plot_height=300, x_range=group1)

# Definimos lo que cada una de nuestras graficas representara
graph_bar_1.vbar(
    x='Anios', # datos en x
    top='Incidencia_mean', # valor máximo
    width=0.7, # ancho de cada barra
    line_color="white", # color del borde de cada barra
    color="#f4d341", # color de cada barra
    source=source
)
graph_bar_2.vbar(x='Anios', top='Brecha_mean', width=0.7, line_color="white", color="#42f4bf", source=source)
graph_bar_3.vbar(x='Anios', top='Severidad_mean', width=0.7, line_color="white", color="#f44171", source=source)

# Creamos una nueva figura que está compuesta por las figuras creadas anteriormente
graph_bar = gridplot([[graph_bar_1, graph_bar_2, graph_bar_3]]) # agrupamos nuestas graficas
show(graph_bar) # Mostramos los resultados

**En este gráfico, podemos observar sobre la pobreza dependiendo de la incidencia, brecha y serenidad de la ciudad de quito desde el año 2008 hasta el 2016, ya que nos daremos cuenta en cada año como va aumentado y disminuyendo, de la misma. **

## Grafico de pastel

In [39]:
# Importamos `pi` de la librería `numpy` para el Angulo en nuestras graficas
# Y `interact` de `ipywidgets` para poder interactuar con nuestra grafica
from numpy import pi
from ipywidgets import interact

# Creamos una variable contiene los parámetros de nuestra grafica final
options = dict( # opciones que compartirán cada una de nuestras graficas
    plot_width=300, plot_height=300 # Tamaño
)

# Definimos cada una de las gráficas de pastel que representaremos, su título, 
# la cuadricula que mostrara, y las opciones antes definidas de la gráfica anterior
graph_pie_1 = figure(
    title='Incidencia', # título de esta grafica en particular
    x_range=(-1,1),
    y_range=(-1,1),
    **options
)
graph_pie_2 = figure(title='Brecha', x_range=(-1,1), y_range=(-1,1), **options)
graph_pie_3 = figure(title='Severidad', x_range=(-1,1), y_range=(-1,1), **options)

# Definimos una función que será llamada cada vez que interactuemos con el slider
def f(x):
    graph_pie_1.wedge(
        x=0, y=0, radius=0.8, # centro y radio
        start_angle=[0.0, data.Incidencia[x]*2*pi/100], # valores donde inicia cada parte
        end_angle=[data.Incidencia[x]*2*pi, 2*pi],  # valores donde termina cada parte del pastel
        color=['#f4d341','#686060'] # color de cada parte
    )
    graph_pie_2.wedge(
        x=0, y=0, radius=0.8, 
        start_angle=[0.0, data.Brecha[x]*2*pi/100], 
        end_angle=[data.Brecha[x]*2*pi, 2*pi], 
        color=['#42f4bf','#686060']
    )
    graph_pie_3.wedge(
        x=0, y=0, radius=0.8, 
        start_angle=[0.0, data.Severidad[x]*2*pi/100], 
        end_angle=[data.Severidad[x]*2*pi, 2*pi], 
        color=['#f44171','#686060']
    )
    
    
    print("Año: "+str(int(data.Anios[x])))
    graph_pie = gridplot([[graph_pie_1, graph_pie_2, graph_pie_3]]) # agrupamos nuestras  graficas
    show(graph_pie) # Mostramos los resultados
    
# Mostramos la gráfica y el slider con el que podremos interactuar
interact(f, x=(1,10));

**Con el slider podemos avanzar en el tiempo para poder observar que cada año se ha producido una disminución del porcentaje de pobreza**

# Bibliografía 
----
Este notebook fue realiza con jupyter notebook. - http://jupyter.org/

Una página que utilizamos, para poder hacer las gráficas se utilizó bokeh. - https://bokeh.pydata.org/en/latest/

Carga de datos Pandas. - https://pandas.pydata.org/

Datos obtenidos de Ecuador en cifras. - http://www.ecuadorencifras.gob.ec/