# Manejo y Visualización de Datos con Python

Para este trabajo se utilizo

 - **pandas**: Un módulo que proporciona estructuras de datos y herramientas de análisis de datos de alto rendimiento y fácil de usar.

## pandas

pandas es un paquete de Python que proporciona estructuras de datos rápidas, flexibles y expresivas diseñadas para trabajar con datos relacionales o etiquetados. Es un componente fundamental de alto nivel para hacer un análisis práctico y real de datos en Python.

In [1]:
import pandas as pd

Los datos que trabajaremos son del sitio web climáticos NOAA

In [2]:
# direccion donde se encuetra los datos
data_dir = './assets/datosPobreza.csv'

¿Cómo hacemos para que este conjunto de datos se convierta en una estructura de datos pandas?
pandas hace que sea muy fácil importar datos en varios formatos con su conjunto de funciones de importación:

In [3]:
# esta es un arreglo comprimido que contiene formatos que puede leer pandas
[formatos for formatos in dir(pd) if formatos.startswith('read_')]

['read_clipboard',
 'read_csv',
 'read_excel',
 'read_feather',
 'read_fwf',
 'read_gbq',
 'read_hdf',
 'read_html',
 'read_json',
 'read_msgpack',
 'read_parquet',
 'read_pickle',
 'read_sas',
 'read_sql',
 'read_sql_query',
 'read_sql_table',
 'read_stata',
 'read_table']

Nuestro conjunto de datos está delimitado por comas, por lo que usaremos `read_csv`. Afortunadamente, podemos importar los datos directamente desde su URL, en lugar de tener que guardarlos en un disco local.

In [4]:
# guardamos nuestra tabla en una variable data, despues de haver sido leida por pandas
raw_data = pd.read_csv(
    data_dir, # direccion donde esta nuestra data, usamos la vaiable que contiene la direccion
    sep=';', # separador de datos para ser leidos por pandas
    decimal="," # el separador, o sino nuestros numeros seran tratados como strings
)

`read_csv` devuelve un `DataFrame`, una estructura tabular de datos proporcionada por pandas.

In [5]:
type(raw_data)

pandas.core.frame.DataFrame

Un `DataFrame` está dotado de varios atributos y métodos útiles para explorar los datos.

In [6]:
raw_data # nos debuelve toda nuestra tabla

Unnamed: 0,Período,Anios,Quito,Quito.1,Quito.2,Guayaquil,Guayaquil.1,Guayaquil.2,Cuenca,Cuenca.1,Cuenca.2,Machala,Machala.1,Machala.2,Ambato,Ambato.1,Ambato.2
0,,,,,,,,,,,,,,,,,
1,Marzo,2008.0,10.45,3.32,1.76,22.06,6.38,2.87,11.68,3.74,1.88,20.76,6.43,2.82,21.2,6.38,3.11
2,Marzo,2009.0,11.16,3.71,1.97,24.28,7.5,3.26,10.91,3.31,1.51,20.76,6.32,2.94,17.55,5.81,2.99
3,Marzo,2010.0,13.01,4.34,2.31,20.8,5.82,2.37,13.78,3.8,1.6,15.54,4.2,1.77,11.63,3.47,1.47
4,Marzo,2011.0,10.33,3.34,1.81,19.21,4.99,1.99,12.39,4.13,2.2,14.76,4.07,1.62,10.58,2.68,1.02
5,Marzo,2012.0,8.97,3.29,1.59,11.04,2.75,1.04,9.72,2.92,1.33,9.51,1.91,0.62,8.04,1.97,0.76
6,Marzo,2013.0,10.85,3.48,1.56,12.77,3.58,1.6,9.17,2.47,1.01,11.98,2.48,0.76,10.54,3.71,2.01
7,Marzo,2014.0,8.92,2.78,1.39,11.69,3.07,1.2,4.67,1.65,0.87,13.71,3.84,1.54,12.81,3.15,1.31
8,Marzo,2015.0,7.87,2.59,1.3,7.69,1.84,0.68,5.32,1.24,0.49,15.09,4.2,1.81,8.42,2.9,1.24
9,Marzo,2016.0,7.98,2.63,1.34,8.67,2.52,0.97,7.83,2.55,1.17,13.77,3.88,1.76,7.77,2.49,1.23


In [7]:
raw_data.head()

Unnamed: 0,Período,Anios,Quito,Quito.1,Quito.2,Guayaquil,Guayaquil.1,Guayaquil.2,Cuenca,Cuenca.1,Cuenca.2,Machala,Machala.1,Machala.2,Ambato,Ambato.1,Ambato.2
0,,,,,,,,,,,,,,,,,
1,Marzo,2008.0,10.45,3.32,1.76,22.06,6.38,2.87,11.68,3.74,1.88,20.76,6.43,2.82,21.2,6.38,3.11
2,Marzo,2009.0,11.16,3.71,1.97,24.28,7.5,3.26,10.91,3.31,1.51,20.76,6.32,2.94,17.55,5.81,2.99
3,Marzo,2010.0,13.01,4.34,2.31,20.8,5.82,2.37,13.78,3.8,1.6,15.54,4.2,1.77,11.63,3.47,1.47
4,Marzo,2011.0,10.33,3.34,1.81,19.21,4.99,1.99,12.39,4.13,2.2,14.76,4.07,1.62,10.58,2.68,1.02


Con la funcion `head()` sobre nuestro `DataFrame` podemos mostrar los primeras filas de nuestra data, para no presentar todas las filas. 

In [8]:
raw_data = raw_data[1:]

Con la funcion `[1:]` eliminamos la primera fila, ya que no son parte de los datos que usaremos

In [9]:
raw_data.shape  # numeros de campos de nuestra data

(10, 17)

Un `DataFrame` se compone de dos componentes principales; 
 - Los datos mismos, que se pueden extraer a través del atributo de valores:

In [10]:
raw_data.values

array([['Marzo', 2008.0, 10.45, 3.32, 1.76, 22.06, 6.38, 2.87, 11.68, 3.74,
        1.88, 20.76, 6.43, 2.82, 21.2, 6.38, 3.11],
       ['Marzo', 2009.0, 11.16, 3.71, 1.97, 24.28, 7.5, 3.26, 10.91, 3.31,
        1.51, 20.76, 6.32, 2.94, 17.55, 5.81, 2.99],
       ['Marzo', 2010.0, 13.01, 4.34, 2.31, 20.8, 5.82, 2.37, 13.78, 3.8,
        1.6, 15.54, 4.2, 1.77, 11.63, 3.47, 1.47],
       ['Marzo', 2011.0, 10.33, 3.34, 1.81, 19.21, 4.99, 1.99, 12.39, 4.13,
        2.2, 14.76, 4.07, 1.62, 10.58, 2.68, 1.02],
       ['Marzo', 2012.0, 8.97, 3.29, 1.59, 11.04, 2.75, 1.04, 9.72, 2.92,
        1.33, 9.51, 1.91, 0.62, 8.04, 1.97, 0.76],
       ['Marzo', 2013.0, 10.85, 3.48, 1.56, 12.77, 3.58, 1.6, 9.17, 2.47,
        1.01, 11.98, 2.48, 0.76, 10.54, 3.71, 2.01],
       ['Marzo', 2014.0, 8.92, 2.78, 1.39, 11.69, 3.07, 1.2, 4.67, 1.65,
        0.87, 13.71, 3.84, 1.54, 12.81, 3.15, 1.31],
       ['Marzo', 2015.0, 7.87, 2.59, 1.3, 7.69, 1.84, 0.68, 5.32, 1.24,
        0.49, 15.09, 4.2, 1.81, 8.42, 2.9

 - Conjunto de índices, que son esencialmente etiquetas para las filas y columnas del DataFrame.

In [11]:
raw_data.index

RangeIndex(start=1, stop=11, step=1)

In [12]:
raw_data.columns

Index(['Período', 'Anios', 'Quito', 'Quito.1', 'Quito.2', 'Guayaquil',
       'Guayaquil.1', 'Guayaquil.2', 'Cuenca', 'Cuenca.1', 'Cuenca.2',
       'Machala', 'Machala.1', 'Machala.2', 'Ambato', 'Ambato.1', 'Ambato.2'],
      dtype='object')

Pero, un `índice` es más que un conjunto de etiquetas. Es importante destacar que asegura la **alineación de datos** cuando se agregan datos o se combinan estructuras de datos.

De hecho, podemos especificar un índice más apropiado para nuestros datos. El campo Año aquí es un índice único para los valores de análisis correspondientes.

`set_index` nos permite convertir cualquier columna (o matriz externa) que elijamos en el índice de fila.

In [13]:
temp = raw_data.set_index('Anios')
temp.head()

Unnamed: 0_level_0,Período,Quito,Quito.1,Quito.2,Guayaquil,Guayaquil.1,Guayaquil.2,Cuenca,Cuenca.1,Cuenca.2,Machala,Machala.1,Machala.2,Ambato,Ambato.1,Ambato.2
Anios,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
2008.0,Marzo,10.45,3.32,1.76,22.06,6.38,2.87,11.68,3.74,1.88,20.76,6.43,2.82,21.2,6.38,3.11
2009.0,Marzo,11.16,3.71,1.97,24.28,7.5,3.26,10.91,3.31,1.51,20.76,6.32,2.94,17.55,5.81,2.99
2010.0,Marzo,13.01,4.34,2.31,20.8,5.82,2.37,13.78,3.8,1.6,15.54,4.2,1.77,11.63,3.47,1.47
2011.0,Marzo,10.33,3.34,1.81,19.21,4.99,1.99,12.39,4.13,2.2,14.76,4.07,1.62,10.58,2.68,1.02
2012.0,Marzo,8.97,3.29,1.59,11.04,2.75,1.04,9.72,2.92,1.33,9.51,1.91,0.62,8.04,1.97,0.76


## Data
Para nuestra tabla agruparemos los datos de Quito para Repesentar nuestras graficas

In [14]:
data = raw_data.drop(['Período', 'Guayaquil', 'Guayaquil.1', 'Guayaquil.2', 'Cuenca', 'Cuenca.1', 'Cuenca.2', 'Machala', 'Machala.1', 'Machala.2', 'Ambato', 'Ambato.1', 'Ambato.2'], axis=1)
data.head()

Unnamed: 0,Anios,Quito,Quito.1,Quito.2
1,2008.0,10.45,3.32,1.76
2,2009.0,11.16,3.71,1.97
3,2010.0,13.01,4.34,2.31
4,2011.0,10.33,3.34,1.81
5,2012.0,8.97,3.29,1.59


Cambiaremos los nombres de las columnas de nuestra data para ver lo que representaremos

In [15]:
data.columns = ['Anios', 'Incidencia', 'Brecha', 'Severidad']
data.head()

Unnamed: 0,Anios,Incidencia,Brecha,Severidad
1,2008.0,10.45,3.32,1.76
2,2009.0,11.16,3.71,1.97
3,2010.0,13.01,4.34,2.31
4,2011.0,10.33,3.34,1.81
5,2012.0,8.97,3.29,1.59


Para Las graficas añadiremos nuevas columnas a nuestra data

In [16]:
data.loc['total'] = data.sum()
data['Anios']['total']='NaN'
data

Unnamed: 0,Anios,Incidencia,Brecha,Severidad
1,2008.0,10.45,3.32,1.76
2,2009.0,11.16,3.71,1.97
3,2010.0,13.01,4.34,2.31
4,2011.0,10.33,3.34,1.81
5,2012.0,8.97,3.29,1.59
6,2013.0,10.85,3.48,1.56
7,2014.0,8.92,2.78,1.39
8,2015.0,7.87,2.59,1.3
9,2016.0,7.98,2.63,1.34
10,2017.0,7.35,2.4,1.23


### ¿Qué es incidencia de la pobreza?
Número de personas pobres expresado como porcentaje del total de la población en un determinado año. Se define como "pobres" a aquellas personas que pertenecen a hogares cuyo consumo per cápita, en un período determinado, es inferior al valor de la línea de pobreza.
### ¿Qué es la brecha de la pobreza?
La línea de pobreza es el equivalente monetario del costo de una canasta básica de bienes y servicios. La brecha de la pobreza refleja cuan pobres son los pobres y, por tanto, proporciona una idea de la profundidad de las carencias de ingreso o consumo que definen una situación de pobreza.
### ¿Qué es la severidad de la pobreza?
P es un promedio (sobre la población total, n) de las distancias que separan a individuos u hogares de la línea de pobreza, ponderado por un exponente . El valor del exponente permite que la misma fórmula dé como resultado la incidencia, brecha y severidad de la pobreza como casos especiales de la medida.

----------

 ## Trazado en Python
 
 - **Bokeh**: Es una biblioteca de visualización interactiva de Python con gráficos novedosos.

Al usar la interfaz bokeh.plotting, necesitamos importar:

 - Use la función de `figure` para crear nuevos objetos de trazado para trabajar.
 - Llame a las funciones `output_file`, `output_notebook` para indicar a Bokeh cómo mostrar el resultado.
 - Ejecute `show` y `save`  para mostrar o guardar gráficas y diseños

In [17]:
from bokeh.io import show
from bokeh.plotting import figure
from bokeh.models import ColumnDataSource

Importamos `gridplot` - para presentar varias graficas en una

In [18]:
from bokeh.layouts import gridplot

En este caso, estamos en `jupyter notebook`, así que llame a `output_notebook()`. Solo debemos llamar esto una vez, y todas las llamadas subsecuentes para mostrar () se mostrarán en línea en el cuaderno.

In [19]:
from bokeh.io import output_notebook

In [20]:
output_notebook()

In [33]:
# creamos un nuevo grafico con valores por defecto
p = figure(
    plot_width=800, # ancho de nuestra grafica
    plot_height=200, # el alto de nuestra grafica
    tools='' # para que no se muestren las opciones al costado de nuestra grafica
)

# le decimos a nuestra grafica que va a ser circulos y le pasamos la data que queremos graficar
p.line(
    x=data.Anios, y=data.Incidencia # relacion datos x e y 
)

show(p) # mostramos nuestra grafica

----

In [34]:
plot = figure(plot_width=800, plot_height=300, tools='')
plot.vbar(x=data.Anios, width=0.5, bottom=0, top=data.Incidencia, color="#CAB2D6")
show(plot)

-----

Creamos un una variable contiene los parametros de nuestra grafica final

In [27]:
options = dict(
    plot_width=300, plot_height=250, # Tamaño
    tools='' # Herramientas de bokeh adicionales
)

Creamos un objeto de figura y establecemos su tamaño, rango, y le damos un título

In [28]:
graph1 = figure(
    title='Incidencia', 
    **options
)
graph2 = figure(title='Brecha', **options)
graph3 = figure(title='Severidad', **options)

In [32]:
graph1.vbar(x=data.Anios, top=data.Incidencia, width=0.7, line_color="white", color="#f4d341")
graph2.vbar(x=data.Anios, top=data.Brecha, width=0.7, line_color="white", color="#42f4bf")
graph3.vbar(x=data.Anios, top=data.Severidad, width=0.7, line_color="white", color="#f44171")


# Creamos una nueva figura que esta compuesta por las dos figuras creadas anteriormente
graph = gridplot([[graph1, graph2, graph3]])

# Mostramos los resultados
show(graph)