# Análisis de datos de gastos municipales con Pandas y Jupyter Notebooks

# Introducción

Este es el primero de varios talleres introductorios al procesamiento y limpieza de datos. En este estaremos usando como ambiente de trabajo a **Jupyter**, que permite crear documentos con código y prosa, además de almacenar resultados de las operaciones ejecutadas (cálculos, graficas, etc). Jupyter permite interactuar con varios lenguajes de programación, en este, usaremos **Python**, un lenguaje de programación bastante simple y poderoso, con acceso a una gran variedad de librerias para procesamiento de datos. Entre estas, está **Pandas**, una libreria que nos da acceso a estructuras de datos muy poderosas para manipular datos.

¡Comenzemos entonces! 

## Instalación

Para poder ejecutar este *Notebook*, necesitas tener instalado Python 3, el cual corre en todos los sistemas operativos actuales, sin embargo, para instalar las dependencias: Pandas y Jupyter.

### Modo Sencillo

Puedes leerte para mas detalles: [https://es.schoolofdata.org/2017/07/20/preparate-para-aprender-python-guia-de-instalacion-de-bibliotecas/)[es.schoolofdata.org/2017/07/20/preparate-para-aprender-python-guia-de-instalacion-de-bibliotecas/]

Recomiendo utilizar la distribución Anaconda https://www.continuum.io/downloads en su version para Python 3, esta incluye instalado Jupyter, Pandas, Numpy y Scipy, y mucho otro software útil. Sigue las instrucciones en la documentacion de Anaconda para configurar un ambiente de desarollo con Jupyter.
https://docs.continuum.io/anaconda/navigator/getting-started.html

Una vez instalado, prueba a seguir los paso de https://www.tutorialpython.com/modulos-python/ o tu tutorial de Python Favorito.



### "It's a Unix System, I know This!" - Modo Avanzado

Te recomiendo utilizar Python 3.6 o superior, instalar la version mas reciente posible de virtualenv y pip. Usa Git para obtener el codigo, crea un nuevo entorno de desarollo y ahi instala las dependencias necesarias. 


    ~/$ cd notebooks
    ~/notebooks/$ git clone https://github.com/tian2992/notebooks_dateros.git
    ~/notebooks/$ cd notebooks_dateros/
    ~/notebooks/notebooks_dateros/$ 
    ~/notebooks/notebooks_dateros/$ virtualenv venv/
    ~/notebooks/notebooks_dateros/$ source venv/bin/activate
    ~/notebooks/notebooks_dateros/$ pip install -r requirements.txt
    ~/notebooks/notebooks_dateros/$ cd 01-Intro
    ~/notebooks/notebooks_dateros/$ 7z e municipal_guatemala_2008-2011.7z
    ~/notebooks/notebooks_dateros/$ jupyter-notebook
    



# Primeros pasos

In [None]:
## En Jupyter Notebooks existen varios tipos de celdas, las celdas de código, como esta:
print(1+1)
print(5+4)
6+4

Y las celdas de texto, que se escriben en Markdown y son hechas para humanos. Pueden incluir **negritas**, *itálicas* Entre otros tipos de estilos. Tambien pueden incluirse imagenes o incluso interactivos. E incluso Mates como en $ \LaTeX $ con ecuaciones y todo...
$$
\begin{align} i\hbar\frac{\partial}{\partial t} \Psi(\mathbf{r},\,t) = \hat H \Psi = \left(-\frac{\hbar^2}{2m}\nabla^2 + V(\mathbf{r})\right)\Psi(\mathbf{r},\,t) \end{align}
$$

In [None]:
%pylab inline
import seaborn as sns
import pandas as pd
pd.set_option('precision', 5)

Con estos comandos, cargamos a nuestro entorno de trabajo las librerias necesarias.

Usemos la funcion de pandas ```read_csv``` para cargar los datos. Esto crea un ```DataFrame```, una unidad de datos en Pandas, que nos da mucha funcionalidad y tiene bastantes propiedades convenientes para el análisis. Probablemente esta operación tome un tiempo asi que sigamos avanzando, cuando esté lista, verás que el numero de la celda habrá sido actualizado.

In [None]:
muni_data = pd.read_csv("municipal_guatemala_2008-2011.zip", 
                        sep=";",
                        compression='zip',
                        error_bad_lines=False)

In [None]:
muni_data.head()

## DataFrames y más

Aqui podemos ver el dataframe que creamos.
En Pandas, los DataFrames son unidades básicas, junto con las Series.

Veamos una serie muy sencilla antes de pasar a evaluar ```muni_data```, el DataFrame que acabamos de crear. Crearemos una serie de numeros aleatorios, y usaremos funciones estadisticas para analizarlo.

In [None]:
serie_prueba_s = pd.Series(np.random.randn(5), name='prueba')

print(serie_prueba_s)

print(serie_prueba_s.describe())

serie_prueba_s.plot()

Con esto podemos ver ya unas propiedades muy interesantes. Las series están basadas en el concepto estadistico, pero incluyen un título (del eje), un índice (el cual identifica a los elementos) y el dato en sí, que puede ser numerico (float), string unicode (texto) u otro tipo de dato.

Las series estan basadas tambien en conceptos de vectores, asi que se pueden realizar operaciones vectoriales en las cuales implicitamente se alinean los indíces, esto es muy util por ejemplo para restar dos columnas, sin importar el tamaño de ambas, automaticamente Pandas unirá inteligentemente ambas series. Puedes tambien obtener elementos de las series por su valor de índice, o por un rango, usando la notación usual en Python. Como nota final, las Series comparten mucho del comportamiento de los NumPy Arrays, haciendolos instantaneamente compatibles con muchas librerias y recursos. https://pandas.pydata.org/pandas-docs/stable/dsintro.html#series

In [None]:
serie_prueba_d = pd.Series(np.random.randn(5), name='prueba 2')

print(serie_prueba_d)

print(serie_prueba_d[0:3]) # Solo los elementos del 0 al 3

# Esto funciona porque ambas series tienen indices en común.
# Si sumamos dos con tamaños distintos, los espacios vacios son marcados como NaN
serie_prueba_y = serie_prueba_d + (serie_prueba_s * 2)
print(serie_prueba_y)
print("La suma de la serie y es: {suma}".format(suma=serie_prueba_y.sum()))

Pasemos ahora a DataFrames, como nuestro muni_data DataFrame. Los DataFrames son estructuras bi-dimensionales de datos. Son muy usadas porque proveen una abstracción similar a una hoja de calculo o a una tabla de SQL. Los DataFrame tienen índices (etiquetas de fila) y columnas, ambos ejes deben encajar, y el resto será llenado de datos no validos.

Por ejemplo podemos unir ambas series y crear un DataFrame nuevo, usando un diccionario de Python, por ejemplo. Tambien podemos graficar los resultados.

In [None]:
prueba_dict = {
                        "col1": serie_prueba_s,
                        "col2": serie_prueba_d,
                        "col3": [1, 2, 3, 4, 0]
             }
prueba_data_frame = pd.DataFrame(prueba_dict)
print(prueba_data_frame)
# La operacion .sum() ahora retorna un DataFrame, pero Pandas sabe no combinar peras con manzanas.
print("La suma de cada columna es: \n{suma}".format(suma=prueba_data_frame.sum())) 
prueba_data_frame.plot()

Veamos ahora ya, nuestro DataFrame creado con los datos, muni_data.

In [None]:
#muni_data

In [None]:
# Una grafica bastante inutil, ¿porque?

muni_data.plot()

In [None]:
# Veamos los datos, limitamos a solo los primeros 5 filas.

muni_data.head(5)

In [None]:
## La columna 'APROBADO' se ve un poco sospechosa.
## Python toma a los numeros como números, no con una Q ni un punto (si no lo tiene) ni comas innecesarias. 
## Veamos mas a detalle.

muni_data['APROBADO'].head()

In [None]:
# Vamos a ignorar esto por un momento, pero los números de verdad son de tipo float

Veamos cuantas columnas son, podemos explorar un poco mas asi.

In [None]:
muni_data.columns

In [None]:
muni_data['MUNICIPIO'].unique()[:5] # Listame 5 municipios

In [None]:
print("Funcion 1: \n {func1} \n Funcion 2: \n {func2} \n Funcion 3: \n{func3}".format(
        func1=muni_data["FUNC1"].unique(), 
        func2=muni_data["FUNC2"].unique(),
        func3=muni_data["FUNC3"].unique()
        )
     )

Vamos a explorar un poco con indices y etiquetas:

In [None]:
index_geo_data = muni_data.set_index("DEPTO","MUNICIPIO").sort_index()

In [None]:
index_geo_data.loc[
                    ["GUATEMALA","ESCUINTLA","SACATEPEQUEZ"],
                    ['FUNC1','FUNC2','FUNC3','APROBADO','EJECUTADO']
                  ].head()

Ahora que podemos realizar selección basica, pensamos, que podemos hacer con estos datos, y nos enfrentamos a un problema...

In [None]:
muni_data['APROBADO'][3] * 2

*¡Rayos!* porque no puedo manipular estos datos así como los otros, y es porque son de tipo texto y no números.

In [None]:
# muni_data['APROBADO'].sum() ## No correr, falla...

Necesitamos crear una funcion para limpiar estos tipos de dato que son texto, para poderlos convertir a numeros de tipo punto flotante (decimales).

In [None]:
## Esto es una funcion en Python, con def definimos el nombre de esta funcion, 'clean_q'
## esta recibe un objeto de entrada.

def clean_q(input_object):
    from re import sub  ## importamos la función sub, que substituye utilizando patrones
    ## https://es.wikipedia.org/wiki/Expresión_regular
    
    ## NaN es un objeto especial que representa un valor numérico invalido, Not A Number.
    if input_object == NaN:
        return 0
    inp = unicode(input_object) # De objeto a un texto
    cleansed_q = sub(r'Q\.','', inp) # Remueve Q., el slash evita que . sea interpretado como un caracter especial
    cleansed_00 = sub(r'\.00', '', cleansed_q) # Igual aqui
    cleansed_comma = sub(',', '', cleansed_00)
    cleansed_dash = sub('-', '', cleansed_comma)
    cleansed_nonchar = sub(r'[^0-9]+', '', cleansed_dash)
    if cleansed_nonchar == '':
        return 0
    return cleansed_nonchar

In [None]:
presupuesto_aprobado = muni_data['APROBADO'].map(clean_q).astype(float)

In [None]:
presupuesto_aprobado.describe()

In [None]:
muni_data['EJECUTADO'].head()

In [None]:
muni_data['FUNC1'].str.upper().value_counts()

In [None]:
presupuesto_aprobado.plot()

Bueno, ahora ya tenemos estas series de datos convertidas. ¿como las volvemos a agregar al dataset? ¡Facil! lo volvemos a insertar al DataFrame original, sobreescribiendo esa columna.

In [None]:
for col in ('APROBADO', 'RETRASADO', 'EJECUTADO', 'PAGADO'):
    muni_data[col] = muni_data[col].map(clean_q).astype(float)

In [None]:
muni_data['APROBADO'].sum()

In [None]:
muni_data.head()

In [None]:
muni_data['ECON1'].unique()

Ahora si, ¡ya podemos agrupar y hacer indices bien!

In [None]:
index_geo_data = muni_data.set_index("DEPTO","MUNICIPIO").sort_index()

In [None]:
index_geo_data.head(40)

In [None]:
mi_muni_d = muni_data.set_index(["ANNO"],["DEPTO","MUNICIPIO"],["FUNC1","ECON1","ORIGEN1"]).sort_index()

In [None]:
mi_muni_d.head()

In [None]:
## Para obtener mas ayuda, ejecuta:
# help(mi_muni_d)

In [None]:
mi_muni_d.columns

In [None]:
mi_muni_d["DEPTO"].describe()

In [None]:
year_grouped = mi_muni_d.groupby("ANNO").sum()

In [None]:
year_grouped

In [None]:
year_dep_grouped = mi_muni_d.groupby(["ANNO","DEPTO"]).sum()
year_dep_grouped.head()

sns.set(style="whitegrid")

# Draw a nested barplot to show survival for class and sex
g = sns.factorplot( data=year_dep_grouped,
                   size=6, kind="bar", palette="muted")
# g.despine(left=True)
g.set_ylabels("cantidad")

In [None]:
year_dep_grouped.head()


## Contestando preguntas
Ahora ya podemos contestar algunas clases de preguntas agrupando estas entradas individuales de de datos.
¿Que tal el departamento que tiene mas gasto en Seguridad? ¿Los tipos de gasto mas elevados como suelen ser pagados?

In [None]:
year_grouped.plot()

In [None]:
year_dep_group = mi_muni_d.groupby(["DEPTO","ANNO"]).sum()

In [None]:
year_dep_group.unstack().head()

In [None]:
func_p = mi_muni_d.groupby(["FUNC1"]).sum()
func_dep = mi_muni_d.groupby(["FUNC1","DEPTO"]).sum()
func_p

In [None]:
func_dep_flat = func_dep.unstack()

In [None]:
func_dep_flat.head()

In [None]:
mi_muni_d.groupby(["DEPTO"]).sum()

In [None]:
func_p.plot(kind="barh", figsize=(8,6), linewidth=2.5, height=0.8)