# Manipulación y visualización de datos (básicas)

A lo largo de este Jupyter Notebook explicaré algunos básicos sobre manipulación y visualización de datos con Python. Los tópicos específicos a cubrir en este cuaderno interactivo son los siguientes:

> - Formatos de datos
> - Cargar una base de datos
> - Extraer datos de una base
> - Estadísticos descriptivos
> - Visualizaciones básicas

## Repaso rápido a formatos de datos...

Puedes consultar la siguiente referencia: <https://5stardata.info/es/>

## Cargando una base de datos

Para cargar una base de datos, utilizaremos un paquete de Python que resulta muy útil y eficiente, llamado [Pandas](https://pandas.pydata.org). Dado que a los datos podemos encontrarlos en la misma ruta que este cuaderno interactivo, bastará sólo usar la función `.read_excel()` de Pandas.

In [1]:
import pandas

nombre_de_archivo = 'puntosconectividadleonjun2019.xlsx' 
dataframe = pandas.read_excel(nombre_de_archivo)

AttributeError: module 'pandas' has no attribute 'read_excel'

Podemos imprimir toda la base de datos llamando a la variable `dataframe`, o acceder sólo al inicio (o final) de los datos con `.head()` (o `.tail()`).

In [None]:
dataframe.head()

Tanto `.head()` como `.head()` de manera estándar retorna 5 elementos de la tabla de datos, sin embargo pueden recibir como argumento un número entero para devolver esa cantidad de elementos.

#### Ejercicio:

Haz que las funciones ya mecnionadas devuelvan una cantidad distinta de elementos.

## Extraer datos de una base

Para extraer las cabeceras de una tabla de datos, podemos convertir a lista una tabla misma:

In [None]:
cabeceras = list(dataframe)
cabeceras

Si quisiéramos extraer una columna completa de una tabla de datos, podemos utilizar la cabecera como sigue:

In [None]:
poblacion = dataframe[[ 'POBLACION' ]]
poblacion

De aquí podemos observar que la extracción de objetos conserva la estructura de la misma tabla de datos, por lo que para transofrmar los valores a formato de lista, utilizamos el atributo `.values`.

Una vez transformado en lista podemos utilizar indexación como vimos previamente.

In [None]:
poblacion.values

Puedes filtrar datos utilizando condicionales dentro de los corchetes de selección. 

#### Ejemplo:

Si quisiéramos filtrar a los puntos de conectividad que benefician a una población de más de 2000 personas, hacemos:

In [None]:
dataframe[dataframe['POBLACION'] > 2000]

#### Ejercicio:

Filtra elementos de acuerdo a la zona, específicamente si es `'rural'`.

## Estadísticos descriptivos

De manera muy general, Pandas ya puede entregarnos un resumen estadístico descriptivo utilizando funciones como `.count()` o `.describe()`. 

Dichas descripciones contienen elementos estadísticos como la media, mímimos, máximos, [percentiles](https://es.wikipedia.org/wiki/Percentil) y [desviación estándar](https://es.wikipedia.org/wiki/Desviación_típica).

In [None]:
dataframe.count()

In [None]:
dataframe.describe()

## Visualizaciones básicas

Otro paquete que resulta muy útil, para gráficos estadísticos descriptivos, es [Seaborn](https://seaborn.pydata.org).

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline
sns.set(style="darkgrid")

In [None]:
plt.figure(figsize=(15, 20))
sns.barplot(x="POBLACION", y="PUNTO_DE_CONEXION", data=dataframe,
            label="Población beneficiada", color="b")

Las visualizaciones y su utilidad dependen un poco de los datos, en este caso, dado que tenemos geo-referenciación, valdría la pena explorar los datos utilizando mapas. 🗺👀

Sin embargo, te comparto el siguiente material para que puedas conocer más visualizaciones que resultan útiles:
- [La galería de gráficos de Seaborn](https://seaborn.pydata.org/examples/index.html)
- [La galería de gráficos en Python](https://python-graph-gallery.com)