[View in Colaboratory](https://colab.research.google.com/github/politicasydatos/curso_intensivo_estadistica/blob/master/5_Gr%C3%A1ficos_estad%C3%ADsticos.ipynb)

![texto alternativo](https://3.bp.blogspot.com/-O3yeEI3wWN4/Wpbw8NnGFaI/AAAAAAAAABg/ZwFgqtmiwDczgu2BGJ9Qkr9mhkuCK_oogCK4BGAYYCw/s1600/Logo%2Bbanner%2B%25285%2529.png)

# Curso intensivo de estadística en Python

Con [Norman Simón Rodríguez, MSc](https://politicasydatos.blogspot.com/p/acerca-de-mi.html).

## Lección 5: Gráficos estadísticos

En este curso vamos a hacer nuestras gráficas estadísticas usando [Pandas](https://pandas.pydata.org/pandas-docs/stable/visualization.html).
Pandas usa "bajo cuerda" la librería MatPlotLib, que es la librería básica de graficación estadística en Python.

In [0]:
import pandas as pd
import matplotlib.pyplot as plt

Vamos a importar también la librería Seaborn (no es necesaria, pero ayuda a que los gráficos queden más bonitos). Con este comando de Seaborn establecemos una estética general para todos nuestros gráficos:

In [0]:
import seaborn as sns
sns.set(style="white", font_scale=1.5)

### Gráfica de barras

Vamos a usar datos de los resultados de las elecciones presidenciales 2018 de Colombia, tomados de la página de la [Registraduría Nacional](https://wsr.registraduria.gov.co/?page=Elecciones_2018) (preconteo) para ilustrar cómo se hacen los diagramas de barras en Python. Importamos los datos desde la URL de nuestro repositorio de GitHub:

In [0]:
url_elecciones = 'https://raw.githubusercontent.com/politicasydatos/curso_intensivo_estadistica/master/datos/elecciones_presidenciales_2018.csv'
elecciones = pd.read_csv(url_elecciones)
elecciones = elecciones.set_index('candidato')
elecciones.head()

Y graficamos un diagrama de barras de la votación de *primera* vuelta con Pandas:

In [0]:
primera_vuelta = elecciones[ elecciones['vuelta'] == 1 ]
primera_vuelta_plot = primera_vuelta.plot.bar(y='votacion', legend=False)
plt.suptitle("Elecciones presidenciales (1a vuelta)")
plt.title("Fuente: Registraduría Nacional", fontsize=12)
plt.xlabel("Candidato")
plt.ylabel("Votos")
plt.show()

Y ahora un diagrama de barras agrupadas con los votos de las dos vueltas. Primero creamos una tabla de pivote para dejar los resultados de cada vuelta en su propia columna:

In [0]:
elecciones_pivote = elecciones.pivot(columns='vuelta', values='votacion') # El índice es candidato (el índice del DataFrame)
elecciones_pivote.head()

Y ahora usamos esta tabla de pivote para crear nuestro diagrama de barras agrupadas:

In [0]:
elecciones_plot = elecciones_pivote.plot.bar()
plt.suptitle("Elecciones presidenciales")
plt.title("Fuente: Registraduría Nacional", fontsize=12)
plt.xlabel("Candidato")
plt.ylabel("Votos")
plt.ticklabel_format(style='plain', axis='y') # Para eliminar la notación científica (https://stackoverflow.com/a/46735874)
plt.show()

### Diagrama de líneas

Vamos a importar nuestros datos (Fuente: [Banco de la República de Colombia, 2018](http://www.banrep.gov.co/es/-estadisticas)).

In [0]:
url_banrep = 'https://raw.githubusercontent.com/politicasydatos/curso_intensivo_estadistica/master/datos/salarios_ipc_banrep.csv'
banrep = pd.read_csv(url_banrep)
banrep = banrep.set_index('anio')
banrep.head()

Procedamos a hacer un gráfico de líneas que muestre la evolución del Índice de Precios al Consumidor (IPC) a lo largo del tiempo.

In [0]:
ipc_plot = banrep.plot(y='ipc_dic_2008')
plt.suptitle("Índice de Precios al Consumidor (diciembres)")
plt.title("Fuente: Banco de la República", fontsize=12)
plt.xlabel("Año")
plt.ticklabel_format(style='plain', useOffset=False, axis='x') # Para evitar el Offset (https://stackoverflow.com/a/28373421)
plt.ylabel("IPC (base diciembre de 2008)")
plt.show()

Y añadamos una serie adicional para ver la evolución del salario mínimo legal mensual:

In [0]:
ipc_plot = banrep.plot(y='ipc_dic_2008', marker='o', label="IPC")
salmin_plot = banrep.plot(y='salmin', secondary_y=True, ax=ipc_plot, marker='o', label="Salario mínimo")
ipc_plot.set_xlabel('Año')
ipc_plot.set_ylabel('IPC (base diciembre de 2008)')
salmin_plot.set_ylabel('Salario mínimo mensual (COP)')
plt.suptitle("Índice de precios y salario mínimo")
plt.title("Fuente: Banco de la República", fontsize=12)
plt.ticklabel_format(style='plain', useOffset=False, axis='x')
plt.show()

# Gráficas circulares

Usaremos los datos publicados por [El Espectador](https://www.elespectador.com/elecciones-2018/noticias/politica/asi-quedo-conformado-el-congreso-2018-2022-articulo-743849) de la conformación de las bancadas en el Senado (2018-2022) para hacer un diagrama circular o de "torta".

In [0]:
url_bancadas = 'https://raw.githubusercontent.com/politicasydatos/curso_intensivo_estadistica/master/datos/bancadas_senado_2018.csv'
bancadas = pd.read_csv(url_bancadas)
bancadas = bancadas.set_index('partido')
bancadas

Creando el diagrama circular:

In [0]:
bancadas_plot = bancadas.plot.pie(y='senadores', legend=False)
plt.axis('equal') # Para que quede "bien" circular
plt.ylabel("")
plt.show()

Podemos usar una opción llamada `explode` para trtar de darle al gráfico una apariencia más llamativa:

In [0]:
import numpy as np
magnitudes = np.linspace(0,0.3,len(bancadas),endpoint=False)

bancadas_plot = bancadas.plot.pie(y='senadores', legend=False, explode=magnitudes)
plt.axis('equal')
plt.ylabel("")
plt.show()

# Diagramas de dispersión

asdasda

# Histogramas

Los histogramas son fundamentales para 