
<img style="float: left;;" src='Figures/alinco.png' height="100"/></a>

# <center> <font color= #000047> Visualización con Numpy y Matplotlib</font> </center>



<img style="float: right; margin: 0px 0px 15px 15px;" src="https://matplotlib.org/_static/logo2.png" width="400px" height="400px" />

> La clase anterior nos introdujimos al grandísimo mundo de las librerías, y comenzamos con una de las librerías más importantes de Python: NumPy.

> Por si sola, NumPy es una de las librerías más potentes y versátiles para Python. Sin embargo, lo es aún más cuando la combinamos con otras librerías.

> Hoy estudiaremos la librería `matplotlib`, que nos provee numerosos y poderosos comandos para producir gráficos de alta calidad.

Referencias:
- https://matplotlib.org/
- https://towardsdatascience.com/data-science-with-python-intro-to-data-visualization-and-matplotlib-5f799b7c6d82
___

# 0. Motivación

Cuando un científico de datos trabaja, típicamente los datos que utiliza están guardados en archivos `.csv`, archivos de excel, bases de datos y otros tipos de formatos. 

Estos datos se deben cargar a Python dentro de alguno de los tipos de variables disponibles: NumPy `ndarray`, Pandas `DataFrame` (estos son los más comunes, y los estaremos estudiando la próxima clase).

Una vez tenemos los datos dentro de variables en Python, podemos proceder a graficarlos fácilmente.

Por otra parte, la visualización de datos es una parte muy importante del análisis de datos.

- Puedes usarla para explorar los datos gráficamente.

- Si ya hay un buen entendimiento de los datos, tendrás una mejor oportunidad de ganar intuición.

- Finalmente, si ya has visto algún patrón en los datos, puedes usar visualizaciones para compartir tus ideas con otras personas.
___

# 1. Conociendo matplotlib: gráficos de funciones

Antes de empezar a revisar distintos tipos gráficos para datos, vamos a comenzar con un tipo de gráfico muy básico, y al que estamos habituados desde la secundaria/preparatoria: **gráficos de funciones**.

Para empezar a trabajar con una librería, ¿qué tenemos que hacer?

In [None]:
# Importar el módulo pyplot de la librería matplotlib


### Graficando funciones seno y coseno:

In [None]:
# help de la función plt.plot()


Entonces, para graficar las funciones seno y coseno, necesitamos generar un vector de abscisas (x), y otro vector de ordenadas (y).

Acá es donde el papel de NumPy se vuelve relevante...

In [None]:
# Importar numpy


In [None]:
# help de la función np.linspace


Con lo anterior:

In [None]:
# Crear un vector x que vaya desde 0 hasta 10


In [None]:
# Evaluar las funciones sin y cos


In [None]:
# Graficar en un mismo gráfico


¿Qué opciones son útiles?

In [None]:
# plt.xlabel, plt.ylabel


In [None]:
# plt.legend


In [None]:
# plt.grid


Muy bien todo lo anterior. Sin embargo, a veces puede ser útil tener gráficos alineados, pero separados.

Graficar las funciones seno y coseno en dos gráficos separados pero alineados verticalmente:

___
# 2. Distintos gráficos para datos

## 2.1 Reglas básicas de visualización

Antes de empezar a revisar distintos tipos de gráficos, veremos algunas reglas básicas. Estas reglas nos ayudarán a realizar gráficos chidos e informativos, en lugar de gráficos confusos:

1. El primer paso es escoger el tipo de gráfico apropiado. Si te decantas por varias opciones, podrías tratar de compararlos y elegir el que mejor se adapte a lo que quieres mostrar.

2. Cuando elegimos nuestro tipo de gráfico, una de las cosas más importantes es etiquetar nuestro ejes. Si no lo hacemos, la gráfica no será suficientemente informativa. 

 - Si no hay ejes, podemos intentar revisar el código para ver de dónde vienen los datos, y si contamos con suerte, entenderemos el gráfico. Pero, ¿y si solo tenemos la imagen y no el código?, o peor aún, ¿qué tal si le mostramos este gráfico a un cliente que no tiene ni idea de como realizar gráficos en Python?

3. Podemos añadir un título para hacer nuestra gráfica más informativa (opcional).

4. Añadir etiquetas para diferentes líneas cuando sea necesario.

5. Añadir texto o una flecha para indicar puntos relevantes en los datos.

6. Siempre es bueno usar la creatividad con los tamaños, tipos y colores para hacer los gráficos de los datos más entretenidos e informativos.

## 2.2 Tipos de visualizaciones y ejemplos con matplotlib

Existen muchos tipos de visualizaciones y gráficos. Algunos de los más famosos de ellos son: gráfico de línea, gráfico de dispersión de puntos, histograma, diagrama de bigotes, gráfico de barras, y gráfico de pastel.

¿Cuál de todas ellas elegimos para una visualización correcta? Primero, tenemos que hacer un análisis exploratorio de datos. Una vez tengamos una idea de los datos, el tipo de los datos y algunas medidas estadísticas, será más facil elegir el tipo de gráfico correcto.

Bueno, eso lo veremos después y se perfeccionarán a medida que avancen en sus materias de maestría.

Veremos cada uno de los tipos de gráfico con un ejemplo.

### Gráfico de línea: 

Es el que ya vimos para hacer funciones. Es un tipo de gráfico que muestra información como una serie de puntos llamados `markers` y conectados por líneas rectas. En este tipo de gráfico, necesitamos que los datos estén ordenados en sus valores x.

Suele ser usado para visualizar tendencias de variables sobre intervalos de tiempo (series de tiempo).

In [None]:
# Datos de población en Bulgaria en el tiempo


In [None]:
# Gráfico de línea


### Dispersión de puntos:

Este tipo de gráfico muestra puntos individuales. No se conectan con líneas. Cada punto tiene su valor en `x` y su valor en `y`. 

Este tipo de gráfico suele ser útil para mostrar tendencias o correlaciones (comparando dos variables).

In [None]:
# Datos de temperatura y de cantidad de helados vendidos


In [None]:
# Dispersión de puntos


### Histograma: 

Es una representación precisa para distribuciones de datos numéricos.

El algoritmo para crear un histograma consta de ciertos pasos:
- Primero, se divide el rango total de valores en una serie de intervalos consecutivos y disjuntos (bins).
- Segundo, se cuenta cuantos valores caen dentro de cada intervalo.
- Se grafican las cantidades en cada intervalo.

In [None]:
# Números


In [None]:
# Histograma


In [None]:
# Ejemplo: histograma para una distribución normal


### Diagrama de caja:

Es otra manera de resumir la distribución de datos basado en cinco números: mínimo, primer cuartil, mediana, tercer cuartil, y máximo. Veamos qué son cada uno de ellos:

- El mínimo y el máximo creo que todos entendemos que son.

- La mediana es el valor que separa la mitad de los datos con valor más alto de la mitad de los datos con valor más bajo. 

 - Se calcula de la siguiente manera: ordena tus valores y encuentra el valor de en medio. En caso de que el número de valores sea par, tenemos dos números de en medio, y por tanto la mediana es el número obtenido por la suma de esos dos números dividida entre dos. Por ejemplo, si tenemos 1, 2, 5, 6, 8, 9, la mediana es (5 + 6) / 2 = 5,5.

- El primer cuartil es la mediana de los valores menores a la mediana. Por ejemplo, si tenemos los valores 1, 3, 4, 7, 8, 8, 9, el primer cuartil es la mediana de los valores 1, 3, 4, de manera que es 3.

- El tercer cuartil es la mediana de los valores mayores a la mediana. Por ejemplo, si tenemos los valores 1, 3, 4, 7, 8, 8, 9, el primer cuartil es la mediana de los valores 8, 8, 9, de manera que es 8.

- Otro estadístico que se grafica es el IQR (interquartile range). El IQR aproxima la cantidad de dispersión datos en el 50% de datos de en medio. La fórmula es tercer cuartil - primer cuartil.

- Este tipo de gráfico también nos permite identificar valores atípicos. Un valor atípico es aquel que yace fuera del patrón general de los datos. Se visualizan como círculos en el diagrama de bigote. Cuando tenemos valores atípicos, los valores mínimo y máximo se calculan sobre los valores que no son atípicos.

 - Hay varias maneras de identificar valores atípicos. Una regla común es decir que un valor es atípico si es menor a primer cuartil - 1.5 * IQR, o mayor a tercer cuartil + 1.5 * IQR.

Demasiada información, ¿no?

Veamos un ejemplo.

In [None]:
# Valores


In [None]:
# Diagrama de caja


¿Qué identificamos?

- La mediana es 7
- El primer cuartil es 6
- El tercer cuartil es 8
- El IQR es 2

### Diagrama de barras

Muy útil para representar datos categóricos. Cada barra tiene una altura que corresponde al valor que representa.

Es útil cuando queremos comparar diferentes categorías en cuanto a alguna métrica.

In [None]:
# Cantidad de búsquedas en google para lenguajes de programación en 2018
# 100 representa el tráfico anual de búsquedas más alto


In [None]:
# Diagrama de barras


### Dagrama de pastel:

Es un gráfico circular, dividido en tajadas para mostrar la proporción numérica. Son ampliamente utilizados en el mundo de los negocios.

Sin embargo, varios experos recomiendan evitarlos, argumentando que es difícil comparar las secciones de un diagrama de pastel. Por otra parte, es difícil comparar datos con distintos diagramas de pastel. En la mayoría de los casos, se pueden reemplazar por un diagrama de barras.

In [None]:
# Diagrama de pastel
