# Clase 2: Matplotlib

O más bien dicho: como graficar utilizando Python y no morir en el intento

- Matplotlib surge como una librería para hacer gráficos estilo MATLAB el 2003
    - Pertenece al ecosistema de computación científica de SciPy [link](https://www.scipy.org/)
    - Código abierto, licencia Estilo BSD


- Principalmente los gráficos son en 2D, pero incluye una interfaz rudimentaria para generar gráficos 3D.

<center><img src="https://drive.google.com/uc?id=1SNPE4kGtcm0-5Azyy6CdJmtKTcddVgAb"> <img src="https://drive.google.com/uc?id=1gQKF970QYOH5tBgPkIxnYSPPlpEm839Z"> <img src="https://drive.google.com/uc?id=10TQoGXQ3RCLBp4rh2LQ42-CCKNbst-vM"></center>

## Un ejemplo práctico del uso de matplotlib (mostrando sus potencialidades)

La imagen de un agujero negro captado por múltiples telescopios y procesado con matplotlib [(Enlace al repositorio de código en github)](https://github.com/achael/eht-imaging):

<img src="https://drive.google.com/uc?id=1JMwFp4mozxyPLo-2UdyOT_3CTcqE7tUV">

Esto fue posible gracias a la investigación de la Dr. Katie Boumann y el equipo involucrado en el desarrollo de la librería [(Charla Ted relacionada)](https://www.youtube.com/watch?v=BIvezCVcsYs)

<img src="https://drive.google.com/uc?id=1mIo9gSP_wbfL3IUcLHrTxBg7HgswRc2Y">

# ¿Cómo empezamos a trabajar con matplotlib?

En este caso, la recomendación va por instalar anaconda [(link)](https://www.anaconda.com/products/individual), la cual viene con un conjunto de librerías preinstaladas para computación científica y Data Science. Con esto la instalación y/o actualización de esta librería puede realizar con cualquiera de estos dos simples comandos:

1.- Utilizando el gestor de paquetes de anaconda
```bash
conda install matplotlib
```
2.- Utilizando el gestor de paquetes de python (pip)
```bash
pip install matplotlib
```

**Nota:** En otros entornos de computación en la nube (por ejemplo google colab), matplotlib y todo el stack de scipy viene preinstalado.

Una vez instalado, para poder empezar a graficar necesitamos importar la librería, específicamente el módulo `pyplot` y luego activar el **backend** de jupyter, utilizando los siguientes comandos en una celda:

```python
import matplotlib.pyplot as plt # Este es el "alias" tradicional para matplotlib
%matplotlib inline # Este activa el backend para jupyter, mostrando los gráficos en los resultados de las celdas
```

# ¿Qué es el backend?

Para dar respuesta a esto, vamos a analizar los componentes de matplotlib, los cuales se dividen en tres capas:

<center><img src="https://drive.google.com/uc?id=1ida6zgYM4kl19AzAqCQV17J0qtG-lARA"></center>

## 1.- Capa del Backend (Backend Layer)

El backend corresponde al componente donde se va a generar la imagen, y por consiguiente nos permite renderizar las instrucciones que nosotros programamos mediante python. Existen múltiples backend, los cual permiten exportar las imágenes generadas en distintos formatos (PNG, JPG, PDF, entre otros). Específicamente, el backend está compuesto por tres elementos:

- FigureCanvas: Área donde el gráfico se va a dibujar
- Renderer: La herramienta utilizada para dibujar en FigureCanvas
- Event: Maneja entradas provenientes de los usuarios (Clicks de mouse, teclas presionadas en el teclado, etc.)

Una analogía para cada uno de estos componentes corresponde a: 

<center><h3><i>"FigureCanvas es nuestro papel, Render es nuestro pincel, Event son instrucciones de alguien sobre que dibujar"</h3></i></center>

## 2.- Capa del artista (Artist Layer)

La idea detrás de la capa del artista, es controlar todos los posibles elementos existentes en las figuras. Cada elemento existente va a ser un objeto de python con sus posibles propiedades, y objetos hijos. Por lo mismo, la capa del artista se le conoce como la **la interfaz de Orientación de Objetos**. 
- Cada elemento del gráfico es un elemento artista, el cual puede estar compuesto por varios artistas a su vez. Ejemplo de esto se presentan en las siguientes figuras:

<center><img src="https://drive.google.com/uc?id=1e8n4BcbEmvlIHMy2T8cBiLINfmMNomwe"></center>

## 3.- Capa de Scripting (Scripting Layer)

Esta corresponde a la interfaz más sencilla para realizar gráficos de matplotlib. La idea es graficar lo más parecido a MATLAB, donde con pocas líneas de código se automatiza todo el proceso de la capa del artista. Utilizando esta capa de scripting, las pocas líneas de código son capaces de generar todos los artistas y la jerarquía existente entre ellos de forma sencilla, e inclusive permite rescatar un artista específico para hacer modificaciones si es que corresponde. Finalmente, para poder utilizar esta capa de scripting simplemente tenemos que llamar a `pyplot` (o en su defecto, el alias `plt`)

Veamos un ejemplo de graficar con la capa de artista, versus graficar con la capa de scripting:


In [None]:
import matplotlib.pyplot as plt #Importamos la libreria

#Importamos pandas y numpy para aprovechar las capacidades númericas y de manejo de datos de ambas librerias
import pandas as pd 
import numpy as np

In [None]:
%matplotlib inline

Utilizando `numpy`, vamos a genero un arreglo con $20000$  puntos aleatorios obtenidos de una distribución normal y lo vamos a guardar en la variable `x`

In [None]:
x = np.random.randn(20000)

### Forma con la capa Artista

In [None]:
#Instanciamos el Artista "Figura"
fig = plt.figure()

#Generamos un eje de la figura, especificamente se genera un eje (Axis), 
#con 1 fila y 1 columna
ax = fig.add_subplot(111)

#Ocupamos el Artista ax, para pintar un histograma con 100 bins
ax.hist(x, 100)

#Añadimos el titulo al eje ax
ax.set_title('distribución Normal')

#Mostramos la figura
plt.show()

### Forma con la capa Scripting

In [None]:
#llamamos a plt.hist, basicamente instanciamos un histograma, 
#e implicitamente, se genera internamente un eje 
plt.hist(x, 100)

#A dicho eje, le añadimos el titulo
plt.title('Distribución Normal')

#Mostramos la figura
plt.show()

# Anatomía de un gráfico de matplotlib:

Cada uno de estos elementos es un artista, el cual podemos modificar según nuestras necesidades.
<center><img src="https://drive.google.com/uc?id=1jCkFxwUeJex8n7DoWN9EH6OXpgsOhqCV"></center>

<hr>
Lecturas adicionales:

- [Partes de una figura](https://matplotlib.org/faq/usage_faq.html#parts-of-a-figure)
- [La arquitectura de Matplotlib](https://www.aosabook.org/en/matplotlib.html)


# Gráficos básicos con matplotlib: Diagramas de líneas (Line plots)

Realicemos un "hola mundo", las primeras líneas necesarias para generar un gráfico de línea: 

```python
plt.plot(x,y,*args) # Generamos un gráfico
plt.show() # Imprimimos el gráfico por pantalla
```

La estructura que utiliza la capa de scripting tiene dos elementos principales: la entrada `x` e `y`. Específicamente ambas variables deben ser arreglos unidimensionales detallando claramente: los valores para cada par $(x,y)$. Por lo mismo las dimensiones de ambos arreglos tiene que ser iguales, de lo contrario se va a levantar un `exception` debido a la diferencia de largo de arreglos.

Finalmente, `*args` hace mención a que dicha función `plot`, recibe más parámetros los cuales pueden modificar el comportamiento de lo que se está graficando. Si se omiten estos parámetros y si solo se detalla los valores de `x` e `y`, entonces matplotlib va a generar un gráfico de línea.

[Documentación del método plot](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.plot.html)

Ejemplo:


In [None]:
#Definimos el arreglo a gráficar
arr = [1,2,3,4,5]
#Ocupamos el método plot
plt.plot(arr,arr)
plt.show()

# Ejercicio 1

Grafiquemos una señal sinusoidal, en este caso nuestros valores de $x$ va a estar definido como:
$$x \in [0,10]$$.

Y la variable $y$ se define como:

$$y = sin(x)$$

utilizando matplotlib y numpy genere dicho gráfico

¿Cómo podemos obtener una curva más suave?


In [None]:
#Definimos el arreglo a gráficar
x = ... 
y = ... 
#Ocupamos el método plot
plt.plot(...,...) 
plt.show()

# Fin Ejercicio 1

# Graficar múltiples datos
Cuando queremos graficar múltiples datos, por ejemplo: "hacer múltiples líneas en el mismo eje", podemos utilizar la siguiente sintaxis:

```python
plt.plot(x,y,*args) # Generamos Línea 1
plt.plot(x,y,*args) # Generamos Línea 2
...
plt.plot(x,y,*args) # Generamos Línea N

plt.show() # Imprimimos el gráfico por pantalla
```

Si nosotros llamamos múltiples veces instrucciones para graficar, el comportamiento que tomara matplotlib es graficar en la misma figura hasta que nosotros liberemos el backend. 

Métodos que liberan el backend:

- plt.show(): Mostrar la figura
- plt.close(): Cerrar la figura, limpiando el backend

**Nota:** Al momento de utilizar el jupyter magic `%matplotlib inline`, al final de cada ejecución de celda se ejecutara una liberación del backend.

Ejemplo de graficar múltiples líneas:


In [None]:
x = [1,2,3,4,5] #eje X
y1 = np.random.randn(5) #y1, obtenemos 5 números aleatorios
y2 = y1 + 1 # Vamos sumando 1 por cada línea que pintamos
y3 = y2 + 1
y4 = y3 + 1

#Ocupamos el método plot
plt.plot(x,y1) #Línea 1
plt.plot(x,y2) #Línea 2
plt.plot(x,y3) #Línea 3
plt.plot(x,y4) #Línea 4

plt.show()

## Modificando las propiedades de un gráfico: Añadiendo una leyenda

Una forma básica para añadir la leyenda a nuestra visualización, corresponde a utilizar el método plt.legend(). Como argumento, este método recibe un arreglo con los nombres para cada uno de los elementos graficados (en este caso, las líneas).


In [None]:
x = [1,2,3,4,5] 
y1 = np.random.randn(5) 
y2 = y1 + 1 
y3 = y2 + 1
y4 = y3 + 1
plt.plot(x,y1) 
plt.plot(x,y2) 
plt.plot(x,y3) 
plt.plot(x,y4) 

#Añadimos 4 Lineas a la legenda, debido a que estamos gráficando las 4 líneas
plt.legend(["Línea 1", "Línea 2", "Línea 3", "Línea 4"])
plt.show()

Una forma alternativa, y detallada como una buena práctica por los desarrolladores de matplotlib, corresponde a asignarle una etiqueta a cada una de las líneas, para luego simplemente llamar al método legend. Este al no recibir ningún parámetro, va a buscar dentro de cada artista relacionado a la línea, el parámetro `label`

In [None]:
x = [1,2,3,4,5] 
y1 = np.random.randn(5) 
y2 = y1 + 1 
y3 = y2 + 1
y4 = y3 + 1
plt.plot(x,y1, label='Línea 1') 
plt.plot(x,y2, label='Línea 2') 
plt.plot(x,y3, label='Línea 3') 
plt.plot(x,y4, label='Línea 4') 

plt.legend()
plt.show()

## Modificando las propiedades de un gráfico: Añadiendo un título

Para añadir un título a nuestro gráfico, nosotros podemos utilizar el método `plt.title()`. En este caso, dicho método recibe como argumento un `String` el cual se va a pintar en la zona superior del gráfico. Recibe más parámetros los cuales pueden ver en la [documentación](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.title.html). Cabe detallar, es capaz de mostrar [**LaTeX**](https://es.wikipedia.org/wiki/LaTeX).


In [None]:
x = [1,2,3,4,5] 
y1 = np.random.randn(5) 
y2 = y1 + 1 
y3 = y2 + 1
y4 = y3 + 1
plt.plot(x,y1, label='Línea 1') 
plt.plot(x,y2, label='Línea 2') 
plt.plot(x,y3, label='Línea 3') 
plt.plot(x,y4, label='Línea 4') 

plt.legend()
plt.title("Hola Mundo! $\\gamma \\epsilon \\iota \\alpha$") # yeia es hola en griego
plt.show()

## Modificando las propiedades de un gráfico: Añadiendo los títulos para los ejes

Para añadir títulos a los ejes X e Y, se utilizan los métodos `plt.xlabel` y `plt.ylabel` respectivamente. Los argumentos para cada método son similares a generar un título.

[Documentación xlabel](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.xlabel.html?highlight=xlabel#matplotlib.pyplot.xlabel)

[Documentación ylabel](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.ylabel.html?highlight=ylabel#matplotlib.pyplot.ylabel)


In [None]:
x = [1,2,3,4,5] 
y1 = np.random.randn(5) 
y2 = y1 + 1 
y3 = y2 + 1
y4 = y3 + 1
plt.plot(x,y1, label='Línea 1') 
plt.plot(x,y2, label='Línea 2') 
plt.plot(x,y3, label='Línea 3') 
plt.plot(x,y4, label='Línea 4') 

plt.legend()
plt.title("Hola Mundo! $\\gamma \\epsilon \\iota \\alpha$")
plt.xlabel("eje X")
plt.ylabel("eje Y")
plt.show()

# Ejercicio 2

Grafiquemos dos señales, donde los valores de $x$ van a estar definido como: $x \in [-2\pi,2\pi]$ y con una resolución de $0.05$ entre cada valor

Y las variables $y$ se definen como:

$$y_1 = sin(x)$$
$$y_2 = cos(x)$$

utilizando `matplotlib` y `numpy` genere dicho gráfico. Además de esto, añada un título descriptivo de lo que se gráfica, títulos a los ejes y leyendas para cada una de las señales.

Pruebe otros tipos de funciones (como logaritmo, raíz n-ésima, potencia n-ésima, etc.)


In [None]:
#Definimos el arreglo a gráficar
x = ...
y1 = ...
y2 = ...
#Ocupamos el método plot
plt.plot(...,...)
...

# Fin Ejercicio 2

# Gráficos de Torta (Pie Charts)

Los gráficos de torta presentan la información en formas de proporciones en un eje circular. Para poder hacer un gráfico de torta tenemos que utilizar el método `plt.pie()`, el cual solo recibe los valores de $X$. Automáticamente, el método `plt.pie` va a calcular las proporciones y vamos a ver más adelante que al momento de generar etiquetas, estas quedan en formato de porcentajes. Aparte de esto, vamos a ver diversas formas de manipular la estética de este tipo de gráfico.

[Documentación Pie Charts](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.pie.html)

Ejemplos:


In [None]:
sizes = [15, 30, 45, 10] #Tenemos cuatro tamaños para distintos animales.

plt.pie(sizes) # Llamamos el método del Pie Chart
plt.show() #Mostramos el gráfico

Agregando etiquetas, utilizando el parámetro `labels`  (la cantidad de etiquetas tiene que ser igual a la cantidad de elementos en $X$)

In [None]:
labels = ['ranas', 'perros', 
          'gatos', 'serpientes']
plt.pie(sizes,labels=labels)
plt.show()

Agregando las etiquetas de porcentajes se utiliza el parámetro `autopct` el cual recibe un `String`. A modo de ejemplo, utilizamos "%.1f%%" el cual está compuesto por

- El primer "%" indica la transformación en porcentajes
- .1f indica que se utilizara un dígito decimal
- los últimos %% indican que imprima después de los dígitos el caracter "%".


In [None]:
plt.pie(sizes,labels=labels,
        autopct='%.1f%%')
plt.show()

Finalmente, y a modo de ejemplo, podemos manipular 1 o más porciones del gráfico de torta, separándolo del resto de las porciones, para eso tenemos que utilizar el parámetro `explode`.  Este parámetro recibe una lista la cual contiene un porcentaje de separación desde el centro de la torta.

In [None]:
explode=[0,0.1,0,0]
plt.pie(sizes,labels=labels,
        autopct='%1.1f%%',
        explode=explode)
plt.show()

# Gráficos de Barra (Bar charts)

El gráfico de barras nos permite proyectar valores asociados a variables categóricas, en longitudes verticales u horizontales. Para realizar gráficos de barras en matplotlib, necesitamos utilizar el método `plt.bar`. Al igual que `plt.plot`, el método utilizado para los gráficos de barra reciben valores $X$ e $Y$.

[Documentación de gráficos de barra](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.bar.html?highlight=bar#matplotlib.pyplot.bar)

Veamos un ejemplo del promedio de puntajes en una prueba, para 5 grupos dividiendo en cada grupo entre hombres y mujeres:


In [None]:
labels = ['G1', 'G2', 'G3', 'G4', 'G5'] #Las etiquetas, basicamente Grupo 1, Grupo 2, ..., Grupo 5
men_means = [20, 34, 30, 35, 27] #Los promedios de puntajes obtenidos para los hombres en cada grupo
women_means = [25, 32, 34, 29, 35] #Los promedios de puntajes obtenidos para las mujeres en cada grupo
x = np.arange(len(labels))  # Generaremos nuestro eje X, utilizando el método np.arange, según el largo de la etiqueta. 

In [None]:
# Aquí graficamos el promedio de puntajes de los hombres para los distintos grupos.
plt.bar(x, men_means) # Luego es tan simple como llamar plt.bar(x,y)
plt.show() #mostramos la figura

Podemos manipular el mismo gráfico, modificando los anchos de las barras utilizando el parámetro `width` (el cual por defecto es 0.7). Aquí lo cambiaremos a la mitad (0.35):

In [None]:
width = 0.35
rects1 = plt.bar(x, men_means,
                 width=width)
plt.show()

¿Qué pasaría si quisiésemos pintar los promedios de los hombres y las mujeres en el mismo gráfico?

Hagamos la prueba utilizando la misma lógica al pintar múltiples líneas con `plt.plot`:


In [None]:
rects1 = plt.bar(x, men_means, width, label='Men') # Barras para los promedios de los hombres utilizando width declarado anteriormente
rects2 = plt.bar(x, women_means, width, label='Women') # Barras para los promedios de las mujeres utilizando width declarado anteriormente

**¿Qué fue lo que paso?**

Sucede que el valor de $X$ es el mismo para las barras de los hombres como de las mujeres. Para poder añadir las barras lado a lado, tenemos que modificar levemente la variable $X$. Específicamente, vamos a realizar lo siguiente:

$$X_{men} = x - \frac{width}{2} $$
$$X_{women} = x + \frac{width}{2} $$


In [None]:
rects1 = plt.bar(x - width/2, men_means, width)
rects2 = plt.bar(x + width/2, women_means, width)

**¿Cómo sería si tuviésemos más de dos barras, que tendría que cambiar en las ecuaciones para poder modificar los valores de $X$?**

Una alternativa a los gráficos de barras proyectados lado a lado, son los gráficos de barras apilados. Para hacer esto, solo tenemos que pasar el parámetro `bottom` el cual corresponde a una lista, y nos permite modificar el origen de la barra a pintar.

In [None]:
rects1 = plt.bar(x, men_means, width)
rects2 = plt.bar(x, women_means, width, bottom=men_means) # En este caso, solo lo hacemos para la segunda barra, y que estas partan desde los valores de men_means

Finalmente, podemos añadir la legenda utilizando cualquiera de los dos métodos vistos anteriormente

In [None]:
rects1 = plt.bar(x - width/2, men_means, width)
rects2 = plt.bar(x + width/2, women_means, width)
plt.legend(["men","women"])

Como podrán haber visto, el eje X de nuestro gráfico tiene valores numéricos (debido a que la variable `x = np.arange(len(labels))`). Nosotros podemos modificar esto, utilizando el método `plt.xticks()`, el cual recibe los valores de $X$, y luego etiquetas a mostrar para dichos valores de $X$. 

A su vez, vamos a completar el gráfico modificando el título, y la etiqueta del eje Y. Para este último, utilizaremos el método `plt.ylabel()`


In [None]:
rects1 = plt.bar(x - width/2, men_means, width)
rects2 = plt.bar(x + width/2, women_means, width)
plt.legend(["men","women"])

plt.ylabel('Scores')
plt.title('Scores by group and gender')
plt.xticks(x,labels)

plt.show()

# Histogramas

Los histogramas son un caso específico de los gráficos de barras. Las diferencias entre los gráficos de barras y los histogramas, es que los primeros se utilizan para datos categóricos, mientras que los últimos para variables continuas. Los histogramas muestran una aproximación a la distribución de datos numéricos. Para este tipo de gráfico se generan las "cajas" (o "bins" en inglés) las cuales dividen todo el rango de posibles valores, en series de intervalos. Luego estos intervalos se llenan contando la cantidad de valores que están en dicho intervalo. 

Para generar un histograma, necesitamos utilizar el método `plt.hist()`. Dicho método necesita como entrada los datos $X$, y un numero de "bins" que se van a utilizar. Si este último número no especifica, entonces `plt.hist` generara por defecto 10 "bins"
[Documentación Histogramas](https://matplotlib.org/3.3.1/api/_as_gen/matplotlib.pyplot.hist.html)



In [None]:
np.random.seed(42) # Fijamos la semilla aleatorea

mu = 100 #Definimos el parametro Mu
sigma = 25 # Definimos el parametro Sigma
X = np.random.normal(mu,sigma,500) # Obtenemos 500 puntos de una distribución Normal con mu = 100 y sigma = 25

num_bins = 50 # Definimos la cantidad de cajas para nuestro histograma
n, bins, patches = plt.hist(X, num_bins)

# Tablas de contingencia

El método `pd.crosstab` nos permitirá realizar tablas de contingencia pasando como argumentos las series o arreglos donde tendremos nuestros datos categóricos. Por defecto, realizara el conteo de la co-ocurrencia de las variables categóricas, pero se pueden utilizar otras funciones de agregación
```python
pd.crosstab(serie1,serie2)
```

[Documentación crosstab](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.crosstab.html)

Ejemplo en el cual se va a guardar una tabla de contingencia en la variable `contigency`:



In [None]:
var1 = ['a','a','c','c','b','b','a','a','c','b']
var2 = ['d','e','f','d','e','f','d','f','e','e']

contingency = pd.crosstab(pd.Series(var1),
                          pd.Series(var2),
                          rownames=["var1"],
                          colnames=["var2"])
contingency

# Mapas de calor (Heatmap)

una forma de visualizar tablas (como la anterior), corresponde a un mapa de calor. Esta visualización utiliza la intensidad de color para codificar los valores existentes en las tablas. En este caso, para poder realizar un mapa de calor utilizando matplotlib necesitamos invocar el método `plt.pcolormesh()`. Este recibe como argumento un arreglo bidimensional y nos devuelve un objeto artista, relacionado a nuestro mapa de calor.

[Documentación pcolormesh](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.pcolormesh.html)


In [None]:
z = contingency.values # Obtenemos una representación matricial de la matriz de contingencia
heatmap = plt.pcolormesh(z) # Generamos el mapa de calor y guardamos el artista en la variable heatmap

Utilizaremos ahora el método `plt.colorbar` para añadir la barra de color a nuestro mapa de calor. Con esto podremos añadir la referencia para la escala de color, asociada a los valores pertenecientes a las tablas. Este método recibe el artista asociado al mapa de calor para extraer los valores de color y asociarlos en la barra.

[Documentación colorbar](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.colorbar.html?highlight=colorbar#matplotlib.pyplot.colorbar)


In [None]:
heatmap = plt.pcolormesh(z) #Generamos el heatmap
cbar = plt.colorbar(heatmap) # Añadimos la barra de color

Aparte de añadir la barra de color, podemos añadir a los ejes, los valores que hacen referencia cada una de las coordenadas. En este caso, en el eje X vamos a tener las valores correspondientes a las columnas (d,e,f), y en el eje Y los valores relacionados a las filas (a,b,c). Para esto utilizamos el método visto en los gráficos de barras `plt.xticks` y `plt.yticks`

In [None]:
heatmap = plt.pcolormesh(z)
cbar = plt.colorbar(heatmap)
plt.xticks([0.5,1.5,2.5],["d","e","f"])
plt.yticks([0.5,1.5,2.5],["a","b","c"])

Podemos añadir información, podemos utilizar el método `plt.text()`, el cual nos permitirá escribir texto en el heatmap. Este recibe 3 parámetros principales: coordenadas (X,Y) y el texto a pintar. En este caso, el texto lo vamos a sacar de la matrix `z[i,j]` (los valores obtenidos de la tabla de contingencia). Para poder pintar necesitaremos de los dos ciclos for, principalmente para escribir en los 9 cuadrados de los mapas de calor. Además de esto, añadiremos los títulos para el gráfico y los ejes X e Y. 

[Documentación plt.text](https://matplotlib.org/3.1.1/api/_as_gen/matplotlib.pyplot.text.html?highlight=pyplot%20text#matplotlib.pyplot.text)


In [None]:

heatmap = plt.pcolormesh(z)
cbar = plt.colorbar(heatmap)
plt.xticks([0.5,1.5,2.5],["d","e","f"])
plt.yticks([0.5,1.5,2.5],["a","b","c"])
for i in range(3):
    for j in range(3):
        text = plt.text(j+0.5, i+0.5, z[i, j], color="white")
plt.title("Tabla de contingencia")
plt.ylabel("var1")
plt.xlabel("var2")
plt.show()

# Manejo de marcadores y diagramas de dispersión

Para poder ver como varían los distintos posibles estilos de marcadores, utilizaremos un set de datos conocido. Este corresponde al set de datos de la flor de iris.

[Documentación Estilos de Líneas y marcadores](https://matplotlib.org/gallery/lines_bars_and_markers/line_styles_reference.html)


In [None]:
iris_path = "http://srodriguez.me/Datasets/Iris.csv"
iris_df = pd.read_csv(iris_path)
iris_df.drop(["Id"],inplace=True,axis="columns")
iris_df.sample(2)

Guardaremos las columnas numéricas en distintas variables

In [None]:
sl = iris_df['SepalLengthCm'].values
sw = iris_df['SepalWidthCm'].values
pl = iris_df['PetalLengthCm'].values
pw = iris_df['PetalWidthCm'].values

Luego graficaremos el comportamiento de una de estas utilizando el método `plt.plot`. Al pasar solo el eje X, este lo interpretara y graficara los valores como una serie desde el índice $0$, hasta `len(columna)`.

In [None]:
plt.plot(sl) # Por defecto esto no generara un diagrama de linea

Si después de pasar los datos, agregamos un estilo definidos en la documentación (ejemplo: '--'), vamos a tener diagrama de línea punteado

In [None]:
plt.plot(sl,"--")

Ejemplo de otro estilo, punto y línea (".-"):

In [None]:
plt.plot(sl,".-")

Ahora si graficamos dos variables sin especificar el estilo vamos a obtener algo bastante interesante:

In [None]:
plt.plot(sl,sw)

Para evitar esto, tenemos que definir nuevamente un estilo de marcador, como estamos en análisis bivariado, podemos utilizar:

# Diagrama de dispersión

utilizando el método `plt.plot` y definiendo como tercer argumento un estilo de marcador podemos generar nuestros diagramas de dispersión y ver cómo se comportan una variable con respecto a otra.

[Marcadores](https://matplotlib.org/3.3.0/api/markers_api.html)


In [None]:
plt.plot(sl,sw,'o') # 'o' es igual a decir un circulo como markador
plt.show()

Alternativamente podemos utilizar el método `plt.scatter()`:

In [None]:
plt.scatter(sl,sw)
plt.show()

Podemos añadir color utilizando el parámetro color:

In [None]:
plt.plot(sl,sw,'.',color="red")

o en su defecto, al principio del marcador la inicial del color, seguido por el marcador (en este caso "ro" = "red points")

In [None]:
plt.plot(sl,sw,'ro')

un último ejemplo: diamantes rojos

In [None]:
plt.plot(sl,sw,'rd')

# Matriz de correlación

Siguiendo con el análisis bivariado, podemos analizar la correlación existente entre variables. Esta correlación nos dará las dependencias lineales entre pares de variables. Para esto podemos programar nuestra propia función la cual compute lo siguiente:

$$\Large \rho_{X,Y} = \frac{cov(X,Y)}{\sigma_X\sigma_Y}$$ 
donde
$$\Large cov(X,Y) = \frac{\sum (X-\bar{X})(Y-\bar{Y})}{N}$$

Entonces, la matriz de correlación va a ser una matriz simétrica, donde cada casilla consiste en la correlación de los posibles pares de variables dentro de nuestro set de datos. En este caso, tendríamos una matriz de $4x4$ si es que tomamos como ejemplo el set de datos de iris. Generaremos una matriz con numpy inicializada en ceros


In [None]:
corr = np.zeros((4,4))
corr

Luego, definiremos la función de correlación el cual va a recibir dos arreglos de numpy, y luego computamos las fórmulas que mencionamos anteriormente. Además, como la matriz es simétrica solo vamos a llenar la diagonal superior de dicha matriz. Finalmente imprimimos la matriz

In [None]:
def correlation(X,Y):
    cov = np.sum((X - np.mean(X)) * (Y - np.mean(Y)))* 1/(len(Y))
    correlation_value = cov/(np.std(X)*np.std(Y))
    return correlation_value

corr[0,0] = correlation(sl,sl)
corr[0,1] = correlation(sl,sw)
corr[0,2] = correlation(sl,pl)
corr[0,3] = correlation(sl,pw)

corr[1,1] = correlation(sw,sw)
corr[1,2] = correlation(sw,pl)
corr[1,3] = correlation(sw,pw)


corr[2,2] = correlation(pl,pl)
corr[2,3] = correlation(pl,pw)

corr[3,3] = correlation(pw,pw)
corr

Aprovechemos los mapas de calor y mostremos la matriz de correlación utilizando esta representación

In [None]:
heatmap = plt.pcolormesh(corr)
cbar = plt.colorbar(heatmap)

columns = ["SepalLengthCm","SepalWidthCm","PetalLengthCm","PetalWidthCm"]
plt.xticks([0.5,1.5,2.5,3.5],columns,rotation=45)
plt.yticks([0.5,1.5,2.5,3.5],columns)
for i in range(4):
    for j in range(4):
        text = plt.text(j+0.4, i+0.4, corr[i, j].round(2),color="red",)
plt.title("correlation matrix")
plt.ylabel("var1")
plt.xlabel("var2")
plt.show()

Alternativamente y de forma mucho más sencilla, si tenemos un DataFrame podemos utilizar el método `.corr()` para obtener un nuevo DataFrame. Este DataFrame va a tener la matriz de correlación:

In [None]:
iris_df.corr()

In [None]:
corr = iris_df.corr().values

Luego podemos graficar utilizando un heatmap

In [None]:
heatmap = plt.pcolormesh(corr)
cbar = plt.colorbar(heatmap)

columns = ["SepalLengthCm","SepalWidthCm","PetalLengthCm","PetalWidthCm"]
plt.xticks([0.5,1.5,2.5,3.5],columns,rotation=45)
plt.yticks([0.5,1.5,2.5,3.5],columns)
plt.title("correlation matrix")
plt.ylabel("var1")
plt.xlabel("var2")
plt.show()

Añadimos títulos, nombres de variables y texto a cada casilla del mapa de calor

In [None]:
heatmap = plt.pcolormesh(corr)
cbar = plt.colorbar(heatmap)

columns = ["SepalLengthCm","SepalWidthCm","PetalLengthCm","PetalWidthCm"]
plt.xticks([0.5,1.5,2.5,3.5],columns,rotation=45)
plt.yticks([0.5,1.5,2.5,3.5],columns)
for i in range(4):
    for j in range(4):
        text = plt.text(j+0.4, i+0.4, corr[i, j].round(2), color="red",)
plt.title("correlation matrix")
plt.ylabel("var1")
plt.xlabel("var2")
plt.show()

# Guardar la figura

Para poder guardar una figura, podemos utilizar el método `plt.savefig()`. Este como primer argumento recibirá el nombre del archivo que nosotros queremos guardar. En este caso, vamos a guardar la matriz de correlación generada en el archivo `"Correlation_matrix.png"`


In [None]:
heatmap = plt.pcolormesh(corr)
cbar = plt.colorbar(heatmap)

columns = ["SepalLengthCm","SepalWidthCm","PetalLengthCm","PetalWidthCm"]
plt.xticks([0.5,1.5,2.5,3.5],columns,rotation=45)
plt.yticks([0.5,1.5,2.5,3.5],columns)
for i in range(4):
    for j in range(4):
        text = plt.text(j+0.4, i+0.4, corr[i, j].round(2), color="red",)
plt.title("correlation matrix")
plt.ylabel("var1")
plt.xlabel("var2")
plt.savefig("Correlation_matrix.png")
plt.show()

Para aumentar la Resolución de la figura podemos utilizar el parámetro `dpi`, el cual hace referencia a "Dots per Inch" o Puntos por Pulgada. Mientras más alto sea este número, mayor va a ser la resolución de salida para la imagen.

In [None]:
heatmap = plt.pcolormesh(corr)
cbar = plt.colorbar(heatmap)

columns = ["SepalLengthCm","SepalWidthCm","PetalLengthCm","PetalWidthCm"]
plt.xticks([0.5,1.5,2.5,3.5],columns,rotation=45)
plt.yticks([0.5,1.5,2.5,3.5],columns)
for i in range(4):
    for j in range(4):
        text = plt.text(j+0.4, i+0.4, corr[i, j].round(2),color="red",)
plt.title("correlation matrix")
plt.ylabel("var1")
plt.xlabel("var2")
plt.savefig("Correlation_matrix2.jpg",dpi=300)
plt.show()

# Ejercicio 3

Utilizaremos una base de datos especificamente: Los pingüinos de Palmer:

<center><img src="https://drive.google.com/uc?id=1LQJhM-R0erjWF4fOh_KDHhpZDqdMz4x7" alt="drawing" style="width:700px;"/></center>

El set de datos de los pingüinos, específicamente “Palmer Penguins”, corresponde a un set de datos libre de uso. La idea es presentar una alternativa a un set de datos de similares características: El set de datos de Iris. En este caso, se tomaron diferentes medidas para 344 pingüinos en el archipiélago de Palmer en la antártica. Las medidas que se tomaron fueron: “Bill Length”, “Bill Depth”, “Flipper Length” y “Body Mass” .
<center><img src="https://drive.google.com/uc?id=1NJPfsWerPisS_UFzzMWFj1Npr86UJlNW" alt="drawing" style="width:500px;"/><img src="https://drive.google.com/uc?id=1Ik27Cgf9ekwHs2H9bmwigYfV7AU37FhX" alt="drawing" style="width:500px;"/></center>


1.- Obtener la matriz de correlación y graficarla

2.- Graficar utilizando diagramas de dispersión pares de variables con: Alta Correlación, Nula Correlación y Correlación Negativa

3.- Generar tres histogramas para las posibles variables que existen en el set de datos

4.- Generar un gráfico de barras con la cantidad de pingüinos en cada isla

5.- Generar un gráfico de torta con la cantidad de pingüinos según especie

6.- Generar una tabla de contingencia con la cantidad de según especies e islas, y luego graficarlas



**Nota:** Para el punto 4, una pequeña ayuda puede ser la función: `np.unique(x, return_counts=True)` [Documentación](https://numpy.org/doc/stable/reference/generated/numpy.unique.html)



In [None]:
penguins_df = pd.read_csv("http://srodriguez.me/Datasets/penguins.csv").dropna()
penguins_df.head()

In [None]:
# Su código aca
...
...