# Matplotlib

Matplotlib es una librería para visualización de datos en python.

Su documentación es muy buena https://matplotlib.org/stable/gallery/index.html

La parte de la librería que usaremos para graficar es matplotlib.pyplot y se suele importar con el nombre plt:

In [None]:
import matplotlib.pyplot as plt

In [None]:
import numpy as np

Lo primero que debemos hacer para poder graficar, es crear una figura y unos ejes. La **figura** es el objeto correspondiente al rectángulo sobre el cual graficamos todo; los **ejes** son los distintos pares de ejes que vamos a agregar dentro de una figura.

In [None]:
fig = plt.figure()
ax = plt.axes()

## Lineplot

Uno de los gráficos que vimos es el gráfico de linea (si el eje X son fechas, es el equivalente a una serie de tiempo).

A este gráfico debemos pasarle los argumentos x e y, que tienen que ser 2 listas o arrays del mismo tamaño


In [None]:
x = np.arange(0,2*np.pi, 0.1)
y = np.sin(x) # Seno

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y)
plt.show()

Además de los datos x e y, le podemos pasar muchos argumentos a la función plot para mejorar nuestro gráfico.

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y, color='green', linewidth=5, linestyle='--')
plt.show()

También podemos (y siempre deberíamos) agregar títulos a los gráficos

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y, color='green', linewidth=5, linestyle='--')
ax.set_title("hola")
plt.show()

Otro aspecto importante a tener en cuenta a la hora de graficar para ser lo más claros y explícitos posibles, es agregar labels.

Los labels nos permiten explicitar información sobre los distintos objetos que graficamos.

In [None]:
x2 = np.linspace(0, 5)
y2 = x2 / 5

In [None]:
fig = plt.figure()
ax = plt.axes()
ax.plot(x, y, color='green', linewidth=5, linestyle='--', label='Seno')
ax.plot(x2, y2, color='red', linewidth=5, linestyle='-', label='Recta')
ax.set_title("Funciones")
ax.legend()
plt.show()

### Subplots

Los subplots nos permiten representar varios axes en una misma figura. Matplotlib nos permite hacerlo con la función subplots.


In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1)

Podemos agregar un título general a los subplots

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1)
fig.suptitle("Titulo subplots")
plt.show()

Y para graficar sobre cada axis:

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1)
fig.suptitle("Titulo subplots")
axes[0].plot(x, y, color='green', linewidth=5, linestyle='--')
axes[1].plot(x2, y2, color='green', linewidth=5, linestyle='--')
plt.show()

## Scatter plot

In [None]:
n = 1000
sigma_1 = 2
sigma_2 = 2
x = np.random.normal(size = n, scale = sigma_1)
y = np.random.normal(size = n, scale = sigma_2)

# Graficamos
plt.scatter(x, y)
plt.show()

In [None]:
n = 100
x = np.linspace(-1,1,n) + 0.25*np.random.normal(size = n)
y = 3*x + 0.25*np.random.normal(size = n)

# Graficamos
plt.scatter(x, y)
plt.show()

# Seaborn

Seaborn es una librería para Python que permite generar fácilmente elegantes gráficos. Seaborn esta basada en matplotlib y proporciona una interfaz de alto nivel que es realmente sencilla de aprender. Dada su gran popularidad se encuentra instalada por defecto en la distribución Anaconda.

La manera de utilizarlo es muy parecida (sabiendo usar Matplotlib
resulta fácil usar Seaborn).

Seaborn nos permite crear gráficos de una manera mucho más simple y con menos líneas de código.


In [None]:
import seaborn as sns

Podemos trabajar con el dataset del titanic usado en las diapositivas de la unidad.

In [None]:
titanic_df = pd.read_csv('ruta.../titanic.csv') ## Especificar la ruta completa + nombre.extension del archivo

In [None]:
titanic_df.head()

¿ Se acuerdan del scatterplot en matplotlib ? Bueno, con seaborn también podemos hacer este y muchos más gráficos.

En el caso de scatterplot, a seaborn tenemos que pasarle el nombre de las columnas del dataframe que queremos graficar.

Por ejemplo, queremos ver si se observa alguna relación entre las variables Age y Fare.

In [None]:
sns.scatterplot(x="Age", y="Fare", data=titanic_df)

### HUE

Cuando queremos incluir una 3er variable en nuestros gráficos, utilizamos el parámetro "hue".

En la propiedad hue debemos indicar el nombre de la columna de dataframe que se desea utilizar para separar.

Veamos un ejemplo, en el gráfico anterior utilicemos como hue la variable Sex

In [None]:
sns.scatterplot(x="Age", y="Fare", hue='Sex', data=titanic_df)

### Countplot

Un gráfico muy útil para saber la cantidad de ejemplos que tenemos de cada valor de una columna categórica, es el countplot de seaborn.

Por ejemplo, si queremos saber la cantidad de personas de cada género:

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.countplot(x='Sex', data=titanic_df)
plt.show()

Con el parametro orient, podemos hacer que el gráfico sea horizontal.

Hay que tener en cuenta, que en este caso, en lugar de asignar el valor a X se lo asignamos a Y

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.countplot(y='Sex', data=titanic_df, orient='h')
plt.show()

### Distplot

Muy útil para visualizar distribuciones

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.distplot(x=titanic_df.Age)
#ax = sns.histplot(x=titanic_df.Age, kde=True, stat='density', linewidth=0)
ax.set_title("Distribución de la variable Age")
plt.show()

Podemos elegir si queremos que se vea el histograma o no

In [None]:
fig = plt.figure()
ax = plt.axes()
ax = sns.distplot(x=titanic_df.Age, hist=False)
ax.set_title("Distribución de la variable Age")
plt.show()

### Heatmap

Se acuerdan de la matriz de correlación que podiamos generar con pandas?



In [None]:
titanic_df.corr()

Con seaborn, podemos utilizar el heatmap para obtener una representación visual de la matriz:

In [None]:
fig = plt.figure(figsize=(10,8)) # Cambiamos el tamaño del gráfico con figsize
ax = plt.axes()
ax = sns.heatmap(titanic_df.corr())
ax.set_title("Heatmap")
plt.show()


#### Paleta de colores

Podemos cambiar la paleta de colores de nuestros heatmamps, agregar lineas de separación y escribir el valor del coheficiente de correlación en cada cuadrado:

*Más info: https://seaborn.pydata.org/generated/seaborn.heatmap.html


In [None]:
fig = plt.figure(figsize=(10,8)) # Cambiamos el tamaño del gráfico con figsize
ax = plt.axes()
ax = sns.heatmap(titanic_df.corr(), cmap="YlGnBu", annot=True)
ax.set_title("Heatmap")
plt.show()


### Pairplot

La función `pairplot()` de Seaborn resulta muy cómoda para hacer una primera inspección de un dataset.

La misma genera una grilla de N x N ejes, donde N es el número de variables numéricas que tiene el dataset (features que toman valores numéricos). Para cada par de variables numéricas, genera un scatterplot y en la diagonal grafica la distribucion de esos valores.

In [None]:
sns.pairplot(data=titanic_df[['Survived', 'Pclass', 'Age']])