# Referències Visualització de dades

- [Documentació oficial de Matplotlib](https://matplotlib.org/stable/index.html)
- [Xuletes](https://matplotlib.org/cheatsheets/)
- [data-to-viz.com](https://www.data-to-viz.com/) - web fantàstica per decidir quin tipus de gràfic fer. Té exemples amb python de tots els gràfics.
- [Rougier, Nicholas (2021). _Scientific Visualization: Python + Matplotlib_. HAL Open Science.](https://github.com/rougier/scientific-visualization-book?tab=readme-ov-file) - llibre molt complert.
- [Wilke, Claus (2019). _Fundamentals of data visualization: a primer on making informative and compelling figures_. O'Reilly Media.](https://clauswilke.com/dataviz/) - Introducció a la visualització de dades. Pensat per R en lloc de Python, però amb coneixements molt generals.

# Primera introducció a Matplotlib

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Per mostrar les imatges com a resultat de la cel·la (jupyter lab ja no ho necessita)
%matplotlib inline

# Perquè les imatges tinguin millor resolució
%config InlineBackend.figure_format='retina'

Per fer un gràfic ens calen dades. Per exemple cinc punts en dues dimensions

In [None]:
X = np.array([1, 2, 3, 4, 5])
Y = X**3
plt.plot(X, Y)
# plt.show() # Si no fós un notebook caldria això

## Format de línia

Es pot canviar el format del marcador, línia i color ràpidament amb un tercer argument:

    fmt = '[marcador][línia][color]'

**Marcadors**

| caràcter| marcador|
|:---- |:---- |
|``'.'``     |    punt|
|``'o'``     |    cercle|
|``'v'``     |    triangle cap avall|
|``'^'``     |    triangle cap amunt|
|``'s'``     |    quadrat|
|``'*'``     |    estrella|
|``'+'``     |    creu|
|``'x'``     |    x|

**Estils de línia**

| caràcter| línia|
|:---- |:---- |
|``'-'``          |línia sòlida|
|``'--'``         |línia discontínua|
|``'-.'``         |línia de línies i punts|
|``':'``          |línia de punts|


**Colors**

| caràcter|color|
|:---- |:---- |
|``'b'``     |blau|
|``'g'``     |verd|
|``'r'``     |vermell|
|``'c'``     |    cyan|
|``'m'``     |     magenta|
|``'y'``     |groc|
|``'k'``     |negre|
|``'w'``     |blanc|

Examples:

    'b'    # color blau
    'or'   # cercles vermells 
    '-g'   # línia verda 
    '--'   # línia discontínua 
    '^k:'  # triangle cap amunt negre amb línia de punts

In [None]:
plt.plot(X, Y, "o--g")

In [None]:
plt.plot(X, Y, "x:k")

Aquests mateixos paràmetres es poden canviar amb els arguments `marker`, `linestyle`i `color`.

- Per canviar el gruix de línia es fa servir `linewidth` (per defecte és 2)
- Per canviar el tamany del marcador es fa servir `markersize` (per defecte és 5)

In [None]:
plt.plot(X, Y, marker="v", linestyle="-.", color="grey", linewidth=3, markersize=10)

## Diverses línies en una mateixa figura

Es poden fer tantes línies com vulguem dins un mateix gràfic.

In [None]:
X = np.linspace(-np.pi, np.pi, 200)
C, S = np.cos(X), np.sin(X)
plt.plot(X, C)
plt.plot(X, S)

També es poden crear varies línies dins un sol `plt.plot`, però no és recomanable

In [None]:
plt.plot(X, C, "r-", X, S, "g--")

Si cridem `plt.show()` es comença un nou gràfic

In [None]:
plt.plot(X, C)
plt.show()
plt.plot(X, S)
plt.show()

## Eixos, títol i llegenda

- `plt.xlabel` i  `plt.ylabel` controlen el nom dels eixos
- `plt.title` posa un títol (no recomenat per publicacions acadèmiques)
- `plt.legend` posa la llegenda. Els noms de la llegenda es poden posar un per un, o tots de cop

In [None]:
X = np.linspace(-np.pi, np.pi, 200)
C, S = np.cos(X), np.sin(X)
plt.plot(X, C, label="cosinus")
plt.plot(X, S, label="sinus")

plt.xlabel("Temps (s)")
plt.ylabel("Posició (m)")
plt.title("Les funcions trigonomètriques")
plt.legend()

In [None]:
plt.plot(X, C)
plt.plot(X, S)
plt.legend(labels=["cosinus", "sinus"])

Es pot canviar la posició i aspecte de la llegenda

In [None]:
plt.plot(X, C)
plt.plot(X, S)
plt.legend(
    labels=["cosinus", "sinus"],
    loc="upper right",
    frameon=False,
)

I podem canviar el tamany de la text a qualsevol posició (per defecte és 10)

In [None]:
FONTSIZE = 15

plt.plot(X, C)
plt.plot(X, S)

plt.xlabel("Temps (s)", fontsize=FONTSIZE)
plt.ylabel("Posició (m)", fontsize=FONTSIZE)
plt.title("Les funcions trigonomètriques", fontsize=20)
plt.legend(labels=["cosinus", "sinus"], fontsize=FONTSIZE)

## Format de la figura

Abans de començar la figura, podem canviar les opcions principals amb argument de `plt.figure()`, com el tamany i la resolució.

La mida de la figura en pantalla ve determinada pel tamany (`figsize`, en polzades) multiplicat pel `dpi` ("dots per inch"), és a dir, píxels per polzada.

Jugant amb aquest dos paràmetres tindrem figures amb línies més primes o gruixudes

In [None]:
X = np.linspace(-1, 2, 200)
exp, arctan = np.exp(X), np.arctan(X)

In [None]:
plt.figure(figsize=(5, 5), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

In [None]:
plt.figure(figsize=(2.5, 2.5), dpi=200)
plt.plot(X, exp)
plt.plot(X, arctan)

`plt.grid()` mostra una graella

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)
plt.grid()

`xlim` i `ylim` canvien els límits dels eixos

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

plt.xlim(-1.2, 2.2)
plt.ylim(-1, 4)

`xticks` i `yticks` canvien la posició de les marques als eixos 

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

plt.xticks([-1, 0, 1, 2])
plt.yticks([1, 4, 7])

Finalment, el tamany del text dels propis eixos també es pot canviar

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

plt.xticks([-1, 0, 1, 2], fontsize=FONTSIZE)
plt.yticks([1, 4, 7], fontsize=FONTSIZE)

## Exercici

Reprodueix la següent figura

![exemple_potencies.png](imatges/exemple_potencies.png)

In [None]:
X = np.linspace(-10, 10, 200)
plt.plot(X, X**2, label="$x^2$")
plt.plot(X, X**3, label="$x^3$")
plt.plot(X, X**4, label="$x^4$")

## Tipus de gràfics

**De barres**

In [None]:
X = np.array([1, 2, 3, 4, 5])
Y = X**3
plt.bar(X, Y)

In [None]:
plt.barh(X, Y)

**Núvol de punts**

In [None]:
plt.scatter(X, Y)

**Histograma**

In [None]:
normal = np.random.normal(size=1000)
plt.hist(normal)
plt.show()

In [None]:
plt.hist(normal, bins=20)
plt.show()

In [None]:
plt.hist(normal, bins=50)
plt.show()

Si volem superposar dos gràfics, podem canviar el paràmetre de transparència `alpha`.

In [None]:
normal2 = np.random.normal(size=1000)
plt.hist(normal2, bins=20)
normal3 = np.random.normal(size=1000)
plt.hist(normal3, bins=20)
plt.show()

In [None]:
normal2 = np.random.normal(size=1000)
plt.hist(normal2, bins=20, alpha=0.5)
normal3 = np.random.normal(size=1000)
plt.hist(normal3, bins=20, alpha=0.5)
plt.show()

Podem fer servir variables categòriques en comptes de numèriques

In [None]:
noms = ["group a", "grup B", "grup C"]
valors = [1, 10, 100]
plt.bar(noms, valors)
plt.show()
plt.scatter(noms, valors)
plt.show()
plt.plot(noms, valors)

I combinar tipus de gràfic diferents (cal que tingui algun sentit)

In [None]:
noms = ["group a", "grup B", "grup C"]
valors = [1, 10, 100]
plt.bar(noms, valors, alpha=0.8)
plt.scatter(noms, valors)
plt.plot(noms, valors, "g")

## Integració amb Pandas

Pandas es basa en Numpy i Matplotlib. Es poden fer gràfics directament des de Pandas.

En comptes de fer `plt.plot()`, es pot fer directament del DataFrame

In [None]:
import pandas as pd

In [None]:
dades = pd.read_csv("data/eulp2018/eulp2018.data.csv", sep="\t")
dades["ANY_NAIX"].hist()

Alguna opció per defecte és diferent, però es pot modificar

In [None]:
dades["ANY_NAIX"].hist(color="green")
plt.grid(False)
plt.xlabel("Any de naixament")
plt.ylabel("Freqüència absoluta")

I direu, quina tonteria, és el mateix que fer

In [None]:
plt.hist(dades["ANY_NAIX"])
plt.show()

Però, la gràcia és que permet fer molts gràfics de cop (tot i que és sobretot per explorar les dades)

In [None]:
dades.hist(figsize=(20, 30))
plt.show()

## Solució

In [None]:
plt.figure(figsize=(10, 6), dpi=100)
FONTSIZE = 15
FONTSIZE2 = 20

X = np.linspace(-10, 10, 200)
plt.plot(X, X**2, label="$x^2$", color="purple", linewidth=1)
plt.plot(X, X**3, label="$x^3$", linestyle="--")
plt.plot(X, X**4, label="$x^4$", linestyle=":", linewidth=4)

plt.xticks(np.arange(-10, 11, 2.5), fontsize=FONTSIZE)
plt.yticks([-20, -10, 0, 15, 40, 80], fontsize=FONTSIZE)

plt.ylim([-20, 100])
plt.xlabel("$x$", fontsize=FONTSIZE2)
plt.ylabel("$f(x)$", fontsize=FONTSIZE2)
plt.title("Potències", fontsize=FONTSIZE)
plt.legend(loc="lower right", fontsize=FONTSIZE)
plt.savefig("imatges/exemple_potencies.png")

# API orientada a objectes de Matplotlib

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

# per dades d'exemple
from matplotlib.cbook import get_sample_data

%matplotlib inline
%config InlineBackend.figure_format='retina'

Ja hem vist Matplotlib, però resulta que té dues interfícies:
- La de pyplot. Tot es fa amb `plt.`
- L'orientada a objectes, que es basa en els objectes `Figure` i `Axes`

In [None]:
# Creem els objectes Figure i Axes
fig, ax = plt.subplots()

# En comptes de plt.plot fem ax.plot
ax.plot(
    [1, 2, 3, 4, 5, 6],
    [1, 4, 2, 3, 1, 7],
)

In [None]:
type(fig), type(ax)

In [None]:
fig

## set

In [None]:
# Els arguments que passàvem a plt.figure ara els passem a plt.subplots
fig, ax = plt.subplots(figsize=(5, 3))

FONTSIZE = 15
FONTSIZE2 = 20

X = np.linspace(-10, 10, 200)
ax.plot(X, X**2, label="$x^2$", color="purple", linewidth=1)
ax.plot(X, X**3, label="$x^3$", linestyle="--")
ax.plot(X, X**4, label="$x^4$", linestyle=":", linewidth=4)

# Molts dels canvis que feiem (x/ylim, x/ylabel, title...) ara porten "set_" a davant
ax.set_ylim([-20, 100])
ax.set_xlabel("$x$", fontsize=FONTSIZE2)
ax.set_ylabel("$f(x)$", fontsize=FONTSIZE2)
ax.set_title("Potències", fontsize=FONTSIZE)

# Els xticks i yticks no agafemn fontsize
ax.set_xticks(np.arange(-10, 11, 3))
ax.set_yticks([-20, 0, 20, 40, 80])

# Sinó que es fa amb tick_params
ax.tick_params(axis="x", labelsize=FONTSIZE)
ax.tick_params(axis="y", labelsize=FONTSIZE)

# legend funciona igual
plt.legend(loc="lower right", fontsize=FONTSIZE)

fig.savefig("imatges/exemple_potencies2.png")

In [None]:
fig, ax = plt.subplots(figsize=(4, 2), dpi=100)
ax.plot(X, X**2, label="$x^2$", color="purple", linewidth=1)
ax.plot(X, X**3, label="$x^3$", linestyle="--")
ax.plot(X, X**4, label="$x^4$", linestyle=":", linewidth=4)

# Podem simplificar tots els set_ a un sol mètode amb arguments
ax.set(
    ylim=[-20, 100],
    xlabel="$x$",
    ylabel="$f(x)$",
    title="Potències",
    xticks=np.arange(-10, 11, 2.5),
    yticks=[-20, -10, 0, 15, 40, 80],
)

# Però llavors hem de modificar a part altres arguments, com fontsize
ax.xaxis.label.set_size(FONTSIZE2)
ax.yaxis.label.set_size(FONTSIZE2)
ax.title.set_size(FONTSIZE)

# plt.show no canvia a fig.show
plt.show()

In [None]:
fig, ax = plt.subplots(figsize=(4, 2), dpi=100)
ax.plot(X, X**2, label="$x^2$", color="purple", linewidth=1)
ax.plot(X, X**3, label="$x^3$", linestyle="--")
ax.plot(X, X**4, label="$x^4$", linestyle=":", linewidth=4)

# podem barrejar les dues maneres de treballar, però NO ÉS RECOMANABLE
plt.ylim([-20, 100])
ax.set_xlabel("$x$", fontsize=FONTSIZE2)
plt.ylabel("$f(x)$", fontsize=FONTSIZE2)
ax.set_title("Potències", fontsize=FONTSIZE)

## Subplots

`plt.subplots()` es diu així perquè permet dividir una figura en diverses

In [None]:
# Quan fem subplots se sol dir axs o axes el segon objecte
fig, axes = plt.subplots(nrows=1, ncols=2)

# veiem que és un array
axes

In [None]:
# fem servir aquestes dades
df = pd.read_csv("data/efecte_stroop.csv")
df.head()

In [None]:
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(8, 3), dpi=100)

# Per cada Axes podem fer plots independents
axes[0].hist(df.Edat)
axes[1].scatter(df["Temps experiment 1"], df["Temps experiment 2"])

# I cambiar el que vulguem sense importar l'ordre
axes[0].set(xlabel="Edat", ylabel="Freqüència absoluta")
axes[1].set(xlabel="Temps 1", ylabel="Temps 2")

In [None]:
# Segons la mida de la figura es poden solapar les subfigures!
fig, axes = plt.subplots(nrows=1, ncols=2, figsize=(4, 3), dpi=100)
axes[0].hist(df.Edat)
axes[1].scatter(df["Temps experiment 1"], df["Temps experiment 2"])

axes[0].set(xlabel="Edat", ylabel="Freqüència absoluta")
axes[1].set(xlabel="Temps 1", ylabel="Temps 2")

In [None]:
# Ho podem arreglar manualment
# O fer servir layout="constrained" - funciona molt bé però amb excepcions
# https://matplotlib.org/stable/users/explain/axes/constrainedlayout_guide.html

fig, axes = plt.subplots(nrows=1, ncols=2, layout="constrained", figsize=(4, 3), dpi=100)
axes[0].hist(df.Edat)
axes[1].scatter(df["Temps experiment 1"], df["Temps experiment 2"])

axes[0].set(xlabel="Edat", ylabel="Freqüència absoluta")
axes[1].set(xlabel="Temps 1", ylabel="Temps 2")

In [None]:
# Els podem posar un sobre l'altre
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(4, 7), dpi=100)
axes[0].hist(df.Edat)
axes[1].scatter(df["Temps experiment 1"], df["Temps experiment 2"])

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=1, figsize=(4, 7), dpi=100)

# Si volem fer els gràfics directament des de Pandas, hem de passar
# el subplot on volem la figura amb "ax=axes[INDEX]"
df.Edat.hist(ax=axes[0])
df.plot.scatter(x="Temps experiment 1", y="Temps experiment 2", ax=axes[1])

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(8, 6), dpi=100)

# Si fem servir dues dimensions, per defecte axes també tindrà 2 dimensions
axes

In [None]:
fig, axes = plt.subplots(nrows=2, ncols=2, layout="constrained", figsize=(8, 6), dpi=100)

axes[0, 0].hist(np.random.normal(size=1000), bins=20)
axes[0, 1].hist(np.random.gamma(1, size=1000), bins=20, color="green")
axes[1, 0].hist(np.random.beta(1, 2, size=1000), bins=20, color="red")
axes[1, 1].hist(np.random.beta(2, 1, size=1000), bins=20, color="orange")

# Podem posar una llegenda global
fig.legend(labels=["normal", "gamma 1", "beta 1 2", "beta 2 1"])

plt.show()

In [None]:
# Si volem que comparteixin els eixos podem fer sevir sharex i/o sharey
fig, axes = plt.subplots(nrows=2, ncols=2, sharex=True, sharey=True, figsize=(8, 6), dpi=100)

gamma = np.random.gamma(1, size=10000)
axes[0, 0].hist(gamma, bins=10)
axes[0, 0].hist(gamma - 1, bins=10, alpha=0.5)
axes[0, 1].hist(gamma, bins=20)
axes[1, 0].hist(gamma, bins=30)
axes[1, 1].hist(gamma, bins=40)

# I també podem posar llegendes individuals
axes[0, 0].legend(["gamma", "gamma-1"])

plt.show()

A part del títol i noms del eixos per cada subfigura, també en podem posar de generals amb:

- `suptitle`
- `supxlabel`
- `supylabel`

Exemples de https://matplotlib.org/stable/gallery/subplots_axes_and_figures/figure_title.html

In [None]:
x = np.linspace(0.0, 5.0, 501)

fig, (ax1, ax2) = plt.subplots(1, 2, layout="constrained", sharey=True)
ax1.plot(x, np.cos(6 * x) * np.exp(-x))
ax1.set_title("damped")
ax1.set_xlabel("time (s)")
ax1.set_ylabel("amplitude")

ax2.plot(x, np.cos(6 * x))
ax2.set_xlabel("time (s)")
ax2.set_title("undamped")

fig.suptitle("Different types of oscillations", fontsize=16)

In [None]:
with get_sample_data("Stocks.csv") as file:
    stocks = np.genfromtxt(
        file, delimiter=",", names=True, dtype=None, converters={0: lambda x: np.datetime64(x, "D")}, skip_header=1
    )

fig, axs = plt.subplots(4, 2, figsize=(9, 5), layout="constrained", sharex=True, sharey=True, dpi=100)

# flat retorna un iterador, mentre que flatten crea un nou array
for nn, ax in enumerate(axs.flat):
    column_name = stocks.dtype.names[1 + nn]
    y = stocks[column_name]
    ax.plot(stocks["Date"], y / np.nanmax(y))

    # Bon exemple de títol
    # De fet, es poden posar fins a 3 títols: un a l'esquerra, un al mig i un a la dreta
    ax.set_title(column_name, fontsize="small", loc="left")

fig.supxlabel("Year")
fig.supylabel("Stock price relative to max")

plt.show()

### Estructures més complexes

In [None]:
axd = plt.figure(constrained_layout=True).subplot_mosaic(
    """
    ABD
    CCD
    CC.
    """
)

# axd retorna un diccionari
axd

In [None]:
axd = plt.figure(constrained_layout=True).subplot_mosaic(
    """
    ABD
    CCD
    CC.
    """
)

# recordeu que podem passar arguments amb un diccionari
kw = dict(ha="center", va="center", fontsize=60, color="darkgrey")
for k, ax in axd.items():
    ax.text(0.5, 0.5, k, **kw)

In [None]:
axd = plt.figure(constrained_layout=True).subplot_mosaic(
    """
    ABD
    CCD
    CC.
    """
)

axd["A"].scatter(np.random.normal(size=100), np.random.normal(size=100))
axd["B"].scatter(np.random.normal(size=100), np.random.normal(size=100))
axd["C"].scatter(np.random.normal(size=100), np.random.normal(size=100))
axd["D"].scatter(np.random.lognormal(size=100), np.random.lognormal(size=100))