# Referències Visualització de dades

- [Documentació oficial de Matplotlib](https://matplotlib.org/stable/index.html)
- [data-to-viz.com](https://www.data-to-viz.com/) - web fantàstica per decidir quin tipus de gràfic fer. Té exemples amb python de tots els gràfics.
- [Rougier, Nicholas (2021). _Scientific Visualization: Python + Matplotlib_. HAL Open Science.](https://github.com/rougier/scientific-visualization-book?tab=readme-ov-file) - llibre molt complert.
- [Wilke, Claus (2019). _Fundamentals of data visualization: a primer on making informative and compelling figures_. O'Reilly Media.](https://clauswilke.com/dataviz/) - Introducció a la visualització de dades. Pensat per R en lloc de Python, però amb coneixements molt generals.

# Primera introducció a Matplotlib

In [None]:
import matplotlib.pyplot as plt
import numpy as np

# Per mostrar les imatges com a resultat de la cel·la (jupyter lab ja no ho necessita)
%matplotlib inline

# Perquè les imatges tinguin millor resolució
%config InlineBackend.figure_format='retina'

Per fer un gràfic ens calen dades. Per exemple cinc punts en dues dimensions

In [None]:
X = np.array([1, 2, 3, 4, 5])
Y = X**3
plt.plot(X, Y)
# plt.show() # Si no fós un notebook caldria això

## Format de línia

Es pot canviar el format del marcador, línia i color ràpidament amb un tercer argument:

    fmt = '[marcador][línia][color]'

**Marcadors**

| caràcter| marcador|
|:---- |:---- |
|``'.'``     |    punt|
|``'o'``     |    cercle|
|``'v'``     |    triangle cap avall|
|``'^'``     |    triangle cap amunt|
|``'s'``     |    quadrat|
|``'*'``     |    estrella|
|``'+'``     |    creu|
|``'x'``     |    x|

**Estils de línia**

| caràcter| línia|
|:---- |:---- |
|``'-'``          |línia sòlida|
|``'--'``         |línia discontínua|
|``'-.'``         |línia de línies i punts|
|``':'``          |línia de punts|


**Colors**

| caràcter|color|
|:---- |:---- |
|``'b'``     |blau|
|``'g'``     |verd|
|``'r'``     |vermell|
|``'c'``     |    cyan|
|``'m'``     |     magenta|
|``'y'``     |groc|
|``'k'``     |negre|
|``'w'``     |blanc|

Examples:

    'b'    # color blau
    'or'   # cercles vermells 
    '-g'   # línia verda 
    '--'   # línia discontínua 
    '^k:'  # triangle cap amunt negre amb línia de punts

In [None]:
plt.plot(X, Y, "o--g")

In [None]:
plt.plot(X, Y, "x:k")

Aquests mateixos paràmetres es poden canviar amb els arguments `marker`, `linestyle`i `color`.

- Per canviar el gruix de línia es fa servir `linewidth` (per defecte és 2)
- Per canviar el tamany del marcador es fa servir `markersize` (per defecte és 5)

In [None]:
plt.plot(X, Y, marker="v", linestyle="-.", color="grey", linewidth=3, markersize=10)

## Diverses línies en una mateixa figura

Es poden fer tantes línies com vulguem dins un mateix gràfic.

In [None]:
X = np.linspace(-np.pi, np.pi, 200)
C, S = np.cos(X), np.sin(X)
plt.plot(X, C)
plt.plot(X, S)

També es poden crear varies línies dins un sol `plt.plot`, però no és recomanable

In [None]:
plt.plot(X, C, "r-", X, S, "g--")

Si cridem `plt.show()` es comença un nou gràfic

In [None]:
plt.plot(X, C)
plt.show()
plt.plot(X, S)
plt.show()

## Eixos, títol i llegenda

- `plt.xlabel` i  `plt.ylabel` controlen el nom dels eixos
- `plt.title` posa un títol (no recomenat per publicacions acadèmiques)
- `plt.legend` posa la llegenda. Els noms de la llegenda es poden posar un per un, o tots de cop

In [None]:
X = np.linspace(-np.pi, np.pi, 200)
C, S = np.cos(X), np.sin(X)
plt.plot(X, C, label="cosinus")
plt.plot(X, S, label="sinus")

plt.xlabel("Temps (s)")
plt.ylabel("Posició (m)")
plt.title("Les funcions trigonomètriques")
plt.legend()

In [None]:
plt.plot(X, C)
plt.plot(X, S)
plt.legend(labels=["cosinus", "sinus"])

Es pot canviar la posició i aspecte de la llegenda

In [None]:
plt.plot(X, C)
plt.plot(X, S)
plt.legend(
    labels=["cosinus", "sinus"],
    loc="upper right",
    frameon=False,
)

I podem canviar el tamany de la text a qualsevol posició (per defecte és 10)

In [None]:
FONTSIZE = 15

plt.plot(X, C)
plt.plot(X, S)

plt.xlabel("Temps (s)", fontsize=FONTSIZE)
plt.ylabel("Posició (m)", fontsize=FONTSIZE)
plt.title("Les funcions trigonomètriques", fontsize=20)
plt.legend(labels=["cosinus", "sinus"], fontsize=FONTSIZE)

## Format de la figura

Abans de començar la figura, podem canviar les opcions principals amb argument de `plt.figure()`, com el tamany i la resolució.

La mida de la figura en pantalla ve determinada pel tamany (`figsize`, en polzades) multiplicat pel `dpi` ("dots per inch"), és a dir, píxels per polzada.

Jugant amb aquest dos paràmetres tindrem figures amb línies més primes o gruixudes

In [None]:
X = np.linspace(-1, 2, 200)
exp, arctan = np.exp(X), np.arctan(X)

In [None]:
plt.figure(figsize=(5, 5), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

In [None]:
plt.figure(figsize=(2.5, 2.5), dpi=200)
plt.plot(X, exp)
plt.plot(X, arctan)

`plt.grid()` mostra una graella

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)
plt.grid()

`xlim` i `ylim` canvien els límits dels eixos

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

plt.xlim(-1.2, 2.2)
plt.ylim(-1, 4)

`xticks` i `yticks` canvien la posició de les marques als eixos 

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

plt.xticks([-1, 0, 1, 2])
plt.yticks([1, 4, 7])

Finalment, el tamany del text dels propis eixos també es pot canviar

In [None]:
plt.figure(figsize=(4, 2), dpi=100)
plt.plot(X, exp)
plt.plot(X, arctan)

plt.xticks([-1, 0, 1, 2], fontsize=FONTSIZE)
plt.yticks([1, 4, 7], fontsize=FONTSIZE)

## Exercici

Reprodueix la següent figura

![exemple_potencies.png](imatges/exemple_potencies.png)

In [None]:
X = np.linspace(-10, 10, 200)
plt.plot(X, X**2, label="$x^2$")
plt.plot(X, X**3, label="$x^3$")
plt.plot(X, X**4, label="$x^4$")

## Tipus de gràfics

**De barres**

In [None]:
X = np.array([1, 2, 3, 4, 5])
Y = X**3
plt.bar(X, Y)

In [None]:
plt.barh(X, Y)

**Núvol de punts**

In [None]:
plt.scatter(X, Y)

**Histograma**

In [None]:
normal = np.random.normal(size=1000)
plt.hist(normal)
plt.show()

In [None]:
plt.hist(normal, bins=20)
plt.show()

In [None]:
plt.hist(normal, bins=50)
plt.show()

Si volem superposar dos gràfics, podem canviar el paràmetre de transparència `alpha`.

In [None]:
normal2 = np.random.normal(size=1000)
plt.hist(normal2, bins=20)
normal3 = np.random.normal(size=1000)
plt.hist(normal3, bins=20)
plt.show()

In [None]:
normal2 = np.random.normal(size=1000)
plt.hist(normal2, bins=20, alpha=0.5)
normal3 = np.random.normal(size=1000)
plt.hist(normal3, bins=20, alpha=0.5)
plt.show()

Podem fer servir variables categòriques en comptes de numèriques

In [None]:
noms = ["group a", "grup B", "grup C"]
valors = [1, 10, 100]
plt.bar(noms, valors)
plt.show()
plt.scatter(noms, valors)
plt.show()
plt.plot(noms, valors)

I combinar tipus de gràfic diferents (cal que tingui algun sentit)

In [None]:
noms = ["group a", "grup B", "grup C"]
valors = [1, 10, 100]
plt.bar(noms, valors, alpha=0.8)
plt.scatter(noms, valors)
plt.plot(noms, valors, "g")

## Integració amb Pandas

Pandas es basa en Numpy i Matplotlib. Es poden fer gràfics directament des de Pandas.

En comptes de fer `plt.plot()`, es pot fer directament del DataFrame

In [None]:
import pandas as pd

In [None]:
dades = pd.read_csv("data/eulp2018/eulp2018.data.csv", sep="\t")
dades["ANY_NAIX"].hist()

Alguna opció per defecte és diferent, però es pot modificar

In [None]:
dades["ANY_NAIX"].hist(color="green")
plt.grid(False)
plt.xlabel("Any de naixament")
plt.ylabel("Freqüència absoluta")

I direu, quina tonteria, és el mateix que fer

In [None]:
plt.hist(dades["ANY_NAIX"])
plt.show()

Però, la gràcia és que permet fer molts gràfics de cop (tot i que és sobretot per explorar les dades)

In [None]:
dades.hist(figsize=(20, 30))
plt.show()

## Solució

In [None]:
plt.figure(figsize=(10, 6), dpi=100)
FONTSIZE = 15
FONTSIZE2 = 20

plt.plot(X, X**2, label="$x^2$", color="purple", linewidth=1)
plt.plot(X, X**3, label="$x^3$", linestyle="--")
plt.plot(X, X**4, label="$x^4$", linestyle=":", linewidth=4)

plt.xticks(np.arange(-10, 11, 2.5), fontsize=FONTSIZE)
plt.yticks([-20, -10, 0, 15, 40, 80], fontsize=FONTSIZE)

plt.ylim([-20, 100])
plt.xlabel("$x$", fontsize=FONTSIZE2)
plt.ylabel("$f(x)$", fontsize=FONTSIZE2)
plt.title("Potències", fontsize=FONTSIZE)
plt.legend(loc="lower right", fontsize=FONTSIZE)
plt.savefig("imatges/exemple_potencies.png")