# Matplotlib i Seaborn

##### Źródło: Python Data Science Handbook
https://github.com/donnemartin/data-science-ipython-notebooks

#### Dlaczego Matplotlib?
- Duża baza użytkowników/developerów
- Pyplot - moduł z prostymi funkcjami do zarządzania elementami wykresu
- API Matplotlib jest używane w różnych innych pakietach - np. Seaborn
- Nawet jeśli wybierzesz inne pakiety, istnieje duża szansa, że będziesz potrzebował hacków PLT do dostosowania


In [None]:
import matplotlib.pyplot as plt 
import numpy as np
import seaborn as sns


## Figure i axes

https://matplotlib.org/stable/tutorials/introductory/quick_start.html


Matplotlib wyświetla dane na wykresach - **Figures** - które mogą zawierać jedną lub więcej **Axes** - czyli obszarów, w którym punkty mogą być określone jako współrzędnych x-y 


<div>
<img src="attachment:5d45888d-fd71-4ebc-a110-01d50ba1b52a.png" width="500"/>
</div>


https://matplotlib.org/stable/tutorials/introductory/quick_start.html#sphx-glr-tutorials-introductory-quick-start-py

In [None]:
fig = plt.figure() # contains all the objects representing axes, graphics, text, and labels.
ax = plt.axes() #a bounding box with ticks and labels, which will include the plot elements that make up our visualization.

In [None]:
# 1. wykres

fig = plt.figure() 
ax = plt.axes()
x = np.linspace(0, 10, 1000)  #numpy.linspace(start, stop, num=50) Return evenly spaced numbers over a specified interval.

ax.plot(x, np.sin(x))
plt.show()

In [None]:
# Istnieje alternatywny interfejs, w którym nie trzeba definiować figury, a ax jest tworzone domyślnie

plt.plot(x, np.sin(x))
plt.show()

In [None]:
# Więcej zmiennych

fig = plt.figure() 
ax = plt.axes()

ax.plot(x, np.sin(x))
ax.plot(x, np.cos(x))


plt.show()

### Kolory

In [None]:
### różne sposoby definiowania kolorów
x = np.linspace(0, 10, 1000)

fig = plt.figure() 
ax = plt.axes()



ax.plot(x, np.sin(x - 0), color='blue') # specify color by name 
ax.plot(x, np.sin(x - 1), color='g') # short color code (rgbcmyk) 
ax.plot(x, np.sin(x - 2), color='0.75') # Grayscale between 0 and 1 
ax.plot(x, np.sin(x - 3), color='#FFDD44') # Hex code (RRGGBB from 00 to FF) 
ax.plot(x, np.sin(x - 4), color=(1.0,0.2,0.3)) # RGB tuple, values 0 and 1 
ax.plot(x, np.sin(x - 5), color='chartreuse'); # all HTML color names supported

Lista kolorów według nazw: 
https://matplotlib.org/3.1.0/gallery/color/named_colors.html

### Style linii

In [None]:
fig = plt.figure() 
ax = plt.axes()

ax.plot(x, x + 0, linestyle='solid')

ax.plot(x, x + 1, linestyle='dashed')

ax.plot(x, x + 2, linestyle='dashdot')

ax.plot(x, x + 3, linestyle='dotted')

### Ćwiczenie

Utwórz wykres dla sin(x) i sqrt (x) z różnymi kolorami i stylami linii




###  Dostosowanie osi Y

In [None]:
fig = plt.figure() 
ax = plt.axes()

x = np.linspace(0, 10, 1000)
ax.plot(x, np.sin(x))
plt.show()

In [None]:
## ustawić osie z wartościami min/max

fig = plt.figure() 
ax = plt.axes()

ax.plot(x, np.sin(x))

ax.set_xlim(-1, 11)
ax.set_ylim(-1.5, 1.5)

plt.show()



### Tytuły i etykiety

In [None]:
fig = plt.figure() 
ax = plt.axes()

ax.plot(x, np.sin(x))

ax.set_title("A Sine Curve")
ax.set_xlabel("x") 
ax.set_ylabel("sin(x)")
plt.show()

In [None]:
fig = plt.figure() 
ax = plt.axes()

ax.plot(x, np.sin(x), '-g', label='sin(x)')
ax.plot(x, np.cos(x), ':b', label='cos(x)')

plt.legend()

### Markery

In [None]:
fig = plt.figure() 
ax = plt.axes()


x = np.linspace(0, 10, 30) 
y = np.sin(x)

ax.plot(x, y, 'o', color='black');

In [None]:
fig = plt.figure() 
ax = plt.axes()


ax.plot(x, y, '-o', color='black')

In [None]:
fig = plt.figure() 
ax = plt.axes()

for marker in ['o', '.', ',', 'x', '+', 'v', '^', '<', '>', 's', 'd']:
    ax.plot(x,y, marker)
    plt.show()

In [None]:
fig = plt.figure() 
ax = plt.axes()

ax.plot(x, y, '-p', color='gray',
                    markersize=15, linewidth=4,
                    markerfacecolor='white',
                    markeredgecolor='gray',
                    markeredgewidth=2)
ax.set_ylim(-1.2, 1.2)
plt.show()

### Zapisywanie wykresów

In [None]:
fig.canvas.get_supported_filetypes()

https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html

In [None]:
fig = plt.figure() 
ax = plt.axes()

ax.plot(x, y, '-p', color='gray',
                    markersize=15, linewidth=4,
                    markerfacecolor='white',
                    markeredgecolor='gray',
                    markeredgewidth=2)
ax.set_ylim(-1.2, 1.2)

plt.tight_layout()
plt.savefig('/Users/kristof/Documents/test/my_figure.png')
plt.show()


## Ćwiczenie

Dla x przygotuj wykres cos(x):
- wybierz marker
- kolor
- ustaw oś y w przedziale od -1,5 do 1,5
- zapisz wykres jako "test_fig.pdf"


## PLT i Pandas

In [None]:
tips = sns.load_dataset("tips")

In [None]:
tips

In [None]:
fig = plt.figure() 
ax = plt.axes()

ax.plot(tips['tip'], tips['total_bill'], 'o')
ax.set_xlabel('tip')
ax.set_ylabel('total bill')

In [None]:
tips

In [None]:
smoker=tips[tips['smoker']=='Yes']
notsmoker=tips[tips['smoker']=='No']


fig = plt.figure() 
ax = plt.axes()
ax.plot(smoker['tip'], smoker['total_bill'], 'o', label='smoker')
ax.plot(notsmoker['tip'], notsmoker['total_bill'], 'o', label='not smoker')
ax.set_xlabel('tip')
ax.set_ylabel('total bill')
plt.legend()

# Seaborn

https://github.com/donnemartin/data-science-ipython-notebooks

API Matplotliba jest stosunkowo niskopoziomowe. Robienie skomplikowanych wizualizacji statystycznych jest możliwe, ale często wymaga wielu szablonów kodu.
Matplotlib poprzedził Pandas o ponad dekadę i dlatego nie jest przeznaczony do użycia z Pandas DataFrames. Aby zwizualizować dane z Pandas DataFrame, musisz wyodrębnić każdą serię i często łączyć je razem do odpowiedniego formatu. Byłoby lepiej mieć bibliotekę do tworzenia wykresów, która może inteligentnie używać DataFrame w wykresie.

Seaborn dostarcza API na bazie Matplotlib, które oferuje rozsądny wybór stylu i kolorów domyślnych, definiuje proste funkcje wysokiego poziomu dla typowych typów wykresów statystycznych i integruje się z funkcjonalnością dostarczaną przez Pandas DataFrame.


https://seaborn.pydata.org/tutorial/introduction.html

Oto przykład tego, co potrafi seaborn:


In [None]:
# Load an example dataset
tips = sns.load_dataset("tips")

# Create a visualization
sns.relplot(
    data=tips,
    x="total_bill", y="tip", col="time",
    hue="smoker", style="smoker", size="size",
)

Większość kodu w dokumentach będzie używać funkcji load_dataset(), aby uzyskać szybki dostęp do przykładowego zbioru danych. Nie ma nic specjalnego w tych zbiorach danych: są to po prostu pandas DF i mogliśmy je załadować za pomocą pandas.read_csv() lub zbudować je ręcznie. 




Ten wykres pokazuje związek pomiędzy pięcioma zmiennymi w zbiorze danych tips, używając pojedynczego wywołania funkcji seaborn relplot(). Zauważ, że podaliśmy tylko nazwy zmiennych i ich role w wykresie. W przeciwieństwie do bezpośredniego użycia matplotlib, nie było potrzeby określania atrybutów elementów wykresu w postaci wartości kolorów czy kodów znaczników. Za kulisami, seaborn zajął się tłumaczeniem z wartości w dataframe na argumenty zrozumiałe dla matplotliba. Takie deklaratywne podejście pozwala skupić się na pytaniach, na które chcemy odpowiedzieć, a nie na szczegółach tego, jak sterować matplotlibem.

Większość interakcji z seabornem odbywa się za pomocą zestawu funkcji plotujących. Ten rozdział przedstawia, na wysokim poziomie, różne rodzaje funkcji, z którymi można się spotkać.


Większość dokumentacji jest zorganizowana wokół tych modułów: można spotkać nazwy takie jak "relacyjny", "dystrybucyjny" i "kategoryczny".

Na przykład moduł distributions definiuje funkcje, które specjalizują się w reprezentowaniu rozkładu punktów danych. Obejmuje to znane metody, takie jak histogram:


<div>
<img src="attachment:cc8ed177-2142-49a5-aed2-fed0c0e0537c.png" width="800"/>
</div>



In [None]:
penguins = sns.load_dataset("penguins")

In [None]:
## Figure level

sns.displot(data=penguins, x="flipper_length_mm", hue="species")

In [None]:
sns.displot(data=penguins, x="flipper_length_mm", hue="species", kind="kde")



In [None]:
### Axes level

sns.kdeplot(data=penguins, x="flipper_length_mm", hue="species")


## Ćwiczenie

Dla datasetu "penguins" przygotuj:

- scatterplot, gdzie x: bill_length_mm, y=bill_depth_mm: przedstaw "species" z różnymi kolorami
- violinplot, gdzie x: bill_length_mm
- boxlot, gdzie x: bill_length_mm



## Multiplots

Przygotujmy multiplot'a:

In [None]:
fig, ax = plt.subplots(2)
ax[0].plot(x, y)
ax[1].plot(x, y)

In [None]:
f, axes = plt.subplots(2, 2)

In [None]:
penguins=sns.load_dataset("penguins")
f, axes = plt.subplots(1, 2)
sns.scatterplot(data=penguins, x="flipper_length_mm", y="bill_length_mm", hue="species", ax=axes[0])
sns.histplot(data=penguins, x="species", hue="species", legend=False, ax=axes[1])
f.tight_layout()


In [None]:
fig, ax=plt.subplots(1, 2, sharey='row')
sns.scatterplot(data=tips[tips['sex']=='Male'], x="total_bill", y="tip", hue='smoker', ax=ax[0])
sns.scatterplot(data=tips[tips['sex']=='Female'], x="total_bill", y="tip", hue='smoker', ax=ax[1])
ax[1].set_ylim(0, 10)
ax[1].get_legend().remove()
ax[0].set_title('sex=Male')
ax[1].set_title('sex=Female')
sns.despine()

## Możemy też skorzystać z figure-level wykresów

In [None]:
sns.relplot(data=tips, x="total_bill", y="tip", col="sex", hue='smoker')

In [None]:
penguins

## Jointplot i Pairplot: specjalne wykresy

In [None]:
sns.jointplot(data=penguins, x="flipper_length_mm", y="bill_length_mm", hue="species")

In [None]:
for kind in ['scatter', 'kde', 'hist']:
    print(kind)
    sns.jointplot(data=penguins, x="flipper_length_mm", y="bill_length_mm", hue="species", kind=kind)
    plt.show()
    

In [None]:
sns.pairplot(data=penguins, hue="species")

## Ćwiczenie

- Przygotuj jointplot o tips, gdzie x: total_bill, y: tip. Jakie są wszystkie dostępne rodzaje jointplots?
- Przygotuj multiplot o pingwinach za pomocą relplot, gdzie wykresy przedstawiają 'bill_length_mm' oraz 'bill_depth_mm' z różnymi kolorami dla 'sex'.
