# Matplotlib

Matplotlib (MATLAB plot library) – biblioteka do wizualizacji danych (powstała z inspiracji językiem MATLAB)

Instalacja biblioteki:                       

In [None]:
%pip install matplotlib

Załadowanie bibliotek:

In [None]:
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np              

Wczytanie danych:

In [None]:
data = pd.read_csv('StudentsPerformance.csv') 

data['parental level of education'] = data['parental level of education'].astype('category').cat.reorder_categories(['some high school',    
                                                                                                                     'high school',
                                                                                                                     'some college',
                                                                                                                     "associate's degree",
                                                                                                                     "bachelor's degree",
                                                                                                                     "master's degree"], ordered = True) 

Dane dotyczą wyników uczniów z kilku testów:

In [None]:
data.head()

In [None]:
data.info()

## Tworzenie wykresów

### Wykres liniowy

Podstawową funkcją bibllioteki matplotlib jest **plot**, który służy do tworzenia wykresów liniowych. \
Jej głównymi argumentami są listy x = [$x_1$, $x_2$, ... , $x_n$] i y = [$y_1$, $y_2$, ... , $y_n$], które definiują punkty tworzonego wykresu: $(x_1, y_1)$, $(x_2, y_2)$, ... , $(x_n, y_n)$, które zostaną na nim połączone. \
**show** wywołuje wykres z wszystkim, co zostało podane do wykresu do tego momentu.

In [None]:
plt.plot([1, 2, 3, 4, 5], [1, 16, 9, 25, 4])
plt.show()

In [None]:
plt.plot([1, 2, 3, 4, 5], [1, 16, 9, 25, 4],
         linestyle  = 'dashed',                 # typ linii - przerywana
         linewidth  = 3,                        # grubość linii
         marker     = '*',                      # znacznik punktów
         markersize = 10,                       # wielkość znaczników punktów
         color      = 'red',                    # kolor 
         alpha      = 0.3)                      # przezroczystość
plt.show()

Więcej argumentów funkcji plot: \
https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.plot.html

### Cechy wykresów

Załóżmy, że chcemy stworzyć wykres funkcji matematycznej. \
Do stworzenia listy argumentów możemy użyć numpy.arange lub numpy.linspace, natomiast do stworzenia listy wartości odpowiedniego jej przekształcenia za pomocą wzoru lub funkcji z pakietu numpy.

In [None]:
x  = np.arange(0, 3.01, 0.01)
y1 = np.sqrt(x)
y2 = x**2

In [None]:
plt.style.use('ggplot')                           # styl wykresu - zbiór cech wyglądu przypisanych automatycznie do wybranego stylu (domyślnie jest 'default') - pozostaje po wywołaniu wykresu, aż do ponownej zmiany

plt.figure(figsize = (5, 7))                      # rozmiar wykresu: poziomo x pionowo (domyślnie jest 6 x 4)


plt.plot(x, y1, label = '$\\sqrt{x}$')             # label - etykieta wykresu do legendy
plt.plot(x, y2, label = '$x^2$')


plt.legend(title          = '$f(x)$\n',           # tytuł
           loc            = 'upper left',         # lokalizacja
           frameon        = True,                 # czy ma być ramka
           facecolor      = 'white',              # kolor tła
           fontsize       = 14,                   # rozmiar czcionki
           title_fontsize = 17)                   # rozmiar czcionki tytułu
 
plt.xlabel('\n$x$', size = 16)                    # podpis osi x lub y; rozmiar czcionki
plt.ylabel('$y$\n', size = 16)
plt.title('\nDwie funkcje\n', size = 17)          # tytuł

plt.xticks(np.arange(0, 4, 1), size = 13)         # punkty na osi x lub y
plt.yticks(np.arange(0, 10, 1), size = 13) 

plt.xlim(-0.5, 3.5)                               # przedział ujęty na osi x lub y
plt.ylim(-1, 10)

plt.tight_layout()                                # dopasowanie marginesów do zawartości wykresu
plt.savefig('przykladowy_wykres.png', dpi = 300)  # zapis wykresu do pliku o podanej nazwie i określonej jakości
plt.show()

Więcej funkcji w matplotlib: \
https://matplotlib.org/stable/api/pyplot_summary.html

---

# Ćwiczenie

Stwórz wykres funkcji logarytmu naturalnego (np.log) na przedziale (1, 5). \
Punkty na osi x niech będą co 1, a na osi y co 0,3.

---

# Wykresy rozkładu jednej zmiennej

## Zmienna nominalna

Rozkład zmiennej nominalnej można przedstawić na wykresie kołowym (funkcja **pie**) lub słupkowym (funkcja **bar**). \
Oba z nich tworzy się przez podanie częstości poszczególnych wartości, określając w ten sposób bezpośrednio wielkość "pie-ów" lub słupków.

### Wykres kołowy

**Tabela częstości:**

In [None]:
gender_freq = data['gender'].value_counts() 
gender_freq

**Wykres surowy:**

In [None]:
plt.pie(gender_freq, labels = gender_freq.index)
plt.show()

**Wykres gotowy:**

In [None]:
plt.figure(figsize = (4.2, 2.6))                                    

plt.pie(gender_freq, labels = ['kobiety', 'mężczyźni'],
        startangle   = 90,                                # kąt rozpoczęcia wykresu - domyślnie jest 0 (od osi x)
        counterclock = False,                             # czy przeciwnie do ruchu wskazówek zegara
        autopct      = '%1.1f%%',                         # dodanie etykiet procentów
        radius       = 1.3,                               # promień
        colors       = ['pink', 'lightblue'])             # kolory

plt.tight_layout()
plt.savefig('kolowy_plec.png', dpi = 300)
plt.show()

### Wykres słupkowy

**Tabela częstości:**

In [None]:
race_freq = data['race/ethnicity'].value_counts()
race_freq

**Wykres surowy:**

In [None]:
plt.bar(race_freq.index, race_freq)
plt.show()

**Wykres gotowy:**

In [None]:
plt.bar(race_freq.index.str[-1], race_freq,
        color     = 'darkorange',
        edgecolor = 'white')

plt.xlabel('\ngrupa',    size = 16)                      
plt.ylabel('częstość\n', size = 16)

plt.xticks(size = 16)
plt.yticks(size = 16)

plt.tight_layout()
plt.savefig('slupkowy_grupa.png', dpi = 300)
plt.show()

## Zmienna porządkowa

Rozkład zmiennej porządkowej również można przedstawić na wykresie słupkowym, ale z etykietami w kolejności poziomów tej zmiennej.

### Wykres słupkowy

**Tabela krzyżowa** z uporządkowanymi poziomami:

In [None]:
eduction_freq = data['parental level of education'].value_counts(sort = False) 
eduction_freq 

**Wykres surowy**:

In [None]:
plt.bar(eduction_freq.index, eduction_freq)
plt.show()

Problem: ?

Rowiązanie 1:

In [None]:
plt.figure(figsize = (12, 4))

plt.bar(eduction_freq.index, eduction_freq)
plt.show()

Rozwiązanie 2: 

In [None]:
education_levels = ['some\n high\n school',
                    'high\n school',
                    'some\n college',
                    "associate's\n degree",
                    "bachelor's\n degree",
                    "master's\n degree"]

**Wykres gotowy:**

In [None]:
plt.figure(figsize = (7, 4))

plt.bar(education_levels, eduction_freq,
        color     = 'olive',
        edgecolor = 'white')

plt.xlabel('\nwykształcenie rodziców [poziom]', size = 14)                      
plt.ylabel('częstość\n',                        size = 14)

plt.xticks(size = 11)
plt.yticks(size = 13)

plt.tight_layout()
plt.savefig('slupkowy_wyksztalcenie.png', dpi = 300)
plt.show()

## Zmienna ilościowa

Rozkład zmiennej ilościowej można przedstawić na histogramie lub wykresie pudełkowym.

### Histogram

Histogram podobnie jak wykres słupkowy przedstawia w postaci słupków częstość poszczególnych wartości, jednak nie dla każdej z osobna, a należących wspólnie do przedziału.

Histogram może być **częstościowy** lub **gęstościowy** w zależności od tego, co przedstawia jego oś y.

Oś y histogramu częstościowego, analogicznie do wykresu słupkowego, przedstawia liczbę obserwacji znajdujących się w danym przedziale. \
Oś y histogramu gęstościowego przedstawia natomiast ich odsetek wśród wszystkich obserwacji - jest przeskalowana tak, by pole wszystkich słupków wynosiło 1. 

Pozostałe elementy obu typów histogramów są takie same - histogram gęstościowy jest tylko znormalizowaną wersją histogramu częstościowego.

**Statystyki opisowe zmiennej:**

In [None]:
data['math score'].describe()

**Wykres surowy:**

In [None]:
plt.hist(data['math score'])
plt.show()

**Wykres gotowy:**

In [None]:
plt.hist(data['math score'],                             # podajemy całą zmienną
         bins      = np.arange(0, 101, 5),               # lista punktów wyznaczających granice przedziałów 
         density   = True,                               # czy histogram gęstościowy             
         color     = 'gold',
         edgecolor = 'white')

plt.xlabel('\nwynik testu z matematyki [pkt]', size = 16)             
plt.ylabel('gęstość\n',                        size = 16)

plt.xticks(size = 14)
plt.yticks(size = 14)

plt.ylim(0, 0.0315)

plt.tight_layout()                                                                                                                                         
plt.savefig('histogram_matematyka.png', dpi = 300)  
plt.show()

### Wykres pudełkowy

Wykres pudełkowy jest wykresem jednowymiarowym, przedstawiającym na osi kwantyle rozkładu zmiennej ilościowej oraz jego wartości odstające.

Linie tworzące granice pudełka to kwartyle $Q_1$, $Q_2$ (mediana), $Q_3$.

Wąsy wykresu odchodzą od $Q_1$ i $Q_3$ o 1,5 wartości rozstępu międzykwartylowego lub do odpowiednio najmniejszej lub największej wartości zaobserwowanej w danych.

Obserwacje, które znajdą się poza wąsami wykresu - obserwacje odstające zmiennej, oznacza się kropkami.

    Q1 - 1.5 IQR         Q1  median  Q3         Q3 + 1.5 IQR
          
                         |-----|-----| 
   o     |---------------|     |     |---------------|     o  o
                         |-----|-----| 
                       
 flier                   <----------->                    fliers
                              IQR 

**Kwantyle rozkładu zmiennej:**

In [None]:
data['math score'].quantile([0, 0.25, 0.5, 0.75, 1])

**Wykres surowy:**

In [None]:
plt.boxplot(data['math score'])                                               
plt.show()

**Wykres gotowy:**

In [None]:
plt.figure(figsize = (6, 3))

plt.boxplot(data['math score'],                                                    # podajemy całą zmienną
            orientation = 'horizontal',                                            # poziomo
            boxprops    = dict(facecolor = 'lightyellow'), patch_artist = True)    # kolor pudełka 

plt.xlabel('\nwynik testu z matematyki [pkt]', size = 14)

plt.xticks(size = 14)
plt.yticks([])                                                                     # usunięcie punktów na osi y

plt.tight_layout()
plt.savefig('pudelkowy_pisanie_kurs.png', dpi = 300)
plt.show()

---

# Ćwiczenie

1. Stwórz wykres **kołowy** rozkładu zmiennej race/ethnicity.

2. Stwórz wykres rozkładu zmiennej reading score.

---

# Wykresy dwóch zmiennych

## Zmienna ilościowa vs zmienna ilościowa

Rozkład dwóch zmiennych ilościowych względem siebie można przedstawić na przykład za pomocą **wykresu rozrzutu**.

### Wykres rozrzutu

Jeśli mamy zmienne x i y, których wartości w kolumnie to odpowiednio: [$x_1$, $x_2$, ... , $x_n$] i [$x_1$, $x_2$, ... , $x_n$], to punkty $(x_1, y_1)$, $(x_2, y_2)$, ... , $(x_n, y_n)$ na układzie współrzędnych, tworzą ich wykres rozrzutu.

**Statystyki opisowe zmiennych:**

In [None]:
data[['math score', 'math score']].describe()

**Wykres surowy:**

In [None]:
plt.scatter(data['math score'], data['reading score'])
plt.show()

**Wykres gotowy:**

In [None]:
plt.style.use('default')

plt.figure(figsize = (5.5, 5.5)) 
plt.grid()

plt.scatter(data['math score'], data['reading score'],      # podajemy całe zmienne
            color     = 'green',
            edgecolor = 'black',
            alpha     = 0.2,
            s         = 8)                                  # rozmiar punktów

plt.xlabel('\nwynik testu z matematyki [pkt]', size = 15)
plt.ylabel('wynik testu z czytania [pkt]\n',   size = 15)

plt.xticks(size = 13)
plt.yticks(size = 13)

plt.ylim(-5, 105)

plt.tight_layout()
plt.savefig('rozrzutu_matematyka_czytanie.png', dpi = 500)
plt.show()

plt.style.use('ggplot')

## Zmienna ilościowa vs zmienna porządkowa

Rozkład zmiennej ilościowej względem zmiennej porządkowej można przedstawić za pomocą agregacji zmiennej ilościowej dla poziomów zmiennej porządkowej.

### Wykres słupkowy

**Rozkład średniej zmiennej ilościowej względem zmiennej porządkowej:**

In [None]:
writing_education_mean = data.groupby('parental level of education', observed = False)['writing score'].mean()
writing_education_mean

**Wykres:**

In [None]:
plt.figure(figsize = (7, 5))

plt.bar(education_levels, writing_education_mean,
        color     = 'olive',
        edgecolor = 'white')

plt.xlabel('\nwykształcenie rodziców [poziom]',      size = 14)                      
plt.ylabel('średni wynik z testu z pisania [pkt]\n', size = 14)

plt.xticks(size = 11)
plt.yticks(size = 13)

plt.tight_layout()
plt.savefig('slupkowy_wyksztalcenie_pisanie.png', dpi = 300)
plt.show()

## Zmienna porządkowa vs zmienna porządkowa

Rozkład dwóch zmiennych porządkowych względem siebie można przedstawić na przykład za pomocą **mapy ciepła**.

### Mapa ciepła

**Mapa ciepła**, analogicznie do wykresu słupkowego, pokazuje częstość danej pary wartości tych zmiennych, jednak przedstawia to za pomocą nie wysokości słupka dla poszczególnych wartości na osi, a określonego odcienia koloru na przestrzeni osi obu zmiennych. \
Argumentem funkcji imshow, tworzącej mapę ciepła, jest tabela krzyżowa obu zmiennych.

Ze względu na tylko jedną zmienną porządkową w danych, na potrzeby przykładu, tworzę poniżej trychotomizację zmiennej ilościowej.

In [None]:
reading_level = data['reading score'].map(lambda x: 'high'   if x > 80 else (
                                                    'medium' if x > 60 else
                                                    'low')).astype('category').cat.reorder_categories(['low', 'medium', 'high'], ordered = True) 
reading_level.value_counts()

**Tabela krzyżowa:**

In [None]:
reading_education_freq = pd.crosstab(reading_level, data['parental level of education'])     
reading_education_freq

**Wykres surowy:**

In [None]:
plt.imshow(reading_education_freq)
plt.show()

**Wykres gotowy:**

In [None]:
plt.style.use('default')

plt.figure(figsize = (7, 5))

plt.imshow(reading_education_freq,
           vmin = 0, vmax = 120)                               # przedział wartości częstości, na których rozpięta ma być skala odcieni

plt.colorbar(orientation = 'horizontal',                       # ustawienia paska kolorów
             location    = 'top',
             label       = 'częstość\n')

plt.xlabel('\nwykształcenie rodziców [poziom]', size = 14)
plt.ylabel('wynik testu z czytania [pkt]\n',    size = 14)

plt.xticks(np.arange(0, 6, 1), education_levels,              size = 11)               # podpisanie punktów w przestrzeni poziomami zmiennych
plt.yticks(np.arange(0, 3, 1), ['niski', 'średni', 'wysoki'], size = 11)

plt.tight_layout()
plt.savefig('ciepla_wyksztalcenie_czytanie3.png', dpi = 300)
plt.show()

plt.style.use('ggplot')

## Zmienna ilościowa vs zmienna nominalna

Gdy chcemy przedstawić rozkład zmiennej ilościowej względem zmiennej nominalnej możemy zrobić to dla każdego poziomu zmiennej nominalnej przedstawić kilka rozkładów zmiennej ilościowej na jednym wykresie lub skorzystać z panelu wykresów tej zmiennej.

### Panel wykresów pudełkowych

**Kwantyle rozkładu zmiennej dla grup:**

In [None]:
data.groupby('test preparation course')['writing score'].quantile([0, 0.25, 0.5, 0.75, 1])

**Podzbiory zmiennej ilościowej względem zmiennej nominalnej:**

In [None]:
course_yes = data.loc[data['test preparation course'] == 'completed', 'writing score']
course_no  = data.loc[data['test preparation course'] == 'none',      'writing score']

**Wykres surowy:**

In [None]:
plt.boxplot([course_yes, course_no]) 
plt.show()

**Wykres gotowy:**

In [None]:
plt.boxplot([course_yes, course_no],                                              # lista podzbiorów zmiennej ilościowej, dla których mają być stworzone wykresy
            orientation = 'horizontal',
            boxprops    = dict(facecolor = 'lightyellow'), patch_artist = True) 

plt.ylabel('czy kurs przygotowawczy do testów\n', size = 14)
plt.xlabel('\nwynik testu z pisania [pkt]',    size = 14)

plt.xticks(size = 14)
plt.yticks([1, 2], ['Nie', 'Tak'], size = 14)                                     # podpisanie punktów na osi y poziomami zmiennej nominalnej

plt.xlim(-10, 110)

plt.tight_layout()
plt.savefig('pudelkowy_pisanie_kurs.png', dpi = 300)
plt.show()

### Histogram podwójny

**Wykres surowy:**

In [None]:
plt.hist(course_yes)                           
plt.hist(course_no)   

plt.show()

**Wykres gotowy:**

In [None]:
bins = np.arange(0, 101, 5)               


plt.grid()                                                    # usunięcie siatki ze względu na prześwitywanie pod przezroczystością wykresów

plt.hist(course_yes,
         bins      = bins,
         density   = True,                                    # histogram podwójny powinnien być gęstościowy, a więc znormalizowany, żeby zrównoważyć nierówność grup
         color     = 'red',
         edgecolor = 'white',
         alpha     = 0.3,                                     # przezroczystość, żeby widać było drugi z wykresów
         label     = 'Tak')                           
plt.hist(course_no,
         bins      = bins,
         density   = True,
         color     = 'darkblue',
         edgecolor = 'white',
         alpha     = 0.3,
         label     = 'Nie')   

plt.legend(title          = 'Czy kurs przygotowawczy',
           title_fontsize = 11.5,
           fontsize       = 11.5,
           facecolor      = 'white',
           loc            = 'upper left')

plt.xlabel('\nwynik testu z pisania [pkt]', size = 16)             
plt.ylabel('gęstość\n',                     size = 16)

plt.xticks(size = 14)
plt.yticks(size = 14)

plt.ylim(0, 0.037)

plt.tight_layout()
plt.savefig('histogram_pisanie_kurs.png', dpi = 300)
plt.show()

## Zmienna porządkowa vs zmienna nominalna

Gdy chcemy przedstawić rozkład zmiennej porządkowej względem zmiennej nominalnej, tak jak przy zmiennej ilościowej, możemy przedstawić to przy pomocy kilku rozkładów na jednym wykresie lub skorzystać z panelu wykresów.

### Wykres słupkowy skumulowany

**Tabela krzyżowa zmiennych:**

In [None]:
education_lunch_freq = pd.crosstab(data['parental level of education'], data['lunch']).reset_index()     # jako pierwsza zmienna porządkowa, jako druga zmienna nominalna
education_lunch_freq

**Wykres:**

In [None]:
plt.figure(figsize = (7, 4.5))
             
plt.bar(education_levels, education_lunch_freq['standard'],    
        color     = 'orange',
        edgecolor = 'white',
        label     = 'standardowy')                   
plt.bar(education_levels, education_lunch_freq['free/reduced'], 
        color     = 'dodgerblue',
        edgecolor = 'white',
        label     = 'darmowy/tańszy',
        bottom    = education_lunch_freq['standard'])             # "przesunięcie" wykresu nad wykres podanej zmiennej

plt.legend(title          = 'Lunch',
           title_fontsize = 11.2,
           fontsize       = 11.2,
           facecolor      = 'white',
           loc            = 'upper right')

plt.xlabel('wykształcenie rodziców [poziom]', size = 14) 
plt.ylabel('częstość',                        size = 14)

plt.xticks(size = 11)
plt.yticks(size = 13)

plt.tight_layout()
plt.savefig('slupkowy_wyksztalcenie_lunch.png', dpi = 300)
plt.show()

### Wykres słupkowy grupowany

In [None]:
x_points  = np.arange(0, 6, 1)                                     # punkty na osi x, w których znajdą się słupki pierwszej z grup
width_bar = 0.4                                                    # szerokość słupków


plt.figure(figsize = (7, 4.5))

plt.bar(x_points, education_lunch_freq['free/reduced'],
        width     = width_bar,                                     # szerokość słupka
        color     = 'dodgerblue',
        edgecolor = 'white',
        label     = 'free/reduced')              
plt.bar(x_points + width_bar, education_lunch_freq['standard'],    # przesunięcie słupków drugiej z grup (o szerokość słupka)
        width     = width_bar,
        color     = 'orange',
        edgecolor = 'white',
        label     = 'standard')                   

plt.legend(title          = 'Lunch',
           title_fontsize = 11.5,
           fontsize       = 11.5,
           facecolor      = 'white',
           loc            = 'upper right')

plt.xlabel('wykształcenie rodziców [poziom]', size = 14) 
plt.ylabel('częstość',                        size = 14)

plt.xticks(x_points + width_bar/2, education_levels, size = 11)    # przesunięcie punktów na osi x na środek słupków (o połowę słupka)
plt.yticks(size = 13)

plt.tight_layout()
plt.savefig('slupkowy_grp_wyksztalcenie_lunch.png', dpi = 300)
plt.show()

## Zmienna nominalna vs zmienna nominalna

Rozkład dwóch zmiennych nominalnych względem siebie można przedstawić podobnie jak rozkład zmiennej porządkowej względem innej zmiennej porządkowej lub zmiennej nominalnej - \
za pomocą mapy ciepła lub wykresów słupkowych, takich jak wyżej (skumulowanych lub grupowanych).

Przy większej liczbie poziomów lepiej sprawdzi się pierwsze rozwiązanie.