# Biblioteka Matplotlib

Matplotlib to kompleksowa biblioteka służąca to tworzenia statycznych i animowanych wizualizacji w Pythonie. Umożliwia dostosowanie wykresów pod dowolne wymagania i zapisanie ich w wysokiej jakości.

In [None]:
import matplotlib.pyplot as plt

In [None]:
import numpy as np
import pandas as pd

titanic = pd.read_csv('titanic.csv')
zindi_air_qo = pd.read_csv('Train.csv')
zindi_air_qo.date = pd.to_datetime(zindi_air_qo.date)

titanic.info()

In [None]:
zindi_air_qo.info()

--------------------
### Histogram

Histogram przedstawia rozłożenie różnych wartości w danej kategorii. Jego wygląd jest podobny do wykresu kolumnowego, jednak jego zastosowanie jest zupełnie inne i wykresy te nie powinny być ze sobą mylone.

##### ⭐ Zadanie 1: 

Przygotuj histogram (`hist`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrami `bins` i `range` oraz dobierz dla nich takie wartości, które wg. Ciebie najlepiej wizualizują dane. Dodatkowo, zapoznaj się z parametrem `density`. Zadbaj o czytelność wykresu (tytuł wykresu oraz podpisy osi). 

In [None]:
n, bins, patches = plt.hist(titanic.Age, color='blue', edgecolor='black', linewidth=1, bins=20, range=(0, 100), alpha=1)
for i, patch in enumerate(patches):
    if bins[i] <= 18:
        patch.set_facecolor('green')
    elif 19 <= bins[i] <= 34:
        patch.set_facecolor('yellow')
    elif 35 <= bins[i] <= 60:
        patch.set_facecolor('orange')
    else:
        patch.set_facecolor('grey')

plt.legend(title='Grupy wiekowe', handles=[patches[0], patches[5], patches[10], patches[15]], labels=['niepełnoletni', 'młodzi dorośli', 'dorośli', 'seniorzy'])
plt.grid(axis='y')
plt.xlabel('Wiek pasażera')
plt.ylabel('Liczebność')
plt.xticks(range(0, 101, 10))
plt.yticks(range(0, 121, 10))
plt.title('Rozkład wieku pasażerów', fontsize=14)
plt.show()

##### ⭐ Zadanie 2:

Przygotuj dwuwymiarowy histogram (`hist2d`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz legenda). 

In [None]:
from matplotlib.colors import LogNorm


fare_age = titanic.loc[titanic.Age.notna() & titanic.Fare.notna(), ['Fare', 'Age']]

plt.hist2d(fare_age.Age, fare_age.Fare, bins=(8, 20), cmap='plasma', norm=LogNorm())
plt.colorbar(label='Liczba pasażerów')
plt.xlabel('Wiek pasażera')
plt.ylabel('Cena biletu (w dolarach)')
plt.yticks(range(0, 511, 50))
plt.grid(True, linestyle="--", alpha=0.5)
plt.title('Zależność wieku i ceny biletu na Titanicu', fontsize=14)

##### ⭐ Zadanie 3:

Przygotuj dwuwymiarowy histogram z heksagonami (`hexbin`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrem `gridsize` oraz dobierz dla niego taką wartość, która wg. Ciebie najlepiej wizualizuje dane. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz legenda). 

In [None]:
plt.hexbin(fare_age.Age, fare_age.Fare, gridsize=15, cmap='plasma', norm=LogNorm())

plt.colorbar(label='Liczba pasażerów')
plt.xlabel('Wiek pasażera')
plt.ylabel('Cena biletu (w dolarach)')
plt.yticks(range(0, 511, 50))
plt.grid(True, linestyle="--", alpha=0.5)
plt.title('Zależność wieku i ceny biletu na Titanicu')

-------------------
### Wykres słupkowy i kolumnowy (skumulowany) 

Wykres kolumnowy i wykres słupkowy pokazuje jawne wartości dla pojedynczej lub dla wielu serii danych. Oś z wartościami liczbowymi powinna zaczynać się od 0, żeby uniknąć ukrytego przeskoku, który może dawać mylne złudzenie. Podpisy danych muszą być czytelne, zatem często są one umieszczone prostopadle do kolumn / słupków. <br/><br/>
Wykres kolumnowy lub słupkowy skumulowany dodatkowo rozróżnia kolejne serie danych, które są składnikami sumy końcowej dla wyświetlanych wartości. Serie danych najczęściej są rozróżniane kolorem, zatem do ich zrozumienia potrzebna jest legenda. 

##### ⭐ Zadanie 4:

Przygotuj wykres kolumnowy (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrem `tick_label` i ustawieniami `xticks` oraz dobierz dla nich takie wartości, które wg. Ciebie najlepiej wizualizują dane. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz podpis dla każdej kolumny). 

In [None]:
from matplotlib.patches import Patch


avg_hour_pm2_5 = zindi_air_qo[['hour', 'pm2_5']].groupby('hour').mean()
max_min_legend = [
    Patch(facecolor='red', edgecolor='black', label='max'), 
    Patch(facecolor='green', edgecolor='black', label='min')
]

plt.bar(
    x=avg_hour_pm2_5.index, 
    height=avg_hour_pm2_5.pm2_5,
    width=0.5,
    tick_label=[f'{i}\u2070\u2070' for i in range(10, 15)],
    color=['#ADD8E6', 'green', '#ADD8E6', 'red', '#ADD8E6'],
    edgecolor='black',
    linewidth=1.5,
    alpha=1,
)
plt.grid(axis='y', alpha=0.9)
plt.title('Średnia wartość PM2.5 w poszczególnych godzinach', fontsize=14)
plt.xlabel('Godzina')
plt.yticks(range(0, 51, 5))
plt.ylabel('Wartość stężenia PM2.5 (\u03BCm)')
plt.legend(title='Wartości:', handles=max_min_legend, loc='upper left')

##### ⭐ Zadanie 5:

Przygotuj wykres słupkowy (`barh`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z funkcją `gca()` oraz ustawieniami `set_yticks` i `set_yticklabels`. Wykorzystaj je, żeby wyeliminować niestandardowe odstępy pomiędzy danymi. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz podpis dla każdego słupka). 

In [None]:
plt.barh(
    y=avg_hour_pm2_5.index, 
    width=avg_hour_pm2_5.pm2_5,
    height=0.5,
    color=['#ADD8E6', 'green', '#ADD8E6', 'red', '#ADD8E6'],
    edgecolor='black',
    linewidth=1.5,
    alpha=1,
)
plt.grid(axis='x', alpha=0.9)
plt.title('Średnia wartość PM2.5 w poszczególnych godzinach', fontsize=14)
plt.ylabel('Godzina')
plt.xlabel('Wartość stężenia PM2.5 (\u03BCm)')
plt.legend(title='Wartości:', handles=max_min_legend, loc='lower right')

ax = plt.gca()
ax.set_yticks(range(10, 15))
ax.set_xticks(range(0, 51, 5))
ax.set_yticklabels([f'{i}\u2070\u2070' for i in range(10, 15)])

##### ⭐ Zadanie 6:

Przygotuj wykres kolumnowy (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Uwzględnij co najmniej 3 serie danych. Zapoznaj się z parametrem `width` oraz dobierz dla niego właściwą wartość mając na uwadze wizualizację określonej liczby serii danych. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i podpis dla każdej grupy kolumn oraz legenda). 

In [None]:
zindi_air_qo['dayofweek'] = zindi_air_qo['date'].dt.dayofweek
avg_dayofweek_city_pm2_5 = zindi_air_qo[['dayofweek', 'city', 'pm2_5']].groupby(['dayofweek', 'city']).mean()
avg_dayofweek_city_pm2_5.reset_index(inplace=True)
cities = avg_dayofweek_city_pm2_5.city.unique()

fig, ax = plt.subplots(nrows=2, ncols=4, figsize=(16, 10), sharey=True)
fig.delaxes(ax[1, 3])
plt.suptitle('Średnie wartości stężenia PM2.5 (µm) w miastach dla poszczególnych dni tygodnia', fontsize=14)
days = ['poniedziałek', 'wtorek', 'środę', 'czwartek', 'piątek', 'sobotę', 'niedzielę']

for i in range(7):
    x, y = divmod(i, 4)
    colors = ['#ADD8E6', '#ADD8E6', '#ADD8E6', '#ADD8E6', '#ADD8E6']
    means = avg_dayofweek_city_pm2_5.loc[avg_dayofweek_city_pm2_5.dayofweek == i, 'pm2_5']
    colors[means.argmax()] = 'red'
    colors[means.argmin()] = 'green'
    ax[x, y].bar(
        x=cities,
        height=avg_dayofweek_city_pm2_5.loc[avg_dayofweek_city_pm2_5.dayofweek == i, 'pm2_5'],
        width=0.5,
        color=colors,
        edgecolor='black',
        linewidth=1.5,
        alpha=1,
    )
    ax[x, y].set_xlabel('Miasta', fontsize=11)
    ax[x, y].tick_params(axis='x', rotation=45)
    if i % 4 == 0:
        ax[x, y].set_ylabel('Wartość stężenia PM2.5 (\u03BCm)', fontsize=11)
    ax[x, y].set_title(f'Średnie stężenie PM2.5 w {days[i]}', fontsize=11)
    ax[x, y].grid(axis='y', alpha=0.9)

plt.tight_layout()
fig.legend(title='Wartości:', handles=max_min_legend, bbox_to_anchor=(0.9, 0.3), ncol=1, fontsize=14, title_fontsize=14)
plt.subplots_adjust(top=0.85, wspace=0.2, hspace=0.5)

##### ⭐ Zadanie 7:

Przygotuj wykres kolumnowy skumulowany (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Uwzględnij co najmniej 3 serie danych. Zapoznaj się z parametrem `bottom` oraz dobierz dla niego właściwą wartość mając na uwadze wizualizację określonej liczby serii danych jako składników sumy. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i podpis dla każdej kolumn oraz legenda). 

In [None]:
# tutaj wpisz swoje rozwiązanie

-------------------
### Wykres kołowy

Wykres kołowy przedstawia zależność pomiędzy obiektami, które są częścią całości. Każdy wycinek koła reprezentuje część składową obiektu. Dobrym zwyczajem jest umieszczanie wycinków w kolejności rosnącej lub malejącej, a nie losowej.

##### ⭐ Zadanie 8:

Przygotuj wykres kołowy (`pie`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrami `normalize`, `explode` oraz `autopct`, `pctdistance`, `labels`, `labeldistance` i dobierz dla nich właściwe wartości, które wg. Ciebie najlepiej wizualizują dane. Zadbaj o czytelność wykresu (tytuł wykresu, podpis i wartość procentowa dla każdej części koła). 

In [None]:
counts = titanic.loc[titanic.Survived == 1, 'Sex'].value_counts()

plt.pie(
    x=counts, 
    explode=[0.05, 0.05],
    labels=['kobiety', 'mężczyźni'], 
    colors=['#76c7c0', '#c79ecf'],
    autopct='%1.1f%%',
    textprops={'fontsize': 14},
    radius=1.2,
    startangle=90,
    labeldistance=1.2,
    wedgeprops={'edgecolor': 'black', 'linewidth': 2},
    normalize=True,
    pctdistance=0.5,
    shadow=True,
)
plt.title('Przeżywalność na Titanicu według płci', fontsize=14)
plt.tight_layout()

##### ⭐ Zadanie 9:

Przygotuj wykres kołowy (`pie`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zastosuj co najmniej 3 serie danych i podziel te informacje na osobne podwykresy (`subplot`) jednego obrazu. Zapoznaj się z obiektami `figure` i `axes`. Zadbaj o czytelność wykresu (tytuł obrazu i każdego wykresu, podpis i wartość procentowa dla każdej części koła). 

In [None]:
pclass_sex = titanic.groupby(['Pclass', 'Sex']).size().reset_index(name='Count')
pclass_sex.reset_index(inplace=True, drop=True)

fig, ax = plt.subplots(nrows=1, ncols=3, figsize=(14, 6))
titles = ['I klasie', 'II klasie', 'III klasie']
legend_elements = [
    Patch(facecolor='#76c7c0', edgecolor='black', label='kobiety'), 
    Patch(facecolor='#c79ecf', edgecolor='black', label='mężczyźni')
]
fig.legend(title='Płeć', handles=legend_elements, loc='upper center', bbox_to_anchor=(0.5, 0.92), ncol=2, fontsize=14, title_fontsize=14)

for i in range(3):
    ax[i].pie(
        x=pclass_sex.loc[pclass_sex.Pclass == i + 1, 'Count'], 
        explode=[0.05, 0.05],
        colors=['#76c7c0', '#c79ecf'],
        autopct='%1.1f%%',
        textprops={'fontsize': 11},
        radius=1,
        startangle=90,
        wedgeprops={'edgecolor': 'black', 'linewidth': 2},
        normalize=True,
        pctdistance=0.5,
        shadow=True,
    )
    ax[i].set_title(f'Podział płci w {titles[i]}.', fontsize=11)

plt.suptitle('Podział płci według klasy zakupionego biletu', fontsize=14)
plt.subplots_adjust(wspace=0.3, hspace=0.2, top=0.85)

--------------------
### Wykres liniowy

Wykres liniowy jest używany do wyświetlania ilościowych wartości w ciągłym okresie czasu. Idealnie sprawdza się do serii czasowej połączonej krzywą z co najmniej 10 danymi w każdej serii. Możliwe jest zaznaczenie kolejnych punktów na wykresie za pomocą znaczników. Co więcej, możliwe jest także wyłączenie samej linii, dzięki czemu tworzony jest wykres punktowy.

##### ⭐ Zadanie 10: 

Przygotuj wykres liniowy (`plot`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z funkcją `gca()` oraz ustawieniami `xaxis.grid` i `yaxis.grid`. Wykorzystaj je, żeby narysować linie pomocnicze dla wartości na wykresie. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
import matplotlib.dates as mdates


avg_lagos_pm2_5 = zindi_air_qo.loc[zindi_air_qo.city == 'Lagos', ['date', 'pm2_5']].groupby('date').mean()

plt.figure(figsize=(14, 6))
plt.plot(
    avg_lagos_pm2_5.index,
    avg_lagos_pm2_5.pm2_5,
)

ax = plt.gca()
ax.set_title('Wartość PM2.5 w Lagos od sierpnia 2023 do lutego 2024')
ax.set_xlabel('Data')
ax.set_ylabel('Wartość PM2.5 (\u03BCm)')
ax.xaxis.set_major_locator(mdates.MonthLocator())
ax.yaxis.set_major_locator(plt.MultipleLocator(20))
ax.yaxis.set_minor_locator(plt.MultipleLocator(10))

ax.xaxis.grid(True, which='major', linestyle='-', linewidth=1.2, color='red')
ax.yaxis.grid(True, which='major', linestyle='-', linewidth=1.2, color='black')
ax.yaxis.grid(True, which='minor', linestyle=':', linewidth=0.75, color='black')

##### ⭐ Zadanie 11:

Przygotuj na jednym obiekcie `axes` wykres liniowy (`plot`) i wykres kolumnowy (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrami `color`, `marker`, `markersize`, `linestyle` i `linewidth` oraz dobierz dla nich niestandardowe wartości. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie

##### ⭐ Zadanie 12:

Przedstaw na jednym obiekcie `axes` wykres liniowy (`plot`) i wykres zamalowujący przestrzeń pomiędzy dwoma horyzontalnymi krzywymi (`fill_between`). Wykorzystaj dane, które sam wybierzesz w sensowny sposób. Na pierwszym wykresie przedstaw średnią wartość, a na drugim wykresie pokaż minimum i maksimum. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie

--------------------
### Wykres bąbelkowy i punktowy

Wykres bąbelkowy rozszerza wykres punktowy o trzecią wartość dla danej serii danych, która jest prezentowana za pomocą rozmiaru znacznika. Przy rosnącej
liczbie zależności, konieczne jest umieszczenie dokładnego opisu wykresu razem z legendą.

##### ⭐ Zadanie 13:

Przygotuj wykres bąbelkowy (`scatter`) opierając się na danych, które sam wybierzesz w sensowny sposób. Wykorzystaj rozmiary i kolory markerów do zaprezentowania większej liczby informacji. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i opis skali koloru). 

In [None]:
# tutaj wpisz swoje rozwiązanie

##### ⭐ Zadanie 14:

Czy wszystkie informacje z zadania 13 można przedstawić za pomocą wykresu punktowego stworzonego jako wykres liniowy (`plot`) bez linii? Jeżeli tak, wykonaj taki wykres. Jeżeli nie, zdecyduj, które dane są najmniej istotne i zrezygnuj z nich przy wykonywaniu takiego wykresu. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). Do swojego rozwiązania dodaj dowolną animację.

In [None]:
# tutaj wpisz swoje rozwiązanie

-------------------
### Mapa ciepła

Mapa ciepła to wizualizacja wielowymiarowa, która wykorzystywana jest do znajdowania wzorców w danych. Dwie kategorie danych umieszczone są w wierszach i kolumnach. Wartości zawarte w macierzy są reprezentowane przez kolory lub nasycenie kolorów, dzięki czemu jawnie odzwierciedlają zależności pomiędzy kategoriami. 

##### ⭐ Zadanie 15:

Przygotuj mapę ciepła (`imshow`, `pcolormesh`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z dwiema metodami rysowania map ciepła i zdecyduj, która będzie lepsza w twoim rozwiązaniu. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i opis skali koloru). 

In [None]:
location_map = {loc: idx for idx, loc in enumerate(['S', 'C', 'Q'])}
titanic.Embarked = titanic.Embarked.map(location_map)
correlation_mat = titanic.corr(numeric_only=True)

plt.imshow(
    X=correlation_mat,
    cmap='YlGn',
    vmax=1,
    vmin=-1,
)
plt.colorbar(label='Wartość korelacji')
plt.xticks(ticks=np.arange(len(correlation_mat.columns)), labels=correlation_mat.columns, rotation=45)
plt.yticks(ticks=np.arange(len(correlation_mat.columns)), labels=correlation_mat.columns)
plt.title('Macierz korelacji dla zbioru Titanic')

for i in range(len(correlation_mat.columns)):
    for j in range(len(correlation_mat.columns)):
        text = f'{correlation_mat.iloc[i, j]:.2f}'
        plt.text(j, i, text, ha='center', va='center', color='black', fontsize=10)

In [None]:
titanic

-------------------
### Wykres radarowy

Wykres radarowy przedstawia wiele zmiennych o tej samej skali w formie pojedynczego wielokąta zamkniętego umieszczonego na okręgu. Wierzchołki figury są ułożone zgodnie z wartościami dla kolejnych kategorii.

##### ⭐ Zadanie 16:

Przygotuj wykres radarowy (`polar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie