# Biblioteka Matplotlib

Matplotlib to kompleksowa biblioteka służąca to tworzenia statycznych i animowanych wizualizacji w Pythonie. Umożliwia dostosowanie wykresów pod dowolne wymagania i zapisanie ich w wysokiej jakości.

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from matplotlib.colors import LogNorm
from matplotlib.patches import Patch

athlete_events = pd.read_csv('athlete_events.csv', sep=';')

athlete_events.info()

In [None]:
athlete_events.describe()

In [None]:
athlete_events.head()

--------------------
### Histogram

Histogram przedstawia rozłożenie różnych wartości w danej kategorii. Jego wygląd jest podobny do wykresu kolumnowego, jednak jego zastosowanie jest zupełnie inne i wykresy te nie powinny być ze sobą mylone.

##### ⭐ Zadanie 1: 

Przygotuj histogram (`hist`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrami `bins` i `range` oraz dobierz dla nich takie wartości, które wg. Ciebie najlepiej wizualizują dane. Dodatkowo, zapoznaj się z parametrem `density`. Zadbaj o czytelność wykresu (tytuł wykresu oraz podpisy osi). 

In [None]:
n, bins, patches = plt.hist(athlete_events.Age, color='blue', edgecolor='black', linewidth=1, bins=20, range=(0, 100), alpha=1)
for i, patch in enumerate(patches):
    if bins[i] <= 18:
        patch.set_facecolor('green')
    elif 19 <= bins[i] <= 34:
        patch.set_facecolor('yellow')
    elif 35 <= bins[i] <= 60:
        patch.set_facecolor('orange')
    else:
        patch.set_facecolor('grey')

plt.legend(title='Grupy wiekowe', handles=[patches[0], patches[5], patches[10], patches[15]], labels=['niepełnoletni', 'młodzi dorośli', 'dorośli', 'seniorzy'])
plt.grid(axis='y')
plt.xlabel('Wiek sportowca')
plt.ylabel('Liczebność (skala logarytmiczna)')
plt.xticks(range(0, 101, 10))
plt.yscale('log')
plt.title('Rozkład wieku wszystkich sportowców', fontsize=14)
plt.show()

##### ⭐ Zadanie 2:

Przygotuj dwuwymiarowy histogram (`hist2d`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz legenda). 

In [None]:
weight_height = athlete_events.loc[(athlete_events.Sport == 'Swimming') & athlete_events.Weight.notna() & athlete_events.Height.notna(), ['Weight', 'Height']]

plt.hist2d(weight_height.Weight, weight_height.Height, bins=(8, 20), cmap='plasma', norm=LogNorm())
plt.colorbar(label='Liczba pływaków')
plt.xlabel('Waga pływaka (kg)')
plt.ylabel('Wzrost pływaka (cm)')
plt.grid(True, linestyle="--", alpha=0.5)
plt.title('Zależność wagi do wzrostu pływaków', fontsize=14)

##### ⭐ Zadanie 3:

Przygotuj dwuwymiarowy histogram z heksagonami (`hexbin`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrem `gridsize` oraz dobierz dla niego taką wartość, która wg. Ciebie najlepiej wizualizuje dane. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz legenda). 

In [None]:
plt.hexbin(weight_height.Weight, weight_height.Height, gridsize=15, cmap='plasma', norm=LogNorm())

plt.colorbar(label='Liczba pływaków')
plt.xlabel('Waga pływaka (kg)')
plt.ylabel('Wzrost pływaka (cm)')
plt.grid(True, linestyle="--", alpha=0.5)
plt.title('Zależność wagi do wzrostu pływaków', fontsize=14)

-------------------
### Wykres słupkowy i kolumnowy (skumulowany) 

Wykres kolumnowy i wykres słupkowy pokazuje jawne wartości dla pojedynczej lub dla wielu serii danych. Oś z wartościami liczbowymi powinna zaczynać się od 0, żeby uniknąć ukrytego przeskoku, który może dawać mylne złudzenie. Podpisy danych muszą być czytelne, zatem często są one umieszczone prostopadle do kolumn / słupków. <br/><br/>
Wykres kolumnowy lub słupkowy skumulowany dodatkowo rozróżnia kolejne serie danych, które są składnikami sumy końcowej dla wyświetlanych wartości. Serie danych najczęściej są rozróżniane kolorem, zatem do ich zrozumienia potrzebna jest legenda. 

##### ⭐ Zadanie 4:

Przygotuj wykres kolumnowy (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrem `tick_label` i ustawieniami `xticks` oraz dobierz dla nich takie wartości, które wg. Ciebie najlepiej wizualizują dane. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz podpis dla każdej kolumny).

In [None]:
neighbors = ['POL', 'CZE', 'SVK', 'UKR', 'BLR', 'RUS', 'GER', 'LTU']
full_name = ['Polska', 'Czechy', 'Słowacja', 'Ukraina', 'Białoruś', 'Rosja', 'Niemcy', 'Litwa']
medals = athlete_events.loc[(athlete_events.NOC.isin(neighbors)) & (athlete_events.Year > 2000) & (athlete_events.Medal.notna()), ['NOC']].groupby(['NOC']).size().reset_index(name='Count')

colors = ['#ADD8E6' for _ in range(len(medals))]
colors[medals.Count.argmax()] = 'red'
colors[medals.Count.argmin()] = 'green'

plt.bar(
    x=medals.NOC,
    height=medals.Count,
    tick_label=full_name,
    color=colors,
    width=0.5,
    edgecolor='black',
    linewidth=1.5,
    alpha=1,
)
plt.xticks(rotation=45)
plt.grid(axis='y', alpha=0.9)
plt.xlabel('Nazwa kraju')
plt.ylabel('Liczba medali')
plt.yticks(range(0, 801, 50))
plt.title('Liczba medali Polski i jej sąsiadów od 2000r.', fontsize=14)

##### ⭐ Zadanie 5:

Przygotuj wykres słupkowy (`barh`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z funkcją `gca()` oraz ustawieniami `set_yticks` i `set_yticklabels`. Wykorzystaj je, żeby wyeliminować niestandardowe odstępy pomiędzy danymi. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi oraz podpis dla każdego słupka). 

In [None]:
top_10_winter_sports = athlete_events.loc[athlete_events.Season == 'Winter', 'Sport'].value_counts().head(10)

plt.figure(figsize=(10, 5))
plt.barh(
    y=top_10_winter_sports.index,
    width=top_10_winter_sports,
    height=0.5,
    edgecolor='black',
    linewidth=1.5,
    alpha=1,
)
plt.grid(axis='x', alpha=0.9)
plt.title('Top 10 zimowych dyscyplin pod względem liczby sportowców', fontsize=14)
plt.ylabel('Nazwa dyscypliny')
plt.xlabel('Liczba sportowców')

# ax = plt.gca()
# ax.set_yticks(range(0, 10001, 1000))

##### ⭐ Zadanie 6:

Przygotuj wykres kolumnowy (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Uwzględnij co najmniej 3 serie danych. Zapoznaj się z parametrem `width` oraz dobierz dla niego właściwą wartość mając na uwadze wizualizację określonej liczby serii danych. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i podpis dla każdej grupy kolumn oraz legenda). 

In [None]:
# tutaj wpisz swoje rozwiązanie

##### ⭐ Zadanie 7:

Przygotuj wykres kolumnowy skumulowany (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Uwzględnij co najmniej 3 serie danych. Zapoznaj się z parametrem `bottom` oraz dobierz dla niego właściwą wartość mając na uwadze wizualizację określonej liczby serii danych jako składników sumy. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i podpis dla każdej kolumn oraz legenda). 

In [None]:
neighbors = ['POL', 'CZE', 'SVK', 'UKR', 'BLR', 'RUS', 'GER']
medals = athlete_events.loc[(athlete_events.NOC.isin(neighbors)) & (athlete_events.Year > 2000), ['NOC', 'Medal']].fillna('None')
medals = medals.groupby(['NOC', 'Medal']).size().reset_index(name='Count')

-------------------
### Wykres kołowy

Wykres kołowy przedstawia zależność pomiędzy obiektami, które są częścią całości. Każdy wycinek koła reprezentuje część składową obiektu. Dobrym zwyczajem jest umieszczanie wycinków w kolejności rosnącej lub malejącej, a nie losowej.

##### ⭐ Zadanie 8:

Przygotuj wykres kołowy (`pie`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrami `normalize`, `explode` oraz `autopct`, `pctdistance`, `labels`, `labeldistance` i dobierz dla nich właściwe wartości, które wg. Ciebie najlepiej wizualizują dane. Zadbaj o czytelność wykresu (tytuł wykresu, podpis i wartość procentowa dla każdej części koła). 

In [None]:
counts = athlete_events.loc[athlete_events.Season == 'Summer', 'Sex'].value_counts()
counts['mężczyźni'] = counts.pop('M')
counts['kobiety'] = counts.pop('F')

plt.pie(
    x=counts,
    explode=[0.05, 0.05],
    labels=counts.index,
    colors=['#c79ecf', '#76c7c0'],
    autopct='%1.1f%%',
    textprops={'fontsize': 14},
    radius=1,
    startangle=90,
    labeldistance=1.2,
    wedgeprops={'edgecolor': 'black', 'linewidth': 2},
    normalize=True,
    pctdistance=0.5,
    shadow=True,
)
plt.title('Liczebność kobiet i mężczyzn w igrzyskach letnich', fontsize=14)
plt.tight_layout()

##### ⭐ Zadanie 9:

Przygotuj wykres kołowy (`pie`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zastosuj co najmniej 3 serie danych i podziel te informacje na osobne podwykresy (`subplot`) jednego obrazu. Zapoznaj się z obiektami `figure` i `axes`. Zadbaj o czytelność wykresu (tytuł obrazu i każdego wykresu, podpis i wartość procentowa dla każdej części koła). 

In [None]:
last_four_summer_olympics = athlete_events.loc[(athlete_events.Year > 2000) & (athlete_events.Season == 'Summer'), ['Year', 'Sex']].groupby(['Year', 'Sex']).size().reset_index(name='Count')

fig, ax = plt.subplots(nrows=2, ncols=2, figsize=(14, 6))
titles = ['Ateny 2004', 'Pekin 2008', 'Londyn 2012', 'Rio 2016']
legend_elements = [
    Patch(facecolor='#76c7c0', edgecolor='black', label='kobiety'),
    Patch(facecolor='#c79ecf', edgecolor='black', label='mężczyźni')
]
fig.legend(title='Płeć', handles=legend_elements, loc='upper center', bbox_to_anchor=(0.5, 0.6), ncol=1, fontsize=14, title_fontsize=14)

for i in range(4):
    x, y = divmod(i, 2)
    ax[x, y].pie(
        x=last_four_summer_olympics.loc[last_four_summer_olympics.Year == 2004 + i * 4, 'Count'],
        explode=[0.05, 0.05],
        colors=['#76c7c0', '#c79ecf'],
        autopct='%1.1f%%',
        textprops={'fontsize': 11},
        radius=1,
        startangle=90,
        wedgeprops={'edgecolor': 'black', 'linewidth': 2},
        normalize=True,
        pctdistance=0.5,
        shadow=True,
    )
    ax[x, y].set_title(f'Podział płci podczas igrzysk w {titles[i]}', fontsize=11)

plt.suptitle('Podział płci na czterech letnich igrzyskach 2004–2016', fontsize=14)
plt.subplots_adjust(wspace=0.3, hspace=0.2, top=0.85)

--------------------
### Wykres liniowy

Wykres liniowy jest używany do wyświetlania ilościowych wartości w ciągłym okresie czasu. Idealnie sprawdza się do serii czasowej połączonej krzywą z co najmniej 10 danymi w każdej serii. Możliwe jest zaznaczenie kolejnych punktów na wykresie za pomocą znaczników. Co więcej, możliwe jest także wyłączenie samej linii, dzięki czemu tworzony jest wykres punktowy.

##### ⭐ Zadanie 10: 

Przygotuj wykres liniowy (`plot`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z funkcją `gca()` oraz ustawieniami `xaxis.grid` i `yaxis.grid`. Wykorzystaj je, żeby narysować linie pomocnicze dla wartości na wykresie. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie

##### ⭐ Zadanie 11:

Przygotuj na jednym obiekcie `axes` wykres liniowy (`plot`) i wykres kolumnowy (`bar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z parametrami `color`, `marker`, `markersize`, `linestyle` i `linewidth` oraz dobierz dla nich niestandardowe wartości. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie

##### ⭐ Zadanie 12:

Przedstaw na jednym obiekcie `axes` wykres liniowy (`plot`) i wykres zamalowujący przestrzeń pomiędzy dwoma horyzontalnymi krzywymi (`fill_between`). Wykorzystaj dane, które sam wybierzesz w sensowny sposób. Na pierwszym wykresie przedstaw średnią wartość, a na drugim wykresie pokaż minimum i maksimum. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie

--------------------
### Wykres bąbelkowy i punktowy

Wykres bąbelkowy rozszerza wykres punktowy o trzecią wartość dla danej serii danych, która jest prezentowana za pomocą rozmiaru znacznika. Przy rosnącej
liczbie zależności, konieczne jest umieszczenie dokładnego opisu wykresu razem z legendą.

##### ⭐ Zadanie 13:

Przygotuj wykres bąbelkowy (`scatter`) opierając się na danych, które sam wybierzesz w sensowny sposób. Wykorzystaj rozmiary i kolory markerów do zaprezentowania większej liczby informacji. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i opis skali koloru). 

In [None]:
# tutaj wpisz swoje rozwiązanie

##### ⭐ Zadanie 14:

Czy wszystkie informacje z zadania 13 można przedstawić za pomocą wykresu punktowego stworzonego jako wykres liniowy (`plot`) bez linii? Jeżeli tak, wykonaj taki wykres. Jeżeli nie, zdecyduj, które dane są najmniej istotne i zrezygnuj z nich przy wykonywaniu takiego wykresu. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). Do swojego rozwiązania dodaj dowolną animację.

In [None]:
# tutaj wpisz swoje rozwiązanie

-------------------
### Mapa ciepła

Mapa ciepła to wizualizacja wielowymiarowa, która wykorzystywana jest do znajdowania wzorców w danych. Dwie kategorie danych umieszczone są w wierszach i kolumnach. Wartości zawarte w macierzy są reprezentowane przez kolory lub nasycenie kolorów, dzięki czemu jawnie odzwierciedlają zależności pomiędzy kategoriami. 

##### ⭐ Zadanie 15:

Przygotuj mapę ciepła (`imshow`, `pcolormesh`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zapoznaj się z dwiema metodami rysowania map ciepła i zdecyduj, która będzie lepsza w twoim rozwiązaniu. Zadbaj o czytelność wykresu (tytuł wykresu, podpisy osi i opis skali koloru). 

In [None]:
correlation_mat = athlete_events[athlete_events.columns[1:]].corr(numeric_only=True)

plt.imshow(
    X=correlation_mat,
    cmap='Greys',
    vmax=1,
    vmin=-1,
)
plt.colorbar(label='Wartość korelacji')
plt.xticks(ticks=np.arange(len(correlation_mat.columns)), labels=correlation_mat.columns, rotation=45)
plt.yticks(ticks=np.arange(len(correlation_mat.columns)), labels=correlation_mat.columns)
plt.title('Macierz korelacji dla zbioru sportowców')

for i in range(len(correlation_mat.columns)):
    for j in range(len(correlation_mat.columns)):
        text = f'{correlation_mat.iloc[i, j]:.2f}'
        plt.text(j, i, text, ha='center', va='center', color='black', fontsize=10)

-------------------
### Wykres radarowy

Wykres radarowy przedstawia wiele zmiennych o tej samej skali w formie pojedynczego wielokąta zamkniętego umieszczonego na okręgu. Wierzchołki figury są ułożone zgodnie z wartościami dla kolejnych kategorii.

##### ⭐ Zadanie 16:

Przygotuj wykres radarowy (`polar`) opierając się na danych, które sam wybierzesz w sensowny sposób. Zadbaj o czytelność wykresu (tytuł wykresu i podpisy osi). 

In [None]:
# tutaj wpisz swoje rozwiązanie