# W09 — Matplotlib: podstawy wizualizacji danych

**Wykład:** Politechnika Opolska — Programowanie w języku Python II  
**Temat:** Matplotlib — Figure, Axes, typy wykresów, formatowanie, subplots, Pandas .plot()  

## Agenda
1. Import i konwencja `import matplotlib.pyplot as plt`
2. Figure vs Axes — architektura wykresu
3. Wykres liniowy: trend sprzedaży (`plt.plot()`)
4. Wykres słupkowy: sprzedaż per produkt (`plt.bar()`)
5. Formatowanie: kolory, etykiety, legendy, style
6. Scatter plot: korelacja rachunek–napiwek
7. Histogram: rozkład zmiennej
8. Wiele wykresów: `plt.subplots()`
9. Pandas `.plot()` — szybkie wykresy z DataFrame

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import pandas as pd
import numpy as np
import seaborn as sns

print(f"Matplotlib: {plt.matplotlib.__version__}")
print(f"Pandas:     {pd.__version__}")
print(f"NumPy:      {np.__version__}")

# Dataset tips
tips = sns.load_dataset('tips')
print(f"Tips dataset: {tips.shape} wierszy x kolumn")
tips.head(3)

---
## 1. Architektura Matplotlib: Figure i Axes

**Figure** = całe okno/strona — kontener  
**Axes** = jeden układ współrzędnych z osiami X i Y  

Dwa style pracy:
- **Styl imperatywny (pyplot API):** `plt.plot(...)` — szybki, do prostych wykresów
- **Styl obiektowy (Figure/Axes API):** `fig, ax = plt.subplots()` — elastyczny, zalecany

In [None]:
# Styl obiektowy — zalecany
fig, ax = plt.subplots(figsize=(8, 4))

ax.plot([1, 2, 3, 4], [10, 20, 15, 30],
        color='steelblue', linewidth=2, marker='o')

ax.set_title('Przykład: styl obiektowy (fig, ax = plt.subplots())')
ax.set_xlabel('Oś X')
ax.set_ylabel('Oś Y')

plt.tight_layout()
plt.savefig('00_architektura.png', dpi=100)
plt.close()
print("Typ fig:", type(fig))
print("Typ ax: ", type(ax))

---
## 2. Wykres liniowy: trend sprzedaży

Użycie: zmiana wartości w czasie (trendy miesięczne, kwartalne, roczne).

In [None]:
# Dane sprzedaży miesięcznej Q1-Q2 2024
miesiace = ['Sty', 'Lut', 'Mar', 'Kwi', 'Maj', 'Cze']
sprzedaz = [45230, 38920, 52100, 48700, 55200, 62300]

fig, ax = plt.subplots(figsize=(10, 5))

ax.plot(miesiace, sprzedaz,
        color='steelblue',
        linewidth=2,
        marker='o',          # kółka na punktach
        markersize=8)

ax.set_title('Trend sprzedaży Q1-Q2 2024', fontsize=14, fontweight='bold')
ax.set_xlabel('Miesiąc')
ax.set_ylabel('Sprzedaż [PLN]')
ax.set_ylim(0, 70000)
ax.grid(axis='y', alpha=0.4)  # tylko poziome linie siatki

plt.tight_layout()
plt.savefig('01_trend_sprzedazy.png', dpi=100)
plt.close()
print("Zapisano: 01_trend_sprzedazy.png")

---
## 3. Wykres słupkowy: sprzedaż per produkt

Użycie: porównanie wartości między kategoriami/produktami.

In [None]:
# Top 5 produktów — przychód (TechShop)
produkty = ['Laptop ProX', 'Monitor 27"', 'Klawiatura', 'Słuchawki BT', 'Mysz']
przychod = [11999.97, 3899.97, 1499.94, 1199.97, 449.95]

fig, ax = plt.subplots(figsize=(10, 5))

slupki = ax.bar(produkty, przychod,
                color='steelblue',
                edgecolor='navy',
                linewidth=0.8)

# Wartości nad słupkami — zawsze dodawaj w raportach
for slupek, wartosc in zip(slupki, przychod):
    ax.text(slupek.get_x() + slupek.get_width() / 2,
            slupek.get_height() + 100,
            f'{wartosc:,.0f} zł',
            ha='center', va='bottom', fontsize=9)

ax.set_title('Top 5 produktów — przychód 2024', fontsize=14, fontweight='bold')
ax.set_xlabel('Produkt')
ax.set_ylabel('Przychód [PLN]')
ax.set_ylim(0, 14000)

plt.tight_layout()
plt.savefig('02_sprzedaz_produkty.png', dpi=100)
plt.close()
print("Zapisano: 02_sprzedaz_produkty.png")

---
## 4. Wiele serii na jednym wykresie + legenda

Klucze: `label=` w każdym `ax.plot()`, potem `ax.legend()`.

In [None]:
# Porównanie sprzedaży rok do roku
sprzedaz_2023 = [41000, 35000, 48000, 44000, 50000, 58000]
sprzedaz_2024 = [45230, 38920, 52100, 48700, 55200, 62300]

fig, ax = plt.subplots(figsize=(10, 5))

ax.plot(miesiace, sprzedaz_2023,
        label='2023',
        color='lightsteelblue',
        linewidth=2,
        marker='s',          # kwadraty = rok historyczny
        linestyle='--')      # przerywana = dane historyczne

ax.plot(miesiace, sprzedaz_2024,
        label='2024',
        color='steelblue',
        linewidth=2,
        marker='o')

ax.set_title('Sprzedaż Q1-Q2: porównanie rok do roku', fontsize=14, fontweight='bold')
ax.set_xlabel('Miesiąc')
ax.set_ylabel('Sprzedaż [PLN]')
ax.legend(title='Rok', loc='upper left', fontsize=10)
ax.grid(axis='y', alpha=0.4)

plt.tight_layout()
plt.savefig('03_porownanie_lat.png', dpi=100)
plt.close()
print("Zapisano: 03_porownanie_lat.png")

---
## 5. Słupki poziome (barh) + kolory per kategoria

In [None]:
# Sprzedaż per kategoria — słupki poziome
kategorie = ['Komputery', 'Akcesoria', 'Audio', 'Storage']
sprzedaz_kat = [15899.94, 2939.83, 1199.97, 349.93]
kolory = ['#2196F3', '#66BB6A', '#FFA726', '#AB47BC']

fig, ax = plt.subplots(figsize=(9, 4))

ax.barh(kategorie, sprzedaz_kat, color=kolory)

# Wartości po prawej stronie słupków
for i, (kat, wartosc) in enumerate(zip(kategorie, sprzedaz_kat)):
    ax.text(wartosc + 100, i,
            f'{wartosc:,.0f} zł',
            va='center', fontsize=9)

ax.set_title('Sprzedaż per kategoria — TechShop 2024', fontsize=13, fontweight='bold')
ax.set_xlabel('Sprzedaż [PLN]')
ax.set_xlim(0, 18000)

plt.tight_layout()
plt.savefig('04_kategorie_barh.png', dpi=100)
plt.close()
print("Zapisano: 04_kategorie_barh.png")

---
## 6. Scatter plot: korelacja (tips dataset)

Użycie: czy dwie zmienne są ze sobą powiązane?  
Kluczowe parametry: `alpha`, `s` (rozmiar), `c` (kolor przez wartość), `cmap`.

In [None]:
# Scatter: rachunek vs napiwek, kolor = liczba gości
fig, ax = plt.subplots(figsize=(8, 6))

scatter = ax.scatter(
    tips['total_bill'],
    tips['tip'],
    c=tips['size'],          # kolor zależy od liczby gości
    cmap='Blues',
    alpha=0.7,               # przezroczystość — ważne gdy punkty się nakładają
    s=60,
    edgecolors='gray',
    linewidth=0.5
)

# Colorbar — legenda dla koloru
cbar = plt.colorbar(scatter, ax=ax)
cbar.set_label('Liczba gości', rotation=270, labelpad=15)

ax.set_title('Korelacja: rachunek vs napiwek (tips dataset)',
             fontsize=13, fontweight='bold')
ax.set_xlabel('Wartość rachunku [$]')
ax.set_ylabel('Napiwek [$]')

plt.tight_layout()
plt.savefig('05_scatter_tips.png', dpi=100)
plt.close()
print("Zapisano: 05_scatter_tips.png")
print(f"Korelacja Pearsona: {tips['total_bill'].corr(tips['tip']):.3f}")

---
## 7. Histogram: rozkład zmiennej

Użycie: jak są rozłożone wartości? Normalny rozkład? Skośność? Outlierzy?  
`bins` — liczba przedziałów, `edgecolor` — widoczne granice słupków.

In [None]:
# Dwa histogramy obok siebie
fig, axes = plt.subplots(1, 2, figsize=(12, 5))

# Rozkład rachunków
axes[0].hist(tips['total_bill'],
             bins=20,
             color='steelblue',
             edgecolor='white',
             linewidth=0.8)
axes[0].axvline(tips['total_bill'].mean(),
                color='darkred', linewidth=2, linestyle='--',
                label=f"Średnia: {tips['total_bill'].mean():.1f}")
axes[0].set_title('Rozkład wartości rachunków')
axes[0].set_xlabel('Wartość rachunku [$]')
axes[0].set_ylabel('Liczba obserwacji')
axes[0].legend()

# Rozkład napiwków
axes[1].hist(tips['tip'],
             bins=15,
             color='salmon',
             edgecolor='white',
             linewidth=0.8)
axes[1].axvline(tips['tip'].mean(),
                color='darkred', linewidth=2, linestyle='--',
                label=f"Średnia: {tips['tip'].mean():.2f}")
axes[1].set_title('Rozkład napiwków')
axes[1].set_xlabel('Napiwek [$]')
axes[1].set_ylabel('Liczba obserwacji')
axes[1].legend()

plt.suptitle('Dataset Tips — rozkłady zmiennych', fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('06_histogramy.png', dpi=100)
plt.close()
print("Zapisano: 06_histogramy.png")
print(f"Rachunek — skośność: {tips['total_bill'].skew():.3f}")
print(f"Napiwek  — skośność: {tips['tip'].skew():.3f}")

---
## 8. plt.subplots() — dashboard 2×2

`plt.subplots(rows, cols)` zwraca `(Figure, tablica Axes)`.  
Dostęp: `axes[wiersz, kolumna]`.

In [None]:
# Dashboard analityczny 2×2
fig, axes = plt.subplots(2, 2, figsize=(13, 9))

# [0, 0] Trend sprzedaży — liniowy
axes[0, 0].plot(miesiace, sprzedaz_2024,
                marker='o', color='steelblue', linewidth=2)
axes[0, 0].set_title('Trend sprzedaży Q1-Q2 2024')
axes[0, 0].set_ylabel('PLN')
axes[0, 0].grid(axis='y', alpha=0.4)

# [0, 1] Sprzedaż per kategoria — słupkowy poziomy
axes[0, 1].barh(kategorie, sprzedaz_kat, color='steelblue')
axes[0, 1].set_title('Sprzedaż per kategoria')
axes[0, 1].set_xlabel('PLN')

# [1, 0] Scatter: rachunek vs napiwek
axes[1, 0].scatter(tips['total_bill'], tips['tip'],
                   alpha=0.5, color='steelblue', s=30)
axes[1, 0].set_title('Rachunek vs Napiwek (tips)')
axes[1, 0].set_xlabel('Rachunek [$]')
axes[1, 0].set_ylabel('Napiwek [$]')

# [1, 1] Histogram rachunków
axes[1, 1].hist(tips['total_bill'], bins=20,
                color='steelblue', edgecolor='white')
axes[1, 1].set_title('Rozkład rachunków')
axes[1, 1].set_xlabel('Rachunek [$]')
axes[1, 1].set_ylabel('Liczba')

plt.suptitle('Dashboard analityczny — przegląd danych',
             fontsize=14, fontweight='bold')
plt.tight_layout()
plt.savefig('07_dashboard.png', dpi=100)
plt.close()
print("Zapisano: 07_dashboard.png")

---
## 9. Pandas .plot() — wykresy wprost z DataFrame

Szybkie prototypowanie bez ręcznego ustawiania osi.  
`df.plot(kind='line'/'bar'/'barh'/'hist'/'scatter'/'pie')` — korzysta z Matplotlib pod spodem.

In [None]:
# DataFrame plan vs wykonanie
sprzedaz_df = pd.DataFrame({
    'miesiac': ['Sty', 'Lut', 'Mar', 'Kwi', 'Maj', 'Cze'],
    'plan':       [44000, 40000, 50000, 47000, 53000, 60000],
    'wykonanie':  [45230, 38920, 52100, 48700, 55200, 62300]
}).set_index('miesiac')

print(sprzedaz_df)

# Jedna linia — wykres liniowy z automatyczną legendą
ax = sprzedaz_df.plot(
    kind='line',
    figsize=(10, 5),
    marker='o',
    title='Plan vs wykonanie sprzedaży Q1-Q2 2024',
    ylabel='PLN',
    color={'plan': 'lightsteelblue', 'wykonanie': 'steelblue'}
)
ax.grid(axis='y', alpha=0.4)

plt.tight_layout()
plt.savefig('08_plan_vs_wykonanie.png', dpi=100)
plt.close()
print("Zapisano: 08_plan_vs_wykonanie.png")

In [None]:
# groupby + .plot() — kompletny pipeline w 5 linijkach
sprzedaz_dzien = tips.groupby('day')['total_bill'].mean().round(2)
print("Średni rachunek per dzień:")
print(sprzedaz_dzien)

ax = sprzedaz_dzien.plot(
    kind='bar',
    figsize=(8, 5),
    color='steelblue',
    title='Średni rachunek per dzień tygodnia',
    ylabel='Średni rachunek [$]',
    rot=0
)
ax.grid(axis='y', alpha=0.4)

plt.tight_layout()
plt.savefig('09_rachunek_dzien.png', dpi=100)
plt.close()
print("Zapisano: 09_rachunek_dzien.png")

---
## 10. Podsumowanie — schemat typów wykresów

| Typ wykresu | Metoda | Kiedy stosować |
|-------------|--------|----------------|
| Liniowy | `ax.plot()` | Trend w czasie |
| Słupkowy pionowy | `ax.bar()` | Porównanie kategorii |
| Słupkowy poziomy | `ax.barh()` | Długie etykiety kategorii |
| Punktowy | `ax.scatter()` | Korelacja dwóch zmiennych |
| Histogram | `ax.hist()` | Rozkład jednej zmiennej |
| Wiele na raz | `plt.subplots(r, c)` | Dashboard, porównania |
| Z DataFrame | `df.plot(kind=...)` | Szybkie prototypowanie |

## Reguły dobrego wykresu
1. Zawsze: **tytuł** + **etykiety obu osi**
2. Wiele serii: **legenda** (z `label=` w plot/scatter)
3. Zawsze: `plt.tight_layout()` → `plt.savefig()` → `plt.close()`
4. Przezroczystość `alpha=0.5-0.7` gdy punkty się nakładają
5. Jeden dominujący kolor, drugi jako akcent

**Następny wykład:** Seaborn — statystyczna wizualizacja, box plot, violin, heatmapa, FacetGrid

In [None]:
# Weryfikacja: wszystkie pliki PNG zostały zapisane
import os

pliki = [
    '00_architektura.png',
    '01_trend_sprzedazy.png',
    '02_sprzedaz_produkty.png',
    '03_porownanie_lat.png',
    '04_kategorie_barh.png',
    '05_scatter_tips.png',
    '06_histogramy.png',
    '07_dashboard.png',
    '08_plan_vs_wykonanie.png',
    '09_rachunek_dzien.png'
]

print("Stan plików PNG:")
for plik in pliki:
    status = "OK" if os.path.exists(plik) else "BRAK"
    print(f"  {status}  {plik}")

istniejace = [p for p in pliki if os.path.exists(p)]
print(f"\nRazem: {len(istniejace)}/{len(pliki)} plików zapisanych.")