# W05 — Pandas: Series i DataFrame

**Programowanie w języku Python II** | Wykład 5

Pandas — fundament analizy danych w Pythonie. NumPy z etykietami.

## Problem NumPy — brak kontekstu

In [None]:
import numpy as np

sprzedaz = np.array([340, 120, 560, 90, 420])
print(sprzedaz)
# 340 czego? Który produkt? Bez kontekstu.

## 1. Series — tablica z etykietami

In [None]:
import pandas as pd

# Series z listy — domyślny indeks
s = pd.Series([340, 120, 560, 90, 420])
print(s)

In [None]:
# Series z etykietami
sprzedaz = pd.Series(
    [340, 120, 560, 90, 420],
    index=['Laptop', 'Tablet', 'Smartfon', 'Akces.', 'Monitor']
)
print(sprzedaz)
print(f"\nTyp: {type(sprzedaz)}")

In [None]:
# Dostęp po etykiecie i pozycji
print(f"Smartfon: {sprzedaz['Smartfon']}")
print(f"Pierwszy: {sprzedaz.iloc[0]}")
print(f"\nPierwsze 3:\n{sprzedaz[:3]}")

In [None]:
# Operacje wektorowe — jak NumPy!
sprzedaz_z_vat = sprzedaz * 1.23
print(f"Z VAT:\n{sprzedaz_z_vat}")

# Filtrowanie
popularne = sprzedaz[sprzedaz > 200]
print(f"\nPopularne (>200 szt.):\n{popularne}")

# Agregacje + idxmax
print(f"\nŚrednia: {sprzedaz.mean():.0f}")
print(f"Suma: {sprzedaz.sum()}")
print(f"Max: {sprzedaz.max()} ({sprzedaz.idxmax()})")

In [None]:
# Series z dict
populacja = pd.Series({
    'Warszawa': 1_794_000,
    'Kraków': 800_000,
    'Wrocław': 643_000,
    'Opole': 128_000
})
print(populacja)
print(f"\nOpole: {populacja['Opole']:,}")

## 2. DataFrame — tabela z wierszami i kolumnami

In [None]:
# DataFrame z dict list
dane = pd.DataFrame({
    'produkt': ['Laptop', 'Tablet', 'Smartfon', 'Akces.', 'Monitor'],
    'cena': [3500, 1800, 2500, 150, 2200],
    'sprzedaz': [340, 120, 560, 90, 420],
    'kategoria': ['Komputery', 'Mobilne', 'Mobilne', 'Akcesoria', 'Komputery']
})
dane

In [None]:
# Atrybuty DataFrame
print(f"Kształt: {dane.shape}")
print(f"Kolumny: {list(dane.columns)}")
print(f"Indeks: {dane.index}")
print(f"Rozmiar: {dane.size}")
print(f"Wymiary: {dane.ndim}")

In [None]:
# Wczytanie prawdziwego datasetu z CSV
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv'
tips = pd.read_csv(url)
print(f"Rozmiar: {tips.shape}")
tips.head()

In [None]:
# head, tail, sample
print("=== Pierwsze 3 ===\n")
print(tips.head(3))
print("\n=== Ostatnie 3 ===\n")
print(tips.tail(3))
print("\n=== Losowe 3 ===\n")
print(tips.sample(3, random_state=42))

In [None]:
# Typy danych
tips.dtypes

## 3. Eksploracja danych (EDA)

In [None]:
# info() — RTG danych
tips.info()

In [None]:
# describe() — statystyki kolumn liczbowych
tips.describe()

In [None]:
# describe(include='all') — wszystkie kolumny
tips.describe(include='all')

In [None]:
# value_counts() — rozkład wartości
print("=== Dzień ===")
print(tips['day'].value_counts())
print("\n=== Pora dnia ===")
print(tips['time'].value_counts())
print("\n=== Palacz? ===")
print(tips['smoker'].value_counts())

In [None]:
# Proporcje
tips['day'].value_counts(normalize=True).round(2)

In [None]:
# Brakujące wartości
print(tips.isna().sum())
print(f"\nŁącznie braków: {tips.isna().sum().sum()}")

## 4. Selekcja kolumn i obliczenia

In [None]:
# Jedna kolumna → Series
rachunki = tips['total_bill']
print(f"Typ: {type(rachunki)}")
print(rachunki.head())

# Wiele kolumn → DataFrame
pieniadze = tips[['total_bill', 'tip']]
print(f"\nTyp: {type(pieniadze)}")
print(pieniadze.head())

In [None]:
# Nowa kolumna — procent napiwku
tips['tip_pct'] = (tips['tip'] / tips['total_bill'] * 100).round(1)
print(tips[['total_bill', 'tip', 'tip_pct']].head())

print(f"\nŚredni napiwek: {tips['tip_pct'].mean():.1f}%")
print(f"Max napiwek: {tips['tip_pct'].max():.1f}%")

In [None]:
# Pod spodem to NumPy!
wartosci = tips['total_bill'].values
print(f"Typ: {type(wartosci)}")
print(f"Dtype: {wartosci.dtype}")

print(f"\nnp.median: {np.median(tips['total_bill']):.2f}")
print(f"pd.median: {tips['total_bill'].median():.2f}")

## 5. Aktywność — eksploracja penguins

In [None]:
url = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/penguins.csv'
penguins = pd.read_csv(url)

# Ile wierszy i kolumn?
print(f"Shape: {penguins.shape}")
penguins.head()

In [None]:
penguins.info()

In [None]:
print(penguins['species'].value_counts())
print(f"\nŚrednia masa: {penguins['body_mass_g'].mean():.1f} g")