# W06 — Pandas: selekcja i filtrowanie

**Programowanie w języku Python II** | Wykład 6

loc, iloc, warunki logiczne, sortowanie — precyzyjne pytania o dane.

In [None]:
import pandas as pd
import numpy as np

tips = pd.read_csv('https://raw.githubusercontent.com/mwaskom/seaborn-data/master/tips.csv')
tips.head()

## 1. iloc — selekcja po pozycji

In [None]:
# iloc — Integer Location
print("Wiersz 0:")
print(tips.iloc[0])

print("\nWiersze 0-2, kolumny 0-1:")
print(tips.iloc[0:3, 0:2])

In [None]:
# Ostatni wiersz, co piąty wiersz
print("Ostatni wiersz:")
print(tips.iloc[-1])

print("\nCo piąty wiersz:")
print(tips.iloc[::5, [0, 1]].head())

## 2. loc — selekcja po etykiecie

In [None]:
# DataFrame z własnym indeksem
dane = pd.DataFrame({
    'produkt': ['Laptop', 'Tablet', 'Smartfon', 'Monitor', 'Słuchawki'],
    'cena': [3500, 1800, 2500, 2200, 350],
    'sprzedaz': [340, 120, 560, 420, 800],
    'kategoria': ['Komputery', 'Mobilne', 'Mobilne', 'Komputery', 'Akcesoria']
})
dane.index = dane['produkt']

print(dane.loc['Laptop'])
print(f"\nCena Laptopa: {dane.loc['Laptop', 'cena']}")

In [None]:
# loc z wieloma etykietami i warunkiem
print(dane.loc[['Laptop', 'Monitor'], ['cena', 'sprzedaz']])

print(f"\nDrogie produkty:")
print(dane.loc[dane['cena'] > 2000])

## 3. Filtrowanie z warunkami logicznymi

In [None]:
# Filtr prosty
drogie = tips[tips['total_bill'] > 30]
print(f"Rachunki > 30$: {len(drogie)} z {len(tips)}")
drogie.head()

In [None]:
# AND — oba warunki (nawiasy obowiązkowe!)
sobota_drogie = tips[(tips['day'] == 'Sat') & (tips['total_bill'] > 30)]
print(f"Sobota + > 30$: {len(sobota_drogie)}")

# OR
weekend = tips[(tips['day'] == 'Sat') | (tips['day'] == 'Sun')]
print(f"Weekend: {len(weekend)}")

In [None]:
# Złożony filtr
wynik = tips[
    (tips['size'] >= 4) &
    (tips['day'].isin(['Sat', 'Sun'])) &
    (tips['smoker'] == 'No') &
    (tips['total_bill'] > 20)
]
print(f"Znalezionych: {len(wynik)}")
wynik

## 4. isin, between, query

In [None]:
# isin — lista wartości
popularne_dni = tips[tips['day'].isin(['Sat', 'Sun'])]
print(f"Sobota + Niedziela: {len(popularne_dni)}")

# between — zakres
srednie = tips[tips['total_bill'].between(15, 25)]
print(f"Rachunki 15-25$: {len(srednie)}")

In [None]:
# query — filtr SQL-owy
wynik = tips.query("total_bill > 30 and day == 'Sat' and smoker == 'No'")
print(f"Query: {len(wynik)}")
wynik.head()

## 5. Sortowanie

In [None]:
# Sort po jednej kolumnie
print("TOP-5 rachunków:")
print(tips.sort_values('total_bill', ascending=False).head())

In [None]:
# nlargest, nsmallest
tips['tip_pct'] = (tips['tip'] / tips['total_bill'] * 100).round(1)

print("TOP-5 napiwków (%):")
print(tips.nlargest(5, 'tip_pct')[['total_bill', 'tip', 'tip_pct', 'day']])

## 6. Segmentacja

In [None]:
# Segmentacja klientów
tips['hojnosc'] = np.where(
    tips['tip_pct'] > 20, 'Hojny',
    np.where(tips['tip_pct'] > 10, 'Przeciętny', 'Skąpy')
)
print(tips['hojnosc'].value_counts())

# Statystyki per segment
for segment in tips['hojnosc'].unique():
    grupa = tips[tips['hojnosc'] == segment]
    print(f"{segment}: śr. rachunek = {grupa['total_bill'].mean():.2f}$, "
          f"śr. napiwek = {grupa['tip'].mean():.2f}$, n = {len(grupa)}")