# Python: **tuples** ir **sets** (pradedantiesiems)



## Tikslas

- Suprasti, kas yra **tuple** (tuplas) ir **set** (aibė).
- Išmokti dažniausius naudojimo atvejus duomenų analitikoje ir verslo užduotyse.
- Pritaikyti tipines operacijas: kūrimą, prieigą, paiešką, transformacijas, aibių veiksmus, praktinius filtrus.


## Greita atmintinė

### Tuple (tuplas)
- Tvarkingas elementų rinkinys su **pastovia tvarka**.
- Dažniausiai **nekintamas** (immutable) – elementų keisti tiesiogiai nepavyksta.
- Tinkamas: įrašams (record), raktams (keys), grąžinti kelias reikšmes iš funkcijos, stabiliai struktūrai.

### Set (aibė)
- Elementų rinkinys be dublikatų, **be garantuotos tvarkos**.
- Greitas tikrinimas „ar yra?“ (`in`).
- Tinkamas: unikalioms reikšmėms, deduplikacijai, filtravimui, aibių veiksmams (sankirta, sąjunga, skirtumas).

## 1) Tuples: pagrindai

In [1]:
# Sukurti tuple (tuplą) su apvaliais skliaustais
kpi = ("Revenue", 125000.0, "EUR")

# Atspausdinti
print(kpi)
print(type(kpi))

# Prieiti prie elementų pagal indeksą (nuo 0)
print("Pavadinimas:", kpi[0])
print("Reikšmė:", kpi[1])
print("Valiuta:", kpi[2])

('Revenue', 125000.0, 'EUR')
<class 'tuple'>
Pavadinimas: Revenue
Reikšmė: 125000.0
Valiuta: EUR


### Dažnas verslo naudojimas: įrašo (record) atvaizdavimas

- Laikyti „vienos eilutės“ struktūrą: (užsakymo_id, klientas, suma).
- Turėti aiškią, nekintančią struktūrą, kai formatas turi išlikti stabilus.

In [2]:
# Modeliuoti užsakymus: (order_id, customer_id, amount)
orders = [
    (1001, "C001", 59.90),
    (1002, "C002", 12.50),
    (1003, "C001", 120.00),
]

# Suskaičiuoti pajamų sumą
total_revenue = sum(amount for _, _, amount in orders)
print("Pajamos iš viso:", total_revenue)

Pajamos iš viso: 192.4


### Vieno elemento tuple

- Skirti dėmesį sintaksei: `(x,)` – būtinas kablelis.

In [3]:
single_ok = (42,)
single_not_tuple = (42)

print(single_ok, type(single_ok))
print(single_not_tuple, type(single_not_tuple))

(42,) <class 'tuple'>
42 <class 'int'>


### Nekintamumas

- Bandant pakeisti tuple elementą gauti klaidą.
- Jei reikėti modifikuoti, konvertuoti į `list`, pakeisti ir konvertuoti atgal į `tuple`.

In [4]:
kpi = ("Revenue", 125000.0, "EUR")

# Pabandžius keisti elementą bus klaida (palikti kaip komentarą demonstracijai)
# kpi[1] = 130000.0

# Pakeitimui atlikti per list -> tuple
kpi_list = list(kpi)
kpi_list[1] = 130000.0
kpi_updated = tuple(kpi_list)

print("Senas:", kpi)
print("Naujas:", kpi_updated)

Senas: ('Revenue', 125000.0, 'EUR')
Naujas: ('Revenue', 130000.0, 'EUR')


### Išpakavimas (unpacking)

- Patogiai išskirstyti tuple į atskirus kintamuosius.
- Naudoti `_` nereikšmingoms reikšmėms ignoruoti.

In [5]:
kpi = ("Revenue", 130000.0, "EUR")
name, value, currency = kpi
print(name, value, currency)

# Ignoruoti valiutą
name2, value2, _ = kpi
print(name2, value2)

Revenue 130000.0 EUR
Revenue 130000.0


### Funkcija, grąžinanti kelias reikšmes

- Grąžinti tuple, kai reikia kelių rezultatų vienu metu.
- Pritaikyti analitikoje: (vidurkis, minimumas, maksimumas).

In [None]:
def sales_summary(amounts):
    # Apskaičiuoti suvestinę: vidurkį, min, max
    avg = sum(amounts) / len(amounts) if amounts else 0.0
    mn = min(amounts) if amounts else 0.0
    mx = max(amounts) if amounts else 0.0
    return avg, mn, mx  # Grąžinti tuple

amounts = [59.90, 12.50, 120.00, 45.00]
avg, mn, mx = sales_summary(amounts)
print("Vidurkis:", avg, "Min:", mn, "Max:", mx)

### Tuple kaip žodyno raktas (dict key)

- Naudoti tuple kaip stabilų sudėtinį raktą: (klientas, mėnuo).
- Naudoti, kai vieno raktinio stulpelio nepakanka.

In [6]:
# Pajamos pagal (customer_id, month)
revenue_by_customer_month = {
    ("C001", "2025-11"): 179.90,
    ("C001", "2025-12"): 220.00,
    ("C002", "2025-11"): 12.50,
}

print(revenue_by_customer_month[("C001", "2025-12")])

# Patikrinti raktą
key = ("C003", "2025-11")
print("Ar yra raktas?", key in revenue_by_customer_month)

220.0
Ar yra raktas? False


### Kada vengti tuple

- Kai reikėti dažnai keisti elementus (tada rinktis `list`).
- Kai struktūra turi vardinius laukus (tada svarstyti `dict` arba `dataclass`).

## 2) Sets: pagrindai

In [7]:
# Sukurti set su riestiniais skliaustais
channels = {"online", "direct", "partner"}

print(channels)
print(type(channels))

# Patikrinti narystę (greita operacija)
print("online" in channels)
print("phone" in channels)

{'online', 'direct', 'partner'}
<class 'set'>
True
False


### Deduplikacija: unikalūs klientai

- Konvertuoti sąrašą į set, kad liktų tik unikalios reikšmės.
- Suskaičiuoti unikalių klientų skaičių.

In [8]:
customer_ids = ["C001", "C002", "C001", "C003", "C002", "C004"]
unique_customers = set(customer_ids)

print("Unikalūs klientai:", unique_customers)
print("Unikalių klientų skaičius:", len(unique_customers))

Unikalūs klientai: {'C004', 'C003', 'C002', 'C001'}
Unikalių klientų skaičius: 4


### Atsargiai su tvarka

- Set neturi stabilios elementų tvarkos.
- Jei reikėti tvarkos, konvertuoti į `sorted(list(set_obj))`.

In [9]:
unique_customers_sorted = sorted(unique_customers)
print(unique_customers_sorted)

['C001', 'C002', 'C003', 'C004']


### Pridėjimas ir šalinimas

- Pridėti elementą su `add`.
- Pašalinti elementą su `remove` (mes klaidą, jei nėra) arba `discard` (neklaidins, jei nėra).

In [12]:
allowed_countries = {"LT", "LV", "EE"}
allowed_countries.add("PL")
print(allowed_countries)

# remove: klaida, jei elemento nėra
# allowed_countries.remove("DE")

# discard: saugu, jei elemento nėra
allowed_countries.discard("DE")
print(allowed_countries)

{'EE', 'LV', 'PL', 'LT'}
{'EE', 'LV', 'PL', 'LT'}


### Aibių veiksmai (set operations)

- Sąjunga `|` (union): visi elementai iš abiejų.
- Sankirta `&` (intersection): elementai, kurie yra abiejuose.
- Skirtumas `-` (difference): elementai, kurie yra pirmajame, bet nėra antrajame.
- Simetrinis skirtumas `^`: elementai, kurie yra tik vienoje pusėje.

In [13]:
online_buyers = {"C001", "C002", "C005"}
direct_buyers = {"C001", "C003", "C004"}

print("Bent vienas kanalas (sąjunga):", online_buyers | direct_buyers)
print("Abu kanalai (sankirta):", online_buyers & direct_buyers)
print("Tik online:", online_buyers - direct_buyers)
print("Tik viename kanale (simetrinis skirtumas):", online_buyers ^ direct_buyers)

Bent vienas kanalas (sąjunga): {'C003', 'C005', 'C002', 'C004', 'C001'}
Abu kanalai (sankirta): {'C001'}
Tik online: {'C005', 'C002'}
Tik viename kanale (simetrinis skirtumas): {'C003', 'C002', 'C004', 'C005'}


### Verslo pavyzdys: draudžiamų prekių kategorijų tikrinimas

- Turėti draudžiamų kategorijų sąrašą set pavidalu.
- Filtruoti užsakymus, kuriuose yra bent viena draudžiama kategorija.

In [14]:
banned_categories = {"Alcohol", "Tobacco", "Weapons"}  # Pavyzdinės kategorijos

orders_categories = [
    (1001, {"Food", "Household"}),
    (1002, {"Alcohol", "Food"}),
    (1003, {"Electronics"}),
    (1004, {"Tobacco"}),
]

flagged_orders = []
for order_id, cats in orders_categories:
    # Patikrinti sankirtą: ar yra bent viena draudžiama kategorija
    if cats & banned_categories:
        flagged_orders.append(order_id)

print("Pažymėti užsakymai:", flagged_orders)

Pažymėti užsakymai: [1002, 1004]


### Verslo pavyzdys: produktų krepšelis kaip set

- Vieną užsakymą atvaizduoti kaip set, kai svarbus tik unikalus prekių sąrašas.
- Rasti poras, kurios dažnai pasitaiko kartu (2 prekių bundlai).

In [15]:
orders_items = {
    1001: {"Milk", "Bread", "Eggs"},
    1002: {"Bread", "Butter"},
    1003: {"Milk", "Bread"},
    1004: {"Eggs", "Flour", "Sugar"},
    1005: {"Milk", "Bread", "Butter"},
}

# Suskaičiuoti, kiek užsakymų turi ir Milk, ir Bread
target_bundle = {"Milk", "Bread"}
count = sum(1 for items in orders_items.values() if target_bundle.issubset(items))
print("Užsakymų su Milk+Bread:", count)

Užsakymų su Milk+Bread: 3


### `frozenset`: nekintamas set

- Naudoti `frozenset`, jei set reikia kaip žodyno rakto arba kaip stabilaus objekto.
- Tinka bundlų skaičiavimui: raktas = frozenset({"Milk","Bread"}).

In [None]:
bundle_counts = {}

for items in orders_items.values():
    # Suformuoti 2 prekių bundlus iš užsakymo
    items_list = sorted(items)
    for i in range(len(items_list)):
        for j in range(i+1, len(items_list)):
            bundle = frozenset({items_list[i], items_list[j]})
            bundle_counts[bundle] = bundle_counts.get(bundle, 0) + 1

# Išvesti top 5 bundlus
top5 = sorted(bundle_counts.items(), key=lambda x: x[1], reverse=True)[:5]
for bundle, cnt in top5:
    print(set(bundle), "->", cnt)

## 3) Kada rinktis tuple, kada set

### Rinktis tuple, kai:
- Svarbi elementų tvarka ir stabili struktūra.
- Reikėti nekintamo įrašo (pvz., (order_id, customer_id, amount)).
- Reikėti sudėtinio raktinio lauko žodynui.

### Rinktis set, kai:
- Reikėti unikalių reikšmių (deduplikacija).
- Reikėti greito tikrinimo „ar yra?“.
- Reikėti aibių veiksmų: sankirtos, sąjungos, skirtumo.

## 4) Mini praktika (užduotys)

1. Turėti sąrašą produktų kategorijų su pasikartojimais. Grąžinti unikalių kategorijų sąrašą abėcėlės tvarka.
2. Turėti du klientų sąrašus: pirkusių online ir pirkusių direct. Rasti klientus, kurie pirko abiejuose kanaluose.
3. Turėti užsakymų sąrašą: (customer_id, month, revenue). Sukurti žodyną, kur raktas būtų tuple (customer_id, month), o reikšmė – revenue.
4. Turėti užsakymų krepšelius (order_id -> set(items)). Suskaičiuoti, kiek kartų pasitaiko bundle {"Milk","Bread","Butter"} (naudoti `issubset`).

In [None]:
# 1) Unikalios kategorijos
categories = ["Food", "Electronics", "Food", "Household", "Electronics", "Toys"]
unique_sorted = sorted(set(categories))
print("1) Unikalios kategorijos:", unique_sorted)

# 2) Pirkę abiejuose kanaluose
online = {"C001", "C002", "C005"}
direct = {"C001", "C003", "C004"}
both = online & direct
print("2) Abu kanalai:", both)

# 3) Žodynas su tuple raktu
rows = [
    ("C001", "2025-11", 179.90),
    ("C001", "2025-12", 220.00),
    ("C002", "2025-11", 12.50),
]
d = { (cust, month): rev for cust, month, rev in rows }
print("3) Pajamos C001 2025-12:", d[("C001", "2025-12")])

# 4) Bundle {Milk,Bread,Butter}
target = {"Milk", "Bread", "Butter"}
cnt = sum(1 for items in orders_items.values() if target.issubset(items))
print("4) Milk+Bread+Butter:", cnt)

## 5) Santrauka

- Tuple naudoti stabiliai struktūrai ir kelių reikšmių grąžinimui.
- Set naudoti unikalumui, greitam narystės tikrinimui ir aibių veiksmams.
- Analitikoje dažnai pasitaikyti:
  - Tuple: sudėtiniai raktai, įrašų reprezentacija, agregacijų grąžinimas iš funkcijų.
  - Set: deduplikacija, filtravimo taisyklės, segmentų sankirtos, krepšelių analizė.