# Kolekce
Kolekce je datová struktura, která umožňuje ukládat více prvků do jedné proměnné. V Pythonu existuje několik typů kolekcí, které se liší svým chováním a vlastnostmi. V této lekci se podíváme na několik základních typů kolekcí, které Python nabízí.

- **seznam** (list) - obecná kolekce, která umožňuje ukládat více prvků do jedné proměnné

- **slovník** (dict) - kolekce, která ukládá data ve formě klíč-hodnota, kde *klíč* musí být unikátní a slouží k identifikaci *hodnoty*.
- **n-tice** (tuple) - kolekce, která je podobná seznamu, ale její obsah ani velikost nelze měnit
- **množina** (set) - kolekce, která ukládá pouze unikátní hodnoty

## Seznamy
Seznam je obecná kolekce, která umožňuje ukládat více prvků do jedné proměnné. Prvky seznamu mohou být libovolného typu a mohou se libovolně měnit. Seznamy se v Pythonu zapisují do hranatých závorek `[]` a prvky seznamu se oddělují čárkami `,`.

### Zacházení se seznamy
```python
# prázdný seznam
empty_list = []
empty_list = list()

# seznam s prvky
numbers = [1, 2, 3, 4, 5]

# seznam s různými typy prvků
mixed = [1, 'hello', True, None, 3.14]

# vnorene seznamy
nested = [[1, 2], [3, 4], [5, 6]]

# pridaní prvku do seznamu
numbers.append(6)

# indexovani prvku v seznamu
first = numbers[0]
last = numbers[-1]
one_before_last = numbers[-2]

# změna prvku v seznamu
numbers[0] = 0
numbers[-1] = 7

# smazání prvku ze seznamu
del numbers[1]

# spojení seznamů
more_numbers = [8, 9, 10]

combined = numbers.extend(more_numbers)
combined = numbers + mixed

# trideni seznamu
sorted_numbers = sorted(numbers)  # vytvoří nový seznam
numbers.sort()  # změní původní seznam na serazeny

# zjisteni delky seznamu
length = len(numbers)

# krajeni seznamu (slicing)
# obecne: alist[start : stop : step]
first_two = numbers[:2]
last_two = numbers[-2:]
middle = numbers[2:4]
every_second = numbers[::2]

# ------------------------------------------------------------------

# dalsi metody seznamu
numbers.count(3)  # pocet vyskytu prvku v seznamu
numbers.index(3)  # index prvniho vyskytu prvku v seznamu
numbers.remove(3)  # smazani prvniho vyskytu prvku v seznamu
numbers.pop(2)  # vraceni a smazani prvku na danem indexu
numbers.pop()  # vraceni a smazani posledniho prvku
numbers.reverse()  # obraceni poradi prvku v seznamu (ekvivalentni numbers = numbers[::-1])
numbers.clear()  # smazani vsech prvku ze seznamu (ekvivalentni numbers = [])

```

-----------------------------------
### Cvičení 1
Dvě třídy ze základky jedou spolu na lyžák, ve dvou seznamech (`class1`, `class2`) máte jejich jména.
Na první den lyžování chcete žáky rozdělit do skupinek podle abecedy a to vždy po 8 lidech.
Je tedy potřeba seznamy jmen spojit, seřadit a následně rozdělit.

Zároveň abecedně poslední ve skupině dohlíží na včasný nástup, prohlásme ho tedy za kapitána skupiny.

Aby bylo vše jasné, pro každou skupinu vypište: "Skupina cislo X: kapitan Y, clenove: [Z,Z,Z,Z,Z,Z,Z,Z]"

In [None]:
class1 = ["Petr", "Karel", "Jana", "Zuzana", "Pavel", "Jitka", "Josef", "Marie", "Eva", "Jan", "Hana", "Jaroslav"]
class2 = ["Martin", "Lenka", "Michal", "Alena", "Lukas", "Petra", "Tomas", "Lucie", "Miroslav", "Veronika", "Vaclav", "Ivana"]

# ziskejte serazeny seznam jmen z obou trid
both_classes = # TODO
sorted_both_classes = # TODO

# rozdelte seznam na 3 skupiny po 8 lidech (zaku je celkem 24)
group1 = # TODO
group2 = # TODO
group3 = # TODO

# vypiste jednotlive skupiny
print("Skupina cislo 1: ...")
# ...

## Slovníky
Slovník je kolekce, která ukládá data ve formě klíč-hodnota, kde *klíč* musí být unikátní a slouží k identifikaci *hodnoty*. Slovníky se v Pythonu zapisují do složených závorek `{}` a jednotlivé položky se oddělují čárkami `,`. Každá položka slovníku je tvořena *klíčem* a *hodnotou* oddělenými dvojtečkou `:`. Klíče mohou být libovolného neměnného typu (číslo, řetězec, n-tice), hodnoty mohou být libovolného typu.

### Zacházení se slovníky
```python
# prázdný slovník
empty_dict = {}
empty_dict = dict()

# slovník s položkami
person = {'name': 'Alice', 'age': 25, 'is_student': False}

# přidání položky do slovníku
person['city'] = 'Prague'

# získání hodnoty podle klíče
name = person['name']                       # pokud klíč neexistuje, vyhodí chybu      
name = person.get('name')                   # pokud klíč neexistuje, vrátí se None (bezpečnější)
name = person.get('address', 'unknown')     # pokud klíč neexistuje, vrátí se defaultní zvolená hodnota -> 'unknown'


# změna hodnoty podle klíče
person['age'] = 26

# smazání položky ze slovníku
del person['is_student']

# zjištění velikosti slovníku
length = len(person)

# spojení slovníků
more_info = {'email': 'alice.novakova@gmail.com', 'phone': '123456789'}

person.update(more_info)                   # změní původní slovník
updated_person = {**person, **more_info}   # nový slovník, původní slovníky zůstanou nezměněné
```

------------------------------------------------
### Cvičení 2
Máte k dispozici dva slovníky s informacemi o produktech na skladě - stock a name_to_code.
stock obsahuje informace o názvu, ceně a množství zboží na skladě, klíčem pro vyhledání je kód zboží.
name_to_code obsahuje převodní tabulku z názvu zboží na kód zboží.

Napište funkci `process_item(item, quantity)`, která zpracuje objednávku jednoho druhu zboží. 
Funkce by měla: 
- zjistit kód zboží podle názvu,
- pokud zboží není skladem, vypsat zprávu "Sorry, we don't sell ....",
- pokud není dostatek zboží na skladě, vypsat zprávu "Sorry, we don't have enough .... in stock.",
- jinak vypsat zprávu "Order processed: ....x .... for .... CZK each." a snížit množství zboží na skladě.

In [None]:
stock = {"123": {"name": "banan", "price": 10, "quantity": 100},
         "124": {"name": "jablko", "price": 5, "quantity": 200},
         "125": {"name": "hruska", "price": 8, "quantity": 150},
         "126": {"name": "mrkev", "price": 7, "quantity": 300},
         "127": {"name": "zeli", "price": 6, "quantity": 250}}

name_to_code = {"banan": "123", "jablko": "124", "hruska": "125", "mrkev": "126", "zeli": "127"}

# ----------------------------------

def process_item(item: str, quantity: int):
    pass # TODO


def process_order(shopping_cart: dict):
    for (item, quantity) in shopping_cart.items():
        process_item(item, quantity)


# Pouziti
shopping_cart = {"banan": 10, "mrkev": 5, "zeli": 8, "jablko": 7, "pomeranc": 3, "hruska": 1000}
process_order(shopping_cart)

## N-tice
N-tice je kolekce, která je podobná seznamu, ale její obsah ani velikost nelze měnit. N-tice se v Pythonu zapisují do kulatých závorek `()` a prvky n-tice se oddělují čárkami `,`.

### Zacházení s n-ticemi
```python
# prázdná n-tice
empty_tuple = ()
empty_tuple = tuple()

# n-tice s prvky
numbers = (1, 2, 3, 4, 5)
anything = (1, 'hello', True, None, 3.14)

# n-tice s jedním prvkem
single = (1,)

# indexování prvků v n-tici
first = numbers[0]
last = numbers[-1]

# délka n-tice
length = len(numbers)

# spojení n-tic
more_numbers = (6, 7, 8)
combined = numbers + more_numbers

# slicing n-tice
first_two = numbers[:2]
last_two = numbers[-2:]
every_second = numbers[::2]

# prevod seznamu na n-tici a naopak
numbers_list = list(numbers)
numbers_tuple = tuple(numbers)

# rozbalení n-tice
a, b, c = more_numbers
```

--------------------------------------


### Ukázka častého použití n-tic

In [None]:
# vracení více hodnot z funkce
def min_max(numbers):
    return min(numbers), max(numbers)

# výsledek funkce je n-tice
result = min_max([1, 2, 3, 4, 5])
min_number, max_number = result

## Množiny
Množina je kolekce, která ukládá pouze unikátní hodnoty. Množiny se v Pythonu zapisují do složených závorek `{}` a jednotlivé prvky se oddělují čárkami `,`.

Díky tomu, že množiny ukládají pouze unikátní hodnoty, jsou velmi užitečné pro rychlé vyhledávání a odstraňování duplicitních prvků. Na druhou stranu množiny nejsou indexovatelné a nemají pořadí, ve kterém byly prvky přidány. 

Do množiny lze přidávat pouze neměnné (nezměnitelné) datové typy (čísla, řetězce, n-tice), nikoliv však seznamy nebo slovníky.

### Zacházení s množinami
```python
# prázdná množina
empty_set = {}
empty_set = set()

# množina s prvky
numbers = {1, 2, 3, 4, 5}
mixed = {1, 'hello', True, None, 3.14}

# přidání prvku do množiny
numbers.add(6)

# odebrání prvku z množiny
numbers.remove(3)

# zjištění délky množiny
length = len(numbers)

# převod seznamu na množinu a naopak
numbers = [1, 2, 3, 4, 5]

numbers_set = set(numbers)
numbers_list = list(numbers_set)
```

------------------------------------
### Množinové operace

```python
more_numbers = {4, 5, 6, 7}

# sjednocení množin
numbers.update(more_numbers)         # změní původní množinu, přidá všechny prvky z more_numbers
union = numbers.union(more_numbers)  # vytvoří novou množinu, obsahující sjednocení numbers a more_numbers
union = numbers | more_numbers       # ekvivalentní zápis k předchozímu
```
![image-2.png](attachment:image-2.png)

```python
# průnik množin
common = numbers.intersection(more_numbers)   # vytvoří novou množinu, obsahující průnik numbers a more_numbers
common = numbers & more_numbers               # ekvivalentní zápis k předchozímu
```
![image.png](attachment:image.png)
    
```python
# rozdíl množin
difference = numbers.difference(more_numbers)  # vytvoří novou množinu, obsahující rozdíl numbers a more_numbers
difference = numbers - more_numbers            # ekvivalentní zápis k předchozímu
```
![image-3.png](attachment:image-3.png)


---------------------------
### Cvičení 3
Máte zadané dva texty (`document1` a `document2`) na podobné téma. Zkuste zanalyzovat, která slova jsou v obou textech společná a která jsou unikátní pro každý text.
Častým krokem při analýze textu je odstranění tzv. stopslov (stopwords) - slov, která se vyskytují velmi často a nepřinášejí žádnou informaci.

1) Vytvořte funkci `remove_stopwords(words, stopwords)`, která z textu odstraní stopslova (stopwordy jsou uloženy v proměnné stopwords).
2) Vytvořte funkci `common_words(words1, words2)`, která vrátí slova společná pro oba texty.
3) Vytvořte funkci `unique_words(words1, words2)`, které vrátí slova společná pro oba texty a slova, která jsou unikátní pro každý text.
4) Nakonec použijte vytvořené funkce na zadané texty document1 a document2 a vypište výsledky.


*Tip1: Pro řešení úkolu vřele doporučuji použít **množiny**.*

*Tip2: Nehledejte v implementovaných funkcích nic složitého - délka dokumentace je hrozivá, ale funkce jsou jednoduchoučké*

In [None]:
document1 = """Data science is a rapidly growing field that combines statistical analysis, computer science,
and domain expertise. Data scientists use techniques from machine learning, data mining, and predictive analytics
to make sense of large datasets. The goal is to uncover patterns, draw insights, and inform decision-making in various
industries, from healthcare to finance."""

document2 = """Data science plays a pivotal role in today’s technological world. With the help of artificial intelligence
and machine learning, data scientists analyze vast amounts of information to find trends and make predictions. This field
requires a strong foundation in mathematics and statistics, along with programming skills, especially in languages like Python and R."""

stopwords = stopwords = [
    "a", "about", "and", "are", "as", "at", "be", "because", "but", "by",
    "for", "from", "have", "he", "his", "I", "in", "it", "its", "of",
    "on", "or", "that", "the", "their", "there", "these", "they", "this",
    "to", "was", "were", "what", "when", "where", "who", "why", "you"
]

word_list1 = document1.split()
word_list2 = document2.split()

# ----------------------------------

def remove_stopwords(words, stopwords):
    """
    Odstraní stop slova ze seznamu slov.

    Parameters
    ----------
    words : list
        Seznam slov.
    stopwords : list
        Seznam stop slov.

    Returns
    -------
    list
        Seznam slov bez stop slov.
    """
    pass

def common_words(words1, words2):
    """
    Najde společná slova v obou dokumentech.

    Parameters
    ----------
    words1 : list
        Seznam slov z prvního dokumentu.
    words2 : list
        Seznam slov z druhého dokumentu.

    Returns
    -------
    list
        Seznam společných slov.
    """
    pass

def unique_words(words1, words2):
    """
    Najde slova, která jsou pouze v jednom z dokumentů.

    Parameters
    ----------
    words1 : list
        Seznam slov z prvního dokumentu.
    words2 : list
        Seznam slov z druhého dokumentu.

    Returns
    -------
    list
        Seznam unikátních slov z prvního dokumentu.
    list
        Seznam unikátních slov z druhého dokumentu.
    """
    pass


# Pouziti
keywords1 = remove_stopwords(word_list1, stopwords)
keywords2 = remove_stopwords(word_list2, stopwords)

common = common_words(keywords1, keywords2)
unique1, unique2 = unique_words(keywords1, keywords2)

print("Common words:", common)
print("Unique words in document 1:", unique1)
print("Unique words in document 2:", unique2)