# Lekcja 8: Słowniki i inne kolekcje

## Spis treści

<a href="#1">1. Słowniki</a>


- <a href="#1.1">1.1. Co to jest słownik?</a>


- <a href="#1.2">1.2. Tworzenie słowników</a>
    - <a href="#1.2_b1">Przypisania klucz:wartość w nawiasach klamrowych</a>
    - <a href="#1.2_b2">Klucze muszą być niemutowalne</a>
    - <a href="#1.2_b3">Klucze nie mogą mieć duplikatów</a>
    - <a href="#1.2_b4">Klucze nie mogą mieć duplikatów - niespodzianka</a>
    - <a href="#1.2_b5">Słownik pusty</a>
    - <a href="#1.2_b6">Konwersja kolekcji par do słownika</a>
    - <a href="#1.2_b7">Funkcja `dict` z argumentami nazwanymi</a>


- <a href="#1.3">1.3. Słowniki są nieuporządkowane, ale są indeksowane kluczem</a>
    - <a href="#1.3_b1">Klucz jako indeks</a>
    - <a href="#1.3_b2">Metoda `get`</a>


- <a href="#1.4">1.4. Słowniki można modyfikować</a>
    - <a href="#1.4_b1">Dodawanie nowych elementów i modyfikowanie istniejących</a>
    - <a href="#1.4_b2">Łączenie słowników</a>
    - <a href="#1.4_b3">Usuwanie elementów</a>


- <a href="#1.5">1.5. Iterowanie przez słownik</a>
    - <a href="#1.5_b1">Lista kluczy - metoda `keys`</a>
    - <a href="#1.5_b2">Lista wartości - metoda `values`</a>
    - <a href="#1.5_b3">Lista par (klucz, wartość) - metoda `items`</a>
    - <a href="#1.5_b4">Operatory `in` i `not in`</a>
    - <a href="#1.5_b5">"Dictionary comprehension"</a>


<a href="#2">2. Kilka innych kolekcji</a>


- <a href="#2.1">2.1. Moduł `collections` i typ `defaultdict`</a>


- <a href="#2.2">2.2. Biblioteki `numpy` i `pandas`</a>
    - <a href="#2.2_b1">`numpy`</a>
    - <a href="#2.2_b2">`pandas`</a>


<a href="#3">3. Zadania domowe</a>

## <a id="1"></a>1. Słowniki

### <a id="1.1"></a>1.1. Co to jest słownik?

**Słownik** ("dictionary", typ `dict`) to jedna z najważniejszych i najczęściej używanych kolekcji w Pythonie. Z punktu widzenia naszych dwóch fundamentalnych własności, słowniki są:

- Nieuporządkowane - nie mają indeksu 0, 1, 2, ... pokazującego, który element jest pierwszy, który drugi itd., jak stringi, listy czy tuple. Natomiast mają tzw. **klucz** ("key"), który pełni rolę indeksu. Mówiąc dokładniej, słownik jest to kolekcja **przypisań** ("associations") o postaci:
```
key : value
```
gdzie mamy serię kluczy `key`, do których przypisane są wartości `value`; zatem choć do wartości `value` nie możemy odwołać się poprzez indeks, to możemy to zrobić poprzez klucz `key`. Możemy wyobrazić sobie prawdziwy słownik, gdzie słowu angielskiemu (`key`) jest przypisane słowo polskie (`value`); lub książkę telefoniczną, gdzie imieniu (`key`) przypisany jest numer telefonu (`value`).

- Mutowalne - można je do woli modyfikować.

### <a id="1.2"></a>1.2. Tworzenie słowników

#### <a id="1.2_b1"></a>Przypisania klucz:wartość w nawiasach klamrowych

Słownik tworzymy - podobnie jak zbiór - zamykając elementy w nawiasy klamrowe; każdy element jest teraz jednak parą - a dokładniej przypisaniem - klucz i wartość.

In [1]:
chemical_elements = {
    'copper' : 29 ,
    'gold' : 79 ,
    'silver' : 47 ,
    'platinum' : 78 ,
    'palladium' : 46
} # kluczami są stringi (nazwy pierwiastków), wartościami liczby całkowite (liczby atomowe)

In [2]:
type( chemical_elements )

dict

#### <a id="1.2_b2"></a>Klucze muszą być niemutowalne

Klucz może być generalnie dowolnego typu, byle _niemutowalnego_ - może być więc np. liczbą, stringiem, tuplą, ale listą już nie (klucz nie może też być innym słownikiem - słowniki są mutowalne).

In [3]:
some_dict = {
    [ 1 , 2 ] : 2 ,
    [ 3 , 4 , 5 , 6 ] : 4
} # próba utworzenia słownika z niedozwolonym typem klucza

TypeError: unhashable type: 'list'

Moglibyśmy w tym przypadku użyć tupli - to jedno z jej zastosowań:

In [4]:
some_dict = {
    ( 1 , 2 ) : 2 ,
    ( 3 , 4 , 5 , 6 ) : 4
}

Z kolei wartości mogą być najzupełniej dowolnego typu.

Zarówno klucze, jak i wartości, mogą mieć różne typy, np.:

In [5]:
{
    1 : 'a' ,
    ( 5 , 6 ) : False
}

{1: 'a', (5, 6): False}

... czy nawet:

In [6]:
{
    int : 1 ,
    float : 2 ,
    bool : 3
}

{int: 1, float: 2, bool: 3}

#### <a id="1.2_b3"></a>Klucze nie mogą mieć duplikatów

Klucz pełni rolę indeksu, pozwalającego dostać się do danej wartości (zob. niżej). Aby miało to sens, _klucze nie mogą się powtarzać_. Gdybyśmy spróbowali stworzyć słownik z kilkoma identycznymi kluczami, Python automatycznie **odrzuci wszystkie, oprócz ostatniego zapisanego wystąpienia**.

In [7]:
fruit_colors = {
    'apple' : 'red' ,
    'apple' : 'yellow' ,
    'orange' : 'orange' ,
    'apple' : 'green' ,
    'plum' : 'violet'
}

fruit_colors # zostaje tylko 'apple' : 'green', pozostałe elementy z kluczem 'apple' są odrzucone

{'apple': 'green', 'orange': 'orange', 'plum': 'violet'}

Mówiąc dokładniej, kiedy Python chce zrozumieć naszą deklarację słownika, tworzy on najpierw pusty słownik, a następnie po kolei - tak, jak to zapisaliśmy - "dorzuca" do niego kolejne przypisania. Jeśli napotka ten sam klucz, co wcześniej, _nadpisuje_ jego wartość na nową.

Sytuacja taka może nam się przydarzyć, np. kiedy sami tworzymy słownik iteracyjnie - trzeba pamiętać, że każde wystąpienie tego samego klucza, co wcześniej, nadpisze poprzednią wartość.

#### <a id="1.2_b4"></a>Klucze nie mogą mieć duplikatów - niespodzianka

Zasada ta może czasem prowadzić do dość niespodziewanych rezultatów! Rozważmy następujący słownik:

In [13]:
{
    1 : 'yes' ,
    True : 'no' ,
    1.0 : 'maybe'
}

{1: 'maybe'}

Co tu się stało?? Otóż dla Pythona wszystkie występujące tu klucze są identyczne. Dość intuicyjna wydaje się pierwsza równość:

In [9]:
1 == 1.0

True

... natomiast mamy także:

In [10]:
1 == True

True

... jako że w Pythonie typ `bool` jest tak naprawdę "pod-typem" typu `int`: Python wewnętrznie traktuje `False` jako `0`, a `True` jako `1`. Dlatego też wszystkie te trzy klucze są dla Pythona identyczne. Zatem zgodnie z tym, co mówiliśmy, zostaje nam tylko _ostatnia_ wartość, tj. `'maybe'`.

Dlaczego jednak został nam _pierwszy_ klucz, `True`? Python sprawdziwszy, że dostał ten sam klucz, co poprzednio, nadpisuje wartość, ale - oczywiście! - nie nadpisuje klucza; po co miałby to robić, skoro klucz jest ten sam! Zatem tutaj dostając kolejne klucze, `1`, a potem `1.0`, sprawdziwszy, że są one identyczne do `True`, Python naspisuje wartość, ale klucz pozostaje ten sam, co na początku.

#### <a id="1.2_b5"></a>Słownik pusty

Puste w środku nawiasy klamrowe tworzą pusty słownik (nie zbiór!):

In [14]:
empty_dict = {}

In [15]:
type( empty_dict )

dict

Ten sam efekt będzie miało napisanie `dict()`:



In [16]:
dict()

{}

... co jest analogiczne do pustych list, tupli, zbiorów:

In [17]:
list()

[]

In [18]:
tuple()

()

In [19]:
set()

set()

Co ciekawe, analogicznie możemy utworzyć pusty string, a także liczbę całkowitą bądź zmiennoprzecinkową zero, czy też wartość logiczną "fałsz":

In [20]:
str()

''

In [21]:
int()

0

In [22]:
float()

0.0

In [23]:
bool()

False

Wracając do słowników, ponieważ są one mutowalne - można je do woli modyfikować - taki pusty słownik może służyć jako "pusty pojemnik", do którego będziemy "wrzucać" kolejne pary klucz:wartość.

#### <a id="1.2_b6"></a>Konwersja kolekcji par do słownika

Słownik możemy utworzyć też konwertując typ na `dict` - a zatem funkcją o nazwie `dict` - innej kolekcji, przy czym musi być to bardzo konkretnie kolekcja _par_, które następnie zostaną przekonwertowane na pary przypisań. Możemy mieć więc listę/tuplę 2-elementowych list/tupli.

In [24]:
dict( [ [ 'a' , 1 ] , [ 'b' , 2 ] , [ 'c' , 3 ] ] )

{'a': 1, 'b': 2, 'c': 3}

In [25]:
dict( [ ( 'a' , 1 ) , ( 'b' , 2 ) , ( 'c' , 3 ) ] )

{'a': 1, 'b': 2, 'c': 3}

Trzeba pamiętać tylko, iż pierwsze elementy par nie mogą być mutowalne, bo przecież klucze - którymi się staną - nie mogą być obiektami mutowalnymi.

In [27]:
dict( [ ( 1 , [ 'a' , 'A' ] ) , ( 2 , [ 'b' , 'B' ] ) , (  3 , [ 'c' , 'C' ]  ) ] )

{1: ['a', 'A'], 2: ['b', 'B'], 3: ['c', 'C']}

Przypomnijmy sobie teraz z Lekcji 6, że funkcje `enumerate` i `zip` (zastosowana do dwóch kolekcji) tworzą nam dokładnie takie kolekcje par - możemy więc np. wygodnie utworzyć słownik z dwóch list, listy kluczy i listy wartości, "spinając je na suwak" i konwertując otrzymaną kolekcję par na słownik.

In [28]:
mountain_names = [ 'Rysy' , 'Mięguszowiecki Szczyt Wielki' , 'Niżnie Rysy' , 'Mięguszowiecki Szczyt Czarny' ]
elevations = [ 2503 , 2438 , 2430 , 2410 ]

dict( zip( mountain_names , elevations ) )

{'Rysy': 2503,
 'Mięguszowiecki Szczyt Wielki': 2438,
 'Niżnie Rysy': 2430,
 'Mięguszowiecki Szczyt Czarny': 2410}

#### <a id="1.2_b7"></a>Funkcja `dict` z argumentami nazwanymi

Wspomnijmy jeszcze o jednej metodzie kreacji słowników. Powyżej używaliśmy funkcji `dict` do konwersji typów. Okazuje się, że funkcja `dict` może też przyjąć tzw. argumenty nazwane - o których nauczymy się w Lekcjach 9-10 o funkcjach. Składnia ma postać:

In [31]:
dict( a = 1 , b = 2 , c = 3 )

{'a': 1, 'b': 2, 'c': 3}

... co tworzy słownik, gdzie kluczami są _stringi_, reprezentujące nazwy parametrów podanych funkcji `dict`.

<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Szybkie ćwiczenie 1: Utwórz słownik, którego kluczami będą stringi `'Mercury'`, `'Venus'`, `'Earth'`, `'Mars'`, zaś odpowiednimi wartościami listy, `[]`, `[]`, `['Moon']`, `['Phobos', 'Deimos']` (pierwsze dwie listy są puste, bo Merkury i Wenus nie mają księżyców). Użyj trzech poznanych wyżej metod:

(a) umieszczenie przypisań klucz:wartość w nawiasach klamrowych;

(b) konwersja do słownika listy par "spiętych na suwak";

(c) funkcja `dict` z argumentami nazwanymi.

In [32]:
# szybkie ćwiczenie 1a - rozwiązanie

{
    'Mercury' : [] ,
    'Venus' : [] ,
    'Earth' : [ 'Moon' ] ,
    'Mars' : [ 'Phobos' , 'Deimos' ]
}

{'Mercury': [], 'Venus': [], 'Earth': ['Moon'], 'Mars': ['Phobos', 'Deimos']}

In [33]:
# szybkie ćwiczenie 1b - rozwiązanie

planets = [ 'Mercury', 'Venus', 'Earth', 'Mars' ]
moons = [ [] , [] , ['Moon'] , [ 'Phobos', 'Deimos' ] ]

dict( zip( planets , moons ) )

{'Mercury': [], 'Venus': [], 'Earth': ['Moon'], 'Mars': ['Phobos', 'Deimos']}

In [34]:
# szybkie ćwiczenie 1c - rozwiązanie

dict( Mercury = [] , Venus = [] , Earth = [ 'Moon' ] , Mars = [ 'Phobos', 'Deimos' ] )

{'Mercury': [], 'Venus': [], 'Earth': ['Moon'], 'Mars': ['Phobos', 'Deimos']}

### <a id="1.3"></a>1.3. Słowniki są nieuporządkowane, ale są indeksowane kluczem

#### <a id="1.3_b1"></a>Klucz jako indeks

Podobnie jak zbiory, nie mamy w słownikach ustalonej kolejności i w związku z tym nie możemy do elementów odwoływać się indeksem.

In [35]:
chemical_elements

{'copper': 29, 'gold': 79, 'silver': 47, 'platinum': 78, 'palladium': 46}

In [36]:
chemical_elements[ 0 ] # słownik nie ma indeksu!

KeyError: 0

Natomiast do każdej wartości możemy odnieść się - tą samą składnią nawiasów kwadratowych - poprzez jej (unikalny!) klucz.

In [37]:
chemical_elements[ 'gold' ] # wartość dla klucza 'gold' (string) jest 79 (int)

79

... czy też:

In [38]:
some_dict

{(1, 2): 2, (3, 4, 5, 6): 4}

In [39]:
some_dict[ ( 3 , 4 , 5 , 6 ) ] # wartość dla klucza ( 3 , 4 , 5 , 6 ) (tupla) jest 4 (int)

4

<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Szybkie ćwiczenie 2: "Multiple lookup".

Pracujmy na słowniku `chemical_elements`. Wiemy już, jak otrzymać wartość odpowiadającą danemu kluczowi słownika poprzez składnię nawiasów kwadratowych. A gdybyśmy chcieli otrzymać listę wartości odpowiadających kluczom na zadanej liście, np. `key_list = ['gold', 'platinum', 'palladium']`? Tutaj dostalibyśmy listę `[79, 78, 46]`.

Wskazówka: Użyj składni "list comprehension", iterując się po liście `key_list`.

In [42]:
# szybkie ćwiczenie 2 - rozwiązanie

key_list = ['gold', 'platinum', 'palladium']

[ chemical_elements[ key ] for key in key_list ]

[79, 78, 46]

#### <a id="1.3_b2"></a>Metoda `get`

Alternatywną opcją wyciągnięcia wartości przypisanej do danego klucza jest metoda `get`.

In [43]:
chemical_elements.get( 'gold' )

79

Istotna różnica względem dobrze nam znanej składni nawiasów kwadratowych objawia się podczas próby otrzymania wartości dla _nieistniejącego klucza_; składnia nawiasów zwróci błąd:

In [44]:
chemical_elements[ 'hydrogen' ]

KeyError: 'hydrogen'

... podczas gdy `get` zwróci (całkiem poprawną) wartość `None`:

In [45]:
chemical_elements.get( 'hydrogen' )

In [46]:
chemical_elements.get( 'hydrogen' ) is None

True

Co więcej, metodzie `get` możemy dać jako drugi opcjonalny argument wartość, którą metoda ma zwrócić, jeśli nie znajdzie klucza:

In [47]:
chemical_elements.get( 'hydrogen' , 'I don\'t know!' ) # string 'I don\'t know!' jest (opcjonalną) wartością zwracaną, gdy klucza nie ma w słowniku

"I don't know!"

In [50]:
key_list = ['gold', 'platinum', 'palladium', 'hydrogen']

[ chemical_elements.get( key , -1 ) for key in key_list ]

[79, 78, 46, -1]

Bezpieczniej jest zatem używać metody `get`, jako że mamy wtedy pełną kontrolę nad jej zachowaniem w przypadku nieznalezienia klucza.

### <a id="1.4"></a>1.4. Słowniki można modyfikować

#### <a id="1.4_b1"></a>Dodawanie nowych elementów i modyfikowanie istniejących

Dodanie nowego elementu do słownika jest bardzo proste - nowy klucz i wartość tworzymy w jednym kroku przypisania:

In [51]:
chemical_elements

{'copper': 29, 'gold': 79, 'silver': 47, 'platinum': 78, 'palladium': 46}

In [52]:
chemical_elements[ 'mercury' ] = 81 # tworzymy nowy klucz - string 'mercury' - i przypisujemy mu wartość - int 81

chemical_elements

{'copper': 29,
 'gold': 79,
 'silver': 47,
 'platinum': 78,
 'palladium': 46,
 'mercury': 81}

... i pomyliliśmy się! Liczba atomowa rtęci to 80, a nie 81. Możemy więc zmienić tę wartość - stosując dokładnie taką samą składnię:

In [53]:
chemical_elements[ 'mercury' ] = 80

chemical_elements

{'copper': 29,
 'gold': 79,
 'silver': 47,
 'platinum': 78,
 'palladium': 46,
 'mercury': 80}

Ta sama składnia służy zatem do:

- dodawania nowych elementów (jeśli dany klucz nie istnieje jeszcze w słowniku),

- jak i modyfikacji istniejących (jeśli dany klucz już tam jest).

W ten sposób możemy budować słownik _krok po kroku_, startując np. od pustego słownika i "wrzucając" do niego kolejne pary klucz:wartość. Np.:

In [54]:
person = {}

person[ 'name' ] = 'Bilbo Baggins'
person[ 'parents' ] = [ 'Bungo Baggins' , 'Belladonna Took' ]
person[ 'grandparents' ] = [ 'Mungo Baggins' , 'Laura Grubb' ]
person[ 'great-grandparents' ] = [ 'Balbo Baggins' , 'Berylla Boffin' ]
person[ 'friends' ] = [ 'Gandalf' , 'Thorin Oakenshield' , 'Elrond Half-elven' ]
person[ 'place of origin' ] = {
    'region' : 'The Shire' ,
    'sub-region' : 'West Farthing' ,
    'town' : 'Hobbiton' ,
    'home' : 'Bag End'
}
person[ 'date of birth' ] = '2890-09-22 Third Era'
person[ 'literary works' ] = {
    'books' : [ 'The Hobbit' ] ,
    'poems' : [ 'A Walking Song' , 'All that is gold does not glitter' , 'The Man in the Moon Stayed Up Too Late' , 'The Road Goes Ever On' , 'Bilbo\'s Last Song' ]
}

person

{'name': 'Bilbo Baggins',
 'parents': ['Bungo Baggins', 'Belladonna Took'],
 'grandparents': ['Mungo Baggins', 'Laura Grubb'],
 'great-grandparents': ['Balbo Baggins', 'Berylla Boffin'],
 'friends': ['Gandalf', 'Thorin Oakenshield', 'Elrond Half-elven'],
 'place of origin': {'region': 'The Shire',
  'sub-region': 'West Farthing',
  'town': 'Hobbiton',
  'home': 'Bag End'},
 'date of birth': '2890-09-22 Third Era',
 'literary works': {'books': ['The Hobbit'],
  'poems': ['A Walking Song',
   'All that is gold does not glitter',
   'The Man in the Moon Stayed Up Too Late',
   'The Road Goes Ever On',
   "Bilbo's Last Song"]}}

Zauważmy, jak bardzo możemy komplikować słownik; tu jako wartości mamy stringi, listy, także inne słowniki! Zagnieżdżone słowniki ("nested dictionaries") to dość typowa konstrukcja, np.:

In [55]:
chemical_elements_2 = {}

chemical_elements_2[ 'hydrogen' ] = { # wartością odpowiadającą kluczowi 'hydrogen' jest pewien słownik
    'symbol' : 'H' ,
    'atomic number' : 1 ,
    'group' : 1 ,
    'period' : 1 ,
    'category' : 'reactive nonmetal'
}

chemical_elements_2[ 'helium' ] = {
    'symbol' : 'He' ,
    'atomic number' : 2 ,
    'group' : 18 ,
    'period' : 1 ,
    'category' : 'noble gas'
}

chemical_elements_2[ 'lithium' ] = {
    'symbol' : 'Li' ,
    'atomic number' : 3 ,
    'group' : 1 ,
    'period' : 2 ,
    'category' : 'alkali metal'
}

chemical_elements_2 # słownik słowników

{'hydrogen': {'symbol': 'H',
  'atomic number': 1,
  'group': 1,
  'period': 1,
  'category': 'reactive nonmetal'},
 'helium': {'symbol': 'He',
  'atomic number': 2,
  'group': 18,
  'period': 1,
  'category': 'noble gas'},
 'lithium': {'symbol': 'Li',
  'atomic number': 3,
  'group': 1,
  'period': 2,
  'category': 'alkali metal'}}

<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Szybkie ćwiczenie 3:

(a) Jak ze słownika `chemical_elements_2` - poprzez składnię nawiasów kwadratowych - dostać liczbę atomową litu?

(b) Zmodyfikuj słownik `person` w następujący sposób:

- Wartością odpowiadającą kluczowi `'friends'` jest pewna lista. Dodaj do niej string `'Galadriel'`.

- Wartością odpowiadającą kluczowi `'literary works'` jest pewien słownik. Dodaj do niego nowy klucz, `'translations'`, przypisaną któremu wartością będzie 1-elementowa lista `['Translations from the Elvish']`.

In [59]:
# szybkie ćwiczenie 3a - rozwiązanie

chemical_elements_2[ 'lithium' ][ 'atomic number' ]

3

In [61]:
# szybkie ćwiczenie 3b - rozwiązanie

person[ 'friends' ].append( 'Galadriel' )

In [64]:
person[ 'literary works' ][ 'translations' ] = [ 'Translations from the Elvish' ]

In [65]:
person

{'name': 'Bilbo Baggins',
 'parents': ['Bungo Baggins', 'Belladonna Took'],
 'grandparents': ['Mungo Baggins', 'Laura Grubb'],
 'great-grandparents': ['Balbo Baggins', 'Berylla Boffin'],
 'friends': ['Gandalf',
  'Thorin Oakenshield',
  'Elrond Half-elven',
  'Galadriel'],
 'place of origin': {'region': 'The Shire',
  'sub-region': 'West Farthing',
  'town': 'Hobbiton',
  'home': 'Bag End'},
 'date of birth': '2890-09-22 Third Era',
 'literary works': {'books': ['The Hobbit'],
  'poems': ['A Walking Song',
   'All that is gold does not glitter',
   'The Man in the Moon Stayed Up Too Late',
   'The Road Goes Ever On',
   "Bilbo's Last Song"],
  'translations': ['Translations from the Elvish']}}

#### <a id="1.4_b2"></a>Łączenie słowników

Mając dwa słowniki, możemy je połączyć ("merge"):

- pary klucz:wartość z drugiego słownika zostaną dodane do pierwszego,

- zaś gdyby jakiś klucz z drugiego słownika występował już w pierwszym, to druga wartość _nadpisze_ tę pierwszą.

Ta druga własność ("conflict resolution strategy") jest zgodna z tym, co mówiliśmy wcześniej - gdybyśmy stworzyli słownik z powtarzającymi się kluczami, tylko _ostatni_ z nich przeżyje. Implikacją jest też, iż _kolejność_ łączenia ma znaczenie.

Pierwszym sposobem złączenia słowników jest metoda `update`; uwaga: modyfikuje ona pierwszy słownik (tj. działa "w miejscu")!

In [66]:
restaurant_orders = {
    'Monika' : 'makizushi' ,
    'Agnieszka' : 'nigirizushi' ,
    'Julia' : 'ramen'
}

restaurant_orders_2 = {
    'Julia' : 'sashimi' ,
    'Basia' : 'uramaki'
}

In [67]:
restaurant_orders.update( restaurant_orders_2 )

restaurant_orders # druga wartość klucza 'Julia' nadpisała pierwszą

{'Monika': 'makizushi',
 'Agnieszka': 'nigirizushi',
 'Julia': 'sashimi',
 'Basia': 'uramaki'}

Drugim sposobem jest **operator dwóch gwiazdek** ("double star opeartor") `**`, analogiczny w swym działaniu do operatora gwiazdki `*`, o którym wspomnieliśmy w Lekcji 7; rozpakowuje on słownik na ciąg poszczególnych przypisań, które teraz można zebrać razem w nawiasach klamrowych. Duplikaty w kluczach traktowane są jak zawsze - druga wartość nadpisuje pierwszą. Natomiast ta składnia nie modyfikuje żadnego ze słowników "w miejscu", lecz tworzy nowy słownik.

In [68]:
restaurant_orders_3 = {
    'Basia' : 'futomaki' ,
    'Andrzej' : 'sake'
}

In [69]:
{ **restaurant_orders , **restaurant_orders_3 }

{'Monika': 'makizushi',
 'Agnieszka': 'nigirizushi',
 'Julia': 'sashimi',
 'Basia': 'futomaki',
 'Andrzej': 'sake'}

Trzecim sposobem jest przeiterowanie się przez dane słowniki (zob. niżej) i kolejne "wrzucanie" nowych wartości.

#### <a id="1.4_b3"></a>Usuwanie elementów

Elementy o danym kluczu usuwać możemy metodą `pop`. Analogicznie jak przy listach, metoda ta:

- modyfikuje słownik "w miejscu",

- zwraca wartość usuniętego elementu.

In [70]:
chemical_elements

{'copper': 29,
 'gold': 79,
 'silver': 47,
 'platinum': 78,
 'palladium': 46,
 'mercury': 80}

In [71]:
deleted_value = chemical_elements.pop( 'copper' )

In [72]:
deleted_value

29

In [73]:
chemical_elements

{'gold': 79, 'silver': 47, 'platinum': 78, 'palladium': 46, 'mercury': 80}

Gdybyśmy chcieli usunąć w ten sposób nieistniejący klucz, metoda `pop` zareaguje błędem:

In [74]:
chemical_elements.pop( 'hydrogen' )

KeyError: 'hydrogen'

... lecz zachowanie to możemy zmodyfikować przez przekazanie metodzie `pop` drugiego, opcjonalnego parametru - będzie to wartość, którą metoda `pop` zwróci, gdy nie znajdzie danego klucza (i wówczas nie usunie nic ze słownika):

In [75]:
deleted_value_2 = chemical_elements.pop( 'hydrogen' , -1 )

In [76]:
deleted_value_2

-1

In [77]:
chemical_elements

{'gold': 79, 'silver': 47, 'platinum': 78, 'palladium': 46, 'mercury': 80}

Możemy użyć też operatora `del`:

In [78]:
del chemical_elements[ 'silver' ]

chemical_elements

{'gold': 79, 'platinum': 78, 'palladium': 46, 'mercury': 80}

Metoda `clear` całkowicie zaś opróżnia słownik:

In [79]:
chemical_elements.clear()

chemical_elements

{}

### 1.5. <a id="1.5"></a>Iterowanie przez słownik

#### <a id="1.5_b1"></a>Lista kluczy - metoda `keys`

Mając słownik, możemy w łatwy sposób utworzyć listę jego kluczy lub też listę jego wartości - służą do tego metody `keys` i `values`. (Jedyną subtelnością jest fakt, iż zwracają one nie listę, ale specyficzną kolekcję, którą do listy można przekonwertować funkcją `list`, podobnie jak było przy okazji funkcji `enumerate` i `zip`.)

In [80]:
lego_technic_supercars = {
    42056 : 'Porsche 911 GT3 RS' ,
    42083 : 'Bugatti Chiron' ,
    42096 : 'Porsche 911 RSR' ,
    42115 : 'Lamborghini Sián FKP 37'
}

Lista kluczy:

In [81]:
list( lego_technic_supercars.keys() )

[42056, 42083, 42096, 42115]

Możemy oczywiście normalnie po niej się iterować, np.:

In [83]:
for lego_number in lego_technic_supercars.keys():
    print( lego_number )

42056
42083
42096
42115


Co ciekawe, jest to równoważne iterowaniu się _po słowniku_:

In [84]:
for lego_number in lego_technic_supercars:
    print( lego_number )

42056
42083
42096
42115


... i analogicznie, gdybyśmy chcieli przekonwertować słownik na listę (lub na tuplę, zbiór), to otrzymamy listę (odpowiednio: tuplę, zbiór) _kluczy_:

In [85]:
list( lego_technic_supercars )

[42056, 42083, 42096, 42115]

In [86]:
tuple( lego_technic_supercars )

(42056, 42083, 42096, 42115)

In [87]:
set( lego_technic_supercars )

{42056, 42083, 42096, 42115}

#### <a id="1.5_b2"></a>Lista wartości - metoda `values`

Analogicznie, lista wartości słownika:

In [88]:
list( lego_technic_supercars.values() )

['Porsche 911 GT3 RS',
 'Bugatti Chiron',
 'Porsche 911 RSR',
 'Lamborghini Sián FKP 37']

... i przykład iteracji po niej:

In [89]:
for lego_name in lego_technic_supercars.values():
    print( lego_name )

Porsche 911 GT3 RS
Bugatti Chiron
Porsche 911 RSR
Lamborghini Sián FKP 37


#### <a id="1.5_b3"></a>Lista par (klucz, wartość) - metoda `items`

Metodą, która jakby "łączy" te dwie metody, jest `items` - daje ona listę par klucz:wartość w postaci tupli 2-elementowych (klucz, wartość).

In [90]:
list( lego_technic_supercars.items() )

[(42056, 'Porsche 911 GT3 RS'),
 (42083, 'Bugatti Chiron'),
 (42096, 'Porsche 911 RSR'),
 (42115, 'Lamborghini Sián FKP 37')]

Na marginesie, jest to dokładnie "spięcie na suwak" listy kluczy i listy wartości, jakiego dokonuje znana nam funkcja `zip`.

In [91]:
list( zip( lego_technic_supercars.keys() , lego_technic_supercars.values() ) )

[(42056, 'Porsche 911 GT3 RS'),
 (42083, 'Bugatti Chiron'),
 (42096, 'Porsche 911 RSR'),
 (42115, 'Lamborghini Sián FKP 37')]

Skoro elementami tej listy są tuple 2-elementowe, to chcąc przez nią się przeiterować, naszym iteratorem też musi być tupla 2-elementowa. Np.:

In [92]:
for lego_number , lego_name in lego_technic_supercars.items():
    print( f'LEGO Technic set number {lego_number} is the supercar {lego_name}.' )

LEGO Technic set number 42056 is the supercar Porsche 911 GT3 RS.
LEGO Technic set number 42083 is the supercar Bugatti Chiron.
LEGO Technic set number 42096 is the supercar Porsche 911 RSR.
LEGO Technic set number 42115 is the supercar Lamborghini Sián FKP 37.


<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Szybkie ćwiczenie 4: "Reverse lookup".

Mamy daną listę wartości, np. `val_list = ['Porsche 911 GT3 RS', 'Porsche 911 RSR']`, zaś chcemy otrzymać z niej listę kluczy odpowiadających tym wartościom, czyli tu byłaby to lista `[42056, 42096]`.

Wskazówka: Użyj składni "list comprehension".

W pierwszym rozwiązaniu, spróbuj przeiterować się przez klucze `lego_technic_supercars.keys()` i wybrać tylko te, dla których odpowiadająca im wartość należy do listy `val_list`.

W drugim rozwiązaniu, spróbuj przeiterować się przez tuple (klucz, wartość) w liście `lego_technic_supercars.items()` i wybierz tylko te klucze, dla których wartość jest zawarta w liście `val_list`.

In [94]:
# szybkie ćwiczenie 4 - rozwiązanie pierwsze

val_list = ['Porsche 911 GT3 RS', 'Porsche 911 RSR']

[ lego_number for lego_number , lego_name in lego_technic_supercars.items() if lego_name in val_list ]

[42056, 42096]

In [97]:
# szybkie ćwiczenie 4 - rozwiązanie drugie

[ key for key in lego_technic_supercars if lego_technic_supercars[ key ] in val_list ]

[42056, 42096]

#### <a id="1.5_b4"></a>Operatory `in` i `not in`

Znane nam już operatory `in` i `not in` często używa się, aby sprawdzić przynależność do listy kluczy, czy listy wartości.

In [98]:
42100 in lego_technic_supercars.keys()

False

In [99]:
'Liebherr R 9800 Excavator' not in lego_technic_supercars.values()

True

Jak wspomnieliśmy wcześniej, iterowanie po kluczach `lego_technic_supercars.keys()` jest równoważne iterowaniu po słowniku `lego_technic_supercars` - tu jest podobnie, operatory `in` i `not in` zaaplikowane do słownika odpowiadają na pytanie o przynależność _kluczy_:

In [100]:
42115 in lego_technic_supercars

True

#### <a id="1.5_b5"></a>"Dictionary comprehension"

Często zamiast bezpośredniej pętli `for`, być może z dodatkowymi warunkami `if`, użyteczne - i zwykle bardzo eleganckie! - jest użycie składni "dictionary comprehension"; jest ona całkowicie analogiczna do jej odpowiedników dla list i zbiorów.

`{ key_expression : value_expression for item in collection if condition }`

Mamy więc nawiasy klamrowe; musimy też - i to jest główna różnica w składni - zapisać każdy element jako przypisanie, tutaj `key_expression : value_expression`.

Przykład: słownik, gdzie klucze to kolejne liczby całkowite zapisane jako stringi z małym dopiskiem, a wartości to tych liczb kwadraty:

In [101]:
{ str( i ) + ' squared' : i ** 2 for i in range( 10 ) } # nie ma tu żadnego warunku

{'0 squared': 0,
 '1 squared': 1,
 '2 squared': 4,
 '3 squared': 9,
 '4 squared': 16,
 '5 squared': 25,
 '6 squared': 36,
 '7 squared': 49,
 '8 squared': 64,
 '9 squared': 81}

Inny przykład:

In [103]:
languages_by_countries = {
    'Canada' : [ 'English' , 'French' ] ,
    'Switzerland' : [ 'German' , 'French' , 'Italian' , 'Romansh' ] ,
    'India' : [ 'Hindi' , 'Bengali' , 'Urdu' , 'Punjabi' , 'Marathi' , 'Telugu' , 'Tamil' , 'Gujarati' , 'Kannada' , 'Odia' , 'Malayalam' , 'Sanskrit' , 'English' ] ,
    'Israel' : [ 'Hebrew' , 'Arabic' , 'Russian' ] ,
    'Morocco' : [ 'Arabic' , 'Berber' , 'French' ]
}

{ country : len( language_list ) for country , language_list in languages_by_countries.items() }

{'Canada': 2, 'Switzerland': 4, 'India': 13, 'Israel': 3, 'Morocco': 3}

... coś z warunkiem:

In [104]:
{ country : language_list[ 0 ] for country , language_list in languages_by_countries.items() if len( language_list ) > 3 }

{'Switzerland': 'German', 'India': 'Hindi'}

Ciekawy trik: Powiedzmy, że chcielibyśmy zamienić miejscami klucze i wartości, tj. dla danego słownika (nazwijmy go `d`) utworzyć inny słownik, którego klucze to wartości `d`, a wartości to klucze `d`. Składnia "dictionary comprehension" idealnie do tego się nadaje:

In [106]:
capitals = {
    'Amsterdam' : 'Netherlands' ,
    'Podgorica' : 'Montenegro' ,
    'Pretoria' : 'South Africa'
}

{ country : capital for capital , country in capitals.items() }

{'Netherlands': 'Amsterdam',
 'Montenegro': 'Podgorica',
 'South Africa': 'Pretoria'}

Zauważmy jednak, iż jeśli słownika zawiera powtarzające się wartości, to takie odwrócenie spowoduje pozostawienie tylko ostatniej z nich jako klucza, zgodnie z dobrze nam znaną zasadą:

In [107]:
capitals = {
    'Amsterdam' : 'Netherlands' ,
    'The Hague' : 'Netherlands' ,
    'Podgorica' : 'Montenegro' ,
    'Cetinje' : 'Montenegro' ,
    'Pretoria' : 'South Africa' ,
    'Cape Town' : 'South Africa' ,
    'Bloemfontein' : 'South Africa'
}

{ country : capital for capital , country in capitals.items() }

{'Netherlands': 'The Hague',
 'Montenegro': 'Cetinje',
 'South Africa': 'Bloemfontein'}

<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Szybkie ćwiczenie 5: Dowiedzieliśmy się wcześniej, jak usuwać ze słownika pojedyncze klucze (metoda `pop` lub operator `del`). A co jeśli mamy całą listę kluczy, którą chcemy usunąć? Zastosuj składnię "dictionary comprehension", aby ze słownika `capitals` usunąć klucze będące w liście `secondary_capitals = ['The Hague', 'Cetinje', 'Cape Town', 'Bloemfontein']`. (Nie chcemy tu modyfikować słownika "w miejscu", ale utworzyć nowy słownik, bez wspomnianych kluczy.)

Wskazówka: Iteruj po `capitals.items()`. Wybierz tylko te przypisania `capital : country`, dla których `capital` nie należy do listy kluczy, które chcemy usunąć.

In [None]:
# szybkie ćwiczenie 5 - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Szybkie ćwiczenie 6: Zliczanie elementów raz jeszcze.

Masz dany string, [powiedzmy](https://en.wikipedia.org/wiki/Lake_Chaubunagungamaug) `text = 'chargoggagoggmanchauggagoggchaubunagungamaugg'`. Utwórz za pomocą składni "dictionary comprehension" słownik, gdzie klucze to unikalne znaki tego stringu, a wartości to liczba ich wystąpień w nim.

In [None]:
# szybkie ćwiczenie 6 - rozwiązanie



## <a id="2"></a>2. Kilka innych kolekcji

Poświęciliśmy dużo czasu na omówienie pięciu podstawowych typów kolekcji w Pythonie: stringów, list, tupli, zbiorów i słowników. Są to fundamentalne części składowe niemal każdego programu.

Jest oczywiście cała masa innych typów danych reprezentujących kolekcje, a skonstruowanych w konkretnych celach. W tej sekcji spójrzmy szybko na kilka z nich. Ważną częścią pracy programisty jest wyszukiwanie w internecie rozwiązań (w szczególności, typów danych), które najbardziej nadają się do danego projektu. Rozwiązania te są w absolutnej wiekszości przypadków dostępne za darmo - Python to piękny przykład filozofii **"open source"**.

### <a id="2.1"></a>2.1. Moduł `collections` i typ `defaultdict`

Biblioteka standardowa Pythona zawiera kilka przydatnych typów kolekcji w module [`collections`](https://docs.python.org/3/library/collections.html). Aby uzyskać do nich dostęp w naszym programie, musimy **zaimportować** żądane obiekty z tego **modułu**. Moduł to po prostu plik Pythona, grupujący w jedną logiczną całość różne definicje. Składnia jest bardzo prosta: Chcąc np. zaimportować typ danych `defaultdict` - o którym opowiemy w tej sekcji - piszemy:
```
from collections import defaultdict
```
i teraz `defaultdict` jest już dla nas dostępne. Moglibyśmy też zaimportować cały moduł:
```
import collections
```
i teraz _wszystkie_ obiekty tam zdefiniowane są dla nas dostępne; jednakże aby do nich odwoływać się w naszym programie, musimy użyć ich pełnej nazwy w postaci np. `collections.defaultdict`.

Kolekcje w module `collections` to:

| Kolekcja | Opis |
| --- | --- |
| <center>`namedtuple`</center> | <center>tuple z nazwanymi polami</center> |
| <center>`deque`</center> | <center>podobna do list, z szybkimi metodami `append` i `pop` na obu końcach</center> |
| <center>`ChainMap`</center> | <center>zbiera kilka przypisań słownikowych w jedno</center> |
| <center>`Counter`</center> | <center>zlicza elementy innej kolekcji</center> |
| <center>`OrderedDict`</center> | <center>słownik pamiętający kolejność dodanych elementów</center> |
| <center>`defaultdict`</center> | <center>słownik z domyślnymi wartościami dla nieistniejących elementów</center> |

Omówimy teraz krótko przydatny typ `defaultdict`, który najpierw zaimportujmy:

In [108]:
from collections import defaultdict

Krótko mówiąc, jeśli potrzebujesz słownika, a każdy jego element powinien zaczynać od jakiejś domyślnej wartości - użyj `defaultdict`.

Składnia zawiera w sobie pewną subtelność: Aby utworzyć `defaultdict`, trzeba podać mu jako argument _funkcję bez argumentów_, która to funkcja zdefiniuje wspomnianą domyślną wartość. O funkcjach będziemy uczyć się dopiero w Lekcjach 9-10, więc na razie przyjmijmy co następuje: Powiedzmy, że chcemy zdefiniować słownik z zamówieniami burgerów z "Moaburger" przez różne osoby. Kto spóźnił się ze złożeniem zamówienia, dostanie "z automatu" burgera o nazwie `'Moaburger'`. Jest to właśnie wartość domyślna. Lecz nie możemy jej tak po prostu przekazać do naszego słownika `defaultdict` - musimy użyć funkcji bez argumentów w następujący sposób:

In [114]:
burger_orders = defaultdict( lambda : 'Moaburger' )

burger_orders[ 'Ania' ] = 'Avo Bacon'
burger_orders[ 'Karo' ] = 'Harissa'
burger_orders[ 'Andrzej' ] = 'Mammoth Burger'

burger_orders[ 'Basia' ]

'Moaburger'

In [115]:
dict( burger_orders )

{'Ania': 'Avo Bacon',
 'Karo': 'Harissa',
 'Andrzej': 'Mammoth Burger',
 'Basia': 'Moaburger'}

Widzimy, że argumentem `defaultdict` jest tzw. funkcja lambda, która sama nie przyjmuje żadnych argumentów, zaś zawsze zwraca wartość `'Moaburger'`:

In [116]:
moa = lambda : 'Moaburger'

moa()

'Moaburger'

Widzimy też, że możemy teraz odwołać się do nieutworzonego klucza `'Basia'` przez zwykłą składnię nawiasów kwadratowych - i wartością mu przypisaną jest wartość domyślna `'Moaburger'`. Co więcej, jeśli spojrzymy na nasz słownik:

In [117]:
burger_orders

defaultdict(<function __main__.<lambda>()>,
            {'Ania': 'Avo Bacon',
             'Karo': 'Harissa',
             'Andrzej': 'Mammoth Burger',
             'Basia': 'Moaburger'})

In [118]:
dict( burger_orders ) # konwersja na zwykły słownik

{'Ania': 'Avo Bacon',
 'Karo': 'Harissa',
 'Andrzej': 'Mammoth Burger',
 'Basia': 'Moaburger'}

... to zobaczymy, iż pojawia się teraz klucz `'Basia'`!

Można by zapytać, czy nie jest to zduplikowanie funkcjonalności metody `get`, która także pozwala zdefiniować wartość domyślną, jeśli dany klucz jest nieznaleziony:

In [119]:
burger_orders.get( 'Monika' , 'Moaburger' )

'Moaburger'

Zauważmy jednak, że metoda `get` - oczywiście! - nie _tworzy_ nowego wpisu w słowniku, ona po prostu _zwraca_ domyślną wartość:

In [121]:
dict( burger_orders )

{'Ania': 'Avo Bacon',
 'Karo': 'Harissa',
 'Andrzej': 'Mammoth Burger',
 'Basia': 'Moaburger'}

W związku tym, wyobraźmy sobie, iż chcielibyśmy np. zrobić coś takiego:

In [122]:
burger_orders.get( 'Monika' , 'Moaburger' ) += ' with fries'

SyntaxError: can't assign to function call (<ipython-input-122-7991174885da>, line 1)

Spróbowaliśmy - bardzo niezdarnie - utworzyć nowy wpis o kluczu `'Monika'`, z domyślną wartością, i jakoś go _zmodyfikować_. Nie da się tego rzecz jasna tak zrobić, bo `get` nie tworzy nowego wpisu. Z kolei wywołanie zwykłych nawiasów kwadratowych z nieistniejącym kluczem na obiekcie `defaultdict` _tworzy_ nowy wpis o tym kluczu, a zatem _od razu_ możemy coś z nim robić!

In [123]:
dict( burger_orders )

{'Ania': 'Avo Bacon',
 'Karo': 'Harissa',
 'Andrzej': 'Mammoth Burger',
 'Basia': 'Moaburger'}

In [124]:
burger_orders[ 'Monika' ] += ' with fries'

dict( burger_orders )

{'Ania': 'Avo Bacon',
 'Karo': 'Harissa',
 'Andrzej': 'Mammoth Burger',
 'Basia': 'Moaburger',
 'Monika': 'Moaburger with fries'}

Dodajmy jeszcze, że słownik `defaultdict` można zainicjować już z konkretną zawartością; podajemy mu wtedy dwa argumenty - pierwszy to opisana wyżej funkcja bez argumentów, a drugi to słownik będący jego wartością początkową.

In [125]:
restaurant_orders

{'Monika': 'makizushi',
 'Agnieszka': 'nigirizushi',
 'Julia': 'sashimi',
 'Basia': 'uramaki'}

In [130]:
restaurant_orders_new = defaultdict( lambda : 'rainbow roll' , restaurant_orders )

dict( restaurant_orders_new )

{'Monika': 'makizushi',
 'Agnieszka': 'nigirizushi',
 'Julia': 'sashimi',
 'Basia': 'uramaki'}

In [131]:
restaurant_orders_new[ 'Karolina' ] += ' and sake'

dict( restaurant_orders_new )

{'Monika': 'makizushi',
 'Agnieszka': 'nigirizushi',
 'Julia': 'sashimi',
 'Basia': 'uramaki',
 'Karolina': 'rainbow roll and sake'}

Innym przykładem jest podanie jako wartości domyślnej liczby typu `int`, np. zera. Możemy to zrobić jak wyżej, funkcją `lambda: 0`; możemy też skorzystać ze wspomnianego wyżej faktu, iż funkcja `int` wywołana bez argumentów zwraca zero:

In [133]:
int()

0

Takiego słownika możemy np. użyć do zliczania elementów danej kolekcji w następujący sposób:

In [136]:
text = 'waggerpaggerbagger'

text_count = defaultdict( int )

for letter in text:
    text_count[ letter ] += 1

dict( text_count )

{'w': 1, 'a': 3, 'g': 6, 'e': 3, 'r': 3, 'p': 1, 'b': 1}

Dzięki temu, jedna linijka `text_count[letter] += 1` dokonuje dwóch alternatywnych działań: jeśli klucz `letter` jeszcze nie istnieje w słowniku, to jest tworzony z wartością domyślną 0, która następnie zwiększana jest o 1; a jeśli klucz ten istnieje już w słowniku, to jego wartość jest po prostu zwiększana o 1.

Innym przykładem jest słownik z wartością domyślną będącą pustą listą - tworzoną choćby przez funkcję `list` bez argumentów:

In [138]:
list()

[]

Np.:

In [141]:
address_list = [
    ( 'małopolskie' , 'Kraków' ) ,
    ( 'lubelskie' , 'Chełm' ) ,
    ( 'małopolskie' , 'Tarnów' ) ,
    ( 'małopolskie' , 'Nowy Sącz' ) ,
    ( 'podkarpackie' , 'Rzeszów' ) ,
    ( 'lubelskie' , 'Biała Podlaska' ) ,
    ( 'podkarpackie' , 'Przemyśl' ) ,
    ( 'lubelskie' , 'Lublin' ) ,
    ( 'lubelskie' , 'Zamość' )
]

cities_by_voivodeship = defaultdict( list )

for voivodeship , city in address_list:
    cities_by_voivodeship[ voivodeship ].append( city )

dict( cities_by_voivodeship )

{'małopolskie': ['Kraków', 'Tarnów', 'Nowy Sącz'],
 'lubelskie': ['Chełm', 'Biała Podlaska', 'Lublin', 'Zamość'],
 'podkarpackie': ['Rzeszów', 'Przemyśl']}

Tu z kolei możemy w jednej linijce dokonać operacji `cities_by_voivodeship[ voivodeship ].append( city )`. Jeśli klucz `voivodeship` jeszcze nie istnieje w słowniku, to zostanie utworzony jako pusta lista, na której od razu możemy wykonać metodę `append`.

### <a id="2.2"></a>2.2. Biblioteki `numpy` i `pandas`

`numpy` (od "numerical Python") i `pandas` (od "panel data") to dwie rozległe biblioteki, które stanowią podstawę dla obliczeń matematycznych i jakiejkolwiek pracy z danymi. Każda z nich wymagałaby przynajmniej jednej lekcji, jedynie aby liznąć jej funkcjonalność. Wspominamy tu o nich z powodu ich wielkiej wagi i szerokich zastosowań, pozostawiając je do samodzielnego studiowania.

Importuje je się zwykle następująco, nadając im tzw. **alias**, krótką nazwę tymczasową:

In [None]:
import numpy as np
import pandas as pd

#### <a id="2.2_b1"></a>`numpy`

Podstawową kolekcją w `numpy` jest `ndarray` ("n-dimensional array"), wysoce zoptymalizowana lista, na której można bardzo szybko przeprowadzać wiele operacji matematycznych; ma też m.in. szerokie możliwości indeksowania, bardziej zaawansowane niż zwykła lista.

In [None]:
a = np.array( [ 1 , 7 , 3 , 6 , 2 ] )
b = np.array( [ 4 , 11 , -9 , 2 , 1 ] )

c = np.array( [ [ 2 , 4 , 6 ] , [ 1 , 3 , 5 ] ] )

d = np.array( [ [ [ 1 , 2 ] , [ 3 , 4 ] , [ 5 , 6 ] ] , [ [ 7 , 8 ] , [ 9 , 10 ] , [ 11 , 12 ] ] ] )

Są to tablice wielowymiarowe:

In [None]:
a.shape

In [None]:
c.shape

In [None]:
d.shape

Operatory arytmetyczne działają **element po elemencie** ("element-wise"), nie jak przy listach:

In [None]:
a + b

In [None]:
a * b

In [None]:
a / b

Operatory porównania także działają element po elemencie:

In [None]:
a > b

Przykładowe funkcje matematyczne:

In [None]:
np.sqrt( c )

In [None]:
np.log( c )

In [None]:
np.sin( c )

Przykładowe metody agregujące, albo całościowo, albo po zadanej **osi** ("axis"):

In [None]:
c.sum()

In [None]:
c.sum( axis = 0 )

In [None]:
c.sum( axis = 1 )

... i podobnie np. `max`, `min`, `cumsum` ("cumulative sum"), `mean`, `median`, `std` itd.

In [None]:
c.std( axis = 0 )

Wszystkie te operacje są wysoce zoptymalizowane dzięki tzw. **wektoryzacji** obliczeń, pozwalającej wykonywać je na wszystkich elementach jednocześnie w sposób równoległy na wielu rdzeniach procesora.

Indeksować można podobnie jak listy składnią segmentów:

In [None]:
a

In [None]:
a[ 2:4 ]

... ale mamy do dyspozycji także notację macierzową dla wielowymiarowych tablic:

In [None]:
c

In [None]:
c[ 1 , 2 ]

... również wybór wielu indeksów jednocześnie poprzez podanie ich listy:

In [None]:
a[ [ 1 , 3 ] ]

... czy bardzo przydatne indeksowanie za pomocą listy wartości logicznych, wskazujących, które elementy wybrać:

In [None]:
a

In [None]:
b

In [None]:
a > b

In [None]:
b[ a > b ]

#### <a id="2.2_b2"></a>`pandas`

Z kolei `pandas` umożliwia wysoce efektywną pracę z danymi tabularycznymi. Dwa podstawowe typy kolekcji to `Series` i `DataFrame`. `Series` jest jednowymiarową tabelą z dowolnym indeksem:

In [None]:
s = pd.Series(
    data = [ 15182.79 , 17845.76 , 25122.49 ] ,
    index = [ 'małopolskie' , 'podkarpackie' , 'lubelskie' ]
)

s

In [None]:
s.index

In [None]:
s.shape

`DataFrame` to natomiast tabela o dowolnym indeksie i kolumnach. Utwórzmy ją trochę inaczej niż powyżej:

In [None]:
df = pd.DataFrame(
    index = [ 'małopolskie' , 'podkarpackie' , 'lubelskie' ] ,
    columns = [ 'Size (sq. km)' , 'Population (millions)' , 'Population Density (people per sq. km)' , 'Capital' ]
)

df[ 'Size (sq. km)' ] = [ 15182.79 , 17845.76 , 25122.49 ]
df[ 'Population (millions)' ] = [ 3.4 , 2.13 , 2.12 ]
df[ 'Population Density (people per sq. km)' ] = [ 223 , 119 , 89 ]
df[ 'Capital' ] = [ 'Kraków' , 'Rzeszów' , 'Lublin' ]

df

In [None]:
df.index

In [None]:
df.columns

In [None]:
df.shape

Można używać do tych obiektów wszystkich funkcji matematycznych z biblioteki `numpy`, np.:

In [None]:
s.median()

In [None]:
df.mean()

Jest wiele sposobów indeksowania, m.in. normalna składnia segmentów (`iloc`):

In [None]:
df.iloc[ 1: ]

... czy też wybór indeksu (`loc`):

In [None]:
df.loc[ 'małopolskie' ]

Kolumnę wybieramy samodzielną składnią nawiasów kwadratowych:

In [None]:
df[ 'Capital' ]

Różne sposoby:

In [None]:
df.loc[ 'lubelskie' , [ 'Population (millions)' , 'Population Density (people per sq. km)' ] ]

Bardzo przydatne indeksowanie za pomocą wyrażeń logicznych (gdzie ewentuale operatory `and`, `or`, `not` musimy użyć w wersji "element-wise", tj. `&`, `|`, `~`):

In [None]:
df[ ( df[ 'Size (sq. km)' ] > 16000 ) & ( df[ 'Population Density (people per sq. km)' ] < 100 ) ]

W `pandas` mamy całą mnogość funkcjonalności pozwalających na przekształcanie takich tabeli, wszelakie wyszukiwanie, grupowanie, obliczenia itd.

## <a id="3"></a>3. Zadania domowe

<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 7: Anagramy.

Rozważ jakiś string `text`, powiedzmy `'william shakespeare'` (w tym ćwiczeniu ograniczmy się do małych liter).

(a) Utwórz słownik, którego klucze to kolejne (unikalne) litery stringu `text`, zaś wartości to liczby wystąpień danej litery. Pomiń jednak spacje.

(b) Anagramy to słowa lub zdania, które zbudowane są z tych samych liter, każda litera w tej samej liczbie, ale w innej kolejności (spacje się nie liczą). Aby sprawdzić, że dwa słowa są anagramami, trzeba porównać, czy powyższe słowniki dla tych słów są sobie równe (dlaczego?). Sprawdź, że `'william shakespeare'` oraz `'i am a weakish speller'` to swoje anagramy.

In [None]:
# dłuższe ćwiczenie 7a - rozwiązanie



In [None]:
# dłuższe ćwiczenie 7b - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 8: Menu w barze.

Masz dany słownik `menu = {'sandwich': 4, 'pizza': 8, 'salad': 3, 'tea': 2, 'coffee': 3, 'juice': 5}` reprezentujący ceny produktów w barze. Napisz program, który będzie przyjmował od użytkownika (funkcją `input`) kolejne jego zamówienia i zliczał całkowity koszt. Jeśli użytkownik wpisze jeden z dostępnych produktów, niech program akumuluje cenę całkowitą ceną tego produktu. Jeśli wpisze produkt niebędący na liście,  np. `'cake'`, niech po prostu wyświetli się komunikat, np. "Sorry, we're out of cake!". Jeśli nic nie wpisze i naciśnie `Enter`, niech program się zakończy i wyświetli komunikat podający cenę całkowitą, np. "Your order is ... PLN".

Wskazówka: Działanie programu zapisz pętlą `while True`. Zdefiniuj zmienną `order` jako wartość podaną przez użytkownika. Napisz odpowiednią instrukcję warunkową, sprawdzającą poszczególne warianty: `order` pusty, `order` należący do kluczy słownika `menu` albo nienależący do nich. W tym drugim przypadku, dodaj cenę wybranego produktu do utworzonej uprzednio zmiennej akumulującej ("pustego pudełka"), `total = 0`.

In [None]:
# dłuższe ćwiczenie 8 - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 9: Ekwipunek bohatera.

Bohater twojej gry RPG niesie ekwipunek opisany słownikiem `inventory` zdefiniowanym poniżej. Po pokonaniu goblina zabiera mu skarb dany przez słownik `loot`. Napisz program, który doda skarb do twojego ekwipunku.

Wskazówka: Zdefiniuj słownik `defaultdict` z dwoma argumentami, funkcją `int` i słownikiem `inventory`. Następnie przeiteruj się przez słownik `loot`, tj. przez listę par (klucz, wartość), dodając kolejne wartości do twojego ekwipunku.

In [None]:
inventory = {
    'gold coin' : 16 ,
    'dagger' : 2 ,
    'arrow' : 20 ,
    'long bow' : 1 ,
    'rope' : 1 ,
    'healing potion' : 2 ,
    'shield' : 1
}

In [None]:
loot = {
    'silver ring' : 3 ,
    'diamond' : 2 ,
    'ruby' : 4 ,
    'dagger' : 2 ,
    'gold coin' : 85
}

In [None]:
# dłuższe ćwiczenie 9 - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 10: Przypomnij sobie słownik `languages_by_countries`. Odwróć go w taki sposób, że kluczami będą języki, a wartościami listy krajów, gdzie się nimi mówi.

Wskazówka: Utwórz pusty `defaultdict` z wartością domyślną będącą pustą listą, nazwijmy go `countries_by_languages`. Iteruj się po parach (klucz, wartość) słownika `languages_by_countries`. W każdym kroku iteracji iteruj się po liście języków i dodawaj (`append`) dany kraj jako element listy będącej wartością odpowiadającą danemu językowi.

In [None]:
# dłuższe ćwiczenie 10 - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 11 (\*): Poetycki kod.

Bohater twojej gry RPG odnalazł w starej księdze następujący wiersz (zobacz string `poem` poniżej). Wie, że stanowi on klucz do otwarcia skrzyni ze skarbem. Na marginesie księgi znalazł też zapisek maga, który próbował go odcyfrować:
```
'zebra' = [1, 56, 7, 29, 42]
```
Kod zapisany na skrzyni wygląda tak:
```
[56, 38, 44, 56, 29]
```
Czy potrafisz otworzyć skrzynię?

Wskazówka: Chodzi o `count`! Utwórz najpierw słownik `poem_map`, który przypisze każdej literze wiersza liczbę jej wystąpień w nim. Następnie odwróć go (`poem_map_reversed`) w taki sposób, że liczbie wystąpień będzie przypisana lista ze wszystkimi literami o danej liczbie wystąpień. Do odczytania kodu możesz użyć prostej "list comprehension", gdzie każdy element listy z kodem przekształcisz słownikiem `poem_map_reversed`.

In [None]:
poem = '''a narrow fellow in the grass
occasionally rides;
you may have met him, did you not,
his notice sudden is.

the grass divides as with a comb,
a spotted shaft is seen;
and then it closes at your feet
and opens further on.

he likes a boggy acre,
a floor too cool for corn.
yet when a child, and barefoot,
i more than once, at morn,

have passed, i thought, a whip-lash
unbraiding in the sun,
when, stooping to secure it,
it wrinkled, and was gone.

several of nature's people
i know, and they know me;
i feel for them a transport
of cordiality;

but never met this fellow,
attended or alone,
without a tighter breathing,
and zero at the bone.'''

In [None]:
# dłuższe ćwiczenie 11 - rozwiązanie, część pierwsza



In [None]:
# dłuższe ćwiczenie 11 - rozwiązanie, część druga



In [None]:
# dłuższe ćwiczenie 11 - rozwiązanie, część trzecia



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'><img style = 'float: right; margin-left: 10px; margin-bottom: 10px' src = 'Images/old_cell_keyboard.jfif'> Dłuższe ćwiczenie 12 (\*): SMS-owanie w starym stylu.

Stare telefony komórkowe miały fizyczną klawiaturę i aby wpisać wiadomość tekstową, trzeba było kilkukrotnie naciskać przyciski numeryczne, aby wyświetliła się litera - każda cyfra miała przypisane kilka liter, zwykle trzy, i trzeba było nacisnąć tyle razy, na którym miejscu stała ta litera. Np. cyfra 1 miała przypisane litery A, B, C, więc aby wpisać B trzeba było nacisnąć 1 dwa razy.

Mamy dane przypisanie cyfr na klawiaturze do zestawu liter i znaków napisanych na tych klawiszach - opisuje je poniższy słownik `phone_keyboard`. Kluczami są tu cyfry od 0 do 9, zaś wartościami listy stringów - znaków na odpowiednich klawiszach. (Dla uproszczenia załóżmy, że piszemy tylko wielkimi literami.)

Zdefiniuj zmienną `text`, która będzie jakimś stringiem - wiadomością tekstową - np. `'HELLO, THERE!'` (pamiętaj, aby użyć tylko wielkich liter i znaków obecnych w słowniku). Napisz program, który przekonwertuje ten string na inny string, tym razem zawierający serię cyfr, które trzeba nacisnąć, aby ten tekst napisać na klawiaturze telefonu, wraz z liczbą razy, jaką trzeba te cyfry przycisnąć, np. tutaj byłoby to `'44 33 555 555 666 11 0 8 44 33 777 33 1111'`, bo H to naciśnięcie 4 dwa razy itd.

Wskazówka: "Odwróć" słownik `phone_keyboard`; nazwijmy go `phone_keyboard_reversed`. (Każda litera występuje tylko raz, więc nie będzie żadnego nadpisywania kluczy.) Możesz zrobić to poprzez zagnieżdżoną składnię "dictionary comprehension", gdzie najpierw iterujesz się po `phone_keyboard.items()`, a potem po każdej z list będących wartościami. Niech kluczami tego nowego słownika będą litery, zaś wartościami stringi o postaci np. `'44'`, czyli klawisz do wciśnięcia powtórzony daną liczbę razy. Aby taki string skonstruować, przekonwertuj liczbę na klawiszu na string, a następnie powtórz ją (operator mnożenia `*`) odpowiednią liczbę razy; przyda się do tego metoda `index`.

Samo tłumaczenie tekstu `text` możesz dokonać w dwóch krokach: Najpierw "list comprehension", gdzie tworzysz listę `['44', '33', '555', ...]` poprzez "tłumaczenie" słownikiem `phone_keyboard_reversed`. Potem metoda `join` z separatorem `' '` na tej liście.

In [None]:
phone_keyboard = {
    1 : [ '.' , ',' , '?' , '!' , ':' ] ,
    2 : [ 'A',  'B' , 'C' ] ,
    3 : [ 'D' , 'E' , 'F' ] ,
    4 : [ 'G' , 'H' , 'I'] ,
    5 : [ 'J' , 'K' , 'L' ] ,
    6 : [ 'M' , 'N' , 'O' ] ,
    7 : [ 'P' , 'Q' , 'R' , 'S' ] ,
    8 : [ 'T' , 'U' , 'V' ] ,
    9 : [ 'W' , 'X' , 'Y' , 'Z' ] ,
    0 : [ ' ' ]
}

In [None]:
# dłuższe ćwiczenie 12 - rozwiązanie, część pierwsza



In [None]:
# dłuższe ćwiczenie 12 - rozwiązanie, część druga



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 13 (\*): Konwersja liczb rzymskich na arabskie.

Masz daną jako string liczbę zapisaną cyframi rzymskimi, np. `'MMMDCCXXIV'`. Przekonwertuj ją na zapis arabski, tu: `3742`.

Wskazówka: Jeden z pomysłów jest następujący: Każdą cyfrę rzymską w stringu zamień (metodą `replace`) na liczbę arabską i następującą po niej spację, np. `'MXI'` na `'1000 10 1'`. Następnie podziel ten string po separatorze `' '` (spacja), metodą `split`, dostając listę stringów `['1000', '10', '1']`. Każdy string tutaj przekonwertuj na typ `int` - używając składni "list comprehension" - a następnie zsumuj (`sum`).

Wracając do pierwszego kroku: Aby dokonać zamiany cyfr, zdefiniuj słownik mapujący cyfry rzymskie, np. `'M'`, na arabskie, np. `1000`. Jest to jednakże istotna subtelność: Niektóre _kombinacje_ cyfr rzymskich dają jedną cyfrę arabską - są to `'IV'` (4), `'IX'` (9), `'XL'` (40), `'XC'` (90), `'CD'` (400), `'CM'` (900). Możesz zadbać o poprawne działanie programu umieszczając te wpisy w słowniku, ale w odpowiedniej kolejności w stosunku do "pojedynczych" cyfr!

In [None]:
# dłuższe ćwiczenie 13 - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 14 (\*): Zatrzymaj `n` wystąpień każdego elementu.

Masz daną listę, np. `lst = [1, 2, 4, 3, 3, 2, 3, 1, 2, 1, 3, 4, 4]` i dodatnią liczbę całkowitą, np. `n = 2`. Utwórz nową listę, której elementy będą kolejnymi elementami listy `lst`, lecz jednak tylko do momentu, aż liczba ich wystąpień przekroczy `n` - wówczas tych "dalszych" elementów już nie umieszczamy. Zatem tu wynikiem byłaby lista `[1, 2, 4, 3, 3, 2, 1, 4]`, zatrzymująca - w odpowiedniej kolejności - tylko pierwsze dwa wystąpienia każdej wartości, a pomijająca "dalsze".

Wskazówka: Zadeklaruj pustą listę `result = []` jako "puste pudełko", do którego wrzucać będziemy kolejne elementy, zgodnie z opisaną regułą. Zdefiniuj `defaultdict` o nazwie powiedzmy `counts`, z domyślną wartością zero. Iteruj się teraz przez listę `lst` i w każdym kroku do listy `result` dodawaj kolejny element, a następnie powiększaj wpis w słowniku `counts` odpowiadający temu elementowi o jeden. To wszystko rób tylko kiedy dana wartość w słowniku `counts` nie przekracza `n`

In [None]:
# dłuższe ćwiczenie 14 - rozwiązanie



<img style = 'float: left; margin-right: 10px; margin-bottom: 10px' src = 'Images/question.png'> Dłuższe ćwiczenie 15 (\*): Liczby nad jeziorem.

Dla każdej dodatniej liczby całkowitej `n` zdefiniujmy następującą procedurę: Odbijamy jej cyfry w tafli jeziora, tj. 0 zmienia się na 0, 1 na 1, 2 na 5, 5 na 2, 6 na 9, zaś 9 na 6. Inne cyfry po odbiciu w tafli nie są już cyframi. Interesują nas tylko takie liczby `n`, które po odbiciu w tafli jeziora ciągle pozostają liczbami. Co więcej, ograniczmy się do liczb, które po odbiciu w tafli jeziora są liczbami _różnymi_ od oryginału. Np. 25 zmienia się w 52, więc jest dobra. Ale już 10 zmienia się w 10, czyli równą sobie, więc nie jest dobra. Zaś np. 75 nie zmienia się w ogóle w liczbę, więc też nie jest dobra.

Ile jest takich "dobrych" liczb między 1 a milionem?

Sprawdź swoją odpowiedź: Jest ich 46592.

Wskazówka: Utwórz słownik `rotations` z regułami odbicia cyfr w tafli jeziora. Musisz jakoś uwzględnić fakt, że niektóre cyfry nie odbijają się w cyfrę; możesz to zrobić np. tworząc `defaultdict` z wartością domyślną np. `'X'`.

Następnie iteruj się po kolejnych liczbach `n` od 1 do miliona. W każdym kroku utwórz string opisujący odbicie, np. 75 zmieni się w `'X2'`, a 25 w `'52'`. Wykorzystaj do tego powyższy słownik, składnię "list comprehension" oraz metodę stringów `join`. Teraz dodaj instrukcję warunkową sprawdzającą, czy litera `'X'` nie jest obecna w tak powstałym stringu (tj. jest on poprawną liczbą) oraz czy jest on, po konwersji na `int`, różny od `n`. Jeśli tak, "wrzuć" to `n` do uprzednio utworzonego "pudełka" `good_numbers`.

In [None]:
# dłuższe ćwiczenie 15 - rozwiązanie

