![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## Kolekcje

Python posiada wiele wbudowanych typów bardzo przydatnych do pracy z danymi.

## Krotki (tuple)

Ktorka jest uporządkowaną sekwencja obiektów, która jest niezmienna (immutable). Krotkę definiujemy za pomoca nawiasu okrągłego lub komendy *tuple*. 

In [5]:
t = (1, '2', 3.0)
t2 = t+('6',3,6,8)
t2
a,b,c,d,e,f,g = t2
a,b,c,d,e,f,g 

(1, '2', 3.0, '6', 3, 6, 8)

Przykład operacji na krotkach: 

In [None]:
# Pobranie elementu
t[0]

In [None]:
# Rozpakowywanie krotki
a, b, c = t
a, b, c

In [None]:
# Nie możemy zmienić krotki ale możemy np złożyć dwie krotki co utworzy nową krotkę
t+(4l,)

Krotki można też przecinać (slice) wyciągając tylko pewne elementy:

In [7]:
t = (1, 2, 3, 4, 5)
print(t[:3]) # do 3
print(t[1:4]) # od 1 do 4
print(t[3:]) # od 3 do końca
print(t[::2]) # co 2 
print(t[-1]) # ostatni i ostatni element
a, b = 1, 4
print(t[slice(a,b)]) # definiowanie za pomocą komendy
print(t[a:b]) # to samo

s = "est"
print(s[-1])

(1, 2, 3)
(2, 3, 4)
(4, 5)
(1, 3, 5)
5
(2, 3, 4)
(2, 3, 4)
t


## Lista

Podobnie do krotki jest to typ opisujący sekwencje, ale tym razem może czyć zmieniany, np. możemy do listy obiekty dodwawać lub je usuwać. Listę tworzymy za pomoca nawiasów kwadratowych lub komendy *list*:

In [13]:
l = [1, '2', 3.0]
l.reverse()
l

[3.0, '2', 1]

Operacje na listach:

In [None]:
l = [1, '2', 3.0]

# Pobranie elementu
l[1]

In [None]:
# Dodanie elementu
l.append(4)
l

In [None]:
# Usunięcie konkretnego elemetu
l.remove(4)
l

In [None]:
# Pobranie elementu ostatniego (można tez przekazać indeks)
p = l.pop()
p, l

In [18]:
# Rozszeżenie za pomocą sekwencji
l.extend((5,6))
l
l.append([7,8,9])
a = l.pop()[-1]
a

9

In [None]:
# Odwracanie w miejscu
print(l)
l.reverse()
l

In [None]:
# Sortowanie w miejscu
print(l)
l.sort()
l

In [None]:
# Sortowanie funkcyjne
posortowana = sorted(l)
print(posortowana)

In [None]:
# Przecięcie nadal działa
l[2:4]

In [None]:
# Można też stworzyć listę list (macierz?)
m = [[1,2],[3,4]]
m

In [None]:
# Najpierw adresujemy wiersz potem kolumnę
m[1][0]

In [None]:
# Zarówno krotka jak i lista ma poniższe właściwości
print(len(l), len(m)) # Długość
print([1,2]+[3,4]) # Złożenie
print(1 in [1,2]) # Przynależność
for i in [1,2,3]: # Można po nich iterować
    print(i)

## Zbiór

Zbiór jest obiektem odwzorowujący zbiór matematyczny, w którym wszystkie elementy sa unikalne. Zbiór zachowuje się podobnie do krotki ale nie trzyma pozycji elementu. Zbiory są głównie wykorzystywane do zbierania elementów unikalnych i sprawdzania przynależności, gdyż dla zbioru jest to operacja dużo szybsza niż dla listy czy krotki, zobacz [wiki Pythona](https://wiki.python.org/moin/TimeComplexity). Krotkę definiujemy używając nawiasów klamrowych lub funkcji *set*:

In [None]:
s = {1, 2, 3}
s

Operacje na zbiorach:

In [None]:
# Można dodac element
s.add(4)
s

In [None]:
# ... ale zawsze zbiór pozostanie unikalny
s.add(4)
s.add(4)
s.add(3)
s

In [None]:
# Usuwanie elemntu
s.remove(4)
s

In [None]:
# Zbór nie ma indeksu
s[1]

In [None]:
# Operacje na zbiorach
print({1,2} - {2,3}) # Różnica
print({1,2} | {2,3}) # Suma
print({1,2} & {2,3}) # Iloczyn
print({1,2} ^ {2,3}) # Różnica symetryczna

In [None]:
# Podobnie, zbiór ma poniższe właściwości
print(len(s)) # Długość
print(1 in s) # Przynależność
for i in s: # Można po nim iterować
    print(i)
print(s+{3,4}) # Ale już nie ma złożenia, są za to operacje na zbiorach

## Słownik

Słownik (dictionary) jest typem podobnym do listy ale zamiast bycia indeksowanym pozycją liczbową, jest indeksowany kluczami. Słownik tworzymy używając nawiasów klamrowych lub funkcją *dict*:

In [23]:
d = {1: 'a', '2': 3.0}
d

{1: 'a', '2': 3.0}

In [24]:
# ... lub ...
dict([(1,'a'), ('2', 3.0)])

{1: 'a', '2': 3.0}

Operacje na słowniku:

In [25]:
# Pobieranie wartości
print(d[1])
print(d['2'])
print(d[5]) # Błąd bo klucza nie ma

a
3.0


KeyError: 5

In [26]:
# Można użyc metody 'get' żeby pobrać wartość lub, jak jej nie ma, zastąpić ją standardową
d.get(5, 'niema')

'niema'

In [27]:
# Zmiana wartości klucza
d[1] = 5
d

{1: 5, '2': 3.0}

In [28]:
# Lista kluczy
d.keys()

[1, '2']

In [None]:
# Lista wartości
d.values()

In [None]:
# Lista par klucz-wartość
d.items()

In [31]:
# Można sprawdzić czy jest klucz
print(1 in d)
print(d.has_key(6))

True
False


In [None]:
# Słownik ma poniższe właściwosći
print(len(d)) # Długość
print(1 in d) # Przynależność (obecnośc klucza)
for i in d: # Można iterować po kluczach
    print(i, d[i])
for k, v in d.iteritems(): # Lub po parach klucz-wartość
    print(k, v)

## Wyrażenia generujące

Python ma wygodny mechanizm generowania kolekcji używając wyrażeń generujących. Wyrażenia są złożeniem nawiasów tworzących kolekcje z pętlą *for* i wyrażeniem *if* (opcjonalne). Przykłady:

In [19]:
# Generujemy listę nazw z indeksami
["nazwa-{}".format(i) for i in range(5)]

['nazwa-0', 'nazwa-1', 'nazwa-2', 'nazwa-3', 'nazwa-4']

In [None]:
# ... ale tylko parzystymi (i zerem) ...
["nazwa-{}".format(i) for i in range(5) if i % 2 == 0]

In [None]:
# ... a może zbór...
{"nazwa-{}".format(i) for i in range(5) if i % 2 == 0}

In [21]:
# ... lub słownik...
{"nazwa-{}".format(i):i*i for i in range(5) if i % 2 == 0}

{'nazwa-0': 0, 'nazwa-2': 4, 'nazwa-4': 16}