![](imgs/logo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.

## MapReduce

### Map, reduce (i filter) in Python

Nazwa **MapReduce** pochodzi od funkcji *map* i *reduce*.  

*Map* i *reduce* (czasami nazywany *fold*) są typowe dla *programowania funkcyjnego*. 

In [2]:
# Typowa definicja funkcji w Python
def squared(x):
    return x**2

In [3]:
squared

<function __main__.squared>

In [4]:
squared(12)

144

In [5]:
# funkcja anonimowa zwana też lambda
lambda x: x**2

<function __main__.<lambda>>

In [6]:
# Referencje do lambdy można przypisać do zmiennej
squared_bis = lambda x: x**2

In [7]:
squared_bis(12)

144

In [8]:
# map - wykonaj funkcje na wszystkich elementach kolekcji (iterable)
# map(function, iterable)
map(squared, [1, 2, 3, 4, 5])

[1, 4, 9, 16, 25]

In [9]:
# map w Python 3 zwraca iterator; żeby otrzymać listę trzeba wykonać poniższe
list(map(squared, [1, 2, 3, 4, 5]))

[1, 4, 9, 16, 25]

In [None]:
# W Python 3 reduce przesunięte zostało do functools
#from functools import reduce 

# reduce - redukuje kolekcje do jednego elementu za pomocą funkcji (np. suma, )
# reduce(function, iterable, accumulator=0)
reduce(lambda x, y: x + y, [1, 2, 3, 4, 5])

In [None]:
# filter - filtruje kolekcje używając funkcji filtrującej zwracającej wartość boolowską
# filter(function, iterable)
filter(lambda x: x % 2 == 1, [1, 2, 3, 4, 5])

In [None]:
# Podobnie, w Python 3 dostajemy iterator; należy użyć listy aby otrzymać kolekcję
list(filter(lambda x: x % 2 == 1, [1, 2, 3, 4, 5]))

### Zadania

Używająć `map`, `filter` i `reduce`, otrzymaj:

* Iloczyn `[1, 2, 3, 4, 5]`.
* Długość każdego słowa w liście `["Python", "Spark", "Big", "Data", "ML", "scikit-learn"]`.
* (★) Sumę wszystkich liter w słowach z powyższej listy nie zawierających litery `"i"`.

In [None]:
# Przy okazji
x = range(1000000)

In [None]:
%%timeit
y = filter(lambda x: x % 2 == 1, x)

In [None]:
%%timeit
y = [each for each in x if each % 2 == 1]

## MapReduce in Hadoop

W Hadoop MapReduce realizowane jest z użyciem par klucz-wartość. Zobacz poniższy przykład:
![](imgs/MapReduce_example.png)

In [None]:
import sys
from StringIO import StringIO
# Python 3
#from io import StringIO
import contextlib

# Funkcja pomocnicza przechwytująca strumień wyjściowy
@contextlib.contextmanager
def stdoutIO(stdout=None):
    old = sys.stdout
    if stdout is None:
        stdout = StringIO()
    sys.stdout = stdout
    yield stdout
    sys.stdout = old

# Linie wejściowe do przetworzenia
lines = ['123199901', '567200806', '645200811', '989199933', '452199904', '224200822']

# Mapper wyciągający rok i liczbę
def mapper(lines):
    for line in lines:
        key = int(line[3:7])
        value = int(line[7:])
        print("{0}<>{1}".format(key, value))

# Reducer liczący sumę
def reducer(lines):
    lastKey = None
    reduce_sum = 0
    for line in lines: 
        key, value = line.split("<>")
        if lastKey is None:
            lastKey = key
        if key != lastKey:
            print("{0},{1}".format(lastKey, reduce_sum))
            reduce_sum = 0

        reduce_sum += int(value)
        lastKey = key
    print("{0},{1}".format(lastKey, reduce_sum))
    
# Przebieg MapReduce 
# Input
print("Input: {}".format(lines))
# Map
with stdoutIO() as mapper_out:
    mapper(lines)
shuffled = mapper_out.getvalue().strip().split('\n')
print("Mapper out: {}".format(shuffled))
# Shuffle
shuffled.sort()
print("Shuffeled mapper out: {}".format(shuffled))
# Reduce
with stdoutIO() as reducer_out:
    reducer(shuffled)
# Output
output = reducer_out.getvalue().strip().split('\n')
print("Output: {}".format(output))



## Podstawy Spark

In [None]:
import pyspark

In [None]:
sc = pyspark.SparkContext(appName="sparkMapReduce")

In [None]:
# RDD - Resilient Distributed Datasets, rozpraszanie danych w Spark
rdd = sc.parallelize(range(10))

In [None]:
# Obiekt a nie właściwe dane
rdd

In [None]:
# zwraca wszystkie elementy; należy używać z rozwagą
rdd.collect()

In [None]:
# zwraca liczbę elementów
rdd.count()

In [None]:
# zwraca pierwszy
rdd.first()

In [None]:
# zwraca 5 pierwszych elementów
rdd.take(5)

In [None]:
# zwraca 5 elementów z najwyższą wartością
rdd.top(5)

In [None]:
# bierze próbkę losową 3 elementów (bez zwracania próbek)
rdd.takeSample(False, 3)

In [None]:
# operacje można łączyć w łańcuch
rdd.filter(lambda x: x % 2 == 0).collect()

In [None]:
# suma wszystkich elementów
rdd.reduce(lambda x, y: x + y)

In [None]:
# alternatywnie możemy wykorzystać operator
from operator import add
rdd.reduce(add)

In [None]:
# kolejny przykład z liczeniem słów
animals = sc.parallelize(["cat", "python", "cat", "snake", "snake"])

In [None]:
# mapa do pary klucz-wartość
animal_kv = animals.map(lambda x: (x, 1))

In [None]:
animal_kv.collect()

In [None]:
# redukujemy parami wszystkie wartości dla danego klucza
animal_kv \
  .reduceByKey(add)  \
  .collect()

## Text processing

Będziemy analizować ["The Tragedy of Titus Andronicus" by William Shakespeare](http://www.gutenberg.org/cache/epub/1106/pg1106.txt) z Project Gutenberg.

Zbiór nie jest Big Data ale ilustruje koncepcję przetwarzania w Spark.

In [None]:
lines = sc.textFile("data/titus_andronicus.txt")

In [None]:
# liczba linii
lines.count()

In [None]:
lines.take(5)

In [None]:
# zmieniamy linie w kolekcje słów
words = lines.flatMap(lambda x: x.split())

In [None]:
words.take(5)

In [None]:
# liczba słów
words.count()

### Zadanie

* Co się stanie jak użyjemy `map` zamiast `flatMap`?

In [None]:
# Liczymy słowa tylko z pierwszą wielką literą
capitalized = words \
  .filter(lambda x: x[0].isupper()) \

In [None]:
capitalized.take(5)

In [None]:
capitalized.distinct().take(10)

In [None]:
capitalized \
  .map(lambda x: (x, 1)) \
  .reduceByKey(add) \
  .top(10, lambda x: x[1])  # możemy wybrać wartość z pary klucz-wartość jako element sortujący

### Zadania

* Wypisz 5 linii zaczynających się od "Titus" lub "Marcus" (usuwając spacje jeżeli potrzeba).
* Wypisz 20 najpopularniejszych słów z samymi WIELKIMI LITERAMI.
* ★ Jaka jestczęstotliwość wyrazów w dziele?

### (Python) hints

In [None]:
"  some string with whitespaces \t  ".strip()

In [None]:
"Jake likes his dog.".startswith("Anne")

In [None]:
"Jake likes his dog.".startswith("Jake")

In [None]:
"Anne" or "Jake"  # Nie rób: string.startswith(a or b)

In [None]:
"abc,-".replace(",", "")

In [None]:
"abc,-".replace(",", "").replace("-", "")

In [None]:
# Wyrażenia regularne w pythonie
import re
re.findall("[\w]+", "Titus Andronicus Roman-legion")