![](imgs/kodolamaczlogo.png)

# Przetwarzanie Big Data z użyciem Apache Spark

Autor notebooka: Jakub Nowacki.


## Spark Streaming

In [1]:
import pyspark
import pyspark.streaming

# Lokalny kontekst Spark Streaming z 2 workerami agregujący dane z 1 sekundy.
sc = pyspark.SparkContext(master="local[2]", appName="AccessLogStreamAnalysis")
ssc = pyspark.streaming.StreamingContext(sc, 3)

In [2]:
# Czytamy z tekstowego socketa 8899
lines = ssc.socketTextStream("localhost", 8899)

In [3]:
# Funkcja pomocnicza do czytania wierszy
def get_row(line):
    cols = line.split()
    row = dict()
    source = cols[0]
    method = cols[5]
    return (source, method)

In [4]:
# Czytanie wierszy
#rows = lines.map(lambda l: get_row(l))
rows = lines.map(get_row)

In [5]:
# Liczenie wiersz
count = rows.count()
count.pprint()

In [6]:
# Znajdowanie wszystkich metod w tej porcji loga
grouped = rows.groupByKey()
grouped.mapValues(lambda values: set(values)).pprint()

In [7]:
# Strumień trzeba wystartować ręcznie
ssc.start()             
# Przestajemy czekać na strumień po 10s; normalnie czekamy w nieskończoność używając tej metody
ssc.awaitTermination(20)
# Zatrzymujemy strumień po 10s
ssc.stop(True, True)

-------------------------------------------
Time: 2017-10-01 13:12:06
-------------------------------------------
2

-------------------------------------------
Time: 2017-10-01 13:12:06
-------------------------------------------
('64.242.88.10', {'"GET'})

-------------------------------------------
Time: 2017-10-01 13:12:09
-------------------------------------------
3

-------------------------------------------
Time: 2017-10-01 13:12:09
-------------------------------------------
('fw.kcm.org', {'"GET'})
('10.0.0.153', {'"GET'})
('64.242.88.10', {'"GET'})

-------------------------------------------
Time: 2017-10-01 13:12:12
-------------------------------------------
3

-------------------------------------------
Time: 2017-10-01 13:12:12
-------------------------------------------
('10.0.0.153', {'"GET'})
('64.242.88.10', {'"GET'})

-------------------------------------------
Time: 2017-10-01 13:12:15
-------------------------------------------
3

-------------------------------

## Zadania

* Zbadaj dane.
* Wyczytaj inne wartości takie jak znacznik czasu czy ścieżkę.
* Policz ilość rekordów dla jednego źródła.
* ★ Policz metody dla jednego źródła.
* ★ Policz rekordy dla 5s.

Podpowiedź: dane ze strumienia są w pliku `data/access_log`.