# Использование pyspark

### Установка
Настраиваем обход блокировки сервером с образами:
1. Ищем файл daemon.json, чтобы обойти блокировки от 30 мая. Добавляем зеркала для скачивания образов в параметр registry-mirrors:
```
{
 "builder": {
  "gc": {
   "defaultKeepStorage": "20GB",
   "enabled": true
  }
 },
 "experimental": false,
 "registry-mirrors": ["https://mirror.gcr.io", "https://daocloud.io", "https://registry.docker-cn.com"]
}
```
2. Скачиваем образ Spark:
```
docker pull bitnami/spark:latest
```
3. Запускаем (в папке, где лежит скачанный docker-compose.yml):
```
docker-compose up
```

Для завершения работы:
```
docker-compose down
```

### Действия на master:
0. Копирование данных на master
```
docker cp cards.csv id_контейнера:/opt/bitnami/spark/
```

1. Запуск python-консоли
```
export PYTHONPATH=/opt/bitnami/spark/python/lib/py4j-0.10.9.7-src.zip:/opt/bitnami/spark/python/:/opt/bitnami/spark/python/:
export PYTHONSTARTUP=/opt/bitnami/spark/python/pyspark/shell.py
exec "${SPARK_HOME}"/bin/spark-submit pyspark-shell-main
```

2. Инициализация RDD (ленивая)
```python
data = sc.textFile('cards.csv')
```

3. Посмотреть 5 строк
```python
data.take(5)
```

4. Сколько строк в данных
```python
data.count()
```

5. Wordcount
```python
data.map(lambda line: (line.split(',')[0], 1)).reduceByKey(lambda a, b: a+b).takeOrdered(5, key=lambda x: -x[1])
```

Редьюсер

In [42]:
from functools import reduce

In [37]:
data = [1, 2, 3, 4]

In [46]:
reduce(lambda a, b: a*b, data)

24

In [48]:
# шаг 1
a, b = 1, 2
a*b

2

In [50]:
# шаг 2
a, b = 2, 3
a*b

6

In [52]:
# шаг 3
a, b = 6, 4
a*b

24

# Ленивые вычисления

In [19]:
data = [11, 22, 33, '44', 55]
data

[11, 22, 33, '44', 55]

In [23]:
f = map(lambda x: x % 2, data)

In [29]:
next(f)

1

In [31]:
next(f)

TypeError: not all arguments converted during string formatting

In [21]:
[x for x in data if x%2==0]

TypeError: not all arguments converted during string formatting

In [11]:
even_data = []

for num in data:
    if num % 2 == 0:
        even_data.append(num)
        
even_data

[22, 44]