## ВВЕДЕНИЕ В SPARK

Данные можно рассматривать с трех различных точек зрения: как они собираются, хранятся и обрабатываются, как показано на рис.1-1.

<img src="img1_1.jpg">

За последние несколько лет произошли огромные изменение в способе сбора данных. От покупки Apple в магазине до удаления приложения на вашем мобильном телефоне, каждая взаимодействие данных теперь захватывается и собирается с помощью различных встроенных приложений. Различные устройства Интернета вещей (IoT) захватывают широкий спектр визуальных и сенсорных сигналов каждую миллисекунду. Предприятиям стало относительно удобно собирать эти данные из различных источников и использовать их в дальнейшем для совершенствования процесса принятия решений.

В предыдущие годы никто никогда не предполагал, что данные будут находиться в каком-то удаленном месте, или что стоимость хранения данных будет такой же дешевой, как и сейчас. Компании приняли облачное хранилище и начали видеть его преимущества по сравнению с локальными подходами. Тем не менее, некоторые предприятия по-прежнему предпочитают локальное хранение, по различным причинам. Известно, что хранение данных началось с использования магнитных лент. Затем прорывное внедрение дискет дало возможность перемещать данные из одного места в другое. Тем не менее, размер данных все еще был огромным ограничением. Флэш-накопители и жесткие диски сделали его еще проще хранить и передавать большие объемы данных по сниженной стоимости. (См. Рис. 1-2.) Самая последняя тенденция привела к тому что можно хранить данные до 8TBs очень низкой цене.

<img src="img1_2.jpg">

Эта тенденция четко указывает на то, что стоимость хранения данных была значительно снижена на протяжении многих лет и продолжает снижаться. В результате, компании не уклоняются от хранения огромных объемов данных, независимо от их вида. От журналов до финансовых и операционных транзакций до простой обратной связи сотрудников, все будет храниться.
Последний аспект данных-это использование сохраненных данных и их обработка для некоторого анализа или запуска приложения. Мы стали свидетелями того, насколько эффективными стали компьютеры за последние 20 лет. То, что раньше занимало пять минут, чтобы выполнить, вероятно, занимает меньше секунды, используя сегодняшние
машины с предварительными блоками обработки. Таким образом, само собой разумеется, что машины могут обрабатывать данные гораздо быстрее и проще. Тем не менее, по-прежнему существует ограничение на объем данных, которые может обрабатывать одна машина, независимо от ее вычислительной мощности. Таким образом, основная идея Spark заключается в использовании коллекции (кластера) машин и унифицированного механизма обработки (Spark) для хранения и обработки огромных объемов данных без ущерба для скорости и безопасности. Это была конечная цель, которая привела к рождению Spark.

### Архитектура Spark

Есть пять основных компонентов, которые делают Spark настолько мощным и простым в использовании. Основная архитектура Spark состоит из следующих составляющих, как показано на рис. 1-3:

    • Storage (Хранение)
    • Resource management (Управление ресурсами)
    • Engine (Двигатель или Ядро)
    • Ecosystem (Экосистема)
    • APIs (Пользовательский интерфейс)

<img src="img1_3.jpg">

#### Хранение

Перед использованием Spark необходимо предоставить данные для их обработки. Эти данные могут находиться в любой базе данных. Spark предлагает несколько вариантов использования различных категорий источников данных, чтобы иметь возможность обрабатывать их в больших масштабах. Spark позволяет использовать традиционные реляционные базы данных, а также NoSQL, такие как Cassandra или MongoDB.

#### Управление ресурсами

Следующий уровень состоит из менеджера ресурсов. Поскольку Spark работает на множестве машин (он также может работать на одной машине с несколькими ядрами), он известен как кластер Spark. Как правило, в любом кластере есть диспетчер ресурсов, который эффективно обрабатывает рабочую нагрузку между этими ресурсами.
Два наиболее широко используемых менеджера ресурсов-это YARN и Mesos. Менеджер ресурсов имеет два основных компонента внутри:
1. Диспетчер кластеров (Cluster manager)
2. Работник (Worker)
Это своего рода архитектура master-slave, в которой менеджер кластера действует как главный узел, а рабочий-как ведомый узел в кластере. Диспетчер кластеров отслеживает всю информацию, относящуюся к рабочим узлам и их текущему состоянию. Менеджеры кластеров всегда поддерживают следующую информацию:
    1. Состояние рабочего узла (занято / доступно) Status of worker node (busy/available)
    2. Расположение рабочего узла.(Location of worker node)
    3. Память рабочего узла (Memory of worker node)
    4. Общее количество ядер процессора рабочего узла (Total CPU cores of worker node)
    Основная роль менеджера кластеров заключается в управлении рабочими узлами и назначении им задач на основе доступности и емкости рабочего узла. С другой стороны, рабочий узел отвечает только за выполнение задачи, заданной ему диспетчером кластеров, как показано на рис.1-4.

<img src="img1_4.jpg">

Задачи, которые предоставляются рабочим узлам, как правило, являются отдельными частями общего приложения Spark. Приложение Spark содержит две части:
1. Задача (Task)
2. Драйвер Spark (Spark driver)

Задача-это логика обработки данных, которая была написана либо в коде PySpark, либо в коде Spark R. Это может быть так же просто, как принять общее количество частот слов к очень сложному набору инструкций на неструктурированном наборе данных. Вторым компонентом является драйвер Spark, основной контроллер приложения Spark, который последовательно взаимодействует с диспетчером кластеров, чтобы выяснить, какие рабочие узлы могут быть использованы для выполнения запроса. Роль драйвера Spark состоит в том, чтобы запросить у менеджера кластера инициализацию исполнителя Spark для каждого рабочего узла.

##### Двигатель и экосистема

Основой архитектуры Spark является ее ядро, которое построено поверх RDDs (устойчивых распределенных наборов данных) и предлагает несколько API для построения других библиотек и экосистем участниками Spark. Он состоит из двух частей: инфраструктуры распределенных вычислений и абстракции программирования RDD. Библиотеки по умолчанию в инструментарии Spark toolkit поставляются в виде четырех различных предложений.

##### Spark SQL

SQL, используемый большинством операторов ETL по всему миру, делает его логичным выбором, чтобы быть частью предложений Spark. Это позволяет пользователям Spark выполнять структурированную обработку данных, выполняя запросы SQL. В действительности, Spark SQL использует оптимизатор catalyst для выполнения оптимизаций во время выполнения запросов SQL.
Еще одним преимуществом использования Spark SQL является то, что он может легко работать с несколькими файлами баз данных и систем хранения данных, таких как SQL, NoSQL, Parquet и т.д.

##### Mllib

Обучение моделям машинного обучения на больших наборах данных начинало становиться огромной проблемой, пока не появилась библиотека машинного обучения Spark. MLlib дает вам возможность обучать модели машинного обучения на огромных наборах данных, используя кластеры Spark. Он позволяет создавать контролируемые, бесконтрольные и рекомендательные системы; модели на основе НЛП; и глубокое обучение, а также в библиотеке Spark ML.

#####  Структурированное Потоковое Вещание (Structured Streaming)

Библиотека Spark Streaming library предоставляет функциональные возможности для чтения и обработки потоковых данных в режиме реального времени. Входящими данными могут быть пакетные данные или данные почти в реальном времени из разных источников. Структурированное потоковое вещание способно осуществить прием данных в реальном времени из таких источников, как Flume, Kafka, Twitter и др.

##### Graph X

Это библиотека, которая находится в верхней части ядра Spark и позволяет пользователям обрабатывать определенные типы данных (графические фреймы данных), которые состоят из узлов и ребер. Типичный график используется для моделирования отношений между различными задействованными объектами. Узлы представляют объект, а ребро между узлами представляет отношение между ними. Графовые фреймы данных в основном используются в сетевом анализе, и Graph X позволяет осуществлять распределенную обработку таких графовых фреймов данных.
Приложение Spark доступно на четырех языках. Поскольку Spark построен с использованием Scala, это становится родным языком. Кроме Scala, мы также можем использовать Python, Java и R, как показано на рис.1-5.


<img src="img1_5.jpg">

### Настройка окружения
Есть несколько способов, в которых мы можем использовать Spark:
1. Локальная настройка
2. Docers
3. Облачное окружение(GCP, AWS, Azure)
4. Источники данных

### Локальная настройка

Spark относительно легко установить и использовать  в локальной системе, но это не соответствует основной цели самой Spark, если она не используется в кластере. Основное приложение Spark - это распределенная обработка данных, которая всегда будет ограничена емкостью локальной системы, если она выполняется в локальной системе, в то время как вместо этого можно использовать Spark на группе машин. Тем не менее, это всегда хорошая практика, чтобы иметь Spark локально, а также для тестирования кода на примере данных. Итак, выполните следующие действия, чтобы сделать это:

1. Убедитесь, что Java установлена; в противном случае установите Java.
2. Загрузите последнюю версию Apache Spark с сайта https://spark.apache.org/downloads.html.
3. Извлеките файлы из заархивированной папки.
4. Скопируйте все файлы, связанные с Spark, в соответствующий каталог.
5. Настройте переменные среды, чтобы иметь возможность запускать Spark.
6. Проверьте установку и запустите Spark.

### Docers

Другой способ использования Spark локально заключается в использовании метода контейнеризации докеров. Это позволяет пользователям переносить все зависимости и файлы Spark в один образ, который может быть запущен в любой системе. Мы можем удалить контейнер после завершения задачи и перезапустить его, если это необходимо. Чтобы использовать Docker для запуска Spark, мы должны сначала установить Docker в системе, а затем просто запустить следующую команду:

[In]: docker run -it -p 8888:8888 jupyter/pyspark-notebook".

### Облачное окружение

Как обсуждалось ранее, по различным причинам локальные наборы данных не очень-то помогают, когда речь заходит о больших данных, и именно там облака позволяют принимать и обрабатывать огромные наборы данных за короткий период. Реальную мощность Spark можно легко увидеть при работе с большими наборами данных (свыше 100 ТБ). Большинство облачных провайдеров позволяют устанавливать Spark, который иногда также понастроить на кластерах с необходимыми спецификациями, согласно потребности. Одной из облачных сред является Databricks.

Databricks-это компания, основанная создателями Spark, с целью предоставления корпоративной версии Spark для бизнеса, в дополнение к полноценной поддержке. Чтобы увеличить использование Spark среди сообщества и других пользователей, Databricks также предоставляет бесплатную версию Spark для сообщества с кластером 6 ГБ (один узел). Вы можете увеличить размер объекта

## Обработка данных
Далее описываются различные этапы предварительной обработки и обработки данных в PySpark. Методы предварительной обработки, безусловно, могут варьироваться от случая к случаю, и многие различные методы могут быть использованы для преоьбразования данных в желаемую форму. Далее необходимо показать показать некоторые из распространенных методов работы с большими данными в Spark. В этой главе мы рассмотрим различные этапы предварительной обработки данных, такие как обработка пропущенных значений, объединение наборов данных, применение функций, агрегирование и сортировка. Одной из основных частей предварительной обработки данных является преобразование числовых столбцов в категориальные и наоборот, которые мы рассмотрим в следующих нескольких главах и основаны на машинном обучении. Набор данных, который мы собираемся использовать, вдохновлен первичным исследовательским набором данных и содержит несколько атрибутов из исходного набора данных с дополнительными столбцами, содержащими сфабрикованные точки данных.

### Создание объекта SparkSession

Первым шагом является создание объекта SparkSession, чтобы использовать Spark. Мы также импортируем все необходимые функции и типы данных из spark, sql:

In [None]:
#install java
#C:\Users\biaspaltsau_aa>java --version
#java 19.0.1 2022-10-18
#Java(TM) SE Runtime Environment (build 19.0.1+10-21)
#Java HotSpot(TM) 64-Bit Server VM (build 19.0.1+10-21, mixed mode, sharing)
#Создаем новое окружение!
#pip install pyspark

In [2]:
#Без этого костыля у меня не работал
import os
import sys

os.environ['PYSPARK_PYTHON'] = 'python'
os.environ['PYSPARK_DRIVER_PYTHON'] = 'jupyter'

In [3]:
# from pyspark.sql import SparkSession
# spark=SparkSession.builder.appName('data_processing').master("local[*]").config("spark.executor.memory", "10g").getOrCreate()
from pyspark.sql import SparkSession
spark=SparkSession.builder.appName('data_processing').getOrCreate()

In [4]:
spark = SparkSession.builder.getOrCreate()

In [5]:
#spark.conf.set("spark.sql.execution.arrow.pyspark.enabled", "true")

Пояснение - pyspark продукт java по этому ему нужна что бы в системе была java
SparkSession - создает воркера (рабочего). Локально. На все ядра с 10gb оперативной памяти. 

In [6]:
#creating a customer dataframe by declaring the schema and passing values
import pyspark.sql.functions as F
from pyspark.sql.types import *
import pyspark

Теперь вместо непосредственного чтения файла для создания фрейма данных мы перейдем к процессу создания фрейма данных, передавая значения ключей. Способ создания фрейма данных в Spark заключается в объявлении его схемы и передаче значений столбцов.

In [7]:
schema=StructType().add("user_id","string").add("country","string").add("browser", "string").add("OS",'string').add("age", "integer")

In [8]:
#pass the values
df=spark.createDataFrame([("A203",'India',"Chrome","WIN",33),("A201",'China',"Safari","MacOS",35),("A205",'UK',"Mozilla","Linux",25)],schema=schema)


In [9]:
df.printSchema()

root
 |-- user_id: string (nullable = true)
 |-- country: string (nullable = true)
 |-- browser: string (nullable = true)
 |-- OS: string (nullable = true)
 |-- age: integer (nullable = true)



In [10]:
df.show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A203|  India| Chrome|  WIN| 33|
|   A201|  China| Safari|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 25|
+-------+-------+-------+-----+---+



In [11]:
df.head(5)

[Row(user_id='A203', country='India', browser='Chrome', OS='WIN', age=33),
 Row(user_id='A201', country='China', browser='Safari', OS='MacOS', age=35),
 Row(user_id='A205', country='UK', browser='Mozilla', OS='Linux', age=25)]

In [12]:
df.head(2)

[Row(user_id='A203', country='India', browser='Chrome', OS='WIN', age=33),
 Row(user_id='A201', country='China', browser='Safari', OS='MacOS', age=35)]

Очень часто в качестве части общих данных используются нулевые значения. Поэтому очень важно добавить шаг в конвейер обработки данных, чтобы обработать значения null. В Spark мы можем иметь дело с нулевыми значениями, либо заменяя их некоторым конкретным значением, либо отбрасывая строки/столбцы, содержащие нулевые значения.
Во-первых, мы создаем новый фрейм данных (df_na), который содержит нулевые значения в двух его столбцах (схема такая же, как и в предыдущем фрейме данных).
При первом подходе к работе со значениями null мы заполняем все значения null в данном фрейме данных значением 0,что обеспечивает быстрое исправление. Мы используем функцию fillna для замены всех нулевых значений в фрейме данных на 0.
При втором подходе мы заменяем нулевые значения в определенных столбцах (страна, браузер) на 'USA' и 'Safari' соответственно.

In [21]:
#create a new dataframe with nukll values 
df_na=spark.createDataFrame([("A203",None,"Chrome","WIN",33),("A201",'China',None,"MacOS",35),("A205",'UK',"Mozilla","Linux",20)],schema=schema)


In [22]:
df_na.show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A203|   null| Chrome|  WIN| 33|
|   A201|  China|   null|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



In [23]:
#fill all null values with 0
df_na.fillna('0').show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A203|      0| Chrome|  WIN| 33|
|   A201|  China|      0|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



In [24]:
df_na.fillna(0).show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A203|   null| Chrome|  WIN| 33|
|   A201|  China|   null|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



In [25]:
#fill null values with specific value
df_na.fillna( { 'country':'USA', 'browser':'Safari', 'age':17 } ).show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A203|    USA| Chrome|  WIN| 33|
|   A201|  China| Safari|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



In [26]:
import pandas as pd
df = pd.DataFrame(data=df_na.toPandas(),columns=df_na.columns)

In [27]:
df

Unnamed: 0,user_id,country,browser,OS,age
0,A203,,Chrome,WIN,33
1,A201,China,,MacOS,35
2,A205,UK,Mozilla,Linux,20


In [28]:
sparkDF=spark.createDataFrame(df) 
sparkDF.printSchema()
sparkDF.show()

root
 |-- user_id: string (nullable = true)
 |-- country: string (nullable = true)
 |-- browser: string (nullable = true)
 |-- OS: string (nullable = true)
 |-- age: long (nullable = true)

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A203|   null| Chrome|  WIN| 33|
|   A201|  China|   null|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



Чтобы удалить строки с любыми пустыми значениями, мы можем просто использовать na.drop функциональности в PySpark. В то время как если это необходимо сделать для определенных столбцов, мы также можем передать набор имен столбцов, как показано в следующем примере:

In [29]:
#Return new df omitting rows with null values
df_na.na.drop().show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



In [30]:
df_na.na.drop(subset='country').show()

+-------+-------+-------+-----+---+
|user_id|country|browser|   OS|age|
+-------+-------+-------+-----+---+
|   A201|  China|   null|MacOS| 35|
|   A205|     UK|Mozilla|Linux| 20|
+-------+-------+-------+-----+---+



Еще одним очень распространенным шагом в обработке данных является замена некоторых точек данных определенными значениями. Для этого можно использовать функцию replace, как показано в следующем примере. Чтобы удалить столбец фрейма данных, мы можем использовать функциональность drop PySpark.

In [31]:
df_na.replace("Chrome","Google Chrome").show()

+-------+-------+-------------+-----+---+
|user_id|country|      browser|   OS|age|
+-------+-------+-------------+-----+---+
|   A203|   null|Google Chrome|  WIN| 33|
|   A201|  China|         null|MacOS| 35|
|   A205|     UK|      Mozilla|Linux| 20|
+-------+-------+-------------+-----+---+



In [32]:
#deleting column 
df_na.drop('user_id').show()

+-------+-------+-----+---+
|country|browser|   OS|age|
+-------+-------+-----+---+
|   null| Chrome|  WIN| 33|
|  China|   null|MacOS| 35|
|     UK|Mozilla|Linux| 20|
+-------+-------+-----+---+



Теперь, когда мы увидели, как создать фрейм данных путем передачи значения и как обрабатывать пропущенные значения, мы можем создать фрейм данных Spark, прочитав файл (. csv, parquet и др.). Набор данных содержит в общей сложности семь столбцов и 2000 строк. Функция суммирования позволяет нам видеть статистические меры набора данных, такие как min, max и mean числовых данных, присутствующих в фрейме данных.

In [20]:
#read files as Dataframe

In [52]:
df=spark.read.csv("customer_data.csv",header=True,inferSchema=True)

In [53]:
df.count()

2000

In [54]:
df.show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|Lower class large...|               1|                 3|30-40 years|Family with grown...|     44905|    0|
|Mixed small town ...|               1|                 2|30-40 years|Family with grown...|     37575|    0|
|Mixed small town ...|               1|                 2|30-40 years|Family with grown...|     27915|    0|
|Modern, complete ...|               1|                 3|40-50 years|      Average Family|     19504|    0|
|  Large family farms|               1|                 4|30-40 years|             Farmers|     34943|    0|
|    Young and rising|               1|                 2|20-30 years|         Living well|     13064|    0|
|Large religious f.

In [55]:
df.columns

['Customer_subtype',
 'Number_of_houses',
 'Avg_size_household',
 'Avg_age',
 'Customer_main_type',
 'Avg_Salary',
 'label']

In [56]:
df.printSchema()

root
 |-- Customer_subtype: string (nullable = true)
 |-- Number_of_houses: integer (nullable = true)
 |-- Avg_size_household: integer (nullable = true)
 |-- Avg_age: string (nullable = true)
 |-- Customer_main_type: string (nullable = true)
 |-- Avg_Salary: integer (nullable = true)
 |-- label: integer (nullable = true)



In [92]:
df.show(10,truncate=False)

+--------------------------+----------------+------------------+-----------+---------------------+----------+-----+
|Customer_subtype          |Number_of_houses|Avg_size_household|Avg_age    |Customer_main_type   |Avg_Salary|label|
+--------------------------+----------------+------------------+-----------+---------------------+----------+-----+
|Lower class large families|1               |3                 |30-40 years|Family with grown ups|44905     |0    |
|Mixed small town dwellers |1               |2                 |30-40 years|Family with grown ups|37575     |0    |
|Mixed small town dwellers |1               |2                 |30-40 years|Family with grown ups|27915     |0    |
|Modern, complete families |1               |3                 |40-50 years|Average Family       |19504     |0    |
|Large family farms        |1               |4                 |30-40 years|Farmers              |34943     |0    |
|Young and rising          |1               |2                 |20-30 ye

In [67]:
df.columns

['Customer_subtype',
 'Number_of_houses',
 'Avg_size_household',
 'Avg_age',
 'Customer_main_type',
 'Avg_Salary',
 'label']

In [68]:
df.summary().show()

+-------+--------------------+------------------+------------------+-----------+--------------------+-----------------+------------------+
|summary|    Customer_subtype|  Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|       Avg_Salary|             label|
+-------+--------------------+------------------+------------------+-----------+--------------------+-----------------+------------------+
|  count|                2000|              2000|              2000|       2000|                2000|             2000|              2000|
|   mean|                null|            1.1075|            2.6895|       null|                null|     1616908.0835|            0.0605|
| stddev|                null|0.3873225521186316|0.7914562220841646|       null|                null|6822647.757312146|0.2384705099001677|
|    min|Affluent senior a...|                 1|                 1|20-30 years|      Average Family|             1361|                 0|
|    25%|                nu

In [69]:
df.describe().show()

+-------+--------------------+------------------+------------------+-----------+--------------------+-----------------+------------------+
|summary|    Customer_subtype|  Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|       Avg_Salary|             label|
+-------+--------------------+------------------+------------------+-----------+--------------------+-----------------+------------------+
|  count|                2000|              2000|              2000|       2000|                2000|             2000|              2000|
|   mean|                null|            1.1075|            2.6895|       null|                null|     1616908.0835|            0.0605|
| stddev|                null|0.3873225521186316|0.7914562220841646|       null|                null|6822647.757312146|0.2384705099001677|
|    min|Affluent senior a...|                 1|                 1|20-30 years|      Average Family|             1361|                 0|
|    max| Young, low educat

In [91]:
df.describe().show(truncate=False)

+-------+--------------------------+------------------+------------------+-----------+--------------------+-----------------+------------------+
|summary|Customer_subtype          |Number_of_houses  |Avg_size_household|Avg_age    |Customer_main_type  |Avg_Salary       |label             |
+-------+--------------------------+------------------+------------------+-----------+--------------------+-----------------+------------------+
|count  |2000                      |2000              |2000              |2000       |2000                |2000             |2000              |
|mean   |null                      |1.1075            |2.6895            |null       |null                |1616908.0835     |0.0605            |
|stddev |null                      |0.3873225521186316|0.7914562220841646|null       |null                |6822647.757312146|0.2384705099001677|
|min    |Affluent senior apartments|1                 |1                 |20-30 years|Average Family      |1361             |0    

В большинстве случаев мы не будем использовать все столбцы, присутствующие в фрейме данных, поскольку некоторые из них могут быть избыточными и нести очень мало ценности с точки зрения предоставления полезной информации. Поэтому подмножество фрейма данных становится критически важным для наличия надлежащих данных для анализа. Я расскажу об этом в следующем разделе.

### Подмножество фрейма данных

Подмножество фрейма данных может быть создано на основе нескольких условий, в которых мы выбираем несколько строк, столбцов или данных с определенными фильтрами на месте. В следующих примерах вы увидите, как мы можем создать подмножество исходного фрейма данных, основываясь на определенных условиях, чтобы продемонстрировать процесс фильтрации записей.

    1.  Select
    2.  Filter
    3.  Where

В этом примере мы берем один из столбцов фрейма данных, 'Avg_Salary', и создаем подмножество исходного фрейма данных, используя select. Мы можем передать любое количество столбцов,которые должны присутствовать в подмножестве. Затем мы применяем фильтр на фрейме данных, чтобы извлечь записи, основанные на определенном пороге (Avg_Salary > 1000000). После фильтрации мы можем либо взять общее количество записей, присутствующих в подмножестве, либо взять его для дальнейшей обработки.

In [90]:
df.select(['Customer_subtype']).show(truncate=False)

+--------------------------+
|Customer_subtype          |
+--------------------------+
|Lower class large families|
|Mixed small town dwellers |
|Mixed small town dwellers |
|Modern, complete families |
|Large family farms        |
|Young and rising          |
|Large religious families  |
|Lower class large families|
|Lower class large families|
|Family starters           |
|Stable family             |
|Modern, complete families |
|Lower class large families|
|Mixed rurals              |
|Young and rising          |
|Lower class large families|
|Traditional families      |
|Mixed apartment dwellers  |
|Young all american family |
|Low income catholics      |
+--------------------------+
only showing top 20 rows



Мы также можем применить несколько фильтров к фрейму данных, включив в него дополнительные условия, как показано ниже. Это можно сделать двумя способами: во-первых, применяя последовательные фильтры, а затем с помощью операндов ( & , or).

In [80]:
df.filter(df['Avg_Salary'] > 1000000).count()

128

In [77]:
import pandas as pd
import pandas as pd
df_p = pd.DataFrame(data=df.toPandas(),columns=df.columns)

In [78]:
df_p[df_p["Avg_Salary"]>1000000].count()

Customer_subtype      128
Number_of_houses      128
Avg_size_household    128
Avg_age               128
Customer_main_type    128
Avg_Salary            128
label                 128
dtype: int64

In [81]:
df.filter(df['Avg_Salary'] > 1000000).show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
| High status seniors|               1|                 3|40-50 years|Successful hedonists|   4670288|    0|
| High status seniors|               1|                 3|50-60 years|Successful hedonists|   9561873|    0|
| High status seniors|               1|                 2|40-50 years|Successful hedonists|  18687005|    0|
| High status seniors|               1|                 2|40-50 years|Successful hedonists|  24139960|    0|
| High status seniors|               1|                 2|50-60 years|Successful hedonists|   6718606|    0|
|High Income, expe...|               1|                 3|40-50 years|Successful hedonists|  19347139|    0|
|High Income, expe.

In [82]:
df.filter(df['Avg_Salary'] > 50000).filter(df['Number_of_houses'] > 2).filter(df['Avg_size_household']==2).show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    596723|    0|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    944444|    0|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    788477|    0|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    994077|    0|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+



In [35]:
df.where((df['Avg_Salary'] > 500000) & (df['Number_of_houses'] > 2)).show()


+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    596723|    0|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    944444|    0|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    788477|    0|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    994077|    0|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+



Теперь, когда мы увидели, как создать подмножество из фрейма данных, мы можем перейти к агрегациям в PySpark.

### Агрегации

Любой вид агрегации может быть разбит просто на три этапа, в следующем порядке:

•  Split
•  Apply
•  Combine

Первый шаг состоит в том, чтобы разделить данные на основе столбца или группы столбцов, а затем выполнить операцию над этими небольшими отдельными группами (count, max, avg и т. д.). После того, как результаты будут получены для каждого набора групп, последний шаг заключается в объединении всех этих результатов.
В следующем примере мы агрегируем данные, основанные на 'Customer subtype', и просто подсчитываем количество записей в каждой категории.
Мы используем функцию groupBy в PySpark. Вывод этого не находится в каком-либо определенном порядке, так как мы не применяли никакой сортировки к результатам. Поэтому мы также увидим, как мы можем применить любой тип сортировки к конечным результатам. Потому что у нас есть семь столбцов в фрейме данных-все они являются категориальные столбцы, за исключением одного (Avg_Salary), можно перебирать по каждому столбцу и применять агрегацию, как показано в следующем примере:

In [87]:
df_p

Unnamed: 0,Customer_subtype,Number_of_houses,Avg_size_household,Avg_age,Customer_main_type,Avg_Salary,label
0,Lower class large families,1,3,30-40 years,Family with grown ups,44905,0
1,Mixed small town dwellers,1,2,30-40 years,Family with grown ups,37575,0
2,Mixed small town dwellers,1,2,30-40 years,Family with grown ups,27915,0
3,"Modern, complete families",1,3,40-50 years,Average Family,19504,0
4,Large family farms,1,4,30-40 years,Farmers,34943,0
...,...,...,...,...,...,...,...
1995,"Young, low educated",1,2,40-50 years,Living well,45857,0
1996,Mixed rurals,1,4,40-50 years,Farmers,45665,0
1997,Young and rising,1,2,40-50 years,Living well,32903,0
1998,"High Income, expensive child",1,3,40-50 years,Successful hedonists,46911924,0


In [85]:
df_p.groupby(['Customer_subtype']).count()

Unnamed: 0_level_0,Number_of_houses,Avg_size_household,Avg_age,Customer_main_type,Avg_Salary,label
Customer_subtype,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Affluent senior apartments,17,17,17,17,17,17
Affluent young families,36,36,36,36,36,36
Career and childcare,33,33,33,33,33,33
Couples with teens 'Married with children',83,83,83,83,83,83
Dinki's (double income no kids),17,17,17,17,17,17
Etnically diverse,6,6,6,6,6,6
Family starters,55,55,55,55,55,55
Fresh masters in the city,2,2,2,2,2,2
"High Income, expensive child",52,52,52,52,52,52
High status seniors,76,76,76,76,76,76


In [88]:
df.groupBy('Customer_subtype').count().show()

+--------------------+-----+
|    Customer_subtype|count|
+--------------------+-----+
|Large family, emp...|   56|
|Religious elderly...|   47|
|Large religious f...|  107|
|Modern, complete ...|   93|
|    Village families|   68|
|Young all america...|   62|
|Young urban have-...|    4|
|Young seniors in ...|   22|
|Fresh masters in ...|    2|
|High Income, expe...|   52|
|Lower class large...|  288|
| Residential elderly|    6|
|Senior cosmopolitans|    1|
|        Mixed rurals|   67|
|Career and childcare|   33|
|Low income catholics|   72|
|Mixed apartment d...|   34|
|Seniors in apartm...|   17|
|Middle class fami...|  122|
|Traditional families|  129|
+--------------------+-----+
only showing top 20 rows



In [94]:
df.groupBy(['Avg_size_household']).count().orderBy('count',ascending=False).show(truncate=False)

+------------------+-----+
|Avg_size_household|count|
+------------------+-----+
|3                 |900  |
|2                 |730  |
|4                 |255  |
|1                 |94   |
|5                 |21   |
+------------------+-----+



In [89]:
for col in df.columns:
    if col !='Avg_Salary':
        print(f" *** Aggregation for  {col} ***")
        df.groupBy(col).count().orderBy('count',ascending=False).show(truncate=False)

    

 *** Aggregation for  Customer_subtype ***
+------------------------------------------+-----+
|Customer_subtype                          |count|
+------------------------------------------+-----+
|Lower class large families                |288  |
|Traditional families                      |129  |
|Middle class families                     |122  |
|Large religious families                  |107  |
|Modern, complete families                 |93   |
|Couples with teens 'Married with children'|83   |
|Young and rising                          |78   |
|High status seniors                       |76   |
|Low income catholics                      |72   |
|Mixed seniors                             |71   |
|Village families                          |68   |
|Mixed rurals                              |67   |
|Young all american family                 |62   |
|Stable family                             |62   |
|Large family, employed child              |56   |
|Young, low educated                   

In [95]:
df.groupBy('Customer_main_type').agg(F.min('Avg_Salary')).show()

+--------------------+---------------+
|  Customer_main_type|min(Avg_Salary)|
+--------------------+---------------+
|             Farmers|          10469|
|       Career Loners|          13246|
|Retired and Relig...|           1361|
|Successful hedonists|          12705|
|         Living well|          10418|
|      Average Family|          10506|
|    Cruising Seniors|          10100|
|Conservative fami...|          10179|
|      Driven Growers|          10257|
|Family with grown...|           1502|
+--------------------+---------------+



In [96]:
df.show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|Lower class large...|               1|                 3|30-40 years|Family with grown...|     44905|    0|
|Mixed small town ...|               1|                 2|30-40 years|Family with grown...|     37575|    0|
|Mixed small town ...|               1|                 2|30-40 years|Family with grown...|     27915|    0|
|Modern, complete ...|               1|                 3|40-50 years|      Average Family|     19504|    0|
|  Large family farms|               1|                 4|30-40 years|             Farmers|     34943|    0|
|    Young and rising|               1|                 2|20-30 years|         Living well|     13064|    0|
|Large religious f.

In [97]:
df.groupBy('Customer_main_type').agg(F.max('Avg_Salary')).show()

+--------------------+---------------+
|  Customer_main_type|max(Avg_Salary)|
+--------------------+---------------+
|             Farmers|          49965|
|       Career Loners|          49903|
|Retired and Relig...|          49564|
|Successful hedonists|       48919896|
|         Living well|          49816|
|      Average Family|         991838|
|    Cruising Seniors|          49526|
|Conservative fami...|          49965|
|      Driven Growers|          49932|
|Family with grown...|          49901|
+--------------------+---------------+



In [98]:
df.groupBy('Customer_main_type').agg(F.sum('Avg_Salary')).show()

+--------------------+---------------+
|  Customer_main_type|sum(Avg_Salary)|
+--------------------+---------------+
|             Farmers|        2809468|
|       Career Loners|         484089|
|Retired and Relig...|        5522439|
|Successful hedonists|     3158111161|
|         Living well|        5552540|
|      Average Family|       32111040|
|    Cruising Seniors|        1732220|
|Conservative fami...|        6963043|
|      Driven Growers|        5292275|
|Family with grown...|       15237892|
+--------------------+---------------+



In [99]:
df.groupBy('Customer_main_type').agg(F.mean('Avg_Salary')).show()

+--------------------+--------------------+
|  Customer_main_type|     avg(Avg_Salary)|
+--------------------+--------------------+
|             Farmers|  30209.333333333332|
|       Career Loners|             32272.6|
|Retired and Relig...|   27338.80693069307|
|Successful hedonists|1.6278923510309279E7|
|         Living well|  31194.044943820223|
|      Average Family|  104256.62337662338|
|    Cruising Seniors|  28870.333333333332|
|Conservative fami...|  29504.419491525423|
|      Driven Growers|   30769.04069767442|
|Family with grown...|  28114.191881918818|
+--------------------+--------------------+



Иногда просто возникает необходимость отсортировать данные с помощью агрегации или без какой-либо агрегации. Вот где мы можем использовать функциональные возможности 'sort' и 'orderBy' PySpark, чтобы упорядочить данные в определенном порядке, как показано в следующих примерах: 

In [102]:
df.sort("Avg_salary", ascending=False).show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+
| High status seniors|               1|                 2|60-70 years|Successful hedonists|  48919896|    0|
|High Income, expe...|               1|                 2|50-60 years|Successful hedonists|  48177970|    0|
|High Income, expe...|               1|                 2|50-60 years|Successful hedonists|  48069548|    1|
|High Income, expe...|               1|                 3|40-50 years|Successful hedonists|  46911924|    0|
| High status seniors|               1|                 3|40-50 years|Successful hedonists|  46614009|    0|
|High Income, expe...|               1|                 3|30-40 years|Successful hedonists|  45952441|    0|
|High Income, expe.

В некоторых случаях мы также должны собирать список значений для определенных групп или для отдельных категорий. Например, предположим, что клиент заходит в интернет-магазин и получает доступ к различным страницам на веб-сайте магазина. Если мы должны собрать все действия клиента в списке, мы можем использовать функцию сбора в PySpark. Мы можем собирать значения двумя различными способами:

•  Collect List
•  Collect Set

### Collect List
предоставляет все значения в исходном порядке появления (они также могут быть обращены), а Collect Set предоставляет только уникальные значения, как показано в следующем примере. Мы рассматриваем группировку по подтипу клиента и сбор значений числа домов в новом столбце, используя список и набор отдельно.

### Aggregations 

In [109]:
df.groupBy('Customer_subtype').agg(F.avg('Avg_Salary').alias('mean_salary')).orderBy('mean_salary',ascending=False).show(50,False)

+------------------------------------------+--------------------+
|Customer_subtype                          |mean_salary         |
+------------------------------------------+--------------------+
|High status seniors                       |2.507677857894737E7 |
|High Income, expensive child              |2.3839817807692308E7|
|Affluent young families                   |662068.7777777778   |
|Affluent senior apartments                |653638.8235294118   |
|Senior cosmopolitans                      |49903.0             |
|Students in apartments                    |35532.142857142855  |
|Large family farms                        |33135.61538461538   |
|Young, low educated                       |33072.21428571428   |
|Large family, employed child              |32867.857142857145  |
|Suburban youth                            |32558.0             |
|Village families                          |32449.470588235294  |
|Middle class families                     |31579.385245901638  |
|Modern, c

In [112]:
df.groupBy('Customer_subtype').agg(F.avg('Avg_Salary').alias('mean_salary')).orderBy('mean_salary',ascending=False).show(50,False)

+------------------------------------------+--------------------+
|Customer_subtype                          |mean_salary         |
+------------------------------------------+--------------------+
|High status seniors                       |2.507677857894737E7 |
|High Income, expensive child              |2.3839817807692308E7|
|Affluent young families                   |662068.7777777778   |
|Affluent senior apartments                |653638.8235294118   |
|Senior cosmopolitans                      |49903.0             |
|Students in apartments                    |35532.142857142855  |
|Large family farms                        |33135.61538461538   |
|Young, low educated                       |33072.21428571428   |
|Large family, employed child              |32867.857142857145  |
|Suburban youth                            |32558.0             |
|Village families                          |32449.470588235294  |
|Middle class families                     |31579.385245901638  |
|Modern, c

In [113]:
df.groupBy('Customer_subtype').agg(F.max('Avg_Salary').alias('max_salary')).orderBy('max_salary',ascending=False).show()

+--------------------+----------+
|    Customer_subtype|max_salary|
+--------------------+----------+
| High status seniors|  48919896|
|High Income, expe...|  48177970|
|Affluent senior a...|    994077|
|Affluent young fa...|    991838|
|Traditional families|     49965|
|  Large family farms|     49965|
|Middle class fami...|     49932|
|Senior cosmopolitans|     49903|
|Mixed small town ...|     49901|
|Lower class large...|     49899|
|       Mixed seniors|     49876|
|    Young and rising|     49816|
|        Mixed rurals|     49785|
|Modern, complete ...|     49729|
| Young, low educated|     49626|
|Mixed apartment d...|     49621|
|     Family starters|     49602|
|    Village families|     49575|
|Religious elderly...|     49564|
|       Stable family|     49548|
+--------------------+----------+
only showing top 20 rows



In [45]:
### Collect 

In [114]:
# Collect _set 
df.groupby("Customer_subtype").agg(F.collect_set("Number_of_houses")).show()

+--------------------+-----------------------------+
|    Customer_subtype|collect_set(Number_of_houses)|
+--------------------+-----------------------------+
|Large family, emp...|                       [1, 2]|
|Religious elderly...|                       [1, 2]|
|Large religious f...|                       [1, 2]|
|Modern, complete ...|                       [1, 2]|
|    Village families|                       [1, 2]|
|Young all america...|                       [1, 2]|
|Young urban have-...|                       [1, 2]|
|Young seniors in ...|                    [1, 2, 3]|
|Fresh masters in ...|                          [1]|
|High Income, expe...|                          [1]|
|Lower class large...|                       [1, 2]|
| Residential elderly|                    [1, 2, 3]|
|Senior cosmopolitans|                          [3]|
|        Mixed rurals|                          [1]|
|Career and childcare|                       [1, 2]|
|Low income catholics|                        

In [115]:
df2 = spark.createDataFrame([(2,), (5,), (5,), (1,),(2,)], ('age',))
df2.agg(F.collect_set("age")).show()


+----------------+
|collect_set(age)|
+----------------+
|       [1, 5, 2]|
+----------------+



In [48]:
#collect list 
df.groupby("Customer_subtype").agg(F.collect_list("Number_of_houses")).show()

+--------------------+------------------------------+
|    Customer_subtype|collect_list(Number_of_houses)|
+--------------------+------------------------------+
|Large family, emp...|          [2, 1, 2, 1, 2, 1...|
|Religious elderly...|          [1, 1, 1, 1, 1, 1...|
|Large religious f...|          [2, 1, 1, 2, 1, 1...|
|Modern, complete ...|          [1, 1, 2, 1, 1, 1...|
|    Village families|          [1, 1, 1, 1, 1, 1...|
|Young all america...|          [1, 1, 2, 2, 1, 1...|
|Young urban have-...|                  [1, 2, 1, 1]|
|Young seniors in ...|          [1, 1, 1, 1, 1, 2...|
|Fresh masters in ...|                        [1, 1]|
|High Income, expe...|          [1, 1, 1, 1, 1, 1...|
|Lower class large...|          [1, 1, 1, 1, 1, 1...|
| Residential elderly|            [3, 1, 1, 3, 2, 1]|
|Senior cosmopolitans|                           [3]|
|        Mixed rurals|          [1, 1, 1, 1, 1, 1...|
|Career and childcare|          [2, 1, 1, 1, 1, 1...|
|Low income catholics|      

Необходимость в создании нового столбца с постоянным значением может быть очень распространенной. Поэтому мы можем сделать это в PySpark, используя функцию 'lit'. В следующем примере мы создадим новый столбец с постоянным значением:

In [116]:
#creating a new column with constant value

df=df.withColumn('constant',F.lit('finance'))

In [117]:
df.show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+--------+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|constant|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+--------+
|Lower class large...|               1|                 3|30-40 years|Family with grown...|     44905|    0| finance|
|Mixed small town ...|               1|                 2|30-40 years|Family with grown...|     37575|    0| finance|
|Mixed small town ...|               1|                 2|30-40 years|Family with grown...|     27915|    0| finance|
|Modern, complete ...|               1|                 3|40-50 years|      Average Family|     19504|    0| finance|
|  Large family farms|               1|                 4|30-40 years|             Farmers|     34943|    0| finance|
|    Young and rising|               1|                 

In [118]:
df.select('Customer_subtype','constant').show()

+--------------------+--------+
|    Customer_subtype|constant|
+--------------------+--------+
|Lower class large...| finance|
|Mixed small town ...| finance|
|Mixed small town ...| finance|
|Modern, complete ...| finance|
|  Large family farms| finance|
|    Young and rising| finance|
|Large religious f...| finance|
|Lower class large...| finance|
|Lower class large...| finance|
|     Family starters| finance|
|       Stable family| finance|
|Modern, complete ...| finance|
|Lower class large...| finance|
|        Mixed rurals| finance|
|    Young and rising| finance|
|Lower class large...| finance|
|Traditional families| finance|
|Mixed apartment d...| finance|
|Young all america...| finance|
|Low income catholics| finance|
+--------------------+--------+
only showing top 20 rows



Поскольку мы имеем дело с фреймами данных, то обычно требуется применить определенные пользовательские функции к определенным столбцам и получить выходные данные. Поэтому мы используем UDFs, чтобы применить функции Python к одному или нескольким столбцам.

### Определяемые Пользователем Функции (UDFs)

В этом примере мы пытаемся назвать возрастные категории и создать стандартную функцию Python (age_category). Чтобы применить это к фрейму данных Spark, мы создаем объект UDF, используя этот Python функция. Единственное требование-указать тип возвращаемого значения функции. В этом случае это просто строковое значение.

In [52]:
### UDFs

In [119]:
df.groupby("Avg_age").count().show()

+-----------+-----+
|    Avg_age|count|
+-----------+-----+
|70-80 years|    8|
|50-60 years|  373|
|30-40 years|  496|
|20-30 years|   31|
|60-70 years|   64|
|40-50 years| 1028|
+-----------+-----+



In [121]:
#create a function to assign categories
def age_category(age):
    if age  == '20-30 years':
        return 'Young'
    elif age== '30-40 years':
        return 'Mid Aged' 
    elif ((age== '40-50 years') or (age== '50-60 years')) :
        return 'Old'
    else:
        return 'Very Old'



In [122]:
from pyspark.sql.functions import udf

In [123]:
#create age category udf 
age_udf=udf(age_category,StringType())
#create the bucket column by applying udf
df=df.withColumn('age_category',age_udf(df['Avg_age']))

In [124]:
df.select('Avg_age','age_category').show()

+-----------+------------+
|    Avg_age|age_category|
+-----------+------------+
|30-40 years|    Mid Aged|
|30-40 years|    Mid Aged|
|30-40 years|    Mid Aged|
|40-50 years|         Old|
|30-40 years|    Mid Aged|
|20-30 years|       Young|
|30-40 years|    Mid Aged|
|40-50 years|         Old|
|50-60 years|         Old|
|40-50 years|         Old|
|40-50 years|         Old|
|40-50 years|         Old|
|40-50 years|         Old|
|40-50 years|         Old|
|30-40 years|    Mid Aged|
|40-50 years|         Old|
|40-50 years|         Old|
|40-50 years|         Old|
|30-40 years|    Mid Aged|
|50-60 years|         Old|
+-----------+------------+
only showing top 20 rows



In [125]:
df.groupby("age_category").count().show()

+------------+-----+
|age_category|count|
+------------+-----+
|    Mid Aged|  496|
|    Very Old|   72|
|         Old| 1401|
|       Young|   31|
+------------+-----+



Pandas UDFs гораздо быстрее и эффективнее, с точки зрения обработки и времени выполнения, по сравнению со стандартными Python UDFs. Основное различие между обычным Python UDF и Pandas UDF заключается в том, что Python UDF выполняется строка за строкой и, следовательно, действительно не предлагает преимущества распределенной платформы. Это может занять больше времени, по сравнению с Pandas UDF, который выполняет блок за блоком и дает более быстрые результаты. Существует три различных типа Pandas UDF:  scalar, grouped map, and grouped agg. Единственное различие в использовании Pandas UDF по сравнению с традиционным UDF заключается в объявлении. В следующем примере мы пытаемся масштабировать значения Avg_Salary, применяя масштабирование. Мы сначала берем минимальное и максимальное значения Avg_Salary, вычитаем из каждого значения минимальную зарплату из каждого значения, а затем делим на разницу между max и min.

In [126]:
df.select('Avg_Salary').summary().show()

+-------+-----------------+
|summary|       Avg_Salary|
+-------+-----------------+
|  count|             2000|
|   mean|     1616908.0835|
| stddev|6822647.757312146|
|    min|             1361|
|    25%|            20315|
|    50%|            31421|
|    75%|            42949|
|    max|         48919896|
+-------+-----------------+



In [133]:
min_sal=1361
max_sal=48919896

In [134]:
### Pandas udf 
from pyspark.sql.functions import pandas_udf, PandasUDFType

def scaled_salary(salary):
    scaled_sal=(salary-min_sal)/(max_sal-min_sal)
    return scaled_sal

In [128]:
#!pip install pandas

In [131]:
!pip install pyarrow

Collecting pyarrow
  Downloading pyarrow-10.0.1-cp39-cp39-win_amd64.whl (20.3 MB)
Installing collected packages: pyarrow
Successfully installed pyarrow-10.0.1


In [135]:
scaling_udf = pandas_udf(scaled_salary, DoubleType())
df.withColumn("scaled_salary", scaling_udf(df['Avg_Salary'])).show(10,False)



+--------------------------+----------------+------------------+-----------+---------------------+----------+-----+--------+------------+---------------------+
|Customer_subtype          |Number_of_houses|Avg_size_household|Avg_age    |Customer_main_type   |Avg_Salary|label|constant|age_category|scaled_salary        |
+--------------------------+----------------+------------------+-----------+---------------------+----------+-----+--------+------------+---------------------+
|Lower class large families|1               |3                 |30-40 years|Family with grown ups|44905     |0    |finance |Mid Aged    |8.901329526732557E-4 |
|Mixed small town dwellers |1               |2                 |30-40 years|Family with grown ups|37575     |0    |finance |Mid Aged    |7.40291997705982E-4  |
|Mixed small town dwellers |1               |2                 |30-40 years|Family with grown ups|27915     |0    |finance |Mid Aged    |5.42820834679534E-4  |
|Modern, complete families |1           

Это то, как мы можем использовать как обычные, так и Pandas UDFs для применения различных условий на фрейме данных, по мере необходимости.

### Присоединение ( Joins)

Объединение различных наборов данных является очень общим требованием, присутствующим в большинстве конвейеров обработки данных в мире больших данных. PySpark предлагает очень удобный способ объединить и повернуть ваши значения фрейма данных, по мере необходимости. В следующем примере мы создадим искусственный фрейм данных с некоторыми фиктивные значения кодов регионов для всех типов клиентов. Идея заключается в том, чтобы объединить этот фрейм данных с исходным фреймом данных, чтобы иметь эти коды регионов как часть исходного фрейма данных, как столбец.

In [136]:
df.groupby("Customer_main_type").count().show(50,False)

+---------------------+-----+
|Customer_main_type   |count|
+---------------------+-----+
|Farmers              |93   |
|Career Loners        |15   |
|Retired and Religious|202  |
|Successful hedonists |194  |
|Living well          |178  |
|Average Family       |308  |
|Cruising Seniors     |60   |
|Conservative families|236  |
|Driven Growers       |172  |
|Family with grown ups|542  |
+---------------------+-----+



In [138]:
df.show(10, False)

+--------------------------+----------------+------------------+-----------+---------------------+----------+-----+--------+------------+
|Customer_subtype          |Number_of_houses|Avg_size_household|Avg_age    |Customer_main_type   |Avg_Salary|label|constant|age_category|
+--------------------------+----------------+------------------+-----------+---------------------+----------+-----+--------+------------+
|Lower class large families|1               |3                 |30-40 years|Family with grown ups|44905     |0    |finance |Mid Aged    |
|Mixed small town dwellers |1               |2                 |30-40 years|Family with grown ups|37575     |0    |finance |Mid Aged    |
|Mixed small town dwellers |1               |2                 |30-40 years|Family with grown ups|27915     |0    |finance |Mid Aged    |
|Modern, complete families |1               |3                 |40-50 years|Average Family       |19504     |0    |finance |Old         |
|Large family farms        |1     

In [139]:
region_data = spark.createDataFrame([('Family with grown ups','PN'),
                                    ('Driven Growers','GJ'),
                                    ('Conservative families','DD'),
                                    ('Cruising Seniors','DL'),
                                    ('Average Family ','MN'),
                                    ('Living well','KA'),
                                    ('Successful hedonists','JH'),
                                    ('Retired and Religious','AX'),
                                   ('Career Loners','HY'),('Farmers','JH')],schema=StructType().add("Customer_main_type","string").add("Region Code","string"))

In [142]:
region_data.show(10,False)

+---------------------+-----------+
|Customer_main_type   |Region Code|
+---------------------+-----------+
|Family with grown ups|PN         |
|Driven Growers       |GJ         |
|Conservative families|DD         |
|Cruising Seniors     |DL         |
|Average Family       |MN         |
|Living well          |KA         |
|Successful hedonists |JH         |
|Retired and Religious|AX         |
|Career Loners        |HY         |
|Farmers              |JH         |
+---------------------+-----------+



In [143]:

new_df=df.join(region_data,on='Customer_main_type')



In [144]:
new_df.groupby("Region Code").count().show(50,False)

+-----------+-----+
|Region Code|count|
+-----------+-----+
|PN         |542  |
|GJ         |172  |
|DD         |236  |
|DL         |60   |
|KA         |178  |
|JH         |287  |
|AX         |202  |
|HY         |15   |
+-----------+-----+



In [147]:
new_df.show(10, False)

+---------------------+------------------------------------------+----------------+------------------+-----------+----------+-----+--------+------------+-----------+
|Customer_main_type   |Customer_subtype                          |Number_of_houses|Avg_size_household|Avg_age    |Avg_Salary|label|constant|age_category|Region Code|
+---------------------+------------------------------------------+----------------+------------------+-----------+----------+-----+--------+------------+-----------+
|Family with grown ups|Lower class large families                |1               |2                 |40-50 years|25596     |0    |finance |Old         |PN         |
|Family with grown ups|Mixed small town dwellers                 |1               |2                 |40-50 years|26579     |0    |finance |Old         |PN         |
|Family with grown ups|Lower class large families                |1               |4                 |30-40 years|33537     |0    |finance |Mid Aged    |PN         |
|Fam

Мы взяли счетчик регионов после объединения исходного фрейма данных (df) с вновь созданным фреймом данных региона в столбце Customer_main_type.

### Вращение

Мы можем использовать функцию pivot в PySpark для простого создания сводного представления фрейма данных для конкретных столбцов, как показано в следующем примере. Здесь мы группируем данные, основываясь на типе клиента. Столбцы представляют различные возрастные группы. Значения внутри сводной таблицы представляют собой сумму средней заработной платы по каждой из этих категорий типов клиентов для определенной возрастной группы. Мы также гарантируем, что нет никаких нулей или пустых значений, заполняя все нулевые значения 0. В следующем примере мы создадим еще одну сводную таблицу, используя столбец label и возьмем сумму средней заработной платы в качестве значений внутри нее.

In [152]:
df.groupBy('Customer_main_type').pivot('Avg_age').avg('Avg_salary').fillna(0).show()

+--------------------+------------------+--------------------+--------------------+--------------------+------------------+-----------+
|  Customer_main_type|       20-30 years|         30-40 years|         40-50 years|         50-60 years|       60-70 years|70-80 years|
+--------------------+------------------+--------------------+--------------------+--------------------+------------------+-----------+
|             Farmers|               0.0|   33001.92857142857|  28608.943661971833|            39525.75|               0.0|        0.0|
|       Career Loners|           28799.6|             35327.8|             25701.0|  35064.333333333336|           32558.0|        0.0|
|Retired and Relig...|           25270.0|  22442.066666666666|  28886.077669902912|  25189.716417910447|           33535.7|    30562.0|
|Successful hedonists|           42261.0|1.0075221411764706E7|1.6311504186666667E7|1.6989909510869566E7|    2.5042516125E7|    15518.0|
|         Living well|27089.882352941175|  31213

In [157]:
df.groupBy('Customer_main_type').pivot('Avg_age').mean('Avg_salary').fillna(0).show() 

+--------------------+------------------+--------------------+--------------------+--------------------+------------------+-----------+
|  Customer_main_type|       20-30 years|         30-40 years|         40-50 years|         50-60 years|       60-70 years|70-80 years|
+--------------------+------------------+--------------------+--------------------+--------------------+------------------+-----------+
|             Farmers|               0.0|   33001.92857142857|  28608.943661971833|            39525.75|               0.0|        0.0|
|       Career Loners|           28799.6|             35327.8|             25701.0|  35064.333333333336|           32558.0|        0.0|
|Retired and Relig...|           25270.0|  22442.066666666666|  28886.077669902912|  25189.716417910447|           33535.7|    30562.0|
|Successful hedonists|           42261.0|1.0075221411764706E7|1.6311504186666667E7|1.6989909510869566E7|    2.5042516125E7|    15518.0|
|         Living well|27089.882352941175|  31213

In [71]:
df.groupBy('Customer_main_type').pivot('label').sum('Avg_salary').fillna(0).show()

+--------------------+----------+---------+
|  Customer_main_type|         0|        1|
+--------------------+----------+---------+
|             Farmers|   2734832|    74636|
|       Career Loners|    484089|        0|
|Retired and Relig...|   5328410|   194029|
|Successful hedonists|2720381462|437729699|
|         Living well|   5453384|    99156|
|      Average Family|  26036999|  6074041|
|    Cruising Seniors|   1675841|    56379|
|Conservative fami...|   6595027|   368016|
|      Driven Growers|   4492465|   799810|
|Family with grown...|  14394094|   843798|
+--------------------+----------+---------+



Мы разделили данные, основываясь на столбце Customer_main_type, и взяли совокупную сумму средней зарплаты каждого из значений метки (0, 1), используя функцию pivot.

### Window Operations 

Эта функция в PySpark позволяет выполнять определенные операции с группами записей, известными как " внутри окна."Он вычисляет результаты для каждой строки в окне. Классический пример использования окна-это различные агрегации для пользователя во время различных сеансов. Посетитель мог бы имейть несколько сеансов на определенном веб-сайте и, следовательно, окно может быть использовано для подсчета общей активности пользователя во время каждого сеанса. PySpark поддерживает три типа оконных функций:

•  Aggregations
•  Ranking
•  Analytics

В следующем примере мы импортируем функцию окна, в дополнение к другим, таким как номер строки. Следующим шагом является определение окна. Иногда это может быть просто упорядоченный столбец, а иногда он может быть основан на определенных категориях внутри столбца. Мы увидим примеры каждого из них. В первом примере мы определяем окно, которое просто основано на отсортированном столбце средняя зарплата, и мы ранжируем эти зарплаты. Мы создаем новый столбец "ранг" и присваиваем ранги каждому из значений средней заработной платы.

In [72]:
## Ranking 

In [168]:
from pyspark.sql.window import Window
from pyspark.sql.functions import udf,rank, col,row_number

In [169]:
#create a window function to order the relevant column( Avg Salary)
win = Window.orderBy(df['Avg_Salary'].desc())

In [166]:
#create a additonal column with row numbers as rank
df=df.withColumn('rank', row_number().over(win).alias('rank'))

In [171]:
df.show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+--------+------------+----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|constant|age_category|rank|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+--------+------------+----+
| High status seniors|               1|                 2|60-70 years|Successful hedonists|  48919896|    0| finance|    Very Old|   1|
|High Income, expe...|               1|                 2|50-60 years|Successful hedonists|  48177970|    0| finance|         Old|   2|
|High Income, expe...|               1|                 2|50-60 years|Successful hedonists|  48069548|    1| finance|         Old|   3|
|High Income, expe...|               1|                 3|40-50 years|Successful hedonists|  46911924|    0| finance|         Old|   4|
| High status seniors|               1|         

Одним из распространенных требований является поиск первых трех значений из категории. В этом случае окно может быть использовано для получения результатов. В следующем примере мы определяем окно и секцию по столбцу подтип клиента. В основном, то, что он делает,-это сортировка средней заработной платы для каждой из категорий подтипов клиентов, поэтому теперь мы можем использовать фильтр для извлечения трех лучших значений заработной платы для каждой группы.

In [172]:
# Ranking groupwise 
#create a window function to order the relevant column( Avg Salary)
win_1 = Window.partitionBy("Customer_subtype").orderBy(df['Avg_Salary'].desc())

In [173]:
#create a additonal column with row numbers as rank
df=df.withColumn('rank', row_number().over(win_1).alias('rank'))

Теперь, когда у нас есть новый столбец rank, состоящий из ранга или каждой категории Customer_subtype, мы можем легко фильтровать верхние три ранга для каждой категории.

In [174]:
df.groupBy('rank').count().orderBy('rank').show()

+----+-----+
|rank|count|
+----+-----+
|   1|   39|
|   2|   37|
|   3|   36|
|   4|   36|
|   5|   34|
|   6|   34|
|   7|   32|
|   8|   31|
|   9|   31|
|  10|   31|
|  11|   31|
|  12|   31|
|  13|   31|
|  14|   31|
|  15|   31|
|  16|   30|
|  17|   30|
|  18|   27|
|  19|   27|
|  20|   27|
+----+-----+
only showing top 20 rows



In [175]:
# filter top 3 customers from every group
df.filter(col('rank') < 4).show()

+--------------------+----------------+------------------+-----------+--------------------+----------+-----+--------+------------+----+
|    Customer_subtype|Number_of_houses|Avg_size_household|    Avg_age|  Customer_main_type|Avg_Salary|label|constant|age_category|rank|
+--------------------+----------------+------------------+-----------+--------------------+----------+-----+--------+------------+----+
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    994077|    0| finance|         Old|   1|
|Affluent senior a...|               1|                 2|50-60 years|Successful hedonists|    983051|    0| finance|         Old|   2|
|Affluent senior a...|               3|                 2|50-60 years|Successful hedonists|    944444|    0| finance|         Old|   3|
|Affluent young fa...|               1|                 3|30-40 years|      Average Family|    991838|    0| finance|    Mid Aged|   1|
|Affluent young fa...|               1|         

---

In [81]:
from pyspark.mllib.regression import LabeledPoint
from pyspark.mllib.tree import RandomForest

data = [
    LabeledPoint(0.0, [0.0]),
    LabeledPoint(0.0, [1.0]),
    LabeledPoint(1.0, [2.0]),
    LabeledPoint(1.0, [3.0])
]
model = RandomForest.trainClassifier(spark.sparkContext.parallelize(data), 2, {}, 3, seed=42)
model.numTrees()

model.totalNumNodes()
print(model)
print(model.toDebugString())
model.predict([2.0])
model.predict([0.0])
rdd = spark.sparkContext.parallelize([[3.0], [1.0]])
model.predict(rdd).collect()

TreeEnsembleModel classifier with 3 trees

TreeEnsembleModel classifier with 3 trees

  Tree 0:
    If (feature 0 <= 1.5)
     Predict: 0.0
    Else (feature 0 > 1.5)
     Predict: 1.0
  Tree 1:
    If (feature 0 <= 1.5)
     Predict: 0.0
    Else (feature 0 > 1.5)
     Predict: 1.0
  Tree 2:
    If (feature 0 <= 1.5)
     Predict: 0.0
    Else (feature 0 > 1.5)
     Predict: 1.0



[1.0, 0.0]

---

[ML](https://spark.apache.org/docs/latest/ml-classification-regression.htm)

In [58]:
from pyspark.ml import Pipeline
from pyspark.ml.classification import RandomForestClassifier
from pyspark.ml.feature import IndexToString, StringIndexer, VectorIndexer
from pyspark.ml.evaluation import MulticlassClassificationEvaluator

# Load and parse the data file, converting it to a DataFrame.
data = spark.read.format("libsvm").load("data/mllib/sample_libsvm_data.txt")

# Index labels, adding metadata to the label column.
# Fit on whole dataset to include all labels in index.
labelIndexer = StringIndexer(inputCol="label", outputCol="indexedLabel").fit(data)

# Automatically identify categorical features, and index them.
# Set maxCategories so features with > 4 distinct values are treated as continuous.
featureIndexer =\
    VectorIndexer(inputCol="features", outputCol="indexedFeatures", maxCategories=4).fit(data)

# Split the data into training and test sets (30% held out for testing)
(trainingData, testData) = data.randomSplit([0.7, 0.3])

# Train a RandomForest model.
rf = RandomForestClassifier(labelCol="indexedLabel", featuresCol="indexedFeatures", numTrees=10)

# Convert indexed labels back to original labels.
labelConverter = IndexToString(inputCol="prediction", outputCol="predictedLabel",
                               labels=labelIndexer.labels)

# Chain indexers and forest in a Pipeline
pipeline = Pipeline(stages=[labelIndexer, featureIndexer, rf, labelConverter])

# Train model.  This also runs the indexers.
model = pipeline.fit(trainingData)

# Make predictions.
predictions = model.transform(testData)

# Select example rows to display.
predictions.select("predictedLabel", "label", "features").show(5)

# Select (prediction, true label) and compute test error
evaluator = MulticlassClassificationEvaluator(
    labelCol="indexedLabel", predictionCol="prediction", metricName="accuracy")
accuracy = evaluator.evaluate(predictions)
print("Test Error = %g" % (1.0 - accuracy))

rfModel = model.stages[2]
print(rfModel)  # summary only

AnalysisException: Path does not exist: file:/e:/Курсы по питону для преподования/Курсы по DS/курсы Беспальцев/уроки/Урок 33 Работа с большими данными ч2/data/mllib/sample_libsvm_data.txt