
<center><font size="6"><b>Комп'ютерний практикум 4.

 Основи PySpark: обробка даних DataFrame</b></font></center>


***

<center><img src="https://media.licdn.com/dms/image/v2/C4E12AQEb6oxAxtYD-Q/article-cover_image-shrink_600_2000/article-cover_image-shrink_600_2000/0/1620420835464?e=2147483647&v=beta&t=EWVtIY_UWl1XNucKkGMrn6ooEuwOBaQ313Z1TarbZgk" width="400"></center>


**PySpark** — це інтерфейс для використання **Apache Spark** з мовою програмування **Python**.

**Apache Spark** — це потужний фреймворк для розподіленої обробки пакетних даних у кластері. PySpark надає Python API для інтеграції цих можливостей.

### Основні особливості PySpark:

1. **Обробка великих даних**: PySpark дозволяє обробляти великі набори даних розподілено на кількох вузлах у кластері, використовуючи потужні обчислювальні кластери, що пришвидшує виконання операцій.
   
2. **API для Python**: PySpark надає простий API для роботи з даними, який включає операції над RDD (Resilient Distributed Datasets), DataFrames, SQL, та Machine Learning.

3. **Інструменти для обробки даних у реальному часі**: PySpark підтримує обробку даних у потоковому режимі через модуль **Spark Streaming**.

4. **Машинне навчання**: PySpark включає бібліотеку для машинного навчання (MLlib), що дозволяє виконувати завдання класифікації, кластеризації, регресії та зниження розмірності.

### Використання:
- PySpark активно використовується для ___ETL-процесів___, де необхідно обробляти великі обсяги даних.
- Використовується для ___аналітики___ та ___машинного навчання___ на масштабних даних.
- Є популярним інструментом в середовищах ___Big Data___, таких як Amazon EMR, Google Dataproc та Microsoft Azure HDInsight.

PySpark робить можливим використання простоти Python для роботи з великими даними в Apache Spark, що забезпечує гнучкість і масштабованість обчислень.




> __Spark SQL__ - це модуль Spark для обробки структурованих даних. Він призначений для запитів до структурованих даних у програмах Spark, використовуючи або SQL, або знайомий API DataFrame.


In [1]:
# Встановлюємо необхідні пакети
! pip install pyspark
! pip install findspark
! pip install pyarrow pandas



In [2]:
# імпорт допоміжної бібліотеки для організації правильного шляху до Spark
import findspark
findspark.init()

Для роботи з **Apache Spark** у Python через бібліотеку **PySpark** необхідно імпортувати наступні модулі

**`SparkContext`**:
   - Це об'єкт, який є точкою входу в функціональні можливості Spark. Він представляє з'єднання програми зі **Spark кластером** (або локальним екземпляром Spark).
   - `SparkContext` використовується для створення **RDD (Resilient Distributed Dataset)**, а також для взаємодії зі Spark API. Він керує роботою і розподілом завдань між вузлами кластера.
   - У сучасних версіях Spark, `SparkContext` зазвичай створюється автоматично всередині **`SparkSession`**, тому його часто не потрібно ініціалізувати окремо, якщо використовується `SparkSession`.

**`SparkConf`**:
   - `SparkConf` дозволяє налаштувати параметри роботи Spark-додатка, такі як ім'я додатка, кількість ядер, кількість пам'яті тощо. Об'єкт `SparkConf` при створенні передається `SparkContext` або `SparkSession`, щоб визначити, як додаток повинен працювати.
   - Це спосіб налаштувати специфічні параметри роботи Spark на рівні додатку.

**`SparkSession`**:
   - Це вищий рівень абстракції, який був введений у Spark 2.0. `SparkSession` об'єднує всі попередні функціональні можливості **SparkContext**, **SQLContext** і **HiveContext** в одному об'єкті. Це єдина точка входу для роботи з різними компонентами Spark (RDD, DataFrame, SQL-запити).
   - `SparkSession` також використовується для роботи з **DataFrame**, SQL-запитами та інтеграції з іншими компонентами, такими як **Spark SQL**, **Streaming**, **MLlib** та **GraphX**.
> **Основні можливості `SparkSession`**:
   - Робота з `DataFrame` та SQL-запитами.
   - Використання `Spark SQL` для взаємодії з даними у стилі SQL.
   - Створення і керування RDD.
   - Інтеграція з різними джерелами даних (HDFS, Cassandra, S3 та ін.).

### Коли використовувати?

- **`SparkContext`**: Якщо ви працюєте зі **старими версіями Spark** або хочете безпосередньо взаємодіяти з RDD.
- **`SparkSession`**: У більшості сучасних додатків, починаючи з **Spark 2.0**, рекомендовано використовувати **SparkSession** для створення та керування всіма обчислювальними компонентами (DataFrame, SQL-запити та RDD).


In [3]:
#імпорт бібліотек та модулів

import pandas as pd
from pyspark import SparkContext, SparkConf
from pyspark.sql import SparkSession

## Створення Spark сесії

- `.builder` - це спосіб налаштувати і створити `SparkSession`, який є головним об'єктом у сучасних версіях Spark
- `.appName("name")` задає ім'я програми Spark для ідентифікації додатку під час його роботи в кластері або в локальному середовищі
- `.config()` -  метод дозволяє передавати додаткові конфігураційні параметри для Spark
- `.getOrCreate()` - метод або створює новий об'єкт `SparkSession`, або повертає вже існуючий, якщо такий є.

In [4]:
# Створення об'єкту spark context class (не обов'язково)
sc = SparkContext()

# Створення spark session

spark = SparkSession \
    .builder \
    .appName("My_Spark_basic") \
    .config("spark.some.config.option", "some-value") \
    .getOrCreate()

24/10/26 11:07:36 WARN Utils: Your hostname, ubuntu-server resolves to a loopback address: 127.0.1.1; using 192.168.50.183 instead (on interface eno1)
24/10/26 11:07:36 WARN Utils: Set SPARK_LOCAL_IP if you need to bind to another address
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).
24/10/26 11:07:37 WARN NativeCodeLoader: Unable to load native-hadoop library for your platform... using builtin-java classes where applicable


In [5]:
# Для роботи з датафреймами необхідно переконатися, що екземпляр сеансу spark створено.
spark

## Завантаження даних

> Для завантаження даних спочатку імпортується CSV-файл у таблицю даних `Pandas`, а потім передається в таблицю даних `Spark`

Для створення фрейму даних `Spark` завантажуємо зовнішній фрейм даних, який називається `mtcars`. Цей фрейм даних містить 32 спостереження та 11 змінних:

| colIndex | colName | units/description |
| :---: | :--- | :--- |
|[, 1] | mpg |Miles per gallon  |
|[, 2] | cyl | Number of cylinders  |
|[, 3] | disp | Displacement (cu.in.) |  
|[, 4] | hp  | Gross horsepower  |
|[, 5] | drat | Rear axle ratio  |
|[, 6] | wt | Weight (lb/1000)  |
|[, 7] | qsec | 1/4 mile time  |
|[, 8] | vs  | V/S  |
|[, 9] | am | Transmission (0 = automatic, 1 = manual)  |
|[,10] | gear | Number of forward gears  |
|[,11] | carb | Number of carburetors |


In [6]:
# Використаємо `read_csv` з pandas для завантаження датасету
mtcars = pd.read_csv('https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBM-BD0225EN-SkillsNetwork/labs/data/mtcars.csv')

In [7]:
# Перегляд датасету
mtcars.head()

Unnamed: 0.1,Unnamed: 0,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


In [8]:
# переіменуємо перший стовпчик
mtcars.rename( columns={'Unnamed: 0':'name'}, inplace=True )

> Функція `createDataFrame` завантажує дані в spark dataframe


In [9]:
sdf = spark.createDataFrame(mtcars)

> Метод **`printSchema()`** використовується для виведення **схеми** (структури) **DataFrame** у Spark.

**Схема** — це структура **DataFrame**, яка визначає назви стовпців і типи даних у цих стовпцях (наприклад, `StringType`, `IntegerType`, `DoubleType` і т.д.). Ця структура дозволяє знати, які дані містить DataFrame та в якому форматі вони зберігаються.

Використовується щоб перевірити структуру даних у DataFrame перед виконанням операцій та для верифікації того, що типи даних і назви стовпців вірні, особливо якщо дані із зовнішніх джерел (файли CSV, бази даних тощо).

In [10]:
sdf.printSchema()

root
 |-- name: string (nullable = true)
 |-- mpg: double (nullable = true)
 |-- cyl: long (nullable = true)
 |-- disp: double (nullable = true)
 |-- hp: long (nullable = true)
 |-- drat: double (nullable = true)
 |-- wt: double (nullable = true)
 |-- qsec: double (nullable = true)
 |-- vs: long (nullable = true)
 |-- am: long (nullable = true)
 |-- gear: long (nullable = true)
 |-- carb: long (nullable = true)



> Функція `withColumnRenamed()` перейменовує існуючі назви стовпців.  


In [11]:
#Переіменовуємо назву стовпця «vs» на «versus» і зберігаємо зміни в новий DataFrame  «sdf_new».
sdf_new = sdf.withColumnRenamed("vs", "versus")

In [12]:
sdf_new.head()

Row(name='Mazda RX4', mpg=21.0, cyl=6, disp=160.0, hp=110, drat=3.9, wt=2.62, qsec=16.46, versus=0, am=1, gear=4, carb=4)

## Створення тимчасової таблиці (Table View/табличне представлення)
Створення табличного представлення в Spark SQL необхідне для програмного запуску SQL запитів для DataFrame. Представлення - це тимчасова таблиця для виконання SQL запитів, яке забезпечує локальну область видимості в межах поточного сеансу Spark за допомогою функції `createTempView()`.

In [13]:
sdf.createTempView("cars")

У `PySpark` для роботи з `DataFrame` часто використовують методи, схожі на SQL-запити.

__<center>Таблиця основних SQL-запитів та їх еквівалентів у PySpark:</center>__

| **SQL Запит**               | **PySpark (DataFrame API)**                                              | **Опис**                                      |
|-----------------------------|---------------------------------------------------------------------------|-----------------------------------------------|
| **SELECT**                   | `df.select("column1", "column2")`                                         | Вибір конкретних колонок                     |
| **WHERE**                    | `df.filter(df["column"] == value)`                                        | Фільтрація рядків за умовою                   |
| **AND / OR**                 | `df.filter((df["col1"] == val1) & (df["col2"] == val2))`                  | Використання логічних операторів              |
| **ORDER BY**                 | `df.orderBy("column", ascending=False)`                                   | Сортування за колонкою                       |
| **GROUP BY**                 | `df.groupBy("column").agg({"column": "sum"})`                             | Групування даних і агрегація                  |
| **HAVING**                   | `df.groupBy("column").agg({"column": "sum"}).filter("sum(column) > value")` | Фільтрація результатів після групування       |
| **JOIN**                     | `df1.join(df2, df1["id"] == df2["id"], "inner")`                          | Об'єднання двох DataFrame                     |
| **LIMIT**                    | `df.limit(10)`                                                           | Обмеження кількості рядків                   |
| **DISTINCT**                 | `df.select("column").distinct()`                                          | Вибір унікальних значень                     |
| **COUNT**                    | `df.count()`                                                             | Підрахунок кількості рядків                  |
| **SUM**                      | `df.groupBy().sum("column")`                                              | Підсумовування значень у колонці             |
| **AVG (Середнє значення)**   | `df.groupBy().avg("column")`                                              | Обчислення середнього значення               |
| **MAX (Максимум)**           | `df.groupBy().max("column")`                                              | Визначення максимального значення            |
| **MIN (Мінімум)**            | `df.groupBy().min("column")`                                              | Визначення мінімального значення             |
| **WITH ALIAS (Псевдоніми)**  | `df.select(df["column"].alias("new_name"))`                               | Присвоєння псевдонімів для колонок           |
| **INNER JOIN**               | `df1.join(df2, df1["id"] == df2["id"], "inner")`                          | Внутрішнє об'єднання                         |
| **LEFT JOIN**                | `df1.join(df2, df1["id"] == df2["id"], "left")`                           | Ліве об'єднання                              |
| **RIGHT JOIN**               | `df1.join(df2, df1["id"] == df2["id"], "right")`                          | Праве об'єднання                             |
| **FULL OUTER JOIN**          | `df1.join(df2, df1["id"] == df2["id"], "outer")`                          | Повне зовнішнє об'єднання                    |
| **UNION**                    | `df1.union(df2)`                                                         | Об'єднання двох DataFrame (без дублікатів)   |
| **UNION ALL**                | `df1.unionAll(df2)`                                                      | Об'єднання двох DataFrame (з дублікатами)    |



> `spark.sql` — це метод у **PySpark**, який дозволяє виконувати **SQL-запити** безпосередньо на **DataFrame**. Він використовується для інтеграції SQL з PySpark, дозволяючи працювати з великими даними у знайомому форматі SQL-запитів.

1. **Створення тимчасової таблиці**: Це дозволяє звертатися до цього DataFrame в SQL-запитах, як до таблиці в базі даних.
   
2. **Виконання SQL-запитів**: Після створення тимчасової таблиці можна виконувати SQL-запити з використанням методу `spark.sql()`. Цей метод повертає результат як новий DataFrame.

*Синтаксис*
```python
spark.sql("SQL-запит")
```
### Переваги використання `spark.sql`:
1. **Знайомий синтаксис**: SQL-запити.
2. **Масштабованість**: SQL-запити, виконані через `spark.sql`, можуть працювати з великими наборами даних, розподіленими в кластері.
3. **Гнучкість**: Можна комбінувати SQL із методами DataFrame API для виконання складних обчислень.

`spark.sql` — це потужний інструмент у PySpark, який дозволяє використовувати SQL-запити для обробки великих даних. Він надає гнучкість у використанні стандартного SQL-синтаксису для вибірок, агрегацій та інших операцій на великих наборах даних, що зберігаються в Spark DataFrame.

In [14]:
# Вивід всієї таблиці даних
spark.sql("SELECT * FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1|  0|   4|   2|
|           Merc 230|22.8|  4|140.8| 95|3.92| 3.15| 22.9|  1|  0|   4|   2|
|           Merc 280|19.2|  6|167.6|123|3.92| 3.44| 18.3|  1|  0|   4|   4|
|          M

In [15]:
# Вибір змінної mpg
spark.sql("SELECT mpg FROM cars").show(5)

+----+
| mpg|
+----+
|21.0|
|21.0|
|22.8|
|21.4|
|18.7|
+----+
only showing top 5 rows



In [16]:
# Запит для визначення автомобілів з великим пробігом і малою кількістю циліндрів
spark.sql("SELECT * FROM cars where mpg > 15 AND cyl < 6").show(5)

+-----------+----+---+-----+---+----+-----+-----+---+---+----+----+
|       name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|
+-----------+----+---+-----+---+----+-----+-----+---+---+----+----+
| Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|
|  Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1|  0|   4|   2|
|   Merc 230|22.8|  4|140.8| 95|3.92| 3.15| 22.9|  1|  0|   4|   2|
|   Fiat 128|32.4|  4| 78.7| 66|4.08|  2.2|19.47|  1|  1|   4|   1|
|Honda Civic|30.4|  4| 75.7| 52|4.93|1.615|18.52|  1|  1|   4|   2|
+-----------+----+---+-----+---+----+-----+-----+---+---+----+----+
only showing top 5 rows



In [17]:
# Авто, які мають витрати палива менше 15 миль на галон
sdf.where(sdf['mpg'] < 15).show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|
| Cadillac Fleetwood|10.4|  8|472.0|205|2.93| 5.25|17.98|  0|  0|   3|   4|
|Lincoln Continental|10.4|  8|460.0|215| 3.0|5.424|17.82|  0|  0|   3|   4|
|  Chrysler Imperial|14.7|  8|440.0|230|3.23|5.345|17.42|  0|  0|   3|   4|
|         Camaro Z28|13.3|  8|350.0|245|3.73| 3.84|15.41|  0|  0|   3|   4|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+



In [18]:
# Агрегація даних та групування за циліндрами
spark.sql("SELECT count(*), cyl from cars GROUP BY cyl").show()

+--------+---+
|count(1)|cyl|
+--------+---+
|       7|  6|
|      11|  4|
|      14|  8|
+--------+---+



## Створення Pandas UDF

**Pandas UDF (User Defined Functions)** в **PySpark** — це користувацькі функції, які використовують бібліотеку **Pandas** для обробки даних. Pandas UDF дозволяють застосовувати **функції на рівні Python** з використанням можливостей векторизації Pandas і при цьому підтримують **розподілені обчислення** у Spark.

**UDF (User Defined Function)** — це користувацька функція, яку можна застосувати до даних в Spark для виконання специфічних операцій. Стандартні UDF у PySpark використовують звичайні Python-функції, що може бути повільним для великих даних, оскільки обробка йде рядок за рядком.
  
**Pandas UDF** (також називають **Vectorized UDF**) працюють на рівні **векторів** (або серій Pandas), що дозволяє Spark працювати з ними значно швидше, завдяки векторизації та оптимізації через **Apache Arrow**.

### Основні переваги **Pandas UDF**:
- **Швидкість**: Використання векторизації та інтеграція з **Apache Arrow** дозволяє суттєво прискорити обробку даних, порівняно зі звичайними UDF.
- **Простота**: Pandas UDF використовують знайомі інтерфейси Pandas, що робить їх простими у використанні для тих, хто знайомий із Pandas.
- **Масштабованість**: Хоча Pandas зазвичай використовується для обробки даних у пам'яті, використання Pandas UDF дозволяє масштабувати ці операції для обробки великих обсягів даних у кластері.

### Типи Pandas UDF:

1. **Scalar UDF**:
   - Використовується для обробки поелементно (аналог звичайного UDF).
   - Функція отримує та повертає серію Pandas (колонку).
   
2. **Grouped Map UDF**:
   - Використовується для обробки груп даних.
   - Функція отримує і повертає **DataFrame Pandas** для кожної групи.
   
3. **Grouped Aggregate UDF**:
   - Використовується для обробки та агрегації даних у групах.
   - Функція повертає одне значення для кожної групи.
   
   

> `pandas_udf` і `PandasUDFType` — це ключові компоненти в **PySpark**, що дозволяють створювати і використовувати **Pandas UDF** (векторизовані користувацькі функції), які значно прискорюють обробку даних шляхом векторизації та використання **Apache Arrow**.

### 1. **`pandas_udf`**
**`pandas_udf`** — це декоратор, який використовується для визначення **Pandas UDF**. За допомогою цього декоратора ви можете вказати тип функції і тип даних, які вона буде обробляти або повертати.

*Синтаксис*
```python
from pyspark.sql.functions import pandas_udf

@pandas_udf(returnType)
def my_udf(col: pd.Series) -> pd.Series:
    return col * 2
```
- **`returnType`** — це тип даних, який повертає функція. Ви можете вказати тип, наприклад, `StringType`, `DoubleType`, або безпосередньо `"double"`, `"int"`.
- Функція може приймати і повертати **Pandas Series**, що дозволяє виконувати операції векторно.

### 2. **`PandasUDFType`**
**`PandasUDFType`** — це перелік типів Pandas UDF, що визначають, як саме функція обробляє дані. У новіших версіях PySpark тип UDF можна просто передати як параметр до **`pandas_udf`**, але `PandasUDFType` може бути використано для уточнення типу.

#### Основні типи `PandasUDFType`:
1.  **`SCALAR` (поелементна обробка)**:
   - Обробляє кожен елемент колонки (векторно).
   - Вхід і вихід — це **Pandas Series**.
2. **`GROUPED_MAP` (обробка груп рядків)**:
   - Обробляє кожну групу як **Pandas DataFrame**, повертаючи DataFrame.
   - Використовується з функціями типу **`groupBy().apply()`**.
3. **`GROUPED_AGG` (агрегація груп)**:
   - Використовується для виконання агрегацій (підрахунку, середнього, суми тощо) для групованих даних.
   - Вхід — це **Pandas Series**, вихід — одне значення.

*Синтаксис*
```python
from pyspark.sql.functions import pandas_udf, PandasUDFType
import pandas as pd

# Визначення функції Grouped Map UDF
@pandas_udf("name string, avg_age double", PandasUDFType.GROUPED_MAP)
def average_age(pdf: pd.DataFrame) -> pd.DataFrame:
    return pdf.assign(avg_age=pdf["age"].mean())

# Використання цієї функції
df.groupby("name").apply(average_age).show()
```



In [19]:
# імпорт функцій Pandas UDF
from pyspark.sql.functions import pandas_udf, PandasUDFType

In [20]:
@pandas_udf("float")
def convert_wt(s: pd.Series) -> pd.Series:
    # Формула для перерахунку в метричну систему (1 фунт ≈ 0.45 кг)
    return s * 0.45

spark.udf.register("convert_weight", convert_wt)

<pyspark.sql.udf.UserDefinedFunction at 0x7fb243f10760>

In [21]:
# застосуємо створену функцію до таблиці cars
spark.sql("SELECT *, wt AS weight_imperial, convert_weight(wt) as weight_metric FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+---------------+-------------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|weight_imperial|weight_metric|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+---------------+-------------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|           2.62|        1.179|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|          2.875|      1.29375|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|           2.32|        1.044|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|          3.215|      1.44675|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|           3.44|        1.548|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|           3.46|        1.557|
|         Duster 360|14.3|  8|360.0|245|3.21| 

##<center>__Самостійні завдання__</center>

> Скопіювати блок самостійних завдань в окремий файл ***LastName_CP4.ipynb***

### Завдання №1
1. Інсталювати та імпортувати необхідні бібліотеки та модулі
2. Створити Spark Session
2. Завантажити та перетворити датасет `mtcars` з лекційної частини у DataFrame PySpark

In [None]:
# МІСЦЕ ДЛЯ КОДУ

# Виконано в лекційній частині

### Завдання №2
Використовуючи Spark SQL виконати наступні запити
1. Обчислити середнє значення витрат палива (`mpg`) для кожного типу передач (`am`) (0 = автоматична, 1 = ручна передача)
2. Знайдіть три автомобілі з найбільшим значенням потужності `hp`
3. Підрахувати кількість автомобілів з різними кількостями циліндрів (`cyl`)
4. Визначте середню вагу `wt` автомобілів з ручною та автоматичною передачею
5. Виберіть автомобілі, у яких `hp` більше 150 та `mpg` більше 20.
6. Створіть запит на свій розсуд


In [24]:
# МІСЦЕ ДЛЯ КОДУ
# 1
spark.sql("SELECT am, AVG(mpg) AS avg_mpg FROM cars GROUP BY am").show()

+---+------------------+
| am|           avg_mpg|
+---+------------------+
|  1|24.392307692307693|
|  0|17.147368421052633|
+---+------------------+



In [25]:
# 2
spark.sql("SELECT name, hp FROM cars ORDER BY hp DESC LIMIT 3").show()

+--------------+---+
|          name| hp|
+--------------+---+
| Maserati Bora|335|
|Ford Pantera L|264|
|    Camaro Z28|245|
+--------------+---+



In [26]:
# 3
spark.sql("SELECT cyl, COUNT(*) AS car_count FROM cars GROUP BY cyl").show()

+---+---------+
|cyl|car_count|
+---+---------+
|  6|        7|
|  4|       11|
|  8|       14|
+---+---------+



In [27]:
# 4
spark.sql("SELECT am, AVG(wt) AS avg_weight FROM cars GROUP BY am").show()

+---+------------------+
| am|        avg_weight|
+---+------------------+
|  1|2.4110000000000005|
|  0| 3.768894736842105|
+---+------------------+



In [28]:
# 5
spark.sql("SELECT * FROM cars WHERE hp > 150 AND mpg > 20").show()

+----+---+---+----+---+----+---+----+---+---+----+----+
|name|mpg|cyl|disp| hp|drat| wt|qsec| vs| am|gear|carb|
+----+---+---+----+---+----+---+----+---+---+----+----+
+----+---+---+----+---+----+---+----+---+---+----+----+



In [29]:
# 6
spark.sql("SELECT name, mpg, hp, wt FROM cars WHERE wt < 3 AND mpg > 25 ORDER BY mpg DESC").show()

+--------------+----+---+-----+
|          name| mpg| hp|   wt|
+--------------+----+---+-----+
|Toyota Corolla|33.9| 65|1.835|
|      Fiat 128|32.4| 66|  2.2|
|  Lotus Europa|30.4|113|1.513|
|   Honda Civic|30.4| 52|1.615|
|     Fiat X1-9|27.3| 66|1.935|
| Porsche 914-2|26.0| 91| 2.14|
+--------------+----+---+-----+



### Завдання №3

Створіть користувацькі функції Pandas UDF (User Defined Functions):
1. Виведіть квадрат значення потужності (`hp`) для кожного автомобіля та виведіть результат як новий стовпчик таблиці
2. Створіть UDF, яка нормалізує вагу автомобілів `wt`, використовуючи мінімаксний принцип нормалізації та виведіть результат як новий стовпчик таблиці
3. Створіть UDF, яка обчислює коефіцієнт потужність/вага для кожного автомобіля та виведіть результат як новий стовпчик таблиці
4. Створіть UDF, яка присвоює автомобілю категорію (малий, середній або великий) на основі кількості циліндрів (`cyl`) та виведіть результат як новий стовпчик таблиці
5. Створіть UDF, яка визначає, чи є автомобіль економічним (якщо `mpg > 25`) і приймає бінарне значення та виведіть результат як новий стовпчик таблиці
6. Створіть UDF на свій розсуд та виведіть результат як новий стовпчик таблиці

In [36]:
# МІСЦЕ ДЛЯ КОДУ

from pyspark.sql.functions import col, pow, udf
from pyspark.sql.types import DoubleType, StringType, IntegerType
from pyspark.sql import functions as F

# 1
@pandas_udf("float")
def square_hp(s: pd.Series) -> pd.Series:
    return s ** 2

spark.udf.register("square_hp", square_hp)
spark.sql("SELECT *, square_hp(hp) AS hp_squared FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+----------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|hp_squared|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+----------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|   12100.0|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|   12100.0|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|    8649.0|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|   12100.0|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|   30625.0|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|   11025.0|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|   60025.0|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1|  0|   4|   2|    3844.0|
|           Merc 230|22.8|  4|140.8| 95|3.9

In [37]:
# 2
wt_min, wt_max = sdf.agg({"wt": "min"}).collect()[0][0], sdf.agg({"wt": "max"}).collect()[0][0]

@pandas_udf("float")
def normalize_wt(s: pd.Series) -> pd.Series:
    return (s - wt_min) / (wt_max - wt_min)

spark.udf.register("normalize_weight", normalize_wt)
spark.sql("SELECT *, normalize_weight(wt) AS normalized_weight FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+-----------------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|normalized_weight|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+-----------------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|       0.28304783|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|       0.34824854|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|       0.20634109|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|        0.4351828|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|       0.49271286|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|       0.49782664|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|       0.52595246|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1

In [38]:
# 3
@pandas_udf("float")
def power_to_weight(s_hp: pd.Series, s_wt: pd.Series) -> pd.Series:
    return s_hp / s_wt

spark.udf.register("power_to_weight_ratio", power_to_weight)
spark.sql("SELECT *, power_to_weight_ratio(hp, wt) AS power_weight_ratio FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+------------------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|power_weight_ratio|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+------------------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|         41.984734|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|         38.260868|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|          40.08621|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|          34.21462|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|         50.872093|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|          30.34682|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|          68.62745|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19

In [39]:
# 4
@pandas_udf("string")
def categorize_cyl(s: pd.Series) -> pd.Series:
    return s.apply(lambda x: "small" if x <= 4 else "medium" if x == 6 else "large")

spark.udf.register("categorize_cylinders", categorize_cyl)
spark.sql("SELECT *, categorize_cylinders(cyl) AS car_category FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+------------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|car_category|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+------------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|      medium|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|      medium|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|       small|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|      medium|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|       large|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|      medium|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|       large|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1|  0|   4|   2|       small|
|           Merc 230|

In [40]:
# 5
@pandas_udf("int")
def is_economical(s: pd.Series) -> pd.Series:
    return s.apply(lambda x: 1 if x > 25 else 0)

spark.udf.register("economical", is_economical)
spark.sql("SELECT *, economical(mpg) AS is_economical FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+-------------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|is_economical|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+-------------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|            0|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|            0|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|            0|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|            0|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|            0|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|            0|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|            0|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1|  0|   4|   2|            0|
|         

In [41]:
# 6
@pandas_udf("float")
def efficiency_score(s_mpg: pd.Series, s_hp: pd.Series) -> pd.Series:
    return s_mpg / s_hp

spark.udf.register("efficiency_score", efficiency_score)
spark.sql("SELECT *, efficiency_score(mpg, hp) AS efficiency_score FROM cars").show()

+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+----------------+
|               name| mpg|cyl| disp| hp|drat|   wt| qsec| vs| am|gear|carb|efficiency_score|
+-------------------+----+---+-----+---+----+-----+-----+---+---+----+----+----------------+
|          Mazda RX4|21.0|  6|160.0|110| 3.9| 2.62|16.46|  0|  1|   4|   4|      0.19090909|
|      Mazda RX4 Wag|21.0|  6|160.0|110| 3.9|2.875|17.02|  0|  1|   4|   4|      0.19090909|
|         Datsun 710|22.8|  4|108.0| 93|3.85| 2.32|18.61|  1|  1|   4|   1|       0.2451613|
|     Hornet 4 Drive|21.4|  6|258.0|110|3.08|3.215|19.44|  1|  0|   3|   1|      0.19454545|
|  Hornet Sportabout|18.7|  8|360.0|175|3.15| 3.44|17.02|  0|  0|   3|   2|      0.10685714|
|            Valiant|18.1|  6|225.0|105|2.76| 3.46|20.22|  1|  0|   3|   1|      0.17238095|
|         Duster 360|14.3|  8|360.0|245|3.21| 3.57|15.84|  0|  0|   3|   4|     0.058367345|
|          Merc 240D|24.4|  4|146.7| 62|3.69| 3.19| 20.0|  1|  0|   4|