In [1]:
#установка библиотек
!pip install pyspark

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


In [2]:
#импорт библиотек
import pyspark
from pyspark.sql import SparkSession
from pyspark.sql.types import *
import pyspark.sql.functions as F

#инициализация сессии
spark = SparkSession\
        .builder.master("local[*]")\
        .appName("PySpark_Tutorial")\
        .getOrCreate()

In [3]:
#стандартная загрузка данных
data = spark.read.csv(
    'stocks_price_final.csv',
    sep=',',
)

data.printSchema()

root
 |-- _c0: string (nullable = true)
 |-- _c1: string (nullable = true)
 |-- _c2: string (nullable = true)
 |-- _c3: string (nullable = true)
 |-- _c4: string (nullable = true)
 |-- _c5: string (nullable = true)
 |-- _c6: string (nullable = true)
 |-- _c7: string (nullable = true)
 |-- _c8: string (nullable = true)
 |-- _c9: string (nullable = true)
 |-- _c10: string (nullable = true)
 |-- _c11: string (nullable = true)
 |-- _c12: string (nullable = true)



In [4]:
#определенные схемы данных при помощи класса StructType
data_schema = [
               StructField('_c0', IntegerType(), True),
               StructField('symbol', StringType(), True),
               StructField('data', DateType(), True),
               StructField('open', DoubleType(), True),
               StructField('high', DoubleType(), True),
               StructField('low', DoubleType(), True),
               StructField('close', DoubleType(), True),
               StructField('volume', IntegerType(), True),
               StructField('adjusted', DoubleType(), True),
               StructField('market.cap', StringType(), True),
               StructField('sector', StringType(), True),
               StructField('industry', StringType(), True),
               StructField('exchange', StringType(), True),
            ]


final_struc = StructType(fields = data_schema)

#загрузка данных
data = spark.read.csv(
    'stocks_price_final.csv',
    sep=',',
    header=True,
    schema=final_struc 
)

data.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- symbol: string (nullable = true)
 |-- data: date (nullable = true)
 |-- open: double (nullable = true)
 |-- high: double (nullable = true)
 |-- low: double (nullable = true)
 |-- close: double (nullable = true)
 |-- volume: integer (nullable = true)
 |-- adjusted: double (nullable = true)
 |-- market.cap: string (nullable = true)
 |-- sector: string (nullable = true)
 |-- industry: string (nullable = true)
 |-- exchange: string (nullable = true)



In [5]:
# schema(): этот метод возвращает схему данных (фрейма данных)
data.schema

StructType([StructField('_c0', IntegerType(), True), StructField('symbol', StringType(), True), StructField('data', DateType(), True), StructField('open', DoubleType(), True), StructField('high', DoubleType(), True), StructField('low', DoubleType(), True), StructField('close', DoubleType(), True), StructField('volume', IntegerType(), True), StructField('adjusted', DoubleType(), True), StructField('market.cap', StringType(), True), StructField('sector', StringType(), True), StructField('industry', StringType(), True), StructField('exchange', StringType(), True)])

In [6]:
# dtypes возвращает список кортежей с именами столбцов и типами данных.
data.dtypes

[('_c0', 'int'),
 ('symbol', 'string'),
 ('data', 'date'),
 ('open', 'double'),
 ('high', 'double'),
 ('low', 'double'),
 ('close', 'double'),
 ('volume', 'int'),
 ('adjusted', 'double'),
 ('market.cap', 'string'),
 ('sector', 'string'),
 ('industry', 'string'),
 ('exchange', 'string')]

In [7]:
# show() по умолчанию отображает первые 20 строк, а также принимает число в качестве параметра для выбора их количества.
data.show()

+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+
|_c0|symbol|      data|     open|     high|      low|    close| volume| adjusted|market.cap|       sector|            industry|exchange|
+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+
|  1|   TXG|2019-09-12|     54.0|     58.0|     51.0|    52.75|7326300|    52.75|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  2|   TXG|2019-09-13|    52.75|   54.355|49.150002|    52.27|1025200|    52.27|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  3|   TXG|2019-09-16|52.450001|     56.0|52.009998|55.200001| 269900|55.200001|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  4|   TXG|2019-09-17|56.209999|60.900002|   55.423|56.779999| 602800|56.779999|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  5|   TXG|2019-09-18|56.849998|    62.2

In [8]:
# head(n) возвращает n строк в виде списка
data.head(5)

[Row(_c0=1, symbol='TXG', data=datetime.date(2019, 9, 12), open=54.0, high=58.0, low=51.0, close=52.75, volume=7326300, adjusted=52.75, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ'),
 Row(_c0=2, symbol='TXG', data=datetime.date(2019, 9, 13), open=52.75, high=54.355, low=49.150002, close=52.27, volume=1025200, adjusted=52.27, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ'),
 Row(_c0=3, symbol='TXG', data=datetime.date(2019, 9, 16), open=52.450001, high=56.0, low=52.009998, close=55.200001, volume=269900, adjusted=55.200001, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ'),
 Row(_c0=4, symbol='TXG', data=datetime.date(2019, 9, 17), open=56.209999, high=60.900002, low=55.423, close=56.779999, volume=602800, adjusted=56.779999, market.cap='$9.31B', sector='Capit

In [9]:
#first() возвращает первую строку данных

data.first()

Row(_c0=1, symbol='TXG', data=datetime.date(2019, 9, 12), open=54.0, high=58.0, low=51.0, close=52.75, volume=7326300, adjusted=52.75, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ')

In [10]:
# take(n) возвращает первые n строк.

data.take(5)

[Row(_c0=1, symbol='TXG', data=datetime.date(2019, 9, 12), open=54.0, high=58.0, low=51.0, close=52.75, volume=7326300, adjusted=52.75, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ'),
 Row(_c0=2, symbol='TXG', data=datetime.date(2019, 9, 13), open=52.75, high=54.355, low=49.150002, close=52.27, volume=1025200, adjusted=52.27, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ'),
 Row(_c0=3, symbol='TXG', data=datetime.date(2019, 9, 16), open=52.450001, high=56.0, low=52.009998, close=55.200001, volume=269900, adjusted=55.200001, market.cap='$9.31B', sector='Capital Goods', industry='Biotechnology: Laboratory Analytical Instruments', exchange='NASDAQ'),
 Row(_c0=4, symbol='TXG', data=datetime.date(2019, 9, 17), open=56.209999, high=60.900002, low=55.423, close=56.779999, volume=602800, adjusted=56.779999, market.cap='$9.31B', sector='Capit

In [11]:
# describe() вычисляет некоторые статистические значения для столбцов с числовым типом данных

data.describe()

DataFrame[summary: string, _c0: string, symbol: string, open: string, high: string, low: string, close: string, volume: string, adjusted: string, market.cap: string, sector: string, industry: string, exchange: string]

In [12]:
# columns возвращает список, содержащий названия столбцов

data.columns

['_c0',
 'symbol',
 'data',
 'open',
 'high',
 'low',
 'close',
 'volume',
 'adjusted',
 'market.cap',
 'sector',
 'industry',
 'exchange']

In [13]:
# count() возвращает общее число строк в датасете

data.count()

1729034

In [14]:
# distinct() — количество различных строк в используемом наборе данных

data.distinct()

DataFrame[_c0: int, symbol: string, data: date, open: double, high: double, low: double, close: double, volume: int, adjusted: double, market.cap: string, sector: string, industry: string, exchange: string]

In [15]:
# printSchema() отображает схему данных

data.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- symbol: string (nullable = true)
 |-- data: date (nullable = true)
 |-- open: double (nullable = true)
 |-- high: double (nullable = true)
 |-- low: double (nullable = true)
 |-- close: double (nullable = true)
 |-- volume: integer (nullable = true)
 |-- adjusted: double (nullable = true)
 |-- market.cap: string (nullable = true)
 |-- sector: string (nullable = true)
 |-- industry: string (nullable = true)
 |-- exchange: string (nullable = true)



In [16]:
# Добавление столбца: используйте withColumn, чтобы добавить новый столбец к существующим. 
# Метод принимает два параметра: имя столбца и данные.
data = data.withColumn('date', data.data)

data.show(3)

+---+------+----------+---------+------+---------+---------+-------+---------+----------+-------------+--------------------+--------+----------+
|_c0|symbol|      data|     open|  high|      low|    close| volume| adjusted|market.cap|       sector|            industry|exchange|      date|
+---+------+----------+---------+------+---------+---------+-------+---------+----------+-------------+--------------------+--------+----------+
|  1|   TXG|2019-09-12|     54.0|  58.0|     51.0|    52.75|7326300|    52.75|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|2019-09-12|
|  2|   TXG|2019-09-13|    52.75|54.355|49.150002|    52.27|1025200|    52.27|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|2019-09-13|
|  3|   TXG|2019-09-16|52.450001|  56.0|52.009998|55.200001| 269900|55.200001|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|2019-09-16|
+---+------+----------+---------+------+---------+---------+-------+---------+----------+-------------+--------------------+------

In [17]:
# withColumnRenamed, чтобы переименовать существующий столбец. 
# Метод принимает два параметра: название существующего столбца и его новое имя.
data = data.withColumnRenamed('date', 'data_changed')

data.show(5)

+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+------------+
|_c0|symbol|      data|     open|     high|      low|    close| volume| adjusted|market.cap|       sector|            industry|exchange|data_changed|
+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+------------+
|  1|   TXG|2019-09-12|     54.0|     58.0|     51.0|    52.75|7326300|    52.75|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|  2019-09-12|
|  2|   TXG|2019-09-13|    52.75|   54.355|49.150002|    52.27|1025200|    52.27|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|  2019-09-13|
|  3|   TXG|2019-09-16|52.450001|     56.0|52.009998|55.200001| 269900|55.200001|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|  2019-09-16|
|  4|   TXG|2019-09-17|56.209999|60.900002|   55.423|56.779999| 602800|56.779999|    $9.31B|Capital 

In [18]:
#Удаление столбца: метод drop, который принимает имя столбца и возвращает данные.
data = data.drop('data_changed')

data.show(5)

+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+
|_c0|symbol|      data|     open|     high|      low|    close| volume| adjusted|market.cap|       sector|            industry|exchange|
+---+------+----------+---------+---------+---------+---------+-------+---------+----------+-------------+--------------------+--------+
|  1|   TXG|2019-09-12|     54.0|     58.0|     51.0|    52.75|7326300|    52.75|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  2|   TXG|2019-09-13|    52.75|   54.355|49.150002|    52.27|1025200|    52.27|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  3|   TXG|2019-09-16|52.450001|     56.0|52.009998|55.200001| 269900|55.200001|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  4|   TXG|2019-09-17|56.209999|60.900002|   55.423|56.779999| 602800|56.779999|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  5|   TXG|2019-09-18|56.849998|    62.2

Для выполнения текущего задания необходимо:

1.   Прочитать уже знакомый нам датасет "stocks_price_final";
2.   Избавиться от следующих столбцов: symbol, close, volume, adjusted, market.cap, exchange;
3.   Создать в конце новый столбец под именем "new_volume" с данными которые ранее хранились в столбце volume;
4.   Поменять местами данные из столбцов high и low;
5.   Столбец data переместить в конец;
6.   Вывести первые 3 троки, скопировать их и вставить в ответ на это задание (вместе с надписью в выводе "only showing top 3 rows");

In [19]:
#определенные схемы данных при помощи класса StructType
data_schema = [
               StructField('_c0', IntegerType(), True),
               StructField('symbol', StringType(), True),
               StructField('data', DateType(), True),
               StructField('open', DoubleType(), True),
               StructField('high', DoubleType(), True),
               StructField('low', DoubleType(), True),
               StructField('close', DoubleType(), True),
               StructField('volume', IntegerType(), True),
               StructField('adjusted', DoubleType(), True),
               StructField('market.cap', StringType(), True),
               StructField('sector', StringType(), True),
               StructField('industry', StringType(), True),
               StructField('exchange', StringType(), True),
            ]


final_struc = StructType(fields = data_schema)

#загрузка данных
data = spark.read.csv(
    'stocks_price_final.csv',
    sep=',',
    header=True,
    schema=final_struc 
)

data.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- symbol: string (nullable = true)
 |-- data: date (nullable = true)
 |-- open: double (nullable = true)
 |-- high: double (nullable = true)
 |-- low: double (nullable = true)
 |-- close: double (nullable = true)
 |-- volume: integer (nullable = true)
 |-- adjusted: double (nullable = true)
 |-- market.cap: string (nullable = true)
 |-- sector: string (nullable = true)
 |-- industry: string (nullable = true)
 |-- exchange: string (nullable = true)



In [20]:
data = data.withColumn('new_volume', data.volume)

data.show(3)

+---+------+----------+---------+------+---------+---------+-------+---------+----------+-------------+--------------------+--------+----------+
|_c0|symbol|      data|     open|  high|      low|    close| volume| adjusted|market.cap|       sector|            industry|exchange|new_volume|
+---+------+----------+---------+------+---------+---------+-------+---------+----------+-------------+--------------------+--------+----------+
|  1|   TXG|2019-09-12|     54.0|  58.0|     51.0|    52.75|7326300|    52.75|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|   7326300|
|  2|   TXG|2019-09-13|    52.75|54.355|49.150002|    52.27|1025200|    52.27|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|   1025200|
|  3|   TXG|2019-09-16|52.450001|  56.0|52.009998|55.200001| 269900|55.200001|    $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|    269900|
+---+------+----------+---------+------+---------+---------+-------+---------+----------+-------------+--------------------+------

In [21]:
data = data.drop('symbol', 'close', 'volume', 'adjusted', 'market.cap', 'exchange')
data.show(5)

+---+----------+---------+---------+---------+-------------+--------------------+----------+
|_c0|      data|     open|     high|      low|       sector|            industry|new_volume|
+---+----------+---------+---------+---------+-------------+--------------------+----------+
|  1|2019-09-12|     54.0|     58.0|     51.0|Capital Goods|Biotechnology: La...|   7326300|
|  2|2019-09-13|    52.75|   54.355|49.150002|Capital Goods|Biotechnology: La...|   1025200|
|  3|2019-09-16|52.450001|     56.0|52.009998|Capital Goods|Biotechnology: La...|    269900|
|  4|2019-09-17|56.209999|60.900002|   55.423|Capital Goods|Biotechnology: La...|    602800|
|  5|2019-09-18|56.849998|    62.27|55.650002|Capital Goods|Biotechnology: La...|   1589600|
+---+----------+---------+---------+---------+-------------+--------------------+----------+
only showing top 5 rows



In [22]:
data = data.withColumn('data_new', data.data)
data = data.drop('data')
data = data.withColumnRenamed('data_new', 'data')
data.show(3)

+---+---------+------+---------+-------------+--------------------+----------+----------+
|_c0|     open|  high|      low|       sector|            industry|new_volume|      data|
+---+---------+------+---------+-------------+--------------------+----------+----------+
|  1|     54.0|  58.0|     51.0|Capital Goods|Biotechnology: La...|   7326300|2019-09-12|
|  2|    52.75|54.355|49.150002|Capital Goods|Biotechnology: La...|   1025200|2019-09-13|
|  3|52.450001|  56.0|52.009998|Capital Goods|Biotechnology: La...|    269900|2019-09-16|
+---+---------+------+---------+-------------+--------------------+----------+----------+
only showing top 3 rows



In [23]:
data = data.withColumnRenamed('low', 'high1')
data = data.withColumnRenamed('high', 'low')
data = data.withColumnRenamed('high1', 'high')
data.show(3)

+---+---------+------+---------+-------------+--------------------+----------+----------+
|_c0|     open|   low|     high|       sector|            industry|new_volume|      data|
+---+---------+------+---------+-------------+--------------------+----------+----------+
|  1|     54.0|  58.0|     51.0|Capital Goods|Biotechnology: La...|   7326300|2019-09-12|
|  2|    52.75|54.355|49.150002|Capital Goods|Biotechnology: La...|   1025200|2019-09-13|
|  3|52.450001|  56.0|52.009998|Capital Goods|Biotechnology: La...|    269900|2019-09-16|
+---+---------+------+---------+-------------+--------------------+----------+----------+
only showing top 3 rows



**Удаление строк с пропущенными значениями**

data.na.drop()

**Замена отсутствующих значений средним**

data.na.fill(data.select(f.mean(data['open'])).collect()[0][0])

**Замена отсутствующих значений новыми**

data.na.replace(old_value, new_value)

In [24]:
#определенные схемы данных при помощи класса StructType
data_schema = [
               StructField('_c0', IntegerType(), True),
               StructField('symbol', StringType(), True),
               StructField('data', DateType(), True),
               StructField('open', DoubleType(), True),
               StructField('high', DoubleType(), True),
               StructField('low', DoubleType(), True),
               StructField('close', DoubleType(), True),
               StructField('volume', IntegerType(), True),
               StructField('adjusted', DoubleType(), True),
               StructField('market.cap', StringType(), True),
               StructField('sector', StringType(), True),
               StructField('industry', StringType(), True),
               StructField('exchange', StringType(), True),
            ]


final_struc = StructType(fields = data_schema)

#загрузка данных
data = spark.read.csv(
    'stocks_price_final.csv',
    sep=',',
    header=True,
    schema=final_struc 
)

data.printSchema()

root
 |-- _c0: integer (nullable = true)
 |-- symbol: string (nullable = true)
 |-- data: date (nullable = true)
 |-- open: double (nullable = true)
 |-- high: double (nullable = true)
 |-- low: double (nullable = true)
 |-- close: double (nullable = true)
 |-- volume: integer (nullable = true)
 |-- adjusted: double (nullable = true)
 |-- market.cap: string (nullable = true)
 |-- sector: string (nullable = true)
 |-- industry: string (nullable = true)
 |-- exchange: string (nullable = true)



In [25]:
data = data.withColumnRenamed('market.cap', 'mcap')

In [26]:
count_before = data.count()

In [27]:
data = data.na.drop()
count_after = data.count()
print(count_before-count_after)

3827


In [28]:
# Выбор одного столбца

data.select('sector').show(5)

+-------------+
|       sector|
+-------------+
|Capital Goods|
|Capital Goods|
|Capital Goods|
|Capital Goods|
|Capital Goods|
+-------------+
only showing top 5 rows



In [29]:
# Выбор нескольких столбцов
data.select(['open', 'close', 'adjusted']).show(5)

+---------+---------+---------+
|     open|    close| adjusted|
+---------+---------+---------+
|     54.0|    52.75|    52.75|
|    52.75|    52.27|    52.27|
|52.450001|55.200001|55.200001|
|56.209999|56.779999|56.779999|
|56.849998|     62.0|     62.0|
+---------+---------+---------+
only showing top 5 rows



In [30]:
# Данный метод фильтрует данные на основе заданного условия.
# Можно указать несколько условий, используя операторы AND (&), OR (|) и NOT (~)
data.filter( (F.col('data') >= F.lit('2020-01-01')) & (F.col('data') <= F.lit('2020-01-31')) ).show(5)

+---+------+----------+---------+---------+---------+---------+------+---------+------+-------------+--------------------+--------+
|_c0|symbol|      data|     open|     high|      low|    close|volume| adjusted|  mcap|       sector|            industry|exchange|
+---+------+----------+---------+---------+---------+---------+------+---------+------+-------------+--------------------+--------+
| 78|   TXG|2020-01-02|76.910004|77.989998|71.480003|72.830002|220200|72.830002|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
| 79|   TXG|2020-01-03|71.519997|76.188004|70.580002|75.559998|288300|75.559998|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
| 80|   TXG|2020-01-06|75.269997|77.349998|73.559998|75.550003|220600|75.550003|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
| 81|   TXG|2020-01-07|     76.0|77.279999|    75.32|75.980003|182400|75.980003|$9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
| 82|   TXG|2020-01-08|76.089996|76.949997|72.739998|74.839996|172100|74.839

In [31]:
# Between - Этот метод возвращает True, если проверяемое значение принадлежит указанному отрезку, иначе — False. 
# пример отбора данных, в которых значения adjusted находятся в диапазоне от 100 до 500.
data.filter(data.adjusted.between(100.0, 500.0)).show()

+----+------+----------+----------+----------+----------+----------+------+----------+-------+-------------+--------------------+--------+
| _c0|symbol|      data|      open|      high|       low|     close|volume|  adjusted|   mcap|       sector|            industry|exchange|
+----+------+----------+----------+----------+----------+----------+------+----------+-------+-------------+--------------------+--------+
|  93|   TXG|2020-01-24| 95.459999|     101.0| 94.157997|100.790001|328100|100.790001| $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  94|   TXG|2020-01-27| 99.760002|104.892998| 97.019997|103.209999|334900|103.209999| $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|  95|   TXG|2020-01-28|104.620003|108.269997|103.297997|106.620003|245400|106.620003| $9.31B|Capital Goods|Biotechnology: La...|  NASDAQ|
|6893|  ABMD|2019-01-02|315.940002|320.709991|307.029999|309.959991|590000|309.959991|$13.39B|  Health Care|Medical/Dental In...|  NASDAQ|
|6894|  ABMD|2019-01-03|   

In [32]:
# When - Он возвращает 0 или 1 в зависимости от заданного условия.
# В приведенном ниже примере показано, как выбрать такие цены на момент открытия и закрытия торгов, 
# при которых скорректированная цена была больше или равна 200.

data.select('open', 'close', 
            F.when(data.adjusted >= 200.0, 1).otherwise(0)
).show(5)

+---------+---------+-----------------------------------------------+
|     open|    close|CASE WHEN (adjusted >= 200.0) THEN 1 ELSE 0 END|
+---------+---------+-----------------------------------------------+
|     54.0|    52.75|                                              0|
|    52.75|    52.27|                                              0|
|52.450001|55.200001|                                              0|
|56.209999|56.779999|                                              0|
|56.849998|     62.0|                                              0|
+---------+---------+-----------------------------------------------+
only showing top 5 rows



In [33]:
# Like - Этот метод похож на оператор Like в SQL. 
# Приведенный ниже код демонстрирует использование rlike() для извлечения имен секторов, которые начинаются с букв M или C.

data.select(
    'sector', 
    data.sector.rlike('^[B,C]').alias('Колонка sector начинается с B или C')
).distinct().show()

+--------------------+-----------------------------------+
|              sector|Колонка sector начинается с B или C|
+--------------------+-----------------------------------+
|         Health Care|                              false|
|       Capital Goods|                               true|
|Consumer Non-Dura...|                               true|
|    Public Utilities|                              false|
|   Consumer Durables|                               true|
|             Finance|                              false|
|      Transportation|                              false|
|       Miscellaneous|                              false|
|   Consumer Services|                               true|
|              Energy|                              false|
|    Basic Industries|                               true|
|          Technology|                              false|
+--------------------+-----------------------------------+



In [34]:
# GroupBy - данная функция группирует данные по выбранному столбцу и выполняет различные операции,
# такие как вычисление суммы, среднего, минимального, максимального значения и т. д. 
# В приведенном ниже примере объясняется, как получить среднюю цену открытия, закрытия и скорректированную цену акций по отраслям.

data.select(['industry', 'open', 'close', 'adjusted'])\
    .groupBy('industry')\
    .mean()\
    .show()

+--------------------+------------------+------------------+------------------+
|            industry|         avg(open)|        avg(close)|     avg(adjusted)|
+--------------------+------------------+------------------+------------------+
|Finance/Investors...| 5.134401785714286| 5.136630739795919| 4.991354066964286|
|       Miscellaneous|16.371874377425954|16.346074063840664|16.134938852400406|
|Investment Banker...| 58.95645690177569| 58.98878866167833| 58.16319894192047|
|   Food Distributors|43.155496006482146| 43.15413451443735| 42.79261066234539|
|Miscellaneous man...| 15.65753031869255|15.647881755362619|15.366875813585278|
|    Ophthalmic Goods|108.30083427837113|108.34382526902536|108.32857058878507|
|        Broadcasting|24.922876341461432|  24.9235553954906|24.705171996325628|
|Agricultural Chem...|22.051619042756876|22.047523561795384| 21.64040600893427|
|Biotechnology: Bi...| 24.81275376367005|24.808372624501285|24.749829641866167|
|Other Specialty S...| 84.83393689680005

In [35]:
# Агрегирование
# В приведенном ниже примере показано, как отобразить минимальные, максимальные и средние значения цен открытия,
# закрытия и скорректированных цен акций в промежутке с января 2019 года по январь 2020 года для каждого сектора.

data.filter((F.col('data') >= F.lit('2019-01-02')) & (F.col('data') <= F.lit('2020-01-31')))\
    .groupBy("sector") \
    .agg(F.min("data").alias("С"), 
         F.max("data").alias("По"), 
         
         F.min("open").alias("Минимум при открытии"),
         F.max("open").alias("Максимум при открытии"), 
         F.avg("open").alias("Среднее в open"), 

         F.min("close").alias("Минимум при закрытии"), 
         F.max("close").alias("Максимум при закрытии"), 
         F.avg("close").alias("Среднее в close"), 

         F.min("adjusted").alias("Скорректированный минимум"), 
         F.max("adjusted").alias("Скорректированный максимум"), 
         F.avg("adjusted").alias("Среднее в adjusted"), 

      ).show(truncate=False)

+---------------------+----------+----------+--------------------+---------------------+------------------+--------------------+---------------------+------------------+-------------------------+--------------------------+------------------+
|sector               |С         |По        |Минимум при открытии|Максимум при открытии|Среднее в open    |Минимум при закрытии|Максимум при закрытии|Среднее в close   |Скорректированный минимум|Скорректированный максимум|Среднее в adjusted|
+---------------------+----------+----------+--------------------+---------------------+------------------+--------------------+---------------------+------------------+-------------------------+--------------------------+------------------+
|Miscellaneous        |2019-01-02|2020-01-31|0.16                |690.0                |51.49038981863163 |0.16                |691.099976           |51.523591423434304|0.16                     |691.099976                |51.18476139545794 |
|Health Care          |2019-01-0

In [36]:
#стандартная загрузка данных
data = spark.read.csv(
    'bank.csv',
    sep=';',
    inferSchema=True,
    header="true"
)

data.printSchema()

root
 |-- age: integer (nullable = true)
 |-- job: string (nullable = true)
 |-- marital: string (nullable = true)
 |-- education: string (nullable = true)
 |-- default: string (nullable = true)
 |-- balance: integer (nullable = true)
 |-- housing: string (nullable = true)
 |-- loan: string (nullable = true)
 |-- contact: string (nullable = true)
 |-- day: integer (nullable = true)
 |-- month: string (nullable = true)
 |-- duration: integer (nullable = true)
 |-- campaign: integer (nullable = true)
 |-- pdays: integer (nullable = true)
 |-- previous: integer (nullable = true)
 |-- poutcome: string (nullable = true)
 |-- y: string (nullable = true)



In [37]:
data.show()

+---+-------------+-------+---------+-------+-------+-------+----+--------+---+-----+--------+--------+-----+--------+--------+---+
|age|          job|marital|education|default|balance|housing|loan| contact|day|month|duration|campaign|pdays|previous|poutcome|  y|
+---+-------------+-------+---------+-------+-------+-------+----+--------+---+-----+--------+--------+-----+--------+--------+---+
| 30|   unemployed|married|  primary|     no|   1787|     no|  no|cellular| 19|  oct|      79|       1|   -1|       0| unknown| no|
| 33|     services|married|secondary|     no|   4789|    yes| yes|cellular| 11|  may|     220|       1|  339|       4| failure| no|
| 35|   management| single| tertiary|     no|   1350|    yes|  no|cellular| 16|  apr|     185|       1|  330|       1| failure| no|
| 30|   management|married| tertiary|     no|   1476|    yes| yes| unknown|  3|  jun|     199|       4|   -1|       0| unknown| no|
| 59|  blue-collar|married|secondary|     no|      0|    yes|  no| unknown| 

In [38]:
# Построить распределения клиентов по возрастам с сортировкой по количеству клиентов в убывающей последовательности;
data.select(['age'])\
    .groupBy('age')\
    .count()\
    .sort('count', ascending = False)\
    .show(5)

+---+-----+
|age|count|
+---+-----+
| 34|  231|
| 32|  224|
| 31|  199|
| 36|  188|
| 33|  186|
+---+-----+
only showing top 5 rows



In [39]:
# Построить распределения клиентов по возрастам с сортировкой по возрасту клиентов  в возрастающей последовательности;
data.select(['age'])\
    .groupBy('age')\
    .count()\
    .sort('age')\
    .show(5)

+---+-----+
|age|count|
+---+-----+
| 19|    4|
| 20|    3|
| 21|    7|
| 22|    9|
| 23|   20|
+---+-----+
only showing top 5 rows



In [40]:
# Построить распределения клиентов по возрастам, которым более 30 лет, с сортировкой по возрасту клиентов в возрастающей последовательности;
data.filter( (F.col('age') > 30) )\
    .select(['age'])\
    .groupBy('age')\
    .count()\
    .sort('age')\
    .show(5)

+---+-----+
|age|count|
+---+-----+
| 31|  199|
| 32|  224|
| 33|  186|
| 34|  231|
| 35|  180|
+---+-----+
only showing top 5 rows



In [41]:
data.select('age')\
    .groupBy('age')\
    .count()\
    .show(5)

+---+-----+
|age|count|
+---+-----+
| 31|  199|
| 65|    6|
| 53|   94|
| 78|    3|
| 34|  231|
+---+-----+
only showing top 5 rows

