In [1]:
import os
import sys
import tracemalloc

In [2]:
import pandas as pd

In [3]:
from pyspark import SparkContext
from pyspark.sql import SparkSession

In [4]:
print('VIRTUAL_ENV =',os.environ.get('VIRTUAL_ENV'))
print('CONDA_DEFAULT_ENV =',os.environ.get('CONDA_DEFAULT_ENV'))
print('PYTHONTRACEMALLOC =',os.environ.get('PYTHONTRACEMALLOC'))
print('PYTHONPATH =',os.environ.get('PYTHONPATH'))
print()
print('sys.path = ',sys.path)
print('sys.executable = ',sys.executable)

VIRTUAL_ENV = None
CONDA_DEFAULT_ENV = None
PYTHONTRACEMALLOC = 1
PYTHONPATH = /work

sys.path =  ['/work/notebooks', '/work', '/opt/conda/lib/python311.zip', '/opt/conda/lib/python3.11', '/opt/conda/lib/python3.11/lib-dynload', '', '/opt/conda/lib/python3.11/site-packages']
sys.executable =  /opt/conda/bin/python


In [5]:
# Включаем трассировку
tracemalloc.start()

In [6]:
def total_memory_allocated(verbose=True):
    # Получаем текущую статистику использования памяти
    snapshot = tracemalloc.take_snapshot()
    top_stats = snapshot.statistics('lineno')
    # Вычисляем общий объем аллоцированной памяти
    total_memory_allocated = sum(stat.size for stat in top_stats)
    if verbose:
        print("Общий объем аллоцированной памяти:", '{:,}'\
              .format(total_memory_allocated).replace(',', '\''), "байт")
    return total_memory_allocated

In [7]:
tma = total_memory_allocated()

Общий объем аллоцированной памяти: 76'216'721 байт


In [8]:
# Функция отображения прироста объема аллоцированной памяти
def tmach(tma):
    if not tma:
        tma = 0
    tma1 = total_memory_allocated(verbose=False)
    print("Прирост:", '{:,}'\
    .format(tma1-tma).replace(',', '\''), "байт")
    return tma1

Testing operations_1_-0-

#### Точка входа = Приложение с использованием SparkContext

In [9]:
sc = SparkContext(appName="appName")
weather_entry = sc.parallelize(['2009-01-01', 15.1,26.1])
print(weather_entry.take(3))

['2009-01-01', 15.1, 26.1]


In [10]:
tma = tmach(tma)

Прирост: 1'502'651 байт


In [11]:
sc.stop()

#### Точка входа = Приложение с использованием SparkSession

Данный способ является болеее предпочтительным в новых версиях по сравненеию с SparkContext

In [12]:
APP_NAME = 'sampleApp'
spark = SparkSession.builder.appName(APP_NAME).getOrCreate()
# Вывести свойства объекта spark
print("AppName:", spark.sparkContext.appName)
print("Master:", spark.sparkContext.master)
print("Version:", spark.version)
# Другие свойства, которые вы хотите вывести...

AppName: sampleApp
Master: local[*]
Version: 3.5.0


In [13]:
tma = tmach(tma)

Прирост: 135'649 байт


In [14]:
spark.stop()

#### Создание сессии с явным указанием SPARK_MASTER_IP

In [15]:
# from pyspark.sql import SparkSession
# # Вводим Spark Master IP, который выдаст нам скрипт 
# SPARK_MASTER_IP = '172.18.0.2' 
# spark = SparkSession.builder.appName("pyspark-taxi-forecasting") \
#     .master(f"spark://{SPARK_MASTER_IP}:7077") \
#     .config("spark.executor.cores", 1) \
#     .config("spark.task.cpus", 1) \
#     .getOrCreate()
## .config("spark.executor.memory", "1g") \

#### Запуск сессии с использованием переменной окружения SPARK_MASTER_IP.

При создании кластера Спарк предполагается определение значения Спарк-мастер IP и его установка в переменную окружения контейнера jupyter_lab

In [16]:
# Получаем значение переменной окружения SPARK_MASTER_IP
spark_master_ip = os.getenv('SPARK_MASTER_IP')

In [17]:
# Если переменная окружения установлена, используем ее для настройки Spark Session
if spark_master_ip:
    from pyspark.sql import SparkSession
    spark = SparkSession.builder.appName("pyspark-taxi-forecasting") \
        .master(f"spark://{spark_master_ip}:7077") \
        .config("spark.executor.cores", "1") \
        .config("spark.task.cpus", 1) \
        .getOrCreate()
    print(f"Spark Master IP: {spark_master_ip}")
else:
    print("Переменная окружения SPARK_MASTER_IP не установлена")

Spark Master IP: 172.18.0.2


In [18]:
tma = tmach(tma)

Прирост: 17'406 байт


In [19]:
# Вывести свойства объекта spark
print("AppName:", spark.sparkContext.appName)
print("Master:", spark.sparkContext.master)
print("Version:", spark.version)

AppName: pyspark-taxi-forecasting
Master: spark://172.18.0.2:7077
Version: 3.5.0


### Загрузка данных

In [20]:
%%time
taxi = spark.read.load('/work/data/Taxi_Trips_-_2023.csv', 
                       format='csv', header='true', inferSchema='true')

CPU times: user 30.1 ms, sys: 11.5 ms, total: 41.6 ms
Wall time: 58.6 s


In [21]:
tma = tmach(tma)

Прирост: 2'503 байт


In [22]:
%%time
# Вывести схему данных
taxi.printSchema()

root
 |-- Trip ID: string (nullable = true)
 |-- Taxi ID: string (nullable = true)
 |-- Trip Start Timestamp: string (nullable = true)
 |-- Trip End Timestamp: string (nullable = true)
 |-- Trip Seconds: integer (nullable = true)
 |-- Trip Miles: double (nullable = true)
 |-- Pickup Census Tract: long (nullable = true)
 |-- Dropoff Census Tract: long (nullable = true)
 |-- Pickup Community Area: integer (nullable = true)
 |-- Dropoff Community Area: integer (nullable = true)
 |-- Fare: double (nullable = true)
 |-- Tips: double (nullable = true)
 |-- Tolls: double (nullable = true)
 |-- Extras: double (nullable = true)
 |-- Trip Total: double (nullable = true)
 |-- Payment Type: string (nullable = true)
 |-- Company: string (nullable = true)
 |-- Pickup Centroid Latitude: double (nullable = true)
 |-- Pickup Centroid Longitude: double (nullable = true)
 |-- Pickup Centroid Location: string (nullable = true)
 |-- Dropoff Centroid Latitude: double (nullable = true)
 |-- Dropoff Centroid 

In [23]:
# Отобразить первые несколько строк DataFrame
# taxi.show()

#### Загрузка таблицы с описанием полей данных

In [24]:
table_descr = pd.read_csv('/work/data/table_descr.csv',sep=';')

In [25]:
table_descr

Unnamed: 0,Column Name,Description,Type,Описание,Тип
0,Trip ID,A unique identifier for the trip.,Plain Text,Уникальный идентификатор поездки,Обычный текст
1,Taxi ID,A unique identifier for the taxi.,Plain Text,Уникальный идентификатор такси,Обычный текст
2,Trip Start Timestamp,When the trip started rounded to the nearest 1...,Date & Time,Время начала поездки округленное до ближайших...,Дата и время
3,Trip End Timestamp,When the trip ended rounded to the nearest 15 ...,Date & Time,Время окончания поездки округленное до ближай...,Дата и время
4,Trip Seconds,Time of the trip in seconds.,Number,Продолжительность поездки в секундах,Число
5,Trip Miles,Distance of the trip in miles.,Number,Расстояние поездки в милях,Число
6,Pickup Census Tract,The Census Tract where the trip began. For pri...,Plain Text,Код района по переписи населения где началас...,Обычный текст
7,Dropoff Census Tract,The Census Tract where the trip ended. For pri...,Plain Text,Код района по переписи населения где заверши...,Обычный текст
8,Pickup Community Area,The Community Area where the trip began. This ...,Number,Номер коммунальной области где началась поез...,Число
9,Dropoff Community Area,The Community Area where the trip ended. This ...,Number,Номер коммунальной области где завершилась п...,Число


In [26]:
# taxi[["Trip ID", "Taxi ID", "Trip Miles","Trip Start Timestamp","Trip End Timestamp","Trip Seconds","Trip Miles","Pickup Census Tract"]].show(5)

In [27]:
# taxi[["Trip ID", "Dropoff Census Tract", "Pickup Community Area","Dropoff Community Area","Trip End Timestamp","Trip Total","Trip Miles","Company"]].show(5)

In [28]:
# taxi[["Trip ID", "Pickup Centroid Latitude", "Pickup Centroid Longitude","Pickup Centroid Location",
#       "Dropoff Centroid Latitude","Dropoff Centroid Longitude","Dropoff Centroid  Location"]].show(5)

In [29]:
%%time
# print(taxi.describe().show())
# Запустите метод describe() на вашем PySpark DataFrame (например, taxi)
describe_result = taxi.describe().toPandas()

CPU times: user 380 ms, sys: 71.5 ms, total: 452 ms
Wall time: 2min 14s


In [30]:
describe_result

Unnamed: 0,summary,Trip ID,Taxi ID,Trip Start Timestamp,Trip End Timestamp,Trip Seconds,Trip Miles,Pickup Census Tract,Dropoff Census Tract,Pickup Community Area,...,Extras,Trip Total,Payment Type,Company,Pickup Centroid Latitude,Pickup Centroid Longitude,Pickup Centroid Location,Dropoff Centroid Latitude,Dropoff Centroid Longitude,Dropoff Centroid Location
0,count,3783730,3783730,3783730,3783682,3783012.0,3783717.0,1650232.0,1617623.0,3615963.0,...,3778327.0,3778327.0,3783730,3783730,3617351.0,3617351.0,3617351,3441935.0,3441935.0,3441935
1,mean,,,,,1235.327838769742,6.471233194766421,17031501647.110168,17031414613.682808,35.03091652209937,...,2.241853884007393,27.371134848836103,,,41.90200067412447,-87.69906175284666,,41.89419484402875,-87.66236339478645,
2,stddev,,,,,1736.5661018295189,7.593310441212216,373503.0647060841,344107.3452521434,26.078720147019503,...,19.47903838213312,37.03373571024758,,,0.0625112371151189,0.1121312848899471,,0.0565671166358407,0.0734554172085035,
3,min,0000012deb83dbb55726d5a75c374197d0641fa0,00110971c7c4a7173fcf93f49a22d6b9b0a02c27c4b9f8...,01/01/2023 01:00:00 AM,01/01/2023 01:00:00 AM,0.0,0.0,17031010100.0,17031010100.0,1.0,...,0.0,0.0,Cash,2733 - 74600 Benny Jona,41.651921576,-87.913624596,POINT (-87.5313862567 41.7204632831),41.660136051,-87.913624596,POINT (-87.5349029012 41.707311449)
4,max,fffffe03acfa1552c98fad12d73ff0aca70a5c2a,ffd231d2536b9463d888cfbb42f36d543b37d22d96a6dd...,08/01/2023 12:00:00 AM,10/17/2022 10:00:00 AM,86340.0,945.4,17031980100.0,17031980100.0,77.0,...,9446.65,9999.75,Unknown,U Taxicab,42.021223593,-87.531386257,POINT (-87.913624596 41.9802643146),42.021223593,-87.534902901,POINT (-87.913624596 41.9802643146)


In [31]:
describe_result = pd.read_csv('/work/data/2023_describe.csv',sep=',')

In [32]:
print(describe_result.transpose())

                                    0                   1              2  \
summary                         count                mean         stddev   
Trip ID                       3783730                 NaN            NaN   
Taxi ID                       3783730                 NaN            NaN   
Trip Start Timestamp          3783730                 NaN            NaN   
Trip End Timestamp            3783682                 NaN            NaN   
Trip Seconds                3783012.0         1235.327839    1736.566102   
Trip Miles                  3783717.0            6.471233        7.59331   
Pickup Census Tract         1650232.0  17031501647.110168  373503.064706   
Dropoff Census Tract        1617623.0  17031414613.682808  344107.345252   
Pickup Community Area       3615963.0           35.030917       26.07872   
Dropoff Community Area      3419046.0           26.097846      20.917892   
Fare                        3778327.0            21.99552      22.233947   
Tips        

In [33]:
# output_file_path = '/work/2023_describe.csv'
# describe_result.to_csv(output_file_path, index=False) #transpose().

In [34]:
# taxi.registerTempTable("taxi")
"""
/usr/local/spark/python/pyspark/sql/dataframe.py:330: FutureWarning: Deprecated in 2.0, use createOrReplaceTempView instead.
  warnings.warn("Deprecated in 2.0, use createOrReplaceTempView instead.", FutureWarning)
"""
taxi.createOrReplaceTempView("taxi")

In [35]:
%%time
# вам нужно использовать обратные кавычки ` ` (backticks) или просто имя столбца без кавычек
print(spark.sql("SELECT COUNT(*) FROM taxi WHERE `Trip Seconds` < 300").show())

+--------+
|count(1)|
+--------+
|  489757|
+--------+

None
CPU times: user 8.77 ms, sys: 21.3 ms, total: 30.1 ms
Wall time: 1min 25s


In [36]:
from pyspark.sql.functions import col, dayofweek, to_timestamp, rand, substring

In [37]:
def random_sample_dataframe(dataframe, percentage):
    # Генерируем случайные числа от 0 до 1 и фильтруем строки
    taxis = dataframe.filter(rand() < percentage)
    
    return taxis

In [38]:
taxis = random_sample_dataframe(taxi, 0.05)

In [39]:
taxis[["Trip ID", "Trip Start Timestamp"]].show(5)

+--------------------+--------------------+
|             Trip ID|Trip Start Timestamp|
+--------------------+--------------------+
|4d3e9a10152cf6629...|01/01/2023 12:00:...|
|5a40e60d165b75a1e...|01/01/2023 12:00:...|
|c2c335c8bb7699ae7...|01/01/2023 12:00:...|
|061aff7b0f8c46651...|01/01/2023 12:00:...|
|5b65bdff4dca5446e...|01/01/2023 12:00:...|
+--------------------+--------------------+
only showing top 5 rows



In [40]:
def determine_date_format(dataframe):
    # Выбираем первые два символа из столбца "Trip Start Timestamp"
    first_two_chars = dataframe.select(substring("Trip Start Timestamp", 1, 2))
    
    # Подсчитываем уникальные значения первых двух символов
    unique_values = first_two_chars.distinct().count()
    
    # Определяем маску на основе количества уникальных значений
    date_format = "dd/MM/yyyy" if unique_values >= 13 else "MM/dd/yyyy"
    
    return date_format, unique_values

In [41]:
%%time
# Пример использования:
date_format, unique_values = determine_date_format(taxis)
print("Дата формат:", date_format,", количество уникальных значений в 1-х двух знаках:",unique_values)

Дата формат: MM/dd/yyyy , количество уникальных значений в 1-х двух знаках: 8
CPU times: user 13.4 ms, sys: 405 µs, total: 13.8 ms
Wall time: 27.2 s


In [42]:
taxis.select(substring("Trip Start Timestamp", 1, 2)).distinct().show()

+-------------------------------------+
|substring(Trip Start Timestamp, 1, 2)|
+-------------------------------------+
|                                   01|
|                                   04|
|                                   07|
|                                   06|
|                                   03|
|                                   02|
|                                   05|
|                                   08|
+-------------------------------------+



In [43]:
taxis[["Trip Start Timestamp"]].show(n=15, truncate=False)

+----------------------+
|Trip Start Timestamp  |
+----------------------+
|01/01/2023 12:00:00 AM|
|01/01/2023 12:00:00 AM|
|01/01/2023 12:00:00 AM|
|01/01/2023 12:00:00 AM|
|01/01/2023 12:00:00 AM|
|01/01/2023 12:00:00 AM|
|01/01/2023 12:00:00 AM|
|01/01/2023 12:15:00 AM|
|01/01/2023 12:15:00 AM|
|01/01/2023 12:15:00 AM|
|01/01/2023 12:15:00 AM|
|01/01/2023 12:15:00 AM|
|01/01/2023 12:15:00 AM|
|01/01/2023 12:30:00 AM|
|01/01/2023 12:30:00 AM|
+----------------------+
only showing top 15 rows



In [44]:
taxis.select(to_timestamp(taxis["Trip Start Timestamp"], 'MM/dd/yyyy hh:mm:ss a').alias("Trip Start Timestamp")).show(15)

+--------------------+
|Trip Start Timestamp|
+--------------------+
| 2023-01-01 00:00:00|
| 2023-01-01 00:00:00|
| 2023-01-01 00:00:00|
| 2023-01-01 00:00:00|
| 2023-01-01 00:00:00|
| 2023-01-01 00:00:00|
| 2023-01-01 00:00:00|
| 2023-01-01 00:15:00|
| 2023-01-01 00:15:00|
| 2023-01-01 00:15:00|
| 2023-01-01 00:15:00|
| 2023-01-01 00:15:00|
| 2023-01-01 00:15:00|
| 2023-01-01 00:30:00|
| 2023-01-01 00:30:00|
+--------------------+
only showing top 15 rows



In [45]:
taxis = taxis.withColumn("Trip Start Timestamp", to_timestamp(taxis["Trip Start Timestamp"], 'MM/dd/yyyy hh:mm:ss a'))

In [46]:
taxis[["Trip Start Timestamp"]].show(n=15, truncate=False)

+--------------------+
|Trip Start Timestamp|
+--------------------+
|2023-01-01 00:00:00 |
|2023-01-01 00:00:00 |
|2023-01-01 00:00:00 |
|2023-01-01 00:00:00 |
|2023-01-01 00:00:00 |
|2023-01-01 00:00:00 |
|2023-01-01 00:00:00 |
|2023-01-01 00:15:00 |
|2023-01-01 00:15:00 |
|2023-01-01 00:15:00 |
|2023-01-01 00:15:00 |
|2023-01-01 00:15:00 |
|2023-01-01 00:15:00 |
|2023-01-01 00:30:00 |
|2023-01-01 00:30:00 |
+--------------------+
only showing top 15 rows



In [47]:
taxis = taxis.withColumn("DayOfWeek", dayofweek(col("Trip Start Timestamp")))

In [52]:
taxis.createOrReplaceTempView("taxis")

In [53]:
%%time
# taxis.createOrReplaceTempView("taxis")
q = \
"""
SELECT
    DayOfWeek,
    AVG(`Trip Seconds`)
FROM taxis
GROUP BY DayOfWeek
"""
print(spark.sql(q).show(10))

+---------+------------------+
|DayOfWeek| avg(Trip Seconds)|
+---------+------------------+
|        1| 1265.662987836378|
|        6|1247.4076747590998|
|        3| 1208.587138830162|
|        5| 1267.462233221908|
|        4|1236.5200979391961|
|        7|1163.4668037734161|
|        2|1227.4766005377517|
+---------+------------------+

None
CPU times: user 18.1 ms, sys: 11.4 ms, total: 29.5 ms
Wall time: 17.6 s


Вывод %%time в Jupyter Notebook содержит информацию о времени выполнения кода в двух разных контекстах:

    CPU times: Это время, которое ваш код фактически проводит в CPU (Central Processing Unit) или процессоре. Он разбивается на две части:
        user: Это время, в течение которого CPU выполняет пользовательский код (ваш код).
        sys: Это время, которое CPU тратит на выполнение системных операций, таких как ввод/вывод данных.

    Wall time: Это общее время, которое прошло с начала выполнения кода до его завершения. Это включает в себя не только вычислительное время, но и время, которое может быть затрачено на ожидание ввода/вывода, блокировку потоков и другие факторы, которые могут вызвать задержки в выполнении кода.

В вашем конкретном выводе:

    user составляет 10.5 миллисекунд (0.0105 секунд).
    sys составляет 2.63 миллисекунд (0.00263 секунд).
    total (сумма user и sys) равно 13.2 миллисекунд (0.0132 секунд).

Это время, которое фактически затратилось на выполнение кода на процессоре.

    Wall time составляет 25.3 секунды. Это общее время с момента запуска ячейки до ее завершения, включая все вычисления и возможные задержки.

Обратите внимание, что Wall time (время на стенке) обычно больше, чем сумма user и sys, потому что оно включает в себя также время, которое может быть затрачено на ожидание ввода/вывода или другие факторы, которые могут замедлить выполнение кода.

In [49]:
taxis.printSchema()

root
 |-- Trip ID: string (nullable = true)
 |-- Taxi ID: string (nullable = true)
 |-- Trip Start Timestamp: timestamp (nullable = true)
 |-- Trip End Timestamp: string (nullable = true)
 |-- Trip Seconds: integer (nullable = true)
 |-- Trip Miles: double (nullable = true)
 |-- Pickup Census Tract: long (nullable = true)
 |-- Dropoff Census Tract: long (nullable = true)
 |-- Pickup Community Area: integer (nullable = true)
 |-- Dropoff Community Area: integer (nullable = true)
 |-- Fare: double (nullable = true)
 |-- Tips: double (nullable = true)
 |-- Tolls: double (nullable = true)
 |-- Extras: double (nullable = true)
 |-- Trip Total: double (nullable = true)
 |-- Payment Type: string (nullable = true)
 |-- Company: string (nullable = true)
 |-- Pickup Centroid Latitude: double (nullable = true)
 |-- Pickup Centroid Longitude: double (nullable = true)
 |-- Pickup Centroid Location: string (nullable = true)
 |-- Dropoff Centroid Latitude: double (nullable = true)
 |-- Dropoff Centro

In [51]:
taxis[["Trip ID", "Trip Start Timestamp","DayOfWeek"]].show(5)

+--------------------+--------------------+---------+
|             Trip ID|Trip Start Timestamp|DayOfWeek|
+--------------------+--------------------+---------+
|4d3e9a10152cf6629...| 2023-01-01 00:00:00|        1|
|5a40e60d165b75a1e...| 2023-01-01 00:00:00|        1|
|c2c335c8bb7699ae7...| 2023-01-01 00:00:00|        1|
|061aff7b0f8c46651...| 2023-01-01 00:00:00|        1|
|5b65bdff4dca5446e...| 2023-01-01 00:00:00|        1|
+--------------------+--------------------+---------+
only showing top 5 rows

