In [0]:
df = spark.read.csv("/Volumes/workspace/default/oid_lab_4/mobile_app_interactions_expanded.csv", header=True)

In [0]:
display(df)

timestamp,user_id,session_id,ip_address,device_os,device_os_version,device_model,screen_resolution,location_country,location_city,app_language,network_type,battery_level,memory_usage_mb,event_type,event_target,event_value,app_version,session_duration_sec,is_subscribed,user_age,phone_number,push_enabled
2025-01-13T23:12:43,13457,S-852694,181.246.29.95,Android,9.9,OnePlus 9,1080x1920,Senegal,South Luiston,ru,5G,91,3687,double_tap,profile_image,5,2.6.8,3311,True,51,001-423-901-2346x818,False
2024-12-24T22:57:29,95977,S-766538,59.155.205.42,Android,7.9,Samsung Galaxy S22,1080x1920,Greenland,Lake Brandonton,ru,5G,44,3521,pinch,search_bar,6,3.3.6,3283,False,40,(437)544-4735,False
2024-12-22T09:00:26,52758,S-228244,183.205.124.1,iOS,15.1,iPhone 13,1080x1920,Falkland Islands (Malvinas),Julieside,en,3G,29,639,zoom,menu_icon,6,5.4.5,2870,True,73,001-815-298-0574x8189,True
2025-01-07T02:53:07,53777,S-633216,179.124.111.38,iOS,16.1,iPhone 14 Pro,720x1280,Comoros,North Steven,zh,3G,85,119,long_press,checkout_button,9,4.7.1,332,True,47,(252)814-8186,False
2024-12-22T15:58:18,6302,S-508537,198.184.172.85,Android,7.6,Motorola Edge,1080x1920,Mayotte,Ernestport,es,5G,40,1789,view,settings_button,7,2.0.8,1694,True,32,+1-778-241-8813,False
2025-01-04T11:25:33,32032,S-445295,180.41.133.196,Android,13.8,Samsung Galaxy Note20,1080x1920,Senegal,Port Angela,fr,3G,71,2042,long_press,checkout_button,8,3.0.0,3446,False,77,(553)954-3503,True
2025-01-02T19:17:13,88775,S-995611,63.61.79.118,Android,7.2,Samsung Galaxy S22,1440x2560,France,Kellychester,de,5G,74,672,share,home_page_banner,2,3.3.2,699,True,47,983.890.2637x4372,False
2025-01-03T01:02:23,65515,S-639814,131.121.116.90,Android,7.2,Samsung Galaxy S22,2160x3840,Saint Lucia,New Ashleychester,ja,5G,2,2112,zoom,menu_icon,7,2.4.8,2232,True,37,335.719.7901x6008,False
2025-01-01T18:18:20,4782,S-500767,205.118.155.209,iOS,13.9,iPhone SE (2022),1440x2560,Montenegro,New Michelletown,de,4G,11,4319,view,search_bar,8,4.6.7,2332,True,68,653-684-1564,True
2025-01-11T15:50:15,67787,S-895407,173.44.76.233,iOS,12.2,iPhone 12,1080x1920,Saint Martin,Robinsonmouth,ar,WiFi,69,505,swipe,home_page_banner,3,2.3.9,2250,False,72,001-657-366-4569,False


In [0]:
from pyspark.sql import functions as F
from pyspark.sql import types as T

# --- ВСТАНОВЛЕНО КОРЕКТНИЙ ФОРМАТ ---
TIME_FORMAT = "yyyy-MM-dd'T'HH:mm:ss" 
# ------------------------------------

# Припустімо, df - це ваш DataFrame

# 1. Вибірка та перетворення типів
df_cleaned = df.select(
    F.col("user_id").alias("user_id"),
    F.col("session_id").alias("session_id"),
    # ВИПРАВЛЕНО: Використовуємо коректний TIME_FORMAT
    F.try_to_timestamp(
        F.col("timestamp"), 
        F.lit(TIME_FORMAT)
    ).alias("timestamp") # Перейменуємо на "timestamp"
)

# 2. Очищення: відкидаємо рядки, де конвертація була невдалою
df_cleaned = df_cleaned.filter(F.col("timestamp").isNotNull())

print("Схема робочого DataFrame після коректної конвертації:")
df_cleaned.printSchema()

Схема робочого DataFrame після коректної конвертації:
root
 |-- user_id: string (nullable = true)
 |-- session_id: string (nullable = true)
 |-- timestamp: timestamp (nullable = true)



In [0]:
display(df_cleaned)

user_id,session_id,timestamp
13457,S-852694,2025-01-13T23:12:43.000Z
95977,S-766538,2024-12-24T22:57:29.000Z
52758,S-228244,2024-12-22T09:00:26.000Z
53777,S-633216,2025-01-07T02:53:07.000Z
6302,S-508537,2024-12-22T15:58:18.000Z
32032,S-445295,2025-01-04T11:25:33.000Z
88775,S-995611,2025-01-02T19:17:13.000Z
65515,S-639814,2025-01-03T01:02:23.000Z
4782,S-500767,2025-01-01T18:18:20.000Z
67787,S-895407,2025-01-11T15:50:15.000Z


In [0]:
from pyspark.sql import functions as F
from pyspark.sql.functions import min as F_min, max as F_max, avg as F_avg, count
import time

# --- Вхідний DataFrame: df_cleaned ---
# Припустімо, що df_cleaned містить: "user_id", "session_id", "timestamp"
df_input = df_cleaned 


# --- 1. Алгоритм 1: Налаштування за замовчуванням (Високе Перетасування) ---

print("\n--- Алгоритм 1: Налаштування за замовчуванням (T_A) ---")
# Spark викликає SHUFFLE за замовчуванням (зазвичай 200 розділів)

start_time_A = time.time()

# 1. Розрахунок тривалості сеансу: Групування за СПИСКОМ колонок
df_sessions_A = df_input.groupBy("user_id", "session_id").agg(
    # Тривалість = MAX("timestamp") - MIN("timestamp")
    (F_max(F.col("timestamp")).cast("long") - F_min(F.col("timestamp")).cast("long")).alias("session_duration_seconds"),
    count("*").alias("event_count")
)

# 2. Кінцева агрегація: Обчислення загального середнього значення (Action)
avg_duration_A = df_sessions_A.agg(F_avg(F.col("session_duration_seconds")).alias("average_session_duration")).collect()

T_A = time.time() - start_time_A

print(f"Час виконання Алгоритму 1 (T_A): {T_A:.2f} сек")
print("Середня тривалість сеансу (алгоритм 1):", avg_duration_A[0]["average_session_duration"])

# --- 2. Алгоритм 2: Оптимізоване Перетасування (Стратегія B) ---

OPTIMAL_PARTITIONS = 24 

print(f"\n--- Алгоритм 2: Оптимізоване Перетасування (T_B, {OPTIMAL_PARTITIONS} розділів) ---")

# ПЕРЕТАСУВАННЯ: Передаємо ОБИДВІ колонки до repartition
df_low_shuffle = df_input.repartition(
    OPTIMAL_PARTITIONS, 
    F.col("user_id"), 
    F.col("session_id")
)

start_time_B = time.time()

# Групування та агрегація (ВИКОРИСТОВУЄМО "timestamp")
# Групування також за двома колонками
df_sessions_B = df_low_shuffle.groupBy("user_id", "session_id").agg(
    (F_max(F.col("timestamp")).cast("long") - F.min(F.col("timestamp")).cast("long")).alias("session_duration_seconds"),
    count("*").alias("event_count")
)

# Кінцева агрегація
avg_duration_B = df_sessions_B.agg(F_avg(F.col("session_duration_seconds")).alias("average_session_duration")).collect()

T_B = time.time() - start_time_B

print(f"Час виконання Алгоритму 2 (T_B): {T_B:.2f} сек")
print("Середня тривалість сеансу (алгоритм 2):", avg_duration_B[0]["average_session_duration"])


--- Алгоритм 1: Налаштування за замовчуванням (T_A) ---
Час виконання Алгоритму 1 (T_A): 1.56 сек
Середня тривалість сеансу (алгоритм 1): 17.011767317939608

--- Алгоритм 2: Оптимізоване Перетасування (T_B, 24 розділів) ---
Час виконання Алгоритму 2 (T_B): 0.76 сек
Середня тривалість сеансу (алгоритм 2): 17.011767317939608


In [0]:
import math

N = 8                # Кількість ядер
# ----------------------------------------

# 2. Оцінка Послідовної Частки (1-P)
# Припускаємо, що T_seq (послідовний час) становить 10% від найкращого виміру (T_B)
T_seq = 0.1 * T_B

# T_par_on_N_cores = T_B - T_seq
T_par_on_N_cores = T_B - T_seq

# Оцінка загального часу паралельної роботи на одному ядрі (T_par)
T_par_estimated = T_par_on_N_cores * N

# 3. Обчислення частки паралелізму (P)
# P = T_par / T_total_on_one_core
T_1_estimated = T_seq + T_par_estimated # Час на одному ядрі (T_1)
P = T_par_estimated / T_1_estimated 
P_seq = 1 - P

print("--- Оцінка компонентів часу ---")
print(f"Оцінений послідовний час (T_seq): {T_seq:.2f} сек")
print(f"Оцінений загальний час на 1 ядрі (T_1): {T_1_estimated:.2f} сек")
print(f"Оцінена частка паралельної роботи (P): {P:.4f} ({P*100:.2f}%)")

# --- 4. ЗАСТОСУВАННЯ ЗАКОНУ АМДАЛА ---

# Розрахунок максимального теоретичного прискорення
S_max_theoretical = 1 / (P_seq + (P / N))

print("\n--- Моделювання продуктивності ---")
print(f"Максимальне теоретичне прискорення (S_max) на {N} ядрах: {S_max_theoretical:.2f} рази")


--- Оцінка компонентів часу ---
Оцінений послідовний час (T_seq): 0.08 сек
Оцінений загальний час на 1 ядрі (T_1): 5.52 сек
Оцінена частка паралельної роботи (P): 0.9863 (98.63%)

--- Моделювання продуктивності ---
Максимальне теоретичне прискорення (S_max) на 8 ядрах: 7.30 рази
