In [1]:
from pyspark.sql import SparkSession
from pyspark.sql import functions as F

spark = SparkSession.builder.appName("IP").getOrCreate()

df = spark.read.csv("web_server_logs.csv", header=True, inferSchema=True)

# Сгруппируйте данные по IP и посчитайте количество запросов для каждого IP, выводим 10 самых активных IP. Формат вывода, как на скрине ниже.
print("Top 10 active IP address:")
df.groupBy("ip").agg(F.count("ip").alias("request_count")).sort(F.desc("request_count")).limit(10).show()

# Сгруппируйте данные по HTTP-методу и посчитайте количество запросов для каждого метода.
print("Request count by HTTP method:")
df.groupBy("method").agg(F.count("method").alias("method_count")).show()

# Профильтруйте и посчитайте количество запросов с кодом ответа 404.
response_code = df.filter(F.col('response_code') == '404')
response_code_count = response_code.count()
print(f'Number of 404 response codes: {response_code_count}')

# Сгруппируйте данные по дате и просуммируйте размер ответов, сортируйте по дате.
df_date = df.withColumn("date", F.to_date(F.col("timestamp")))
df_date.groupBy("date").agg(F.sum(F.col("response_size")).alias("total_response_size")).sort(F.col("date")).show()

spark.stop()

Top 10 active IP address:
+---------------+-------------+
|             ip|request_count|
+---------------+-------------+
|  41.91.124.220|            1|
|  146.124.73.40|            1|
|  72.37.124.146|            1|
|   32.76.79.141|            1|
|   202.2.137.40|            1|
|   147.9.34.141|            1|
|152.249.106.183|            1|
|   178.166.2.51|            1|
|  190.101.207.6|            1|
|  47.175.154.37|            1|
+---------------+-------------+

Request count by HTTP method:
+------+------------+
|method|method_count|
+------+------------+
|  POST|       24846|
|DELETE|       25136|
|   PUT|       25019|
|   GET|       24999|
+------+------------+

Number of 404 response codes: 25180
+----------+-------------------+
|      date|total_response_size|
+----------+-------------------+
|2025-01-01|           16261629|
|2025-01-02|           16837720|
|2025-01-03|           15584872|
|2025-01-04|           15903789|
|2025-01-05|           16094484|
|2025-01-06|      