In [None]:
from pyspark.sql import SparkSession

from pyspark.sql.functions import col, to_date, mean, month, year, when

# Создание SparkSession

spark = SparkSession.builder.appName("IpAnalysis").getOrCreate()

# Чтение данных

web_server_df = spark.read.csv("web_server_logs.csv", header=True, inferSchema=True)

In [None]:
# Регистрация DataFrame
web_server_df.createOrReplaceTempView("logs")

# Задание:
# Сгруппируйте данные по IP и посчитайте количество запросов для каждого IP, выводим 10 самых активных IP
z_df = spark.sql("""
SELECT ip,(COUNT(*)) AS request_count
FROM logs
GROUP BY ip
ORDER BY request_count DESC
""")

print('Top 10 active IP addresses:')
# Показ результатов
z_df.show(10)

Top 10 active IP addresses:
+---------------+-------------+
|             ip|request_count|
+---------------+-------------+
|158.109.166.156|            2|
|    12.81.3.193|            1|
|172.156.127.165|            1|
|   33.38.202.82|            1|
| 121.109.40.230|            1|
| 74.189.115.159|            1|
|  218.62.156.51|            1|
|  73.67.162.196|            1|
|  51.245.82.101|            1|
|  149.92.35.243|            1|
+---------------+-------------+
only showing top 10 rows



In [None]:
# Задание:
# Сгруппируйте данные по HTTP-методу и посчитайте количество запросов для каждого метода.
http_df = spark.sql("""
SELECT method,(COUNT(*)) AS method_count
FROM logs
GROUP BY method
ORDER BY method_count DESC
""")

print('Request count by HTTP method:')
# Показ результатов
http_df.show()


Request count by HTTP method:
+------+------------+
|method|method_count|
+------+------------+
|   PUT|       25301|
|  POST|       25100|
|   GET|       24846|
|DELETE|       24753|
+------+------------+



In [None]:
# Задание:
#Профильтруйте и посчитайте количество запросов с кодом ответа 404.
req1_df = spark.sql("""
SELECT (COUNT(*)) AS response_count
FROM logs
WHERE response_code = 404
""")

response_count = req1_df.first()['response_count']

print('Number of 404 response code:',response_count)


Number of 404 response code: 25073


In [27]:
# Задание:
#Сгруппируйте данные по дате и просуммируйте размер ответов, сортируйте по дате.

data_df = spark.sql("""
SELECT DATE(timestamp) AS date,(SUM(response_size)) AS total_response_size
FROM logs
GROUP BY DATE(timestamp)
ORDER BY date ASC
""")

print('Total response size by day:')
# Показ результатов
data_df.show()


Total response size by day:
+----------+-------------------+
|      date|total_response_size|
+----------+-------------------+
|2025-01-01|            2393342|
|2025-01-02|            2256660|
|2025-01-03|            2243011|
|2025-01-04|            2445623|
|2025-01-05|            2244198|
|2025-01-06|            2143094|
|2025-01-07|            2267350|
|2025-01-08|            2415279|
|2025-01-09|            2116010|
|2025-01-10|            2279789|
|2025-01-11|            2321200|
|2025-01-12|            2531599|
|2025-01-13|            2579026|
|2025-01-14|            2303737|
|2025-01-15|            2132195|
|2025-01-16|            2198705|
|2025-01-17|            2210819|
|2025-01-18|            2182767|
|2025-01-19|            2208834|
|2025-01-20|            2069093|
+----------+-------------------+
only showing top 20 rows

