In [1]:
from pyspark.sql import SparkSession

In [2]:
# 1. Создаем сессию Spark
spark = SparkSession.builder \
    .appName("SensorLogs") \
    .getOrCreate()

In [3]:
# 2. Загружаем данные из logfiles.log в RDD
rdd = spark.sparkContext.textFile("logfiles.log")

In [4]:
# Просмотр первых 5 строк RDD
print(rdd.take(5))

['28.225.186.85 - - [01/Jan/2025:00:00:00 +0530] "POST /docs/api HTTP/1.0" 200 4992 "https://simmons.info/tagterms.html" "Mozilla/5.0 (iPhone; CPU iPhone OS 17_5_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.5 Mobile/15E148 Safari/604.1" 1425', '180.13.230.30 - - [01/Jan/2025:00:26:03 +0530] "DELETE /auth/register HTTP/1.0" 200 5009 "https://robles.com/tags/wp-contentsearch.asp" "Mozilla/5.0 (Linux; Android 14; Pixel 8) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Mobile Safari/537.36" 3557', '82.67.67.141 - - [01/Jan/2025:00:52:07 +0530] "GET /blog/latest HTTP/1.0" 401 4951 "https://simmons.info/tagterms.html" "Mozilla/5.0 (iPhone; CPU iPhone OS 17_5_1 like Mac OS X) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.5 Mobile/15E148 Safari/604.1" 1182', '115.106.252.49 - - [01/Jan/2025:01:18:11 +0530] "PUT /api/v1/products HTTP/1.0" 200 4921 "https://simmons.info/tagterms.html" "Mozilla/5.0 (iPhone; CPU iPhone OS 17_5_1 like Mac OS X) AppleWebKit/605

In [5]:
# 3. Напишите функцию parse_log, которая будет парсить каждую строку лога. Функция должна извлекать и возвращать следующие поля в кортеже:
# - IP-адрес 
# - Полную строку запроса (например, "GET /api/v1/users HTTP/1.0")
# - Статус-код ответа
# - Размер ответа в байтах
def parse_log(line):
    parts = line.split()
    ip_address = parts[0]
    request = " ".join(parts[5:8]).strip('"')
    status_code = parts[8]
    response_size = int(parts[9]) if parts[9].isdigit() else 0
    return (ip_address, request, status_code, response_size)

In [6]:
# Применяем функцию parse_log к RDD
parsed_rdd = rdd.map(parse_log)

In [7]:
# Просмотр первых 5 строк после парсинга
print(parsed_rdd.take(5))

[('28.225.186.85', 'POST /docs/api HTTP/1.0', '200', 4992), ('180.13.230.30', 'DELETE /auth/register HTTP/1.0', '200', 5009), ('82.67.67.141', 'GET /blog/latest HTTP/1.0', '401', 4951), ('115.106.252.49', 'PUT /api/v1/products HTTP/1.0', '200', 4921), ('139.50.169.237', 'OPTIONS / HTTP/1.0', '500', 4990)]


In [8]:
# 4. Посчитайте общее количество запросов
total_requests = parsed_rdd.count()
print(f"Total requests: {total_requests}")

Total requests: 10000


In [9]:
# 5. Рассчитайте средний размер ответа сервера (в байтах) по всем запросам
average_response_size = parsed_rdd.map(lambda x: x[3]).mean()
print(f"Average response size: {average_response_size:.2f} bytes")

Average response size: 4999.05 bytes


In [10]:
# 6. Определите количество уникальных IP-адресов, которые обращались к серверу
unique_ips = parsed_rdd.map(lambda x: x[0]).distinct().count()
print(f"Unique IP addresses: {unique_ips}")

Unique IP addresses: 10000


In [11]:
# 7. Посчитайте количество запросов для каждого HTTP-статус-кода (например, сколько 200, сколько 404, сколько 500)
status_counts = parsed_rdd.map(lambda x: (x[2], 1)).reduceByKey(lambda a, b: a + b)
print("Status code counts:")
for status, count in status_counts.collect():
    print(f"{status}: {count}")

Status code counts:
200: 3850
401: 781
500: 797
301: 780
302: 773
403: 735
404: 820
502: 730
400: 734


In [12]:
# 8. Определите долю успешных запросов (статус-код 200) от общего числа запросов в процента
successful_requests = status_counts.filter(lambda x: x[0] == "200").collect()
total_successful = successful_requests[0][1] if successful_requests else 0
success_rate = (total_successful / total_requests) * 100 if total_requests > 0 else 0
print(f"Success rate: {success_rate:.2f}%")

Success rate: 38.50%


In [13]:
# 9. Найдите Топ-5 самых часто запрашиваемых эндпоинтов. 
# Эндпоинт - это часть URL-адреса, которая указывает на конкретный ресурс или функцию на сервере, к которой обращается клиент. 
# Например, в запросе "GET /api/v1/users HTTP/1.0" эндпоинтом является /api/v1/users.

def extract_endpoint(request):
    parts = request.split()
    return parts[1] if len(parts) > 1 else None

top_endpoints = parsed_rdd.map(lambda x: (extract_endpoint(x[1]), 1)) \
    .reduceByKey(lambda a, b: a + b) \
    .takeOrdered(5, key=lambda x: -x[1])

print("Top 5 endpoints:")
for endpoint, count in top_endpoints:
    print(f"{endpoint}: {count} requests")

Top 5 endpoints:
/search?q=spark: 952 requests
/docs/api: 949 requests
/admin/dashboard: 935 requests
/auth/register: 929 requests
/: 913 requests


In [14]:
# 10. Посчитайте, сколько запросов каждого типа (GET, POST, PUT и т.д.) было сделано
def get_request_type(request):
    return request.split()[0] if request else None

request_type_counts = parsed_rdd.map(lambda x: (get_request_type(x[1]), 1)) \
    .reduceByKey(lambda a, b: a + b) \
    .collect()
print("Request type counts:")
for request_type, count in request_type_counts:
    print(f"{request_type}: {count} requests")

Request type counts:
PUT: 1640 requests
HEAD: 1669 requests
POST: 1641 requests
DELETE: 1711 requests
GET: 1677 requests
OPTIONS: 1662 requests
