# **Word Count**

In [1]:
lines = [
    "big data is awesome",
    "data is power",
    "map reduce is a data processing pattern",
    "big data big problems"
]

# عرض السطور للتأكد
print("السطور المدخلة:")
for i, line in enumerate(lines, start=1):
    print(f"Line {i}: {line}")

السطور المدخلة:
Line 1: big data is awesome
Line 2: data is power
Line 3: map reduce is a data processing pattern
Line 4: big data big problems


In [2]:
# 2) تعريف دالة الـ mapper
def mapper(line):
    """
    تأخذ سطر نصي وتُرجع قائمة من الأزواج (الكلمة, 1)
    """
    line = line.lower()
    for ch in [",", ".", "!", "?", ";", ":", "(", ")", "\"", "'"]:
        line = line.replace(ch, " ")
    words = line.split()
    pairs = []
    for w in words:
        pairs.append((w, 1))
    return pairs

# تجربة الدالة على سطر واحد
test_line = "Big data, big problems!"
print("Input:", test_line)
print("Output:", mapper(test_line))

Input: Big data, big problems!
Output: [('big', 1), ('data', 1), ('big', 1), ('problems', 1)]


In [3]:
# 3) تطبيق mapper على كل سطر وعرض النتيجة لكل سطر لوحده
mapped = []

print("نتيجة الـ map لكل سطر:\n")
for i, line in enumerate(lines, start=1):
    pairs = mapper(line)
    mapped.extend(pairs)   # نضيف أزواج هذا السطر للقائمة العامة
    print(f"Line {i}: {line}")
    print("  mapped:", pairs)
    print()

print("كل الأزواج (word, 1) مجمّعة في قائمة واحدة:")
print(mapped)

نتيجة الـ map لكل سطر:

Line 1: big data is awesome
  mapped: [('big', 1), ('data', 1), ('is', 1), ('awesome', 1)]

Line 2: data is power
  mapped: [('data', 1), ('is', 1), ('power', 1)]

Line 3: map reduce is a data processing pattern
  mapped: [('map', 1), ('reduce', 1), ('is', 1), ('a', 1), ('data', 1), ('processing', 1), ('pattern', 1)]

Line 4: big data big problems
  mapped: [('big', 1), ('data', 1), ('big', 1), ('problems', 1)]

كل الأزواج (word, 1) مجمّعة في قائمة واحدة:
[('big', 1), ('data', 1), ('is', 1), ('awesome', 1), ('data', 1), ('is', 1), ('power', 1), ('map', 1), ('reduce', 1), ('is', 1), ('a', 1), ('data', 1), ('processing', 1), ('pattern', 1), ('big', 1), ('data', 1), ('big', 1), ('problems', 1)]


In [4]:
from collections import defaultdict

# 4) تجميع الأزواج حسب الكلمة (كأنها مرحلة shuffle & sort)
grouped = defaultdict(list)

for word, count in mapped:
    grouped[word].append(count)

print("القيم المجمّعة لكل كلمة (word => [1,1,...]):\n")
for word in sorted(grouped.keys()):
    print(f"{word} => {grouped[word]}")

القيم المجمّعة لكل كلمة (word => [1,1,...]):

a => [1]
awesome => [1]
big => [1, 1, 1]
data => [1, 1, 1, 1]
is => [1, 1, 1]
map => [1]
pattern => [1]
power => [1]
problems => [1]
processing => [1]
reduce => [1]


In [5]:
# 5) تعريف دالة الـ reducer
def reducer(word, values):
    """
    تأخذ كلمة وقائمة من القيم [1,1,1,...]
    وتُرجع (الكلمة, مجموع التكرارات)
    """
    total = sum(values)
    return (word, total)

# تطبيق reduce على كل كلمة
reduced = []
for word, values in grouped.items():
    reduced.append(reducer(word, values))

# ترتيب تنازلي حسب عدد التكرار
reduced_sorted = sorted(reduced, key=lambda x: x[1], reverse=True)

print("النتيجة النهائية لـ Word Count (من الأكثر تكراراً للأقل):\n")
for word, count in reduced_sorted:
    print(f"{word}: {count}")

النتيجة النهائية لـ Word Count (من الأكثر تكراراً للأقل):

data: 4
big: 3
is: 3
awesome: 1
power: 1
map: 1
reduce: 1
a: 1
processing: 1
pattern: 1
problems: 1


# **Sales per Region Analysis**

In [6]:
lines = [
    "Laptop,2,500,North",
    "Mouse,5,20,South",
    "Laptop,1,550,North",
    "Keyboard,3,30,East",
    "Mouse,10,25,South"
]

print("السطور المدخلة (مبيعات):")
for i, line in enumerate(lines, start=1):
    print(f"Line {i}: {line}")

السطور المدخلة (مبيعات):
Line 1: Laptop,2,500,North
Line 2: Mouse,5,20,South
Line 3: Laptop,1,550,North
Line 4: Keyboard,3,30,East
Line 5: Mouse,10,25,South


In [7]:
# 2) تعريف دالة الـ mapper الخاصة بالمبيعات
def sales_mapper(line):
    """
    تأخذ سطر من CSV بالشكل:
    Product,Quantity,UnitPrice,Region
    وترجع زوج واحد: (Region, Revenue)
    """
    parts = line.split(",")

    # استخراج الحقول
    product = parts[0]
    quantity = int(parts[1])
    unit_price = float(parts[2])
    region = parts[3]

    revenue = quantity * unit_price

    return (region, revenue)

test_line = "Laptop,2,500,North"
print("Input:", test_line)
print("Output:", sales_mapper(test_line))

Input: Laptop,2,500,North
Output: ('North', 1000.0)


In [8]:
# 3) تطبيق sales_mapper على كل السطور
mapped = []

print("نتيجة الـ map لكل سطر:\n")
for i, line in enumerate(lines, start=1):
    pair = sales_mapper(line)
    mapped.append(pair)
    print(f"Line {i}: {line}")
    print("  mapped:", pair)
    print()

print("كل الأزواج (Region, Revenue) مجمّعة في قائمة واحدة:")
print(mapped)

نتيجة الـ map لكل سطر:

Line 1: Laptop,2,500,North
  mapped: ('North', 1000.0)

Line 2: Mouse,5,20,South
  mapped: ('South', 100.0)

Line 3: Laptop,1,550,North
  mapped: ('North', 550.0)

Line 4: Keyboard,3,30,East
  mapped: ('East', 90.0)

Line 5: Mouse,10,25,South
  mapped: ('South', 250.0)

كل الأزواج (Region, Revenue) مجمّعة في قائمة واحدة:
[('North', 1000.0), ('South', 100.0), ('North', 550.0), ('East', 90.0), ('South', 250.0)]


In [9]:
from collections import defaultdict

# 4) تجميع الإيرادات حسب المنطقة
grouped = defaultdict(list)

for region, revenue in mapped:
    grouped[region].append(revenue)

print("القيم المجمّعة لكل منطقة (Region => [Revenue1, Revenue2, ...]):\n")
for region in sorted(grouped.keys()):
    print(f"{region} => {grouped[region]}")

القيم المجمّعة لكل منطقة (Region => [Revenue1, Revenue2, ...]):

East => [90.0]
North => [1000.0, 550.0]
South => [100.0, 250.0]


In [10]:
# 5) تعريف دالة الـ reducer
def sales_reducer(region, values):
    """
    تأخذ Region وقائمة من الإيرادات [rev1, rev2, ...]
    وترجع (Region, مجموع الإيرادات)
    """
    total_revenue = sum(values)
    return (region, total_revenue)

# تطبيق reduce على كل منطقة
reduced = []
for region, values in grouped.items():
    reduced.append(sales_reducer(region, values))

# ترتيب حسب الإيراد من الأكبر للأصغر
reduced_sorted = sorted(reduced, key=lambda x: x[1], reverse=True)

print("النتيجة النهائية: إجمالي الإيرادات لكل Region (من الأعلى للأقل):\n")
for region, total in reduced_sorted:
    print(f"{region}: {total}")

النتيجة النهائية: إجمالي الإيرادات لكل Region (من الأعلى للأقل):

North: 1550.0
South: 350.0
East: 90.0


# **Web Log Analysis**

In [7]:
%%writefile weblogs.txt
# Date, Time, IP, Method, URL, Status, ResponseSize
2025-10-10,12:01:32,192.168.1.2,GET,/index.html,200,1024
2025-10-10,12:01:33,192.168.1.3,GET,/products.html,200,850
2025-10-10,12:01:35,192.168.1.4,GET,/contact.html,404,512
2025-10-10,12:01:38,192.168.1.5,POST,/checkout,500,128
2025-10-10,12:01:41,192.168.1.6,GET,/index.html,200,1024
2025-10-10,12:01:45,192.168.1.7,GET,/images/logo.png,200,256
2025-10-10,12:01:48,192.168.1.8,GET,/about.html,404,512
2025-10-10,12:01:53,192.168.1.9,POST,/login,403,64
2025-10-10,12:02:01,192.168.1.10,GET,/index.html,200,1024
2025-10-10,12:02:07,192.168.1.11,POST,/checkout,500,128
2025-10-10,12:02:12,192.168.1.12,GET,/contact.html,404,512
2025-10-10,12:02:15,192.168.1.13,GET,/index.html,200,1024
2025-10-10,12:02:21,192.168.1.14,GET,/products.html,200,850
2025-10-10,12:02:23,192.168.1.15,GET,/about.html,404,512
2025-10-10,12:02:29,192.168.1.16,POST,/checkout,500,128
2025-10-10,12:02:31,192.168.1.17,GET,/images/logo.png,200,256
2025-10-10,12:02:34,192.168.1.18,GET,/contact.html,404,512
2025-10-10,12:02:38,192.168.1.19,POST,/login,403,64
2025-10-10,12:02:41,192.168.1.20,GET,/index.html,200,1024
2025-10-10,12:02:47,192.168.1.21,GET,/products.html,200,850


Writing weblogs.txt


In [8]:
# ===== الخلية 2: قراءة ملف weblogs.txt في قائمة "lines" =====

lines = []
with open('weblogs.txt', 'r', encoding='utf-8') as f:
    for line in f:
        # نتجاهل سطر التعليق وأي أسطر فاضية
        if line.strip().startswith("#"):
            continue
        if not line.strip():
            continue
        lines.append(line)

print("عدد السطور المقروءة (بدون التعليقات):", len(lines))
print("\nأول 5 سطور:")
for l in lines[:5]:
    print(l.strip())


عدد السطور المقروءة (بدون التعليقات): 20

أول 5 سطور:
2025-10-10,12:01:32,192.168.1.2,GET,/index.html,200,1024
2025-10-10,12:01:33,192.168.1.3,GET,/products.html,200,850
2025-10-10,12:01:35,192.168.1.4,GET,/contact.html,404,512
2025-10-10,12:01:38,192.168.1.5,POST,/checkout,500,128
2025-10-10,12:01:41,192.168.1.6,GET,/index.html,200,1024


In [11]:
# ===== الخلية 3: تطبيق mapper على كل السطور (مرحلة الـ Map) =====

mapped_status = []

print("نتيجة الـ map لكل سطر (status, 1):\n")
for i, line in enumerate(lines, start=1):
    pairs = mapper(line)
    mapped_status.extend(pairs)
    # لو ما تحتاجي الطباعة، تقدري تلغي السطرين الجايين
    if pairs:
        print(f"Line {i}: {line.strip()}")
        print("  mapped:", pairs)
        print()

print("إجمالي عدد الأزواج (status, 1):", len(mapped_status))


نتيجة الـ map لكل سطر (status, 1):

Line 1: 2025-10-10,12:01:32,192.168.1.2,GET,/index.html,200,1024
  mapped: [('200', 1)]

Line 2: 2025-10-10,12:01:33,192.168.1.3,GET,/products.html,200,850
  mapped: [('200', 1)]

Line 3: 2025-10-10,12:01:35,192.168.1.4,GET,/contact.html,404,512
  mapped: [('404', 1)]

Line 4: 2025-10-10,12:01:38,192.168.1.5,POST,/checkout,500,128
  mapped: [('500', 1)]

Line 5: 2025-10-10,12:01:41,192.168.1.6,GET,/index.html,200,1024
  mapped: [('200', 1)]

Line 6: 2025-10-10,12:01:45,192.168.1.7,GET,/images/logo.png,200,256
  mapped: [('200', 1)]

Line 7: 2025-10-10,12:01:48,192.168.1.8,GET,/about.html,404,512
  mapped: [('404', 1)]

Line 8: 2025-10-10,12:01:53,192.168.1.9,POST,/login,403,64
  mapped: [('403', 1)]

Line 9: 2025-10-10,12:02:01,192.168.1.10,GET,/index.html,200,1024
  mapped: [('200', 1)]

Line 10: 2025-10-10,12:02:07,192.168.1.11,POST,/checkout,500,128
  mapped: [('500', 1)]

Line 11: 2025-10-10,12:02:12,192.168.1.12,GET,/contact.html,404,512
  mappe

In [10]:
# ===== الخلية 4: Map + Group + Reduce لعدد الطلبات لكل Status Code =====

from collections import defaultdict

# 1) مرحلة الـ Map
mapped_status = []
for line in lines:
    mapped_status.extend(mapper(line))

print("إجمالي عدد الأزواج (status, 1):", len(mapped_status))
print("أول 10 أزواج:")
print(mapped_status[:10])

# 2) مرحلة الـ Group: تجميع القيم حسب status
grouped_status = defaultdict(list)
for status, c in mapped_status:
    grouped_status[status].append(c)

print("\nالقيم المجمّعة لكل status:")
for status in sorted(grouped_status.keys()):
    print(f"{status} => {grouped_status[status]}")

# 3) مرحلة الـ Reduce: جمع القيم لكل status
def reducer_status(status, values):
    return (status, sum(values))

reduced_status = []
for status, values in grouped_status.items():
    reduced_status.append(reducer_status(status, values))

# ترتيب حسب status code
reduced_status_sorted = sorted(reduced_status, key=lambda x: x[0])

print("\nالنتيجة النهائية: عدد الطلبات لكل HTTP status:\n")
for status, total in reduced_status_sorted:
    print(f"HTTP {status}: {total} requests")


إجمالي عدد الأزواج (status, 1): 20
أول 10 أزواج:
[('200', 1), ('200', 1), ('404', 1), ('500', 1), ('200', 1), ('200', 1), ('404', 1), ('403', 1), ('200', 1), ('500', 1)]

القيم المجمّعة لكل status:
200 => [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]
403 => [1, 1]
404 => [1, 1, 1, 1, 1]
500 => [1, 1, 1]

النتيجة النهائية: عدد الطلبات لكل HTTP status:

HTTP 200: 10 requests
HTTP 403: 2 requests
HTTP 404: 5 requests
HTTP 500: 3 requests
