# Set in Python: Introduction & Motivation

<div dir="rtl">

- **set** = ساختار داده برای نگهداری مقادیر **unique** و **بدون ترتیب**
- پیاده‌سازی‌شده بر پایه **hash table**
- فقط عناصر **hashable** را می‌پذیرد
- حذف سریع مقادیر تکراری (deduplication) در مجموعه‌ها
- عملیات **عضویت (membership test)** بسیار سریع: زمان تقریبی O(1)
- کاربرد مهم در پردازش داده، یادگیری ماشین، تحلیل دیتا (پیدا کردن مقادیر یکتا، حذف تکراری، تست عضویت و ...)

</div>

# Set Construction and Definition

<div dir="rtl">

- ساخت set با دو روش:
    - استفاده از آکولاد `{}` و جداکردن عناصر با ویرگول
    - استفاده از **تابع** `set()` با ورودی یک **iterable** (مثل لیست، رشته)
- ساخت set خالی فقط با `set()`
- `{}` بدون مقدار، یک **dict** می‌سازد، نه set!
- همه عناصر باید **hashable** باشند

</div>

In [None]:
# Creating a set using curly braces
my_set = {1, 2, 3, 2, 1}
print(my_set)   # Output: {1, 2, 3}

# Creating a set from a list using set()
another_set = set([3, 4, 5, 3])
print(another_set)   # Output: {3, 4, 5}

# Creating an empty set (the only correct way)
empty_set = set()
print(empty_set)   # Output: set()

# Warning: This creates a dictionary, not a set!
not_a_set = {}
print(type(not_a_set))   # <class 'dict'>


# Set Properties and Limitations

<div dir="rtl">

- عناصر set **ترتیب ندارند** (unordered):  
  - ترتیب نمایش یا ذخیره عناصر تضمین‌شده نیست و نباید به ترتیب آن تکیه کنید
- هر عنصر فقط **یک بار** می‌تواند در set باشد (**unique**)
- فقط عناصر **hashable** (تغییرناپذیر/immutable مثل int, str, tuple) می‌توانند عضو set باشند  
  - list، dict و set دیگر را نمی‌توان مستقیماً در set قرار داد
- set **خودش mutable** است: می‌توان عناصر را اضافه یا حذف کرد
- set از لحاظ سرعت و بهینگی، برای تست وجود/عدم وجود یک مقدار در مجموعه بسیار مناسب است  
  - جستجو، حذف، اضافه کردن عنصر معمولاً زمان O(1) دارد
- set نمی‌تواند **کلید دیکشنری** باشد، چون خودش hashable نیست
- نوع دیگری از set به نام **frozenset** وجود دارد که immutable است

</div>

# Adding and Removing Elements in a Set

<div dir="rtl">

- برای اضافه کردن عنصر به set از متد **add()** استفاده کنید  
  - اگر مقدار قبلاً در set باشد، تغییری ایجاد نمی‌شود
- برای اضافه کردن چندین عنصر (از یک iterable مثل لیست)، از متد **update()** استفاده کنید
- برای حذف عنصر از متد **remove()** یا **discard()** استفاده می‌شود:
  - **remove(x):** اگر x وجود نداشته باشد، خطا می‌دهد (KeyError)
  - **discard(x):** اگر x وجود نداشته باشد، خطا نمی‌دهد
- متد **pop()** یک عنصر را (که تصادفی نیست، بلکه بسته به ساختار داخلی hash table است) حذف و بازمی‌گرداند  
  - ترتیب pop برای کاربر قابل پیش‌بینی یا کنترل نیست  
  - معمولاً در هر اجرای یکسان، اولین عنصر hash table را برمی‌گرداند  
  - نباید از آن انتظار تصادفی‌بودن واقعی داشت
  - اگر set خالی باشد، **pop() خطا می‌دهد** (KeyError)
- متد **clear()** کل set را خالی می‌کند

</div>

In [None]:
# Adding an element
s = {1, 2, 3}
s.add(4)       # s becomes {1, 2, 3, 4}
s.add(2)       # No effect, 2 is already in the set

# Adding multiple elements
s.update([5, 6])
print(s)       # Output: {1, 2, 3, 4, 5, 6}

# Removing an element
s.remove(3)
print(s)       # Output: {1, 2, 4, 5, 6}
# s.remove(10) # Raises KeyError

# Discarding an element
s.discard(4)
print(s)       # Output: {1, 2, 5, 6}
s.discard(99)  # No error if not found

# Popping a random element (but not truly random!)
value = s.pop()
print("Popped:", value)
print(s)       # s has one less element

# Popping from an empty set raises KeyError
s.clear()
# s.pop()     # Uncommenting this will raise KeyError

# Clearing all elements
print(s)       # Output: set()


# Set Hash Table Order and pop() Behavior

<div dir="rtl">

- رفتار pop() بر اساس ساختار داخلی hash table است
- ترتیب نمایش set در پایتون‌های جدید معمولاً همان ترتیب hash table است
- pop() نیز عناصر را دقیقاً به همین ترتیب حذف می‌کند
- این ترتیب ممکن است همیشه ثابت نباشد، اما فعلاً برای یک set مشخص در یک اجرای ثابت، رفتار قابل پیش‌بینی دارد
- نباید منطق برنامه را بر اساس این ترتیب نوشت
- برای intهای کوچک معمولاً hash(x) == x است

</div>

In [None]:
# Example: create a set and add an element that likely falls in the middle of the hash table
s = {7, 14, 21, 28}
s.add(13)
print("Initial set:", s)

# Which element does pop() remove?
popped = s.pop()
print("Popped element:", popped)
print("Set after pop:", s)

# Pop again to see the next element
second_popped = s.pop()
print("Second popped element:", second_popped)
print("Set after second pop:", s)


In [None]:
# Printing hash and hash table index for elements in a set
s = {28, 7, 21, 14, 0}
table_size = 8
for value in s:
    print(f"value: {value}, hash: {hash(value)}, index: {hash(value) % table_size}")


In [None]:
# Observe the actual pop() order for set elements (in practice)
s = {28, 7, 21, 14, 0}
print("Original set:", s)
while s:
    popped = s.pop()
    print("Popped:", popped, "| Remaining set:", s)


# Set Operations: Union, Intersection, Difference, Symmetric Difference, and Comparisons

<div dir="rtl">

- **اجتماع (union):** ترکیب تمام عناصر دو یا چند set بدون تکرار
    - `a | b` یا `a.union(b)`
- **اشتراک (intersection):** عناصر مشترک بین دو یا چند set
    - `a & b` یا `a.intersection(b)`
- **تفاضل (difference):** عناصری که فقط در set اول وجود دارند و در دومی نیستند
    - `a - b` یا `a.difference(b)`
- **تفاضل متقارن (symmetric difference):** عناصری که فقط در یکی از setها هستند و در هر دو نیستند
    - `a ^ b` یا `a.symmetric_difference(b)`
- **بررسی زیرمجموعه بودن:**  
    - `a <= b` یا `a.issubset(b)`
- **بررسی ابرمجموعه بودن:**  
    - `a >= b` یا `a.issuperset(b)`
- **بررسی نابرابری کامل (disjoint):**  
    - `a.isdisjoint(b)` → True اگر هیچ عنصر مشترکی نباشد

</div>

In [None]:
a = {1, 2, 3, 4}
b = {3, 4, 5, 6}

# Union
print(a | b)                 # {1, 2, 3, 4, 5, 6}
print(a.union(b))            # {1, 2, 3, 4, 5, 6}

# Intersection
print(a & b)                 # {3, 4}
print(a.intersection(b))     # {3, 4}

# Difference
print(a - b)                 # {1, 2}
print(a.difference(b))       # {1, 2}

# Symmetric Difference
print(a ^ b)                 # {1, 2, 5, 6}
print(a.symmetric_difference(b))  # {1, 2, 5, 6}

# Subset and Superset
print(a <= b)                # False
print({3, 4} <= a)           # True (subset)
print(a >= {3, 4})           # True (superset)

# Disjoint
print(a.isdisjoint({5, 6, 7}))  # False (چون 5 و 6 در b هستند، ولی نه در a)
print({7, 8}.isdisjoint(a))     # True (هیچ عنصر مشترکی وجود ندارد)


# Frozenset in Python: ویژگی‌ها و تفاوت با set

<div dir="rtl">

- **frozenset** یک نوع مجموعه (**set**) غیرقابل تغییر (**immutable**) است  
- پس از ساخت، نمی‌توان هیچ عنصری به آن اضافه یا حذف کرد (متدهایی مثل add/remove وجود ندارد)
- عناصر باید **hashable** باشند (مثل set)
- می‌تواند به عنوان **کلید دیکشنری** یا عضو set دیگر استفاده شود (چون خودش hashable است)
- تمام عملیات‌های ریاضی و مقایسه‌ای (union, intersection, difference, ...) را دارد، اما متدهای تغییردهنده (add, update, ...) را ندارد

</div>

In [None]:
# Creating a frozenset
fs = frozenset([1, 2, 3, 2, 1])
print(fs)          # Output: frozenset({1, 2, 3})

# Operations
a = frozenset([1, 2, 3])
b = frozenset([3, 4, 5])
print(a | b)       # frozenset({1, 2, 3, 4, 5})
print(a & b)       # frozenset({3})

# Frozenset as dict key
d = {frozenset([1, 2]): "OK"}
print(d)           # Output: {frozenset({1, 2}): 'OK'}

# Error if try to modify
# a.add(10)        # AttributeError: 'frozenset' object has no attribute 'add'


# Converting Collections to Set and Vice Versa

<div dir="rtl">

- تبدیل **list**، **tuple**، **str**، **range** و هر **iterable** دیگر به set:
    - `set(obj)`  
    - مثال: حذف مقادیر تکراری از لیست
- تبدیل **set** به **list** یا **tuple**:
    - `list(set_obj)` یا `tuple(set_obj)`
- تبدیل **set** به **sorted list**:
    - `sorted(set_obj)`
- در تبدیل به set، ترتیب حفظ نمی‌شود و فقط عناصر یکتا باقی می‌مانند
- هر عنصری که قرار است وارد set شود، باید **hashable** باشد؛ در غیر این صورت TypeError رخ می‌دهد
- اگر عناصر تو در تو (nested) باشند، تنها در صورتی که همه hashable باشند، set ساخته می‌شود
- کاربرد عملی: deduplication، پردازش سریع membership، ساخت دیتای تمیز و مقایسه مجموعه‌ها

</div>

In [None]:
# Removing duplicates from a list
lst = [1, 2, 2, 3, 1, 4, 5, 4]
unique = set(lst)
print(unique)        # Output: {1, 2, 3, 4, 5}

# Convert set back to list (unordered)
unique_list = list(unique)
print(unique_list)

# Sorted list of unique elements
sorted_list = sorted(unique)
print(sorted_list)   # Output: [1, 2, 3, 4, 5]

# Tuple to set and back
t = (5, 6, 6, 7)
s = set(t)
print(s)             # {5, 6, 7}
t_back = tuple(s)
print(t_back)

# From string to set (unique characters)
chars = set("mississippi")
print(chars)         # Output: set of unique characters

# Error: unhashable elements
# s = set([{1, 2}, {3, 4}])  # TypeError: unhashable type: 'set'
# s = set(([1, 2], [3, 4]))  # TypeError: unhashable type: 'list'

# Valid: nested tuples (hashable)
s = set([(1, 2), (3, 4)])
print(s)             # {(1, 2), (3, 4)}


# Set Comprehension, Practical Tips, and Performance Notes

<div dir="rtl">

- **Set comprehension**: ساخت سریع و خوانای مجموعه‌ها با یک خط کد مشابه لیست کامپرهنشن  
    - سینتکس: `{expression for item in iterable if condition}`
    - بسیار مفید برای فیلتر کردن، حذف تکراری، استخراج ویژگی منحصربه‌فرد و ساخت داده تمیز  
- **کاربردهای عملی**:
    - حذف سریع مقادیر تکراری (deduplication)
    - تست وجود یا عدم وجود مقدار (membership)
    - مقایسه سریع دو مجموعه بزرگ (intersection, difference)
    - شمارش unique values در دیتا
- **دام‌های رایج**:
    - set قابل اندیس‌گذاری (indexing) نیست: نمی‌توان `s[0]` نوشت
    - set مرتب نیست: برای مرتب کردن باید `sorted(set_obj)` استفاده کنی
    - فقط عناصر hashable می‌پذیرد؛ اگر نیاز به ذخیره دیکشنری یا لیست داری، باید آن‌ها را به tuple تبدیل کنی
- **نکات performance**:
    - عملیات جستجو (`in`) در set بسیار سریع‌تر از لیست است (O(1) vs O(n))
    - ساخت set خیلی بزرگ، به دلیل resize پشت‌صحنه ممکن است در شروع کمی کند باشد، ولی membership همیشه سریع است
- **نکته:** در تست با timeit اگر از متغیرهای خارجی مثل `lst` یا `st` استفاده می‌کنی، باید `globals=globals()` به تابع `timeit.timeit` بدهی تا به آن متغیرها دسترسی داشته باشد.

**مقایسه سرعت جستجو (membership) در set و list:**  
- ساخت set کندتر از لیست است (O(n))  
- اما پس از ساخت، جستجو در set فوق‌العاده سریع‌تر از لیست انجام می‌شود (O(1) در مقابل O(n))

</div>

In [None]:
# Set comprehension: unique even numbers from a list
nums = [1, 2, 2, 3, 4, 4, 5, 6, 8, 8, 10, 11]
evens = {x for x in nums if x % 2 == 0}
print(evens)      # Output: {2, 4, 6, 8, 10}

# Fast deduplication
words = ["apple", "orange", "banana", "apple", "banana"]
unique_words = set(words)
print(unique_words)  # {'apple', 'banana', 'orange'}

# Membership speed test
import timeit

lst = list(range(1_000_000)) + [42]
st = set(lst)

print("List membership:", timeit.timeit('999_999 in lst', globals=globals(), number=1000))
print("Set membership:", timeit.timeit('999_999 in st', globals=globals(), number=1000))

# Set is not indexable!
s = {1, 2, 3}
# print(s[0])    # TypeError: 'set' object is not subscriptable

# To access elements by index, convert to list or sorted list
lst2 = list(s)
print(lst2[0])

# Error with unhashable elements
# s = set([{'a': 1}, {'b': 2}])  # TypeError: unhashable type: 'dict'
