# آموزش مقدماتی عبارات منظم (Regular Expressions)

در این نوت‌بوک، مفاهیم پایه‌ای و مهم عبارات منظم با مثال‌های عملی پوشش داده می‌شوند.

## 📌 جمع‌بندی: سه دستور پرکاربرد در re

**1. `re.search(pattern, string)`**
- بررسی می‌کند که آیا الگو (pattern) در رشته (string) وجود دارد یا نه.
- در صورت وجود، اولین تطبیق را برمی‌گرداند؛ در غیر این‌صورت، `None` برمی‌گرداند.
- مثال:
```python
import re
re.search(r'cat', 'a black cat')  # پیدا می‌کند
```

**2. `re.findall(pattern, string)`**
- تمام مواردی که با الگو تطبیق دارند را به صورت لیستی از رشته‌ها برمی‌گرداند.
- مثال:
```python
re.findall(r'\d', 'abc123')  # ['1', '2', '3']
```

**3. `re.fullmatch(pattern, string)`**
- بررسی می‌کند که آیا کل رشته دقیقاً با الگو تطبیق دارد یا نه.
- بیشتر برای اعتبارسنجی (مثل ایمیل یا کد ملی) مفید است.
- مثال:
```python
re.fullmatch(r'\d{4}', '1234')  # درست است
re.fullmatch(r'\d{4}', '12345')  # نادرست است
```

# آموزش عبارات منظم (Regex) با Python
این نوت‌بوک آموزشی مبتنی بر مفاهیم ارائه‌شده توسط Dan Jurafsky است و به بررسی الگوهای رایج در Regular Expressions می‌پردازد.

## کاراکترها و براکت‌ها
- `[abc]` یعنی یکی از حروف a، b یا c
- `[A-Z]` یعنی یک حرف بزرگ انگلیسی
- `[0-9]` یعنی یک رقم عددی
- `[a-z]` یعنی یک حرف کوچک انگلیسی


In [2]:
import re

text = "Woodchuck woodchuck my beans were impatient! Chapter 1: Down the Rabbit Hole!"
print(re.findall(r"[Ww]oodchuck", text))
print(re.findall(r"[0-9]", text))

['Woodchuck', 'woodchuck']
['1']


## نقیض (Negation) در براکت
- `[^Ss]` یعنی هیچ‌کدام از 'S' یا 's'
- `[^A-Z]` یعنی هر چیزی به جز حروف بزرگ

In [3]:
text = "Oyfn pripetchik! I have no exquisite reason. Look here!"
print(re.findall(r"[^A-Z]", text))
print(re.findall(r"[^Ss]", text))
print(re.findall(r"^Ss", text))

['y', 'f', 'n', ' ', 'p', 'r', 'i', 'p', 'e', 't', 'c', 'h', 'i', 'k', '!', ' ', ' ', 'h', 'a', 'v', 'e', ' ', 'n', 'o', ' ', 'e', 'x', 'q', 'u', 'i', 's', 'i', 't', 'e', ' ', 'r', 'e', 'a', 's', 'o', 'n', '.', ' ', 'o', 'o', 'k', ' ', 'h', 'e', 'r', 'e', '!']
['O', 'y', 'f', 'n', ' ', 'p', 'r', 'i', 'p', 'e', 't', 'c', 'h', 'i', 'k', '!', ' ', 'I', ' ', 'h', 'a', 'v', 'e', ' ', 'n', 'o', ' ', 'e', 'x', 'q', 'u', 'i', 'i', 't', 'e', ' ', 'r', 'e', 'a', 'o', 'n', '.', ' ', 'L', 'o', 'o', 'k', ' ', 'h', 'e', 'r', 'e', '!']
[]


## نمادهای جایگزینی و Pipe `|`
- `groundhog|woodchuck` یکی از این دو
- `[aA]|[bB]|[cC]` معادل `[abcABC]`


In [4]:
text = "Woodchuck and groundhog are the same!"
print(re.findall(r"[Gg]roundhog|[Ww]oodchuck", text))

['Woodchuck', 'groundhog']


## تکرار: `?`, `*`, `+`, `.`
- `colou?r` = color یا colour
- `o+h` = حداقل یک o قبل از h
- `oo*h` = هر تعداد o (حتی صفر)
- `beg.n` = begin، begun، beg3n، ...

In [5]:
text = "color colour ooh oh oooh! beg3n begun begin, oh jjjjh, hhh"
print(re.findall(r"colou?r", text))
print(re.findall(r"o+h", text))
print(re.findall(r"oo*h", text))
print(re.findall(r"beg.n", text))

['color', 'colour']
['ooh', 'oh', 'oooh', 'oh']
['ooh', 'oh', 'oooh', 'oh']
['beg3n', 'begun', 'begin']


## مکان‌یابی با Anchors: `^` و `$`
- `^` شروع خط یا رشته
- `$` پایان خط یا رشته
- `^[A-Z]` یعنی خطی که با حرف بزرگ شروع می‌شود
- `\.$` یعنی خطی که با نقطه پایان یافته است

In [9]:
text = "The end.\n1 Hello.\nPalo Alto!"
lines = text.splitlines()
for line in lines:
    if re.search(r"^[A-Z]", line):
        print("Starts with uppercase:", line)
    if re.search(r"\.$", line):
        print("Ends with period:", line)
lines, text

Starts with uppercase: The end.
Ends with period: The end.
Ends with period: 1 Hello.
Starts with uppercase: Palo Alto!


(['The end.', '1 Hello.', 'Palo Alto!'], 'The end.\n1 Hello.\nPalo Alto!')

## تمرین نهایی: پیدا کردن کلمه `the`
- به شکل دقیق: `[^a-zA-Z][tT]he[^a-zA-Z]`
- برای حذف تطابق اشتباه مانند theology یا other

In [7]:
text = "The quick brown fox jumps over the lazy dog. Then the theology lesson began."
print(re.findall(r"[^a-zA-Z][tT]he[^a-zA-Z]", ' ' + text + ' '))

[' The ', ' the ', ' the ']


## تمرین: تشخیص آدرس ایمیل با عبارات منظم
یک مقدار متنی به نام `x` بگیرید و بررسی کنید که آیا این مقدار یک آدرس ایمیل معتبر است یا خیر.

**راهنمایی:**
- آدرس ایمیل می‌تواند شامل حروف، اعداد، نقطه (`.`)، آندرلاین (`_`) و dash (`-`) باشد.
- باید دارای `@` و سپس یک دامنه مانند `gmail.com` یا `university.edu` باشد.
- مثال: `example_user-42@gmail.com`


In [None]:
x = "alien.ghasemigol192@gma5il.com"
if re.fullmatch(r"^/w/._-+@", x:
    print("valid")
else:
    print("not valid")
result

not valid


'alienghasemigol192gm54654ailcom'

In [46]:
print(re.findall(r"@gmail.com$" , x) or re.findall(r"@university.edu$" , x))

[]


In [64]:
import re

email_regex = re.compile(
    r"^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+$"
)

# Example usage
test_emails = [
    "exam+ple@example.co50m",
    "user.name+tag+sorting@example.co.uk",
    "invalid@.com",
    "noatsign.com",
    "name@domain"
]

for email in test_emails:
    if email_regex.match(email):
        print(f"Valid: {email}")
    else:
        print(f"Invalid: {email}")


Valid: exam+ple@example.co50m
Valid: user.name+tag+sorting@example.co.uk
Invalid: invalid@.com
Invalid: noatsign.com
Invalid: name@domain
