<h2 dir=rtl>
عبارات منظم
</h2>

<div dir=rtl>
عبارات منظم با هدف تشخیص الگو مانند شناسایی شماره تلفن، ایمیل، آدرس اینترنتی و ... در متن‌ها است.
</div>

<div dir=rtl>
برای بهره‌گیری از عبارات منظم در پایتون باید کتابخانه
<code>re</code>
را اضافه کنیم.
</div>

In [1]:
import re

<div dir=rtl>
برای تعریف یک الگو از دستور
<code>compile</code>
استفاده می‌کنیم.
این دستور یک رشته به عنوان ورودی دریافت می‌کند. این رشته یک رشته معمولی نیست بلکه قرار است
ساختاری که به دنبال آن هستیم را به ما نشان بدهد.
به همین منظور قبل از آغاز رشته
<code>r</code>
می‌گذاریم.
</div>

In [2]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'abc')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(0, 3), match='abc'>


In [3]:
contents[0:3]

'abc'

<div dir=rtl>
در عبارت منظم یک سری کاراکتر معنای خاصی دارند که در ادامه با آن‌ها آشنا می‌شویم.
</div>

|Symbol|Meaning|
|:-----:|:----:|
|.|Any Character Except New Line|
|\d|Digit (0-9)|
|\D|Not a Digit (0-9)|
|\w|Word Character (a-z, A-Z, 0-9, \_) |
|\W|Not a Word Character|
|\s|Whitespace (space, tab, newline)|
|\S|Not Whitespace (space, tab, newline)|
|\b|Word Boundary|
|\B|Not a Word Boundary|
|^|Beginning of a String|
|$|End of a String|
|[]|Matches Characters in brackets|
|[^ ]|Matches Characters NOT in brackets|
|I|Either Or|
|()|Group|
|\*|0 or More|
|+|1 or More|
|?|0 or One|
|{3}|Exact Number|
|{3,4}|Range of Numbers (Minimum, Maximum)|

In [4]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'\d\d\d\d')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(54, 58), match='1234'>
<re.Match object; span=(58, 62), match='5678'>
<re.Match object; span=(257, 261), match='1374'>


<div dir=rtl>
عبارت منظم حساس به بزرگی و کوچکی حروف است.
</div>

In [5]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'\.com$')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(388, 392), match='.com'>


In [6]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'\bPoPo')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(71, 75), match='PoPo'>
<re.Match object; span=(76, 80), match='PoPo'>
<re.Match object; span=(83, 87), match='PoPo'>


In [7]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'\bPoPo\b')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(71, 75), match='PoPo'>
<re.Match object; span=(83, 87), match='PoPo'>


<div dir=rtl>
    <b>سوال:</b>
شماره تلفن‌های ایران را با عبارت منظم تشخیص دهید.
</div>

In [8]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'\+98 \d\d\d-\d\d-\d\d-\d\d\d')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(92, 109), match='+98 912-50-23-791'>
<re.Match object; span=(110, 127), match='+98 939-66-45-228'>
<re.Match object; span=(128, 145), match='+98 912-51-62-592'>


<div dir=rtl>
کد بالا خوانا نیست. همچنین امکان اشتباه هم وجود دارد. می‌توانیم بهتر از این عمل کنیم.
</div>

In [9]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'(\+98) (\d{3})-(\d{2})-(\d{2})-(\d{3})')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(92, 109), match='+98 912-50-23-791'>
<re.Match object; span=(110, 127), match='+98 939-66-45-228'>
<re.Match object; span=(128, 145), match='+98 912-51-62-592'>


<div dir=rtl>
فرض کنید می‌خواهیم رقم‌های بین صفر تا پنج را تشخیص دهیم.
</div>

In [10]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'[1-5]{3}')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(54, 57), match='123'>


<div dir=rtl>
می‌توانیم با استفاده از کروشه حروف کوچک و بزرگ را تشخیص دهیم.
</div>

In [11]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'[a-zA-z.]{10}')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(0, 10), match='abcdefghij'>
<re.Match object; span=(10, 20), match='klmnopqrst'>
<re.Match object; span=(27, 37), match='ABCDEFGHIJ'>
<re.Match object; span=(37, 47), match='KLMNOPQRST'>
<re.Match object; span=(151, 161), match='Aghamohamm'>
<re.Match object; span=(200, 210), match='al.aghamoh'>
<re.Match object; span=(227, 237), match='mohammad.o'>
<re.Match object; span=(278, 288), match='f.gorbanpo'>
<re.Match object; span=(302, 312), match='sharif.edu'>
<re.Match object; span=(320, 330), match='sanjesh.or'>
<re.Match object; span=(340, 350), match='bankmellat'>
<re.Match object; span=(362, 372), match='www.google'>
<re.Match object; span=(377, 387), match='www.youtub'>


<div dir=rtl>
<b>سوال:</b>
    اسامی افراد را با عبارت منظم تشخیص دهید.
</div>

In [12]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'(Mr\.|Mrs\.|Mr|Ms) [A-Z][a-z]{2,}')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(147, 164), match='Mr. Aghamohammadi'>
<re.Match object; span=(165, 174), match='Mr Torabi'>
<re.Match object; span=(175, 183), match='Ms Izadi'>
<re.Match object; span=(184, 197), match='Mrs. Khosravi'>


<div dir=rtl>
<b>سوال:</b>
    عبارت منظمی بنویسید که ایمیل افراد را استخراج کند.
</div>

In [13]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'[a-zA-Z][a-zA-Z0-9.]*@[a-zA-Z]+\.(com|edu|net|ir)')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(200, 226), match='al.aghamohammadi@gmail.com'>
<re.Match object; span=(227, 253), match='mohammad.ostad73@gmail.com'>
<re.Match object; span=(254, 277), match='ali1374karimi@gmail.com'>
<re.Match object; span=(278, 299), match='f.gorbanpor@yahoo.com'>


<div dir=rtl>
<b>سوال:</b>
    عبارت منظمی بنویسید که آدرس اینترنتی را بازیابی کند.
</div>

In [14]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'(?<!.)(http://|https://)?(www.)?\b[a-zA-Z]+\.(edu|ir|com|org)')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match)

<re.Match object; span=(302, 312), match='sharif.edu'>
<re.Match object; span=(313, 331), match='http://sanjesh.org'>
<re.Match object; span=(332, 353), match='https://bankmellat.ir'>
<re.Match object; span=(354, 376), match='https://www.google.com'>
<re.Match object; span=(377, 392), match='www.youtube.com'>


<div dir=rtl>
در عبارت منظم، مفهومی به نام
<code>group</code>
وجود دارد.
</div>

In [15]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'(?<!.)(http://|https://)?(www.)?(?P<name>[a-zA-Z]+)(?P<dot>\.)(?P<domain>edu|ir|com|org)')
    matches = pattern.finditer(contents)
    for match in matches:
        print(match.group(3))
        print(match.group('name'))

sharif
sharif
sanjesh
sanjesh
bankmellat
bankmellat
google
google
youtube
youtube


In [16]:
with open("./files/regex.txt", 'r') as f:
    contents = f.read()
    pattern = re.compile(r'(?<!.)(http://|https://)?(www.)?(?P<name>[a-zA-Z]+)(?P<dot>\.)(?P<domain>edu|ir|com|org)')
    matches = pattern.finditer(contents)
    for match in matches:
        print(pattern.sub(r'\g<name>\g<dot>\g<domain>', match.group()))

sharif.edu
sanjesh.org
bankmellat.ir
google.com
youtube.com


<div dir=rtl>
تعدادی دستور دیگر نیز برای عبارت‌های منظم وجود دارد.
</div>

In [17]:
pattern.findall(contents)

[('', '', 'sharif', '.', 'edu'),
 ('http://', '', 'sanjesh', '.', 'org'),
 ('https://', '', 'bankmellat', '.', 'ir'),
 ('https://', 'www.', 'google', '.', 'com'),
 ('', 'www.', 'youtube', '.', 'com')]

In [18]:
pattern.search(contents)

<re.Match object; span=(302, 312), match='sharif.edu'>