## Python - biblioteka standardowa - wyrażenia regularne - lekcja

In [22]:
import re
from doctest import testmod

## Składnia

* Identyfikatory
* Modyfikatory
* Greedy
* Flagi
* Grupy
* https://python.astrotech.io/stdlib/regular-expressions/syntax.html

* `\d` - dowolna cyfra
* `\D` - downy znak, poza cyfrą
* `\w` - dowlona litera (utf-8)
* `\W` - downly znak poza literą
* `\s` - dowlny biały znak (nowa linia, spacja, tabulacja)
* `\S` - dowolny znak, poza białym (nowa linia, spacja, tabulacja)
* `\n` - nowa linia
* `\t` - tabulacja
* `\f` - form feed
* `\b` - spacje okalające słowo

* `[]` - zasięg, np. `[a-z]`, `[A-Z]`, `[0-9]`, `[a-zA-Z0-9]`
* `()` - grupy, np. `(?P<imie>\w+)`
* `{}` - ilości

* `^` - początek linii lub ciągu znaków
* `$` - koniec linii lub ciągu znaków
* `.` - dowolny znak (poza końcem linii)
* `|` - alternatywa (or)

* `?` - dowolny znak 0 lub 1 raz
* `+` - minimum 1, do nieskończoności
* `*` - minimum 0, do nieskończoności
* `{n}` - musi być dokładnie `n` krotnie
* `{n,}` - musi być minimum `n` krotnie
* `{,n}` - musi być maksimum `n` krotnie
* `{n,m}` - musi być minimum `n` krotnie, maksimum `m` krotnie

In [None]:
r'(\d|\w)'

## Match

* sprawdzania czy ciąg znaków pasuje dokładnie do wyrażenia regularnego

In [30]:
PATTERN = r'^[a-zA-Z][a-zA-Z0-9.+-]+@[a-zA-Z0-9.-]{,100}\.[a-zA-Z]{2,10}$'


def is_valid_email(email):
    """
    >>> is_valid_email('jan.tward#owski@polsa.gov.pl')
    False
    >>> is_valid_email('jan.twardowski@polsa.gov.pl')
    True
    >>> is_valid_email('jan.twardowski+newsletter@polsa.gov.pl')
    True
    >>> is_valid_email('jan.twardowski-twardowski@polsa.gov.pl')
    True
    >>> is_valid_email('jan.twardowski-twardowski@polsa.gov.p')
    False
    >>> is_valid_email('jan.twardowski-twardowski@polsa24.gov.pl')
    True
    >>> is_valid_email('jan.twardowski-twardowski@polsa24-gov.pl')
    True
    """
    if re.match(PATTERN, email):
        return True
    else:
        return False

TestResults(failed=0, attempted=7)

## Search

* poszukiwany ciąg znaków występuje w tekście

In [34]:
# PATTERN = r'[A-Z]{2,10}-\d{1,6}'
PATTERN = r'[A-Z]{2,10}-[0-9]{1,6}'

def search(text):
    if re.search(PATTERN, text):
        return True
    else:
        return False

    
search('MYPROJ-1337 Fixed inspectdb crash')

False

## Findall i Finditer

In [38]:
DATA = 'MYPROJ-1337 MYPROJ-31337 Fixed inspectdb crash'
PATTERN = r'[A-Z]{2,10}-[0-9]{1,6}'

re.findall(PATTERN, DATA)

['MYPROJ-1337', 'MYPROJ-31337']

## Multiline

In [44]:
DATA = """
MYPROJ-1337 MYPROJ-31337 Fixed inspectdb crash;
MYPROJ-997 Remove commented out code
"""

PATTERN = r'^[A-Z]{2,10}-[0-9]{1,6}'

re.findall(PATTERN, DATA, flags=re.MULTILINE)

['MYPROJ-1337', 'MYPROJ-997']

## Split

In [48]:
DATA = 'Baked Beans And Spam'

PATTERN = '\s[a-z]{3}\s'

re.split(PATTERN, DATA, flags=re.IGNORECASE)

['Baked Beans', 'Spam']

## Sub

In [51]:
DATA = 'Baked Beans And Spam'
PATTERN = '\s[a-z]{3}\s'

re.sub(PATTERN, ' & ', DATA, flags=re.IGNORECASE)

'Baked Beans & Spam'

## Group

In [53]:
DATA = 'Jan Twardowski'
PATTERN = r'(?P<firstname>\w+) (?P<lastname>\w+)'

result = re.search(PATTERN, DATA)

In [54]:
result.groups()

('Jan', 'Twardowski')

In [55]:
result.group(1)

'Jan'

In [56]:
result.group('firstname')

'Jan'

In [57]:
result.groupdict()

{'firstname': 'Jan', 'lastname': 'Twardowski'}

## Compile

In [64]:
%%timeit -r 10 -n 100_000

PATTERN = r'^[a-zA-Z][a-zA-Z0-9.+-]+@[a-zA-Z0-9.-]{,100}\.[a-zA-Z]{2,10}$'

DATA = [
    'jan.tward#owski@polsa.gov.pl',
    'jan.twardowski@polsa.gov.pl',
    'jan.twardowski+newsletter@polsa.gov.pl',
    'jan.twardowski-twardowski@polsa.gov.pl',
    'jan.twardowski-twardowski@polsa.gov.p',
    'jan.twardowski-twardowski@polsa24.gov.pl',
    'jan.twardowski-twardowski@polsa24-gov.pl',
]


for email in DATA:
    if re.match(PATTERN, email):
        pass
    else:
        pass

8.89 µs ± 203 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)


In [65]:
%%timeit -r 10 -n 100_000

PATTERN = r'^[a-zA-Z][a-zA-Z0-9.+-]+@[a-zA-Z0-9.-]{,100}\.[a-zA-Z]{2,10}$'

DATA = [
    'jan.tward#owski@polsa.gov.pl',
    'jan.twardowski@polsa.gov.pl',
    'jan.twardowski+newsletter@polsa.gov.pl',
    'jan.twardowski-twardowski@polsa.gov.pl',
    'jan.twardowski-twardowski@polsa.gov.p',
    'jan.twardowski-twardowski@polsa24.gov.pl',
    'jan.twardowski-twardowski@polsa24-gov.pl',
]


is_valid_email = re.compile(PATTERN)

for email in DATA:
    if is_valid_email.match(email):
        pass
    else:
        pass

4.56 µs ± 245 ns per loop (mean ± std. dev. of 10 runs, 100000 loops each)


## Greedy

In [75]:
DATA = '<strong>Hello</strong>'
PATTERN = r'<(.*?)>.*</\1>'


re.findall(PATTERN, DATA)

['strong']