# Wyrażenia Regularne
# REGular EXpressions
# REGEX
---

---

https://docs.python.org/3/howto/regex.html#regex-howto

---
### Online RegEx tester i debugger

https://regex101.com/r/70ARRh/3

---
## Simple example

In [2]:
import re

napis = 'abc def ghi jkl'

In [24]:
result = re.search('def', napis)
print(result)

<re.Match object; span=(4, 7), match='def'>


In [25]:
result = re.search('xyz', napis)
print(result)

None


In [26]:
result = re.match('def', napis)
print(result)

None


In [27]:
result = re.match('abc', napis)
print(result)

<re.Match object; span=(0, 3), match='abc'>


---

## Składnia wyrażeń regularnych

##### Podstawowe wyrażenia

- `.` - dopasowanie do _**JAKIEGOKOLWIEK**_ pojedynczego znaku z wyjątkiem końca linii
- `^` - dopasowanie do _**POCZĄTKU**_ napisu
- `$` - dopasowanie do _**KOŃCA**_ napisu
- `[]` - dopasowanie do _**ZBIORU**_ znaków w środku []


In [28]:
result = re.search('.', 'abc')
print(result)

<re.Match object; span=(0, 1), match='a'>


In [29]:
result = re.search('.', '')
print(result)

None


In [30]:
result = re.search('c$', 'abc')
print(result)

<re.Match object; span=(2, 3), match='c'>


In [31]:
result = re.search('^a', 'abc')
print(result)

<re.Match object; span=(0, 1), match='a'>


In [32]:
result = re.search('[aeiou]', 'abc')
print(result)

<re.Match object; span=(0, 1), match='a'>


---
##### Operatory
- `[x-y]` - dopasowanie do _**ZAKRESU**_ znaków od  *x* do *y*
- `[^...]` - _**DOPEŁNIENIE**_  _**ZBIORU czy ZAKRESU**_
- `a|b` - dopasowanie do _**a LUB b**_


In [3]:
result = re.search('[a-z]', 'Abc')
print(result)

<re.Match object; span=(1, 2), match='b'>


In [4]:
result = re.search('[a-z]|[A-Z]', 'Abc')
print(result)

<re.Match object; span=(0, 1), match='A'>


In [5]:
result = re.search('[a-zA-Z0123456-9]', '7Abc')
print(result)

<re.Match object; span=(0, 1), match='7'>


In [6]:
result = re.search('[^0-9]', 'Abc')
print(result)

<re.Match object; span=(0, 1), match='A'>


---
##### Elementy odpowiedzialne za powtórzenia

 
- `?` -  _**0 lub 1**_ powtórzeń poprzeprzeniego wyrażenia
- `*` - _**0 lub więcej**_ powtórzeń poprzedniego wyrażenia (*Domknięcie/gwiazda Kleene'a*)
- `+` - _**1 lub więcej**_ powtórzeń poprzedniego wyrażenia (*plus Kleene'a*)
- `{N}` - _**DOKŁADNIE N**_ powtórzeń poprzedniego wyrażenia 
- `{N,}` - _**CO NAJMNIEJ N**_ powtórzeń poprzedniego wyrażenia
- `{N,M}` - _**MIĘDZY N a M**_ powtórzeń poprzedniego wyrażenia



In [7]:
result = re.search('a?', 'abc')
print(result)

<re.Match object; span=(0, 1), match='a'>


In [8]:
result = re.search('a?', 'Abc')
print(result)

<re.Match object; span=(0, 0), match=''>


In [9]:
result = re.search('a*', 'aaaaaaaaabc')
print(result)

<re.Match object; span=(0, 9), match='aaaaaaaaa'>


In [10]:
result = re.search('d*', 'aaaaaaaaabc')
print(result)

<re.Match object; span=(0, 0), match=''>


In [11]:
result = re.search('a+', 'aaaaaaaaabc')
print(result)

<re.Match object; span=(0, 9), match='aaaaaaaaa'>


In [12]:
result = re.search('a{4}', 'aaaabc')
print(result)

<re.Match object; span=(0, 4), match='aaaa'>


In [13]:
result = re.search('a{4}', 'aaabc')
print(result)

None


---
##### KLASY znaków

 
- `\d` - jeden znak będący _**cyfrą**_  (*\[0-9\]*)
- `\D` - jeden znak _**nie będący cyfrą**_ (*\[^0-9\]*)
- `\w` - jeden znak typu _**word**_ (alphanumeryczny + "_" *\[a-zA-Z0-9_\]*)
- `\W` - jeden znak typu _**nie typu word**_ 
- `\s` - _**biały znak**_ (spacja, tabulacja, końce linii *\[ \t\n\r\f\v\]*)
- `\S` - _**nie-biały znak**_ (*\[^ \t\n\r\f\v\]*)
- `\b` - pusty znak na końcu/początku slowa


In [14]:
'abc def ghi jkl'.split(' ')

['abc', 'def', 'ghi', 'jkl']

In [15]:
re.split('[\\s,;]','abc def,ghi;jkl')

['abc', 'def', 'ghi', 'jkl']

In [16]:
re.split(r'[\s,;]','abc def,ghi;jkl')

['abc', 'def', 'ghi', 'jkl']

In [17]:
print(re.search(r'\bfoo\b', 'abc foo def'))

<re.Match object; span=(4, 7), match='foo'>


In [18]:
print(re.search(r'\bfoo\b', 'abcfoodef'))

None


In [19]:
email = "michal@maremove_thisil.net"
m = re.search("remove_this", email)
email[:m.start()] + email[m.end():]

'michal@mail.net'

## The Backslash Plague - przekleństwo "w-tył-ciachów"

- `\section` - napis do znalezienia
- `\\section` - napis do podania do `compile`
- `'\\\\section'` - literał pytoński
- `r'\\section'` - literał pytoński typu regex string


---
## Groupowanie (*grouping*)

In [20]:
m = re.search(r'(\w+) (\w+)','Isaac Newton - fizyk')

In [21]:
m[0]

'Isaac Newton'

In [22]:
m[1]

'Isaac'

In [23]:
m[2]

'Newton'

In [24]:
m.groups()

('Isaac', 'Newton')

In [25]:
re.search(r"(\d+)\.(\d+)", "Długość 124.16 metrów").groups()

('124', '16')

In [26]:
p = re.compile('(a(b)c)d')
m = p.match('abcd')
m.group(0)

'abcd'

In [27]:
m.group(1)

'abc'

In [28]:
m.group(2)

'b'

---
##### Niezachłanne powtarzanie (_Non-greedy Repetitions_)

 
- `??` -  _**0 lub 1**_ powtórzeń poprzeprzeniego wyrażenia (niezachłannie)
- `*?` -  _**0 lub więcej**_ powtórzeń poprzedniego wyrażenia (niezachłannie)
- `+?` - _**1 lub więcej**_ powtórzeń poprzedniego wyrażenia (niezachłannie)

In [29]:
re.search(r'(\w+)(\w+)','abcdefgh').groups()

('abcdefg', 'h')

In [30]:
re.search(r'(\w+?)(\w+?)','abcdefgh').groups()

('a', 'b')

In [31]:
s = '<html><head><title>Title</title>'

In [32]:
m = re.search('<.*>', s)
m.group()

'<html><head><title>Title</title>'

In [33]:
m = re.search('<.*?>', s)
m.group()

'<html>'

In [34]:
m = re.findall('<.*?>', s)
for i in m:
    print(i)

<html>
<head>
<title>
</title>


---
## Flagi kompilacji
- `ASCII, A` Dopasowywuje \w, \b, \s and \d tylko na konkretnych kodach ASCII
- `DOTALL, S` . pasuje nawet do końca linii
- `IGNORECASE, I` Nierozróżnia małych i dużych liter.
- `LOCALE, L` Uwzględnia Locale (strony kodowe).
- `UNICODE, U` Uwzględnia znaki Unicode (czyli np. Ó i ó złapie przy I).
- `MULTILINE, M` Dopasowywuje cały tekst (nie: linia po linii); wpływa na ^ i $.
- `VERBOSE, X` (‘extended’) Czyni wyrażenia regularne bardziej czytelne 

In [35]:
my_regex = re.compile('abc', re.I)

In [36]:
my_regex.match('ABC')

<re.Match object; span=(0, 3), match='ABC'>

This regex:

In [37]:
pat = re.compile(r"\s*(?P<header>[^:]+)\s*:(?P<value>.*?)\s*$")

is the same as the regex below ...

In [38]:
pat = re.compile(r"""
                     \s* # Skip leading whitespace
       (?P<header>[^:]+) # Header name
                   \s* : # Whitespace, and a colon
          (?P<value>.*?) # The header's value -- *? used to
                         # lose the following trailing whitespace
                    \s*$ # Trailing whitespace to end-of-line
""", re.VERBOSE)

In [39]:
m = pat.search(' User : michal')

In [40]:
m.groupdict()

{'header': 'User ', 'value': ' michal'}

---
## Rozszerzenia i dialekty
- `(?aiLmsux)` - włącza compile flag 
- `(?P<name>...)` - named group
- `(?(id/name)yes-pattern|no-pattern)` - if `id/name` exists:  `yes-pattern` , else:  `no-pattern`
- `\num` - dopasowywuje grupę nr *num*  

In [None]:
re.search(r'(?i)abc','Abc')

In [None]:
p = re.compile(r'\b(\w+)\s+\1\b')
p.search('Paris in the the spring').group()

In [None]:
p = re.compile(r'(\w).*\1')

In [None]:
print(p.match('xalalalalalx'))

In [None]:
print(p.match('xalalalalal'))

In [None]:
m = re.match(r'(?P<first_name>\w+) (?P<last_name>\w+)', 'Isaac Newton - physicist')

In [None]:
m.group('first_name')

In [None]:
m.group('last_name')

In [None]:
m.groupdict()

In [None]:
r = re.compile(r'(<)?(\w+@\w+(?:\.\w+)+)(?(1)>|$)')

In [None]:
print(r.match('<ala@onet.pl>'))

In [None]:
print(r.match('ala@onet.pl'))

In [None]:
print(r.match('<ala@onet.pl'))

---
## *Lookaheads* i *Look behind*
- `(?=regex)` Positive Lookahead - dopasuje jeśli wzorzec ma po nim `regex`
- `(?!regex)` Negative Lookahead - dopasuje jeśli wzorzec NIE ma po nim `regex`
- `(?<=regex)` Positive look behind – dopasuje jeśli wzorzec ma przed sobą `regex`
- `(?<!regex)` Negative look behind  – dopasuje jeśli wzorzec NIE ma przed sobą `regex`

In [41]:
for i in re.findall(r'(\w+)\s+(?=Newton)','Isaac Newton, Bob Newton, Albert Einstein'): print(i)

Isaac
Bob


In [42]:
re.match(r'(.*)[.](?!bat$|exe$)[^.]*$','spreadsheet.xls').groups()

('spreadsheet',)

In [43]:
print(re.match(r'.*[.](?!bat$|exe$)[^.]*$','excel.exe'))

None


---
## Podstawienia

In [None]:
p = re.compile( '(blue|white|red)')

In [None]:
p.sub( 'colour', 'blue socks and red shoes')

In [None]:
p.sub( 'colour', 'blue socks and red shoes', count=1)

In [None]:
p = re.compile('x*')
p.sub('-', 'abxd')

In [None]:
p = re.compile('section{ ( [^}]* ) }', re.VERBOSE)
str = 'section{First} section{second}'
print(str)
print(p.sub(r'subsection(\1)',str))

In [44]:
import random
def repl(m):
    inner_word = list(m.group(2))
    random.shuffle(inner_word)
    return m.group(1) + "".join(inner_word) + m.group(3)

text = "Professor Abdolmalek, please report your absences promptly."
re.sub("(\w)(\w+)(\w)", repl, text)

'Psforesor Aeadlbmlok, pesale rperot yuor abcneses pltompry.'

In [45]:
#flush left
from re import findall,sub
from functools import reduce

s = """
          
        bbbbb
           cccccc
                 dddddddddddddd
"""

indent = lambda s: reduce(min,map(len,findall('(?m)^ *(?=\S)',s)))
flush_left = lambda s: sub('(?m)^ {%d}' % indent(s),'',s)

print(flush_left(s))


  
bbbbb
   cccccc
         dddddddddddddd



---

## Bogatsze regexy niż `re`

https://pypi.org/project/regex/

---