# Regular Expresions 

Strona, która umożliwia testowanie napisanego przez nas regexa (ja zawsze z niej korzystam podczas pisania regexów):

https://regex101.com/

Fajny samouczek napisany prostym językiem: https://czterytygodnie.pl/regex/wprowadzenie-do-wyrazen-regularnych-regex.html

In [1]:
# impor biblioteki do regexów 
import re

# import biblioteki pandas
import pandas as pd

### Anchors (kotwice)

> ^ &emsp; początek łańcucha znaków

> $ &emsp; koniec łańcucha znaków

In [2]:
p1 = pd.DataFrame(['Kod ATC B01 oznacza leki przeciwzakrzepowe',
                   'B01 to kod ATC oznaczający leki przeciwzakrzepowe', 
                   'Kod ATC dla leków przeciwzakrzepowych to B01']).rename(columns={0:'Przykłady'})
p1

Unnamed: 0,Przykłady
0,Kod ATC B01 oznacza leki przeciwzakrzepowe
1,B01 to kod ATC oznaczający leki przeciwzakrzepowe
2,Kod ATC dla leków przeciwzakrzepowych to B01


In [3]:
regex = 'B01'

pd.DataFrame(p1['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[B01]
1,[B01]
2,[B01]


In [4]:
regex = '^B01'

pd.DataFrame(p1['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[]
1,[B01]
2,[]


In [5]:
regex = 'B01$'

pd.DataFrame(p1['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[]
1,[]
2,[B01]


### Character classes (klasy znaków)

> [abc] &emsp; pojedynczy znak: a, b lub c

> [a-z] &emsp; każdy znak w zakresie: od a do z

> [a-zA-Z] &emsp; pojedynczy znak w zakresie: od a do z lub od A do Z

In [6]:
regex = '[AT]'

pd.DataFrame(p1['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[A, T]"
1,"[A, T]"
2,"[A, T]"


In [7]:
regex = '[A-K]'

pd.DataFrame(p1['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[K, A, C, B]"
1,"[B, A, C]"
2,"[K, A, C, B]"


In [8]:
regex = '[a-zA-Z]'

pd.DataFrame(p1['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[K, o, d, A, T, C, B, o, z, n, a, c, z, a, l, ..."
1,"[B, t, o, k, o, d, A, T, C, o, z, n, a, c, z, ..."
2,"[K, o, d, A, T, C, d, l, a, l, e, k, w, p, r, ..."


> . &emsp; dowolny znak

> \d &emsp; dowolna cyfra

> \w &emsp; dowolna litera, cyfra lub podkreślnik

> \s &emsp; dowolny biały znak

In [9]:
p2 = pd.DataFrame(['2022-03-12',
                   '2021.05.29',
                   '1 września 2020',
                   '2022_04_29']).rename(columns={0:'Przykłady'})
p2

Unnamed: 0,Przykłady
0,2022-03-12
1,2021.05.29
2,1 września 2020
3,2022_04_29


In [10]:
regex = '.'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[2, 0, 2, 2, -, 0, 3, -, 1, 2]"
1,"[2, 0, 2, 1, ., 0, 5, ., 2, 9]"
2,"[1, , w, r, z, e, ś, n, i, a, , 2, 0, 2, 0]"
3,"[2, 0, 2, 2, _, 0, 4, _, 2, 9]"


In [11]:
regex = '\d'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[2, 0, 2, 2, 0, 3, 1, 2]"
1,"[2, 0, 2, 1, 0, 5, 2, 9]"
2,"[1, 2, 0, 2, 0]"
3,"[2, 0, 2, 2, 0, 4, 2, 9]"


In [12]:
regex = '\w'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[2, 0, 2, 2, 0, 3, 1, 2]"
1,"[2, 0, 2, 1, 0, 5, 2, 9]"
2,"[1, w, r, z, e, ś, n, i, a, 2, 0, 2, 0]"
3,"[2, 0, 2, 2, _, 0, 4, _, 2, 9]"


In [13]:
regex = '\s'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[]
1,[]
2,"[ , ]"
3,[]


Znajdzmy datę w formacie xxxx-xx-xx, gdzie x oznacza cyfrę:

In [15]:
regex = '^\d\d\d\d-\d\d-\d\d$'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[2022-03-12]
1,[]
2,[]
3,[]


### Quantifiers (kwantyfikatory)

> a{3} &emsp; litera a powtórzona 3 razy

> a{3,6} &emsp; litera a powtórzona od 3 do 6 razy

> a{3,} &emsp; litera a powtórzona 3 lub więcej razy

In [16]:
regex = '^\d{4}-\d{2}-\d{2}$'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[2022-03-12]
1,[]
2,[]
3,[]


In [17]:
regex = '^.{10}$'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[2022-03-12]
1,[2021.05.29]
2,[]
3,[2022_04_29]


In [18]:
regex = '^.{10,}$'

pd.DataFrame(p2['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[2022-03-12]
1,[2021.05.29]
2,[1 września 2020]
3,[2022_04_29]


> a? &emsp; litera a powtórzona 0 lub 1 raz

> a* &emsp; litera a powtórzona 0 lub więcej razy

> a+ &emsp; litera a powtórzona 1 lub więcej razy

In [23]:
p3 = pd.DataFrame(['color',
                   'colour',
                   'coolor']).rename(columns={0:'Przykłady'})
p3

Unnamed: 0,Przykłady
0,color
1,colour
2,coolor


In [24]:
regex = '^colou?r$'

pd.DataFrame(p3['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[color]
1,[colour]
2,[]


In [25]:
regex = '^colou*r$'

pd.DataFrame(p3['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[color]
1,[colour]
2,[]


In [26]:
regex = '^co+lou*r$'

pd.DataFrame(p3['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[color]
1,[colour]
2,[coolor]


### Grupy

In [64]:
p4 = pd.DataFrame(['56121411110',
                   '82030586028',
                   '04082522202']).rename(columns={0:'Przykłady'})
p4

Unnamed: 0,Przykłady
0,56121411110
1,82030586028
2,4082522202


In [72]:
regex = '^(?P<rok>\d\d)(?P<miesiąc>\d\d)(?P<dzień>\d\d)(?P<seria>\d\d\d)(?P<plec>\d)(?P<cyfra_kontrolna>\d)$'

for row in list(p4['Przykłady']):
    for item in re.finditer(regex, row):
        print(item.groupdict())

{'rok': '56', 'miesiąc': '12', 'dzień': '14', 'seria': '111', 'plec': '1', 'cyfra_kontrolna': '0'}
{'rok': '82', 'miesiąc': '03', 'dzień': '05', 'seria': '860', 'plec': '2', 'cyfra_kontrolna': '8'}
{'rok': '04', 'miesiąc': '08', 'dzień': '25', 'seria': '222', 'plec': '0', 'cyfra_kontrolna': '2'}


### Lookahead & Look-ehind

> (?=lat) &emsp; lookahead - dopasuj, jeśli przed występuje słowo 'lat'

> (?<=Wiek) &emsp; lookbehind - dopasuj, jeśli po występuje słowo 'Wiek'

In [87]:
pd.set_option('display.max_colwidth', 500)

In [88]:
p5 = pd.DataFrame(['Imię: Jan, Nazwisko: Kowalski, Wiek: 38 lat, Wzrost: 172 cm',
                   'Imię: Anna, Nazwisko: Nowak, Wiek: 5 lat, Wzrost: 168 cm',
                   'Imię: Zygmunt, Nazwisko:, Wiek: 102 lat, Wzrost: cm']).rename(columns={0:'Przykłady'})
p5

Unnamed: 0,Przykłady
0,"Imię: Jan, Nazwisko: Kowalski, Wiek: 38 lat, Wzrost: 172 cm"
1,"Imię: Anna, Nazwisko: Nowak, Wiek: 5 lat, Wzrost: 168 cm"
2,"Imię: Zygmunt, Nazwisko:, Wiek: 102 lat, Wzrost: cm"


In [124]:
regex = '(?<= Wiek:\ ).*(?= lat)'

pd.DataFrame(p5['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[38]
1,[5]
2,[102]


In [125]:
regex = '(?<=Imię: ).*'

pd.DataFrame(p5['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[Jan, Nazwisko: Kowalski, Wiek: 38 lat, Wzrost: 172 cm]"
1,"[Anna, Nazwisko: Nowak, Wiek: 5 lat, Wzrost: 168 cm]"
2,"[Zygmunt, Nazwisko:, Wiek: 102 lat, Wzrost: cm]"


In [169]:
regex = """
        (^Imię:\ *)             #imię
        (?P<imię>\w*)           #imię
        (,\ )                   #przecinek
        (Nazwisko:\ *)          #nazwisko
        (?P<nazwisko>\w*)       #nazwisko
        (,\ )                   #przecinek
        (Wiek:\ *)              #wiek
        (?P<wiek>\d{0,3}\ lat)  #wiek
        (,\ )                   #przecinek
        (Wzrost:\ *)            #wzrost
        (?P<wzrost>\d{0,3}\ cm) #wzrost
        """

for row in list(p5['Przykłady']):
    for item in re.finditer(regex, row, re.VERBOSE):
        print(item.groupdict())

{'imię': 'Jan', 'nazwisko': 'Kowalski', 'wiek': '38 lat', 'wzrost': '172 cm'}
{'imię': 'Anna', 'nazwisko': 'Nowak', 'wiek': '5 lat', 'wzrost': '168 cm'}
{'imię': 'Zygmunt', 'nazwisko': '', 'wiek': '102 lat', 'wzrost': ' cm'}


### Negacje

> [^a-zA-z] &emsp; wszystko z wyjątkiem od a do z i od A do Z

> (?!opak) &emsp; negative lookahead - nie dopasowuj, jeśli po występuje słowo 'opak'

> (?<!opak) &emsp; negative lookbehind - nie dopasowuj, jeśli przed występuje słowo 'opak'

In [251]:
p6 = pd.DataFrame(['1 opak 20 tabletek', 
                   '2 opak 30 tabletek w 3 blistrach']).rename(columns={0:'Przykłady'})
p6

Unnamed: 0,Przykłady
0,1 opak 20 tabletek
1,2 opak 30 tabletek w 3 blistrach


In [256]:
regex = '[^a-zA-Z]'

pd.DataFrame(p6['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[1, , , 2, 0, ]"
1,"[2, , , 3, 0, , , , 3, ]"


In [252]:
regex = '\d+(?!\ opak\ )'

pd.DataFrame(p6['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[20]
1,"[30, 3]"


In [253]:
regex = '(?<!\ w\ )\d+'

pd.DataFrame(p6['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,"[1, 20]"
1,"[2, 30]"


In [255]:
regex = '(?<!\ w\ )\d+(?!\ opak\ )'

pd.DataFrame(p6['Przykłady'].str.findall(regex))

Unnamed: 0,Przykłady
0,[20]
1,[30]


### Extra

> (?:bc) &emsp; grupa nieprzechwytująca - nie tworzy grupy dla znaków bc

In [259]:
re.findall('(\d{2})(?:\-)(\d{3})', '22-030')

[('22', '030')]

In [260]:
re.findall('(\d{2})(\-)(\d{3})', '22-030')

[('22', '-', '030')]

### Flagi

In [262]:
re.findall('paracetamol', 'Paracetamol paracetamol')

['paracetamol']

In [268]:
re.findall('paracetamol', 'Paracetamol paracetamol', re.I)

['Paracetamol', 'paracetamol']

### Granice

In [291]:
re.findall(r'fraza\b', 'fraza para parafraza')

['fraza', 'fraza']