[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://githubtocolab.com/jkanclerz/analiza-dokumentow/blob/main/13--regular-expressions.ipynb)

# Regular Expressions

Wyrażenia regularne (czasami nazywane w skrócie **regex**) pozwalają na wyszukiwanie ciągów znaków przy użyciu reguł. Na przykład, znalezienie wszystkich wielkich liter w ciągu lub znalezienie numeru telefonu w dokumencie. 

Wyrażenia regularne są znane z ich pozornie dziwnej składni. Ta dziwna składnia jest produktem ubocznym ich elastyczności. Wyrażenia regularne muszą być w stanie odfiltrować każdy wzór łańcucha, jaki można sobie wyobrazić, dlatego mają złożony format wzorca łańcucha.

Wyrażenia regularne są obsługiwane za pomocą wbudowanej w Pythona biblioteki **re**. Więcej informacji można znaleźć w [dokumentacji](https://docs.python.org/3/library/re.html).


## Searching for Basic Patterns

Let's imagine that we have the following string:

In [2]:
text = "The agent's phone number is 408-555-1234. Call soon!"

In [2]:
'phone' in text

True

But let's show the format for regular expressions, because later on we will be searching for patterns that won't have such a simple solution.

In [1]:
import re

In [3]:
pattern = 'phone'

In [4]:
re.search(pattern,text)

<re.Match object; span=(12, 17), match='phone'>

In [5]:
pattern = "NOT IN TEXT"

In [6]:
re.search(pattern,text)

In [7]:
pattern = 'phone'

In [8]:
match = re.search(pattern,text)

In [9]:
match

<re.Match object; span=(12, 17), match='phone'>

Notice the span, there is also a start and end index information.

In [10]:
match.span()

(12, 17)

In [11]:
match.start()

12

In [12]:
match.end()

17

But what if the pattern occurs more than once?

In [17]:
text = "my phone is a new phone"

In [18]:
match = re.search("phone",text)

In [19]:
match.span()

(3, 8)

Notice it only matches the first instance. If we wanted a list of all matches, we can use .findall() method:

In [14]:
matches = re.findall("phone",text)

In [15]:
matches

['phone']

In [16]:
len(matches)

1

In [21]:
match.group()

'phone'

# Patterns

Do tej pory nauczyliśmy się wyszukiwać podstawowy ciąg znaków. A co z bardziej złożonymi przykładami? Na przykład próba znalezienia numeru telefonu w dużym ciągu tekstu? Albo adresu e-mail?

Moglibyśmy po prostu użyć metody wyszukiwania, jeśli znamy dokładny telefon lub email, ale co jeśli go nie znamy? Możemy znać ogólny format, i możemy użyć tego wraz z wyrażeniami regularnymi do przeszukiwania dokumentu w poszukiwaniu ciągów pasujących do określonego wzorca.

W tym miejscu składnia może wydawać się dziwna na początku, ale nie spiesz się z tym; często jest to tylko kwestia sprawdzenia kodu wzorca.

Przetłumaczono z www.DeepL.com/Translator (wersja darmowa)

## Patterns

Znaki takie jak cyfra lub pojedynczy ciąg mają różne kody, które je reprezentują. Możesz ich użyć do zbudowania ciągu wzorców.

przykładowo:

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >\d</span></td><td>A digit</td><td>file_\d\d</td><td>file_25</td></tr>

<tr ><td><span >\w</span></td><td>Alphanumeric</td><td>\w-\w\w\w</td><td>A-b_1</td></tr>



<tr ><td><span >\s</span></td><td>White space</td><td>a\sb\sc</td><td>a b c</td></tr>



<tr ><td><span >\D</span></td><td>A non digit</td><td>\D\D\D</td><td>ABC</td></tr>

<tr ><td><span >\W</span></td><td>Non-alphanumeric</td><td>\W\W\W\W\W</td><td>*-+=)</td></tr>

<tr ><td><span >\S</span></td><td>Non-whitespace</td><td>\S\S\S\S</td><td>Yoyo</td></tr></table>

For example:

In [22]:
text = "My telephone number is 408-555-1234"

In [23]:
phone = re.search(r'\d\d\d-\d\d\d-\d\d\d\d',text)

In [24]:
phone.group()

'408-555-1234'

Zwróć uwagę na powtórzenie \d. Jest to trochę denerwujące, zwłaszcza jeśli szukamy bardzo długich ciągów liczb. Poznajmy możliwe kwantyfikatory.

## Kwantyfikatory

Teraz, gdy znamy już oznaczenia znaków specjalnych, możemy użyć ich wraz z kwantyfikatorami do określenia, ile ich oczekujemy.

<table ><tr><th>Character</th><th>Description</th><th>Example Pattern Code</th><th >Exammple Match</th></tr>

<tr ><td><span >+</span></td><td>Occurs one or more times</td><td>	Version \w-\w+</td><td>Version A-b1_1</td></tr>

<tr ><td><span >{3}</span></td><td>Occurs exactly 3 times</td><td>\D{3}</td><td>abc</td></tr>



<tr ><td><span >{2,4}</span></td><td>Occurs 2 to 4 times</td><td>\d{2,4}</td><td>123</td></tr>



<tr ><td><span >{3,}</span></td><td>Occurs 3 or more</td><td>\w{3,}</td><td>anycharacters</td></tr>

<tr ><td><span >\*</span></td><td>Occurs zero or more times</td><td>A\*B\*C*</td><td>AAACC</td></tr>

<tr ><td><span >?</span></td><td>Once or none</td><td>plurals?</td><td>plural</td></tr></table>

In [32]:
phone = re.search(r'\d{3}-\d{3}-\d{4}',text)

In [33]:
phone.group()

'408-555-1234'

## Groups

A gdybyśmy chcieli wykonać dwa zadania, znaleźć numery telefonów, ale także móc szybko wyodrębnić ich numer kierunkowy (pierwsze trzy cyfry). Możemy używać grup do każdego ogólnego zadania, które wymaga pogrupowania wyrażeń regularnych (abyśmy mogli je później rozłożyć). 

Używając przykładu z numerem telefonu, możemy oddzielić grupy wyrażeń regularnych za pomocą nawiasów:

In [34]:
phone_pattern = re.compile(r'(\d{3})-(\d{3})-(\d{4})')

In [35]:
results = re.search(phone_pattern,text)

In [37]:
results.group()

'408-555-1234'

In [43]:
results.group(0),


('408-555-1234',)

In [39]:
results.group(1),

('408',)

In [41]:
results.group(2)

'555'

In [42]:
results.group(3)

'1234'

In [40]:
# We only had three groups of parentheses
results.group(4)

IndexError: no such group

## Additional Regex Syntax

### Or operator |

Use the pipe operator to have an **or** statment. For example

In [33]:
re.search(r"man|woman","This man was here.")

<_sre.SRE_Match object; span=(5, 8), match='man'>

In [34]:
re.search(r"man|woman","This woman was here.")

<_sre.SRE_Match object; span=(5, 10), match='woman'>

### The Wildcard Character

Use a "wildcard" as a placement that will match any character placed there. You can use a simple period **.** for this. For example:

In [35]:
re.findall(r".at","The cat in the hat sat here.")

['cat', 'hat', 'sat']

In [36]:
re.findall(r".at","The bat went splat")

['bat', 'lat']

In [37]:
re.findall(r"...at","The bat went splat")

['e bat', 'splat']

In [38]:

re.findall(r'\S+at',"The bat went splat")

['bat', 'splat']

### Starts With and Ends With

We can use the **^** to signal starts with, and the **$** to signal ends with:

In [39]:
# Ends with a number
re.findall(r'\d$','This ends with a number 2')

['2']

In [40]:
# Starts with a number
re.findall(r'^\d','1 is the loneliest number.')

['1']

Note that this is for the entire string, not individual words!

### Exclusion

To exclude characters, we can use the **^** symbol in conjunction with a set of brackets **[]**. Anything inside the brackets is excluded. For example:

In [41]:
phrase = "there are 3 numbers 34 inside 5 this sentence."

In [42]:
re.findall(r'[^\d]',phrase)

['t',
 'h',
 'e',
 'r',
 'e',
 ' ',
 'a',
 'r',
 'e',
 ' ',
 ' ',
 'n',
 'u',
 'm',
 'b',
 'e',
 'r',
 's',
 ' ',
 ' ',
 'i',
 'n',
 's',
 'i',
 'd',
 'e',
 ' ',
 ' ',
 't',
 'h',
 'i',
 's',
 ' ',
 's',
 'e',
 'n',
 't',
 'e',
 'n',
 'c',
 'e',
 '.']

To get the words back together, use a + sign 

In [43]:
re.findall(r'[^\d]+',phrase)

['there are ', ' numbers ', ' inside ', ' this sentence.']

We can use this to remove punctuation from a sentence.

In [44]:
test_phrase = 'This is a string! But it has punctuation. How can we remove it?'

In [45]:
re.findall('[^!.? ]+',test_phrase)

['This',
 'is',
 'a',
 'string',
 'But',
 'it',
 'has',
 'punctuation',
 'How',
 'can',
 'we',
 'remove',
 'it']

In [46]:
clean = ' '.join(re.findall('[^!.? ]+',test_phrase))

In [47]:
clean

'This is a string But it has punctuation How can we remove it'

In [48]:
text = 'Only find the hypen-words in this sentence. But you do not know how long-ish they are'

In [49]:
re.findall(r'[\w]+-[\w]+',text)

['hypen-words', 'long-ish']

### Conclusion

https://docs.python.org/3/howto/regex.html