# Wyrażenia regularne

Wyrażenia regularne są bardzo powszechnie wykorzystywane w programowaniu aplikacji internetowych. Są to wzorce, które dopasowywane są do napisów. Mogą być wykorzystywane np. do weryfikacji poprawności napisów (np. kodu pocztowego, numeru telefonu, nazwiska) ale również do wydostawania pewnych informacji ze złożonych napisów.

Wyrażenia regularne zapisywane są z wykorzystaniem ukośników np. następujące wyrażenie pasuje do napisu zawierającego co najmniej 
jedną literę 'a'
```ruby
/a/
```

In [1]:
/a/

/a/

Dopasowania napisu do wyrażenia może być weryfikowane na dwa sposoby. Po pierwsze można skorzystać z operatora dopasowania `=~`
```ruby
"Ala ma kota" =~ /a/
```

In [2]:
"Ala ma kota" =~ /a/


2

```ruby
"Ala ma kota" =~ /x/
```

In [5]:
"Ala ma kota" =~ /x/



Wartość zwracana przy dopasowaniu to indeks pierwszego dopasowanego znaku. Jeśli dopasowanie się nie powiodło zwracana jest wartość `nil`. Dzięki temu dopasowanie wyrażeń w tej formie często wykorzystywane jest w instrukcji warunkwej.

Drugi sposób dopasowania to użycie metody `match` zdefiniowanej dla wyrażeń regularnych
```ruby
/a/.match("Ala ma kota")
```

In [6]:
/a/.match("Ala ma kota")

#<MatchData "a">

Dla tej metody zwracany jest jednak nie indeks, ale obiekt klasy `MatchData`, który pozwala "odpytać" jak dokładnie wygląda dopasowanie
```ruby
matched = /a/.match("Ala ma kota")
matched.begin(0)
matched.end(0)
```

In [9]:
matched = /a/.match("Ala ma kota")
matched.begin(0)
matched.end(0)

3

Argument przekazywany do metod `begin` oraz `end` oznaczna indeks dopasowanej "podgrupy" wyrażenia. Indeks 0 oznaczna 
całe dopasowanie.

### Zadanie 1

Jak myślisz, dlaczego w przypadku dopasowania łańcucha do wyrażenia zwracany jest indeks pierwszego dopasowanego znaku, a w przypadku niedopasowania, wartość `nil`? Bo gdyby było to 0, oznaczało by to, że pierwszy znak jest szukaną literą.


## Znaki specjalne

W wyrażeniach regularnych poza zwykłymi znakami występują znaki specjalne

| Znak specjalny | Znaczenie |
|----------------|-----------|
| .              | dowolny znak |
| &#124;         | alternatywa |
| (              | początek podgrupy |
| )              | koniec podgrupy   |
| [              | zakres wartości   |
| {              | krotność          |
| *              | zero lub więcej wystąpień |
| +              | jedno lub więcej wystąpień |
| ?              | zero lub jedno wystąpienie |
| \              | znak wymazujący znaczenie znaku specjalnego |
| ^              | początek linii |
| $              | koniec linii |


Jeśli chcemy aby te znaki zostały dopasowane bezpośrednio, musimy poprzedzić je odwrotnym ukośnikiem. Poniższe dopasowanie dopasuje się do dowolnego znaku:
```ruby
"a" =~ /./
```

In [10]:
"a" =~ /./



0

Jeśli chcemy dopasować kropkę, musimy użyć odwrotnego ukośnika

```ruby
"a" =~ /\./
```

In [12]:
"a" =~ /\./


```ruby
"." =~ /\./
```

In [13]:
"." =~ /\./



0

Alternatywa dopasowuje się do wyrażenia po prawej lub wyrażenia po lewej stronie
```ruby
"mały" =~ /mały|duży/
```

In [14]:
"mały" =~ /mały|duży/


0

```ruby
"duży" =~ /mały|duży/
```

In [16]:
"duży" =~ /mały|duży/





0

```ruby
"wielki" =~ /mały|duży/
```

In [17]:
"wielki" =~ /mały|duży/



Podgrupy pozwalają na wyodrębnianie pewnych informacji z dopasowanego łańcucha. Przykładowo, jeśli z adresu chcemy 
wyodrębnić kod i miejscowość możemy użyć następującego wyrażenia:
```ruby
matched = /(\d\d-\d\d\d) (\w+)/.match("00-700 Warszawa, ul. Krótka 5")
matched[1]
matched[2]
```

In [19]:
matched = /(\d\d-\d\d\d) (\w+)/.match("00-700 Warszawa, ul. Krótka 5")
matched[1]


"00-700"

Pierwsza dopasowana podgrupa obejmuje kod pocztowy, a druga - nazwę miejscowości. 

### Zadanie 2

Napisz wyrażenie, które dopasowuje się do numeru telefonicznego z kodem kierunkowym województwa. Użyj podgrup, aby wydostać kod kierunkowy z pełnego numeru telefonu. Przykładowe numer: "12 2 123 123", "22 23 32 654"

In [4]:
matched = /(\d\d) *((\d* *)+)/.match("22 23 32 654")
matched[2]

"23 32 654"

## Klasy znaków

W powyższym przykładzie wykorzystaliśmy tzw. klasy znaków `\d` oraz `\w`. Klasy te reprezentują grupy znaków, które często pojawiają się w wyrażeniach regularnych. `\d` oznacza cyfry dziesiętne, a `\w` litery oraz cyfry.

Jeśli chcemy określić, że na danej pozycji może wystąpić jeden spośród kilku znaków możemy skorzystać z własnych klasy znaków. Możemy podać bezpośrednio wszystkie znaki, które mogą być dopasowane na danej pozycji:
```ruby
"Ala" =~ /[AO]la/
```

In [5]:
"Ala" =~ /[AO]la/


0

```ruby
"Ola" =~ /[AO]la/
```

In [6]:
"Ola" =~ /[AO]la/



0

```ruby
"Jola" =~ /[AO]la/
```

In [7]:
"Jola" =~ /[AO]la/



Możemy również podać zakres liter bądź cyfr. Należy jednak pamiętać, że zakresy te nie obejmują liter z polskimi znakami diakrytycznymi:
```ruby
"Ala" =~ /[A-Z]la/
```

In [8]:
"Ala" =~ /[A-Z]la/


0

```ruby
"Óla" =~ /[A-Z]la/
```

In [9]:
"Óla" =~ /[A-Z]la/



Najczęściej wykorzystywane klasy znaków

| Symbol | Znaczenie |
|--------|-----------|
| .      | dowolny znak |
| \d     | cyfra dziesiętna |
| \D     | coś innego niż cyfra dziesiętna |
| \s     | białe spacje |
| \S     | coś innego niż białe spacje |
| \w     | litery i cyfry alfabetu łacińskiego |
| \W     | coś innego niż litery i cyfry alfabetu łacińskiego |
| \p{L}  | litery różnych alfabetów |
| \p{Lu} | duże litery różnych alfabetów |
| \p{Ll} | małe litery różnych alfabetów |

In [11]:
/\p{Ll}/

/\p{Ll}/

### Zadanie 3

Napisz wyrażenie, które dopasowuje się do napisów rozpoczynających się wielką literą. Uwzględnij napisy takie jak: _Łódź_ oraz _Żaneta_.

In [30]:
"Żaneta" =~ /^\p{Lu}\p{Ll}+$/

0

## Krotność

W wyrażeniach regularnych często oczekujemy, że określony znak lub grupa znaków pojawi się określoną ilość razy. 
Można wtedy powtórzyć wystąpienia tych znaków lub grup znaków, jak w przypadku dopasowania kodu pocztowego
```ruby
"00-700" =~ /\d\d-\d\d\d/
```
Można jednak zkorzystać z możliwości określenia krotności
```ruby
"00-700" =~ /\d{2}-\d{3}/
```

In [32]:
"00-700" =~ /\d{2}-\d{3}/

0

Krotność może być określona "sztywno", bądź może obejmować zakres:
```ruby
"aaa" =~ /a{2,4}/
```

In [33]:
"aaa" =~ /a{2,4}/


0

```ruby
"aaaaa" =~ /a{2,4}/
```

In [34]:
"aaaaa" =~ /a{2,4}/



0

Często oczekujemy, że określone elementy wystąpią zero albo więcej razy. Wykorzystujemy wtedy gwiazdkę
```ruby
"aabbbcc" =~ /ab*c/
```

In [35]:
"aabbbcc" =~ /ab*c/


1

```ruby
"aacc" =~ /ab*c/
```

In [36]:
"aacc" =~ /ab*c/



1

Podobnie działają operatory `+` oraz `?`. Pierwszy wymaga jednak, aby dany znak wystąpił co najmniej jeden raz:
```ruby
"aabbbcc" =~ /ab+c/
```

In [37]:
"aabbbcc" =~ /ab+c/


1

```ruby
"aacc" =~ /ab+c/
```

In [39]:
"aacc" =~ /ab+c/



Natomiast `?` oznacza, że element jest opcjonalny, tzn. może wystąpić 0 lub 1 raz
```ruby
"-5" =~ /-?\d+/
```

In [41]:
"123" =~ /-?\d+/



0

```ruby
"123" =~ /-?\d+/
```

### Zadanie 4

Napisz wyrażenie, które dopasuje się do kodu pocztowego i nazw miast występujących w Polsce. Uwzględnij fakt, że nazwa miasta powinna zaczynać się wielką literą. Przetestuj działanie wyrażenia na następujących danych testowych:
* 00-700 Warszawa
* 44-196 Knurów
* 30-383 kraków (nie powinno zostać dopasowane)
* 43-300 Bielsko-Biała
* 91-474 ŁóDź (nie powinno zostać dopasowane)
* 11-11 Polska-Japonia (nie powinno zostać dopasowane)

In [92]:
"43-300 Bielsko-Biała" =~ /^\d\d-\d\d\d \p{Lu}\p{Ll}+-?\p{Lu}?\p{Ll}+$/


0

## Kotwice

Ostatnim ważnym elementem pojawiającym się w wyrażeniach regularnych są kotiwce - czyli takie miejsca w napisie, które nie odpowiadają konkretnemu znakowi, lecz pewnej granicy - np. granicy pomiędzy słowem a białą spacją. 
Do najczęściej stosowanych kotwic należą

| Symbol  | Znaczenie |
|---------|-----------|
| ^       | Początek wiersza |
| $       | Koniec wiersza |
| \A      | Początek napisu |
| \z      | Koniec napisu |
| \b      | granica słowa |

Przykładowo jeśli chcemy dopasować "Ala", ale tylko wtedy gdy pojawia się na początku wiersza, musimy użyć kotwicy:
```ruby
"Ala ma kota" =~ /^Ala/
```

In [60]:
"Ala ma kota" =~ /^Ala/


0

```ruby
"To kot, a to Ala" =~ /^Ala/
```

In [61]:
"To kot, a to Ala" =~ /^Ala/



Kotwica `\b` przydaje się jeśli chcemy np. podzielić napis względem granic słów:
```ruby
"Ala ma kota".split(/\b/)
```

In [62]:
"Ala ma kota".split(/\b/)

["Ala", " ", "ma", " ", "kota"]

Dzięki niej możemy również upewnić się, że dopasowujemy konkretne słowo, a nie literę wewnątrz słowa. Porównaj
```ruby
"Ania i Kasia" =~ /i/
```

In [63]:
"Ania i Kasia" =~ /i/


2

```ruby
"Ania i Kasia" =~ /\bi\b/
```

In [64]:
"Ania i Kasia" =~ /\bi\b/



5

### Zadanie 5

Napisz algorytm, które z adresu URL wyodrębnia:
* protokół
* adres hosta
* numer portu (opcjonalny)
* ścieżkę
* zapytanie
* fragment dokumentu

Przykładowy adres do testowania:
http://www.wp.pl:8080/aktualnosci/krakow/1112.html?id=5#tresc

Powinniśmy otrzymać następujący wynik końcowy:
```
protokół: http
host: www.wp.pl
port: 8080
ścieżka: /aktualnosci/krakow/1112.html
zapytanie: id=5
fragment: tresc
```

In [87]:
adres = "http://www.wp.pl:8080/aktualnosci/krakow/1112.html?id=5#tresc"

matched = /^\w{4}/.match(adres)
puts "protokół: " + matched[0] 

matched = /w{3}\.\p{Ll}+\.\p{Ll}{2}/.match(adres)
puts "host: " + matched[0] 

matched = /\d{4}/.match(adres)
puts "port: " + matched[0]

matched = /\/\w+\/\w+\/\d{4}\.html/.match(adres)
puts "ścieżka: " + matched[0]

matched = /\w+=\d+/.match(adres)
puts "zapytanie: " + matched[0]

matched = /\w+$/.match(adres)
puts "fragmnet: " + matched[0]

protokół: http
host: www.wp.pl
port: 8080
ścieżka: /aktualnosci/krakow/1112.html
zapytanie: id=5
fragmnet: tresc
