# Lab 5. Wyrażenia regularne w Pythonie.

## 1. Metaznaki wyrażeń regularnych.

### Tabela 1.

| Metaznak | Opis | Przykład | 
| --- | --- | --- |
| `$`| Kończy się na | `"ski$"` - nazwa kończy się znakami `ski` |
| `^`| Rozpoczyna się od | `"^Pol"` - nazwa rozpoczyna się znakami `Pol` |
| `.`| Dowolny znak (oprócz znaku nowej linii) | `"b.r"` - nazwa rozpoczyna się od litery `b` następnie zwiera dowolny znak i kończy się literą `r` |
| `\`| Znak ucieczki lub rozpoczęcie specjalnej sekwencji | `"^\."` - nazwa rozpoczyna się kropką (która również jest metaznakiem) |
| `*` | Zero lub więcej wystąpień | `"b.*o"` - pasują `bo`, `bro`, `booo` itd. |
| `+` | Co najmniej jedno wystąpienie | `"b.+o"` - pasują `bro`, `boo` itd., nie pasuje `bo` |
| `?` | Co najwyżej jedno wystąpienie | `"b.?o"` - pasują `bo`, `bro`, `boo`, ale nie pasuje `booo` |
| `[]` | Określa zbiór dopuszczalnych wartości | `"[a-z]"` - wszystkie znaki między `a` oraz `z`, `"[0-9]"` - cyfry od 0 do 9, `"[a-c0-3]"` - znaki od `a` do `c` oraz cyfry od 0 do 3. |
| `[^]` | Określa zbiór wartości, które nie mogą znaleźć się w wynikach | `"[^abc]"` - wartości, które nie zawierają `a`, `b` lub `c`, `"[^0-9]"` - wartości, które nie zawierają cyfr |
| `()` | Pozwala na grupowanie wyrażeń. | |
| `\|` | Alternatywa | `"tak\|Tak"` - słowo `tak` lub `Tak`, można również zapisać jako `"(T\|t)ak"` |
| `{m,n}` | Określa bardziej precyzyjnie liczebność wystąpienia elementów wyrażenia | `"b.{2}o"` - dokładnie dwa dwolne znaki, `"b.{2,3}"` - co najmniej 2, ale nie więcej niż 3 wystąpienia, `"b.{2,}o"` - co najmniej dwa wystąpienia, `"b.{,3}"` - co najwyżej 3 wystąpienia. |

> Więcej informacji na temat elementów wyrażeń regularnych w kontekście ich działania w Pythonie można znaleźć w zestawieniu dostępnym pod adresem: https://docs.python.org/3/library/re.html#regular-expression-syntax

## 2. Moduł `re`

Standardowa biblioteka Pythona zawiera moduł `re`, który dostarcza kilka funkcji pozwalających na obsługę wyrażeń regularnych. 

Dokumentację zawierającą elementy składniowe wyrażeń regularnych oraz funkcje tego modułu można znaleźć tu: https://docs.python.org/3/library/re.html


### 2.1 Funkcja `re.match`

Sygnatura: `re.match(pattern, string, flags=0)`

Zwraca obiekt `Match` jeżeli na początku łańcucha znaków (`string`) zawiera zero lub więcej pasujących elementów do wyrażenia (`pattern`). Nie znajduje wszystkich wystąpień wyrażenia (to można osiągnąć poprzez użycie `re.search()`)

In [2]:
import re

In [9]:
# rozpoczyna się od dowolnego znaku, a drugi znak to o
result = re.match('^.o', 'Kowalski')
type(result)

re.Match

In [14]:
# obiekt Match zawiera informacje o tym jaka część łańcucha pasuje do wzorca
print(result)
print(result[0])

<re.Match object; span=(0, 2), match='Ko'>
Ko


In [22]:
# gdybyśmy chcieli sprawdzić czy nazwa kończy się na 'ski` to
# wykorzystując poniższe wyrażenie - nie zadziała jak byśmy tego chcieli
# match dopasowuje tylko na początku wyrażenia
result = re.match('ski$', 'Kowalski')
result

In [23]:
# ale kombinując nieco inaczej, możemy osiągnąć tutaj porządany efekt
result = re.match('.+ski', 'Kowalski')
result

<re.Match object; span=(0, 8), match='Kowalski'>

In [24]:
result = re.match('.+ski', 'Jan Kowalski')
result

<re.Match object; span=(0, 12), match='Jan Kowalski'>

In [26]:
# w dokumentacji funkcji match wyczytamy również, że dopasowanie zostanie wykonane
# tylko dla pierwszej linii
result = re.match('.+ski', 'Jan Kowalski \n Adam Malinowski')
result

<re.Match object; span=(0, 12), match='Jan Kowalski'>

### 2.2 Funkcja `re.fullmatch`

In [21]:
# podobnie jak match, ale dopasowuje wzorzec do całej sekwnecji, a nie szuka tylko pasującego fragmentu
result = re.fullmatch('^[A-Z].+ski$', 'Kowalski')
result

<re.Match object; span=(0, 8), match='Kowalski'>

In [22]:
result = re.fullmatch('^[A-Z].+ski$', 'Kowalski Jan')
result

### 2.3 Funkcja `re.compile`

Funkcja re.compile pozwala na kompilację wyrażenia do obiektu wyrażenia regularnego (więcej [tu](https://docs.python.org/3/library/re.html#re-objects)), an którym możemy później wywołać metody takie jak `match()` czy `search()` oraz inne. Możemy również zdefiniowac dodatkowe flagi dla tego wyrażenia.

In [4]:
pattern = '^.o'

regexp = re.compile(pattern)
result = regexp.match('Kowalski')

# to to samo co wcześniejszy przykład
# result = re.match('^.o', 'Kowalski')

# jednak jeżeli chcemy to wyrażenie wykonać wielokrotnie w naszym skrypcie, to po kompilacji może to być bardziej efektywne
result

<re.Match object; span=(0, 2), match='Ko'>

### 2.4 Funkcja `Pattern.search`

Sygnatura: `Pattern.search(string[, pos[, endpos]])`

Ta funkcja odnajduje pierwsze dopasowanie wzorca w zadanym łańcuchu znaków. Może przyjmować opcjonalne argumenty określające zakres w sekwencji do przeszukania (`sekwencja[pos:endpos]`).


In [7]:
result = regexp.search('Kowalski')
result

<re.Match object; span=(0, 2), match='Ko'>

In [27]:
pattern = '[A-Z]'
regexp = re.compile(pattern)
result = regexp.search('Kowalski')
result

<re.Match object; span=(0, 1), match='K'>

In [28]:
result = regexp.search('Kowalski', 1)
result

In [29]:
result = regexp.search('KOalski', 1)
result

<re.Match object; span=(1, 2), match='O'>

### 2.5 Funkcja `re.split`

Podobnie jak funkcja `str.split()` dzieli sekwencje łańcucha znaków z wykorzystaniem podanego podłańcucha, tak `re.split()` dzieli łańuch z wykorzystaniem wyrażenia regularnego. Poprzez zdefiniowanie wartości argumentu `maxsplit` możemy również ograniczyc liczbę podziałów, po których funkcja powinna przestać to robić. Zwraca listę.

In [30]:
seq = '1 Abracadabra 2 to 3 czary 4 i 5 magia'
result = re.split('[0-9]', seq)
result

['', ' Abracadabra ', ' to ', ' czary ', ' i ', ' magia']

In [31]:
result = re.split('[0-9]', seq, maxsplit=3)
result

['', ' Abracadabra ', ' to ', ' czary 4 i 5 magia']

### 2.6 Funkcja `re.findall`

Zwraca wszystkie wystąpienia wzorca w łańcuchu znaków jako listę łańcuchów lub krotek.

In [37]:
re.findall('k[a-z]*', 'Ala ma kota, a kot to Filemon.')

['kota', 'kot']

In [38]:
re.findall('[0-9]', '1 Abracadabra 2 to 3 czary 4 i 5 magia')

['1', '2', '3', '4', '5']

In [70]:
# jedną z flag, którą możemy przekazać w celu zmiany domyślnego sposobu ewaluacji wyrażenia
# jest re.MULTILINE, które jest przydatne dla przeszukiwania tekstu wielowierszowego (oddzielonego znakami nowego wiersza)

# bez flagi
res = re.findall('^[A-Z].*', 'Bob był budowniczym\nNie bo nie\nco tam słychać?\n')
print(res)

# z flagą
res = re.findall('^[A-Z].+', 'Bob był budowniczym\nNie bo nie\nco tam słychać?\n', flags=re.MULTILINE)
print(res)

['Bob był budowniczym']
['Bob był budowniczym', 'Nie bo nie']


### 2.7 Funkcja `re.finditer`

Funkcja ta zwraca iterator, który zwraca obiekty Match dla każdego odnalezionego dopasowania w łańcuchu znaków.

In [41]:
result = re.finditer('[0-9]', '1 Abracadabra 2 to 3 czary 4 i 5 magia')
result

<callable_iterator at 0x1e2a532b5e0>

In [42]:
for res in result:
    print(res)

<re.Match object; span=(0, 1), match='1'>
<re.Match object; span=(14, 15), match='2'>
<re.Match object; span=(19, 20), match='3'>
<re.Match object; span=(27, 28), match='4'>
<re.Match object; span=(31, 32), match='5'>


## Zadania

In [44]:
text = """
Adam Malinowski
.gitignore
2023-01-17 error "Page not found"
[2025-03-06] NOTICE "User admin logged in"
Code 3300 was invalid
https://www.onet.pl 200 176353
File /etc/passwd: permission denied
Józef
Ania
JOLA
marek
Kowalski
bodo363
PIN 0000 was invalid
/users/test is not a valid directory name
192.168.0.1 access denied
1000
666
"""

Zadania wykonaj na zmiennej `text` zadeklarowanej powyżej.


1. Wypisz wszystkie dopasowania dla linii rozpoczynających się wielką literą.
2. Wypisz dopasowania zawierające cyfry.
3. Wypisz całe linie zawierające kropkę.
4. Wypisz liczby składające się z co najmniej 3 cyfr.
5. Wypisz całe linie zawierające liczby składające się z co najmniej 3 cyfr.
6. Wypisz całe linie zawierające tylko litery.
7. Wypisz całe linie zawierające tylko cyfry.
8. Wypisz dopasowania zawierające słowo `valid` lub `invalid`.
9. Wypisz dopasowania zawierające datę w formacie `YYYY-MM-DD`.
10. Wypisz dopasowania zawierające ścieżkę w formacie UNIX (/.../...).
11. Wypisz dopasowania zawierającą adres IP w wersji 4.
12. Wypisz tekst z każdego cytowania (tekst pomiędzy " oraz ").
13. Wypisz linie, których długość to dokładnie 4 znaki.