# Wyrażenia regularne (*regex*) i moduł **re**

#### Przykład:

In [1]:
# Importowanie modułu re (regex):
import re

# Sekwencja:
seq = "cgaggtatggta"

# Reguła dopasowania:
pattern = ".ggt"

# Wyszukanie wszystkich podciągów sekwencji zgodnych z regułą:
matches = re.findall(pattern, seq)

print(matches)

['aggt', 'tggt']


#### Reguły:

|Symbol|Opis|Przykład|
|------|-----|-------|
| . | Jeden dowolny znak, ale nie znak nowej linii | ".ggt" |
| [] | Zbiór znaków | "["a-z]" |
| \ | Poprzedza znak specjalny lub sekwencję specjalną | "\n" |
| * | Zero lub wiele wystąpień znaku poprzedzającego | "ag*t" |
| + | Jedno lub wiele wystąpień znaku poprzedzającego | "cga+g" |
| ? | Zero lub jedno wystąpienie znaku poprzedzającego | "ggt?a" |
| {} | Dokładna liczba (lub zakres) powtórzeń znaku poprzedzajacego | "ag{1,2}t" |
| ^ | Symbol początku tekstu | "^cga" |
| \$ | Symbol końca tekstu | "ggta$" |
| \| | Logiczne lub | "cg.\|ta." |

#### Zbiory znaków:


| Zbiór | Opis |
|------|-------|
| [cg] | Zbór zawierający dwa znaki: **c** i **g** |
| [a-e] | Zbiór znaków od a do e (alfabetycznie) |
| [A-E] | Zbiór znaków od A do E (alfabetycznie) |
| [0-9] | Zbiór wszystkich cyfr |
| [a-zA-Z] | Zbiór wszystkich liter alfabetu łacińskiego |
| [^cg] | Zbiór znaków z wyjątkiem **c** i **g** |

#### Przykład budowania wzorca:

**Zadanie A:** Znajdź w sekwencji wszystkie podsekwencje zaczynające się od **"cg"**, następnie posiadające od 2 do 5 dowolnych nukleotydów i kończące się na **"tg"**.

In [2]:
import re

seq = "atgcgaactgatcgctgacgtagtgaa"
pattern = "cg.{2,5}tg"

matches = re.findall(pattern, seq)

print(matches)

['cgaactg', 'cgtagtg']


**Zadanie B:** Znajdź w sekwencji wszystkie podsekwencie zaczynające się od **"cXg"** (gdzie **X** należy do zbioru {"a", "t", "c"}), następnie posiadające 2 lub więcej powtórzenia "at" i kończące się na **"tg"**.

In [3]:
import re

seq = "actgatatattgccagatattga"

# ?: non-capturing group
pattern = "c[atc]g(?:at){2,}tg"

matches = re.findall(pattern, seq)

print(matches)

['ctgatatattg', 'cagatattg']


#### Funkcje z modułu **re**:

- **findall** - szuka wszystkich wystąpień wzorca,
- **search** - szuka do pierwszego wystąpienia wzorca, zwraca obiekt **Match**,
- **split** - zwraca listę napisów z tekstu podzielonego przez każde dopasowanie,
- **sub** - Zamienia wystąpienia dopasowanego podciągu na inny ciąg.

In [4]:
import re

seq = "actgatatattgccagatattga"
pattern = "c[atc]g(?:at){2,}tg"

match = re.search(pattern, seq)

# Wypisanie obiektu Match:
print(match)

# Wypisanie zakresu tekstu w którym nastąpiło dopasowanie:
print(match.span())

# Wypisanie dopasowania:
print(match.group())

# Wypisanie tekstu na któym pracowała funkcja search
print(match.string)

<re.Match object; span=(1, 12), match='ctgatatattg'>
(1, 12)
ctgatatattg
actgatatattgccagatattga


In [5]:
import re

seq = "actgatatattgccagatattga"
pattern = "ga"

# Przykład użycia funckji split:
substrings = re.split(pattern, seq)

print(substrings)

['act', 'tatattgcca', 'tatt', '']


In [6]:
import re

seq = "actgatatattgccagatattga"
pattern = "ga"

# Przykład użycia funckji sub:
substitution = re.sub(pattern, "XX", seq)

print(substitution)

actXXtatattgccaXXtattXX


#### Strona do testowania wyrażeń regularnych:

Link: https://regex101.com/

# Python praktyczny:

#### Jak wygenerować liczbę losową?

In [7]:
import random

# Losowa liczba całkowita z zakresu {0, 100}, 100 wchodzi do zakresu, rozkład płaski:
random_int = random.randint(0, 100)
print(random_int)

# Zmiennoprzecinkowa liczba losowa z zakresu {0.0, 10.0}, rozkład płaski
random_float = random.uniform(0.0, 10.0)
print(random_float)

69
5.315751023035167


#### Jak policzyć sin kąta?

In [8]:
import math

# sin
# cos
# sqrt
# ...

a = 3.1415 / 2
x = math.sin(a)

print(x)

0.999999998926914


#### Jak zmierzyć czas?

In [9]:
import time

start = time.time()
a = [(x / 1000) ** 2 for x in range(1000000)]
end = time.time()

print(end - start)

0.22764348983764648


#### Jak pracować z datami?

In [10]:
import datetime

# Aktualna data i czas:
now = datetime.datetime.now()

print(now, "\n-----------------")
print(now.time())
print(now.time().hour)
print(now.time().minute)
print(now.time().second, "\n-----------------")
print(now.date())
print(now.date().year)
print(now.date().month)
print(now.date().day)

2023-12-04 12:09:49.690428 
-----------------
12:09:49.690428
12
9
49 
-----------------
2023-12-04
2023
12
4


In [11]:
# 2023-12-25 12:00
date = datetime.datetime(2023, 12, 25, 12, 0)
print(date)

now = datetime.datetime.now()

# Ile czasu do 2023-12-25 12:00?
print(date - now)

2023-12-25 12:00:00
20 days, 23:50:10.296415


#### Jak pracować ze ścieżkami?

In [12]:
import os

p = "C:/Programowanie_w_pythonie/cwiczenia_8/cwiczenia_8.ipynb"

# Podzielenie ścieżki na ogon i głowę:
path_elements = os.path.split(p)
print(path_elements)

# Uzyskiwanie ścieżki do katalogu:
dir_name = os.path.dirname(p)
print(dir_name)

('C:/Programowanie_w_pythonie/cwiczenia_8', 'cwiczenia_8.ipynb')
C:/Programowanie_w_pythonie/cwiczenia_8


In [13]:
p = "C:/Programowanie_w_pythonie"

# Sprawdzenie czy podana ścieżka wskazuje na katalog:
print(os.path.isdir(p))

True


In [14]:
p = "C:/Programowanie_w_pythonie/cwiczenia_8/cwiczenia_8.ipynb"

# Sprawdzenie czy podana ścieżka wskazuje na plik:
print(os.path.isfile(p))

True


#### Jak wylistować zawartość katalogu?

In [15]:
import os

# Listowanie zawartości katalogu:
content = os.listdir("C:/Programowanie_w_pythonie/cwiczenia_6")

print(content)

['.ipynb_checkpoints', 'a.txt', 'copy_test.txt', 'copy_test_2.txt', 'cw1.txt', 'cw10.txt', 'cw2.txt', 'cw4.txt', 'cw6.txt', 'cw7.txt', 'cwiczenia_6.html', 'cwiczenia_6.ipynb', 'data.txt', 'div.txt', 'hello.txt', 'hello_2.txt', 'main.py', 'points.txt', 'update.txt', 'zad1.txt', 'zad3.txt', 'zad4.txt']


In [16]:
content = os.listdir("C:/Programowanie_w_pythonie/cwiczenia_6")

# Filtrowanie plików po rozszerzeniu:
txt_files = [path for path in content if path.split(".")[1] == "txt"]

print(txt_files)

['a.txt', 'copy_test.txt', 'copy_test_2.txt', 'cw1.txt', 'cw10.txt', 'cw2.txt', 'cw4.txt', 'cw6.txt', 'cw7.txt', 'data.txt', 'div.txt', 'hello.txt', 'hello_2.txt', 'points.txt', 'update.txt', 'zad1.txt', 'zad3.txt', 'zad4.txt']


# Ćwiczenia (na zajęcia):

#### 1. Znajdź wszystkie wystąpienia słowa **"kot"** w poniższym tekście. Użyj wyrażenia regularnego.

```Python
txt = "pies kot kot kanarek kot rybki"
```

#### 2. Znajdź wszystkie wystąpienia podciągu typu: **cgYXXt**, gdzie **Y** to znak należący do {"a", "t"} a **X** to dowolny znak z alfabetu {"c", "g", "a", "t"}.

```Python
seq = "ctacgatatgcgtaatcg"
```

#### 3. Napisz wyrażenie regularne opisujące poniższe ciągi:

```
atcg
atccg
atcccg
atccccg
actcg
acctcccg
accccctcccg
```

#### 4. Napisz wyrażenie regularne znajdujące nazwę aminokwasu w każdej linijce poniższego pliku PDB:

```Python
txt = """ATOM   1747  N   LYS A 218      59.992  22.309  40.874  1.00 19.55           N  
ATOM   1748  CA  LYS A 218      59.534  22.699  42.205  1.00 19.76           C  
ATOM   1749  C   LYS A 218      59.764  24.168  42.511  1.00 18.22           C  
ATOM   1750  O   LYS A 218      60.565  24.833  41.862  1.00 19.18           O  
ATOM   1751  CB  LYS A 218      60.286  21.913  43.284  1.00 24.45           C  
ATOM   1752  CG  LYS A 218      60.370  20.417  43.103  1.00 28.21           C  
ATOM   1753  CD  LYS A 218      61.333  19.849  44.141  1.00 31.68           C  
ATOM   1754  CE  LYS A 218      61.584  18.364  43.936  1.00 34.95           C  
ATOM   1755  NZ  LYS A 218      62.596  17.847  44.904  1.00 38.08           N  
ATOM   1756  N   SER A 219      59.041  24.645  43.521  1.00 17.60           N  
ATOM   1757  CA  SER A 219      59.162  26.000  44.047  1.00 16.41           C  
ATOM   1758  C   SER A 219      59.336  25.806  45.549  1.00 16.24           C  
ATOM   1759  O   SER A 219      58.826  24.842  46.116  1.00 17.88           O  
ATOM   1760  CB  SER A 219      57.892  26.823  43.803  1.00 17.29           C  
ATOM   1761  OG  SER A 219      57.875  27.386  42.505  1.00 16.63           O  
ATOM   1762  N   TYR A 220      60.057  26.718  46.184  1.00 16.83           N  
ATOM   1763  CA  TYR A 220      60.271  26.651  47.622  1.00 18.04           C  
ATOM   1764  C   TYR A 220      59.783  27.918  48.288  1.00 18.27           C  
ATOM   1765  O   TYR A 220      59.785  28.991  47.685  1.00 18.07           O  
ATOM   1766  CB  TYR A 220      61.759  26.525  47.958  1.00 17.94           C  
ATOM   1767  CG  TYR A 220      62.439  25.291  47.433  1.00 18.79           C  
ATOM   1768  CD1 TYR A 220      63.338  25.371  46.370  1.00 20.42           C  
ATOM   1769  CD2 TYR A 220      62.196  24.045  48.002  1.00 21.36           C  
ATOM   1770  CE1 TYR A 220      63.982  24.236  45.886  1.00 22.54           C  
ATOM   1771  CE2 TYR A 220      62.834  22.903  47.525  1.00 22.34           C  
ATOM   1772  CZ  TYR A 220      63.722  23.007  46.470  1.00 23.29           C  
ATOM   1773  OH  TYR A 220      64.352  21.876  45.992  1.00 25.71           O"""
```

#### 5. Napisz wyrażenie regularne szukające dat w tekście.

Format daty: yyyy-mm-dd

```Python
txt = "kot pies 2023-12-04 rybki 2023-12-25 kanarek"
```

#### 6. Napisz wyrażenie regularne rozpoznające wszystkie wyrazy 4 literowe nie zaczynające się od **a** i **g**.

```Python
txt = "mars gips rafa alpy glon "
```

#### 7. Napisz wyrażenie regularne rozpoznające poprawnie zapisane liczby.

```
123 - poprawna liczba
0123 - niepoprawna liczba
3.14 - poprawna liczba
3..14 - niepoprawna liczba
.12 - poprawna liczba
3. - poprawna liczba
```

#### 8. Napisz program podstawiający znak **X** w miejscach wystąpienia ciągu **abc**.

```Python
text = "gsabctreabc8hjgrabcfgd"
```

#### 9. Napisz program wyznaczający liczbę godzin do Sylwestra (od teraz).

#### 10. Napisz prosty generator liczb losowych. Generator powinien być inicjalizowany aktualnym czasem (np. liczbą sekund).

Wzór generatora: 
$$x_0=f(czas)$$
$$x_{n+1}=4x_n(1-x_n)$$

# **Zadania:**

#### Zadanie 1:

Napisz wyrażenie regularne opisujace poniższe ciągi (wyrażenie powinno korzystać z podanego alfabetu):

```
alfabet = {a, b, c, d, e, f}

ciągi:
abcddddddff
acdeeddedddeff
aceedeff
abbceeddeeddff
abbbbceeeeeeff
```

Czyli: Zaczynamy od "a" później może być dowolna liczba "b" następnie jest "c", dowolna liczba "d" i "e" i kończymy na "ff"

#### Zadanie 2:

Napisz wyrażenie regularne znajdujące numery telefonów w podanym tekście:

```Python
txt = "kot 123-435-265 kanarek +48-654-235-542 rybki 321 432 543"
```

#### Zadanie 3:

Napisz funkcję sprawdzącą czy podana data ma poprawny format czy nie (użyj wyrażeń regularnych, nie musisz spradzać czy data ma sens).

```
Format daty: yyyy-mm-dd

"2023-12-12" - poprawna data, funkcja powinna zwrócić: True
"23-12-12" - niepoprawna data, funkcja powinna zwrócić: False
```

#### Zadanie 4:

Napisz wyrażenie regularne znajdujące linki w podanym tekście:

```Python
txt = "https://pl.wikipedia.org/wiki/Wyra%C5%BCenie_regularne kot pies kanarek https://pl.wikipedia.org/wiki/Gramatyka_regularna rybki"
```

#### Zadanie 5:

Napisz program wyznaczający liczbę dni od czasu bitwy pod Grunwaldem do **TERAZ**.

#### Zadanie 6*:

Napisz program znajdujący w tekście daty w formacie mm-dd-yyyy i zamieniający je na daty w formacie dd-mm-yyyy.

```Python
txt = "kot 05-23-1985 kanarek 07-21-2011 rybki 12-25-2023 pies"
```