# Wyrażenia regularne

Proszę naciskać kombinację klawiszy `Shift+Enter`, aby:
*   wykonać kod w zaznaczonej komórce notatnika
*   otrzymać wynik obliczeń lub komunikat o błędzie
*   przesunąć kursor do następnej komórki notatnika


Abyśmy mogli korzystać z wyrażeń regularnych w Pythonie,
trzeba poprosić komputer, żeby zaimportował moduł
o nazwie `re`

In [None]:
import re

Abyśmy mogli wygodnie korzystać z jakiegoś wyrażenia regularnego,
trzeba poprosić komputer, żeby przetłumaczył
to wyrażenie regularne na automat skończony.
Kiedy komputer tłumaczy program zrozumiały dla człowieka
na taki program, który łatwiej wykonywać komputerowi,
mówimy, że komputer **kompiluje** kod źródłowy programu na program wynikowy.

Tak prosimy komputer, żeby skompilował wyrażenie `'dom'`
do automatu i przypisał ten automat do zmiennej `r`

In [None]:
r = re.compile('dom')

Zmienna `r` to obiekt. Poprośmy komputer, żeby pomógł nam
zrozumieć ten obiekt

In [None]:
help(r)

Widzimy, że obiekt `r` ma sporo metod. Każde skompilowane
wyrażenie regularne ma te same metody.

Zobaczmy, co robi metoda `search`. Poprośmy komputer,
żeby wytłumaczył nam, co robi metoda `search` obiektu `r`

In [None]:
help(r.search)

Widzimy, że metoda `search` ma 3 argumenty.

* Pierwszy argument nazywa się `string`. Zgadujemy, że ten argument powinien być
łańcuchem znaków.
* Drugi i trzeci argument mają wartości domyślne. Twórcy języka
Python to fachowcy. Zaufamy fachowcom i nie będziemy zmieniać
tych wartości domyślnych, czyli nie będziemy pisać tych argumentów
w wywołaniach metody `search` :-)

Czytamy dalej. Metoda `search` przegląda łańcuch znaków,
szukając dopasowania, i zwraca odpowiedni obiekt dopasowania.
Twórcy dokumentacji to fachowcy. Zwracają naszą uwagę na ważny fakt:
metoda `search` zwraca wartość `None`, jeżeli nie znalazła dopasowania.
Dzięki temu możemy łatwo sprawdzać, czy metoda `search` znalazła dopasowanie.

Oto przykład: wywołajmy metodę `search` obiektu `r`
z argumentem `'drzwi'`:

In [None]:
if r.search('drzwi') is not None:
    print('Tu metoda search obiektu r: znalazłam wzorzec "dom" w tekście "drzwi"')
else:
    print('Tu metoda search obiektu r: nie znalazłam wzorca "dom" w tekście "drzwi"')

Oto inny przykład. Jaki tekst zostanie wypisany przez ten fragment kodu?

In [None]:
if r.search('wiadomo') is not None:
    print('Tu metoda r.search: znalazłam wzorzec "dom" w tekście "wiadomo"')
else:
    print('Tu metoda r.search: nie znalazłam wzorca "dom" w tekście "wiadomo"')

## Zagadki
Czas na zagadki :-)

Co wypisze ten fragment kodu?

In [None]:
if r.search('domownik') is not None:
    print('Tu metoda r.search: znalazłam wzorzec "dom" w tekście "domownik"')
else:
    print('Tu metoda r.search: nie znalazłam wzorca "dom" w tekście "domownik"')

A co wypisze ten fragment kodu?

In [None]:
if r.search('świadom') is not None:
    print('Tu metoda r.search: znalazłam wzorzec "dom" w tekście "świadom"')

A co wypisze ten fragment kodu?

In [None]:
if r.search('bzzzz') is not None:
    print('Tu metoda search obiektu r: znalazłam wzorzec "dom" w tekście "bzzzz"')

Nic złego się nie dzieje, kiedy metoda `search` nie znajduje wzorca w tekście.

## Dane testowe
Czas przygotować dane testowe. Przygotowałem dla Państwa plik tekstowy **słowa.txt**.
Plik tekstowy to taki plik, w którym wiersze kończą się za znakami nowego wiersza `\n`.
W pliku **słowa.txt** są słowa języka polskiego.
Zajrzyjmy do tego pliku.

In [None]:
# Aby zajrzeć do pliku 'słowa.txt', otwieramy go do odczytu jako zmienną `plik`
with open('słowa.txt') as plik:
    # Potem przypisujemy listę wszystkich wierszy tego pliku do zmiennej `słownik`
    słownik = plik.readlines()
# Teraz komputer zamknął plik
# Wypisujemy pierwsze 10 elementów listy `słownik`
print(słownik[:10])

Definiujemy funkcję `znajdź_w_liście_wzorzec`.
Ta funkcja przyjmuje dwa argumenty:
* `lista` (lista łańcuchów znaków): lista łańcuchów, którą będziemy przeszukiwać.
* `wzorzec` (łańcuch znaków): wzorzec, którego będziemy szukać w łańcuchach z argumentu `lista`. Ten wzorzec to wyrażenie regularne.

Funkcja `znajdź_w_liście_wzorzec` zwraca listę tych łańcuchów z listy, które pasują do wzorca.

W tej funkcji kolejno:
* Przypisujemy do zmiennej `skompilowany_wzorzec` skompilowany wzorzec :-)
* Przypisujemy do zmiennej `wynik` pustą listę
* Dla każdego elementu listy `lista`:
    * Przypisujemy ten element do zmiennej `łańcuch`
    * Jeśli znaleźliśmy skompilowany wzorzec w łańcuchu, to dodajemy `łańcuch` na końcu listy `wynik`
* Zwracamy listę `wynik`

In [None]:
def znajdź_w_liście_wzorzec(lista: list[str], wzorzec: str) -> list[str]:
    """Znajdź na liście `lista` te łańcuchy, które pasują do wyrażenia regularnego `wzorzec`"""
    skompilowany_wzorzec = re.compile(wzorzec)
    wynik = []
    for łańcuch in lista:
        if skompilowany_wzorzec.search(łańcuch) is not None:
            wynik.append(łańcuch)
    return wynik

Sprawdźmy, jak działa funkcja `znajdź_w_liście`. Poszukajmy w słowniku wzorca `'elementarz'`

In [None]:
znajdź_w_liście_wzorzec(słownik, 'elementarz')

Przypisujemy do zmiennej `kodony` listę kodonów, które występują w DNA

In [None]:
nukleotydy = 'AGCT'
kodony = []
for a in nukleotydy:
    for b in nukleotydy:
        for c in nukleotydy:
            kodony.append(a + b + c)

Obejrzyjmy listę `kodony`

In [None]:
print(kodony)

## Kropka.
Czas na odmianę. Kropka oznacza dowolny znak.

In [None]:
miasto = re.compile('K...ów')

Do wzorca `'K...ów'` pasuje każdy taki łańcuch znaków, który zawiera dużą literę `K`, zaraz po niej trzy dowolne znaki,
a potem małe o kreskowane i małą literę `w`. Zobaczmy, jakie słowa pasują do tego wzorca.

In [None]:
znajdź_w_liście_wzorzec(słownik, miasto)

## Zbiory znaków
Do sekwencji znaków objętej nawiasami kwadratowymi `[]` pasuje każdy taki łańcuch znaków, który zawiera dowolny znak tej sekwencji.

Przypisujemy do zmiennej `kodon` takie wyrażenie regularne, do którego pasuje każdy kodon w DNA.
Każdy nukleotyd każdego kodonu może być oznaczony literą `A`, `G` `C` lub `T`

In [None]:
kodon = re.compile('[AGCT][AGCT][AGCT]')

Do wyrażenia regularnego `kodon` pasuje każdy taki łańcuch znaków, który zawiera trzy kolejne symbole nukleotydów.

In [None]:
print(znajdź_w_liście_wzorzec(kodony, kodon))

In [None]:
zagadka = re.compile('[AGCT]')

Do wyrażenia regularnego `zagadka` pasuje każdy taki łańcuch znaków, który zawiera choć jeden symbol nukleotydu. Sprawdźmy to

In [None]:
print(znajdź_w_liście_wzorzec(kodony, zagadka))

## Daszek `^` i dolar `$`
* Do znaku daszka `^` pasuje początek łańcucha znaków
* Do znaku dolara `$` pasuje koniec łańcucha znaków

Znajdźmy w słowniku wszystkie takie słowa, które zaczynają się od litery `d`. Po tym znaku następuje dowolny znak.
Po tym znaku następuje litera `m`. Litera `m` to ostatni znak tego słowa.

In [None]:
d_m = re.compile('^d.m$')
print(znajdź_w_liście_wzorzec(słownik, d_m))

Znajdźmy w słowniku wszystkie takie słowa, które zaczynają się od litery `K`, a kończą literami `ów`.

In [None]:
r = re.compile('^K...ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

Proszę się pobawić słownikiem. Proszę zamiast trzech kropek wpisać poniżej inne wyrażenie regularne, a potem znaleźć je w słowniku.

In [None]:
r = re.compile('...')
print(znajdź_w_liście_wzorzec(słownik, r))

## Atomy
Atomem może być:
* dowolny znak
* kropka
* zbiór znaków
* dowolne wyrażenie regularne objęte nawiasami okrągłymi `()`

Zobaczmy, jakie kodony mają na początku dowolny nukleotyd, potem adeninę, cytozynę, tymidynę lub guanozynę,
a potem... adeninę, cytozynę, tymidynę lub guanozynę :-)

In [None]:
r = re.compile('^.[ACTG](A|C|T|G)')
print(znajdź_w_liście_wzorzec(kodony, r))

## Gwiazdka Kleene'a
Gwiazdka Kleene'a (`*` lub `*?`) za dowolnym atomem oznacza zero lub więcej dopasowań tego atomu.

Gdy chcemy znaleźć w słowniku wszystkie takie słowa, które zaczynają się od dużej litery `K`, a kończą literami `ów`,
możemy szukać tych słów takimi wyrażeniami regularnymi:

In [None]:
r = re.compile('^Ków$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K.ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K..ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K...ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K....ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K.....ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K......ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K.......ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K........ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K.........ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

In [None]:
r = re.compile('^K..........ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

Tak jednak łatwiej znajdziemy wszystkie takie słowa:

In [None]:
r = re.compile('^K.*ów$')
print(znajdź_w_liście_wzorzec(słownik, r))

Proszę się pobawić słownikiem. Proszę zamiast trzech kropek wpisać poniżej inne wyrażenie regularne, a potem znaleźć je w słowniku.

In [None]:
r = re.compile('...')
print(znajdź_w_liście_wzorzec(słownik, r))

### Niezachłanna gwiazdka Kleene'a

Znajdźmy pierwszy gen w tym chromosomie

In [None]:
chromosom = 'UGGGCAUUGATGCGTACUGGAAATGCUGAUUAAGCCAAAUGUUUGATGAGACCUGGGAACGCCGACUAA'

`*?` to niezachłanna gwiazdka Kleene'a

In [None]:
r = re.compile('(AUG|CUG|UUG)(...)*?(UAA|UAG|UGA)')
print(r.search(chromosom))

Ten gen wygląda jak mikrocyna C7 :-)

Co byśmy znaleźli w tym chromosomie, gdybyśmy użyli zachłannej gwiazdki Kleene'a?

In [None]:
r = re.compile('(AUG|CUG|UUG)(...)*(UAA|UAG|UGA)')
print(r.search(chromosom))

Wygląda na to, że w tym chromosomie sa dwie kopie mikrocyny C7 ;-)