# Podstawy programowania w analizie danych

## Tomasz Rodak

2017/2018, semestr letni

Wykład XII

# Łańcuchy znaków

## Sekwencje ucieczkowe

* **Sekwencje ucieczkowe** to sekwencje znaków, które są traktowane przez interpreter Pythona w specjalny sposób.

* Każda sekwencja ucieczkowa rozpoczyna się od znaku wstecznego ukośnika (backslash) `\`

### Przykład

Co pokaże ten `print()`?

In [None]:
tekst = 'Języki programowania:\n\t1. Lisp\n\t2. Fortran\n\t3. Haskell'
print(tekst)

### Tabela sekwencji ucieczkowych:

Escape | What it does.
---- | ----
\\ | Backslash (\)
\' |	Single-quote (')
\" |	Double-quote (")
\a |	ASCII bell (BEL)
\b |	ASCII backspace (BS)
\f |	ASCII formfeed (FF)
\n |	ASCII linefeed (LF)
\N{name} |	Character named name in the Unicode database (Unicode only)
\r |	Carriage Return (CR)
\t |	Horizontal Tab (TAB)
\uxxxx |	Character with 16-bit hex value xxxx (u'' string only)
\Uxxxxxxxx |	Character with 32-bit hex value xxxxxxxx (u'' string only)
\v |	ASCII vertical tab (VT)
\ooo |	Character with octal value ooo
\xhh |	Character with hex value hh

Przykłady różnych sekwencji ucieczkowych.

In [8]:
apostrof = 'Apostrof \' między apostrofami\n'
ukośnik = 'Oto ukośnik \\\n'
zamarzanie = 'Temperatura zamarzania wody to 0\xb0C\n'
znak_towarowy = 'A to znak towarowy: \N{REGISTERED SIGN}\n'

print(apostrof, ukośnik, zamarzanie, znak_towarowy, sep='')

Apostrof ' między apostrofami
Oto ukośnik \
Temperatura zamarzania wody to 0°C
A to znak towarowy: ®



## Surowe łańcuchy (*raw strings*)

* **Surowy łańcuch** to zwykły łańcuch znaków, który został w specjalny sposób utworzony -- przez postawienie znaku `r` lub `R` przed apostrofem/cudzysłowem otwierającym łańcuch.

* W surowym łańcuchu backslash nie tworzy sekwencji ucieczkowej -- jest zaliczany do łańcucha wraz ze znakiem, który po nim następuje.

### Przykład

Łańcuch `\n` składa się z **jednego** znaku -- znaku nowej linii:

In [9]:
len('\n')

1

Łańcuch `r'\n'` to dwa znaki -- backslash i litera `n`:

In [10]:
len(r'\n')

2

Lub równoważnie:

In [11]:
r'\n' == '\\n'

True

## Ścieżki dostępu

Trzy sposoby na poprawną ścieżkę dostępu w MS Windows:

* Wykorzystać surowy łańcuch:
  ```python
  path = r'C:\User\Moje dokumenty'
  ```

* Utworzyć sekwencję ucieczkową dla backslasha:
  ```python
  path = 'C:\\User\\Moje dokumenty'
  ```

* Pisać ukośnik zamiast wstecznego ukośnika:
  ```python
  path = 'C:/User/Moje dokumenty'
  ```

# Wyrażenia regularne

## Wyrażenia regularne


* Wyrażenie regularne to ciąg znaków definiujący wzorzec. Każdy wzorzec to formalny schemat dopasowywany do tekstu  przez algorytmy wyszukujące. 

* Dwie najważniejsze składnie dla wyrażeń regularnych to standard POSIX i składnia zaczerpnięta z języka Pearl

* Python posiada wsparcie dla języka wyrażeń regularnych w stylu Pearl'a w bibliotece standardowej w module `re`.

* W Pythonie wzorzec i tekst do którego się wzorzec stosuje to łańcuchy znaków lub łańcuchy bajtów.

## Serwisy online

* [https://regexr.com/](https://regexr.com/)

* [http://www.pyregex.com/](http://www.pyregex.com/)

* [https://regex101.com/](https://regex101.com/)

## Najprostszy wzorzec

Najprostszy wzorzec to taki, w którym wszystkie znaki wzorca dopasowuje się literalnie do tekstu.

Np. wzorzec
```
wilk
```
ma dwa dopasowania w tekście
```
Nosił wilk razy kilka, ponieśli i wilka.
      ^^^^                        ^^^^
```

## Sekwencje ucieczkowe i metaznaki

* Składnię wyrażenia regularnego budują znaki dopasowywane literalnie, sekwencje ucieczkowe i metaznaki.

* Sekwencje ucieczkowe w wyrażeniach regularnych tworzy backslash.

* **Metaznaki** to znaki, które odgrywają w wyrażeniach regularnych specjalną rolę i przez to same siebie nie dopasowują. Oto ich pełna lista:
```
. ^ $ * + ? { } [ ] \ | ( )
```

* Każdy z tych znaków można dopasować stosując ucieczkę, czyli poprzedzając go wstecznym ukośnikiem.

## Cyfry, znaki alfanumeryczne, białe znaki

Dopasowania do klas znaków tworzy się za pomocą sekwencji ucieczkowych.

* `\d` -- cyfra.

* `\w` -- znak alfanumeryczny, czyli litera, liczba lub podkreślnik.

* `\s` -- biały znak (*whitespace*).

### Zadanie

Jaki wzorzec dopasuje kod pocztowy w tekście
```
Stefana Banacha 22, 90-238 Łódź
```

```
\d\d-\d\d\d
```

### Zadanie

Ile dopasowań w tekście
```
Stefana Banacha 22, 90-238 Łódź
```
ma  wzorzec
```
\w\s\w
```

Trzy
```
Stefana Banacha 22, 90-238 Łódź
      ^^^     ^^^        ^^^
```
o ile `Ł` zostanie uznane za znak alfanumeryczny.

## Zaprzeczenia do `\d`, `\w`, `\s`

* `\D` -- znak **nie jest** cyfrą.

* `\W` -- znak **nie jest** znakiem alfanumerycznym.

* `\S` -- znak **nie jest** białym znakiem.

## Zbiory znaków

* Nawiasy kwadratowe `[]` oznaczają w wyrażeniu regularnym zbiór znaków.  Np. wyrażenie `[0123456789abcdef]` oznacza dokładnie jedną cyfrę szesnastkową. 

* W nawiasach kwadratowych można stosować zakresy używając znaku minus. Przykłady:

  * `[0-9]` - dowolna cyfra, równoważne z `\d`,
  * `[a-z]` - dowolna mała litera,
  * `[0-9a-f]` - dowolna cyfra szesnastkowa.

### Zadanie

Jaki wzorzec dopasowuje każdą liczbę trzycyfrową?

```
[1-9]\d\d
```

## Tworzenie dopełnień

Jeżeli pierwszym znakiem w zbiorze znaków jest `^`, to zbiór ten dopasowuje te znaki, których w zbiorze **nie ma**.

Np. wzorzec [^0-9] dopasowuje każdy znak, który **nie jest** cyfrą.

### Zadanie

Ile dopasowań ma wzorzec
```
\w[^\w]\s
```
w tekście
```
Johannes Kepler (ur. 27 grudnia 1571 w Weil der Stadt, zm. 15 listopada 1630 w Ratyzbonie)
```

```
Johannes Kepler (ur. 27 grudnia 1571 w Weil der Stadt, zm. 15 listopada 1630 w Ratyzbonie)
                  ^^^                               ^^^ ^^^
```

## Kwantyfikatory

* Znaki `*`, `+` i `?` mają charakter kwantyfikatorów i odnoszą się do poprzedzającego znaku:

  `*` -- dowolna liczba powtórzeń,
  
  `+` -- co najmniej jedno powtórzenie,
  
  `?` -- dokładnie jedno lub brak powtórzeń.

* Nawiasy `{}` grupują zakres wyznaczający dopuszczalną liczbę powtórzeń (znów poprzedzającego znaku):

  `{n}` -- dokładnie `n` razy,
  
  `{m, n}` -- od `m` do `n` razy,
  
  `{m,}` -- `m` lub więcej razy,
  
  `{,n}` -- nie więcej niż `n` razy.

### Zadanie

Jaki wzorzec dopasowuje słowa w tekście?

```
\w+
```

### Zadanie

Jaki wzorzec dopasowuje kody pocztowe?

```
\d\d-\d\d\d
```
lub
```
\d{2}-\d{3}
```

## `re`

* Moduł `re` umożliwia obsługę języka wyrażeń regularnych w Pythonie.

* Implementuje dwa nowe typy obiektów:
  * **obiekt dopasowania** odpowiadający fragmentowi tekstu, który dopasował się do wyrażenia.
  * **obiekt wyrażenia regularnego** odpowiadający wzorcowi wyrażenia regularnego.

## Uwaga

W wyrażeniach regularnych  i w łańcuchach znaków w Pythonie wsteczny ukośnik `\` rozpoczyna sekwencję ucieczkową. Z powodu tej kolizji wzorce wyrażeń regularnych należy budować z surowych łańcuchów.


Przykładowo, wzorzec wyrażenia regularnego dla dosłownego znaku `\` to `\\`. Zatem `r'\\'` lub równoważnie `'\\\\'` jest literałem łańcucha znaków tworzącym wzorzec dla `\`.

## `re.search(pattern, string, flags=0)`
   
* Znajduje w łańcuchu `string` pierwsze od lewej dopasowanie do wzorca `pattern`. 

* Zwraca odpowiadający temu dopasowaniu obiekt.

* Jeśli dopasowania nie znaleziono, to zwracane jest `None`.

## `re.compile(pattern, flags=0)`

* Kompiluje wzorzec `pattern` do **obiektu wyrażenia regularnego**.

* Metody tego obiektu pozwalają na znajdywanie w tekście dopasowań do skompilowanego wzorca.

## `re.finditer(pattern, string, flags=0)`

* Zwraca iterator ze wszystkimi obiektami dopasowań w tekście `string` do wzorca `pattern.`

* Wyszukiwanie zaczyna się od lewej, a znalezione fragmenty tekstu nie zachodzą na siebie.

## Obiekt dopasowania

In [12]:
import re

tekst = 'ala ma kota i psa'
dopasowanie = re.search(r'\w{4}', tekst)

dopasowanie

<_sre.SRE_Match object; span=(7, 11), match='kota'>

Metody `start()` i `end()` zwracają indeks początku i końca dopasowania.

In [13]:
a, b = dopasowanie.start(), dopasowanie.end()
a, b

(7, 11)

In [14]:
tekst[a:b]

'kota'

Metoda `span()` zwraca krotkę z indeksami początku i końca dopasowania.

In [15]:
tekst = 'ala ma kota i psa'
dopasowanie = re.search(r'\w{3}', tekst)

a, b = dopasowanie.span()
a, b

(0, 3)

In [16]:
tekst[a:b]

'ala'

Metoda `group()` zwraca dopasowany fragment tekstu.

In [17]:
tekst = '90-238 Łódź, Stefana Banacha 22'

for dopasowanie in re.finditer(r'\w+', tekst):
    print(dopasowanie.group())

90
238
Łódź
Stefana
Banacha
22


## Obiekt wyrażenia regularnego

Utworzymy obiekt wyrażenia regularnego ze wzorca
```
[A-Z]\w*
```

Jak sądzisz, do czego będzie się dopasowywał?

In [18]:
pierwsze_słowo = re.compile(r'[A-Z]\w*')

Poszukamy słów zaczynających się wielką literą w tekście:
```
W trakcie swojej kariery Kepler był nauczycielem matematyki
w Grazu, asystentem astronoma Tychona Brahe, matematykiem
na dworze Rudolfa II Habsburga, nauczycielem matematyki w
Linzu i doradcą Albrechta von Wallensteina. Poza badaniami
astronomicznymi prowadził badania w zakresie optyki i 
ulepszył teleskop soczewkowy Galileusza.

W czasach Keplera nie istniało wyraźne rozróżnienie 
pomiędzy astronomią i astrologią, natomiast astronomia 
jako jedna ze sztuk wyzwolonych była wyraźnie oddzielona
od fizyki, zaliczanej do filozofii przyrody. Kepler w swoich 
pracach używał argumentów religijnych, wychodząc z założenia,
że Bóg stworzył świat zgodnie z inteligentnym planem, który
można poznać za pomocą rozumu. Określał swoją astronomię
jako „fizykę niebieską” i jako „wycieczkę w Metafizykę
Arystotelesa”, przenosząc tradycyjnie pojmowaną kosmologię
w obszar uniwersalnie obowiązującej matematyki```

In [19]:
kepler = '''W trakcie swojej kariery Kepler był nauczycielem matematyki w Grazu, asystentem astronoma Tychona Brahe,
matematykiem na dworze Rudolfa II Habsburga, nauczycielem matematyki w Linzu i doradcą
Albrechta von Wallensteina. Poza badaniami astronomicznymi prowadził badania w
zakresie optyki i ulepszył teleskop soczewkowy Galileusza.

W czasach Keplera nie istniało wyraźne rozróżnienie pomiędzy astronomią i astrologią,
natomiast astronomia jako jedna ze sztuk wyzwolonych była wyraźnie oddzielona od fizyki,
zaliczanej do filozofii przyrody. Kepler w swoich pracach używał argumentów religijnych,
wychodząc z założenia, że Bóg stworzył świat zgodnie z inteligentnym planem,
który można poznać za pomocą rozumu.
Określał swoją astronomię jako „fizykę niebieską” i jako „wycieczkę w Metafizykę Arystotelesa”,
przenosząc tradycyjnie pojmowaną kosmologię w obszar uniwersalnie obowiązującej matematyki'''

Obiekt wyrażenia regularnego posiada metodę `search()`.

In [20]:
dopasowanie = pierwsze_słowo.search(kepler)

if dopasowanie is not None:
    print(dopasowanie.group())

W


Posiada również metodę `finditer()`.

In [21]:
dopasowania = pierwsze_słowo.finditer(kepler)

for dopasowanie in dopasowania:
    print(dopasowanie.group(), end=' ')

W Kepler Grazu Tychona Brahe Rudolfa II Habsburga Linzu Albrechta Wallensteina Poza Galileusza W Keplera Kepler Bóg Określał Metafizykę Arystotelesa 