# <center>Laboratorium Analiza i bazy danych </center>

## <center>Łańcuchy znaków i wyrażenia regularne</center>

## Wprowadzenie

W każdym silniku baz danych istnieją mechanizmy do porównywania, dopasowywania i manipulowania ciągami znaków (*string*). 

Oprócz podstawowej funkcjonalności polegającej na odpowiedzi na pytanie „czy ten ciąg pasuje do tego wzoru?” w bazach danych istnieją operatory i funkcje do wyodrębniania, zastępowania i podziałów pasujących podciągów do wzorca podanego przez użytkownika.


Istnieją trzy osobne podejścia do dopasowywania wzorców zapewniane przez PostgreSQL:  
- LIKE/ILIKE, 
- SIMILAR TO (standard SQL:1999),  
- wyrażenia regularne w stylu POSIX. 

Ten dokument ma na celu przybliżenie podstawowych funkcji działania na ciągach znakowych w PostgreSQL.

## LIKE/ILIKE

Wyrażenie LIKE zwraca wartość *true*, jeśli ciąg znaków odpowiada dokładnie podanemu wzorcowi. ILIKE natomiast to klauzula umożliwiająca dopasowanie wzorca jednak nie zwraca ona uwagę na wielkość liter. Wyrażeniem przeciwnym jest NOT LIKE lub NOT ILIKE. Składnia tego wyrażenia to:

string (LIKE|ILIKE) wzorzec,
string NOT (LIKE|ILIKE) wzorzec

Przy tym typie klauzuli wzorce tworzymy przy użyciu dwóch operatorów:
- _ - zastępuje pojedynczy znak,
- % - zastępuje dowolną długość znaków.

#### Przykład:
|Wyrażenie|Wynik|
|---|---:|
|'abc' LIKE 'abc'|   true|  
|'abc' LIKE 'a%'|    true|  
|'abc' LIKE '_b_'|   true|  
|'abc' LIKE 'c'   |   false|  
|'ABC' ILIKE 'abc'|   true | 
|'ABC' LIKE 'abc'|    false| 

Klauzule LIKE/ILIKE można zastąpić operatorami:
- ~~ równoważny do LIKE
- ~~\*  równoważny do ILIKE  
- !~~  równoważny do LIKE  
- !~~\* równoważny do NOT ILIKE

## SIMILAR TO
Klauzula SIMILAR TO tak samo jak LIKE/ILIKE zwraca wartość *true* lub *false* w zależności od tego, czy podany wzorzec pasuje do podanego ciągu. Różnica pomiędzy tymi operatorami polega na tym, że SIMILAR TO interpretuje wzorzec za pomocą definicji wyrażenia regularnego w standardzie SQL. Wyrażenia regularne SQL są połączeniem notacji LIKE i zwykłej notacji wyrażeń regularnych (POSIX).

Składnia tego zapytania ma postać:

string SIMILAR TO wzorzec,
string NOT SIMILAR TO wzorzec

Oprócz funkcji zapożyczonych z LIKE, SIMILAR TO obsługuje te metaznaki pasujące do wzorca zapożyczone z wyrażeń regularnych POSIX:

- \| - oznacza naprzemienność (jedną z dwóch alternatyw).
- \* - oznacza powtórzenie poprzedniego elementu zero lub więcej razy.
- \+ - oznacza powtórzenie poprzedniego elementu jeden lub więcej razy.
- \? - oznacza powtórzenie poprzedniego elementu zero lub jeden raz.
- {m} - oznacza powtórzenie poprzedniego elementu dokładnie m razy.
- {m,} - oznacza powtórzenie poprzedniego elementu m lub więcej razy.
- {m, n} - oznacza powtórzenie poprzedniego elementu co najmniej mi nie więcej niż n razy.

Nawiasów () można używać do grupowania elementów w jeden element logiczny. Wyrażenie w nawiasie \[...\] określa klasę znaków, podobnie jak w wyrażeniach regularnych POSIX.

|Wyrażenie|Wynik|
|---|---:|
|'abc' SIMILAR TO 'abc'|     true|
|'abc' SIMILAR TO 'a'|        false|
|'abc' SIMILAR TO '%(b\|d)%'| true|
|'abc' SIMILAR TO '(b\|c)%'|   false|

## Składnia POSIX

Wyrażenia regularne POSIX zapewniają więcej reguł tworzenia wzorców niż operatory LIKE i SIMILAR TO. Wiele narzędzi uniksowych, takich jak grep, sed lub awk, używa języka dopasowywania wzorców podobnego do tego używanego w PostgreSQL.

Wyrażenie regularne to opis ciągu znaków przy użyciu symboli w celu utworzenia wzorca ciągu, która umożliwia dopasowanie wzorców. Mówi się, że łańcuch pasuje do wyrażenia regularnego, jeśli jest on członkiem zbioru regularnego opisanego przez wyrażenie regularne. Podobnie jak w przypadku LIKE, znaki wzorcowe dokładnie pasują do znaków łańcuchowych, chyba że są znakami specjalnymi w języku wyrażeń regularnych - ale wyrażenia regularne używają innych znaków specjalnych niż LIKE. W przeciwieństwie do wzorców LIKE, wyrażenie regularne może pasować w dowolnym miejscu ciągu, chyba że wyrażenie regularne jest wyraźnie zakotwiczone na początku (^) lub na końcu łańcucha ($).

Używanie tego rodzaju dopasowania ciągu znaków odbywa się przez operatory:

- ~	pasuje do wzorca , wielkość liter ma znaczenie
- ~\*	pasuje do wzorca , wielkość liter nie ma znaczenie	
- !~	nie pasuje do wzorca , wielkość liter ma znaczenie	
- !~\*	nie pasuje do wzorca , wielkość liter nie ma znaczenie

#### Przykład:
|Wyrażenie|Wynik|
|---|---:|
|'abc' ~ 'abc'|    true|
|'abc' ~ '^a' |    true|
|'abc' ~ '(b\|d)'|  true|
|'abc' ~ '^(b\|c)'| false|

Język zapytań regularnych w PostgreSQL który będzie omawiany na zajęciach składa się z:

|Wzorzec|Dopasowanie|
|---|---|
|\* |sekwencja 0 lub więcej dopasowań atomu|
|\+ |sekwencja 1 lub więcej dopasowań atomu|
|\? |sekwencja 0 lub 1 dopasowań atomu
|{m.} |sekwencja dokładnie m dopasowań atomu|
|{m,} |sekwencja m lub więcej dopasowań atomu|
|{m, n}| sekwencja od m do n (włącznie) dopasowań atomu; m nie może przekraczać n|
|^| dopasuj od początku łańcucha znaków|
|$| dopasuj od końca łańcucha znaków|

Formularze używające {...} są znane jako granice. Liczby min w granicach są liczbami całkowitymi dziesiętnymi bez znaku z dopuszczalnymi wartościami od 0 do 255 włącznie.

Pełny opis omawianych funkcjonalności dostępny jest w [dokumentacji PostgreSQL](https://www.postgresql.org/docs/9.3/functions-matching.html) 

## Wybrane funkcje działające na znakach

Poza funkcją dopasowania w PostgreSQL istnieje również szereg funkcji predefiniowanych niepozwalających działanie ciągach znaków. W poniższej tabeli przedstawiono wybrane funkcje:

|Funkcja| Opis| Przykład| Wynik|
|:---|:---|:---:|---:|
|ASCII| Zwraca wartość kodu ASCII znaku lub punktu kodu Unicode znaku UTF8<br><br>| ASCII ('A')| 65|
|CHR |Konwertuj kod ASCII na znak lub punkt kodu Unicode na znak UTF8<br><br>|CHR (65) |'A'|
|CONCAT| Połączenie dwóch lub więcej ciągów w jeden<br><br>| CONCAT('A', 'B', 'C')| 'ABC'|
|CONCAT_WS| Połączenie ciągów znaków z separatorem<br><br>| CONCAT_WS(',', 'A', 'B', 'C')| 'A, B, C'|
|FORMAT| Łącznie ciągów zgodnie z zadanym wzorcem formatowania<br><br>| FORMAT('Witaj% s', 'PostgreSQL') |'Witaj PostgreSQL'|
|INITCAP| Konwertuj łańcuch znaków w styl nagłówka<br><br>| INITCAP('CZEść wAM') |"Cześć Wam"|
|LEFT| Zwraca pierwszy n znaku z lewej strony ciągu<br><br>| LEFT('ABC', 1) |'A'|
|LENGTH| Zwraca liczbę znaków w ciągu<br><br>| LENGTH('ABC')| 3|
|LOWER| Konwertuj ciąg na małe litery<br><br>|LOWER ('czEŚĆ wAM')| 'cześć wam'|
|LPAD| Uzupełnieni z lewej strony ciągu do zadanej długości zadanym ciągiem<br><br>|LPAD('123', 5, '00')| '00123'|
|LTRIM| Usuwanie najdłuższego ciąg zawierającego określone znaki z lewej strony ciągu wejściowego<br><br>| LTRIM ('00123')|'123'|
|MD5| Zwraca skrót MD5 ciągu szesnastkowego<br><br>| MD5('ABC')||
|POSITION| Zwraca lokalizację pod łańcucha w ciągu<br><br>| POSTION('B' w 'A B C') |3|
|REGEXP_MATCHES| Dopasuj wyrażenie regularne POSIX do łańcucha i zwraca pasujące podciągi<br><br>| REGEXP_MATCHES ('ABC', '^(A)(..)$', 'g');| {ABC}|
|REGEXP_REPLACE| Zamienia podciągi pasujące do wyrażenia regularnego POSIX na nowy podciąg<br><br>| REGEXP_REPLACE ('John Doe','(.*)(.*)’,’\2, \1′);| 'Doe, John'|
|REPEAT| Powtarza ciąg określoną liczbę razy<br><br>| REPEAT('\*', 5)| '\*\*\*\*\*'|
|REPLACE| Zamienia wszystkie wystąpienia w ciągu pod łańcucha z podciągu na zadany <br><br>REPLACE('ABC', 'B', 'A')| 'AAC'|
|REVERSE| Odwrócenie ciągu<br><br>| REVERSE ('ABC') 'CBA'|
|RIGHT| Zwraca ostatnie n znaków w ciągu. Kiedy n jest ujemne, zwracaj wszystkie oprócz pierwszego<br><br>| RIGHT('ABC', 2)| 'BC'|
|RPAD| Uzupełnieni z prawej strony ciągu do zadanej długości zadanym ciągiem<br><br>| RPAD('ABC', 6, 'xo') | 'ABCxox'|
|RTRIM| Usuwa najdłuższy ciąg zawierający określone znaki z prawej strony ciągu wejściowego<br><br>| RTRIM 'abcxxzx', 'xyz')|'abc'|
|SPLIT_PART| Dzieli ciąg na określonym ograniczniku i zwraca n-ty pod łańcuch<br><br>| SPLIT_PART('2017-12-31′, ’-', 2)| ’12’|
|SUBSTRING| Wyodrębnia podciąg z ciągu<br><br>| SUBSTRING('ABC', 1,1)| 'A'|
|TRIM| Usuwa najdłuższy ciąg zawierający określone znaki z lewej, prawej lub obu ciągów wejściowych<br><br>| TRIM('ABC')| 'ABC'|
|UPPER| Konwertuje ciąg na wielkie litery<br><br>|UPPER('CZEść wAM') |'CZEŚĆ WAM'|


## Zadania:
1. Znajdź wszystkie nazwy krajów rozpoczynających się na P.
2. Znajdź wszystkie nazwy krajów rozpoczynających się  P i kończących na s.
3. Znajdź wszystkie tytuły filmów, w których znajdują się cyfry.
4. Znajdź wszystkich pracowników z podwójnym imieniem lub nazwiskiem.
5. Znajdź wszystkie nazwiska aktorów rozpoczynających się od P lub C i mających 5 znaków.
6. Znajdź wszystkie tytuły filmów, w których występują słowa Trip lub Alone.
7. Przeanalizuj zapytania:
	- select first_name from actor where first_name ~ '^ Al\[a: z, 1: 9\] *'
	- select first_name from actor where first_name ~ * '^ al\[a: z, 1: 9\] *'


In [1]:
# Połączenie się z bazą:
from sqlalchemy import create_engine
import pandas as pd

db_string = "postgresql://wbauer_adb:adb2020@pgsql-196447.vipserv.org:5432/wbauer_adb"

db = create_engine(db_string)

connection_sqlalchemy = db.connect()

connection = create_engine("postgresql://wbauer_adb:adb2020@pgsql-196447.vipserv.org:5432/wbauer_adb")

Zapytanie 1.:

In [2]:
# 1. Znajdź wszystkie nazwy krajów rozpoczynających się na P:
df = pd.read_sql("\
            SELECT \
                c.country \
            FROM \
                country c \
            WHERE \
                c.country LIKE 'P%%' \
            ORDER BY \
                c.country ASC", con=connection)
df.columns = ['country_name']
df

Unnamed: 0,country_name
0,Pakistan
1,Paraguay
2,Peru
3,Philippines
4,Poland
5,Puerto Rico


Zapytanie 2.:

In [3]:
# 2. Znajdź wszystkie nazwy krajów rozpoczynających się  P i kończących na s:
df = pd.read_sql("\
            SELECT \
                c.country \
            FROM \
                country c \
            WHERE \
                c.country LIKE 'P%%s' \
            ORDER BY \
                c.country ASC", con=connection)
df.columns = ['country_name']
df

Unnamed: 0,country_name
0,Philippines


Zapytanie 3.

In [4]:
# 3. Znajdź wszystkie tytuły filmów, w których znajdują się cyfry.
df = pd.read_sql("\
            SELECT \
                f.title \
            FROM \
                film f \
            WHERE \
                f.title LIKE '%%[0-9]%%' \
            ORDER BY \
                f.title ASC", con=connection)
df.columns = ['title']
df

Unnamed: 0,title


Pusty dataframe - co znaczy, że nie ma tytułu filmowego z numerami.

Zapytanie 4.

In [5]:
# 4. Znajdź wszystkich pracowników z podwójnym imieniem lub nazwiskiem:
df = pd.read_sql("\
            SELECT \
                s.first_name, \
                s.last_name \
            FROM \
                staff s \
            WHERE \
                s.first_name LIKE '%% %%' OR s.last_name LIKE '%% %%' OR s.last_name LIKE '%%-%%' \
            ORDER BY \
                s.first_name, s.last_name ASC", con=connection)
df.columns = ['first_name', 'last_name']
df


Unnamed: 0,first_name,last_name


Nie ma pracowników z podwójnym imieniem lub nazwiskiem.

Zapytanie 5:

In [6]:
# 5. Znajdź wszystkie nazwiska aktorów rozpoczynających się od P lub C i mających 5 znaków.
df = pd.read_sql("\
            SELECT \
                a.first_name, \
                a.last_name \
            FROM \
                actor a \
            WHERE \
                LENGTH(a.last_name) = 5 AND (a.last_name LIKE 'P%%' OR a.last_name LIKE 'C%%') \
            ORDER BY \
                a.last_name ASC", con=connection)
df.columns = ['first_name', 'last_name']
df

Unnamed: 0,first_name,last_name
0,Ed,Chase
1,Jon,Chase
2,Russell,Close
3,Sidney,Crowe
4,Kenneth,Pesci
5,Burt,Posey


Zapytanie 6:

In [7]:
# 6. Znajdź wszystkie tytuły filmów, w których występują słowa Trip lub Alone.
# condition = "f.title ILIKE ANY ('%%Trip%%', '%%Alone%%')"
words = ['Trip', 'Alone']
df = pd.read_sql("\
            SELECT \
                f.title \
            FROM \
                film f \
            WHERE \
                f.title LIKE '%%{}%%' OR f.title LIKE '%%{}%%' \
            ORDER BY \
                title ASC".format(words[0], words[1]), con=connection)
df.columns = ['title']
df

Unnamed: 0,title
0,Alone Trip
1,Superfly Trip
2,Trip Newton
3,Varsity Trip


Zapytanie 7:

In [31]:
# 7. Przeanalizuj zapytania:
# 	- select first_name from actor where first_name ~ '^ Al\[a: z, 1: 9\] *'
df = pd.read_sql("SELECT first_name \
                    FROM actor \
                    WHERE first_name ~'^Al[a:z, 1:9]*'",con=connection)
df

Unnamed: 0,first_name
0,Alec
1,Albert
2,Albert
3,Al
4,Alan


Zapytanie to wybierze z imion aktorów te, które pasują do wzorca:(wielkość liter ważna) Na początku string'a ma być 'Al' potem dowolne znaki (od a-z, małe litery i od 1-9). * na końcu zapewnia, że może też nie być znaków po pierwszych 2 i nadal będzie pasowało do wzorca.

In [29]:
df = pd.read_sql("SELECT first_name \
                    FROM actor \
                    WHERE first_name ~*'^al[a:z, 1:9]*'",con=connection)
df

Unnamed: 0,first_name
0,Alec
1,Albert
2,Albert
3,Al
4,Alan


Pomiędzy pierwszym a drugim zapytaniem różnicą jest case sensitivity - w pierwszym zapytaniu wielkość liter ma znaczenie, a w drugim zapytaniu nie. Dlatego, gdyby zapytanie pierwsze miało ~'^al' to nie byłoby imion spełniających ten warunek. Natomiast dodając ~* na początek nie trzeba martwić się o wielkość liter.

## Zadanie implementacyjne
Zaimplementuj wszystkie funkcje w pliku main.py zgodnie z opisem a następnie przetestuj je w notatniku.


In [10]:
import main

print(main.film_in_category(3))
#main.film_title_case_insensitive(['BeD', 'BLOOD', 'SonS', 'son', 'cry']

                title
0     Birdcage Casper
1      Chocolat Harry
2      Giant Troopers
3         Harry Idaho
4   Hoosiers Birdcage
5           Iron Moon
6          Jaws Harry
7    Kentuckian Giant
8     Louisiana Harry
9      Princess Giant
10    Whisperer Giant
                   title               languge  category
0    Backlash Undefeated  English               Children
1         Bear Graceland  English               Children
2           Beneath Rush  English               Children
3          Betrayed Rear  English               Children
4            Cabin Flash  English               Children
5       Casper Dragonfly  English               Children
6    Christmas Moonshine  English               Children
7           Circus Youth  English               Children
8     Clockwork Paradise  English               Children
9      Comancheros Enemy  English               Children
10       Crooked Frogmen  English               Children
11      Daughter Madigan  English               Chil



In [11]:
print(main.film_in_category_case_insensitive('Travel'))

                      title               languge category
0      Arsenic Independence  English                Travel
1                Basic Easy  English                Travel
2         Bird Independence  English                Travel
3              Boiled Dares  English                Travel
4         Boondock Ballroom  English                Travel
5               Born Spinal  English                Travel
6        Bucket Brotherhood  English                Travel
7          Casablanca Super  English                Travel
8           Cassidy Wyoming  English                Travel
9                 Coma Head  English                Travel
10            Comforts Rush  English                Travel
11        Contact Anonymous  English                Travel
12  Desperate Trainspotting  English                Travel
13          Disciple Mother  English                Travel
14         Drumline Cyclone  English                Travel
15            Enough Raging  English                Trav



In [12]:
print(main.film_in_category_case_insensitive("ACTion"))



                     title               languge category
0             Amadeus Holy  English                Action
1          American Circus  English                Action
2       Antitrust Tomatoes  English                Action
3            Ark Ridgemont  English                Action
4      Barefoot Manchurian  English                Action
..                     ...                   ...      ...
59         Uprising Uptown  English                Action
60  Waterfront Deliverance  English                Action
61           Werewolf Lola  English                Action
62            Women Dorado  English                Action
63            Worst Banger  English                Action

[64 rows x 3 columns]


In [13]:
print(main.film_cast('Women Dorado'))

    first_name last_name
0      Michael    Bening
1  Christopher     Berry
2          Jim    Mostel
3        Ellen   Presley
4         Nick  Stallone




In [14]:
from main import film_title_case_insensitive
print(film_title_case_insensitive(['Giant', 'Harry', 'Birdcage', 'Iron']))

                title
0     Birdcage Casper
1      Chocolat Harry
2      Giant Troopers
3         Harry Idaho
4   Hoosiers Birdcage
5           Iron Moon
6          Jaws Harry
7    Kentuckian Giant
8     Louisiana Harry
9      Princess Giant
10    Whisperer Giant


