<a href="https://colab.research.google.com/github/CCS-ZCU/pribehy-dat/blob/master/scripts/1_uvod-do-jupyter-notebooku.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [26]:
import requests
import re
import pandas as pd

# Úvod a cíle kapitoly

V této kapitole si ukážeme základy tzv. regulérních výrazů. Regulární výrazy představují velice sofistikovaný způsob jak vyhledávat v textových datech určité řetězce znaků a případně je nahrazovat jinými řetězci znaků. Na rozdíl od standardního vyhledávání však regulérní výrazy umožňují vyhledávání na abstraktnější rovině, pomocí obecnějších pravidel či "regulí". K tomu se používají speciálně nadefinované pomocné znaky. Regex je technologie, která nemá co dočinění s Pythonem - lze jej používat v mnoha různých aplikacích, včetně webových (např. https://regex101.com). 

V rámci Pythonu je pro regex dostupná velice praktická knihovna re, `na` které budou některé ukázky níže postaveny. Pro systematičtější pohled však tentokrát z našeho juypter notebooku na chvíli vystoupíme a projedeme si sérii cvičeních na webové stránce https://regexone.com.

## Úvod do regulérních výrazů v Pythonu

Knihovna `re` v sobě má celou řadu užitečných metod. My zde budeme pracovat jen s několika z nich. Zejména
  * `re.search(pattern, string)`: nalezne uvnitř prohledávaného řetězce znaků (parametr `string`) první výskyt (tzv. `match`) hledáného řetězce znaků (`pattern`) a poskytne nám informaci o tom, kde se hledaný řetězec nachází
  * `re.findall(pattern, string)`:  nalezne uvnitř prohledávaného řetězce znaků (parametr `string`) všechny výskyty (`matches`) hledáného řetězce znaků (`pattern`) a poskytne nám informaci o tom, kde se hledané řetězce nachází
  * `re.sub(pattern, repl, string)`:  nalezne uvnitř prohledávaného řetězce znaků (parametr `string`) všechny výskyty hledáného řetězce znaků (`pattern`) a nahradí jej řetězcem `repl`.


Představte si, že chcete v dokumentu vyhledat veškéré výskyty číslic. Pomocí regexu toho lze dosáhnout pomocí použití speciálního znaku "\d".

In [19]:
# náš dokument se nachází uvnitř proměnné text
text = "Tento text obsahuje kromě znaků pro písmena i některé číslice, jako je třeba 7, 13, 542, nebo letopočet 1842 apod. Kromě toho obsahuje i některá vlastní jména, jako je třeba Jan Patočka nebo Václav Havel. To nám stačí, abychom si zde vyzkoušeli několik základních principů regexu."

Použijeme tedy metodu `re.findall()` a speciální znak "\d"

In [20]:
matches = re.findall("\d", text)
matches

['7', '1', '3', '5', '4', '2', '1', '8', '4', '2']

Nyní jsme zachytili každou číslici zvlášť. Abychom zachytili i víceciferná čísla, musíme použít kvantifikátoru. V našem patternu uděláme jednu drobnou úpravu, a totiž přidáme znaménko +.

In [21]:
matches = re.findall("\d+", text)
matches

['7', '13', '542', '1842']

někdy nás třeba mohou zajímat pouze čísla o určitém počtu cifer, jako jsou letopočty, které jsou již více než tisíc let čtyřciferné a nejspíš ještě několik tisíc let budou. Toho lze dosáhnout kvantifikátorem `{}`, 

In [22]:
matches = re.findall("\d{4}", text)
matches

['1842']

Detekce čísel je jen jeden možný příklad. Druhý příklad, než se pustíme do reálných dat, budou vlastní jména. Vlastní jména začínají velkými písmeny. Najděme tedy všechna slova začínající velkými písmeny:

In [23]:
re.findall("[A-Z]\w*", text)

['Tento', 'Kromě', 'Jan', 'Patočka', 'Václav', 'Havel', 'To']

Ano, je zde několik problému. Zaprvé zachycujeme také všechny slova na začátku vět. Jak tomu předejít? To přenechám samostatnému úkolu:

In [24]:
# SAMOSTATNÝ ÚKOL:
# upravit regex níže tak, aby nezachycoval slova, která mají velká písmena proto, že se nacházejí na začátku věty. 
re.findall("[A-Z]\w*", text)

['Tento', 'Kromě', 'Jan', 'Patočka', 'Václav', 'Havel', 'To']

Jména v našem textu sestávají ze dvou částí: křesťního jména a příjmení. Co se tedy soustředit pouze na situace, kdy se jedná o dvě slova s velkými písmeny po sobě:

In [25]:
re.findall("[A-Z]\w*\\s[A-Z]\w*", text)

['Jan Patočka', 'Václav Havel']

## Regulérní výrazy a metadata ze Slovníku českých filozofů

Nyní si opět načteme data ze slovníku českých filozofů, která jsme vydolovali v jedné z předchozích kapitol.

In [27]:
slovnik_df = pd.read_csv("https://raw.githubusercontent.com/CCS-ZCU/pribehy-dat/master/data/slovnik_df.csv")
slovnik_df.head(5)

Unnamed: 0,url,name,birth,death
0,http://www.phil.muni.cz/fil/scf/komplet/adam.html,Daniel Adam z Veleslavína,* 31. \r\n8. \r\n1546 Veleslavín u Prahy,† 18. \r\n10. \r\n1599 Praha
1,http://www.phil.muni.cz/fil/scf/komplet/adamik...,Richard Adamík,* 4. \r\n4. \r\n1867 Hranice na Moravě,† 15. \r\n8. \r\n1952
2,http://www.phil.muni.cz/fil/scf/komplet/albert...,František Albert,* 29. \r\n4. \r\n1856 Žamberk,† 22. \r\n7. \r\n1923 Potštejn
3,http://www.phil.muni.cz/fil/scf/komplet/albik....,Albík z Uničova,* asi 1358 Uničov,† 1427 Uhry
4,http://www.phil.muni.cz/fil/scf/komplet/alexej...,Nikolaj Alexejev,* 1. 5. 1879 Moskva,† 2. 3. 1964 Ženeva


Ve sloupcích narození a smrt vidíme, že se zde datum a místo narození objevují vždy ve víceméně shodné podobě. Zajímá-li nás např. pouze rok narození či úmrtí, mohlo by nám postačit vyhledat v každém řetězci čtyřciferná čísla. 

Uvědomme si, že zde pracujeme  s objektem typu dataframe knihovny pandas. Některé věci je proto potřeba dělat trochu odlišně než na příkladech výše. Naše regexy si zabalíme do vlastních definovaných funkcí, které následně budeme aplikovat na všechny hodnoty ve vybraném sloupci najednou.