# Regulární výrazy (RegEx) v Pythonu

Regulární výrazy jsou jako "CTRL+F na steroidech". Umožňují hledat nejen konkrétní slovo, ale obecný vzor (např. "jakékoliv slovo začínající velkým písmenem").

Používáme modul `re`.

In [None]:
import re

## 1. Hledání čísel (`\d`)
Zkusíme najít všechna čísla ve větě.

In [None]:
text = "Koupil jsem 3 jablka za 45 korun a 10 rohlíků."

# \d znamená digit (číslice), + znamená jedno nebo více opakování
vzor = r"\d+"

vysledek = re.findall(vzor, text)
print(f"Nalezená čísla: {vysledek}")

## 2. Capture Groups (Závorky)
Často chceme vytáhnout jen část informace. Například jméno souboru z cesty.

Vzor: `(\w+)` (slovo) + `\.` (tečka) + `(txt|jpg|py)` (koncovka).

In [None]:
cesty = ["obrazek.jpg", "skript.py", "dokument.txt", "vírus.exe"]

vzor = r"(\w+)\.(jpg|py|txt)"

print("Zpracování souborů:")
for cesta in cesty:
    shoda = re.match(vzor, cesta)
    if shoda:
        # group(1) je první závorka (jméno), group(2) je druhá (přípona)
        print(f"Soubor: {shoda.group(1)}, Typ: {shoda.group(2)}")
    else:
        print(f"Ignoruji: {cesta}")

## 3. Nahrazování textu (`re.sub`)
Ideální pro čištění dat. Například odstranění přebytečných mezer.

In [None]:
spinavy_text = "Toto    je   text   s mnoha    mezerami."

# \s+ znamená "jeden nebo více bílých znaků"
cisty_text = re.sub(r"\s+", " ", spinavy_text)

print(f"Původní: '{spinavy_text}'")
print(f"Čistý:   '{cisty_text}'")

## Cvičení
Máte seznam telefonních čísel v různých formátech:
* 123456789
* +420 123 456 789
* 123-456-789

Napište regex, který z textu vytáhne všechna čísla a sjednotí je do formátu bez mezer a pomlček (jen číslice).

In [None]:
# Zde napište řešení...