## Regulární výrazy v Pandas

In [6]:
import pandas

url = "https://kodim.cz/cms/assets/czechitas/python-data-1/ziskavani-dat/regularni-vyrazy/regularni-vyrazy-pandas/zpravy.csv"

df = pandas.read_csv(url, sep=";")
df

Unnamed: 0,datum,zapis
0,2022-04-25,Pacient 6407156800 trpěl bolestí zad a byl pos...
1,2022-04-25,Pacientka 8655057477 přišla na kontrolu po zra...
2,2022-04-26,"Do ordinace telefonovala pacientka 7752126712,..."
3,2022-04-2X,Sourozencům 1210015895 a 0902112398 a rodiči 8...


### metoda `str.contains()`

Metoda ověří, zda je ve sloupci skupina znaků, která odpovídá regulárnímu výrazu

In [7]:
# Přidáme sloupeček s informací do dataframu
df["obsahuje_rodne_cislo"] = df["zapis"].str.contains(r"\d{9,10}")
df


Unnamed: 0,datum,zapis,obsahuje_rodne_cislo
0,2022-04-25,Pacient 6407156800 trpěl bolestí zad a byl pos...,True
1,2022-04-25,Pacientka 8655057477 přišla na kontrolu po zra...,True
2,2022-04-26,"Do ordinace telefonovala pacientka 7752126712,...",True
3,2022-04-2X,Sourozencům 1210015895 a 0902112398 a rodiči 8...,True


### metoda `str.count()`

Metoda vrátí počet skupin znaků, které odpovídají regunárnímu výrazu, jako celé číslo.

In [8]:
df["pocet_rodnych_cisel"] = df["zapis"].str.count(r"\d{9,10}")
df

Unnamed: 0,datum,zapis,obsahuje_rodne_cislo,pocet_rodnych_cisel
0,2022-04-25,Pacient 6407156800 trpěl bolestí zad a byl pos...,True,1
1,2022-04-25,Pacientka 8655057477 přišla na kontrolu po zra...,True,1
2,2022-04-26,"Do ordinace telefonovala pacientka 7752126712,...",True,1
3,2022-04-2X,Sourozencům 1210015895 a 0902112398 a rodiči 8...,True,3


### metoda `findall()`

Metoda vrátí všechny skupiny znaků, které odpovídají regulárnímu výrazu. Protože takových skupin může být více, vloží metoda jednotlivé nalezené řetězce do seznamu.

In [9]:
df["rodna_cisla"] = df["zapis"].str.findall(r"\d{9,10}")
df

Unnamed: 0,datum,zapis,obsahuje_rodne_cislo,pocet_rodnych_cisel,rodna_cisla
0,2022-04-25,Pacient 6407156800 trpěl bolestí zad a byl pos...,True,1,[6407156800]
1,2022-04-25,Pacientka 8655057477 přišla na kontrolu po zra...,True,1,[8655057477]
2,2022-04-26,"Do ordinace telefonovala pacientka 7752126712,...",True,1,[7752126712]
3,2022-04-2X,Sourozencům 1210015895 a 0902112398 a rodiči 8...,True,3,"[1210015895, 0902112398, 8011058253]"


### metoda `str.replace()`

In [10]:
df["anonymni_zapis"] = df["zapis"].str.replace(r"\d{9,10}", "XXX")
df

Unnamed: 0,datum,zapis,obsahuje_rodne_cislo,pocet_rodnych_cisel,rodna_cisla,anonymni_zapis
0,2022-04-25,Pacient 6407156800 trpěl bolestí zad a byl pos...,True,1,[6407156800],Pacient 6407156800 trpěl bolestí zad a byl pos...
1,2022-04-25,Pacientka 8655057477 přišla na kontrolu po zra...,True,1,[8655057477],Pacientka 8655057477 přišla na kontrolu po zra...
2,2022-04-26,"Do ordinace telefonovala pacientka 7752126712,...",True,1,[7752126712],"Do ordinace telefonovala pacientka 7752126712,..."
3,2022-04-2X,Sourozencům 1210015895 a 0902112398 a rodiči 8...,True,3,"[1210015895, 0902112398, 8011058253]",Sourozencům 1210015895 a 0902112398 a rodiči 8...


### metody `str.match()` a `str.fullmatch()`

První metodě stačí, že regulární výraz se shoduje s začátkem řetězce, druhá kontroluje celý řetězec a nesmí tam tedy být nic navíc.

In [11]:
df["datum_ok"] = df["datum"].str.fullmatch(r"\d{4}-\d{2}-\d{1,2}")
df["datum_ok_cast"] = df["datum"].str.fullmatch(r"\d{4}")
df

Unnamed: 0,datum,zapis,obsahuje_rodne_cislo,pocet_rodnych_cisel,rodna_cisla,anonymni_zapis,datum_ok,datum_ok_cast
0,2022-04-25,Pacient 6407156800 trpěl bolestí zad a byl pos...,True,1,[6407156800],Pacient 6407156800 trpěl bolestí zad a byl pos...,True,False
1,2022-04-25,Pacientka 8655057477 přišla na kontrolu po zra...,True,1,[8655057477],Pacientka 8655057477 přišla na kontrolu po zra...,True,False
2,2022-04-26,"Do ordinace telefonovala pacientka 7752126712,...",True,1,[7752126712],"Do ordinace telefonovala pacientka 7752126712,...",True,False
3,2022-04-2X,Sourozencům 1210015895 a 0902112398 a rodiči 8...,True,3,"[1210015895, 0902112398, 8011058253]",Sourozencům 1210015895 a 0902112398 a rodiči 8...,False,False
