## Wprowadzenie

Wyrażenia regularne (ang. *regular expressions*, Regex) to specjalne wzorce, które pozwalają na wyszukiwanie, dopasowywanie i manipulowanie tekstem. Są one niezwykle przydatne przy pracy z danymi tekstowymi.

W Pythonie możemy korzystać z wyrażeń regularnych za pomocą modułu `re`.

### Importowanie modułu `re`


In [1]:

import re


## Podstawowe funkcjonalności wyrażeń regularnych

### Dopasowanie prostego wzorca

Metoda `re.match()` sprawdza, czy ciąg znaków zaczyna się od wzorca.


In [2]:

tekst = "Python jest świetny!"
dopasowanie = re.match(r"Python", tekst)

if dopasowanie:
    print("Znaleziono dopasowanie:", dopasowanie.group())
else:
    print("Nie znaleziono dopasowania.")


Znaleziono dopasowanie: Python



### Wyszukiwanie wzorca w tekście

Metoda `re.search()` przeszukuje cały ciąg znaków w poszukiwaniu dopasowania.


In [3]:

tekst = "Lubię programować w Pythonie"
dopasowanie = re.search(r"Python", tekst)

if dopasowanie:
    print("Znaleziono dopasowanie:", dopasowanie.group())
else:
    print("Nie znaleziono dopasowania.")

Znaleziono dopasowanie: Python



### Znajdowanie wszystkich wystąpień wzorca

Metoda `re.findall()` zwraca wszystkie wystąpienia wzorca w tekście.


In [4]:

tekst = "Python to język programowania. W Pythonie można pisać skrypty."
wszystkie_dopasowania = re.findall(r"Python", tekst)

print("Znalezione dopasowania:", wszystkie_dopasowania)


Znalezione dopasowania: ['Python', 'Python']



### Zamiana wzorca na inny tekst

Metoda `re.sub()` służy do zamiany wzorca na inny ciąg znaków.


In [5]:

tekst = "Język Python jest prosty."
nowy_tekst = re.sub(r"Python", "Java", tekst)

print("Tekst po zamianie:", nowy_tekst)

Tekst po zamianie: Język Java jest prosty.



## Znaczenie niektórych znaków specjalnych

Wyrażenia regularne korzystają ze znaków specjalnych, które mają specjalne znaczenie:

- `.` - Dowolny znak (poza nową linią).
- `^` - Początek ciągu.
- `$` - Koniec ciągu.
- `*` - Zero lub więcej wystąpień poprzedniego znaku.
- `+` - Jedno lub więcej wystąpień poprzedniego znaku.
- `[]` - Dowolny znak z podanego zakresu.
- `|` - Operator "lub".
- `()` - Grupowanie wyrażeń.

### Przykład z grupowaniem


In [7]:

tekst = "2024-10-02"
wzorzec = r"(\d{4})-(\d{2})-(\d{2})"
dopasowanie = re.match(wzorzec, tekst)

if dopasowanie:
    print("Rok:", dopasowanie.group(1))
    print("Miesiąc:", dopasowanie.group(2))
    print("Dzień:", dopasowanie.group(3))


Rok: 2024
Miesiąc: 10
Dzień: 02



## Zadania do samodzielnego rozwiązania

1. **Zadanie 1**: Znajdź wszystkie adresy e-mail w  tekście
2. **Zadanie 2**: W tekście zamień wszystkie liczby na słowo "[LICZBA]"
3. **Zadanie 3**: Sprawdź, czy podany numer telefonu jest w formacie XXX-XXX-XXX (gdzie X to cyfra)
4. **Zadanie 4**: Wyszukaj wszystkie słowa, które zaczynają się od litery "P" w  tekście
5. **Zadanie 5**: Podziel tekst na części, oddzielając go po znakach interpunkcyjnych



In [16]:
text = ["Skontaktuj się z nami pod adresem kontakt@firma.pl.", "Adres e-mail do kontaktu to: info@firma.com, ale proszę nie wysyłać maili na info@firma.com.pl, ponieważ to inny dział.", "W razie problemów proszę pisać na adres wsparcie@serwis.org lub odwiedzić stronę: www.serwis.org. Ważne: email wsparcie@serwisorg nie działa!"]
for i in text:
    dopasowanie = re.findall(r"[\w.+-]+@[\w-]+\.[\w.-]+", i)

    if dopasowanie:
        print(f"Znaleziono dopasowanie: {dopasowanie}")
    else:
        print("Nie znaleziono dopasowania.")

Znaleziono dopasowanie: ['kontakt@firma.pl.']
Znaleziono dopasowanie: ['info@firma.com', 'info@firma.com.pl']
Znaleziono dopasowanie: ['wsparcie@serwis.org']


In [59]:
text = ["Produkt kosztuje 100 złotych.", "Przejechaliśmy 500 km, a na mapie było zaznaczone 5 miejsc do odpoczynku. Mój adres to 123-456-789.", "Dzisiaj jest 2024 rok, a 20 lat temu miało to miejsce w roku 2004. Mój numer telefonu to 999-123-456."]


swap1 = re.sub(r"100", "sto", text[0])
swap2 = re.sub(r"\b500\b", "pięćset", text[1])
swap2 = re.sub(r"\b5\b", "pięć", swap2)
swap2 = re.sub(r"123-456-789", "sto dwadzieścia trzy-czterysta pięćdziesiąt sześć-siedemset osiemdziesiąt dziewięć", swap2)
swap3 = re.sub(r"\b2024\b", "dwa tysiące dwudziesty czwarty", text[2])
swap3 = re.sub(r"\b20\b", "dwadzieścia", swap3)
swap3 = re.sub(r"\b2004\b", "dwa tysiące czwartym", swap3)
swap3 = re.sub(r"999-123-456", "dziewięćset dziewięćdziesiąt dziewięć-sto dwadzieścia trzy-czterysta pięćdziesiąt sześć", swap3)

swap = [swap1, swap2, swap3]

for i in swap:
    print("Tekst po zmianie:", i)

Tekst po zmianie: Produkt kosztuje sto złotych.
Tekst po zmianie: Przejechaliśmy pięćset km, a na mapie było zaznaczone pięć miejsc do odpoczynku. Mój adres to sto dwadzieścia trzy-czterysta pięćdziesiąt sześć-siedemset osiemdziesiąt dziewięć.
Tekst po zmianie: Dzisiaj jest dwa tysiące dwudziesty czwarty rok, a dwadzieścia lat temu miało to miejsce w roku dwa tysiące czwartym. Mój numer telefonu to dziewięćset dziewięćdziesiąt dziewięć-sto dwadzieścia trzy-czterysta pięćdziesiąt sześć.


In [80]:
text = ["Mój numer telefonu to 123-456-789.", "Zadzwoń do mnie na numer 123-456-789 lub 987654321.", "Numer do kontaktu: 123-456-789, a dodatkowy to (123) 456-789."]
for i in text:
    telephone_number = re.findall(r"\d{3}-\d{3}-\d{3}", i)
    print(f"Znaleziono poprawny numer telefonu: {telephone_number}")


Znaleziono poprawny numer telefonu: ['123-456-789']
Znaleziono poprawny numer telefonu: ['123-456-789']
Znaleziono poprawny numer telefonu: ['123-456-789']


In [33]:
text = ["Pojechaliśmy na piknik do parku.", "Pomimo że planowaliśmy piknik, pogoda popsuła nasze plany.", "Podróż do Pragi była pełna przygód, ale parking przy hotelu był płatny."]
for i in text:
    dopasowanie = re.findall(r"\b[P]\w+", i)

    if dopasowanie:
        print("Znaleziono dopasowanie:", dopasowanie)
    else:
        print("Nie znaleziono dopasowania")

Znaleziono dopasowanie: ['Pojechaliśmy']
Znaleziono dopasowanie: ['Pomimo']
Znaleziono dopasowanie: ['Podróż', 'Pragi']


In [39]:
text = ["Idziemy na zakupy, potem do kina.", "Plan na dzisiaj: zakupy, kino, może restauracja? Co Ty na to?", "Przyjechałem, widziałem... i wygrałem! Ale czy to na pewno koniec?"]
for i in text:
    dopasowanie = re.split('[.,:?!]', i)

    if dopasowanie:
        print("Podzielone zdania:", dopasowanie)
    else:
        print("Brak podziału.")

Podzielone zdania: ['Idziemy na zakupy', ' potem do kina', '']
Podzielone zdania: ['Plan na dzisiaj', ' zakupy', ' kino', ' może restauracja', ' Co Ty na to', '']
Podzielone zdania: ['Przyjechałem', ' widziałem', '', '', ' i wygrałem', ' Ale czy to na pewno koniec', '']
