## Wprowadzenie

Wyrażenia regularne (ang. *regular expressions*, Regex) to specjalne wzorce, które pozwalają na wyszukiwanie, dopasowywanie i manipulowanie tekstem. Są one niezwykle przydatne przy pracy z danymi tekstowymi.

W Pythonie możemy korzystać z wyrażeń regularnych za pomocą modułu `re`.

### Importowanie modułu `re`


In [1]:

import re


## Podstawowe funkcjonalności wyrażeń regularnych

### Dopasowanie prostego wzorca

Metoda `re.match()` sprawdza, czy ciąg znaków zaczyna się od wzorca.


In [3]:

tekst = "Python jest świetny!"
dopasowanie = re.match(r"Python", tekst)

if dopasowanie:
    print("Znaleziono dopasowanie:", dopasowanie.group())
else:
    print("Nie znaleziono dopasowania.")


Znaleziono dopasowanie: Python



### Wyszukiwanie wzorca w tekście

Metoda `re.search()` przeszukuje cały ciąg znaków w poszukiwaniu dopasowania.


In [4]:

tekst = "Lubię programować w Pythonie"
dopasowanie = re.search(r"Python", tekst)

if dopasowanie:
    print("Znaleziono dopasowanie:", dopasowanie.group())
else:
    print("Nie znaleziono dopasowania.")

Znaleziono dopasowanie: Python



### Znajdowanie wszystkich wystąpień wzorca

Metoda `re.findall()` zwraca wszystkie wystąpienia wzorca w tekście.


In [5]:

tekst = "Python to język programowania. W Pythonie można pisać skrypty."
wszystkie_dopasowania = re.findall(r"Python", tekst)

print("Znalezione dopasowania:", wszystkie_dopasowania)


Znalezione dopasowania: ['Python', 'Python']



### Zamiana wzorca na inny tekst

Metoda `re.sub()` służy do zamiany wzorca na inny ciąg znaków.


In [6]:

tekst = "Język Python jest prosty."
nowy_tekst = re.sub(r"Python", "Java", tekst)

print("Tekst po zamianie:", nowy_tekst)

Tekst po zamianie: Język Java jest prosty.



## Znaczenie niektórych znaków specjalnych

Wyrażenia regularne korzystają ze znaków specjalnych, które mają specjalne znaczenie:

- `.` - Dowolny znak (poza nową linią).
- `^` - Początek ciągu.
- `$` - Koniec ciągu.
- `*` - Zero lub więcej wystąpień poprzedniego znaku.
- `+` - Jedno lub więcej wystąpień poprzedniego znaku.
- `[]` - Dowolny znak z podanego zakresu.
- `|` - Operator "lub".
- `()` - Grupowanie wyrażeń.

### Przykład z grupowaniem


In [7]:

tekst = "2024-10-02"
wzorzec = r"(\d{4})-(\d{2})-(\d{2})"
dopasowanie = re.match(wzorzec, tekst)

if dopasowanie:
    print("Rok:", dopasowanie.group(1))
    print("Miesiąc:", dopasowanie.group(2))
    print("Dzień:", dopasowanie.group(3))


Rok: 2024
Miesiąc: 10
Dzień: 02



## Zadania 

1. **Zadanie 1**: Znajdź wszystkie adresy e-mail w  tekście
2. **Zadanie 2**: W tekście zamień wszystkie liczby na słowo "[LICZBA]"
3. **Zadanie 3**: Sprawdź, czy podany numer telefonu jest w formacie XXX-XXX-XXX (gdzie X to cyfra)
4. **Zadanie 4**: Wyszukaj wszystkie słowa, które zaczynają się od litery "P" w  tekście
5. **Zadanie 5**: Podziel tekst na części, oddzielając go po znakach interpunkcyjnych



### Barbara Kania grupa 1


1. **Zadanie 1**: Znajdź wszystkie adresy e-mail w  tekście

In [6]:
tekst = "Adresy email: jan.kowalski@gmail.com. oraz  drugimail@gamil.com"
wzor= r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'
dopasowania = re.findall(wzor, tekst)
print("Znalezione dopasowania:", dopasowania)

Znalezione dopasowania: ['jan.kowalski@gmail.com', 'drugimail@gamil.com']


2. **Zadanie 2**: W tekście zamień wszystkie liczby na słowo "[LICZBA]"

In [7]:
tekst = "a konferencji w 2023 roku zaprezentowano 25 nowych technologii. Zgłosiło się 1234 uczestników, a budżet wynosił 1.5 miliona dolarów. Najdłuższy wykład trwał 45 minut, a średnia ocena wyniosła 4.7 na 5."
wzor = r'\d+'
nowy_tekst = re.sub(wzor, "[LICZBA]", tekst)
print("Tekst po zamianie:", nowy_tekst)

Tekst po zamianie: a konferencji w [LICZBA] roku zaprezentowano [LICZBA] nowych technologii. Zgłosiło się [LICZBA] uczestników, a budżet wynosił [LICZBA].[LICZBA] miliona dolarów. Najdłuższy wykład trwał [LICZBA] minut, a średnia ocena wyniosła [LICZBA].[LICZBA] na [LICZBA].


3. **Zadanie 3**: Sprawdź, czy podany numer telefonu jest w formacie XXX-XXX-XXX (gdzie X to cyfra)


In [8]:

numer_telefonu = "123-456-789"
wzor = r'^\d{3}-\d{3}-\d{3}$'
if re.match(wzor, numer_telefonu):
    print(f"Numer telefonu {numer_telefonu} jest w poprawnym formacie.")
else:
    print(f"Numer telefonu {numer_telefonu} nie jest w poprawnym formacie.")

Numer telefonu 123-456-789 jest w poprawnym formacie.


4. **Zadanie 4**: Wyszukaj wszystkie słowa, które zaczynają się od litery "P" w  tekście


In [9]:
tekst = "Python, Programowanie w Pythonie, tekst tekst tekst Python"
wzor = r'\bP\w*'
dopasowania = re.findall(wzor, tekst)

if dopasowania:
    print("Słowa zaczynające się na P :", dopasowania)
else:
    print("Nie znaleziono słów zaczynających się na P.")

Słowa zaczynające się na P : ['Python', 'Programowanie', 'Pythonie', 'Python']


5. **Zadanie 5**: Podziel tekst na części, oddzielając go po znakach interpunkcyjnych


In [11]:
tekst = "Wczoraj było słonecznie; dziś pada deszcz, a jutro zapowiadają burze."
wzor = r'[,;.!?]'
czesci = re.split(wzor, tekst)
czesci = [czesc.strip() for czesc in czesci if czesc.strip()]
print("Podzielony tekst:", czesci)


Podzielony tekst: ['Wczoraj było słonecznie', 'dziś pada deszcz', 'a jutro zapowiadają burze']
