## Wprowadzenie

Wyrażenia regularne (ang. *regular expressions*, Regex) to specjalne wzorce, które pozwalają na wyszukiwanie, dopasowywanie i manipulowanie tekstem. Są one niezwykle przydatne przy pracy z danymi tekstowymi.

W Pythonie możemy korzystać z wyrażeń regularnych za pomocą modułu `re`.

### Importowanie modułu `re`


In [1]:

import re


## Podstawowe funkcjonalności wyrażeń regularnych

### Dopasowanie prostego wzorca

Metoda `re.match()` sprawdza, czy ciąg znaków zaczyna się od wzorca.


In [2]:

tekst = "Python jest świetny!"
dopasowanie = re.match(r"Python", tekst)

if dopasowanie:
    print("Znaleziono dopasowanie:", dopasowanie.group())
else:
    print("Nie znaleziono dopasowania.")


Znaleziono dopasowanie: Python



### Wyszukiwanie wzorca w tekście

Metoda `re.search()` przeszukuje cały ciąg znaków w poszukiwaniu dopasowania.


In [3]:

tekst = "Lubię programować w Pythonie"
dopasowanie = re.search(r"Python", tekst)

if dopasowanie:
    print("Znaleziono dopasowanie:", dopasowanie.group())
else:
    print("Nie znaleziono dopasowania.")

Znaleziono dopasowanie: Python



### Znajdowanie wszystkich wystąpień wzorca

Metoda `re.findall()` zwraca wszystkie wystąpienia wzorca w tekście.


In [4]:

tekst = "Python to język programowania. W Pythonie można pisać skrypty."
wszystkie_dopasowania = re.findall(r"Python", tekst)

print("Znalezione dopasowania:", wszystkie_dopasowania)


Znalezione dopasowania: ['Python', 'Python']



### Zamiana wzorca na inny tekst

Metoda `re.sub()` służy do zamiany wzorca na inny ciąg znaków.


In [5]:

tekst = "Język Python jest prosty."
nowy_tekst = re.sub(r"Python", "Java", tekst)

print("Tekst po zamianie:", nowy_tekst)

Tekst po zamianie: Język Java jest prosty.



## Znaczenie niektórych znaków specjalnych

Wyrażenia regularne korzystają ze znaków specjalnych, które mają specjalne znaczenie:

- `.` - Dowolny znak (poza nową linią).
- `^` - Początek ciągu.
- `$` - Koniec ciągu.
- `*` - Zero lub więcej wystąpień poprzedniego znaku.
- `+` - Jedno lub więcej wystąpień poprzedniego znaku.
- `[]` - Dowolny znak z podanego zakresu.
- `|` - Operator "lub".
- `()` - Grupowanie wyrażeń.

### Przykład z grupowaniem


In [None]:

tekst = "2024-10-02"
wzorzec = r"(\d{4})-(\d{2})-(\d{2})"
dopasowanie = re.match(wzorzec, tekst)

if dopasowanie:
    print("Rok:", dopasowanie.group(1))
    print("Miesiąc:", dopasowanie.group(2))
    print("Dzień:", dopasowanie.group(3))


Rok: 2024
Miesiąc: 10
Dzień: 02



## Zadania do samodzielnego rozwiązania

1. **Zadanie 1**: Znajdź wszystkie adresy e-mail w  tekście
2. **Zadanie 2**: W tekście zamień wszystkie liczby na słowo "[LICZBA]"
3. **Zadanie 3**: Sprawdź, czy podany numer telefonu jest w formacie XXX-XXX-XXX (gdzie X to cyfra)
4. **Zadanie 4**: Wyszukaj wszystkie słowa, które zaczynają się od litery "P" w  tekście
5. **Zadanie 5**: Podziel tekst na części, oddzielając go po znakach interpunkcyjnych



Mateusz Mulka IiE Rok 2 - 402232

Zadanie 1


In [10]:
def find_emails(text):
    email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
    emails = re.findall(email_pattern, text)
    return emails

text = " aadfdasfdasf a1@gmail.com  dfasdfasdfasdfasdfas  a2@gmail.com"

print(find_emails(text))

['a1@gmail.com', 'a2@gmail.com']


Zadanie 2


In [11]:
def replace_numbers(text):
    number_pattern = r'\d+'
    result = re.sub(number_pattern, '[LICZBA]', text)
    print("\nTekst po zamianie liczb na [LICZBA]:\n", result)
    return result

text = " test 2132 te34fdasfasdf2  0 0 0 test test"

print(replace_numbers(text))


Tekst po zamianie liczb na [LICZBA]:
  test [LICZBA] te[LICZBA]fdasfasdf[LICZBA]  [LICZBA] [LICZBA] [LICZBA] test test
 test [LICZBA] te[LICZBA]fdasfasdf[LICZBA]  [LICZBA] [LICZBA] [LICZBA] test test


Zadanie 3


In [12]:
def is_valid_phone_number(phone_number):
    phone_pattern = r'^\d{3}-\d{3}-\d{3}$'
    is_valid = bool(re.match(phone_pattern, phone_number))
    print(f"\nCzy numer telefonu '{phone_number}' jest poprawny? {is_valid}")


text = "123-456-789"
text1 = "123456789"

is_valid_phone_number(text)
is_valid_phone_number(text1)


Czy numer telefonu '123-456-789' jest poprawny? True

Czy numer telefonu '123456789' jest poprawny? False


Zadanie 4

In [15]:
def find_words_starting_with_p(text):
    p_word_pattern = r'\b[Pp]\w*'
    p_words = re.findall(p_word_pattern, text)
    print("\nSłowa zaczynające się na literę 'P':", p_words)

text = " Ala ma kota i papuge, kot ma Ale, parasol i rolki, a papuga nie ma nic przydatnego."

find_words_starting_with_p(text)




Słowa zaczynające się na literę 'P': ['papuge', 'parasol', 'papuga', 'przydatnego']


Zadanie 5



In [18]:
def split_by_punctuation(text):
    punctuation_pattern = r'[,;.!?]'
    parts = re.split(punctuation_pattern, text)
    print("\nTekst podzielony po znakach interpunkcyjnych:", parts)
    #return parts

text = " Ala, ma kota kot ma; Ale ale tata ! nie ma nowego zdania. czemu?"
split_by_punctuation(text)


Tekst podzielony po znakach interpunkcyjnych: [' Ala', ' ma kota kot ma', ' Ale ale tata ', ' nie ma nowego zdania', ' czemu', '']
