<a href="https://colab.research.google.com/github/kzdanowski/KGN_Programownie1/blob/main/Lab/Zaj%C4%99cia_12_(08_01_26)_grupy_2_i_3_ipynb.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Wyrażenia regularne (RegEx)


*dodatkowe zasoby - https://www.w3schools.com/python/python_regex.asp*

Wyrażenia regularne (regex) w Pythonie to narzędzie do wyszukiwania, edycji i manipulacji tekstem na podstawie określonych wzorców. W Pythonie obsługuje je wbudowany moduł re.

    re.search(pattern, string)
Przeszukuje cały tekst i zwraca pierwszy dopasowany obiekt (lub None).

    re.match(pattern, string)
Sprawdza, czy wzorzec pasuje do tekstu od samego początku.

    re.findall(pattern, string)
Zwraca listę wszystkich dopasowań jako napisy.

    re.finditer(pattern, string)
Zwraca iterator obiektów dopasowania (wydajne przy dużych tekstach).

    re.sub(pattern, replacement, string)
Zamienia dopasowane fragmenty na nowy tekst.

    re.split(pattern, string)
 Dzieli tekst w miejscach wystąpienia wzorca.

## Metaznaki
| Symbol | Nazwa | Opis | Przykład |
| :--- | :--- | :--- | :--- |
| `.` | Kropka | Dowolny znak | `a.b` -> "axb" |
| `^` | Daszek | Początek ciągu | `^He` -> "Hello" |
| `$` | Dolar | Koniec ciągu | `p$` -> "stop" |
| `*` | Gwiazdka | 0 lub więcej powtórzeń | `ab*` -> "a", "ab", "abb" |
| `+` | Plus | 1 lub więcej powtórzeń | `ab+` -> "ab", "abb" |
| `?` | Pytajnik | 0 lub 1 powtórzenie | `ab?` -> "a", "ab" |
| `{n,m}`| Klamry | Od n do m powtórzeń | `a{2,3}` -> "aa", "aaa" |
| `[]` | Nawiasy | Zbiór znaków | `[a-z]` -> mała litera |
| `\|` | Kreska | Alternatywa (LUB) | `kot\|pies` |
| `\` | Backslash | Znak ucieczki | `\.` -> kropka |

## Sekwencje specjalne
Dla wygody Python oferuje skróty dla popularnych grup znaków:

    \d: Dowolna cyfra (odpowiednik [0-9]).

    \D: Wszystko, co NIE jest cyfrą.

    \w: Litera, cyfra lub podkreślnik (znak alfanumeryczny).

    \W: Wszystko, co NIE jest znakiem alfanumerycznym.

    \s: Biały znak (spacja, tabulacja, nowa linia).

    \b: Granica słowa (początek lub koniec wyrazu).


- Surowe napisy (Raw strings)

Zawsze używaj prefiksu r przed wzorcem (np. r"\d+"). Dzięki temu Python nie będzie próbował interpretować znaków \ jako sekwencji ucieczki (np. \n jako nowa linia).

- Kompilacja wzorców

Jeśli używasz tego samego wzorca wielokrotnie (np. w pętli), skompiluj go wcześniej. Zwiększa to wydajność:


    pattern = re.compile(r'\d{2}-\d{3}')
    result = pattern.search("Mój kod to 00-123")
    result.group()


- Flagi

Możesz modyfikować działanie regex za pomocą flag:

    re.IGNORECASE (lub re.I): Ignoruje wielkość liter.

    re.MULTILINE (lub re.M): Pozwala ^ i $ działać na każdej linii z osobna.

In [23]:
import re
# skompilowanie wzorca -> wyszukanie go w podanym tekście -> wybranie danych za pomocą metody "group"

# ręczne kompilowanie wzorca jest potrzebne przedweszystkim do wykorzystania go w pętli

pattern = re.compile(r'\d{2}-\d{3}')
result = pattern.search("Mój kod to 00-123")
result.group()

'00-123'

In [24]:
# wzór filtrujący maile z tekstu

tekst = "Kontakt: jan.kowalski@email.com lub biuro@firma.pl"
pattern = r'[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\.[a-zA-Z]{2,}'

maile = re.findall(pattern, tekst)
print(maile)

['jan.kowalski@email.com', 'biuro@firma.pl']


In [25]:
# Zadanie 1: Wykrywanie liczb
tekst1 = "Ania ma 25 lat, a jej brat 7."
liczby = re.findall(r"\d+", tekst1)
print(f"1. Liczby w tekście: {liczby}")


1. Liczby w tekście: ['25', '7']


In [26]:
# Zadanie 2: Walidacja numeru
numer = "123456789"
poprawny = bool(re.match(r"^\d{9}$", numer))
print(f"2. Czy numer '{numer}' ma 9 cyfr?: {poprawny}")


2. Czy numer '123456789' ma 9 cyfr?: True


In [27]:
# Zadanie 3: Usuwanie spacji
tekst3 = "Dużo    zbędnych    spacji."
czysty = re.sub(r"\s+", " ", tekst3)
print(f"3. Tekst po czyszczeniu: {czysty}")

3. Tekst po czyszczeniu: Dużo zbędnych spacji.


In [28]:
# Zadanie 4: Daty
tekst4 = "Terminy: 12-05-2023 oraz 20-10-2024."
daty = re.findall(r"\d{2}-\d{2}-\d{4}", tekst4)
print(f"4. Znalezione daty: {daty}")


4. Znalezione daty: ['12-05-2023', '20-10-2024']


In [29]:
# Zadanie 5: Słowa na 'p'
tekst5 = "Python jest potężny i popularny."
slowa_p = re.findall(r"\bp\w*", tekst5, re.I)
print(f"5. Słowa na 'p': {slowa_p}")

5. Słowa na 'p': ['Python', 'potężny', 'popularny']


In [30]:
# Zadanie 6: Czyszczenie symboli
tekst6 = "Cześć! Jak leci? @2024"
tylko_tekst = re.sub(r"[^a-zA-Z0-9\s]", "", tekst6)
# tylko_tekst = re.sub(r"[^a-zA-ZąćęłńóśźżĄĆĘŁŃÓŚŹŻ0-9\s]", "", tekst6)
print(f"6. Bez symboli: {tylko_tekst}")

6. Bez symboli: Cze Jak leci 2024


In [31]:
# przykałd z użyciem finditer

logi = "10:01 INFO: Start; 10:05 ERROR: Brak sieci; 10:10 ERROR: Timeout; 10:15 INFO: Stop"
pattern = r"ERROR"

# finditer zwraca iterator obiektów Match
dopasowania = re.finditer(pattern, logi)

print(dopasowania)


for m in dopasowania:
    tresc = m.group()      # Tekst, który pasuje do wzorca
    start = m.start()      # Indeks początku
    koniec = m.end()       # Indeks końca
    print(f"Błąd '{tresc}' znaleziony od znaku {start} do {koniec}")

<callable_iterator object at 0x7b47ec2cd1e0>
Błąd 'ERROR' znaleziony od znaku 25 do 30
Błąd 'ERROR' znaleziony od znaku 50 do 55


In [32]:
from datetime import datetime

data = "23.12.1996"
dt = datetime.strptime(data, "%d.%m.%Y")
print(dt)
datetime.strftime(dt, "%d.%m.%Y - %A")

1996-12-23 00:00:00


'23.12.1996 - Monday'