## Zajęcia 2: Wyrażenia regularne

Wszystkie zadania ćwiczeniowe należy rozwiązywać w języku Python w kopii Jupyter Notebook'a dla danych zajęć w wyznaczonych miejscach (komórki z komentarzem `# Solution`).

Nie należy usuwać komórek z treścią zadań.

Należy wyświetlać outputy przy pomocy `print`


Istnieją 2 moduły do wykorzystania wyrażeń regularnych w Pythonie: `re` oraz `regex`

Moduł `re` jest częścią standardowej biblioteki języka Python, natomiast `regex` stanowi osobny moduł, który należy zainstalować, by móc z niego korzystać. Moduł `re` jest prostszy i będzie wykorzystywany na potrzeby tych zajęć.

Dokumentacja: https://docs.python.org/3/library/re.html

Dla chętnych: wyzwanie uczenia maszynowego, w którym można było zastosować wyrażenia regularne https://www.kaggle.com/c/pii-detection-removal-from-educational-data 

### Zadanie 1
Napisz funkcje wykorzystujące wyrażenia regularne do walidacji danych osobowych. Funkcje muszą zwrócić wartość `True`, gdy walidacja przejdzie pomyślnie, a w przeciwnym wypadku wartość `False`. Uwaga: funkcja nie ma sprawdzać, czy w danym tekście znajduje się dany rodzaj danych, tylko czy w pełni stanowi dany obiekt (np. tekst "Imię: Adam" albo "Adam to szef" nie powinien przejść walidacji). Funkcje do napisania:
* Funkcja walidująca imię (minimum 2 litery, zaczyna się wielką literą, pozostałe litery są małe, nie zawiera innych znaków oprócz liter)
* Funkcja walidująca nr telefonu w formacie (XX) XXX-XX-XX (np. (61) 222-45-56)
* Funkcja walidująca kod pocztowy XX-XXX (np. 61-620)
* Funkcja walidująca adres email (uproszczone założenia: pierwsza część składa się z liter i cyfr, potem mamy symbol "@", następnie domenę składającą się z liter, dalej symbol "." i na końcu ciąg liter od 2 do 6 znaków)

In [3]:
import re

In [4]:
# Solution 1

def validate_name(text):
    if re.fullmatch(r'[A-ZĄĆĘŁÓŚŹŻ][a-ząćęłóśźż]+', text):
        return True
    return False


def validate_phone_number(phone_number):
    if re.fullmatch(r'\(\d{2}\)\s\d{3}-\d{2}-\d{2}', phone_number):
        return True
    return False


def validate_zip_code(zip_code):
    if re.fullmatch(r'\d{2}-\d{3}', zip_code):
        return True
    return False


def validate_email(email):
    if re.fullmatch(r'[a-zA-Z0-9]+@[a-zA-Z]+\.[a-zA-Z]{2,6}', email):
        return True
    return False


names = ["Adam", "Ewa", "adam", "maciek15pl", "y", "ka$ia"]
phone_numbers = ["(61) 222-45-56", "telefon: (61) 222-45-56", "23 123-25-64", "(61) 5312-53-1", "(00 1110022)"]
zip_codes = ["61-620", "63-125 ", "12345", "125-21"]
emails = ["sigmaboy@sigma.pl", "superbohater2008@gmail.com", "bieg@cz@gmail.com", ".slodkipiesek.@pieskowo.eu", "@do.it"]


print("NAMES")
for name in names:
    print(validate_name(name))

print("PHONE NUMBERS")
for phone_number in phone_numbers:
    print(validate_phone_number(phone_number))

print("ZIP CODES")
for code in zip_codes:
    print(validate_zip_code(code))

print("EMAILS")
for email in emails:
    print(validate_email(email))

NAMES
True
True
False
False
False
False
PHONE NUMBERS
True
False
False
False
False
ZIP CODES
True
False
False
False
EMAILS
True
True
False
False
False


### Zadanie 2
Napisz funkcję, która podzieli tekst na zdania. Zdanie kończy się kropką, znakiem zapytania lub wykrzyknikiem. Wykorzystaj pojedynczy pattern z wyrażeń regularnych.  

In [6]:
# Solution 2

def split_sentences(text):
    sentences = re.split(r'(?<=[.!?])\s+', text.strip())
    return sentences

text = 'Jestem bardzo zmęczony. Czy dzisiaj się wyśpie? Nie! Oby jutro się udało.'
result = split_sentences(text)

for sentence in result:
    print(sentence)

Jestem bardzo zmęczony.
Czy dzisiaj się wyśpie?
Nie!
Oby jutro się udało.


### Zadanie 3
Napisz funkcję, który znajdzie w tekście jak największą liczbę wulgaryzmów i zastąpi je ciągiem znaków "---" (i zwróci tekst bez wulgaryzmów). Użyj wyrażeń regularnych. Pamiętaj, że wulgaryzmy odmieniają się przez przypadki oraz tworzy się z nich czasowniki, które również można uznać za wulgaryzmy. Przetestuj program na prawdziwym tekście (minimum 500 znaków) zawierającym różne wulgaryzmy (np. jakaś wypowiedź z forum internetowego).

In [64]:
import re

def censor_text(text):
    problematic_words = [
        r'\bkurw[ayieo]+\b',
        r'\bspierdal[aąe][ććłiaąę]*\b',
        r'\bpierd[oó][lł][ićiaąe]*\b',
        r'\bsuk[aięoą]\b',
        r'\bchuj+[aieoy]*\b',
        r'\bjeb[aąeęoł][ććiaąęło]*\b',
        r'\b(?:zajeb|przejeb|wyjeb|podjeb|odjeb|dojeb|rozjeb|najeb|wjeb|jeb)[aąeęoćł][ććiaąęe]*\b',
        r'\bzasran[yieąłę]+\b',
        r'\bszmaciarz\b',
        r'\bpieprz[yo][nśći]*\b',
        r'\bzjeb[aąeęoćł][ććiaąęe]*\b',
        r'\bkutas(?:y|em|a|owi|ie|ów|ami|ach)?\b',
        r'\bpieprz(?:ony|ona|one|eni|onego|onemu|onych|onym)\b',
        r'\bgówno(?:ami|ach|a|o|em)?\b'
    ]
    pattern = re.compile('|'.join(problematic_words), re.IGNORECASE)
    censored_text = pattern.sub('---', text)
    
    return censored_text

text = """
Geralt: Jak się nie ma co się lubi, to się kradnie, co popadnie.
Geralt Talar: – Bywaj. – Ja kurwa jestem, a nie bywam.\n
Geralt Casimir: – Bywaj, Casimir. Oby Eufemia do ciebie wróciła. – A, pies ją jebał. Mam tyle złota, że miłość mi do szczęścia niepotrzebna!\n
Geralt: Zawsze mogło być gorzej... Zawsze mogło być, kurwa, gorzej.
Geralt: Jeśli masz wybierać między jednym złem a drugim, nie wybieraj w ogóle. A jeśli ktoś cię zmusi, powiedz, żeby spierdalał.
Jaskier: Nawet jak ktoś ci wleje, to pamiętaj, że wciąż jesteś pieprzonym bardem, a barda się słucha! A nie obija!
Geralt: Wiedźmin nie dyskutuje. Wiedźmin zabija potwory. A potem idzie się napić, bo, kurwa, ma dość tych gier.
Zoltan: Życie jest jak smark – krótkie i lepkie jak chuj.
Geralt: Jaskier, nie pieprz tyle, bo cię zaraz ktoś udusi, a ja nie będę go powstrzymywał.
Zoltan: Jak mówisz, że się coś zrobi, to się to kurwa robi, a nie pierdoli trzy po trzy!
Geralt: Nie mam ochoty grać w wasze zasrane gry. Mam dosyć tego bagna, w którym siedzę po uszy.
Geralt: Yennefer! Kurwa, czy ty kiedykolwiek możesz po prostu powiedzieć, co myślisz, zamiast owijać w bawełnę?
Geralt: Wiedźmin w żadnej sprawie nie ma szczęścia, ale zawsze, kurwa, znajdzie się jakiś łachudra, co mu powie, że to jego wina.
Jaskier: Co z tego, że wyglądasz jak pieprzony król, skoro gówno to zmienia!
Bandyta: Pies cię jebał!
Chłop1 Chłop2: Te, siwy! Po co ci dwa miecze?! -Ciekawe, czy w spodniach też trzyma dwa kutasy.
Strażnik: Problem... Dobre sobie. W czarnej dupie, kurwa, jesteśmy, a nie mamy "problem". Siedzi jakieś kudłate chuj wie co w lesie i napada na każdy jebany transport, jaki tu jedzie gościńcem. Kończą nam się już bełty, strzały, prowiant, no niedobrze jest. Wysłałem paru ludzi, żeby zobaczyli, co się dzieje... I nie wrócili.
"""

censored_output = censor_text(text)

print(censored_output)



Geralt: Jak się nie ma co się lubi, to się kradnie, co popadnie.
Geralt Talar: – Bywaj. – Ja --- jestem, a nie bywam.

Geralt Casimir: – Bywaj, Casimir. Oby Eufemia do ciebie wróciła. – A, pies ją ---. Mam tyle złota, że miłość mi do szczęścia niepotrzebna!

Geralt: Zawsze mogło być gorzej... Zawsze mogło być, ---, gorzej.
Geralt: Jeśli masz wybierać między jednym złem a drugim, nie wybieraj w ogóle. A jeśli ktoś cię zmusi, powiedz, żeby ---.
Jaskier: Nawet jak ktoś ci wleje, to pamiętaj, że wciąż jesteś --- bardem, a barda się słucha! A nie obija!
Geralt: Wiedźmin nie dyskutuje. Wiedźmin zabija potwory. A potem idzie się napić, bo, ---, ma dość tych gier.
Zoltan: Życie jest jak smark – krótkie i lepkie jak ---.
Geralt: Jaskier, nie pieprz tyle, bo cię zaraz ktoś udusi, a ja nie będę go powstrzymywał.
Zoltan: Jak mówisz, że się coś zrobi, to się to --- robi, a nie --- trzy po trzy!
Geralt: Nie mam ochoty grać w wasze --- gry. Mam dosyć tego bagna, w którym siedzę po uszy.
Geralt: Yenn