# Wyrażenie regularne zaczynające się z wielkiej litery i mające 4-6 znaków

In [1]:
import re

test_words = ['zebra', 'krowa', 'Bitcoin', 'Anna', 'Peer2Peer', 'Reddit']

REGEX = r'\b[A-Z][a-z]{3,5}\b'

for word in test_words:
    if re.search(REGEX, word):
        print(f"dopasowano: {word}")

dopasowano: Anna
dopasowano: Reddit


# Usuwanie tagów HTML z tekstu

In [2]:
import re
html_text = "<h1>1. To jest tytul </h1><ul><li class='link'><a href='www.google.pl'>2. A to - link do google.</a></li></ul>"

REGEX = r'<.*?>'

print(re.sub(REGEX, '', html_text))

1. To jest tytul 2. A to - link do google.


# Ekstrakcja informacji z adresu url

In [3]:
import re

url = "http://html.net/page.php?id=1254?name=Mike?surname=Tyson"

REGEX = r'\?(?P<name>[a-zA-Z0-9]*)=(?P<val>[a-zA-Z0-9]*)'

for match in re.finditer(REGEX, url):
    print("Variable name: {name}, value: {val}".format(
        name=match.group('name'), val=match.group('val')
    ))

Variable name: id, value: 1254
Variable name: name, value: Mike
Variable name: surname, value: Tyson


# Podział tekstu na zdania z wykorzystaniem positive lookahead

In [4]:
import re

text = "Dear Mr. Nowak, I would like to invite you to a conference in the U.S.A. The conference will start on Wed. the 7th of March and will end on Sat. 10 of March. The conference location is Warsaw, Poland. The keynote speaker will be M.D. Obama."

REGEX = r'.*?\.(?=( [A-Z]|$))' 

#Podejście oparte o wyrażenie nie sprawdza się, ponieważ komputer nie ma możliwości rozróżnić końca zdania od skrótu kończącego się kropką i dalszej
#części zdania z wielkiej litery. 
for match in re.finditer(REGEX, text):
    print(match.group(0))

Dear Mr.
 Nowak, I would like to invite you to a conference in the U.S.A.
 The conference will start on Wed. the 7th of March and will end on Sat. 10 of March.
 The conference location is Warsaw, Poland.
 The keynote speaker will be M.D.
 Obama.


# Podział tekstu na zdania z wykorzystaniem biblioteki nltk

In [5]:
import nltk

nltk.download('punkt', quiet=True)

text = "Dear Mr. Nowak, I would like to invite you to a conference in the U.S.A. The conference will start on Wed., the 7th of March and will end on Sat., the 10th of March. The conference location is Warsaw, Poland. The keynote speaker will be M.D. Mark Obama."

nltk_split = nltk.tokenize.sent_tokenize(text)

for el in nltk_split:
    print(el)


Dear Mr. Nowak, I would like to invite you to a conference in the U.S.A.
The conference will start on Wed., the 7th of March and will end on Sat., the 10th of March.
The conference location is Warsaw, Poland.
The keynote speaker will be M.D.
Mark Obama.


# Porównanie wyszukiwania naiwnego vs REGEX na przykładzie biblii

In [6]:
import nltk
from timeit import default_timer as timer

nltk.download('gutenberg', quiet=True)
raw_bible = nltk.corpus.gutenberg.raw('bible-kjv.txt')

names = open('names.txt', 'r').read().split("\n")

names_found_naive = []
names_found_regex = []

####################################################################################

# METODA NAIWNA - iteracja po imionach po kolei i sprawdzanie, które z nich występują w tekście
start_naive = timer()
for name in names:
    if name in raw_bible:
        names_found_naive.append(name)
end_naive = timer()

print("Czas wyszukiwania naiwnego: {diff}.".format(diff=end_naive-start_naive))

####################################################################################

# METODA OPARTA O REGEX - jeden automat wyszukuje wszystkie imiona w jenym przebiegu
start_regex = timer()
REGEX = '(' + '|'.join(names) + ')'
compiled = re.compile(REGEX)
start_compiled = timer()
for match in compiled.finditer(raw_bible):
    names_found_regex.append(match.groups(0))
end_regex = timer()

print("Czas kompilacji wyrażenia {comp}. Czas wyszukiwania z wyrażeniem {search}".format(comp=start_compiled-start_regex, search=end_regex-start_compiled))
print("Z regexami {n} razy szybciej".format(n=(1.*end_naive-start_naive)/(end_regex-start_compiled)))

Czas wyszukiwania naiwnego: 3.9982114999993428.
Czas kompilacji wyrażenia 0.025776399999813293. Czas wyszukiwania z wyrażeniem 0.5144804999999906
Z regexami 7.7713567375234165 razy szybciej
