# Регулярные выражения

Импорт библиотеки

In [1]:
import re

- проверка фрагмента текста заданному шаблону
- поиск подстрок по указанному шаблону в тексте
- поиск и замена регулярного выражения на заданную строку
- разбинение строки по найденным шаблонам, записанного в виде регулярного выражения

## Поиск подстрок

In [3]:
text = "Карта map и объект bitmap - это разные вещи!"

Метод нахождения подстрок "map" в text

In [4]:
match = re.findall("map", text)
print(match)

['map', 'map']


Метод нахождения подстрок " map " в text

In [5]:
match = re.findall("\\bmap\\b", text) # двойные слэши - неудобны
print(match)

match = re.findall(r"\bmap\b", text) # так-то лучше
print(match)

['map']
['map']


In [6]:
match = re.findall("еда", "еда, беда, победа")
print(match)

['еда', 'еда', 'еда']


Специальные символы: `\.^$?+*{}[]()|`

In [7]:
match = re.findall("(еда)", "еда, беда, победа") 
print(match)

['еда', 'еда', 'еда']


In [8]:
match = re.findall("\(еда\)", "еда, беда, победа") # поиск "(еда)"
print(match)

[]


## Символьные классы

- [] = символьный класс вариантов для ОДНОГО символа

Ищем "еда", "еду", "Еда", "Еду", отличающиеся первыми и последними буквами

In [9]:
text = "Еду, беду, победа"
match = re.findall(r"[еЕ]д[ау]", text)
print(match)

['Еду', 'еду', 'еда']


In [10]:
text = "Еду, беду, -3 (45) победа"

match = re.findall(r"[0123456789]", text)
print(match)

match = re.findall(r"[0123456789][0123456789]", text)
print(match)

match = re.findall(r"[0-9][0-9]", text)
print(match)

match = re.findall(r"[-0-9][0-9]", text) # минус
print(match)

match = re.findall(r"[^0-9]", text) # отрицание
print(match)

match = re.findall(r"[а-я]", text) # буквы маленькие
print(match)

match = re.findall(r"[а-яА-Я]", text) # буквы все
print(match)

match = re.findall(r"[а-яА-Я0-9]", text) # буквы все и цифры
print(match)

match = re.findall(r"[().?а-яА-Я0-9]", text) # буквы все и цифры и символы
print(match)

['3', '4', '5']
['45']
['45']
['-3', '45']
['Е', 'д', 'у', ',', ' ', 'б', 'е', 'д', 'у', ',', ' ', '-', ' ', '(', ')', ' ', 'п', 'о', 'б', 'е', 'д', 'а']
['д', 'у', 'б', 'е', 'д', 'у', 'п', 'о', 'б', 'е', 'д', 'а']
['Е', 'д', 'у', 'б', 'е', 'д', 'у', 'п', 'о', 'б', 'е', 'д', 'а']
['Е', 'д', 'у', 'б', 'е', 'д', 'у', '3', '4', '5', 'п', 'о', 'б', 'е', 'д', 'а']
['Е', 'д', 'у', 'б', 'е', 'д', 'у', '3', '(', '4', '5', ')', 'п', 'о', 'б', 'е', 'д', 'а']


- `.` = любой символ, кроме `\n`. Но если установлен флаг re.DOTALL, то точка соответствует вообще любому символу. Но если точка записана внутри символьного класса [] - то это просто точка
- `\d` = любая цифра при использовании Юникода. Если установлен флаг re.ASCII, то диаппазону цифр [0-9]
- `\D` = любая НЕ цифра при использовании Юникода. Если установлен флаг re.ASCII, то диаппазону цифр [^0-9]
- `\s` = любой пробельный символ. Для re.ASCII диаппазону [\t\n\r\f\v]
- `\S` = любой НЕ пробельный символ. Для re.ASCII диаппазону [^\t\n\r\f\v]
- `\w` = любой символ слова. При флаге re.ASCII диаппазону [a-zA-Z0-9_]
- `\W` = любой НЕ символ слова. При флаге re.ASCII диаппазону [^a-zA-Z0-9_]

In [11]:
match = re.findall(r".", text) # буквы все и цифры и символы
print(match)

match = re.findall(r"\d", text) # цифры
print(match)

match = re.findall(r"\w", text) # буквы все и цифры
print(match)

match = re.findall(r"\w", text, re.ASCII) # буквы все и цифры, но латинского языка
print(match)

['Е', 'д', 'у', ',', ' ', 'б', 'е', 'д', 'у', ',', ' ', '-', '3', ' ', '(', '4', '5', ')', ' ', 'п', 'о', 'б', 'е', 'д', 'а']
['3', '4', '5']
['Е', 'д', 'у', 'б', 'е', 'д', 'у', '3', '4', '5', 'п', 'о', 'б', 'е', 'д', 'а']
['3', '4', '5']


In [12]:
text = "0xf, 0xa, 0x5"
match = re.findall(r"0x[\da-zA-Z]", text)
print(match)

['0xf', '0xa', '0x5']


## Квантификаторы

Запись квантификаторов осуществляется следующим образом: `{m,n}`. В фигурных скобках, через запятую и без пробела, где 
- m = минимальное число совпадений с выражением
- n = максимальное число совпадений с выражением

Причем выделяется наибольшая длина совпадений их нескольких наденных по умолчанию, т.е. "o{2,3}" для строки "ooo" можно найти "оо" так и "ooo". Но будет большее "ooo". Для принудительного поиска минимального совпадения надо после фигурных скобок написать знак вопроса: "o{2,3}?"

In [13]:
text = "Google, Gooogle, Goooooogle"

match = re.findall(r"o{2,5}", text) # мажор = максимальная длина совпадения
print(match)
# G_oo_gle, G_ooo_ogle, G__ooooo_ogle

match = re.findall(r"o{2,5}?", text) # минор = минимальная длина совпадения
print(match)
# G_oo_gle, G_oo_ogle, G__oo_oo_oo_gle 

['oo', 'ooo', 'ooooo']
['oo', 'oo', 'oo', 'oo', 'oo']


- {m} = повторение выражения ровно m раз
- {m,} = повторение от m и более раз
- {,n} = повторение не более n раз

Аналогично работает и минорный режим (?)

In [14]:
text = "Google, Gooogle, Goooooogle"

match = re.findall(r"Go{2,}gle", text) # 2 и более "o"
print(match)
match = re.findall(r"Go{,4}gle", text) # не более 4 "o"
print(match)

['Google', 'Gooogle', 'Goooooogle']
['Google', 'Gooogle']


In [19]:
# корректность записи телефонного номера

phone_number = "89061180089"
match = re.findall(r"8\d{10}", phone_number) # после 8 идут ровно 10 цифр
print(match)
phone_number = "890611"
match = re.findall(r"8\d{10}", phone_number) 
print(match)

['89061180089']
[]


Квантификаторы вида 
- {0,} = *
- {1,} = +
- {0,1} = ?
- комбинации вида ??, *?, +?

In [21]:
text = "стеклянный, стекляный"
match = re.findall(r"стеклянн?ый", text)
print(match)
match = re.findall(r"стеклянн{0,1}ый", text)
print(match)

['стеклянный', 'стекляный']
['стеклянный', 'стекляный']


In [None]:
# парсинг
text = "author=Пушкин А.С.; title = Евгений Онегин; price =200; year= 2001"
# ищем 1 или более слов,
# затем если найдем пробелы/табуляции, 
# затем знак равно, 
# затем если найдем пробелы/табуляции,
# затем все, кроме точки с запятой 1 или более раз
match = re.findall(r"\w+\s*=\s*[^;]+", text)
print(match) # = print(text.split(';'))
match = re.findall(r"(\w+)\s*=\s*([^;]+)", text)
print(match) # = print(text.split(';'))

['author=Пушкин А.С.', 'title = Евгений Онегин', 'price =200', 'year= 2001']
[('author', 'Пушкин А.С.'), ('title', 'Евгений Онегин'), ('price', '200'), ('year', '2001')]


In [None]:
# html
text = "<p>Картинка <img src='bg.jpg'> в тексте<p>"
# после <img берем любой сивол и выделяем все пока не встреим >
match = re.findall(r"<img.*>", text) # забрали лишнее
print(match)
match = re.findall(r"<img.*?>", text) #
print(match)

["<img src='bg.jpg'> в тексте<p>"]
["<img src='bg.jpg'>"]


## Группировка и сохранение

Задача: найти в тексте ключ-значение

In [3]:
for text in ('lat = 5, lon=7', 'pi=3, a = 5'):
    match = re.findall(r'\w+\s*=\s*\d+', text)
    print(match)

['lat = 5', 'lon=7']
['pi=3', 'a = 5']


Задача: найти в тексте ключ-значение с определенным ключом

In [5]:
for text in ('lat = 5, lon=7', 'pi=3, a = 5'):
    match = re.findall(r'lat\s*=\s*\d+|lon\s*=\s*\d+', text)
    print(match)

['lat = 5', 'lon=7']
[]


У шаблона выше есть недостаток в дублировании кода!

In [7]:
for text in ('lat = 5, lon=7', 'pi=3, a = 5'):
    match = re.findall(r'(?:lat|lon)\s*=\s*\d+', text)
    print(match)

['lat = 5', 'lon=7']
[]


В крглых скобках можно прописать выбор между.  
Но после `(` надо прописать `?:`, чтобы выражение было **несохраняющим**

In [8]:
for text in ('lat = 5, lon=7', 'pi=3, a = 5'):
    match = re.findall(r'(lat|lon)\s*=\s*\d+', text)
    print(match)

['lat', 'lon']
[]


In [9]:
for text in ('lat = 5, lon=7', 'pi=3, a = 5'):
    match = re.findall(r'(lat|lon)\s*=\s*(\d+)', text)
    print(match)

[('lat', '5'), ('lon', '7')]
[]


Задача: выделить тэг src

In [None]:
text = "<p>Картинка <img src='bg.jpg'> в тексте</p>"
# определим тэг img
# далее идут 1 или несколько пробеллов
# затем любые символы кроме > до тех пор пока не встретим src
# ищем путь
match = re.findall(r"<img\s+[^>]*src=[\"'](.+?)[\"']", text) 
print(match)

['bg.jpg']


Но у шаблона выше есть недостаток: если вместо одинарной кавычки будет двойная, то все также сработает, хотя атрибут записан неверно. См. ниже

In [None]:
text = "<p>Картинка <img src='bg.jpg\"> в тексте</p>"
match = re.findall(r"<img\s+[^>]*src=[\"'](.+?)[\"']", text) 
print(match)

['bg.jpg']


Поправляем ситуацию

с одинаковыми кавычками

In [15]:
text = "<p>Картинка <img src='bg.jpg'> в тексте</p>"
match = re.findall(r"<img\s+[^>]*src=([\"'])(.+?)\1", text)  # \1 означает, что сюда надо подставить значение 1ой скобки
print(match)

[("'", 'bg.jpg')]


с разными кавычками

In [14]:
text = "<p>Картинка <img src='bg.jpg\"> в тексте</p>"
match = re.findall(r"<img\s+[^>]*src=([\"'])(.+?)\1", text)  # \1 означает, что сюда надо подставить значение 1ой скобки
print(match)

[]


Таким образом (выше) ищутся одинаковые кавычки.  
Но использоавть числа не всегда удобно. Потому что при изменении/добавлении сохраняющей скобки ранее, надо менять все числа!  
Но можно обзывать сохраняющие скобки по шаблону `(?P<name>)`, и далее обращение к ней происходит так: `(?P=name)`

In [13]:
text = "<p>Картинка <img src='bg.jpg'> в тексте</p>"
match = re.findall(r"<img\s+[^>]*src=(?P<q>[\"'])(.+?)(?P=q)", text)  # \1 означает, что сюда надо подставить значение 1ой скобки
print(match)

[("'", 'bg.jpg')]


парсинг xml-файла

In [16]:
text = '''<!DOCTYPE xmlmap>
<xmlmap>
 <parametrs>
  <name>map</name>
  <scale>750000</scale>
  <issuedate>20060828</issuedate>
  <correctiondate>20060828</correctiondate>
 </parametrs>
 <object code="43" >
  <attribute number="133" value="3000000" />
  <attribute number="174" value="20" />
  <primitive pointType="2" name="2" >
   <point lon="40.8482" lat="52.6274" />
   <point lon="40.8559" lat="52.6361" />'''

In [22]:
lon, lat = [], []
for t in text.split('\n'):
    match = re.findall(r"<point\s+[^>]*?lon=([\"\'])([0-9.,]+)\1\s+[^>]*lat=([\"\'])([0-9.,]+)\1", t)
    print(match)
print(lon, lat, sep="\n")

[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[]
[('"', '40.8482', '"', '52.6274')]
[('"', '40.8559', '"', '52.6361')]
[]
[]


Реализация выше плохая!
- нет проверки на найденную пустоту
- не вытащены lon и lat

In [26]:
lon, lat = [], []
for t in text.split('\n'):
    match = re.findall(r"<point\s+[^>]*?lon=([\"\'])([0-9.,]+)\1\s+[^>]*lat=([\"\'])([0-9.,]+)\1", t)
    if len(match) > 0:
        lon.append(match[0][1])
        lat.append(match[0][3])
print(lon, lat, sep="\n")

['40.8482', '40.8559']
['52.6274', '52.6361']


Реализация выше тоже плохая! Потому что регулярное выражение может измениться и индексы соответственно тоже изменятся.  
Здесь лучше использовать имена сохраняющих групп, а затем, обращаться к данным по этим именам:

In [28]:
lon, lat = [], []
for t in text.split('\n'):
    match = re.search(r"<point\s+[^>]*?lon=([\"\'])(?P<lon>[0-9.,]+)\1\s+[^>]*lat=([\"\'])(?P<lat>[0-9.,]+)\1", t)
    if match:
        v = match.groupdict()
        if "lon" in v and "lat" in v:
            lon.append(v["lon"])
            lat.append(v["lat"])
print(lon, lat, sep="\n")

['40.8482', '40.8559']
['52.6274', '52.6361']


## флаги и проверки