#6. Регулярные выражения

Простыми словами, регулярное выражение --- это выражение, состоящее из символов и специальных символов-джокеров, задающее правило поиска.

Сначала мы ограничимся обычными символами.

Для работы с регулярными выражениями в python используется модуль re

In [311]:
import re

Разберем некоторые методы из этой библиотеки

С помощью match можно искать вхождения с начала строки. Что такое r'', чуть позже.

In [312]:
result = re.match(r'Twi', 'Twitter')
print result
print result.group()
print result.start(), result.end()

<_sre.SRE_Match object at 0x10c1eb370>
Twi
0 3


start и end() -- соответственно начало и конец найденного вхождения

In [313]:
result = re.match(r'wi', 'Twitter')
print result

None


Для поиска не с начала строки есть метод search, есть метод search. Он ищет до первого вхождения

In [314]:
result = re.search(r'wi', 'Twitter Nintendo wii wiiiiiii Wi')

In [315]:
print result.group()
print result.start(), result.end()

wi
1 3


Мы же будем использовать метод findall для поиска всех вхождений

In [316]:
result = re.findall(r'wi', 'Twitter Nintendo wii wiiiiiii Wi')
result

['wi', 'wi', 'wi']

В результате получится просто список найденных вхождений

По данному регулярному выражению также можно разбивать строку с помощью команды split.

In [317]:
result = re.split(r'i', 'Twitter Nintendo wii wiiiiiii Wi')

In [318]:
result

['Tw', 'tter N', 'ntendo w', '', ' w', '', '', '', '', '', '', ' W', '']

С помощью sub можно заменять одну подстроку на другую

In [319]:
result = re.sub(r'black', 'white', 'black Sea is next to Murmansk')
print result

white Sea is next to Murmansk


Чтобы много раз не задавать шаблон, его можно задать вначале с помощью метода compile

In [320]:
pattern = re.compile(r'wii')

In [321]:
result = pattern.findall('wii wii adwiii')

In [322]:
print result

['wii', 'wii', 'wii']


Мы посмотрели все важные методы из модуля re, но регулярные выражения были пока очень простыми -- они не содержали специальных символов.

Настало время поговорить про r''

попробуем вывести символ бэкслэш

In [324]:
print '\'

SyntaxError: EOL while scanning string literal (<ipython-input-324-3ae23d7465fb>, line 1)

In [325]:
print '\\'

\


теперь попробуем поискать 

In [258]:
re.findall(r'\\', '\\')

['\\']

r'str' -- raw string, она ведет себя по-другому с некоторыми символами. Нас будет интересовать бэкслэш. Все бэкслэши остаются, но при этом строчка все равно не может оканчиваться на нечетное число бэкслэшей

Например

In [269]:
re.findall(r'e\\n', 'e\\newline\n')

['e\\n']

Но

In [270]:
re.findall('e\\n', 'e\\newline\n')

['e\n']

Попробуем поработать с другими символами-джокерами

In [271]:
re.findall('.a?', 'aa')

['aa']

In [272]:
re.findall('.a?', 'b')

['b']

In [273]:
re.findall('ab+', 'a')

[]

In [274]:
re.findall('ab+', 'ab')

['ab']

In [275]:
re.findall('\d','sch1329.mskobr.ru')

['1', '3', '2', '9']

In [276]:
re.findall('\d+','sch1329.mskobr.ru')

['1329']

Вот интересный пример. Почему findall выдал только 1329, есть же и другие числа 1, 13 и так далее?

Дело в том, что бывает жадные + и \*. А бывают ленивые. Для ленивых надо использовать +? и *?.

In [286]:
re.findall(r'\d+?','sch1329.mskobr.ru')

['1', '3', '2', '9']

In [285]:
re.findall(r'\w*','sch1329.mskobr.ru')

['sch1329', '', 'mskobr', '', 'ru', '']

In [282]:
re.findall('\w*?','sch1329.mskobr.ru')

['', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '', '']

In [283]:
re.findall('\w+?','sch1329.mskobr.ru')

['s', 'c', 'h', '1', '3', '2', '9', 'm', 's', 'k', 'o', 'b', 'r', 'r', 'u']

In [284]:
re.findall('\d{2,3}','sch1329.mskobr.ru')

['132']

In [296]:
re.findall(r'@(\w+\.\w+)','abc@gmail.com, kolya@mail.ru, serezha@yandex.ru')

['gmail.com', 'mail.ru', 'yandex.ru']

In [297]:
re.findall(r'\b[aeiouAEIOU]\w*', 'How i met your mother')

['i']

##6.2 Конвертация html-таблицы в csv

Попробуем из html-страницы http://olympiads.mccme.ru/vmo/2015/final/09.htm сделать csv-файл

In [299]:
from urllib2 import urlopen 
conn = urlopen('http://olympiads.mccme.ru/vmo/2014/final/10.htm')
data = conn.read()
html = data.decode('cp1251')

In [300]:
print html

<HTML>
<HEAD>
<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1251">
<TITLE>XL Olimpiada (Yaroslavl, 24-30.04.2014) Protokol</TITLE>
<STYLE></STYLE>
</HEAD>
<BODY  bgcolor="#A0DAC0">
<H2 ALIGN="CENTER"><A href="index.htm">XL Всероссийская олимпиада школьников по математике</A>
<BR>(<A href="index.htm">Заключительный этап</A>)</H2>

<P ALIGN="CENTER">г. Ярославль, 24&#8211;30 апреля 2014 г.</P>

<H3>Протокол итогов XL Всероссийской олимпиады школьников по математике по 10 классам</H3>

<P>Публикуется в соответствии с протоколом, предоставленным оргкомитетом олимпиады (<A href="protokol.xls">xls, 191 k</A>) 
и размещенным <A href="http://www.newschool.yar.ru/20-moduli/197-zaklyuchitelnyj-etap-vserossijskoj-olimpiady-shkolnikov-po-matematike">на сайте организатора</A>.
</P>

<TABLE BORDER CELLSPACING=1 CELLPADDING=2 WIDTH="96%">
<TR><TD  ALIGN="CENTER"><B>№ п/п</B></TD>
<TD  ALIGN="CENTER"><B>Субъект РФ</B></TD>
<TD  ALIGN="CENTER"><B>Город (район)

Заметим, что каждая строка заключена в тэги TR.

In [192]:
info = re.findall(r'<TR>(.*?)</TR>', html, re.DOTALL)

Далее сотрем все тэги и удалим лишние символы, которые будут мешать csv-разметке

In [303]:
withoutTags = [re.sub('<.*?>', '', i) for i in info]
withoutTags = [re.sub('\"|,|&nbsp;', ' ', i) for i in withoutTags]
withoutTags = [re.sub('[\r\n\t]+',';', i) for i in withoutTags]

In [195]:
pupils = []
for w in withoutN:
    pupil = w.split(';')
    pupils.append(pupil)

In [309]:
for p in pupils[0]:
    print p,

№ п/п Субъект РФ Город (район) Фамилия  имя  отчество Класс Школа Шифр 1 2 3 4 5 6 7 8 Итоговый балл Рейтинг (место) 


In [310]:
with open('res.csv', 'w') as g:
    for pupil in pupils:
        g.write((','.join(pupil)[1:]+'\n').encode('utf-8'))