Программа повышения квалификации (научно-педагогических) работников НИУ ВШЭ

# Python для исследователей

На основе блокнота *Аллы Тамбовцевой, НИУ ВШЭ*

Дополнения: *Татьяна Рогович

# Регулярные выражения

### Введение в регулярные выражения

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке. Еще о регулярных выражениях можно думать как о шаблонах, в которые мы можем подставлять текст, и этот текст либо соответствует шаблону, либо нет. В самом простом случае в качестве регулярного выражения может использоваться обычная строка. 

In [2]:
# библиотека регулярных выражений в Python
import re

Возьмем две первых строки из известной считалки Агаты Кристи и попытаемся найти в них слово "обедать". 
Для этого можно воспользоваться оператором in. Он проверяет точное вхождение одной строки в другую и возвращает логическое значение: True, если вхождение есть, и False в противном случае.

In [2]:
string = 'Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'
# слово "обедать" маленькими буквами есть в строке
'обедать' in string

True

In [3]:
# а если мы попытаемся поискать слово "Обедать" с большой буквы, то оператор вернет False
'Обедать' in string

False

Видно, что слово *Один* начинается с большой буквы. Что, если мы хотим найти в некоторой строке слово *Один* вне зависимости от регистра, то есть все слова типа *Один, один, ОДИН* и т.д.? Эту задачу все еще можно решить без регулярных выражений: привести всю строку к нижнему регистру и искать слово *один*. 
А что, если у нас будет текст подлиннее (например, полный текст считалки), и в нем необходимо найти все числительные от одного до десяти во всех падежах (один/одного/двое/двоим и т.д.)? В такой ситуации удобнее написать некоторый шаблон, чтобы не создавать длинный список слов с разными формами слов. Тут на помощь придут регулярные выражения. 

## Символы и наборы символов

* Для обозначения произвольного символа (кроме новой строки) используется  точка ‒ `.`


* `[..]` Один из символов в скобках (`[^..]` — любой символ, кроме тех, что в скобках). Если мы хотим, чтобы одним из этих символов был дефис (минус) нужно указать его первым или последним символом в скобках.


* В квадратные скобки можно включать интервалы:
    
    `[0-9]` соответствует любой цифре
    `[A-Z]` соответствует любой заглавной букве английского алфавита  
    `[a-z]` соответствует любой строчной букве английского алфавита  
    `[А-Я]` и `[а-я]` ‒ аналогично для букв русского алфавита (кроме буквы ё/Ё - ее нужно включать отдельно!)
    

* Для цифр есть специальный символ `\d` (от *digit*) ≈`[0-9]` . Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 


* Для любого символа, кроме цифры тоже есть специальный символ `\D` (от *digit*)≈`[^0-9]` (заглавная буква здесь отвечает за отрицание). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 


* Для пробела тоже существует свой символ ‒ `\s` (от *space*) ≈`[ \f\n\r\t\v]`. Этот символ соответствует ровно одному пробельному символу в тексте (пробел, табуляция, перенос строки и т.д.).


* Любой непробельный символ, обозначается как `\S` (заглавная буква здесь отвечает за отрицание).


* Для букв тоже существует свой символ ‒ `\w` (от *word*) ≈ `[0-9a-zA-Zа-яА-ЯёЁ_]`. Любая буква (то, что может быть частью слова), а также цифры и _ .


* Любая не-буква, не-цифра и не подчёркивание, обозначается как `\W` (заглавная буква здесь отвечает за отрицание).


* `\b` позволяет найти нам границу слова  начало или конец слова (слева пусто или не-буква, справа буква и наоборот). В отличие от предыдущих соответствует позиции, а не символу. `\B` - не граница слова: либо и слева, и справа буквы, либо и слева, и справа НЕ буквы.


* `\` Экранирование специальных символов (\. означает точку или \+ — знак «плюс»). Это нужно, когда нам нужно отловить настоящую точку, а не точку - любой символ.

* `^` и `$` начало и конец строки соответственно.


* `a|b`	Соответствует a или b


* `\t`, `\n`, `\r`	Символ табуляции, новой строки и возврата каретки соответственно


**Квантификаторы** 
* *{n,m}* 	От n до m вхождений ({,m} — от 0 до m)


* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+` (аналог `{1,}`)


* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*` `{,}`


* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?` `{0,1}`

In [69]:
twister = '''Two toads, terribly tired, trotted along the road.\nSaid toad number 1 to the toad number Two:\n'I'm tired, and I'm carrying the load.'''

print(twister)
print(re.findall(r'.+', twister))
print(re.findall(r'\d+', twister))
print(re.findall(r'[0-9]+', twister))
print(re.findall(r'\D+', twister))
print(re.findall(r'\s+', twister))
print(re.findall(r'\S+', twister))
print(re.findall(r'[lrt]oad', twister))
print(re.findall(r'[^rt]oad', twister))
print(re.findall(r'toad', twister))
print(re.findall(r'toad\b', twister))
print(re.findall(r'Two', twister))
print(re.findall(r'^Two', twister))
print(re.findall(r'\.', twister))
print(re.findall(r'\.$', twister))

Two toads, terribly tired, trotted along the road.
Said toad number 1 to the toad number Two:
'I'm tired, and I'm carrying the load.
['Two toads, terribly tired, trotted along the road.', 'Said toad number 1 to the toad number Two:', "'I'm tired, and I'm carrying the load."]
['1']
['1']
['Two toads, terribly tired, trotted along the road.\nSaid toad number ', " to the toad number Two:\n'I'm tired, and I'm carrying the load."]
[' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ', ' ', ' ', '\n', ' ', ' ', ' ', ' ', ' ', ' ']
['Two', 'toads,', 'terribly', 'tired,', 'trotted', 'along', 'the', 'road.', 'Said', 'toad', 'number', '1', 'to', 'the', 'toad', 'number', 'Two:', "'I'm", 'tired,', 'and', "I'm", 'carrying', 'the', 'load.']
['toad', 'road', 'toad', 'toad', 'load']
['load']
['toad', 'toad', 'toad']
['toad', 'toad']
['Two', 'Two']
['Two']
['.', '.']
['.']


Давайте посмотрим на пару примеров на других строках.

In [3]:
st = 'ёёёёёёёёабв'
re.findall(r'[а-я]+',st) # ищем последовательность, которая входит в последовательность от а до я

['абв']

Здесь нашлось абв, потому что в диапазон а-я буква ё не входит!

In [5]:
st = 'Революция произошла в 1917 году'
re.findall(r'\d+',st) # ищем последовательность цифр

['1917']

In [6]:
st = 'Революция произошла в 1917 году'
re.findall(r'\D+',st) # ищем все последовательности без цифр

['Революция произошла в ', ' году']

In [7]:
st = 'Революция произошла в 1917 году'
re.findall(r'\S+',st) # ищем все, что не пробельные символы

['Революция', 'произошла', 'в', '1917', 'году']

Для разбора дальнейших символов в регулярных выражениях, создадим небольшой набор слов (не очень осмысленный, но удобный):

     хи, хех, хааа, хаха

* Знак `.` соответствует одному любому символу в строке. Так, регулярное выражение `x.x` "поймает" слова *хах* и *хех*.
* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+`. Выражение `xa+` "поймает" слова *xa* и *хаааа*.
* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*`.  Выражение `xaх*`  "поймает" слова *xa* и *хах*.
* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?`.  Выражение `xa?`  "поймает" все последовательности *xa* и буквы *x*.

In [5]:
st = "хи, хех, хааа, хаха"
re.findall(r'х.х',st)

['хех', 'хах']

In [6]:
re.findall(r'ха+',st)

['хааа', 'ха', 'ха']

In [10]:
# квантификатор + может быть выражен интервалом {1,}
re.findall(r'ха{1,}',st)

['хааа', 'ха', 'ха']

In [7]:
re.findall(r'хах*',st) # ха из хаааа, т.к * говорит нам что слева должно быть ха и справа 0 или бесконечно число х

['ха', 'хах']

In [13]:
# квантификатор * может быть выражен интервалом {,}
re.findall(r'хах{,}',st)

['ха', 'хах']

In [8]:
re.findall(r'ха?',st) #? говорит нам, что слева должен быть один х, а справа 0 или 1 а. 
# Соответственно ха и х из хах; х и х из хех; и ха из хааа; ха ха из хаха

['х', 'х', 'х', 'ха', 'ха', 'ха']

In [70]:
# квантификатор ? может быть выражен интервалом {0,1}
re.findall(r'ха{0,1}',st)

['х', 'х', 'х', 'ха', 'ха', 'ха']

В регулярных выражениях также можно использовать условие *или*. Например, возвращаясь к нашей "смеющейся" строке, если мы напишем выражение `x[а|е]х`,  оно поймает слова *хах* и *хех*, а вот вдруг появившийся *хох* не поймает.



In [15]:
re.findall(r'х[а|е]х',st)

['хех', 'хах']

Но обычно "или" нам нужно для более сложных случаев, например, когда мы хотим отловить однокоренные слова с меняющейся гласной, потому что с этим примером справится и простое перечисление в скобках.

In [16]:
re.findall(r'х[ае]х',st)

['хех', 'хах']

Как быть, если с помощью регулярного выражения нужно найти подстроку, содержащую знаки препинания? Те же точки, вопросительные знаки, скобки? Нужно их экранировать ‒ ставить перед ними `\`, например, `\.`, `\,`, `\?`. Это символ будет сообщать Python, что нам нужен именно конкретный символ (точка, запятая, знак вопроса и др.). Внутри квадратных скобок, где мы перечисляем последовательности экранирование не нужно.

В регулярных выражениях можно явно задавать число повторений символов. Если мы знаем точное число символов, то его можно указать в фигурных скобках. Так, выражение `а{4}` будет соответствовать четырем буквам `a` подряд. Если точное число повторений нам неизвестно, можно задать диапазон, указав начало и конец отрезка через запятую. Например, такое выражение позволит найти от двух до четырех букв `a` подряд: `a{2,4}`. Если известен только левый или правый конец отрезка, то второй конец можно опустить: `a{2,}` (не менее двух) или `a{,4}` (не более 4).

Создадим какой-нибудь незамысловатый текст с разными датами:

In [18]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
text

'12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года.'

Напишем регулярное выражение, которое будет соответствовать всем цифрам в тексте (не числам), и найдем их все в `text` с помощью функции `findall()`:

In [15]:
re.findall("\d", text) # отдельно цифры

['1',
 '2',
 '2',
 '0',
 '1',
 '1',
 '1',
 '3',
 '2',
 '0',
 '1',
 '2',
 '2',
 '2',
 '0',
 '1',
 '1',
 '2',
 '5',
 '2',
 '0',
 '1',
 '2']

Если забыли, что числа можно искать с помощью `\d`, можно задействовать промежуток (только не забудьте квадратные скобки):

In [16]:
re.findall("[0-9]", text)

['1',
 '2',
 '2',
 '0',
 '1',
 '1',
 '1',
 '3',
 '2',
 '0',
 '1',
 '2',
 '2',
 '2',
 '0',
 '1',
 '1',
 '2',
 '5',
 '2',
 '0',
 '1',
 '2']

А что, если мы хотим "ловить" не цифры, а числа, то есть последовательности из одной или более цифры. Условию "один и более" соответствует символ `+`. Попробуем.

In [17]:
re.findall("\d+", text) # отдельно числа

['12', '2011', '13', '2012', '2', '2011', '25', '2012']

Получилось! А если сочетания по 1-2 цифры? Ограничим интервал.

In [19]:
re.findall("\d{1,2}", text) # отдельно числа по 1-2 цифры

['12', '20', '11', '13', '20', '12', '2', '20', '11', '25', '20', '12']

Что будет, если мы воспользуемся знаком `?`? Он отвечает за наличие 0 или 1 символа, стоящего слева от регулярного выражения.

In [19]:
re.findall("\d?", text) # по 1 символу

['1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '1',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '1',
 '3',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '1',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '5',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

Получили какое-то безобразие. Но это безобразие оправдано: добавив `?` мы поставили условие, что в подстроке либо есть ровно одна цифра, либо ее нет. Поэтому мы и получили такой странный список. 

**Задание 1:** написать регулярное выражение, которое будет "ловить" все годы в тексте.

*Решение:*

In [20]:
re.findall(r"\d{4}", text) # 4 цифры подряд

['2011', '2012', '2011', '2012']

А что, если в тексте будут элементы из 4 цифр, которые не будут годами?

In [21]:
text2 = "По имеющимся данным, в Екатеринбургской губернии на май 1916 года было занято 50611 военнопленных,\
из них 34194 на фабричных и заводских работах, 5731 на «казённых», 5060 на сельскохозяйственных,\
4145 на железнодорожных, 913 на городских и земских, 568 на прочих."
text2

'По имеющимся данным, в Екатеринбургской губернии на май 1916 года было занято 50611 военнопленных,из них 34194 на фабричных и заводских работах, 5731 на «казённых», 5060 на сельскохозяйственных,4145 на железнодорожных, 913 на городских и земских, 568 на прочих.'

In [22]:
re.findall(r"[12]\d{3}", text2) # 4 цифры подряд, среди которых первая цифра - 1 или 2

['1916']

**Задание 2:** написать регулярное выражение, которое будет "ловить" все слова с основой *удивительн* в тексте.

*Решение:*

In [23]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
re.findall("удивительн..", text) # из текста знаем, что больше двух букв после не будет

['удивительное', 'удивительнее']

Теперь давайте вместе напишем регулярное выражение, которое будет соответствовать датам с годами. Как выглядят даты в нашем тексте? Сначала идет одна цифра или более, затем пробел, далее буквенное название месяца, пробел и снова цифры, но теперь уже ровно 4, так как они складываются в год. Как обозначаются цифры мы знаем, русские буквы тоже. Пробельным символам соответствует символ `\s` (обратный слэш обязателен, так как без него это будет обычная буква *s*), но если нужен только пробел, то можно искать именно его ' '. Но обычно даже вместо просто пробела указывают \s, потому что такая регулярка лучше читается

In [71]:
#Число, пробел, набор букв, пробел, четыре цифры
re.findall("\d{1,2} [а-я]+ \d{4}", text) # осталось прочитать регулярку по слогам :)
re.findall("\d{1,2}\s[а-я]+\s\d{4}", text) 

['12 ноября 2011', '13 ноября 2012', '2 декабря 2011', '25 декабря 2012']

Теперь давайте рассмотрим еще один пример. Пусть у нас есть список твитов, только список учебный, вместо полного текста одни хэштеги. 

In [26]:
tweets = "#я не могу молчать #я не могу кричать #я не могу #я справлюсь я не могу молчать #я не могу жить #я все могу #с кем не бывает"

Задача: создать новый список, содержащий только твиты, начинающиеся с `#я не могу`. Сначала напишем регулярное выражение и посмотрим, как оно работает.

In [27]:
re.findall("#я не могу \w*", tweets)

['#я не могу молчать', '#я не могу кричать', '#я не могу ', '#я не могу жить']

Рассмотрим какую-нибудь задачу, где необходимо применить экранирование. Пусть у нас есть некоторая строка с данными:

In [28]:
data = '20.05.1963, 55, 12.12.2000, 17, 15/15/1111'

И нам нужно выбрать из нее даты, записанные через точку. Напишем регулярное выражение, которое позволит это сделать, но перед этим вспомним, что точку нужно экранировать ‒ ставить перед ней `\`, чтобы Python понимал, что мы ищем не один любой символ (`.`), а именно точку как знак препинания. 

In [29]:
re.findall(r"\d+\.\d+.\d{4}", data) # готово

['20.05.1963', '12.12.2000']

До этого мы работали только с функцией `findall`, но в модуле `re` есть и другие полезные функции. Вот наиболее часто используемые из них:

- `re.match()`
- `re.search()`
- `re.findall()`
- `re.split()`
- `re.sub()`
- `re.compile()`

Рассмотрим их подробнее.

### re.match(pattern, string):
Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод `match()` на строке «Сидоров Иван Иванович» с шаблоном «Сидоров», то он завершится успешно. Однако если мы будем искать «Иван», то результат будет отрицательный. Давайте посмотрим на его работу:

In [29]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result)

<_sre.SRE_Match object; span=(0, 7), match='Сидоров'>


Искомая подстрока найдена. Чтобы вывести ее содержимое, используем метод `group()`. (Мы используем «r» перед строкой шаблона, чтобы показать, что это «сырая» строка в Python).

In [30]:
result.group(0)

'Сидоров'

Теперь попробуем найти «Иван» в данной строке. Поскольку строка начинается с фамилии, метод вернет `None`:

In [31]:
result = re.match(r'Иван', 'Сидоров Иван Петрович')
print(result)

None


Также есть методы `start()` и `end()` для того, чтобы узнать начальную и конечную позицию найденной строки.

In [32]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result.start())
print(result.end())

0
7


Эти методы иногда очень полезны для работы со строками.

### re.search(pattern, string):
Этот метод похож на `match()`, но он ищет не только в начале строки. В отличие от предыдущего, `search()` вернет объект, если мы попытаемся найти «Иван».

In [33]:
result = re.search(r'Иван', 'Сидоров Иван Петрович')
result.group(0)

'Иван'

Метод `search()` ищет по всей строке, но возвращает только первое найденное совпадение.

In [34]:
result = re.search(r'Иван', 'Сидоров Иван Иванович')
result.group(0)

'Иван'

### re.split(pattern, string, [maxsplit=0]):
Этот метод разделяет строку по заданному шаблону.

In [35]:
result = re.split(r' ', 'Сидоров Иван Петрович')
result

['Сидоров', 'Иван', 'Петрович']

В примере мы разделили нашу строку по пробелам. Метод `split()` принимает также аргумент `maxsplit` со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз. Давайте посмотрим на примеры:

In [36]:
result = re.split(r' ', 'Сидоров Иван Петрович',maxsplit=1)
result

['Сидоров', 'Иван Петрович']

Мы установили параметр `maxsplit` равным 1, и в результате строка была разделена на две части вместо трех.

### re.compile(pattern, flags=0):
Компилирует объект регулярного выражения.для последующего использования.

In [38]:
text = 'hfjklhgadsfk_7fjhsdkl867589065,bhjk4\n \
        5jfnkld45'
digitRegex = re.compile(r'[0-9]+') # Не менее 1 цифры

''' Сейчас мы их проверим...'''
digitRegex.findall(text)

['7', '867589065', '4', '5', '45']

### re.sub(pattern, repl, string):
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [39]:
result = re.sub(r'[;,]', ' ', 'Сидоров;Иван,Петрович')
result

'Сидоров Иван Петрович'

### Примеры задач с решением

### Задача 1. Извлечь все слова, начинающиеся на гласную

Для начала вернем все слова:

In [40]:
string = 'Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'
re.findall(r'\w+', string)

['Десять',
 'негритят',
 'отправились',
 'обедать',
 'Один',
 'поперхнулся',
 'их',
 'осталось',
 'девять']

А теперь — только те, которые начинаются на определенные буквы (используя `[]`):

In [41]:
re.findall(r'[аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', string)

['есять',
 'егритят',
 'отправились',
 'обедать',
 'Один',
 'оперхнулся',
 'их',
 'осталось',
 'евять']

Что-то тут не так) Если слово не начинается с глаcной, оно было обрезано до первой гласной. Для того, чтобы убрать их, используем `\b` для обозначения границы слова:

In [42]:
re.findall(r'\b[аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', string)

['отправились', 'обедать', 'Один', 'их', 'осталось']

Получили искомый результат. Но что если нам нужно получить слова начинающиеся с согласной буквы? Мы, конечно, можем их всех перечислить как гласные, но это не оптимальный способ. Мы можем использовать `^` внутри квадратных скобок для инвертирования группы:

In [43]:
re.findall(r'\b[^аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', string)

['Десять',
 ' негритят',
 ' отправились',
 ' обедать',
 ' поперхнулся',
 ' осталось',
 ' девять']

В результат попали слова, «начинающиеся» с пробела. Уберем их, включив пробел в диапазон в квадратных скобках:

In [44]:
# слова, не начинающиеся с гласной или пробела
re.findall(r'\b[^аяоеуюыиэеАЯОЕУЮЫИЭ ]\w+', string)

['Десять', 'негритят', 'поперхнулся', 'девять']

### Задача 2. Проверить телефонный номер (номер должен быть длиной 11 знаков и начинаться с 7 или 8)

У нас есть телефонный номер и нам нужно проверить его, используя регулярные выражения:

In [73]:
val = '89999999999'

if re.match(r'[7-8]{1}[0-9]{10}', val) and len(val) == 11:
    print('Да')
else:
    print ('Нет')

Да


Для каждого номера мы проверям его по следующему паттерну: сначала стоит либо 7, либо 8 `[7-8]`, строго один раз `{1}`. Далее идет блок из любых цифр `[0-9]` длинной строго в 9 `{9}`. Ну и в конце мы проверяем длину "числа". Если все хорошо, помечаем номер как верный.`[0-9]` можно также заменить на `\d`, а `{1}` можно опустить. Потому что `[]` по умолчанию подразумевают наличие одного элемента из скобок.

In [74]:
val = '79999999999'

if re.match(r'[7-8]\d{10}', val) and len(val) == 11:
    print('Да')
else:
    print ('Нет')

Да


### Задача 3. Проверить номера автомобилей 

В России применяются регистрационные знаки нескольких видов. 
Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы,
имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.

У частных легковых автомобилях номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. У такси — две буквы, три цифры, затем две или три цифры с кодом региона.
Есть также и другие виды, но в этой задаче они не понадобятся.

In [47]:
numbers = ['С227НА777','КУ22777','Т22В7477','М227К19У9','С227НА8777']
# Теперь правильные ответы
answers = ['Private','Taxi','Fail','Fail','Fail']

In [50]:
for num in numbers:

    if re.match(r'[АВЕКМНОРСТУХ]{1}\d{3}[АВЕКМНОРСТУХ]{2}\d{2,3}', num) and len(num) in (8,9):
        print('Private')
    elif re.match(r'[АВЕКМНОРСТУХ]{2}\d{5,6}', num) and len(num) in (7,8):
        print('Taxi')
    else:
        print('Fail')


Private
Taxi
Fail
Fail
Fail


### Группирующие скобки для вывода элементов

Пример содержимого html-файла. Нужно достать имена и фамилии двумя объектами для каждого человека.

In [51]:
test_str = "1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily"

re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', test_str)

[('Noah', 'Emma'),
 ('Liam', 'Olivia'),
 ('Mason', 'Sophia'),
 ('Jacob', 'Isabella'),
 ('William', 'Ava'),
 ('Ethan', 'Mia'),
 ('Michael', 'Emily')]

Для лучшего понимания строки, распишем ее в другом виде:

1. NoahEmma
2. LiamOlivia
3. MasonSophia
4. ...

Сначала мы ищем число, которое будет у нас означать начало новой строки в таблице (стартовую позицию поиска в строке) `\d`. После этого мы указываем, что имя начинается с заглавной буквы `[A-Z]`. Получим число и первую букву имени.

In [52]:
re.findall(r'\d[A-Z]', test_str)

['1N', '2L', '3M', '4J', '5W', '6E', '7M']

Далее забираем основную часть имени `[a-z]`, там уже строчные буквы. Используем модификатор `+`, чтобы взять все буквы.

In [53]:
re.findall(r'\d[A-Z][a-z]+', test_str)

['1Noah', '2Liam', '3Mason', '4Jacob', '5William', '6Ethan', '7Michael']

Но у нас в начале есть номер и имя с фамилией слеплены вместе. Сначала разберемся с номером: `()` позволяют нам указать, что мы будем выводить `([A-Z][a-z]+)`, число останется вне вывода и будет использоваться только для определения позиции следующего применения паттерна.

In [54]:
re.findall(r'\d([A-Z][a-z]+)', test_str)

['Noah', 'Liam', 'Mason', 'Jacob', 'William', 'Ethan', 'Michael']

Теперь займемся фамилией. По условию задачи мы знаем, что фамилия тоже начинается с заглавной буквы. Поэтому мы укажем второй (аналогичный имени) паттерн и занесем его в `()` для отдельного вывода

In [55]:
re.findall(r'\d([A-Z][a-z]+)([A-Z][a-z]+)', test_str)

[('Noah', 'Emma'),
 ('Liam', 'Olivia'),
 ('Mason', 'Sophia'),
 ('Jacob', 'Isabella'),
 ('William', 'Ava'),
 ('Ethan', 'Mia'),
 ('Michael', 'Emily')]

Как видно по выводу, фамилия теперь отображается как второй элемент первого вывода паттерна.

### Группирующие скобки для уточнения условия

Нужно в тексте найти все однокоренные слова. Будем выполнять на данной скороговорке:

Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.

In [56]:
pig = "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла."
pig

'Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.'

Корень может быть как в начале слова, так и где-то в середине. Поэтому учтем это. Сначала у нас могут быть буквы `[а-яА-Я]` длиной от 0 до бесконечности `*`

In [57]:
re.findall(r'[а-яА-Я]*', "Рыла свинья белорыла, тупорыла; полдвора рылом изрыла, вырыла, подрыла.")

['Рыла',
 '',
 'свинья',
 '',
 'белорыла',
 '',
 '',
 'тупорыла',
 '',
 '',
 'полдвора',
 '',
 'рылом',
 '',
 'изрыла',
 '',
 '',
 'вырыла',
 '',
 '',
 'подрыла',
 '',
 '']

Нам попались все слова и пробелы, так как `*`. Далее будем искать наш корень. Нам нужно точное совпадение с `рыл` или `Рыл` для случая с началом предложения `(?:рыл|Рыл)`. `|` говорит нам о выборе между `рыл` и `Рыл`, т.е. подойдет любой из них.

Что делает `(?:)` ? Этот символ помогает нам вернуть последовательность полностью. Выше мы уже видели, что, то, что последовательность в скобках соответствует формату вывода. В этом случае `(?:)` это меняет: если последовательность символов подходит ВСЕМУ шаблону, то оно и будет возвращено функцией findall.

Но если мы уберем ?:, то любая последовательность подходящая под внутренний паттерн скобок будет выведена. Сравните два примера ниже.

In [58]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)', pig)

['Рыл', 'белорыл', 'тупорыл', 'рыл', 'изрыл', 'вырыл', 'подрыл']

In [59]:
re.findall(r'[а-яА-Я]*(рыл|Рыл)', pig)

['Рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл', 'рыл']

Есть начало слова и его корень. Осталось добавить окончание. Все аналогично началу слова:

In [60]:
re.findall(r'[а-яА-Я]*(?:рыл|Рыл)[а-яА-Я]*', pig)

['Рыла', 'белорыла', 'тупорыла', 'рылом', 'изрыла', 'вырыла', 'подрыла']

### Задача 6. Проверка пароля

На сайте нужно вывести сообщение, если пароль не валиден.
Обычно пароль должен содержать не менее 8 символов, не менее одной заглавной буквы, не менее одной строчной буквы и, опционально, какой-то символ.

"Your password must have at least 8 characters, at least an upper case letter, an lowercase letter, 
a number and probably a symbol so you make sure you’ll never remember it in the future"

In [61]:
passwordText = 'fbbE4,,,,,,'

# Strength Checks
charRegex = re.compile(r'(\w{8,})')  # Не менее 8 символов (тут не считаются знаки препинания)
lowerRegex = re.compile(r'[a-z]+') # Не менее 1 маленькой буквы
upperRegex = re.compile(r'[A-Z]+')# Не менее 1 большой буквы
digitRegex = re.compile(r'[0-9]+') # Не менее 1 цифры

''' Сейчас мы их проверим...'''
if charRegex.findall(passwordText) == []:  
    print('Password must contain at least 8 characters')
elif lowerRegex.findall(passwordText)==[]: 
    print('Password must contain at least one lowercase character')
elif upperRegex.findall(passwordText)==[]: 
    print('Password must contain at least one uppercase character')
elif digitRegex.findall(passwordText)==[]: 
    print('Password must contain at least one digit character')
else:  
    print('Your password is strong. Good job!')

Password must contain at least 8 characters


### Задача 7. Только имена, записанные кириллицей

In [62]:
users = 'Василий Зайцев, Erwin König, Людмила Павличенко, Josef Allerberger, Matthäus Hetzenauer, Александр Башлачёв'

In [64]:
re.findall(r'[А-Я][а-я]+\s[А-Я][а-я]+', users)

['Василий Зайцев', 'Людмила Павличенко', 'Александр Башлач']

### Задача 8. Выделить из строки email'ы 

'iawpghnube1206@gmail.com\r\n+79151489999 (telegram @vasiiesal) test.tewst2@subsubdomain.subdomain.domain.ru.!'

In [84]:
email = 'iawpghnube1206@gmail.com\r\n+79151489999 fd,d_e@gmail.com(telegram @vasiiesal)привет@yandex.ru/ test.tewst2@subsubdomain.subdomain.domain.ru.!'

Далее идет блок в `[ ]`, в котором как раз определяем паттерн, который ищем, в нашем случае это `A-Za-z0-9_-`и `.` (как знак препинания, не спецсимвол

In [90]:
re.findall(r'[A-Za-z0-9._-]+', email)

['iawpghnube1206',
 'gmail.com',
 '79151489999',
 'fd',
 'd_e',
 'gmail.com',
 'telegram',
 'vasiiesal',
 'yandex.ru',
 'test.tewst2',
 'subsubdomain.subdomain.domain.ru.']

`@` показывает нам, что далее нужно найти 1 символ `@`.

In [96]:
re.findall(r'[A-Za-z0-9._-]+@', email)

['iawpghnube1206@', 'd_e@', 'test.tewst2@']

После `@` всегда идет домен. Как говорилось выше он может иметь несколько уровней. Поэтому мы снова ищем последовательность латинских букв, цифр и дефиса (знаки, которые могут содержаться в домене).

In [100]:
re.findall(r'[A-Za-z0-9._-]+@[A-Za-z0-9-]+(?:\.[A-Za-z-]+)*', email)

['iawpghnube1206@gmail.com',
 'd_e@gmail.com',
 'test.tewst2@subsubdomain.subdomain.domain.ru']

Чтобы поймать многоуровневые домены - добавим блок `(?:\.[A-Za-z-]+)*` - точка и последовательность латиских букв, которая может быть, а может не быть. `.[A-Za-z]+` - отлавливаем зону домена: буквы после точки (.ru, .com и т.д.)

In [104]:
re.findall(r'[A-Za-z0-9._-]+@[A-Za-z0-9-]+(?:\.[A-Za-z-]+)*\.[A-Za-z]+', email)

['iawpghnube1206@gmail.com',
 'd_e@gmail.com',
 'test.tewst2@subsubdomain.subdomain.domain.ru']

### Заключение
Сегодня мы познакомились с функциями из модуля `re`. Дополнительно про них можно почитать в официальной [документации](https://docs.python.org/3/library/re.html). Кроме того, есть очень хороший ресурс [regex101.com](https://regex101.com), который позволяет скопировать нужный текст и в интерактивном режиме следить, какие совпадения находятся при изменении регулярного выражения, введенного в отдельном окне (не забудьте поставить галочку Python в разделе FLAVOR слева).

Хорошие статьи по регулярным выражениям:  
[Раз](https://tproger.ru/articles/regexp-for-beginners/)  
[Два](https://habr.com/ru/post/349860/)  