# Python для анализа данных

## Регулярные выражения (Regular Expressions)

### Введение в регулярные выражения

[Документация](https://docs.python.org/3/library/re.html) \
[RegEx CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке. Еще о регулярных выражениях можно думать как о шаблонах, в которые мы можем подставлять текст, и этот текст либо соответствует шаблону, либо нет. В самом простом случае в качестве регулярного выражения может использоваться обычная строка. 

In [2]:
# библиотека регулярных выражений в Python
import re

Возьмем две первых строки из известной считалки Агаты Кристи и попытаемся найти в них слово "обедать". 
Для этого можно воспользоваться оператором in. Он проверяет точное вхождение одной строки в другую и возвращает логическое значение: True, если вхождение есть, и False в противном случае.

In [3]:
string = 'Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'
# слово "обедать" маленькими буквами есть в строке
'обедать' in string

True

In [4]:
# а если мы попытаемся поискать слово "Обедать" с большой буквы, то оператор вернет False
'Обедать' in string

False

Видно, что слово *Один* начинается с большой буквы. Что, если мы хотим найти в некоторой строке слово *Один* вне зависимости от регистра, то есть все слова типа *Один, один, ОДИН* и т.д.? Эту задачу все еще можно решить без регулярных выражений: привести всю строку к нижнему регистру и искать слово *один*. 
А что, если у нас будет текст подлиннее (например, полный текст считалки), и в нем необходимо найти все числительные от одного до десяти во всех падежах (один/одного/двое/двоим и т.д.)? В такой ситуации удобнее написать некоторый шаблон, чтобы не создавать длинный список слов с разными формами слов. Тут на помощь придут регулярные выражения. 

* Промежутки, заключенные в квадратные скобки, позволяют найти цифры или буквы разных алфавитов и разных регистров 


    [0-9] соответствует любой цифре
    
    [A-Z] соответствует любой заглавной букве английского алфавита
    
    [a-z] соответствует любой строчной букве английского алфавита
    
    [А-Я] и [а-я] ‒ аналогично для букв русского алфавита (кроме буквы ё/Ё - ее нужно включать отдельно!)

* Для обозначения произвольного символа используется  точка ‒ `.`.

* Для цифр есть специальный символ `\d` (от *digit*) ≈`[0-9]` . Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 

* Для любого символа, кроме цифры, тоже есть специальный символ `\D` (от *digit*)≈`[^0-9]` (заглавная буква здесь отвечает за отрицание). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 

* Для пробела тоже существует свой символ ‒ `\s` (от *space*) ≈`[ \f\n\r\t\v]`. Этот символ соответствует ровно одному пробельному символу в тексте (пробел, табуляция, перенос строки и т.д.).

* Любой непробельный символ, обозначается как `\S` (заглавная буква здесь отвечает за отрицание).

* Для букв тоже существует свой символ ‒ `\w` (от *word*) ≈ `[0-9a-zA-Zа-яА-ЯёЁ]`. Любая буква (то, что может быть частью слова), а также цифры и _ .

* Любая не-буква, не-цифра и не подчёркивание, обозначается как `\W` (заглавная буква здесь отвечает за отрицание).


* Знак `.` соответствует одному любому символу в строке. Так, регулярное выражение `x.x` "поймает" слова *хах* и *хех*.
* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+`. Выражение `xa+` "поймает" слова *xa* и *хаааа*.
* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*`.  Выражение `xaх*`  "поймает" слова *xa* и *хах*.
* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?`.  Выражение `xa?`  "поймает" все последовательности *xa* и буквы *x*. \

Что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам? Такая задача часто стоит при извлечении информации из строк. Это можно сделать, написав выражение с использованием специальных символов. Вот наиболее часто используемые из них:

- `\b`	Граница слова
- `[..]`	Один из символов в скобках (`[^..]` — любой символ, кроме тех, что в скобках)
- `\`	Экранирование специальных символов (`\.` означает точку или `\+` — знак «плюс»)
- `^` и `$`	Начало и конец строки соответственно
- `{n, m}`	От n до m вхождений (`{,m}` — от 0 до m)
- `a|b`	Соответствует a или b
- `()`	Группирует выражение и возвращает найденный текст
- `\t`, `\n`	Символ табуляции, новой строки  соответственно

## Использование Regex в Python

В Python мы можем использовать встроенный модуль `re` для работы с регулярными выражениями. 

`re.search(pattern, string)` - Ищет первое вхождение шаблона в строке и возвращает объект match. Чтобы вывести содержимое нужно использовать метод `.group()`<br>
`re.findall(pattern, string)` - Находит все вхождения шаблона в строке и возвращает список совпадающих строк.<br>
`re.sub(pattern, repl, string)` - Заменяет все вхождения шаблона в строке строкой-заменителем и возвращает измененную строку.

In [52]:
import re
st = 'hfjdsaklhgdsakl 543627 44y3t2ui 4tyu345673'

# добавляем r, чтобы Python читал это как raw string (не видя никаких спецсимволов)
re.findall(r'\d{1,3}',st) 

['543', '627', '44', '3', '2', '4', '345', '673']

In [58]:
st = 'ёёёёёёёёабв'
re.search(r'[а-я]+',st).group()

'абв'

Здесь нашлось абв, потому что в диапазон а-я буква ё не входит!

In [5]:
st = 'Революция произошла в 1917 году'
re.search(r'\d+',st).group()

'1917'

In [6]:
st = 'Революция произошла в 1917 году'
re.search(r'\D+',st).group()

'Революция произошла в '

In [7]:
# Мы добежали до первого пробельного символа
st = 'Революция произошла в 1917 году 34'
re.findall(r'\d+',st)

['1917', '34']

Для разбора дальнейших символов в регулярных выражениях создадим небольшой набор слов (не очень осмысленный, но удобный):

     хах, хех, хаааа, xaxa

In [8]:
st = "хах, хех, хаааа, хаххххххха"
re.findall(r'хах*',st)

['хах', 'ха', 'хаххххххх']

In [9]:
re.findall(r'ха+',st)

['ха', 'хаааа', 'ха', 'ха']

In [10]:
st = "хах, хех, хаааа, хаха"
re.findall(r'хах*',st) #ха из хаааа, т.к * говорит нам что слева должно быть ха и справа 0 или бесконечно число х

['хах', 'ха', 'хах']

In [11]:
st = "хах, хех, хаа..аа, хаха 3456 456 56436743"
re.findall(r'\d{3}',st) 

['345', '456', '564', '367']

Как быть, если с помощью регулярного выражения нужно найти подстроку, содержащую знаки препинания? Те же точки, вопросительные знаки, скобки? Нужно их экранировать – ставить перед ними `\`, например, `\.`, `\,`, `\?`. Это символ будет сообщать Python, что нам нужен именно конкретный символ (точка, запятая, знак вопроса и др.). 

В регулярных выражениях можно явно задавать число повторений символов. Если мы знаем точное число символов, то его можно указать в фигурных скобках. Так, выражение `а{4}` будет соответствовать четырем буквам `a` подряд. Если точное число повторений нам неизвестно, можно задать диапазон, указав начало и конец отрезка через запятую. Например, такое выражение позволит найти от двух до четырех букв `a` подряд: `a{2,4}`. Если известен только левый или правый конец отрезка, то второй конец можно опустить: `a{2,}` (не менее двух) или `a{,4}` (не более 4).

В регулярных выражениях также можно использовать условие *или*. Например, возвращаясь к нашей "смеющейся" строке, если мы напишем выражение `x[а|е]х`,  оно поймает слова *хах* и *хех*, а вот вдруг появившийся *хох* не поймает.



In [12]:
st = "хах, хех, ?хаа..аа, хаха"
re.findall(r'х[а|е]х',st)

['хах', 'хех', 'хах']

Создадим какой-нибудь незамысловатый текст с разными датами:

In [3]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
text

'12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года.'

In [5]:
spisok = re.findall(r"\d{1,2}\s[а-яё]+\s\d{4}", text) # отдельно цифры
spisok

['12 ноября 2011', '13 ноября 2012', '2 декабря 2011', '25 декабря 2012']

Если забыли, что числа можно искать с помощью `\d`, можно задействовать промежуток (только не забудьте квадратные скобки):

In [17]:
re.findall("[0-9]", text)

['1',
 '2',
 '2',
 '0',
 '1',
 '1',
 '1',
 '3',
 '2',
 '0',
 '1',
 '2',
 '2',
 '2',
 '0',
 '1',
 '1',
 '2',
 '5',
 '3',
 '0',
 '1',
 '2']

А что, если мы хотим "ловить" не цифры, а числа, то есть последовательности из одной или более цифры. Условию "один и более" соответствует символ `+`. Попробуем.

In [18]:
re.findall("\d+", text) # отдельно числа

['12', '2011', '13', '2012', '2', '2011', '25', '3012']

Получилось! А если сочетания по 1-2 цифры (иногда с пробелом после)? Тут нужен знак `.`, который отвечает ровно за один символ. 

In [19]:
re.findall("\d.", text) # отдельно числа по 1-2 цифры

['12', '20', '11', '13', '20', '12', '2 ', '20', '11', '25', '30', '12']

Что будет, если мы воспользуемся знаком `?`? Он отвечает за наличие 0 или 1 символа, стоящего слева от регулярного выражения.

In [20]:
re.findall("\d?", text) # по 1 символу

['1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '1',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '1',
 '3',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '0',
 '1',
 '1',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '2',
 '5',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '',
 '3',
 '0',
 '1',
 '2',
 '',
 '',
 '',
 '',
 '',
 '',
 '']

Получили какое-то безобразие. Но это безобразие оправдано: добавив `?` мы поставили условие, что в подстроке либо есть ровно одна цифра, либо ее нет. Поэтому мы и получили такой странный список. 

### Задание 1
Написать регулярное выражение, которое будет "ловить" все годы в тексте.
Обратите внимание, в тексте есть элементы из 4 цифр, которые не являются годами.

In [63]:
text = "По имеющимся данным, в Екатеринбургской губернии на май 1916 года было занято 50611 военнопленных,\
из них 34194 на фабричных и заводских работах, 5731 на «казённых», 5060 на сельскохозяйственных,\
4145 на железнодорожных, 913 на городских и земских, 568 на прочих."
text

'По имеющимся данным, в Екатеринбургской губернии на май 1916 года было занято 50611 военнопленных,из них 34194 на фабричных и заводских работах, 5731 на «казённых», 5060 на сельскохозяйственных,4145 на железнодорожных, 913 на городских и земских, 568 на прочих.'

In [21]:
# ваш код

### Задание 2
Написать регулярное выражение, которое будет "ловить" все слова с основой *удивительн* в тексте.


In [69]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."

In [23]:
# ваш код

<hr>
Теперь давайте рассмотрим еще один пример. Пусть у нас есть список твитов, только список учебный, вместо полного текста одни хэштеги. 

In [12]:
tweets = ["#я не могу молчать", "#я не могу кричать", "#я не могу", "#я справлюсь", "я не могу молчать",
        "#я не могу жить", "#я все могу", "#с кем не бывает"]

Задача: создать новый список, содержащий только твиты, начинающиеся с `#я не могу`. Сначала напишем регулярное выражение и посмотрим, как оно работает.

In [74]:
tweets = "#я не могу молчать #я не могу кричать #я не могу #я справлюсь я не могу молчать #я не могу жить #я все могу #с кем не бывает"



In [79]:
re.findall(r"#я не могу \w*", tweets)

['#я не могу молчать', '#я не могу кричать', '#я не могу ', '#я не могу жить']

<hr>
Рассмотрим какую-нибудь задачу, где необходимо применить экранирование. Пусть у нас есть некоторая строка с данными:

In [80]:
data = '20.05.1963, 55, 12.12.2000, 17, 15/15/1111'

И нам нужно выбрать из нее даты, записанные через точку. Напишем регулярное выражение, которое позволит это сделать, но перед этим вспомним, что точку нужно экранировать ‒ ставить перед ней `\`, чтобы Python понимал, что мы ищем не один любой символ (`.`), а именно точку как знак препинания. 

In [81]:
re.findall('\d{2}\.\d{2}\.\d{4}', data)

['20.05.1963', '12.12.2000']

In [82]:
re.findall("\d+\.\d+\.\d{4}", data) # готово

['20.05.1963', '12.12.2000']

In [83]:
re.findall(r'\d+/\d+/\d{4}', data)

['15/15/1111']

До этого мы работали с функциями `findall` и `search`, но в модуле `re` есть и другие полезные функции. Вот наиболее часто используемые из них:

- `re.match()`
- `re.search()`
- `re.findall()`
- `re.split()`
- `re.sub()`
- `re.compile()`

Рассмотрим их подробнее.

### re.match(pattern, string):
Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод `match()` на строке «Сидоров Иван Иванович» с шаблоном «Сидоров», то он завершится успешно. Однако если мы будем искать «Иван», то результат будет отрицательный. Давайте посмотрим на его работу:

In [38]:
result = re.match(r'\d+\w+', '1223ghjhgtyuiСидоров Иван Петрович')
print(result)

<re.Match object; span=(0, 20), match='1223ghjhgtyuiСидоров'>


Искомая подстрока найдена. Чтобы вывести ее содержимое, используем метод `group()`.

In [39]:
result.group()

'1223ghjhgtyuiСидоров'

Теперь попробуем найти «Иван» в данной строке. Поскольку строка начинается с фамилии, метод вернет `None`:

In [40]:
result = re.match(r'Иван', 'Сидоров Иван Петрович')
print(result)

None


Также есть методы `start()` и `end()` для того, чтобы узнать начальную и конечную позицию найденной строки.

In [41]:
result = re.match(r'Сидоров', 'Сидоров Иван Петрович')
print(result.start())
print(result.end())

0
7


Эти методы иногда очень полезны для работы со строками.

### re.search(pattern, string):
Этот метод похож на `match()`, но он ищет не только в начале строки. В отличие от предыдущего, `search()` вернет объект, если мы попытаемся найти «Иван».

In [16]:
result = re.search(r'Иван', 'Сидоров Иван Петрович')
result

<re.Match object; span=(8, 12), match='Иван'>

Метод `search()` ищет по всей строке, но возвращает только первое найденное совпадение.

### re.split(pattern, string, [maxsplit=0]):
Этот метод разделяет строку по заданному шаблону.

In [18]:
result = re.split(r' ', 'Сидоров Иван Петрович')
result

['Сидоров', 'Иван', 'Петрович']

В примере мы разделили нашу строку по пробелам. Метод `split()` принимает также аргумент `maxsplit` со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз. Давайте посмотрим на примеры:

In [27]:
result = re.split(r' ', 'Сидоров Иван Петрович', maxsplit=1)
result

['Сидоров', 'Иван Петрович']

Мы установили параметр `maxsplit` равным 1, и в результате строка была разделена на две части вместо трех.

Приведем "боевой" пример. У нас есть некоторая ссылка и её нужно разобрать на параметры, которые потом нужно обработать. Здесь видны адрес сайта, судя по всему, тип страницы, название товарной позиции и какой-то непонятный id \
https://beru.ru/product/konditsioner-dlia-belia-aroma-rich-fairy-lion-0-43-l-paket/100583881004

In [25]:
site = 'https://beru.ru/product/konditsioner-dlia-belia-aroma-rich-fairy-lion-0-43-l-paket/100583881004'
result = re.split(r'\b/', site)
result

['https://beru.ru',
 'product',
 'konditsioner-dlia-belia-aroma-rich-fairy-lion-0-43-l-paket',
 '100583881004']

### re.compile(pattern, flags=0):
Компилирует объект регулярного выражения.для последующего использования.

In [94]:
text = 'hfjklhgadsfk_7fjhsdkl867589065,bhjk4\n \
        5jfnkld45'
digitRegex = re.compile(r'[0-9]+') # Не менее 1 цифры

''' Сейчас мы их проверим...'''
digitRegex.findall('teуе132213xt')

['132213']

### re.sub(pattern, repl, string):
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [24]:
result = re.sub(r'[;,]', ' ', 'Сидоров;Иван,Петрович')
result

'Сидоров Иван Петрович'

### Примеры задач с решением

### Задача 1. Извлечь все слова, начинающиеся на гласную

Для начала вернем все слова:

In [95]:
string = 'ОГО Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'
re.findall(r'\w+', string)

['ОГО',
 'Десять',
 'негритят',
 'отправились',
 'обедать',
 'Один',
 'поперхнулся',
 'их',
 'осталось',
 'девять']

А теперь — только те, которые начинаются на определенные буквы (используя `[]`):

In [96]:
re.findall(r'[аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', string)

['ОГО',
 'есять',
 'егритят',
 'отправились',
 'обедать',
 'Один',
 'оперхнулся',
 'их',
 'осталось',
 'евять']

Что-то тут не так) Если слово не начинается с глаcной, оно было обрезано до первой гласной. Для того, чтобы убрать их, используем `\b` для обозначения границы слова:

In [97]:
re.findall(r'\b[аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', string)

['ОГО', 'отправились', 'обедать', 'Один', 'их', 'осталось']

Получили искомый результат. Но что если нам нужно получить слова начинающиеся с согласной буквы? Мы, конечно, можем их всех перечислить как гласные, но это не оптимальный способ. Мы можем использовать `^` внутри квадратных скобок для инвертирования группы:

In [98]:
re.findall(r'\b[^аяоеуюыиэеАЯОЕУЮЫИЭ]\w+', string)

[' Десять',
 ' негритят',
 ' отправились',
 ' обедать',
 ' поперхнулся',
 ' осталось',
 ' девять']

В результат попали слова, «начинающиеся» с пробела. Уберем их, включив пробел в диапазон в квадратных скобках:

In [99]:
# слова, не начинающиеся с гласной или пробела
re.findall(r'\b[^аяоеуюыиэеАЯОЕУЮЫИЭ ]\w+', string)

['Десять', 'негритят', 'поперхнулся', 'девять']

### Задача 2. Проверить телефонный номер (номер должен быть длиной 10 знаков и начинаться с 7 или 8)

У нас есть телефонный номер и нам нужно проверить его, используя регулярные выражения:

Для каждого номера мы проверям его по следующему паттерну: сначала стоит либо 7, либо 8 `[7-8]`, строго один раз `{1}`. Далее идет блок из любых цифр `[0-9]` длинной строго в 9 `{9}`. Ну и в конце мы проверяем длину "числа". Если все хорошо, помечаем номер как верный.`[0-9]` можно также заменить на `\d`, а `{1}` можно опустить. Потому что `[]` по умолчанию подразумевают наличие одного элемента из скобок.

In [26]:
tel = '8999999999'

if re.match(r'[7-8]{1}[0-9]{9}\b', tel) == None:
    print('Номер введен некорректно')
else:
    print('Все ок')

# result = re.match(r'[7-8]{1}\d{9}\b', tel)

Все ок
