# Python для анализа данных

## Регулярные выражения (Regular Expressions)

### Введение в регулярные выражения

[Документация](https://docs.python.org/3/library/re.html) \
[RegEx CheatSheet](https://www.dataquest.io/wp-content/uploads/2019/03/python-regular-expressions-cheat-sheet.pdf)

Регулярные выражения ‒ выражения, последовательности символов, которые позволяют искать совпадения в тексте. Выражаясь более формально, они помогают найти подстроки определенного вида в строке. Еще о регулярных выражениях можно думать как о шаблонах, в которые мы можем подставлять текст, и этот текст либо соответствует шаблону, либо нет. В самом простом случае в качестве регулярного выражения может использоваться обычная строка. 

In [2]:
# библиотека регулярных выражений в Python
import re

Возьмем две первых строки из известной считалки Агаты Кристи и попытаемся найти в них слово "обедать". 
Для этого можно воспользоваться оператором in. Он проверяет точное вхождение одной строки в другую и возвращает логическое значение: True, если вхождение есть, и False в противном случае.

In [1]:
string = 'Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'

Видно, что слово *Один* начинается с большой буквы. Что, если мы хотим найти в некоторой строке слово *Один* вне зависимости от регистра, то есть все слова типа *Один, один, ОДИН* и т.д.? Эту задачу все еще можно решить без регулярных выражений: привести всю строку к нижнему регистру и искать слово *один*. 
А что, если у нас будет текст подлиннее (например, полный текст считалки), и в нем необходимо найти все числительные от одного до десяти во всех падежах (один/одного/двое/двоим и т.д.)? В такой ситуации удобнее написать некоторый шаблон, чтобы не создавать длинный список слов с разными формами слов. Тут на помощь придут регулярные выражения. 

* Промежутки, заключенные в квадратные скобки, позволяют найти цифры или буквы разных алфавитов и разных регистров 


    [0-9] соответствует любой цифре
    
    [A-Z] соответствует любой заглавной букве английского алфавита
    
    [a-z] соответствует любой строчной букве английского алфавита
    
    [А-Я] и [а-я] ‒ аналогично для букв русского алфавита (кроме буквы ё/Ё - ее нужно включать отдельно!)

* Для обозначения произвольного символа (кроме новой строки) используется  точка ‒ `.`.

* Для цифр есть специальный символ `\d` (от *digit*) ≈`[0-9]` . Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 

* Для любого символа, кроме цифры, тоже есть специальный символ `\D` (от *digit*)≈`[^0-9]` (заглавная буква здесь отвечает за отрицание). Добавление обратного слэша называется экранированием: так мы отмечаем, что ищем именно цифру, а не просто букву d. 

* Для пробела тоже существует свой символ ‒ `\s` (от *space*) ≈`[ \f\n\r\t\v]`. Этот символ соответствует ровно одному пробельному символу в тексте (пробел, табуляция, перенос строки и т.д.).

* Любой непробельный символ, обозначается как `\S` (заглавная буква здесь отвечает за отрицание).

* Для букв тоже существует свой символ ‒ `\w` (от *word*) ≈ `[0-9a-zA-Zа-яА-ЯёЁ]`. Любая буква (то, что может быть частью слова), а также цифры и _ .

* Любая не-буква, не-цифра и не подчёркивание, обозначается как `\W` (заглавная буква здесь отвечает за отрицание).


* Знак `.` соответствует одному любому символу в строке. Так, регулярное выражение `x.x` "поймает" слова *хах* и *хех*.
* Знак `+` соответствует одному или более вхождению символа(ов), который стоит слева от `+`. Выражение `xa+` "поймает" слова *xa* и *хаааа*.
* Знак `*` соответствует нулю или более вхождениям символа, который стоит слева от `*`.  Выражение `xaх*`  "поймает" слова *xa* и *хах*.
* Знак `?` соответствует нулю или одному вхождению символа, который стоит слева от `?`.  Выражение `xa?`  "поймает" все последовательности *xa* и буквы *x*. \

Что, если у нас нет определенного шаблона, и нам надо вернуть набор символов из строки, отвечающий определенным правилам? Такая задача часто стоит при извлечении информации из строк. Это можно сделать, написав выражение с использованием специальных символов. Вот наиболее часто используемые из них:

- `\b`	Граница слова
- `[..]`	Один из символов в скобках (`[^..]` — любой символ, кроме тех, что в скобках)
- `\`	Экранирование специальных символов (`\.` означает точку или `\+` — знак «плюс»)
- `^` и `$`	Начало и конец строки соответственно
- `{n, m}`	От n до m вхождений (`{,m}` — от 0 до m)
- `a|b`	Соответствует a или b
- `()`	Группирует выражение и возвращает найденный текст
- `\t`, `\n`	Символ табуляции, новой строки  соответственно

## Использование Regex в Python

В Python мы можем использовать встроенный модуль `re` для работы с регулярными выражениями. 

`re.search(pattern, string)` - Ищет первое вхождение шаблона в строке и возвращает объект match. Чтобы вывести содержимое нужно использовать метод `.group()`<br>
`re.findall(pattern, string)` - Находит все вхождения шаблона в строке и возвращает список совпадающих строк.<br>
`re.sub(pattern, repl, string)` - Заменяет все вхождения шаблона в строке строкой-заменителем и возвращает измененную строку.

In [2]:
import re
st = 'hfjdsaklhgdsakl 543627 44y3t2ui 4tyu345673'


In [3]:
st = 'ёёёёёёёёабв'

Здесь нашлось абв, потому что в диапазон а-я буква ё не входит!

In [4]:
st = 'Революция произошла в 1917 году'

In [5]:
st = 'Революция произошла в 1917 году'

In [6]:

st = 'Революция произошла в 1917 году 34'

Для разбора дальнейших символов в регулярных выражениях создадим небольшой набор слов (не очень осмысленный, но удобный):

     хах, хех, хаааа, xaxa

In [7]:
st = "хах, хех, хаааа, хаххххххха"


In [8]:
st = "хах, хех, хаааа, хаха"


In [9]:
st = "хах, хех, хаа..аа, хаха 3456 456 56436743"


Как быть, если с помощью регулярного выражения нужно найти подстроку, содержащую знаки препинания? Те же точки, вопросительные знаки, скобки? Нужно их экранировать – ставить перед ними `\`, например, `\.`, `\,`, `\?`. Это символ будет сообщать Python, что нам нужен именно конкретный символ (точка, запятая, знак вопроса и др.). 

В регулярных выражениях можно явно задавать число повторений символов. Если мы знаем точное число символов, то его можно указать в фигурных скобках. Так, выражение `а{4}` будет соответствовать четырем буквам `a` подряд. Если точное число повторений нам неизвестно, можно задать диапазон, указав начало и конец отрезка через запятую. Например, такое выражение позволит найти от двух до четырех букв `a` подряд: `a{2,4}`. Если известен только левый или правый конец отрезка, то второй конец можно опустить: `a{2,}` (не менее двух) или `a{,4}` (не более 4).

В регулярных выражениях также можно использовать условие *или*. Например, возвращаясь к нашей "смеющейся" строке, если мы напишем выражение `x[а|е]х`,  оно поймает слова *хах* и *хех*, а вот вдруг появившийся *хох* не поймает.



In [10]:
st = "хах, хех, ?хаа..аа, хаха"


Создадим какой-нибудь незамысловатый текст с разными датами:

In [59]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."
text

'12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года.'

Если забыли, что числа можно искать с помощью `\d`, можно задействовать промежуток (только не забудьте квадратные скобки):

А что, если мы хотим "ловить" не цифры, а числа, то есть последовательности из одной или более цифры. Условию "один и более" соответствует символ `+`. Попробуем.

Получилось! А если сочетания по 1-2 цифры (иногда с пробелом после)? Тут нужен знак `.`, который отвечает ровно за один символ. 

Что будет, если мы воспользуемся знаком `?`? Он отвечает за наличие 0 или 1 символа, стоящего слева от регулярного выражения.

Получили какое-то безобразие. Но это безобразие оправдано: добавив `?` мы поставили условие, что в подстроке либо есть ровно одна цифра, либо ее нет. Поэтому мы и получили такой странный список. 

### Задание 1
Написать регулярное выражение, которое будет "ловить" все годы в тексте.
Обратите внимание, в тексте есть элементы из 4 цифр, которые не являются годами.

In [63]:
text = "По имеющимся данным, в Екатеринбургской губернии на май 1916 года было занято 50611 военнопленных,\
из них 34194 на фабричных и заводских работах, 5731 на «казённых», 5060 на сельскохозяйственных,\
4145 на железнодорожных, 913 на городских и земских, 568 на прочих."
text

'По имеющимся данным, в Екатеринбургской губернии на май 1916 года было занято 50611 военнопленных,из них 34194 на фабричных и заводских работах, 5731 на «казённых», 5060 на сельскохозяйственных,4145 на железнодорожных, 913 на городских и земских, 568 на прочих.'

In [21]:
# ваш код

### Задание 2
Написать регулярное выражение, которое будет "ловить" все слова с основой *удивительн* в тексте.


In [69]:
text = "12 ноября 2011 года произошло удивительное событие. А 13 ноября 2012 - еще удивительнее. Даже не будем \
говорить, что произошло 2 декабря 2011 года и 25 декабря 2012 года."

In [24]:
# ваш код

<hr>
Теперь давайте рассмотрим еще один пример. Пусть у нас есть список твитов, только список учебный, вместо полного текста одни хэштеги. 

In [12]:
tweets = ["#я не могу молчать", "#я не могу кричать", "#я не могу", "#я справлюсь", "я не могу молчать",
        "#я не могу жить", "#я все могу", "#с кем не бывает"]

Задача: создать новый список, содержащий только твиты, начинающиеся с `#я не могу`. Сначала напишем регулярное выражение и посмотрим, как оно работает.

In [74]:
tweets = "#я не могу молчать #я не могу кричать #я не могу #я справлюсь я не могу молчать #я не могу жить #я все могу #с кем не бывает"



<hr>
Рассмотрим какую-нибудь задачу, где необходимо применить экранирование. Пусть у нас есть некоторая строка с данными:

In [80]:
data = '20.05.1963, 55, 12.12.2000, 17, 15/15/1111'

И нам нужно выбрать из нее даты, записанные через точку. Напишем регулярное выражение, которое позволит это сделать, но перед этим вспомним, что точку нужно экранировать ‒ ставить перед ней `\`, чтобы Python понимал, что мы ищем не один любой символ (`.`), а именно точку как знак препинания. 

До этого мы работали с функциями `findall` и `search`, но в модуле `re` есть и другие полезные функции. Вот наиболее часто используемые из них:

- `re.match()`
- `re.search()`
- `re.findall()`
- `re.split()`
- `re.sub()`
- `re.compile()`

Рассмотрим их подробнее.

### re.match(pattern, string):
Этот метод ищет по заданному шаблону в начале строки. Например, если мы вызовем метод `match()` на строке «Сидоров Иван Иванович» с шаблоном «Сидоров», то он завершится успешно. Однако если мы будем искать «Иван», то результат будет отрицательный. Давайте посмотрим на его работу:

Искомая подстрока найдена. Чтобы вывести ее содержимое, используем метод `group()`.

Теперь попробуем найти «Иван» в данной строке. Поскольку строка начинается с фамилии, метод вернет `None`:

Также есть методы `start()` и `end()` для того, чтобы узнать начальную и конечную позицию найденной строки.

Эти методы иногда очень полезны для работы со строками.

### re.search(pattern, string):
Этот метод похож на `match()`, но он ищет не только в начале строки. В отличие от предыдущего, `search()` вернет объект, если мы попытаемся найти «Иван».

Метод `search()` ищет по всей строке, но возвращает только первое найденное совпадение.

### re.split(pattern, string, [maxsplit=0]):
Этот метод разделяет строку по заданному шаблону.

В примере мы разделили нашу строку по пробелам. Метод `split()` принимает также аргумент `maxsplit` со значением по умолчанию, равным 0. В данном случае он разделит строку столько раз, сколько возможно, но если указать этот аргумент, то разделение будет произведено не более указанного количества раз. Давайте посмотрим на примеры:

Мы установили параметр `maxsplit` равным 1, и в результате строка была разделена на две части вместо трех.

Приведем "боевой" пример. У нас есть некоторая ссылка и её нужно разобрать на параметры, которые потом нужно обработать. Здесь видны адрес сайта, судя по всему, тип страницы, название товарной позиции и какой-то непонятный id \
https://beru.ru/product/konditsioner-dlia-belia-aroma-rich-fairy-lion-0-43-l-paket/100583881004

In [11]:
site = 'https://beru.ru/product/konditsioner-dlia-belia-aroma-rich-fairy-lion-0-43-l-paket/100583881004'


### re.compile(pattern, flags=0):
Компилирует объект регулярного выражения.для последующего использования.

[Compilation flags](https://learnbyexample.github.io/py_regular_expressions/flags.html)

In [12]:
text = 'hfjklhgadsfk_7fjhsdkl867589065,bhjk4\n \
        5jfnkld45'


### re.sub(pattern, repl, string):
Этот метод ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

### Примеры задач с решением

### Задача 1. Извлечь все слова, начинающиеся на гласную

Для начала вернем все слова:

In [13]:
string = 'ОГО Десять негритят отправились обедать, \
          Один поперхнулся, их осталось девять.'


А теперь — только те, которые начинаются на определенные буквы (используя `[]`):

Что-то тут не так) Если слово не начинается с глаcной, оно было обрезано до первой гласной. Для того, чтобы убрать их, используем `\b` для обозначения границы слова:

Получили искомый результат. Но что если нам нужно получить слова начинающиеся с согласной буквы? Мы, конечно, можем их всех перечислить как гласные, но это не оптимальный способ. Мы можем использовать `^` внутри квадратных скобок для инвертирования группы:

В результат попали слова, «начинающиеся» с пробела. Уберем их, включив пробел в диапазон в квадратных скобках:

### Задача 2. Проверить телефонный номер (номер должен быть длиной 10 знаков и начинаться с 7 или 8)

У нас есть телефонный номер и нам нужно проверить его, используя регулярные выражения:

Для каждого номера мы проверям его по следующему паттерну: сначала стоит либо 7, либо 8 `[7-8]`, строго один раз `{1}`. Далее идет блок из любых цифр `[0-9]` длинной строго в 9 `{9}`. Ну и в конце мы проверяем длину "числа". Если все хорошо, помечаем номер как верный.`[0-9]` можно также заменить на `\d`, а `{1}` можно опустить. Потому что `[]` по умолчанию подразумевают наличие одного элемента из скобок.

In [14]:
tel = '8999999999'

