# Regex 
Полезные ссылки:\
[Cheat sheet](https://res.cloudinary.com/dyd911kmh/image/upload/v1665049611/Marketing/Blog/Regular_Expressions_Cheat_Sheet.pdf) \
[Crossword](https://regexcrossword.com/)

[Краткая статья на Хабре по основам NLP](https://habr.com/ru/company/Voximplant/blog/446738/)

In [None]:
import re

У `re` несколько основных функций:

- `re.findall` (возвращает все совпадения списком),
- `re.match` (сравнивает паттерн со строкой с начала),
- `re.search` (ищет во всей строке совпадения с паттерном),
- `re.sub` (заменяет в строке совпадения с паттерном на что-то еще),
- `re.split` (делит строку по совпадению с паттерном)

**Паттерн** - это само регулярное выражение. В нем на специальном языке описывается то, что мы хотим найти в строке. 

In [None]:
text = "ДАННОЕ СООБЩЕНИЕ (МАТЕРИАЛ) СОЗДАНО И (ИЛИ) РАСПРОСТРАНЕНО "\
       "ИНОСТРАННЫМ СРЕДСТВОМ МАССОВОЙ ИНФОРМАЦИИ, ВЫПОЛНЯЮЩИМ "\
       "ФУНКЦИИ ИНОСТРАННОГО АГЕНТА, И (ИЛИ) РОССИЙСКИМ ЮРИДИЧЕСКИМ ЛИЦОМ, "\
       "ВЫПОЛНЯЮЩИМ ФУНКЦИИ ИНОСТРАННОГО АГЕНТА"

Самый простой паттерн - подстрока, которую мы хотим найти. Например, мы хотим найти все заглавные буквы Ф, тогда паттерном будет просто "Ф"

In [None]:
# в строке 3 Ф
# findall возвращает результат списком
re.findall('Ф', text)

Регистр важен, поэтому "ф" не даст результатов

In [None]:
re.findall('ф', text)

Попробуем заменить все буквы О на а

In [None]:
re.sub('О', 'а', text)

Если нужно заменить сразу несколько символов, то можно перечислить их в квадратных скобках

In [None]:
re.findall("[ФЦ]", text) # матчим и большую и маленькую

Также можно использовать интервалы, чтобы не перечислять, например, все русские буквы или все цифры

Основные интервалы:
 - \[а-яА-ЯЁё\] - все русские буквы (заглавные и маленькие)
 - \[a-zА-Z\] - все английские буквы (заглавные и маленькие)
 - \[0-9\] все цифры


\[A-я\]   (от английского A до русского я) - лучше никогда не писать, ошибки не будет, 
но в интервал попадет много лишнего, т.к интервалы считаются по таблице юникода https://unicode-table.com/ru/
и между английскими буквами и русскими есть еще другие символы


In [None]:
# остались, пробелы и пунктуация
re.sub("[А-Я]", '', text) 

Символ ^ внутри скобок означает отрицание

In [None]:
# матчим все кроме букв от Д до Я
re.findall('[^Д-Я]', text)

Есть абстрактные операторы, которыми можно указать еще больше вариантов. 

Основные такие операторы:  
 - \w \W - любая буква или цифра и любая не буква и не цифра
 - \d \D - любая цифра и любая не цифра
 -  . - любой символ кроме новой строки
 - \s - пробельный символ

In [None]:
# останутся только пробелы и знаки препинания
re.sub('\w', '', text)

In [None]:
# останутся только буквы
re.sub('\W', '', text)

In [None]:
# \d - цифр нет в строке, поэтому пусто
re.findall('\d', text)

In [None]:
# \D - матчит любую не цифру, т.е. всю строку
re.sub('\D', '_', text)

In [None]:
# \s - а так можно написать простой токенайзер
re.split("\s",  text)

In [None]:
# добавим к тексту новую строку, видно что все кроме нее сматчилось
re.sub(".", '', text + '\n')

Чтобы повторить один и тот же символ можно поставить после него + (1 и больше повторений) или \* (0 и больше повторений).

In [None]:
# все последовательности букв и цифр
re.findall('\w+', text) 

In [None]:
# все последовательности букв и цифр 
# (и пустое место т.к. \w не обязательный с * и пустая строка удовлетворяет такому паттерну)
re.findall('\w*', text) 

Если символ не обязательный, то можно поставить знак вопроса.

In [None]:
# запятая в конце обязательна
re.findall('\w+,', text)

In [None]:
# необязательна
re.findall('\w+,?', text)

Вопрос можно совместить с +, чтобы сматчить минимально возможный паттерн.

In [None]:
re.findall('\s.+\s', text) # матчит все от первого до последнего пробела

In [None]:
re.findall('\s.+?\s', text) # матчит все подстроки между пробелами

Если нужно указать точное число повторений, можно указать его в фигурных скобках {min, max} (значение макс не включается)

In [None]:
# только валидные номера 
# [^\d] в конце нужно чтобы не матчить частично последний номер
re.findall('\+79\d{1,9}[^\d]', "+79121231232 +79991238899 +7923111112222211") 

Если нужно выбрать только часть из паттерна, то эту часть можно заключить в скобки

In [None]:
re.findall('\s(.+?)\s', text) # матчится по пробелам, но выбирается только то, что между пробелов

In [None]:
m = re.search('\s(.+?)\s', text) # в search вот так можно достать то что попало в скобки
m.group(1)

Иногда эти скобки могут пригодится для того, чтобы объединить последвательность в паттерне. Если поставить в начале скобочек ?: то они не будут влиять на выбор части из паттерна. Сравните:

In [None]:
re.findall('ИН(ФОРМАЦИИ|ОСТРАННОГО)', text) # выбирается то что в скобках

In [None]:
re.findall('ИН(?:ФОРМАЦИИ|ОСТРАННОГО)', text) # выбирается все

Регулярные выражения матчат по строкам (до символа \n). Поэтому .+ не сматчит все строчки текста целиком. Нужно либо указать \n как вариант, либо использовать флаг re.DOTALL

In [None]:
re.findall('.+', "1\n2") # матч прерывается новой строкой

In [None]:
re.findall('.+', "1\n2", re.DOTALL) # матчится все от начала до конца вместе с \n

Документация - https://docs.python.org/3/howto/regex.html

## Домашка
### Дедлайн -- 29 января 23:50

1) Выполнить задания в тетрадке (все или сколько получится)
2) Сохранить тетрадку с выполненными ячейками
3) Загрузить тетрадку сюда https://forms.gle/yXoKphferFtDXiBw7 или, если используете google colab, вставить ссылку на него в эту же форму. В этом случае не забудьте открыть доступ к вашей тетрадке.

### 1. Задание на удаление тегов

Часто в данных, с которыми нам нужно работать помимо текста присутствует ещё какая-то лишняя информация: тэги, ссылки, код, разметка. Она, конечно, не всегда лишняя, но обычно от неё лучше избавиться.

Возьмем в качестве примера статью с Хабрахабра. Она скачана автоматически и в там остались некоторые тэги.

In [None]:
text = '''
Сегодняшняя заметка будет о сервисе отслеживания активности пользователя — <a href="http://www.crazyegg.com" title="Сумасшедшие яйца">CrazyEgg</a>. Я не знаю кому обязан сервис таким говорящим именем, но оно работает, и хорошо. Запоминается? Отлично!<br><br><img src="http://img172.imageshack.us/img172/8434/18274658kc4.png" alt="Сумасшедшее яйцо"><br><br><blockquote><h3>Что это такое?</h3><br>
Как уже сказано выше это сервис для отслеживания перемещения пользователей по сайту — кто куда кликнул, какие ссылки наиболее популярные и тому подобная, разнородная информация для юзабилистов.<br>
Сервис позволяет отслеживать активность определенных пользователей, и выводить эти данные в различных формах: «инфракрасная» — где чем активнее область, тем она «теплее», салюты (чем активнее область, тем больше конфети), простой список с сортировкой по активности, колбы (чем заполненнее колба, тем активнее область), облака (на мой взгляд наиболее удобный вариант — совмещает в себе все остальные вместе взятые).<br><br><img src="https://habrastorage.org/getpro/habr/post_images/7c7/298/33c/7c729833cd942cc493e68833e3e0f12d.jpg" alt="Тепловое отслеживание популярности"><br></blockquote><br><br><a name="habracut"></a><br><br><blockquote><h3>Для кого это?</h3><br>
Разумеется сервис изначально планировался как первый помощник для юзабилистов, но пользоваться им может каждый, у кого есть деньги — интуитивный интерфейс, и хороший дизайн дает о себе знать — сервис массово популяризировался пол года-год назад. Относительно недорогой, но уж точно не из дешевых — сервис предполагает собой 4 платных линии и одну бесплатную. Дабы написать этот обзор я не поленился заплатить 19 долларов (в месяц) выбрав средний вариант — для нескольких проектов с включенными дополнительными функциями.<br><br><img src="https://habrastorage.org/getpro/habr/post_images/0b0/0a0/b16/0b00a0b16b1eda28e35f39487dcd2545.jpg" alt="Отслеживание ссылок"></blockquote><br><blockquote><img src="https://habrastorage.org/getpro/habr/post_images/0b5/433/892/0b54338921665ffb5a90930147296f5b.jpg" alt="Список по популярности"><br><br>
Да-да, сервис не бесплатен. Точнее бесплатная возможность потестировать есть, но она немного обрезана (можно отслеживать только 5000 посетителей и всего 4 страницы на сайте (внимание — 4 страницы, а не сайтов), т.е. вполне хватает для того, чтобы понять полезность сервиса). Зачем это?</h3><br>
С помощью этого сервиса можно тасовать блоки на сайте, которые полезны пользователям больше всего. Больше не нужно спорить создателям — какой блок где расположить. В этом им поможет <a href="http://ttp://www.crazyegg.com" title="Сумасшедшие яйца">Сумасшедшее яйцо</a>.<br><br><img src="https://habrastorage.org/getpro/habr/post_images/38c/af8/e75/38caf8e753782a01dc6419d3902edd57.jpg" alt="Добавление проекта"></blockquote><br><blockquote>Также этот сервис поможет вам понять — в какой зоне сайта лучше всего располагать рекламу, когда в вашем сервисе речь зайдет о монетизации. Ведь альтруизм это хорошо, а деньги на содержание сервиса нужны, и не лишним будет вычислить зоны где реклама будет приносить наибольшую отдачу, и наименьшее раздражение у пользователей.<br><br><img src="https://habrastorage.org/getpro/habr/post_images/0dd/3fb/b34/0dd3fbb34709e77f3fbcd6523c7eac77.jpg" alt="еще полезности"></blockquote><br><blockquote><h3>Как это работает?</h3><br>
Никаких километровых скриптов вставлять не нужно, достаточно вставиь 2 строчки яваскрипта, и сервис начнет отслеживание. Насколько я понял — исполнительный скрипт работает на сервере <a href="http://www.crazyegg.com" title="Сумасшедшие яйца">CrazyEgg</a>, поэтому ваш сайт от этого в производительности не потеряет ни секунды, а полезность довольно таки большая.<br><br><img src="https://habrastorage.org/getpro/habr/post_images/a90/e4e/e67/a90e4ee6760978463e6306a2f5982e24.jpg" alt="управление популярностью"></blockquote><br><blockquote><h3>Сколько это стоит?</h3><br>
Как я уже упоминал — сервис далеко не бесплатен, хоть и имеет тестовую-бесплатную версию. Расскажу подробнее о тарификации.</blockquote><br><blockquote>1. Бесплатная тестовая версия. Включает в себя возможность отслеживания 5 000 посещений, 4 страницы на сайте.<br><br>
2. Базовая версия. В этой версии можно отследить 10 000 посещений, и 10 страниц, что вполне достаточно для среднего корпоративного сайта. Стоит базовый комплект — 9 долларов в месяц. В этот комплект включены все дополнительные функции.<br><br>
3. Версия «Стандарт». В неё входит возможность отслеживания 25 000 посещений на 20 страницах. Вполне подходит для тестирования нового стартапа. Стоит она 19 долларов в месяц, именно её я купил для тестирования сервиса, и написания этого обзора.<br><br>
4. Версия «Плюс». Отличается от предыдущей возможностью отслеживания 100 000 посещений, 50 страниц. Очень хороший тариф для крупных сервисов. Стоит 49 долларов в месяц. Довольно большие деньги за сервис, но они обычно с лихвой окупаются.<br><br>
5. Версия «Про». Стоит почти 100 долларов, имеет возможность отследить 250 000 посещений на ста страницах. Тариф подходит для монстров с большой посещаемостью и большим количеством страниц.<br><br><img src="https://habrastorage.org/getpro/habr/post_images/f73/fb2/62d/f73fb262da4618a8dde67690cfd191ea.jpg" alt="Отслеживание статистики"></blockquote><br><blockquote><h3>Есть и аналоги</h3><br>
Я не поленился, и собрал еще пару ссылок с аналогами, которые предлагают такие же услуги, но немного дешевле.</blockquote><br><blockquote> 1. <a href="https://www.google.com/analytics/home/?hl=en" title="Шикарный сбор и анализ статистики">Google Analytics</a> — бесплатный сервис для сбора и анализа статистики, вывод статистики в наиболее наглядной форме, и без разнообразных рейтингов, счетчиков. Очень подробная и полезная вещь. Рекомендую, т.к. сам пользуюсь им для этого блога.<br><br>
2. <a href="http://www.mapsurface.com/" title="Сервис для отслеживания популярности блоков на сайте">MapSurface</a> — сам еще не использовал (т.к. предпочел CrazyEgg), но врядли будучи плохим сервис собрал бы множество положительных отзывов. К сожалению он сейчас находится в статусе закрытой беты.</blockquote><br><blockquote><h3>Вывод</h3><br>
Использовать можно, и нужно. Вот только тарифы довольно больно кусаются, но обычно эти деньги потом с лихвой отбиваются на повышении конвертации посетителей в деньги. Использовать сервис нужно для тестирования рекламных мест и удобства отдельных страниц, что помогает опять же повысить конвертацию. В общем и целом — <a href="http://ttp://www.crazyegg.com">полезная вещь</a> для каждого владельца сайтов, а для юзабилиста вообще практически обязательна. К счастью для людей, которые поиздержались деньгами в этом месяце — есть полезные аналоги.<br><br><img src="http://img241.imageshack.us/img241/2346/confettitnml5.jpg" alt="Интересная идея визуализации популярности - конфети"></blockquote><br><br>
Автор: <a href="http://www.birzool.com/" title="Я пишу о юзабилити веб интерфейсов">Ярослав Бирзул</a> (DezmASter).<br>
Источник: <a href="http://www.birzool.com/crazyegg/" title="Сумасшедшие яйца, первоисточник">Блог о юзабилити веб интерфейсов</a>.<br><br>
PS: Всех с прошедшим Новым годом! От всей души желаю вам всего самого-самого лучшего, чего вы желаете только в самых сокровенных мечтах. Удачно вам провести время.
'''

С помощью регулярных выражений очистите текст от тэгов (метаинформацию внутри тэгов тоже удалите). В получившемся тексте точки не должны слипаться с началом следующего предложений, также не должно быть лишних пробелов.

In [None]:
def remove_tags():
    # your code here

### 2. Задание на замену числительных

Напишите функцию для замены всех числительных в тексте на 0. Даже если число было многозначным, его нужно записать только одним нулем.


In [None]:
def replace_digits(text):
    # your code here

### 3. Задание на имена и фамилии

Извлеките из строки все имена и фамилии людей. Для соединения строк в питоне можно просто использовать +

In [None]:
s = 'На встрече присутствовали: профессор Владимир Успенский, физик-ядерщик Сергей Ковалев, президент клуба Владимир Медведев и космонавт Юрий Титов.'

name = r"регулярка для имен"
last_name = r"регулярка для фамилий"

persons = re.findall(name + last_name, s)

for item in persons:
    print(item)