# Продвинутый Python, лекция 10

**Лектор:** Петров Тимур

**Семинаристы:** Петров Тимур, Коган Александра, Бузаев Федор, Дешеулин Олег

**Spoiler Alert:** в рамках курса нельзя изучить ни одну из тем от и до досконально (к сожалению, на это требуется больше времени, чем даже 3 часа в неделю). Но мы попробуем рассказать столько, сколько возможно :)

## Парсинг данных

В прошлый раз мы с вами говорили про протокол HTTP и сделали даже несколько реквестов, что-то получили. Встает логичный вопрос: а зачем?

Ну то есть мы получили какие-то данные, а как с ними работать? Чаще всего при запросе вам выдается HTML-страничка (HyperText Markup Language, или же размеченный гипертекст), из которой вы хотите вычленить данные (например, таблицу etc)

Вот за это отвечает такая часть, как web scraping, а по-простому - парсинг данных. И для таких задач Python является standalone языком программирования, поэтому будем разбираться

## BeautifulSoup4

И начнем с самого простого: парсинг обычных html страниц. Для этого есть прекрасная бибилотека [BeautifulSoup4](https://beautiful-soup-4.readthedocs.io/en/latest/)

И в качестве примера возьмем вики нашего факультета)

### Основы

In [None]:
import requests

r = requests.get('http://wiki.cs.hse.ru/Заглавная_страница')
page = r.content.decode("utf-8")
page ##выглядит как каша какая-то



In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page, 'html.parser') # указываем парсер
print(soup.prettify()) # выглядит уже более структурно

<!DOCTYPE html>
<html class="client-nojs" dir="ltr" lang="ru">
 <head>
  <meta charset="utf-8"/>
  <title>
   Wiki ФКН — Wiki - Факультет компьютерных наук
  </title>
  <meta content="IE=EDGE" http-equiv="X-UA-Compatible"/>
  <meta content="MediaWiki 1.23.2" name="generator"/>
  <link href="/skins/favicon.ico" rel="shortcut icon"/>
  <link href="/opensearch_desc.php" rel="search" title="Wiki - Факультет компьютерных наук (ru)" type="application/opensearchdescription+xml"/>
  <link href="http://wiki.cs.hse.ru/api.php?action=rsd" rel="EditURI" type="application/rsd+xml"/>
  <link href="/Wiki_-_%D0%A4%D0%B0%D0%BA%D1%83%D0%BB%D1%8C%D1%82%D0%B5%D1%82_%D0%BA%D0%BE%D0%BC%D0%BF%D1%8C%D1%8E%D1%82%D0%B5%D1%80%D0%BD%D1%8B%D1%85_%D0%BD%D0%B0%D1%83%D0%BA:%D0%9E%D0%BF%D0%B8%D1%81%D0%B0%D0%BD%D0%B8%D0%B5" rel="copyright"/>
  <link href="/index.php?title=%D0%A1%D0%BB%D1%83%D0%B6%D0%B5%D0%B1%D0%BD%D0%B0%D1%8F:%D0%A1%D0%B2%D0%B5%D0%B6%D0%B8%D0%B5_%D0%BF%D1%80%D0%B0%D0%B2%D0%BA%D0%B8&amp;feed=atom" rel="

Здесь есть аргумент parser, что это такое? Внутри BeautifulSoup есть несколько различных парсеров, которые можно использовать (в зависимости сложности документа)

* html.parser - самый простой и достаточно быстрй парсер, включенный уже внутри BS (чаще всего ничего более не требуется для HTML-документов), а еще он менее строгий к документу (то есть игнорирует всякую фигню)

* lxml - парсер из другой бибилотеки (тоже в разделе про XML)

* xml - парсер для XML документов (про них позже)

* html5lib - парсит как реальный веб-браузер это делает (но его еще отдельно надо установить, работает медленно), очень строгий к формату

Базово, что мы хотим от парсера? Ходить по тэгам и вытягивать оттуда информацию. В каком-то смысле для этого не требуется знать HTML-язык разметки, но в качестве общего ознакомления почитать про [тэги](https://developer.mozilla.org/ru/docs/Web/HTML) следует

Давайте вытянем название странички:

In [None]:
print(soup.title) #навигация идет по названиям тэгов, например, здесь взяли тэг title
print(soup.title.name) # получили название тэга
print(soup.title.string) # получили текст внутри тэга - бинго!

<title>Wiki ФКН — Wiki - Факультет компьютерных наук</title>
title
Wiki ФКН — Wiki - Факультет компьютерных наук


А теперь давайте разбираться вообще в структуре HTML-странички в целом:

- Все, что находится внутри < и > - это тэг. Тэг сам по себе задает различные действия (например, < a > - это ссылка, < h1 > - заголовок первого уровня, самый большой)

Все, что внутри тэга - это его контент, то есть то, к чему относится данный тэг. А также у тэга могут быть свои аттрибуты

На примере:

```
        <p>
         <a href="/%D0%9B%D0%B8%D0%BD%D0%B5%D0%B9%D0%BD%D0%B0%D1%8F_%D0%B0%D0%BB%D0%B3%D0%B5%D0%B1%D1%80%D0%B0_%D0%B8_%D0%B3%D0%B5%D0%BE%D0%BC%D0%B5%D1%82%D1%80%D0%B8%D1%8F_%D0%BD%D0%B0_%D0%9F%D0%9C%D0%98_2022/2023_(%D0%BF%D0%B8%D0%BB%D0%BE%D1%82%D0%BD%D1%8B%D0%B9_%D0%BF%D0%BE%D1%82%D0%BE%D0%BA)" title="Линейная алгебра и геометрия на ПМИ 2022/2023 (пилотный поток)">
          Линейная алгебра и геометрия (пилотный поток)
         </a>
        </p>
```

Что видим? Тэг p - абзац, тэг a - ссылка. То есть получаем абзац с текстом "Линейная алгебра и геометрия (пилотный поток)", на котором лежит ссылка с адресом href

Внутри тэга a есть два аттрибута: href и title (ссылка и название)

![](https://luxe-host.ru/wp-content/uploads/a/f/4/af4a1d2a354e9fb6c1164ae174f6bfc0.jpeg)

Базово внутри любого HTML-документа есть head, body и footer. (Вообще такие тэги появились только в HTML-5, раньше делали просто div)

- **Head** - заглавие (где указывается название сайта, а так же отрисовки, стиль, скрипты etc)

- **Body** - основное тело документа, где лежит вся информация

- **Footer** - это все, что находится внизу. Многие не любят делать footer отдельно, а тупо вгоняют его в body, выделяя отдельно место (с помощью div)

Также скрипты могут встречаться в любом случае, если надо что-то подятнуть

Это вот такая база для понимания, как страница устроена

Нас, наверное, не очень интересует header и footer, так как хотим доставать основную информацию. Давайте по коду определим, где находится то, что нам нужно.

Оно находится внутри ```<div id="bodyContent"> ```. Давайте туда и перейдем

In [None]:
root = soup.find(id="bodyContent") #с помощью функции find можно искать необходимые тэги, id.
# Если какой-то более сложный атрибут, то можно передать через словарь attrs

### Ищем данные

Давайте теперь вытянем все названия второго уровня с сайта (то есть это на сайте будет "Курсы за 2022/23 год", "Курсы в рамках проекта Data Culture" etc)

Все они находятся в тэгах < h2 >. Значит надо найти все такие тэги и вывести текст!

Для этого есть функция ```find_all```

In [None]:
root.find_all('h2')[0].contents #Вывели самый первый такой, но при этом он еще в какой-то мишуре в виде span

[<span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B7.D0.B0_2022.2F23_.D1.83.D1.87.D0.B5.D0.B1.D0.BD.D1.8B.D0.B9_.D0.B3.D0.BE.D0.B4">Курсы за 2022/23 учебный год</span>]

In [None]:
root.find_all('h2')[0].span.string # Хопа, прошли по span и вывели сам текст!

'Курсы за 2022/23 учебный год'

In [None]:
root.find_all('h2') # Вытянули все значения, осталось проитерироваться и достать все

[<h2><span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B7.D0.B0_2022.2F23_.D1.83.D1.87.D0.B5.D0.B1.D0.BD.D1.8B.D0.B9_.D0.B3.D0.BE.D0.B4">Курсы за 2022/23 учебный год</span></h2>,
 <h2><span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B2_.D1.80.D0.B0.D0.BC.D0.BA.D0.B0.D1.85_.D0.BF.D1.80.D0.BE.D0.B5.D0.BA.D1.82.D0.B0_Data_Culture">Курсы в рамках проекта <a class="external text" href="https://www.hse.ru/dataculture/" rel="nofollow">Data Culture</a></span></h2>,
 <h2><span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.BC.D0.B0.D0.B3.D0.B8.D1.81.D1.82.D1.80.D0.B0.D1.82.D1.83.D1.80.D1.8B_.D0.A4.D0.9A.D0.9D">Курсы магистратуры ФКН</span></h2>,
 <h2><span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B4.D1.80.D1.83.D0.B3.D0.B8.D1.85_.D1.84.D0.B0.D0.BA.D1.83.D0.BB.D1.8C.D1.82.D0.B5.D1.82.D0.BE.D0.B2">Курсы других факультетов</span></h2>,
 <h2><span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B7.D0.B0_2021.2F22_.D1.83.D1.87.D

In [None]:
for k in root.find_all('h2'):
    print(k.span.contents) # Почему берем именно contents? Потому что если внутри есть еще один тэг, то это дополнительно дробление (a)

['Курсы за 2022/23 учебный год']
['Курсы в рамках проекта ', <a class="external text" href="https://www.hse.ru/dataculture/" rel="nofollow">Data Culture</a>]
['Курсы магистратуры ФКН']
['Курсы других факультетов']
['Курсы за 2021/22 учебный год']
['Курсы в рамках проекта ', <a class="external text" href="https://www.hse.ru/dataculture/" rel="nofollow">Data Culture</a>]
['Курсы магистратуры ФКН']
['Курсы других факультетов']


В чем проблема? Так в том, что тут еще есть ссылки, из которых надо тоже все это вытягивать:

In [None]:
for k in root.find_all('h2'):
    res = ""
    if k.a is not None:
        res += k.span.contents[0]
        res += k.span.a.string
    else:
        res += k.span.string
    print(res)

Курсы за 2022/23 учебный год
Курсы в рамках проекта Data Culture
Курсы магистратуры ФКН
Курсы других факультетов
Курсы за 2021/22 учебный год
Курсы в рамках проекта Data Culture
Курсы магистратуры ФКН
Курсы других факультетов


### Поиск текста и ссылок

Ура, получилось! Чуть-чуть глиномесно, но представьте делать это совсем руками...

Хорошо, допустим, что теперь мы хотим просто получить весь текст с сайта, как бы сделать?

In [None]:
print(root.stripped_strings) # получаем генератор, который очищает от тэгов и внутри них ищет текст
print(root.strings)

<generator object Tag.stripped_strings at 0x7f17b4ca2f50>
<generator object Tag._all_strings at 0x7f17b4ca2f50>


В чем разница?

In [None]:
print(next(root.stripped_strings)) # убирает всякие переносы строк, табуляицю etc
print(next(root.strings))

Материал из Wiki - Факультет компьютерных наук




Давайте теперь все напечатаем:

In [None]:
for text in root.stripped_strings:
    print(text)

А теперь хотим найти ссылки - достаточн частая задача.

Ссылки (кликабельные) всегда находятся в тэге a. Поэтому давайте икать в них атрибут href (который задает ссылку)

Внутри любого тэга можно достать атрибут с помощью get():

In [None]:
for a in root.find_all('a'):
    print(a.get('href'))

В чем проблема? В том, что мы находим None (есть тэг, но нет ссылки) и что есть навигация по внутренним страничкам (Вики же)

Давайте оставим именно ссылки:

In [None]:
for a in root.find_all('a'):
    if a.get('href') is not None and 'http' in a.get('href'):
        print(a.get('href'))

### Дополнительно

Что еще умеем? Хотим по родителям, детям и соседям (вверх, вниз, вправо-влево)

In [None]:
k = root.find("a")
print(root.find("a"))
print(k.next_element) #следующий элемент
print(k.previous_element) #прошлый элемент
print(k.parent) # внутри какого уровня находимя
print(k.child) #что внутри по уровню

<a href="/index.php?title=%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0&amp;redirect=no" title="Заглавная страница">Заглавная страница</a>
Заглавная страница
(перенаправлено с «
<div id="contentSub">(перенаправлено с «<a href="/index.php?title=%D0%97%D0%B0%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D0%B0%D1%8F_%D1%81%D1%82%D1%80%D0%B0%D0%BD%D0%B8%D1%86%D0%B0&amp;redirect=no" title="Заглавная страница">Заглавная страница</a>»)</div>
None


Отдельно есть функция select, с помощью которой можно задавать более конкретно, что мы ищем:

In [None]:
root.select("h2 > span") #найти все тэги h2, внутри которых лежит span

[<span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B7.D0.B0_2022.2F23_.D1.83.D1.87.D0.B5.D0.B1.D0.BD.D1.8B.D0.B9_.D0.B3.D0.BE.D0.B4">Курсы за 2022/23 учебный год</span>,
 <span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B2_.D1.80.D0.B0.D0.BC.D0.BA.D0.B0.D1.85_.D0.BF.D1.80.D0.BE.D0.B5.D0.BA.D1.82.D0.B0_Data_Culture">Курсы в рамках проекта <a class="external text" href="https://www.hse.ru/dataculture/" rel="nofollow">Data Culture</a></span>,
 <span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.BC.D0.B0.D0.B3.D0.B8.D1.81.D1.82.D1.80.D0.B0.D1.82.D1.83.D1.80.D1.8B_.D0.A4.D0.9A.D0.9D">Курсы магистратуры ФКН</span>,
 <span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B4.D1.80.D1.83.D0.B3.D0.B8.D1.85_.D1.84.D0.B0.D0.BA.D1.83.D0.BB.D1.8C.D1.82.D0.B5.D1.82.D0.BE.D0.B2">Курсы других факультетов</span>,
 <span class="mw-headline" id=".D0.9A.D1.83.D1.80.D1.81.D1.8B_.D0.B7.D0.B0_2021.2F22_.D1.83.D1.87.D0.B5.D0.B1.D0.BD.D1.8B.D0.B9_.D0.B3.D0.B

In [None]:
soup.select("#right-navigation") #поиск по id

[<div id="right-navigation">
 <div aria-labelledby="p-views-label" class="vectorTabs" id="p-views" role="navigation">
 <h3 id="p-views-label">Просмотры</h3>
 <ul>
 <li class="selected" id="ca-view"><span><a href="/Wiki_%D0%A4%D0%9A%D0%9D">Читать</a></span></li>
 <li id="ca-viewsource"><span><a accesskey="e" href="/index.php?title=Wiki_%D0%A4%D0%9A%D0%9D&amp;action=edit" title="Эта страница защищена от изменений, но вы можете посмотреть и скопировать её исходный текст [e]">Просмотр</a></span></li>
 <li class="collapsible" id="ca-history"><span><a accesskey="h" href="/index.php?title=Wiki_%D0%A4%D0%9A%D0%9D&amp;action=history" title="Журнал изменений страницы [h]">История</a></span></li>
 </ul>
 </div>
 <div aria-labelledby="p-cactions-label" class="vectorMenu emptyPortlet" id="p-cactions" role="navigation">
 <h3 id="p-cactions-label"><span>Действия</span><a href="#"></a></h3>
 <div class="menu">
 <ul>
 </ul>
 </div>
 </div>
 <div id="p-search" role="search">
 <h3><label for="searchInput

Можно усилить BeautifulSoup: там можно и изменять HTML-код (добавлять-удалять-менять тэги, аттрибуты etc)

Но главное, что BS умеет работать с паттернами регулярок и ходят бок о бок! Вот про них и поговорим

## Регулярные выражения и Re

### Что такое регулярные выражения?

Регулярное выражение - это строка, которая задает некоторый паттерн (шаблон) для поиска внутри строки. С его помощью можно находить в тексте необходимые части (например, все города внутри текста, слова на русском и так далее), а также проверять строки на правильность (например, проверка e-mail, телефона и тому подобное)

Это очень удобная и сильная вещь, но палка о двух концах (об этом будет далее). Итак, приступим:

### Где потренироваться и проверять регулярку

Ответ очевиден - в Питоне с помощью библиотеки re 🐍

[Ссылка на документацию](https://docs.python.org/3/library/re.html) (осторожно, english)

Но если лень писать код, или хочется видеть результат в режиме онлайн, то существует множество сайтов, где можно это посмотреть, например, [вот здесь](https://https://regex101.com/) (не забудьте слева выбрать Flavor Python, потому что реализация различается, хоть и не сильно)

### Основы и квантификаторы

Допустим, вам нужно найти просто все вхождения слова внутри текста. Тогда регулярное выражение не будет иметь в себе никаких сложностей и будет состоять из самого слова:

In [None]:
import re # библиотека для регулярок в Питоне

# re.search(pattern, text) - поиск первого паттерна вида pattern внутри строки text.

match = re.search(r'ah', r'ahahah aha') # r перед строкой - считываем строку как есть (raw)
print(match)
print(match.group(0))

# re.findall(pattern, text) - поиск всех паттернов вида pattern внутри строки text. Возвращает список всех совпадений

match = re.findall(r'aha', r'ahahah aha') # r перед строкой - считываем строку как есть (raw)
print(match)

# re.compile(pattern, flags) - запись паттерна, который можно использовать в дальнейшем. Flags дает дополнительные фичи

pattern = re.compile(r'aha', flags = re.A)
print(pattern)
match = re.findall(pattern, r'ahahah aha')
print(match)

<re.Match object; span=(0, 2), match='ah'>
ah
['aha', 'aha']
re.compile('aha', re.ASCII)
['aha', 'aha']


Усложним задачу. Допустим, что мы ищем слово цвет на английском, которое может записываться как color (Ам), так и colour (Бр)

Для этого есть квантификаторы, которые могут учитывать, сколько раз может встречаться та или иная буква:

*   {a} - встречается ровно a раз
*   {a,b} - встречается от a до b раз
*   {,b} - максимум b раз
*   {a,} - минимум a раз

Квантификатор будет ставится после буквы (или простого шаблона), для которого он нужен.

В нашем случае это будет выглядеть так:



In [None]:
pattern = re.compile(r'colou{,1}r') # color, colour - будет засчитано
s = 'color, colour'
match = re.findall(pattern, s)
print(match)

['color', 'colour']


Некоторые квантификаторы используется достаточно часто, поэтому для них есть особенные символы:

*   $?$ = {0,1} - встречается 0 или 1 раз
*   $*$ = {0,} - встречается от 0 раз и больше
*   $+$ = {1,} - встречается от 1 раза и больше

Можем упростить наше выражение:

In [None]:
pattern = re.compile(r'c?o?l?o?u?r')
s = 'color, colour, olur'
match = re.findall(pattern, s)
print(match)

pattern = re.compile(r'colou*r')
s = 'color, colour colouuuuuuuuuuuuuuuuuur'
match = re.findall(pattern, s)
print(match)

pattern = re.compile(r'colo.*r')
s = 'color, colour colouuuuuuuuuuuuuuuuuur'
match = re.findall(pattern, s)
print(match)

['color', 'colour', 'olur']
['color', 'colour', 'colouuuuuuuuuuuuuuuuuur']
['color, colour colouuuuuuuuuuuuuuuuuur']


### Особые символы

Для того, чтобы сделать поиск уникальным, нам теперь надо добавить дополнительные символы, с помощью которых можно осуществлять поиск. Среди таких:

*   $.$ - любой символ, кроме начала строки
*   $[]$ - набор символов (символы можно перечислять через -, например [A-Z] = все заглавные символы английского алфавита)
*   [^] - отрицание набора символов (то есть [^A-Z] = все, кроме заглавных букв английского алфавита)
*   ^ - начало текста
*   $ - конец текста

Отдельные символы для букв, цифр и символов:

*   \d - цифра
*   \D - все, кроме цифры
*   \w - любая буква, цифра, а также нижнее подчеркивание (буква - это все, что считается буквой в Unicode, то есть и русские буквы, и так далее)
*   \W - все, кроме букв, цифр и нижнего подчеркивания
*   \s - пробельные символы (пробел, табуляция, перенос строки и так далее)
*   \S - все, кроме пробельного символа
*   \b - начало слова (слева \W, справа \w) - ставится по позиции, а не по символу
*   \B - не начало слова

И есть еще один отдельный символ: \ - символ экранирования. Экранирование дает прочесть символ как символ, а не как шаблон (например, точку). Внутри набора экранируют только символы ] и \\.


In [None]:
# Хотим найти все слова на английском

pattern = re.compile(r'[a-zA-Z]+')
s = 'color, colour, sfasdas, lfosdlf5lsfl..'
match = re.findall(pattern, s)
print(match)

# Хотим найти даты вида дд.мм.гггг

pattern = re.compile(r'\d{2}\.\d{2}\.\d{4}')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012'
match = re.findall(pattern, s)
print(match)

# Хотим найти все слова на английском, перед которыми нет ничего

pattern = re.compile(r'\b[a-zA-Z]+')
s = 'color, colour, 4sfasdas, lfosdlf5lsfl'
match = re.findall(pattern, s)
print(match)

['color', 'colour', 'sfasdas', 'lfosdlf', 'lsfl']
['19.04.2012']
['color', 'colour', 'lfosdlf']


### Группировки

Допустим, что наш шаблон нужно повторить несколько раз. Например, нам нужно найти MAC-адрес в тексте (MAC-адрес - это физический адрес устройства в Интернете). Он представляет из себя 6 групп из чисел в шестнадцатеричной системе, которая разделена - или : (пример: 01-23-45-67-89-ab)

Если писать, как есть, то это будет выглядеть как:

[0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}[:-][0-9a-fA-F]{2}

Громоздко и некрасиво, читать сложно. Но здесь есть повторяющийся паттерн [0-9a-fA-F]{2}[:-]

Паттерны можно группировать с помощью скобок:

*   (?:) - внутри указывается паттерн

К ней уже можно применять те же самые квантификаторы. И тогда у нас будет:

In [None]:
pattern = re.compile(r'[0-9a-fA-F]{2}(?:[:-][0-9a-fA-F]{2}){5}')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012 01:89:14:16:a1:a2'
match = re.findall(pattern, s)
print(match)

['01:89:14:16:a1:a2']


Кроме того, внутри группировки можно использовать перечисление (логическое OR). Делается это с помощью |

Например, пусть часть адреса зашифрована с помощью комбинации xx. Тогда, чтобы найти адрес, надо сделать вот так:

In [None]:
pattern = re.compile(r'(?:[0-9a-fA-F]{2}|[Xx]{2})(?:[:-][0-9a-fA-F]{2}|[:-][Xx]{2}){5}')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012 01:22:14:16:a1:a2 xx:-2:14:XX:a1:a2'
match = re.findall(pattern, s)
print(match)

['01:12:14:16:a1:a2', 'xx:-2:14:XX:a1:a2']


Группировки могут также использоваться для различных проверок. Скажем, если нам нужно проверить, что перед нужным текстом находятся что-то нужное (например, ищем, когда у нас встречается II только перед именем Николай). Для этого есть так называемые условия lookaround:

*   (?=) - проверить, встречается ли этот паттерн после нужного паттерна
*   (?!) - проверить, не встречается ли этот паттерн после нужного паттерна
*   (?<=) - проверить, встречается ли этот паттерн до нужного паттерна (но только фиксированной длины паттерн)
*   (?<!) - проверить, не встречается ли этот паттерн до нужного паттерна

Пример:

In [None]:
pattern = re.compile(r'(?<=Николай) ?II')
s = 'color, colour, sfasdas, lfosdlf5lsfl 19.04.2012 01:12:14:16:a1:a2 xx:12:14:xx:a1:a2 Николай II Александр II НиколайII'
match = re.findall(pattern, s)
print(match)

[' II', 'II']


### А теперь про библиотеку re

Помимо того, что мы использовали, в библиотеке есть еще куча полезных фич:

*   re.sub(pattern, s, text) - заменить все паттерны pattern на строку s. Если не найдет, то вернет исходную строку
*   re.split(pattern, text) - разрезать text по pattern. Работает, по сути, как split, только теперь вместо конкретной подстроки паттерн (ура!)
*   re.search(pattern, text) - находит первое вхождение pattern в строке и выводит его
*   re.match(pattern, text) - проверяет с начала строки, есть ли pattern в text
*   re.fullmatch(pattern, text) - проверяет, подходит ли текст под pattern. Если нет, выводит None, иначе объект match

Внимательные обратили внимание в начале, что у re.compile есть параметр flags. Данный параметр позволяет облегчить работу с паттерном или же добавить условия. На самом деле их несколько, но я приведу только самые частые:

*   re.A (или re.ASCII) - для всех особых символов букв-цифр считает только значения по ASCII. Стоит использовать, если не нужно остальное (ускоряет работу)
*   re.I (или re.IGNORECASE) - сопоставление без учета регистра (строчные=заглавным)
*   re.M (или re.MULTILINE) - символы ^ и $ применяются не только для начала/конца текста, но и для начала/конца строки

## JSON

С JSON мы один раз работали на семинаре, но давайте повторим-пройдем еще раз, что это такое и с чем его едят

JSON - JavaScript Object Notation (формат, унаследованный от JavaScript, но сейчас живет независимо). Он еще более читабельный, чем XML, и очень часто используется в REST API, поэтому надо знать врага в лицо

Как он [выглядит](https://www.json.org/json-en.html):

```
{
   "firstName": "Иван",
   "lastName": "Иванов",
   "address": {
       "streetAddress": "Московское ш., 101, кв.101",
       "city": "Ленинград",
       "postalCode": 101101
   },
   "phoneNumbers": [
       "812 123-1234",
       "916 123-4567"
   ]
}
```

Почти словарь. У любого атрибута должно быть название, значения идут после двоеточия. Могут быть вложены как словари, может быть список

И всегда двойные кавычки! Давайте запишем JSON в файл

In [None]:
%%writefile example.json

{
   "firstName": "Иван",
   "lastName": "Иванов",
   "address": {
       "streetAddress": "Московское ш., 101, кв.101",
       "city": "Ленинград",
       "postalCode": 101101
   },
   "phoneNumbers": [
       "812 123-1234",
       "916 123-4567"
   ]
}

Writing example.json


Внутри Python есть встроенная библиотека для обработки, называется (json)[https://docs.python.org/3/library/json.html] (кто бы мог подумать)

Библиотека маленькая и имеет 4 метода:

* load - считываем из файла данные

* loads - считываем данные из s (string или байты)

* dump - загружаем в файл

* dumps - загружаем в строку

In [None]:
import json

with open("example.json", "r") as f:
    r = json.load(f) #Считать json
print(r)
type(r)

{'firstName': 'Иван', 'lastName': 'Иванов', 'address': {'streetAddress': 'Московское ш., 101, кв.101', 'city': 'Ленинград', 'postalCode': 101101}, 'phoneNumbers': ['812 123-1234', '916 123-4567']}


dict

In [None]:
with open("example_1.json", "w") as f:
    json.dump(r, f) #Грузим json

!cat example_1.json # Ой как плохо, будет нечитабельно, что же делать?

{"firstName": "\u0418\u0432\u0430\u043d", "lastName": "\u0418\u0432\u0430\u043d\u043e\u0432", "address": {"streetAddress": "\u041c\u043e\u0441\u043a\u043e\u0432\u0441\u043a\u043e\u0435 \u0448., 101, \u043a\u0432.101", "city": "\u041b\u0435\u043d\u0438\u043d\u0433\u0440\u0430\u0434", "postalCode": 101101}, "phoneNumbers": ["812 123-1234", "916 123-4567"]}

In [None]:
with open("example_1.json", "w") as f:
    json.dump(r, f, ensure_ascii=False) #Грузим json, говорим, что там не ascii

!cat example_1.json

{"firstName": "Иван", "lastName": "Иванов", "address": {"streetAddress": "Московское ш., 101, кв.101", "city": "Ленинград", "postalCode": 101101}, "phoneNumbers": ["812 123-1234", "916 123-4567"]}

Что можно запихнуть в JSON из Python?

* dict
* list
* tuple
* string
* int
* float
* True
* False
* None

Остальное не поймет :с

In [None]:
print(r["firstName"])
print(r["phoneNumbers"])

Иван
['812 123-1234', '916 123-4567']


Можно загрузать сразу несколько json из файла (но только если они в формате JSON lines)

In [None]:
%%writefile example.json
{"firstName": "Иван","lastName": "Иванов","streetAddress": "Московское ш., 101, кв.101"}
{"firstName": "Иван","lastName": "Иванов","streetAddress": "Московское ш., 101, кв.101"}
{"firstName": "Иван","lastName": "Иванов","streetAddress": "Московское ш., 101, кв.101"}

Overwriting example.json


In [None]:
data = []
with open("example.json", "r") as f:
    for line in f:
        data.append(json.loads(line)) #Считать json
data

[{'firstName': 'Иван',
  'lastName': 'Иванов',
  'streetAddress': 'Московское ш., 101, кв.101'},
 {'firstName': 'Иван',
  'lastName': 'Иванов',
  'streetAddress': 'Московское ш., 101, кв.101'},
 {'firstName': 'Иван',
  'lastName': 'Иванов',
  'streetAddress': 'Московское ш., 101, кв.101'}]

Если несколько JSONов записано не так, то это считается плохим файлом, так что :с

Можно попробовать руками обрабатывать, конечно...

## Попугай дня

![](https://upload.wikimedia.org/wikipedia/commons/f/f6/Naturalis_Biodiversity_Center_-_ZMA.AVES.3159_-_Conuropsis_carolinensis_Linnaeus%2C_1758_-_Psittacidae_-_skin_specimen.jpeg)

Это каролингский попугай, почти единственный попугай-эндемик США, к сожалению, вымерший в первую половину XX века. Возможно единственный ядовитый попугай (потому что при поедании его трупа все крысы и прочие погибали, связано в тем, что этот попугай ел ядовитый дурнишник)

В дикой природе он считается вымершим к началу XX века, при этом полностью вымер он только в 1918 году (в зоопарке Цинциннати оставались 2 попугая и погибли, скорее всего, из-за слишком холодной зимы).

Последнего попугая звали Инкас, причем он умер примерно в то же время, что и Марта (последний странствующий голубь). Что более всего странно, что поскольку это был последний погибший попугай, то его тело должно было быть заморожено в Смитсоновском музее. Но он потерялся и никто вообще не знает, где его тело

И вместе с Мартой эти птицы стали одним из символов угрозы вымирания животных, находящихся вокруг нас