# Разбор текста в формате HTML
HTML — язык разметки форматированного текста. Т.е. язык описывает текст вместе с оформлением и структурированием отдельных элементов.
HTML предназначен для восприятия человеком, компьютеру приходится работать с HTML только если нет данных в более удобном для автоматической обработки формате.
Странички в интернете имеют формат HTML, поэтому если необходимо собрать данные с какого-то сайта, вы получите их в формате HTML.
*Внимание*, по умолчанию вы не можете обрабатывать данные с чужого сайта. Это можно делать, только если вы нашли лицензию для этих данных, в которой указано, что вы можете эти данные использовать. Часто есть условие, как можно данные использовать.

Пример, как может выглядеть текст в формате HTML:
```
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
</head>
<body>
    <h1>Коты</h1>  <!--заголовок-->
    <p>Коты — это пушистые животные. Они умеют:</p>
    <ol>  <!-- ordered list -->
        <li>мурлыкать</li>
        <li>мяукать</li>
        <li>спать</li>
    </ol>
</body>
</html>
```

Разбирать текст на HTML можно

## Обычными методами работы со строками в Python:

Попробуем достать заголовок

In [3]:
cats = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
</head>
<body>
    <h1>Коты</h1>  <!--заголовок-->
    <p>Коты — это пушистые животные. Они умеют:</p>
    <ol>  <!-- ordered list -->
        <li>мурлыкать</li>
        <li>мяукать</li>
        <li>спать</li>
    </ol>
</body>
</html>
"""

h1_ind = cats.find('<h1>')
h1_close_ind = cats.find('</h1>', h1_ind)  # ищем, начнем, начиная с позиции h1_ind

# h1 = cats[h1_ind+4:h1_close_ind]  # так можно, но избегайте случайных констант
h1 = cats[h1_ind+len('<h1>'):h1_close_ind]  # так можно, но избегайте случайных констант
print(h1)

Коты


## Регулярные выражения для разбора HTML

Популярный подход, регулярные выражения часто используют для разбора HTML и других текстов:

In [6]:
import re

title_regexp = r'<h1>(.*)</h1>'
title_regexp = r'<h1>([^<]*)</h1>'  # [^...] всё кроме. Здесь — любой символ кроме открывающей угловой скобки

m = re.search(title_regexp, cats)
print(m)
h1 = m.group(1)  # содержимое первой группы
print(h1)

<re.Match object; span=(87, 100), match='<h1>Коты</h1>'>
Коты


Используйте регулярные выражения только для очень простых задач
## Сторонняя библиотека для разбора HTML
Нужна библиотека, которая знает формат HTML и способна его прочитать, обработать так же, как это сделал бы браузер. Мы попробуем библиотеку BeautifulSoup. Она не устанавливается по-умолчанию, про установку скажем позже.


In [11]:
from bs4 import BeautifulSoup

# bs4 это модуль (версия 4), BeautifulSoup — класс для работы с HTML

document = BeautifulSoup(cats)  # разбирает HTML из текста и возвращает объект для работы с содержимым
print(document.h1)  # если обратиться к полю, которая называется как тег, мы получим первый тег на странице
print(document.li)  # только первый li на странице

print(document.find('li'))  # найти первый li на странице
print(document.find_all('li'))  # найти все li в виде списка



<h1>Коты</h1>
<li>мурлыкать</li>
<li>мурлыкать</li>
[<li>мурлыкать</li>, <li>мяукать</li>, <li>спать</li>]


В методах `find`, `find_all` можно указывать атрибуты искомых тегов:


In [15]:
cats = """
<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
</head>
<body>
    <h1>Коты</h1>  <!--заголовок-->
    <p>Коты — это пушистые животные. Они умеют:</p>
    <ol>  <!-- ordered list -->
        <li class="odd">мурлыкать</li>
        <li class="even">мяукать</li>
        <li class="odd">спать</li>
    </ol>
</body>
</html>
"""

document = BeautifulSoup(cats)
print(document.find_all('li'))
print(document.find_all('li', {'class': 'odd'}))  # можно добавлять в словарь и другие атрибуты

# результат вызова find, find_all — это не строки, это сами элементы, внутри них можно искать подэлементы:

abilities_list = document.find('ol')  # список умений котов, document.ol
print(abilities_list.find_all('li'))  # ищем li внутри конкретного <ol>
print(abilities_list)  # распечатывается html содержимое
print(abilities_list.text)  # возвращает чистый текст узла без тегов
# print(abilities_list.)  # много других возможностей по работе с узлами

[<li class="odd">мурлыкать</li>, <li class="even">мяукать</li>, <li class="odd">спать</li>]
[<li class="odd">мурлыкать</li>, <li class="odd">спать</li>]
[<li class="odd">мурлыкать</li>, <li class="even">мяукать</li>, <li class="odd">спать</li>]
<ol> <!-- ordered list -->
<li class="odd">мурлыкать</li>
<li class="even">мяукать</li>
<li class="odd">спать</li>
</ol>
 
мурлыкать
мяукать
спать



In [17]:
# Ответ на вопрос, почему cats.find() и document.find() делают разные вещи. Тип cats — строка, тип document — BeautifulSoup

class A:
    def foo(self):
        print("a")


class B:
    def foo(self):
        print("b")

a = A()
b = B()

a.foo()
b.foo()


a
b


# Установка библиотек в Python
Если кто-то создал библиотеку для Python (модуль или пакет с несколькими модулями), он (она) может выложить это для общего доступа в репозиторий пакетов. Таких репозиториев много, есть стандартный репозиторий, который все используют по-умолчанию. Есть набор пакетов Anaconda.
Кроме этого, есть программы, пакетные менеджеры, которые позволяют устанавливать пакеты из репозиториев. Например, `pip`. В командной строке: `pip install bs4` — установка пакета bs4 (Библиотеки Beautiful Soup).

Еще можно устанавливать в PyCharm (IDEA) в настройках проекта, точнее, в настройках интерпретатора Python.

## Виртуальные окружения
Проблема: если вы пишете много разных программ, может оказаться, что разным программам нужны разные библиотеки, которые друг с другом конфликтуют. Например, библиотека1 хочет пользоваться библиотекой3 версии 1.00 Кроме того, библотиека2 хочет пользоваться библиотекой3, но версии 15.00. Получается, что библиотека1 и библиотека2 не могут работать вместе (есть только одна установленная версия библиотеки3).

Принято для каждого проекта (для каждой программы) создавать отдльное вид