# Подсчёт статистики употребления слов на странице сайта

В прошлый раз мы научились подключаться к сайтам, получать страницы из интернета и искать в коде полученных страниц теги. Сегодня мы научимся искать по содержимому страниц.

Предположим, что мы с вами не читали Гарри Поттера, но нам жизненно необходимо для исследования понять, кто в этой серии книг относится к главным героям и как герои взаимодействуют друг с другом.

Попробуем предположить, что главным — или, как минимум, достаточно полюбившимся публике — героям на фанатских сайтах посвящено больше слов, и что фанаты бы не забыли упомянуть о взаимодействиях между героями в их биографиях.

Пройдём по страницам и посчитаем длину текстов, которые на них содержатся, для этого:
1. скачаем главную страницу;
2. извлечём из неё перечень ссылок
3. пройдём по ссылкам и для каждой из них проверим:
    * что ссылка указывает на наш сайт и
    * что ссылку получается скачать (она возвращает код ответа 200):
        1. для каждой из отобранных ссылок посчитаем длину текста на странице и
        2. выведем название ссылки и длину текста.


Скачаем главную страницу учебного сайта и построим адреса остальных ссылок:

In [1]:
import requests   
from bs4 import BeautifulSoup

base_url = 'https://online.hse.ru/python-as-foreign/1/'

page = requests.get(base_url)
page.encoding = 'utf-8'
soup = BeautifulSoup(page.text)

for link in soup.find_all('a'):
    if link.get('href').endswith('html'):   # Все ссылки на наш сайт заканчиваются на .html
        print(base_url+link.get('href'), link.text)

https://online.hse.ru/python-as-foreign/1/1.html Гарри Поттер
https://online.hse.ru/python-as-foreign/1/2.html Джинни Уизли
https://online.hse.ru/python-as-foreign/1/3.html Лили Поттер
https://online.hse.ru/python-as-foreign/1/4.html Гермиона Грейнджер
https://online.hse.ru/python-as-foreign/1/5.html Сириус Блэк
https://online.hse.ru/python-as-foreign/1/6.html Рубеус Хагрид
https://online.hse.ru/python-as-foreign/1/7.html Рон Уизли
https://online.hse.ru/python-as-foreign/1/8.html Астория Гринграсс
https://online.hse.ru/python-as-foreign/1/9.html Люциус Малфой
https://online.hse.ru/python-as-foreign/1/10.html Драко Малфой
https://online.hse.ru/python-as-foreign/1/11.html Беллатриса Лестрейндж


Попробуем скачать каждую из них и проверить, что они корректно скачались:

In [2]:
import requests   
from bs4 import BeautifulSoup

base_url = 'https://online.hse.ru/python-as-foreign/1/'

page = requests.get(base_url)
page.encoding = 'utf-8'
soup = BeautifulSoup(page.text)

for link in soup.find_all('a'):
    if link.get('href').endswith('html'):   # Все ссылки на наш сайт заканчиваются на .html
        page = requests.get(base_url+link.get('href'))
        if page.status_code == 200:
            print(base_url+link.get('href'), link.text)

https://online.hse.ru/python-as-foreign/1/1.html Гарри Поттер
https://online.hse.ru/python-as-foreign/1/2.html Джинни Уизли
https://online.hse.ru/python-as-foreign/1/3.html Лили Поттер
https://online.hse.ru/python-as-foreign/1/4.html Гермиона Грейнджер
https://online.hse.ru/python-as-foreign/1/5.html Сириус Блэк
https://online.hse.ru/python-as-foreign/1/6.html Рубеус Хагрид
https://online.hse.ru/python-as-foreign/1/7.html Рон Уизли
https://online.hse.ru/python-as-foreign/1/8.html Астория Гринграсс
https://online.hse.ru/python-as-foreign/1/9.html Люциус Малфой
https://online.hse.ru/python-as-foreign/1/10.html Драко Малфой


Заметим, что страницу о Беллатрисе Лестрейндж загрузить не удалось, так как она отсутствует на сайте и код ответа был 404, а не 200.

Установим для каждой из загруженных страниц корректную кодировку и посчитаем длину текстов, обратившись к тегу `body`, внутри которого на страницах находится всё видимое содержимое:

In [3]:
import requests   
from bs4 import BeautifulSoup

base_url = 'https://online.hse.ru/python-as-foreign/1/'

page = requests.get(base_url)
page.encoding = 'utf-8'
soup = BeautifulSoup(page.text)

for link in soup.find_all('a'):
    if link.get('href').endswith('html'):
        page = requests.get(base_url+link.get('href'))
        if page.status_code == 200:
            print(f'Ссылка с адресом {link.get("href")} и текстом "{link.text}"')
            page.encoding = 'utf-8'
            s = BeautifulSoup(page.text)
            print(f'Статья длиной {len(s.find("body").text)} символов')

Ссылка с адресом 1.html и текстом "Гарри Поттер"
Статья длиной 58609 символов
Ссылка с адресом 2.html и текстом "Джинни Уизли"
Статья длиной 19644 символов
Ссылка с адресом 3.html и текстом "Лили Поттер"
Статья длиной 23711 символов
Ссылка с адресом 4.html и текстом "Гермиона Грейнджер"
Статья длиной 55545 символов
Ссылка с адресом 5.html и текстом "Сириус Блэк"
Статья длиной 22983 символов
Ссылка с адресом 6.html и текстом "Рубеус Хагрид"
Статья длиной 13522 символов
Ссылка с адресом 7.html и текстом "Рон Уизли"
Статья длиной 46000 символов
Ссылка с адресом 8.html и текстом "Астория Гринграсс"
Статья длиной 2318 символов
Ссылка с адресом 9.html и текстом "Люциус Малфой"
Статья длиной 18883 символов
Ссылка с адресом 10.html и текстом "Драко Малфой"
Статья длиной 56944 символов


Заметим, что наша гипотеза подтвердилась: в список главных героев попал Гарри, Гермиона, Драко и Рон, в список второстепенных — Лили, Джинни, Сириус, Хагрид и Люциус. Эпизодическим героем оказалась Астория Гринграсс.

Переработаем теперь нашу программу так, чтобы она пыталась найти на страницах одних героев упоминания про других, для этого доработаем уже существующую программу:
1. создадим список из имён героев, по которым их можно найти,
2. создадим словарь вида Герой: Множество имён героев, которые упоминаются на странице его биографии,
3. пройдём по всем страницам биографий и на каждой странице:
    1. попробуем найти в тексте страницы упоминание каждого имени из списка героев,
    2. найденные имена добавим в наш словарь множеств
4. в конце выведем статистику на экран и сравним её с содержимым книг (без спойлеров).

Составим словарь имён, взяв от каждого имени только неизменяемую часть (от имени Гарри Поттера возьмём имя Гарри, а вот от имени Гермионы Грейджер возьмём только строчку "Гермион"):

In [5]:
import requests   
from bs4 import BeautifulSoup

base_url = 'https://online.hse.ru/python-as-foreign/1/'

page = requests.get(base_url)
page.encoding = 'utf-8'
soup = BeautifulSoup(page.text)

chars = ['Гарри', 'Рон', 'Гермион', 'Сириус', 'Хагрид', 'Джинн', 'Лили', 'Астори', 'Люциус', 'Драко']
char_to_char = {} # Словарь вида герой => множество героев, с которыми он общается

Добавим в уже написанный код просмотра текстов всех биографий поиск упоминаний героев:

In [5]:
import requests   
from bs4 import BeautifulSoup

base_url = 'https://online.hse.ru/python-as-foreign/1/'

page = requests.get(base_url)
page.encoding = 'utf-8'
soup = BeautifulSoup(page.text)

chars = ['Гарри', 'Рон', 'Гермион', 'Сириус', 'Хагрид', 'Джинн', 'Лили', 'Астори', 'Люциус', 'Драко']
char_to_char = {} # Словарь вида герой => множество героев, с которыми он общается

for link in soup.find_all('a'):
    if link.get('href').endswith('html'):
        page = requests.get(base_url+link.get('href'))
        if page.status_code == 200:
            page.encoding = 'utf-8'
            s = BeautifulSoup(page.text)
            
            if link.text not in char_to_char:               # Если в нашем словаре множеств 
                                                            # нет ключа для изучаемого сейчас героя —
                char_to_char[link.text] = []             # создадим этот ключ
            for char in chars:                              # Просмотрим список имён героев
                if char not in link.text:                   # Если мы не смотрим на страницу биографии героя
                    if char in s.find('body').text:         # и если герой упоминается на странице,
                        char_to_char[link.text].append(char)   # добавим его в множество взаимодействий

for hero in char_to_char:
    print(f'{hero} взаимодействовал(а) с: {", ".join(char_to_char[hero])}.')

Гарри Поттер взаимодействовал(а) с: Рон, Гермион, Сириус, Хагрид, Джинн, Лили, Люциус, Драко.
Джинни Уизли взаимодействовал(а) с: Гарри, Рон, Гермион, Сириус, Лили, Люциус, Драко.
Лили Поттер взаимодействовал(а) с: Гарри, Сириус, Хагрид, Джинн, Драко.
Гермиона Грейнджер взаимодействовал(а) с: Гарри, Рон, Сириус, Хагрид, Джинн, Лили, Драко.
Сириус Блэк взаимодействовал(а) с: Гарри, Рон, Гермион, Хагрид, Лили.
Рубеус Хагрид взаимодействовал(а) с: Гарри, Рон, Гермион, Драко.
Рон Уизли взаимодействовал(а) с: Гарри, Гермион, Сириус, Хагрид, Джинн, Лили, Люциус, Драко.
Астория Гринграсс взаимодействовал(а) с: Люциус, Драко.
Люциус Малфой взаимодействовал(а) с: Гарри, Рон, Гермион, Сириус, Хагрид, Джинн, Астори, Драко.
Драко Малфой взаимодействовал(а) с: Гарри, Рон, Гермион, Сириус, Хагрид, Джинн, Астори, Люциус.


Можно заметить, что Астория Гринграсс взаимодействовала только с членами своей семьи (Малфои), что соответствует тексту книги:

`Астория Гринграсс взаимодействовал(а) с: Драко, Люциус.`

In [6]:
char_to_char

{'Гарри Поттер': ['Рон',
  'Гермион',
  'Сириус',
  'Хагрид',
  'Джинн',
  'Лили',
  'Люциус',
  'Драко'],
 'Джинни Уизли': ['Гарри',
  'Рон',
  'Гермион',
  'Сириус',
  'Лили',
  'Люциус',
  'Драко'],
 'Лили Поттер': ['Гарри', 'Сириус', 'Хагрид', 'Джинн', 'Драко'],
 'Гермиона Грейнджер': ['Гарри',
  'Рон',
  'Сириус',
  'Хагрид',
  'Джинн',
  'Лили',
  'Драко'],
 'Сириус Блэк': ['Гарри', 'Рон', 'Гермион', 'Хагрид', 'Лили'],
 'Рубеус Хагрид': ['Гарри', 'Рон', 'Гермион', 'Драко'],
 'Рон Уизли': ['Гарри',
  'Гермион',
  'Сириус',
  'Хагрид',
  'Джинн',
  'Лили',
  'Люциус',
  'Драко'],
 'Астория Гринграсс': ['Люциус', 'Драко'],
 'Люциус Малфой': ['Гарри',
  'Рон',
  'Гермион',
  'Сириус',
  'Хагрид',
  'Джинн',
  'Астори',
  'Драко'],
 'Драко Малфой': ['Гарри',
  'Рон',
  'Гермион',
  'Сириус',
  'Хагрид',
  'Джинн',
  'Астори',
  'Люциус']}