# Извлечение данных из веб-страниц¶

# Задание 1

Написать функцию any_news_about_harry(url), принимающую на вход адрес веб-страницы url, загружающую эту веб-страницу и проверяющую, встречается ли в ней слово Harry (с большой буквы). Функция должна возвращать True, если встречается, и False в противном случае. Также функция должна возвращать False, если страницу не удалось открыть (например, была получена ошибка 404 Not Found.)

In [None]:
import requests
from bs4 import BeautifulSoup
def any_news_about_harry(url):
    try:
        response = requests.get(url)

        response.raise_for_status()

        html_content = response.content

        soup = BeautifulSoup(html_content, 'html.parser')

        if 'Harry' in soup.get_text():
            return True
        else:
            return False

    except Exception as e:
        return False

### Проверьте себя

In [None]:
any_news_about_harry("https://en.wikipedia.org/w/index.php?title=J._K._Rowling&oldid=694008857")

True

In [None]:
any_news_about_harry("https://en.wikipedia.org/w/index.php?title=Darth_Vader&oldid=694617684")

False

In [None]:
any_news_about_harry("http://www.hse.ru/there_is_no_Harry_here")

False

# Задание 2
Написать функцию `get_strong(html)`, принимающую на вход html-страницу в виде длинной строки, записанной в переменную `html`, и возвращающую строчку, содержащуюся в первом теге `strong`.



In [None]:
def get_strong(html):
    try:
        soup = BeautifulSoup(html, 'html.parser')

        strong_tag = soup.find('strong')

        if strong_tag:
            return strong_tag.get_text()
        else:
            return "No <strong> tag found."

    except Exception as e:
        print(f"Error: {e}")
        return None

### Проверьте себя

In [None]:
html = """<html>
    <body>
        <p>
            Hello,
            <strong>
                World
            </strong>
        </p>
    </body>
</html>"""

get_strong(html).strip() == "World"

True

In [None]:
get_strong("<html><body><p>tag &lt;strong&gt; is used in HTML\n to make letters <strong>stronger</strong>") == "stronger"

True

In [None]:
get_strong("<html><body><strong>One\nTwo</strong></body></html>") == "One\nTwo"

True

# Задание 3

Для вставки картинок в HTML используется тег `<img>`, содержащий параметр `src` — адрес файла с картинкой. Например, `<img src="https://upload.wikimedia.org/wikipedia/commons/b/bd/Struthio_camelus_portrait_Whipsnade_Zoo.jpg"/>`. Написать функцию `all_images_src(html)`, принимающую на вход длинную строчку с HTML-документом, а возвращающую список адресов всех картинок, встречающихся в этом документе (в том порядке, в котором они встречаются в документе).

In [None]:
def all_images_src(html):
    soup = BeautifulSoup(html, 'html.parser')

    img_tags = soup.find_all('img', src=True)

    image_sources = [img['src'] for img in img_tags]

    return image_sources

### Проверьте себя

In [None]:
all_images_src('<html><body><img src="https://upload.wikimedia.org/wikipedia/commons/b/bd/Struthio_camelus_portrait_Whipsnade_Zoo.jpg"/>')== ["https://upload.wikimedia.org/wikipedia/commons/b/bd/Struthio_camelus_portrait_Whipsnade_Zoo.jpg"]

True

In [None]:
all_images_src( ('<html><body><IMG src="test.jpg">\n'
                        '<p>Some text\n'
                        '<img SRC=\'well.png\'>\n'
                        '</p></body></html>') ) == ["test.jpg", "well.png"]

True

# Задание 4

Написать функцию `get_all_headings(url)`, принимающую на вход адрес страницы в Википедии и возвращающую список, состоящий из названий разделов статьи (в порядке появления в статье). Если такой страницы не существует, функция должна вернуть список, состоящей из строки `"Not found"`.

**Подсказка.** С помощью функции вашего браузера *inspect element* или аналогичной, исследуйте, в каких тегах и с какими классами находятся искомые заголовки. Не во всех страницах есть содержание! Например, ваш код должен корректно обрабатывать [эту страницу](https://ru.wikipedia.org/w/index.php?title=User%3AIlya_Voyager%2Fsandbox%2Fh2test&oldid=75055744).

In [None]:
def get_all_headings(url):
    try:
        response = requests.get(url)
        response.raise_for_status()

        soup = BeautifulSoup(response.text, 'html.parser')

        headings = [heading.get_text(strip=True) for heading in soup.select('h2 span.mw-headline')]

        return headings if headings else ['No headings found']

    except Exception as e:
        return ['Not found']

### Проверьте себя

In [None]:
get_all_headings("https://ru.wikipedia.org/w/index.php?title=User%3AIlya_Voyager%2Fsandbox%2Fh2test&oldid=75055744")== ['Заголовок', 'Ещё один заголовок', 'Третий заголовок']

True

In [None]:
get_all_headings("https://ru.wikipedia.org/wiki/Северовирджинская_кампания")== ['Предыстория',
                                                                          'Силы сторон',
                                                                          'Сражения',
                                                                          'Последствия',
                                                                          'Примечания',
                                                                          'Литература',
                                                                          'Ссылки']

True

In [None]:
get_all_headings("https://ru.wikipedia.org/wiki/This Page Will Never Exist") == ["Not found"]

True

_Источник: wiki.cs.hse.ru_