# Немного кода для обкачивания интернета
## Модуль [requests](https://realpython.com/python-requests/)

Давайте посмотрим html формат

Лучший учебник - https://www.w3schools.com

![](https://raw.githubusercontent.com/tbkazakova/python-datan_2023_minor/main/data/tag.png "tag")

Теперь скачаем html страничку

In [1]:
import requests

In [2]:
response = requests.get("https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/pervyy-v-rossii-detenysh-bolshoy-pandy/", verify=False)



В `response` теперь лежит ответ сервера. Это не просто html-код страницы, а еще дополнительная информация

In [3]:
response

<Response [200]>

In [10]:
response.status_code
# 200 - "всё работает"
# 404, 503 и др. - "произошла ошибка, не работает, такой страницы нет и т.д."

200

In [4]:
# Вывели первые 210 символов html
print(response.text[:210])

<!doctype html>
<html lang="ru">
<head>
	<meta name="yandex-verification" content="60483b355f0f5c1d" />
	<link rel="icon" type="image/x-icon" href="/local/templates/zoo/favicon.ico" />
		<meta http-equiv="Conte


### Что делать, если сайт защищается?

Если он защищается от краулеров, можно, например, представиться Мозиллой:

In [5]:
url = 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/pervyy-v-rossii-detenysh-bolshoy-pandy/'  # адрес страницы, которую мы хотим скачать
user_agent = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64)'  # хотим притворяться браузером

response = requests.get(url, headers={'User-Agent':user_agent}, verify=False)




Или использовать **специальную библиотеку**:

In [6]:
! pip3 install fake-useragent



In [7]:
from fake_useragent import UserAgent

In [8]:
user_agent = UserAgent().chrome
user_agent

'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/115.0.0.0 Safari/537.36 OPR/101.0.0.0'

In [9]:
response = requests.get("https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/pervyy-v-rossii-detenysh-bolshoy-pandy/",
                        headers={'User-Agent':user_agent},
                        verify=False)



Или **прокси-сервер**. Это дополнительное звено между вами и интернетом, через него пойдет подключение и сайт не будет знать, что это вы посылаете запрос.

Адреса прокси можно взять со специальных сайтов. И потом проверить, что они рабочие, прежде чем использовать https://checkerproxy.net/

[Пример сервиса](https://whatismyipaddress.com/ip-lookup), который позволяет с некоторой точностью отследить по IP адресу

Возвращаемся к скачиванию странички.

In [11]:
response.url  #ссылка

'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/pervyy-v-rossii-detenysh-bolshoy-pandy/'

In [12]:
print(response.text[:300])  #html код

<!doctype html>
<html lang="ru">
<head>
	<meta name="yandex-verification" content="60483b355f0f5c1d" />
	<link rel="icon" type="image/x-icon" href="/local/templates/zoo/favicon.ico" />
		<meta http-equiv="Content-Type" content="text/html; charset=UTF-8" />
<script type="text/javascript" data-skip-mo


Существует несколько вариантов, как достать что-то из определенного тега, например, достать заголовок:

- регулярные выражения (плохой вариант)
- специальные библиотеки питона, например, BeautifulSoup (bs4) или lxml (хороший вариант)


Регулярными выражениями мы уже умеем:

In [13]:
import re

In [70]:
code = response.text
re.search(r'<div class="dp-content-inner" style="color:#fff;">(.|\n)*?<\/div>', code).group()

'<div class="dp-content-inner" style="color:#fff;">\n\t\t\t\t\t\t\t\t\t\t\t\t\t\t\n\n<div class="dp-content border-block">\n\t<div class="container">\n\t\t<div class="row">\n\t\t\t<div class="dp-content-inner" style="color:#fff;">\n\t\t\t\t\t\t\t\t\t\t\t\tВ Московском зоопарке появился на свет первый в истории России детеныш большой панды. Это уникальное событие как для страны, так и для всего мирового природоохранного сообщества. Панды переданы Московскому зоопарку в рамках международной программы по сохранению, защите и исследованию больших панд. Миссия зоопарка – внести значимый вклад в создание резервной популяции этих редчайших животных.&nbsp;<br>\r\n &nbsp;<br>\r\n Малыш весом около 150 граммов родился у молодой пары больших панд — самца Жуи и самки Диндин. Пол детеныша пока неизвестен. Наша Диндин проявила большую заботу и сразу приняла малыша. За самкой круглосуточно наблюдают и берут все необходимые анализы.&nbsp;<br>\r\n &nbsp;<br>\r\n Первый в России детеныш большой панды по

Теперь умный способ:

In [23]:
from bs4 import BeautifulSoup

In [24]:
# инициализируем (создаем) soup из response.text (кода страницы)
soup = BeautifulSoup(response.text, 'html.parser')
print(soup.prettify()[:500])  # печатаем приукрашенный суп

<!DOCTYPE html>
<html lang="ru">
 <head>
  <meta content="60483b355f0f5c1d" name="yandex-verification"/>
  <link href="/local/templates/zoo/favicon.ico" rel="icon" type="image/x-icon"/>
  <meta content="text/html; charset=utf-8" http-equiv="Content-Type"/>
  <script data-skip-moving="true" type="text/javascript">
   (function(w, d, n) {var cl = "bx-core";var ht = d.documentElement;var htc = ht ? ht.className : undefined;if (htc === undefined || htc.indexOf(cl) !== -1){return;}var ua = n.userAgen


Если мы хотим вывести заголовок, нужно посмотреть, какими тегами он оформляется.

Заходим на наш сайт

На этом конкретном сайте заголовки лежат внутри тегов `cp-banner`

In [25]:
name = soup.find('cp-banner')
print(name.prettify())

<cp-banner>
 <template #title="">
  ПЕРВЫЙ В РОССИИ ДЕТЕНЫШ БОЛЬШОЙ ПАНДЫ
 </template>
 <template #description="">
 </template>
</cp-banner>



А внутри этого раздела текст заголовка лежит внутри первого тега `template`

In [26]:
name2 = name.find('template')
print(name2.prettify())

<template #title="">
 ПЕРВЫЙ В РОССИИ ДЕТЕНЫШ БОЛЬШОЙ ПАНДЫ
</template>



Нас интересует только текст, поэтому сделаем `get_text`

In [27]:
print(name2.get_text())

ПЕРВЫЙ В РОССИИ ДЕТЕНЫШ БОЛЬШОЙ ПАНДЫ


\- Почему мы не сделали сразу `soup.find('template')`?

\- Потому что тегов `template` несколько, а мы ищем уникальное обрамление нашего заголовка.

In [56]:
# Проверьте, что будет, если искать по "template"
# soup.find('template')

In [29]:
# Вот так мы попросили найти все теги template внутри cp-banner
soup.select('cp-banner > template')

[<template #title="">ПЕРВЫЙ В РОССИИ ДЕТЕНЫШ БОЛЬШОЙ ПАНДЫ</template>,
 <template #description=""></template>]

In [30]:
# Если мы уверены, что заголовок в первом из найденных тегов template,
# можем вывести первый тег
print(soup.select('cp-banner > template')[0])

# и его содержание
print('Содержание тега:')
print(soup.select('cp-banner > template')[0].get_text())

<template #title="">ПЕРВЫЙ В РОССИИ ДЕТЕНЫШ БОЛЬШОЙ ПАНДЫ</template>
Содержание тега:
ПЕРВЫЙ В РОССИИ ДЕТЕНЫШ БОЛЬШОЙ ПАНДЫ


А теперь найдём текст новости.

Он лежит в теге `<div class="dp-content-inner" style="color:#fff;">`

\- Как устроен этот тег?

\- div - имя тега, class и style - имена атрибутов, "dp-content-inner" и "color:#fff;" - значения атрибутов

In [32]:
post = soup.find('div', {'class':"dp-content-inner", "style":"color:#fff;"})  # вот так можно указать атрибуты тегов
print(post.prettify())

<div class="dp-content-inner" style="color:#fff;">
 <div class="dp-content border-block">
  <div class="container">
   <div class="row">
    <div class="dp-content-inner" style="color:#fff;">
     В Московском зоопарке появился на свет первый в истории России детеныш большой панды. Это уникальное событие как для страны, так и для всего мирового природоохранного сообщества. Панды переданы Московскому зоопарку в рамках международной программы по сохранению, защите и исследованию больших панд. Миссия зоопарка – внести значимый вклад в создание резервной популяции этих редчайших животных.
     <br/>
     <br/>
     Малыш весом около 150 граммов родился у молодой пары больших панд — самца Жуи и самки Диндин. Пол детеныша пока неизвестен. Наша Диндин проявила большую заботу и сразу приняла малыша. За самкой круглосуточно наблюдают и берут все необходимые анализы.
     <br/>
     <br/>
     Первый в России детеныш большой панды появился на свет после спаривания естественным путём. Чтобы помоч

In [33]:
text = post.get_text()  # получили текст
print(text)






												В Московском зоопарке появился на свет первый в истории России детеныш большой панды. Это уникальное событие как для страны, так и для всего мирового природоохранного сообщества. Панды переданы Московскому зоопарку в рамках международной программы по сохранению, защите и исследованию больших панд. Миссия зоопарка – внести значимый вклад в создание резервной популяции этих редчайших животных. 
  
 Малыш весом около 150 граммов родился у молодой пары больших панд — самца Жуи и самки Диндин. Пол детеныша пока неизвестен. Наша Диндин проявила большую заботу и сразу приняла малыша. За самкой круглосуточно наблюдают и берут все необходимые анализы. 
  
 Первый в России детеныш большой панды появился на свет после спаривания естественным путём. Чтобы помочь коллегам, в Москву на три месяца прибыл эксперт по размножению больших панд из Исследовательского центра по сохранению больших панд Китая. Специалисты не торопили животных, четко следовали указаниям китайских коллег, добив

In [34]:
print(text.strip())

В Московском зоопарке появился на свет первый в истории России детеныш большой панды. Это уникальное событие как для страны, так и для всего мирового природоохранного сообщества. Панды переданы Московскому зоопарку в рамках международной программы по сохранению, защите и исследованию больших панд. Миссия зоопарка – внести значимый вклад в создание резервной популяции этих редчайших животных. 
  
 Малыш весом около 150 граммов родился у молодой пары больших панд — самца Жуи и самки Диндин. Пол детеныша пока неизвестен. Наша Диндин проявила большую заботу и сразу приняла малыша. За самкой круглосуточно наблюдают и берут все необходимые анализы. 
  
 Первый в России детеныш большой панды появился на свет после спаривания естественным путём. Чтобы помочь коллегам, в Москву на три месяца прибыл эксперт по размножению больших панд из Исследовательского центра по сохранению больших панд Китая. Специалисты не торопили животных, четко следовали указаниям китайских коллег, добивались идеальных у

Вот здесь можно [посмотреть часть документации BeautifulSoup](https://www.crummy.com/software/BeautifulSoup/bs4/doc.ru/bs4ru.html)

### Пишем краулер

Теперь давайте обкачаем несколько новостей.

1. Где взять ссылки на новости?

In [35]:
news_url = 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/'
response = requests.get(news_url,
                        headers={'User-Agent':user_agent},
                        verify=False)
soup = BeautifulSoup(response.text, 'html.parser')



In [36]:
soup.find_all('a', {'class':"article-item-link"})

[<a class="article-item-link" href="/about-zoo/news/novosti-zooparka/moskovskiy-zoopark-prinyal-uchastie-v-dokuchaevskoy-konferentsii/">Читать новость</a>,
 <a class="article-item-link" href="/about-zoo/news/novosti-zooparka/v-zooparke-poyavilsya-na-svet-ptenets-redkogo-zhuravlya/">Читать новость</a>,
 <a class="article-item-link" href="/about-zoo/news/novosti-zooparka/7-noyabrya-na-odin-den-zakryvaetsya-vkhod-v-pavilon-zhivotnye-tropikov/">Читать новость</a>,
 <a class="article-item-link" href="/about-zoo/news/novosti-zooparka/vystavka-zoopark-v-pustyne/">Читать новость</a>]

2. Как вытащить ссылки из тегов?

In [37]:
for a in soup.find_all('a', {'class':"article-item-link"}):
    print(a['href'])

/about-zoo/news/novosti-zooparka/moskovskiy-zoopark-prinyal-uchastie-v-dokuchaevskoy-konferentsii/
/about-zoo/news/novosti-zooparka/v-zooparke-poyavilsya-na-svet-ptenets-redkogo-zhuravlya/
/about-zoo/news/novosti-zooparka/7-noyabrya-na-odin-den-zakryvaetsya-vkhod-v-pavilon-zhivotnye-tropikov/
/about-zoo/news/novosti-zooparka/vystavka-zoopark-v-pustyne/


3. Как ходить по страницам списков новостей, чтобы доставать ссылки?

In [40]:
news_urls = []
news_url = 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/?PAGEN_1='
for i in range(1, 6):
    response = requests.get(news_url+str(i),
                        headers={'User-Agent':user_agent},
                        verify=False)
    soup = BeautifulSoup(response.text, 'html.parser')
    for a in soup.find_all('a', {'class':"article-item-link"}):
        news_urls.append('https://www.moscowzoo.ru'+a['href'])
news_urls



['https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/moskovskiy-zoopark-prinyal-uchastie-v-dokuchaevskoy-konferentsii/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/v-zooparke-poyavilsya-na-svet-ptenets-redkogo-zhuravlya/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/7-noyabrya-na-odin-den-zakryvaetsya-vkhod-v-pavilon-zhivotnye-tropikov/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/vystavka-zoopark-v-pustyne/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/bud-bditelen/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/s-16-oktyabrya-moskovskiy-zoopark-nemnogo-korrektiruet-rezhim-raboty/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/v-moskovskom-zooparke-poselilis-marabu/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/vremenno-zakryt-dopolnitelnyy-vkhod-u-metro-barrikadnaya-/',
 'https://www.moscowzoo.ru/about-zoo/news/novosti-zooparka/milliony-let-nazad-start-novogo-sezona-v-detsko

In [43]:
news_texts = []
for link in news_urls:
    response = requests.get(link,
                        headers={'User-Agent':user_agent},
                        verify=False)
    soup = BeautifulSoup(response.text, 'html.parser')
    post = soup.find('div', {'class':"dp-content-inner", "style":"color:#fff;"}).get_text()
    news_texts.append(post.strip())



In [44]:
news_texts[8]

'Детский лекторий Московского зоопарка запускает новый сезон! Первый цикл \r\n\t мы посвящаем древним и далеким временам, когда жизнь на нашей планете еще только зарождалась. Мы отправимся в путешествие во времени, чтобы приблизиться к разгадке зарождения и эволюции жизни на Земле.\r\n\n\r\n\t 14 октября приглашаем на лекцию геолога и научного сотрудника Биологического музея им. К. А. Тимирязева Татьяны Кулашовой «Тайна зарождения жизни». Мы узнаем, какие теории возникновения жизни на Земле существуют, в чем суть гипотезы панспермии и возможно ли доказать теорию самозарождения.\r\n\n\r\n\t 21 октября состоится вторая лекция «Великий палеозойский подвиг жизни». Палеонтолог Анна Гуторова расскажет об одном из важных этапов освоения жизнью новых горизонтов - выход живых организмов из воды на сушу.\r\n\n\r\n\t 28 октября вместе с Лилией Щегловой мы поговорим о позднем палеозое, сказочном расцвете жизни каменноугольного периода, об удивительных животных, населявших нашу планету в этот перио

## Знакомство с NER
### (Named-entity recognition, извлечение именованных сущностей)

Именнованные сущности: персоны, локации, организации (что ещё?)

BIOES-схема: к метке сущности (например, PER для персон или ORG для организаций) добавляется префикс, который обозначает позицию токена в спане сущности:

B – beginning – первый токен в спане сущности, которая состоит из нескольких токенов;

I – inside – внутри спана;

О – outside – токен не относится ни к какой сущности;

E – ending – последний токен сущности, которая состоит из нескольких токенов;

S – single – сущность состоит из одного токена.

In [45]:
!pip3 install -U pip setuptools wheel
!pip3 install -U spacy



In [46]:
! python3 -m spacy download ru_core_news_sm

Collecting ru-core-news-sm==3.7.0
  Downloading https://github.com/explosion/spacy-models/releases/download/ru_core_news_sm-3.7.0/ru_core_news_sm-3.7.0-py3-none-any.whl (15.3 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m15.3/15.3 MB[0m [31m7.0 MB/s[0m eta [36m0:00:00[0m00:01[0m00:01[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('ru_core_news_sm')


In [47]:
import spacy

In [48]:
nlp = spacy.load("ru_core_news_sm")

In [71]:
doc = nlp(text.strip())
doc

В Московском зоопарке появился на свет первый в истории России детеныш большой панды. Это уникальное событие как для страны, так и для всего мирового природоохранного сообщества. Панды переданы Московскому зоопарку в рамках международной программы по сохранению, защите и исследованию больших панд. Миссия зоопарка – внести значимый вклад в создание резервной популяции этих редчайших животных. 
  
 Малыш весом около 150 граммов родился у молодой пары больших панд — самца Жуи и самки Диндин. Пол детеныша пока неизвестен. Наша Диндин проявила большую заботу и сразу приняла малыша. За самкой круглосуточно наблюдают и берут все необходимые анализы. 
  
 Первый в России детеныш большой панды появился на свет после спаривания естественным путём. Чтобы помочь коллегам, в Москву на три месяца прибыл эксперт по размножению больших панд из Исследовательского центра по сохранению больших панд Китая. Специалисты не торопили животных, четко следовали указаниям китайских коллег, добивались идеальных у

In [54]:
doc = nlp(text)

for ent in doc.ents:
    print(ent.text, ent.start_char, ent.end_char, ent.label_)

Московском зоопарке 19 38 ORG
России 73 79 LOC
Московскому зоопарку 211 231 LOC
Диндин 505 511 PER
Диндин 548 554 PER
России 686 692 LOC
Москву 794 800 LOC
Исследовательского центра по сохранению больших панд 861 913 ORG
Китая 914 919 LOC
Жуи 1131 1134 PER
Диндин 1137 1143 PER
Москву 1446 1452 LOC
Пекина 1495 1501 LOC
Фауна Китая 1536 1547 ORG
Московском зоопарке 1551 1570 ORG
России 1596 1602 LOC
Владимир Путин 1603 1617 PER
Китайской Народной Республики 1633 1662 LOC
Си Цзиньпин 1663 1674 PER
