# Введение

Внутри ноутбуков Jupyter многое работает так же, как в обычных Python IDE, **но!**

- Интерактивный режим --> `print()` для вывода не нужен
- Поддержка разметки ([markdown](https://www.kaggle.com/code/cuecacuela/the-ultimate-markdown-cheat-sheet) и latex) из коробки
- Возможность влиять на отдельно взятые куски кода интерактивно (в этом главное удобство)

Если хотите установить новое ядро (с другой версией Python), на примере python3.11:

`python3.11 -m ipykernel install --user --name=py311 --display-name "Python3.11"`
- `--name` - внутреннее имя, которое будет использовано для при создании файла (на него накладываются те же ограничения, что и на нейминг файлов в ваших ОС)
- `--display-name` - как имя ядра будет отображаться в Jupyter



Из полезных расширений (установка через pip, после чего надо перезагрузить jupyter):
- [Resource usage](https://github.com/jupyter-server/jupyter-resource-usage)
- [Variable inspector](https://github.com/jupyterlab-contrib/jupyterlab-variableInspector)
- [Autocompletion](https://github.com/jupyter-lsp/jupyterlab-lsp?tab=readme-ov-file#installation)

Конкретно про autocompletion (установка):
1) `pip install 'jupyterlab>=4.1.0,<5.0.0a0' jupyterlab-lsp`
2) `pip install 'python-lsp-server[all]'`
3) Перезагрузить jupyter, если сервер поднят



---

# Модуль requests

*Скопипасчено местами [отсюда](https://habr.com/ru/articles/865040/)* (ещё можно посмотреть вот [это](https://youtu.be/RlccXUx4LVw?si=CnFw5HofG5w56r9M) видео)

In [None]:
!pip install requests

In [1]:
import requests

## Методы GET и POST

### GET

In [14]:
help(requests.get)

Help on function get in module requests.api:

get(url, params=None, **kwargs)
    Sends a GET request.
    
    :param url: URL for the new :class:`Request` object.
    :param params: (optional) Dictionary, list of tuples or bytes to send
        in the query string for the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response



In [2]:
# GET - получение данных
response_get = requests.get('https://search.wb.ru/exactmatch/ru/common/v9/search?ab_testing=false&appType=1&curr=rub&dest=-1124718&lang=ru&page=1&query=сумка женская&resultset=catalog&sort=popular&spp=30&suppressSpellcheck=false')
print(response_get.status_code)  # Проверка статус-кода
print(response_get.text[:100])  # Печать текста ответа

200
{"metadata":{"name":"сумка женская","catalog_type":"preset","catalog_value":"preset=77000978","normq


In [7]:
import json

jsonized_get = json.loads(response_get.text)

In [None]:
response_get.text

In [9]:
# Если хочется передать параметры, можно сделать это через словарь
params_dict = {'ab_testing': 'False',
 'appType': '1',
 'curr': 'rub',
 'dest': '-1124718',
 'lang': 'ru',
 'page': '1',
 'query': 'сумка женская',
 'resultset': 'catalog',
 'sort': 'popular',
 'spp': '30',
 'suppressSpellcheck': 'False'}

response = requests.get('https://search.wb.ru/exactmatch/ru/common/v9/search', params=params_dict)
print(response_get.status_code)  # Проверка статус-кода
print(response_get.text[:100])  # Печать текста ответа


200
{"metadata":{"name":"сумка женская","catalog_type":"preset","catalog_value":"preset=77000978","normq


In [11]:
# заголовок и cookies также можно передать через отдельные параметры

headers = {'User-Agent': 'Mozilla/5.0'}
cookies = {'session_id': '123456'}
response = requests.get('https://httpbin.org', headers=headers, cookies=cookies)


response.request.__dict__

{'method': 'GET',
 'url': 'https://httpbin.org/',
 'headers': {'User-Agent': 'Mozilla/5.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive', 'Cookie': 'session_id=123456'},
 '_cookies': <RequestsCookieJar[Cookie(version=0, name='session_id', value='123456', port=None, port_specified=False, domain='', domain_specified=False, domain_initial_dot=False, path='/', path_specified=True, secure=False, expires=None, discard=True, comment=None, comment_url=None, rest={'HttpOnly': None}, rfc2109=False)]>,
 'body': None,
 'hooks': {'response': []},
 '_body_position': None}

### POST

In [31]:
help(requests.post)

Help on function post in module requests.api:

post(url, data=None, json=None, **kwargs)
    Sends a POST request.
    
    :param url: URL for the new :class:`Request` object.
    :param data: (optional) Dictionary, list of tuples, bytes, or file-like
        object to send in the body of the :class:`Request`.
    :param json: (optional) A JSON serializable Python object to send in the body of the :class:`Request`.
    :param \*\*kwargs: Optional arguments that ``request`` takes.
    :return: :class:`Response <Response>` object
    :rtype: requests.Response



In [41]:
# POST - отправка данных
data = {'key': 'value'}
response_post = requests.post('https://httpbin.org/post', data=data)
print(response_post.status_code)  # Проверка статус-кода
print(response_post.text)


200
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "key": "value"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "9", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "python-requests/2.32.3", 
    "X-Amzn-Trace-Id": "Root=1-67b2ddc8-2b1d7c3775856aaa3cd16500"
  }, 
  "json": null, 
  "origin": "109.167.241.243", 
  "url": "https://httpbin.org/post"
}



__Между параметрами data и json метода post есть важная разница__:
- то, что передаётся в параметр `data`, будет представлено в качестве `application/x-www-form-urlencoded` формата
- то, что передаётся в параметр `json`, будет представлено в качестве сериализованного JSON-объекта (т.е. будет приведено к формату json перед отправкой)

In [43]:
# Пример того, как будет выглядеть параметр data

from urllib.parse import urlencode
data = {'key': 'value', 'another_key': 'another_value'}
encoded_data = urlencode(data)
print(encoded_data)

key=value&another_key=another_value


In [45]:
# Пример того, как будет выглядеть параметр json

json_example = {'key': 'value', 'another_key': 'another_value'}
jsonized_example = json.dumps(json_example)
print(jsonized_example)
print(type(jsonized_example))

{"key": "value", "another_key": "another_value"}
<class 'str'>


## Про парсинг

### BS4

BeautifulSoup — это библиотека для парсинга HTML и XML-документов в Python. Она помогает удобно извлекать данные из веб-страниц (парсить веб-страницы) - то есть HTML и XML разметку

Для установки:

`!pip install beautifulsoup4`

Пример использования:

In [15]:
from bs4 import BeautifulSoup

In [52]:
import requests

params = {"search": "сумка женская"}
headers = {"User-Agent": "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36", 
                               "Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8"}

response = requests.get("https://www.wildberries.ru/catalog/0/search.aspx", 
                        params=params, 
                       headers=headers)
print(response.status_code)
print(response.text[:200])

200
<!DOCTYPE html> <html lang="ru" translate="no" class="adaptive"> <head> <meta charset="UTF-8"> <meta name="format-detection" content="telephone=no"> <meta name="referrer" content="no-referrer-when-dow


In [57]:
# убедимся в том, запрос (атрибут request) содержит параметры и заголовки, которые мы прикрепили
response.request.__dict__  

{'method': 'GET',
 'url': 'https://www.wildberries.ru/catalog/0/search.aspx?search=%D1%81%D1%83%D0%BC%D0%BA%D0%B0+%D0%B6%D0%B5%D0%BD%D1%81%D0%BA%D0%B0%D1%8F',
 'headers': {'User-Agent': 'Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36', 'Accept-Encoding': 'gzip, deflate', 'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8', 'Connection': 'keep-alive'},
 '_cookies': <RequestsCookieJar[]>,
 'body': None,
 'hooks': {'response': []},
 '_body_position': None}

---
### Вставка про дисплей HTML-страницы в браузере

Если вы хотите глазами посмотреть на веб-страницу, которая содержится в response.text, можно сделать вот так:

In [53]:
with open("output.html", "w", encoding="utf-8") as f:
    f.write(response.text)


import webbrowser
webbrowser.open("output.html")

True

In [54]:
print(response.encoding)

ISO-8859-1


Здесь вы можете заметить, что мы получили проблему с кодировкой (то, что мы получили, requests выводит в UTF-8, хотя response.encoding выставлен в ISO-8859-1)

Обычно помогает `response.encoding = response.apparent_encoding`, давайте попробуем (автоматическое определение кодировки)

In [55]:
response.encoding = response.apparent_encoding

In [56]:
with open("output.html", "w", encoding="utf-8") as f:
    f.write(response.text)


import webbrowser
webbrowser.open("output.html")

True

Проблема решилась! Как мы видим, в ответ нам приходит html-страница, не содержащая каких-либо сумок из маркетплейса (на лекции и семинаре показывал, что для этого запрос надо отправлять на другой адрес [смотри ноутбук с семинара])

---

### BS4 (продолжение)

Для начала нужно создать объект-парсер (в терминах bs4 он называется суп и выбрать движок, который будет лежать в основе нашего супа)

TL;DR используйте `lxml` (который перед этим надо установить):

`!pip install lxml`

[Подробнее здесь](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [26]:
from bs4 import BeautifulSoup

In [27]:
response = requests.get("https://spb.hh.ru/search/vacancy?text=бизнес-аналитик&excluded_text=&area=2&salary=&currency_code=RUR&experience=between1And3&order_by=relevance&search_period=0&items_on_page=50&L_save_area=true&hhtmFrom=vacancy_search_filter",
                       headers={"User-Agent": "Mozilla/5.0 (X11; Linux x86_64; rv:133.0) Gecko/20100101 Firefox/133.0"}
                       )
print(response.status_code)
print(response.text[:200])
soup = BeautifulSoup(response.text, "lxml")  # "html.parser"

200
<!DOCTYPE html>
<html class="desktop" lang="ru"><!--request: 1740050901450dc87b803bb355dc52f8--><head><meta http-equiv="Content-Type" content="text/html; charset=UTF-8"><meta http-equiv="X-UA-Compatib


In [3]:
from bs4 import BeautifulSoup


help(BeautifulSoup)

Help on class BeautifulSoup in module bs4:

class BeautifulSoup(bs4.element.Tag)
 |  BeautifulSoup(markup='', features=None, builder=None, parse_only=None, from_encoding=None, exclude_encodings=None, element_classes=None, **kwargs)
 |  
 |  A data structure representing a parsed HTML or XML document.
 |  
 |  Most of the methods you'll call on a BeautifulSoup object are inherited from
 |  PageElement or Tag.
 |  
 |  Internally, this class defines the basic interface called by the
 |  tree builders when converting an HTML/XML document into a data
 |  structure. The interface abstracts away the differences between
 |  parsers. To write a new tree builder, you'll need to understand
 |  these methods as a whole.
 |  
 |  These methods will be called by the BeautifulSoup constructor:
 |    * reset()
 |    * feed(markup)
 |  
 |  The tree builder may call these methods from its feed() implementation:
 |    * handle_starttag(name, attrs) # See note about return value
 |    * handle_endtag(na

In [35]:
soup = BeautifulSoup(response.text, "lxml")

vacancies_list = soup.find("div", {"id": "a11y-main-content"})
all_options = vacancies_list.find_all("div", class_="magritte-redesign")
print(len(all_options))
print(all_options[0])

20
<div class="magritte-redesign"><div class="magritte-card___bhGKz_6-1-31 magritte-card-border-radius-24___o72BE_6-1-31 magritte-card-stretched___0Uc0J_6-1-31 magritte-card-action___4A43B_6-1-31 magritte-card-shadow-on-hover___BoRL3_6-1-31 magritte-card-with-border___3KsrG_6-1-31" data-qa="vacancy-serp__vacancy vacancy-serp__vacancy_premium" style="padding:12px" tabindex="0"><div class="magritte-icon-dynamic___KJ4yJ_8-0-0 magritte-icon-dynamic_full-width___vgWH5_8-0-0"><div class="magritte-flex-container___CVFEY_6-1-31"><div class="magritte-text-dynamic___71-Al_3-0-27 magritte-text-dynamic_stretched___wzj-Q_3-0-27"><div class="vacancy-card--n77Dj8TY8VIUF0yM font-inter"><div class="vacancy-info--ieHKDTkezpEj0Gsx"><div class="wide-container--ZEcmUvt6oNs8OvdB"><div class="actions-container-wide--alaHL_C4vWy2UKwe"></div></div><div class="narrow-container--HaV4hduxPuElpx0V"><div class="actions-container-narrow--ERhWyxHyP98YkBk2"></div></div><h2 class="bloko-header-section-2" data-qa="bloko

In [84]:
import unicodedata

text_found = all_options[1].find("span", class_="magritte-text___pbpft_3-0-27 magritte-text_style-primary___AQ7MW_3-0-27 magritte-text_typography-label-1-regular___pi3R-_3-0-27")

if text_found:
    print(unicodedata.normalize("NFKC", text_found.text))

150 000 – 200 000 ₽ за месяц, на руки


__Какие есть альтернативы__:
- Selenium (для парсинга динамического контента)
- Scrapy (полный пайплайн скрейпинга, а не только парсинг)