# Расширяем область применения python
# Потом - python challenge

## 1. Библиотека requests

> Запросы HTTP лежат в основе всемирной сети. Каждый раз, когда вы открываете веб-страницу, ваш браузер направляет множество запросов на сервер этой веб-страницы. Сервер отвечает на них, пересылая все необходимые данные для вывода страницы, и ваш браузер отображает страницу, чтобы вы могли увидеть ее

> В целом этот процесс выглядит так: клиент (например браузер или скрипт Python, использующий библиотеку Requests) отправляет данные на URL, а сервер с этим URL считывает данные, решает, что с ними делать, и отправляет клиенту ответ. После этого клиент может решить, что делать с полученными в ответе данными.

In [8]:
import requests

# Получим html
response = requests.get('http://yandex.ru')
print(response.status_code)

200


    1XX — информация
    2XX — успешно
    3XX — перенаправление
    4XX — ошибка клиента (ошибка на вашей стороне)
    5XX — ошибка сервера (ошибка на их стороне)


> Заголовки используются для того, чтобы клиент и сервер понимали, как интерпретировать данные, отправляемые и получаемые в запросе и ответе. Например о кодировании контента 
   
    зачем кодировать контент?

In [11]:
response.headers

{'Accept-CH': 'Viewport-Width, DPR, Device-Memory, RTT, Downlink, ECT', 'Accept-CH-Lifetime': '31536000', 'Cache-Control': 'no-cache,no-store,max-age=0,must-revalidate', 'Content-Encoding': 'gzip', 'Content-Security-Policy': "connect-src blob: https://*.cdn.ngenix.net https://*.strm.yandex.net https://auto.ru https://favicon.yandex.net https://log.strm.yandex.ru https://mc.yandex.com https://thequestion.ru https://www.kinopoisk.ru https://zen-yandex-ru.cdnclab.net https://zen.me https://yandex.ru https://yastatic.net https://yastat.net 'self' https://portal-xiva.yandex.net wss://portal-xiva.yandex.net https://strm.yandex.ru https://mobile.yandex.net https://yabs.yandex.ru https://an.yandex.ru https://verify.yandex.ru https://*.verify.yandex.ru https://mc.yandex.ru https://yandex.st https://matchid.adfox.yandex.ru https://adfox.yandex.ru https://ads.adfox.ru https://ads6.adfox.ru https://jstracer.yandex.ru https://tps.doubleverify.com https://pixel.adsafeprotected.com https://amc.yandex

In [13]:
# Можем получить всю скачанную html (можно сохранить и открыть у себя локально, без интернета)
response.text

'<!DOCTYPE html><html   class="i-ua_js_no i-ua_css_standart i-ua_browser_unknown i-ua_browser-engine_unknown i-ua_browser_desktop document i-ua_platform_other"  lang="ru"><head  xmlns:og="http://ogp.me/ns#"><meta http-equiv=\'Content-Type\' content=\'text/html;charset=UTF-8\'><title>Яндекс</title><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/31/3111cd045f263a072f504780b8535840.png" sizes="76x76"><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/a2/a27610a94f8a0827a6a937c869d95a3e.png" sizes="120x120"><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/a7/a79b81aa025e9edb2244e38581c868ad.png" sizes="152x152"><link rel="apple-touch-icon" href="https://yastatic.net/s3/home-static/_/46/462e92b9e3792be37a1c3fdefb26af28.png" sizes="180x180"><link rel="alternate" type="application/rss+xml" title="Новости Яндекса" href="https://yandex.ru/company/press_releases/news.rss"><link rel="alternate" type="application/rss+xml" title

## Кроме html данные могут передаваться в виде json (понять можно по Content-Type в заголовках)
    
    JSON - Java Script Object Notation. Простым языком - это набор байт, формирующих строку, а в строке этой лежит словарь

In [17]:
"""
{
  "name": "Виктор",
  "age": 48,
  ""
}
"""

'\n{\n  "name": "Виктор",\n  "age": 48,\n  ""\n}\n'

In [19]:
# По апи можно посмотреть, например, где прямо сейчас находится МКС
response = requests.get("http://api.open-notify.org/iss-now.json")
response.headers

{'Server': 'nginx/1.10.3', 'Date': 'Sat, 28 May 2022 20:03:01 GMT', 'Content-Type': 'application/json', 'Content-Length': '115', 'Connection': 'keep-alive', 'access-control-allow-origin': '*'}

In [21]:
# Вывод ответа, полученного от сервера API
# метод json за нас переводит строку-словарь просто в словарь
json = response.json()
print(json)

{'message': 'success', 'timestamp': 1653768181, 'iss_position': {'longitude': '-130.5804', 'latitude': '-19.1001'}}


In [22]:
json['iss_position']

{'longitude': '-130.5804', 'latitude': '-19.1001'}

## 2. Регулярные выражения (Regex)

>Регулярками называются шаблоны, которые используются для поиска соответствующего фрагмента текста и сопоставления символов.

>Грубо говоря, у нас есть input-поле, в которое должен вводиться email-адрес. Но пока мы не зададим проверку валидности введённого email-адреса, в этой строке может оказаться совершенно любой набор символов, а нам это не нужно

In [2]:
import re

## Таблица символов

    Оператор	Описание
    .	        Один любой символ, кроме новой строки \n.
    ?	        0 или 1 вхождение шаблона слева
    +	        1 и более вхождений шаблона слева
    *	        0 и более вхождений шаблона слева
    \w	        Любая цифра или буква (\W — все, кроме буквы или цифры)
    \d	        Любая цифра [0-9] (\D — все, кроме цифры)
    \s	        Любой пробельный символ (\S — любой непробельный символ)
    \b	        Граница слова
    [..]	     Один из символов в скобках ([^..] — любой символ, кроме тех, что в скобках)
    \	        Экранирование специальных символов (\. означает точку или \+ — знак «плюс»)
    ^ и $	    Начало и конец строки соответственно
    {n,m}	    От n до m вхождений ({,m} — от 0 до m)
    a|b	        Соответствует a или b
    ()	        Группирует выражение и возвращает найденный текст
    \t, \n, \r	Символ табуляции, новой строки и возврата каретки соответственно

In [30]:
input_string = 'AV is largest\n Analytics\n community of India'
pattern = r'.'
print(re.findall(pattern, input_string))

['A', 'V', ' ', 'i', 's', ' ', 'l', 'a', 'r', 'g', 'e', 's', 't', ' ', 'A', 'n', 'a', 'l', 'y', 't', 'i', 'c', 's', ' ', 'c', 'o', 'm', 'm', 'u', 'n', 'i', 't', 'y', ' ', 'o', 'f', ' ', 'I', 'n', 'd', 'i', 'a']


In [35]:
# Извлекаем только слова
pattern = r'\w+'
print(re.findall(pattern, input_string))

['Amit', '34', '3456', '12', '05', '2007', 'XYZ', '56', '4532', '11', '11', '2011', 'ABC', '67', '8945', '12', '01', '2009']


# Задача: вернуть первые два символа каждого слова

In [36]:
# Извлекаем только цифры от 1-5
input_string = '1 2 445456 й фыовфыоытиплфаь ы8772н13109 8ыанке1637129г0с7ыфес86ф аф6 феы 751627891023456'
pattern = r'[1-5]'
print(re.findall(pattern, input_string))

['1', '2', '4', '4', '5', '4', '5', '2', '1', '3', '1', '1', '3', '1', '2', '5', '1', '2', '1', '2', '3', '4', '5']


In [34]:
# Извлекаем дату из строки вида День-Месяц-Год
pattern = r'\d{2}-\d{2}-\d{4}'
input_string = 'Amit 34-3456 12-05-2007, XYZ 56-4532 11-11-2011, ABC 67-8945 12-01-2009'
print(re.findall(pattern, input_string))

['12-05-2007', '11-11-2011', '12-01-2009']


# Задача извлечь слова, начинающиеся на гласные