# Регулярные выражения

[Официальная документация Python](https://docs.python.org/3.9/library/re.html)

[Тренажер](https://regex101.com/)

[BS4 для парсинга более сложных HTML](https://www.crummy.com/software/BeautifulSoup/bs4/doc/)

In [3]:
import re
email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'

. — любой одиночный символ, кроме новой строки.
^ — начало строки.
$ — конец строки.
\d — любая цифра (эквивалентно [0-9]).
\w — любая буква, цифра или знак подчеркивания (эквивалентно [A-Za-z0-9_]или a-zA-Z0-9_ == \w).
\s — любой пробельный символ (пробел, табуляция, новая строка и т.д.).
[] — набор символов. Например, [a-z] — любой символ от 'a' до 'z'.
() - объединение
+ — одно или более вхождений предыдущего элемента.
* — ноль или более вхождений.
? — ноль или одно вхождение.
{n} — ровно n вхождений предыдущего элемента.
/ - экранирование.
\w+ - целое слово без пробелов. Например test_213
\W - \W\w+\W например !qwe?

In [16]:
email_str = """
Мои контакты: 
    Личный email: me@example.com
    Рабочий email: work@company.org
    Старый email: old_mail123@domain.co.uk
"""

In [None]:
email_pattern_for_rus = r'^[\w.\-]@yandex\.(ru|com|by)$'
email_pattern_for_rus = r'^[a-zA-Z0-9_.\-]{1, 25}@yandex\.(ru|com|by)$'


`re.search(pattern, string)` - ищет первое совпадение

`re.findall(pattern, string)` - ищет все совпадения

`re.sub(pattern, repl, string)` - заменяет все совпадения в строке на repl

In [17]:
from re import findall
email_pattern = r'[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+\.[a-zA-Z0-9-.]+'
emails = findall(email_pattern, email_str)
print('Найденные emails:', emails)

Найденные emails: ['me@example.com', 'work@company.org', 'old_mail123@domain.co.uk']


In [21]:
phone_str = """
Контакты: +1 (123) 456-7890, +44 (20) 7946-0958, +7 (495) 123-4567
"""
phone_pattern = r'\+\d{1,3} \(\d{1,4}\) \d{3}-\d{4}'
phones = findall(phone_pattern, phone_str)
print('Найденные phones:', phones)

Найденные phones: ['+1 (123) 456-7890', '+7 (495) 123-4567']


# requests

In [22]:
pip install requests


[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m A new release of pip is available: [0m[31;49m24.0[0m[39;49m -> [0m[32;49m24.2[0m
[1m[[0m[34;49mnotice[0m[1;39;49m][0m[39;49m To update, run: [0m[32;49mpip install --upgrade pip[0m
Note: you may need to restart the kernel to use updated packages.


In [23]:
import requests

In [24]:
response = requests.get('https://example.com')

In [28]:
if response.status_code == 200:
    print('Успешно!')
    print(response.text)
else:
    print(f'Ошибка запроса: {response:status_code}')

Успешно!
<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>T

In [40]:
data = {'username': 'admin', 'password': 'password'}
response = requests.post('https://example.com/login', data=data)

In [41]:
print(response.status_code)
print(response.url)

405
https://example.com/login


In [42]:
params = {'search': 'python', 'page': 2}
response = requests.get('https://example.com/search', params=params)

In [43]:
print(response.url)

https://example.com/search?search=python&page=2


In [44]:
headers = {'user-agent': 'Mozilla/5.0'}
response = requests.get('https://example.com', headers=headers)

In [45]:
print(response.text)

<!doctype html>
<html>
<head>
    <title>Example Domain</title>

    <meta charset="utf-8" />
    <meta http-equiv="Content-type" content="text/html; charset=utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1" />
    <style type="text/css">
    body {
        background-color: #f0f0f2;
        margin: 0;
        padding: 0;
        font-family: -apple-system, system-ui, BlinkMacSystemFont, "Segoe UI", "Open Sans", "Helvetica Neue", Helvetica, Arial, sans-serif;
        
    }
    div {
        width: 600px;
        margin: 5em auto;
        padding: 2em;
        background-color: #fdfdff;
        border-radius: 0.5em;
        box-shadow: 2px 3px 7px 2px rgba(0,0,0,0.02);
    }
    a:link, a:visited {
        color: #38488f;
        text-decoration: none;
    }
    @media (max-width: 700px) {
        div {
            margin: 0 auto;
            width: auto;
        }
    }
    </style>    
</head>

<body>
<div>
    <h1>Example Domain</h1>
    <p>This domai

In [54]:
response = requests.get('https://jsonplaceholder.typicode.com/posts')
json_data = response.json()
json_data

[{'userId': 1,
  'id': 1,
  'title': 'sunt aut facere repellat provident occaecati excepturi optio reprehenderit',
  'body': 'quia et suscipit\nsuscipit recusandae consequuntur expedita et cum\nreprehenderit molestiae ut ut quas totam\nnostrum rerum est autem sunt rem eveniet architecto'},
 {'userId': 1,
  'id': 2,
  'title': 'qui est esse',
  'body': 'est rerum tempore vitae\nsequi sint nihil reprehenderit dolor beatae ea dolores neque\nfugiat blanditiis voluptate porro vel nihil molestiae ut reiciendis\nqui aperiam non debitis possimus qui neque nisi nulla'},
 {'userId': 1,
  'id': 3,
  'title': 'ea molestias quasi exercitationem repellat qui ipsa sit aut',
  'body': 'et iusto sed quo iure\nvoluptatem occaecati omnis eligendi aut ad\nvoluptatem doloribus vel accusantium quis pariatur\nmolestiae porro eius odio et labore et velit aut'},
 {'userId': 1,
  'id': 4,
  'title': 'eum et est occaecati',
  'body': 'ullam et saepe reiciendis voluptatem adipisci\nsit amet autem assumenda provid

In [52]:
json_data = response.json()
for post in json_data:
    print(post['title'])

sunt aut facere repellat provident occaecati excepturi optio reprehenderit
qui est esse
ea molestias quasi exercitationem repellat qui ipsa sit aut
eum et est occaecati
nesciunt quas odio
dolorem eum magni eos aperiam quia
magnam facilis autem
dolorem dolore est ipsam
nesciunt iure omnis dolorem tempora et accusantium
optio molestias id quia eum
et ea vero quia laudantium autem
in quibusdam tempore odit est dolorem
dolorum ut in voluptas mollitia et saepe quo animi
voluptatem eligendi optio
eveniet quod temporibus
sint suscipit perspiciatis velit dolorum rerum ipsa laboriosam odio
fugit voluptas sed molestias voluptatem provident
voluptate et itaque vero tempora molestiae
adipisci placeat illum aut reiciendis qui
doloribus ad provident suscipit at
asperiores ea ipsam voluptatibus modi minima quia sint
dolor sint quo a velit explicabo quia nam
maxime id vitae nihil numquam
autem hic labore sunt dolores incidunt
rem alias distinctio quo quis
est et quae odit qui non
quasi id et eos tenet

In [58]:
cookies = {'session_id': '123456'}
rsponse = requests.get('https://example.com/profile', cookies=cookies)

In [63]:
print(rsponse.status_code)

404


In [65]:
url = 'https://example.com/image.jpg'
response = requests.get(url)

with open('image.jpg', 'wb') as file: # отправка 'rb' requests.post('https://example.com/upload', files=file) file = {'file': объект файл через with}
    file.write(response.content)

In [76]:
url = "https://quotes.toscrape.com/"

In [77]:
response = requests.get(url)

In [79]:
quotes = []
if response.status_code == 200:
    html = response.text
    pattern = r'<span.*?class="text".*?>(.*?)</span>'
    titles = re.findall(pattern, html)
    for s in titles:
        quotes.append(s)

In [80]:
quotes

['“The world as we have created it is a process of our thinking. It cannot be changed without changing our thinking.”',
 '“It is our choices, Harry, that show what we truly are, far more than our abilities.”',
 '“There are only two ways to live your life. One is as though nothing is a miracle. The other is as though everything is a miracle.”',
 '“The person, be it gentleman or lady, who has not pleasure in a good novel, must be intolerably stupid.”',
 '“Imperfection is beauty, madness is genius and it&#39;s better to be absolutely ridiculous than absolutely boring.”',
 '“Try not to become a man of success. Rather become a man of value.”',
 '“It is better to be hated for what you are than to be loved for what you are not.”',
 '“I have not failed. I&#39;ve just found 10,000 ways that won&#39;t work.”',
 '“A woman is like a tea bag; you never know how strong it is until it&#39;s in hot water.”',
 '“A day without sunshine is like, you know, night.”']

# ДЗ

### Задание1. Извлечение цитат и авторов с сайта.
1. Отправьте запрос на страницу http://quotes.toscrape.com/ и с помощью регулярных выражений извлеките:
 - Все цитаты (все, что внутри тега `<span class="text">`).
 - Все авторов (все, что внутри тега `<small class="author">`).
2. Выведите цитаты и их авторов в формате: "Цитата" - Автор.

### Задание 2. Поиск всех ссылок на странице.
1. Напишите регулярное выражение, которое извлекает все ссылки на странице http://quotes.toscrape.com/ (все теги <a href="...">).
2. Выведите список всех найденных URL.

### Задание 3. Извлечение данных о книгах.
1. Перейдите на сайт http://books.toscrape.com/ и отправьте запрос с помощью библиотеки requests.
2. Используйте регулярные выражения для извлечения:
- Названий всех книг на главной странице.
- Стоимости каждой книги (значение внутри тега `<p class="price_color">`).
3. Выведите данные в формате: "Название книги" - Цена.

### Задание 4. Дополнительное задание (для желающих). Извлечение и подсчет слов.
1. Выберите любую статью или новостную страницу и извлеките текст статьи с помощью requests и регулярных выражений.
2. Напишите регулярное выражение, которое находит все слова в тексте (слова могут содержать только буквы и цифры).
3. Подсчитайте количество всех слов и выведите список слов, которые встречаются чаще всего.