### Парсинг текста и HTML страниц

In [1]:
import re

In [36]:
text = 'Сегодня, 1.12.2019 мы договорились провести собрания 3.2.2021 за 20 минут. Завтра планы не обговорены'
rexp = '20'

# основная форма: результат сопоставления текста и регулярного выражения
match = re.search(rexp, text)

match
print(match.span())
print(match.group())

(14, 16)
20


In [25]:
match = re.findall('20..', text) # находим все значения + используем .. - регулярные знаки
match

['2019', '2021', '20 м']

In [26]:
match = re.findall('.\..', text) # любой символ может быть экранирован - его специальная функция отбрасывается
match

['1.1', '2.2', '3.2', 'т. ']

In [35]:
match = re.finditer('.\..', text) # получаем целый набор объектов
for elem in match: 
    print(elem.span())

(9, 12)
(12, 15)
(53, 56)
(72, 75)


In [37]:
split_re = '\. ' # разделение строки по определенному символу (набору символов)
match = re.split(split_re, text)
match

['Сегодня, 1.12.2019 мы договорились провести собрания 3.2.2021 за 20 минут',
 'Завтра планы не обговорены']

In [40]:
re.sub('2019', '2020', text, count = 1) # заменяем вхождение(я) на нужное нам, count = 1 - если хотим изменить только 1 раз
re.subn('2019', '2020', text, count = 1) # еще и сколько замен произведено возвращает

('Сегодня, 1.12.2020 мы договорились провести собрания 3.2.2021 за 20 минут. Завтра планы не обговорены',
 1)

### Другие методы на новом примере

In [74]:
text = 'Сегодня,,,,,,,,,, 1.12.2019 \n мы договорились провести собрания 3.2.2021 за 20 минут. \n Завтра планы не обговорены!!!!!!! Ничего? \n'
rexp = '20?' # вопрос говорит о том, что '0' может быть, а может и не быть

re.sub(rexp, '____', text)

'Сегодня,,,,,,,,,, 1.1____.____19 \n мы договорились провести собрания 3.____.________1 за ____ минут. \n Завтра планы не обговорены!!!!!!! Ничего? \n'

In [71]:
# заменяем все символы из определенного набора (группы)
re.sub('[,\.\?! ]+', '_', text) # + - любое количество повторяющихся знаков меняется на 1 символ

'Сегодня_1_12_2019_\n_мы_договорились_провести_собрания_3_2_2021_за_20_минут_\n_Завтра_планы_не_обговорены_Ничего_'

In [77]:
# заменяем все символы до определенного места (символа)
re.sub('.*\n', '<СТРОКА>\n', text)

'<СТРОКА>\n<СТРОКА>\n<СТРОКА>\n'

In [79]:
# заменяем любой пробельный символ
re.sub('\s', '_', text) # \S - НЕ пробельные символы, \d - все цифры, \D - все НЕ цифры, \w - буквенные символы

'Сегодня,,,,,,,,,,_1.12.2019___мы_договорились_провести_собрания_3.2.2021_за_20_минут.___Завтра_планы_не_обговорены!!!!!!!_Ничего?__'

### Парсинг HTML

In [None]:
page = '''
<html> 
    <head>
        <title>
        </title>
    </head>
     
    <body>
        <h1>HTML Parsing</h1> # заголовок первого уровня
    </body>
</html>
'''

<h1><u>HTML</u> <b>Parsing</b></h1>

In [87]:
import requests
URL = 'https://docs.python.org/3/library/re.html'
html = requests.get(URL)
print(html.text)


<!DOCTYPE html>

<html>
  <head>
    <meta charset="utf-8" />
    <meta name="viewport" content="width=device-width, initial-scale=1.0" /><meta name="generator" content="Docutils 0.17.1: http://docutils.sourceforge.net/" />
<meta property="og:title" content="re â Regular expression operations" />
<meta property="og:type" content="website" />
<meta property="og:url" content="https://docs.python.org/3/library/re.html" />
<meta property="og:site_name" content="Python documentation" />
<meta property="og:description" content="Source code: Lib/re/ This module provides regular expression matching operations similar to those found in Perl. Both patterns and strings to be searched can be Unicode strings ( str) as well as 8-..." />
<meta property="og:image" content="https://docs.python.org/3/_static/og-image.png" />
<meta property="og:image:alt" content="Python documentation" />
<meta name="description" content="Source code: Lib/re/ This module provides regular expression matching operations

In [89]:
from bs4 import BeautifulSoup

In [92]:
myhtml = BeautifulSoup(html.content, 'html.parser')
myhtml


<!DOCTYPE html>

<html>
<head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1.0" name="viewport"/><meta content="Docutils 0.17.1: http://docutils.sourceforge.net/" name="generator"/>
<meta content="re — Regular expression operations" property="og:title"/>
<meta content="website" property="og:type"/>
<meta content="https://docs.python.org/3/library/re.html" property="og:url"/>
<meta content="Python documentation" property="og:site_name"/>
<meta content="Source code: Lib/re/ This module provides regular expression matching operations similar to those found in Perl. Both patterns and strings to be searched can be Unicode strings ( str) as well as 8-..." property="og:description"/>
<meta content="https://docs.python.org/3/_static/og-image.png" property="og:image"/>
<meta content="Python documentation" property="og:image:alt"/>
<meta content="Source code: Lib/re/ This module provides regular expression matching operations similar to those found in Perl. Both pat

In [96]:
res = myhtml.find_all('span')
res

[<span></span>,
 <span class="pre">re</span>,
 <span class="pre">string</span>,
 <span class="pre">difflib</span>,
 <span class="pre">re</span>,
 <span id="re-regular-expression-operations"></span>,
 <span class="pre">re</span>,
 <span class="pre">str</span>,
 <span class="pre">bytes</span>,
 <span class="pre">'\'</span>,
 <span class="pre">'\\\\'</span>,
 <span class="pre">\\</span>,
 <span class="pre">\\</span>,
 <span class="pre">SyntaxError</span>,
 <span class="pre">'r'</span>,
 <span class="pre">r"\n"</span>,
 <span class="pre">'\'</span>,
 <span class="pre">'n'</span>,
 <span class="pre">"\n"</span>,
 <span class="std std-ref">compiled regular expressions</span>,
 <span class="pre">re</span>,
 <span id="re-syntax"></span>,
 <span>[Frie09]</span>,
 <span class="std std-ref">Regular Expression HOWTO</span>,
 <span class="pre">'A'</span>,
 <span class="pre">'a'</span>,
 <span class="pre">'0'</span>,
 <span class="pre">last</span>,
 <span class="pre">'last'</span>,
 <span class="pre