In [42]:
import html.entities
import re
import math
import requests
from collections import Counter
import random
import html

In [3]:
big_text = requests.get('https://norvig.com/big.txt').text

# Регулярные выражения
Регулярное выражение - это компактная форма записи представления о коллекции строк.

## Основные цели при использовании регулярных выражений
1. Проверка
2. Поиск
3. Поиск и замена
4. Разбиение строк

# Символы и классы символов

При отсутствии квантификатора такое выражение подразумевает "совпадение с одним вхождением"
Если символ специального назначения должен использоваться как литерал, то он должен быть экранирован обратным слешем \
Спец. символы: \.~$?+*{}\[]()|
Символьный класс (множество символов) - это один или более символов заключенных в квадратные скобки.
\~ означает инвертирование значения. \[~0-9\] - это будет соответствовать любым символам кроме цифр



### Дополнительные конструкции для сокращения регулярных выражений внутри символного класса:

\d — соответствует любой одной цифре и заменяет собой выражение [0-9];
\D — исключает все цифры и заменяет [^0-9];
\w — заменяет любую цифру, букву, а также знак нижнего подчёркивания;
\W — любой символ кроме латиницы, цифр или нижнего подчёркивания;
\s — соответствует любому пробельному символу;
\S — описывает любой непробельный символ.

### Наиболее популярные методы, которые предоставляет модуль re:

re.match() - ищет в с начала строки
re.search() - ищет во всей строке первое вхождение
re.findall() - возвращает все подходящие под регулярку элементы
re.split() - разбивает по шаблону регулярного выражения
re.sub() - ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден строка остается неизменной
re.compile() - оформляет регулярное выражение как отдельный объект методы которого (описанные выше) можно применить к строке.

In [4]:
result = re.match(r'AV', 'AV Analytics Vidhya AV')
print (result)

<re.Match object; span=(0, 2), match='AV'>


In [5]:
result.group(0)

'AV'

In [6]:
result = re.search(r'AV', 'AV Analytics Vidhya AV')
print(result.group(0))

AV


In [7]:
result = re.findall(r"[AV][AV]", 'AV Analytics Vidhya AV')
result

['AV', 'AV']

In [8]:
re.findall(r"[\w][\w][\w][\w]", 'AV Analytics Vidhya AV')

['Anal', 'ytic', 'Vidh']

In [9]:
result = re.split(r'\s', 'AV Analytics Vidhya AV')
result

['AV', 'Analytics', 'Vidhya', 'AV']

## Квантификаторы
Записываются в виде {m,n} где m и n - это минимально и максимальное число совпадений с выражением,
при которых соответствие выражению с квантификатором будет считаться найденным.

Тут описаны квантификаторы:
<https://habr.com/ru/post/349860/>

In [10]:
result_1 = re.findall(r'V{1,1}V{1,1}', 'AVV Analytics Vidhya AV')
result_2 = re.findall(r'V{2,2}', 'AVV Analytics Vidhya AV')
result_3 = re.findall(r'V{2}', 'AVV Analytics Vidhya AV')
result_list = [str(result_1), str(result_2), str(result_3)]
print(result_1, result_2, result_3)
print("Одинаковые ли значения во всех трех случаях?:", len(set(result_list)) == 1)

['VV'] ['VV'] ['VV']
Одинаковые ли значения во всех трех случаях?: True


In [11]:
re.findall(r"[A-Za-z]+", 'AV Analytics Vidhya AV')

['AV', 'Analytics', 'Vidhya', 'AV']

In [12]:
# поиск слов с большой буквы
result = re.findall(r'[A-ZА-Я]\w+', 'AVV Analytics Vidhya AV')
result

['AVV', 'Analytics', 'Vidhya', 'AV']

In [13]:
# Количество слов в большом тексте.
len(re.findall(r'[A-ZА-Я]\w+', big_text))

112770

In [14]:
# Точка в регулярках это любой символ, крышечка: ^ - это отрицание стоящего справа класса символов.
# + - один и больше, ? после плюса означает минимальное число вхождений то есть 1 в данном случае.
re.findall(r'[^\s]+?', 'AVV Analytics Vidhya AV')

['A',
 'V',
 'V',
 'A',
 'n',
 'a',
 'l',
 'y',
 't',
 'i',
 'c',
 's',
 'V',
 'i',
 'd',
 'h',
 'y',
 'a',
 'A',
 'V']

In [15]:
# Пример поиска тега img
img_text = '<img src="URL" alt="альтернативный текст">'
re.findall(r'<img\s+[^>]*?src=[\w"]+[^>]*?>', img_text)

['<img src="URL" alt="альтернативный текст">']

# Группировка и сохранение
группировка через ()
или через |

In [16]:
re.findall(r'AV|Analytics|Vidhya', 'AVV Analytics Vidhya AV')

['AV', 'Analytics', 'Vidhya', 'AV']

In [17]:
# Сохранение выражения при группировке будет только указанное внутри скобок ()
re.findall(r'air(craft|plane)|jet', 'aircraft airplane jet')

['craft', 'plane', '']

In [18]:
# Для отмены сохранения следует перед открывающей скобкой ( поставить :?
re.findall(r'(air(?:craft|plane)|jet)', 'aircraft airplane jet')

['aircraft', 'airplane', 'jet']

In [19]:
# Пример использования пробельных символов и сохранения значений при группировке
# Ключ=Значение
re.findall(r'[ \t]*(\w+)+[ \t]*=[ \t]*(.+)', 'topic = physical geography.')

[('topic', 'physical geography.')]

## Обратные ссылки
Через них можно обратится к захваченному тексту. (нумерация начинается с 1-цы)
\i - где i это порядковый номер сохраняющей группы.

In [20]:
# поиск повторяющехся слов
# слово за ним пробельные символы потом опять это слово
re.findall(r'(\w+)\s+\1', 'test slova snova test test slova slova')

['test', 'slova']

### Присвоение имени сохраняющей группе
За котрывающей скобкой должно идти: ?P\<name>
Обращение к именованной сохраняющей группе: (?P=name)

In [21]:
# Пример выражения где сохраняющая группа с именем "word" будет соответстовать паре повторяющихся слов.
re.findall(r'(?P<word>\w+)\s+(?P=word)', 'test slova snova test test slova slova')

['test', 'slova']

# Проверки и флаги
Проверка \b (граница слова) требует, чтобы символ, предшествующий ей был символом "слова" (\w),
а символ следующий за ней, не был символом "слова" (\W), и наоборот.

In [22]:
# Вариант проверки границы слова
re.findall(r'\baircraft\b|\bairplane\b|\bjet\b', 'the jet and jetski are noisy')

['jet']

In [23]:
# Другой более компактный вариант с тем же смыслом
re.findall(r'\b(?:aircraft|airplane|jet)\b', 'the jet and jetski are noisy')

['jet']

## Регулярка с комменами
через флаг re.VERBOSE

In [24]:
re.findall("""
            ^[ \t]*             # начало строки и необязательные начальные пробелы
            (?P<key>\w+)        # текст ключа
            [ \t]*=[ \t]*       # знак равенства с возможными пробелами, окружающими его
            (?P<value>[^\n]+)   # текст значения
            (?<![ \t])          # негативная ретроспективная проверка на исключения
                                # завершающих пробелов (Не должны после равно быть только пробелы)
            """, 'Ключ=Значение', flags=re.VERBOSE)

[('Ключ', 'Значение')]

In [25]:
re.findall(r'\b\w+\b', 'AVV Analytics Vidhya AV')

['AVV', 'Analytics', 'Vidhya', 'AV']

In [26]:
re.findall(r'A.+y', 'AVV Analytics Vidhya AV')

['AVV Analytics Vidhy']

## Можно принимать решение о наличии соответствия в зависимости от наличия предыддущего совпадения
Для этого используются конструкции:
(?(id)yes_exp)
(?(id)yes_exp|no_exp)
id - это имя или номер предыдущей сохраняющей группы.
Если в для указанной группы совпадение было гобнаружено, здесь будет выполняться проверка на совпадение с выражением yes_exp
Если для указанной группы совпадение не было обнаружено, то будет выполняться проверка на совпадение с выражением no_exp.

In [27]:
# Попробуем извлечь имена файлов, которые упоминаются в атрибутах src тегов img в документе html.
mail_html = requests.get('https://mail.ru/').text
find_src_files = re.compile(r"""src=(["'])?([^"'>]+)(?(1)\1)""")
re.findall(find_src_files, mail_html)

[('"', '//rs.mail.ru/d703055.gif'),
 ('"', '//www.tns-counter.ru/V13a****mail_ru/ru/UTF-8/tmsec=mail_main/'),
 ('"',
  'https://rs.mail.ru/d1398861.gif?sz=&amp;rnd=168188364&ts=1635750070&sz='),
 ('"', '//top-fwz1.mail.ru/counter?id=110605;js=na;r='),
 ('"', 'https://ad.mail.ru/i1629.gif'),
 ('"', '//stat.radar.imgsmail.ru/update?p=headline&t='),
 ('"', '//rs.mail.ru/'),
 ('', 'a;!('),
 ('"', '//stat.radar.imgsmail.ru/update?p=headline&t='),
 ('', 'a;!('),
 ('"', '//r3.mail.ru/k?auth=1&rnd='),
 ('', '\r\n'),
 ('"', '//gstat.imgsmail.ru/gstat?logme='),
 ('"', '//rs.mail.ru/d'),
 ('"', 'https://limg.imgsmail.ru/informers/abp/px.js?ch=1'),
 ('"', 'https://limg.imgsmail.ru/informers/abp/px.js?ch=2'),
 ('"', '//rs.mail.ru/d'),
 ('"', '//stat.radar.imgsmail.ru/update?p=splash&t='),
 ('"', 'https://r.mradx.net/pictures/D5/986E0F.jpg'),
 ('"', 'https://r.mradx.net/pictures/AE/3BE700.jpg'),
 ('"', 'https://r.mradx.net/pictures/04/705CC8.jpg'),
 ('"', 'https://r.mradx.net/pictures/E7/928E54.jpg'

In [28]:
find_src_files_final = re.compile(r"""
(?x)                    # флаг VERBOSE позволяющий добавлять пропуски и комментарии
<img\s+                 # начало тега
[^>]*?                  # любые атрибуты, предшествующие src
src=                    # начало атрибута src
(?P<quote>["'])?        # необязательная открывающая ковычка сохраненная под именем quote (ковычки)
(?P<image>[^"']+)       # имя файла изображения сохраненное под именем image
(?(quote)(?P=quote))    # закрывающая ковычка (если была открывающая ковычка)
[^>]*?                  # любые атрибуты, следующие за src
>                       # конец тега
""",
                                  # flags=re.VERBOSE
                                  )
find_src_files_final.findall(mail_html)


  find_src_files_final = re.compile(r"""


[('"', '//rs.mail.ru/d703055.gif'),
 ('"', '//www.tns-counter.ru/V13a****mail_ru/ru/UTF-8/tmsec=mail_main/'),
 ('"',
  'https://rs.mail.ru/d1398861.gif?sz=&amp;rnd=168188364&ts=1635750070&sz='),
 ('"', '//top-fwz1.mail.ru/counter?id=110605;js=na;r='),
 ('"', 'https://ad.mail.ru/i1629.gif'),
 ('"', 'https://r.mradx.net/pictures/D5/986E0F.jpg'),
 ('"', 'https://r.mradx.net/pictures/AE/3BE700.jpg'),
 ('"', 'https://r.mradx.net/pictures/04/705CC8.jpg'),
 ('"', 'https://r.mradx.net/pictures/E7/928E54.jpg'),
 ('"', 'https://r.mradx.net/pictures/B1/00E371.jpg'),
 ('"', 'https://r.mradx.net/pictures/AA/7BEFFC.jpg'),
 ('"', 'https://r.mradx.net/pictures/6C/B7233D.jpg'),
 ('"', 'https://r.mradx.net/pictures/F2/49819C.jpg'),
 ('"', 'https://r.mradx.net/pictures/4F/C80F35.jpg'),
 ('"', 'https://r.mradx.net/pictures/E0/79843B.jpg'),
 ('"', 'https://r.mradx.net/pictures/C4/2775D3.jpg'),
 ('"', 'https://r.mradx.net/pictures/00/5D4F1E.png'),
 ('"',
  '//r3.mail.ru/k?fver=0&amp;mh=81e4121baf7286eca0b19

In [29]:
photos = requests.get('https://getrefe.tumblr.com/').text
find_src_files_final.findall(photos)

[('"', 'https://64.media.tumblr.com/avatar_0fa5f482ba82_128.pnj'),
 ('"',
  'https://64.media.tumblr.com/543468a7e05f41bbb896860af09c9027/tumblr_ow5i16pmBV1slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/543468a7e05f41bbb896860af09c9027/tumblr_ow5i16pmBV1slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/420abd8ab2d4cd35059f74a32e4a7eed/tumblr_ovy4svNxPg1slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/420abd8ab2d4cd35059f74a32e4a7eed/tumblr_ovy4svNxPg1slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/6a30da7d73487cbafd2c59c82e9c4df4/tumblr_ovuggjYrT61slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/6a30da7d73487cbafd2c59c82e9c4df4/tumblr_ovuggjYrT61slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/d9d9d1eeddc134d255fb2cd6970ebdeb/tumblr_ovhhmzRIMk1slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/d9d9d1eeddc134d255fb2cd6970ebdeb/tumblr_ovhhmzRIMk1slhhf0o1_1280.jpg'),
 ('"',
  'https://64.media.tumblr.com/26589a8059a4ea3

In [30]:
find_src_files_final.findall('<img src="XZ.jpg">')

[('"', 'XZ.jpg')]

## Поиск повторяющегося подряд 2 раза слова.

In [37]:
double_word_re = re.compile(r'\b(?P<word>\w+)\s(?P=word)(?!\w)', re.IGNORECASE)
# аналог
# double_word_re = re.compile(r'\b(?P<word>\w+)\s(?P=word)(?=\W)', re.IGNORECASE)
double_words_set = set([i.group("word") for i in double_word_re.finditer(big_text)])
for word in double_words_set:
    print(f'{word} is duplicated')

his is duplicated
Pago is duplicated
in is duplicated
come is duplicated
Ha is duplicated
was is duplicated
Sing is duplicated
her is duplicated
what is duplicated
including is duplicated
less is duplicated
should is duplicated
1 is duplicated
had is duplicated
with is duplicated
will is duplicated
is is duplicated
the is duplicated
never is duplicated
to is duplicated
faire is duplicated
you is duplicated
ho is duplicated
pink is duplicated
standing is duplicated
order is duplicated
and is duplicated
when is duplicated
that is duplicated
music is duplicated
so is duplicated


# Регулярка вынимающая из html текст

In [47]:
def html2text(html_text):
    def char_from_entity(match):
        code = html.entities.name2codepoint.get(match.group(1), 0xFFFD)
        return chr(code)
    text = re.sub(r'<!--(?:.|\n)*?-->', "", html_text)
    print(f'text1:\n{text}')
    text = re.sub(r'<[Pp][^>]*?(?!</)>', "\n\n", text)
    print(f'text2:\n{text}')
    text = re.sub(r'<[^>]*?>', "", text)
    print(f'text3:\n{text}')
    text = re.sub(r'&#(\d+);', lambda m: chr(int(m.group(1))), text)
    print(f'text4:\n{text}')
    text = re.sub(r'&([A-Za-z]+);', char_from_entity, text)
    print(f'text5:\n{text}')
    text = re.sub(r'\n(?:[ \xA0\t]+\n)+', "\n", text)
    print(f'text6:\n{text}')
    return re.sub(r'\n\n+', "\n\n", text.strip())

In [51]:
save_text = html2text(requests.get('https://coderoad.ru/27993785/%D0%BA%D0%B0%D0%BA-%D1%81%D0%BE%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D1%82%D1%8C-%D1%82%D0%B5%D0%BA%D1%81%D1%82-%D0%B2-%D0%B4%D1%80%D1%83%D0%B3%D0%BE%D0%BC-%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2%D0%BE%D0%BC-%D1%84%D0%B0%D0%B9%D0%BB%D0%B5-python').text)
with open("data/test2_text.txt", "a") as file:
    file.write(requests.get('https://coderoad.ru/27993785/%D0%BA%D0%B0%D0%BA-%D1%81%D0%BE%D1%85%D1%80%D0%B0%D0%BD%D0%B8%D1%82%D1%8C-%D1%82%D0%B5%D0%BA%D1%81%D1%82-%D0%B2-%D0%B4%D1%80%D1%83%D0%B3%D0%BE%D0%BC-%D1%82%D0%B5%D0%BA%D1%81%D1%82%D0%BE%D0%B2%D0%BE%D0%BC-%D1%84%D0%B0%D0%B9%D0%BB%D0%B5-python').text)
with open("data/test_text.txt", "a") as file:
    file.write(save_text)

text1:
   
<!doctype html>
<html lang="en">
<head>

<meta charset="utf-8">
<meta name="viewport" content="width=device-width, initial-scale=1, shrink-to-fit=no">



<link rel="stylesheet" href="/static/bootstrap/css/bootstrap.75f912b2cbba.css">
<link rel="stylesheet" href="/static/fontawesome/css/all.5fd5e45c6313.css">
<link rel="stylesheet" href="/static/fonts/Roboto:300,400,500,700.3f800ce36266">

<script data-ad-client="ca-pub-1392785890131419" async src="https://pagead2.googlesyndication.com/pagead/js/adsbygoogle.js"></script>



<title> как сохранить текст в другом текстовом файле python
 - CodeRoad</title>
 
	<meta name="keywords" content="python, python-2.7, text, printing, save">
	
		<meta name="description" content=" если это не метод класса, я бы предложил не использовать self: def write_random_text(self, amount, n): for i in range(1,n+1): with open(file{}.format(i),&#39;w&#39;) as f: f.write(re.sub(ur&#39;[^a-zA-Z,. ]&#39;,...">
	



<style>

.container-fluid , .navbar {
	ma