In [None]:
- title: Занятие 4
- author: Svetlana Medvedeva
- date: 2024-09-24
- slug: 2024_lpr_lab04
- ipynb_url: download/2024_lpr_lab04.ipynb
- test_link: https://cs.mipt.ru:44367/cgi-bin/new-client?contest_id=20404
- test_comment: Контест для выполнения
- test_link_alt: https://olymp3.vdi.mipt.ru/cgi-bin/new-client?contest_id=20404
- test_comment_alt: (альтернативная ссылка)

# Регулярные выражения

**Регулярное выражение** — это строка, задающая шаблон поиска подстрок в тексте. Одному шаблону может соответствовать много разных строчек. 

В состав регулярных выражений или кратко регулярка входят обычные символы и специальные командные последовательности.
К примеру, \d задаёт любую цифру, а \d+ — задает любую последовательность из одной или более цифр. 

Любая строка (в которой нет символов .^$*+?{}[]\|()) сама по себе является регулярным выражением. Так, выражению 'Abcd' будет соответствовать строка 'Abcd' и только она. В регулярных выражениях имеет значение регист, т. е. они являются регистрозависимыми. Это значит, что строка 'abcd' (с маленькой буквы) уже не будет соответствовать выражению выше. 

Cпецсимволы .^$*+?{}[]\|() в регулярках являются управляющими конструкциями. Если эти символы нужно использовать просто как символы, то требуется их экранирование. Для этого нужно поставить перед ними знак \. 

Рассмотрим шаблоны, соответствующие одному символу:
    
**.** - один любой символ за исключением новой строки \n.
Пример: М.Т. -> МФТИ, МГТУ
    
**\d** - любая цифра.
Пример: F\d\d -> F54, FF60

**\D** - любой символ, кроме цифры.
Пример: 926\D123 -> 926)123, 1926-1234, a926b123 

**\s** - лЛюбой пробельный символ (пробел, табуляция, конец строки и т.п.).
Пример: экз\sамен -> экз амен, экз
амен

**\S** - любой непробельный символ.
Пример: \S101-> !10145, ит101, b101

**\w** - любая буква (то, что может быть частью слова), а также цифры и _.
Пример: \w\w\w -> Год, f_3, qwert

**\W** - любая не-буква, не-цифра и не подчёркивание.
Пример: abc\W -> abc!, abc=

**[..]** - один из символов в скобках, а также любой символ из диапазона a-b.
Пример: [0-9][0-9A-Fa-f] -> 12, 1F, 4B

**[^..]** - любой символ, кроме перечисленных.
Пример: <[^>]> -> 	<1>, <a>, но вот <>> под этот шаблон не подойдёт
    
**^** — начало текста (строки)

**$** — конец текста (строки)

Примеры исключений символов с помощью ^ внутри []:
    
[^0-9]  — любой символ, кроме цифр

[^ёЁ]  — любой символ, кроме буквы «ё»

[^а-в8]  — любой символ, кроме букв «а», «б», «в» и цифры 8

## Квантификаторы (указание количества повторений)

**{n}** - Ровно n повторений

**{m,n}** - От m до n повторений включительно

**{m,}** - Не менее m повторений

**{,n}** - Не более n повторений

**?** - Ноль или одно вхождение, синоним {0,1}

***** - Ноль или более, синоним {0,}

**+** - Одно или более, синоним {1,}

**{,n}** - Не более n повторений


**Пример:**

Допустим нужно проверить корректность введённого в input-поле e-mail. Это можно сделать с помощью регулярных выражений.

r'^[a-zA-Z0-9_.+-]+@[a-zA-Z0-9-]+(?:\.[a-zA-Z0-9-]+)+$'

Регулярные выражения позволяют:
    
* определить нужный формат, например телефонного номера или email-адреса;

* разбить строки на подстроки;

* проводить поиск, замену и извлечение символов;

* и т. д.
    
Дополнительные примеры по регулярным выражениям: https://habr.com/ru/articles/545150/

Для работы с регулярками в питоне есть модуль re. Перед началом работы его нужно импортировать:

In [12]:
import re

Метод **re.match(pattern, string)** ищет по заданному шаблону в начале строки.

In [13]:
result = re.match(r'.y', 'Python was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result)

<re.Match object; span=(0, 2), match='Py'>


Искомая подстрока найдена, но чтобы вывести её содержимое, применим метод group(). Здесь используется «r» перед строкой шаблона, чтобы показать, что это «сырая» строка в Python.

In [14]:
result = re.match(r'.y', 'Python was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result.group(0))

Py


Есть методы start() и end() для того, чтобы узнать начальную и конечную позицию найденной строки.

In [4]:
result = re.match(r'.y', '.ython was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result.start())
print(result.end())

0
2


**re.search(pattern, string)** похож на match(), но ищет не только в начале строки. Этот метод ищет по всей строке, но возвращает только первое найденное совпадение.

In [5]:
result = re.search(r'Py', 'Python was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result.group(0))

Py


Для того, чтобы вернуть список всех найденных совпадений есть метод **re.findall(pattern, string)**.

In [6]:
result = re.findall(r'Py', 'Python was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result)

['Py', 'Py']


**re.split(pattern, string, [maxsplit=0])** разделяет строку по заданному шаблону.

In [7]:
result = re.split(r'Py', 'Python was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result)

['', 'thon was created in the early 1990s by Guido van Rossum. ', 'thon is a high-level, general-purpose programming language.']


Метод **re.sub(pattern, repl, string)** ищет шаблон в строке и заменяет его на указанную подстроку. Если шаблон не найден, строка остается неизменной.

In [8]:
result = re.sub(r'Py', 'Cy', 'Python was created in the early 1990s by Guido van Rossum. Python is a high-level, general-purpose programming language.')
print(result)

Cython was created in the early 1990s by Guido van Rossum. Cython is a high-level, general-purpose programming language.


Можно собрать регулярное выражение в отдельный объект, который может быть использован для поиска. Для этого есть метод **re.compile(pattern, repl, string)**.

In [10]:
pattern = re.compile(r'.12')
result1 = pattern.findall('В 12 часов началось собрание.')
print(result1)
result2 = pattern.findall('В 12 часов началось собрание, а в 12:30 завершилось.')
print(result2)

[' 12']
[' 12', ' 12']


Пример: 
    
Вернуть первое слово из строки.

In [11]:
result = re.findall(r'^\w+', 'Python is a high-level, general-purpose programming language.')
print(result)

['Python']


Пример: 
    
Вернуть первые два символа каждого слова.

Вариант 1: используя \w, вытащить два последовательных символа, кроме пробельных, из каждого слова:

In [12]:
result = re.findall(r'\w\w', 'Python is a high-level, general-purpose programming language.')
print(result)

['Py', 'th', 'on', 'is', 'hi', 'gh', 'le', 've', 'ge', 'ne', 'ra', 'pu', 'rp', 'os', 'pr', 'og', 'ra', 'mm', 'in', 'la', 'ng', 'ua', 'ge']


Вариант 2: вытащить два последовательных символа, используя символ границы слова (\b):

In [13]:
result = re.findall(r'\b\w.', 'Python is a high-level, general-purpose programming language.')
print(result)

['Py', 'is', 'a ', 'hi', 'le', 'ge', 'pu', 'pr', 'la']


Пример: 
    
Вернуть домены из списка email-адресов.

In [14]:
result = re.findall(r'@\w+', 'abc.test@gmail.com, xyz@test.in, test1@gmail.com, first.1@rest.biz')
print(result)

['@gmail', '@test', '@gmail', '@rest']


Как видно «.com», «.in» и т. д. не попали в результат. Исправим это.

In [15]:
result = re.findall(r'@\w+.\w+', 'abc.test@gmail.com, xyz@test.in, test1@gmail.com, first.1@rest.biz')
print(result)

['@gmail.com', '@test.in', '@gmail.com', '@rest.biz']


Другой вариант решения:

In [16]:
result = re.findall(r'@\w+.(\w+)', 'abc.test@gmail.com, xyz@test.in, test1@gmail.com, first.1@rest.biz')
print(result)

['com', 'in', 'com', 'biz']


**Упражнение 1.** Считать через `input` строку, состоящую из нескольких слов. Извлечь слова, начинающиеся на гласную.

In [19]:
a = [re.findall(r'^[aeiou][a-zA-Z]*', i) for i in input().split()]
for i in a:
    if len(i) >= 1:
        print(i[0])

{'i', 'e', 'a', 'u'}


**Упражнение 2.** Проверить формат телефонного номера. Номер должен быть длиной 10 знаков и начинаться с 8 или 9. Есть список телефонных номеров, которые вводятся с клавиатуры и нужно проверить их корректность.

In [10]:
s = input().split()
for i in s:
    if len(i) == 10 and i[0] in ('8', '9'):
        print(i, '- Correct')
    else:
        print(i, '- Incorrect')

9119988733 - Correct


**Упражнение 3.**  Нужно извлечь информацию из html-файла, заключенную между <td> и </td>, кроме первого столбца с номером. Также будем считать, что html-код содержится в строке.

Пример содержимого html-файла:
    
1NoahEmma2LiamOlivia3MasonSophia4JacobIsabella5WilliamAva6EthanMia7MichaelEmily

In [15]:
text = input()
rows = re.findall(r'<tr>(.*?)</tr>', text)
rows
for row in rows:
    print(*re.findall('<td>(.*?)</td>', row)[1:])

**Упражнение 4.**  В России применяются регистрационные знаки нескольких видов.
Общего в них то, что они состоят из цифр и букв. Причём используются только 12 букв кириллицы, имеющие графические аналоги в латинском алфавите — А, В, Е, К, М, Н, О, Р, С, Т, У и Х.


У частных легковых автомобилях номера — это буква, три цифры, две буквы, затем две или три цифры с кодом региона. У такси — две буквы, три цифры, затем две или три цифры с кодом региона. Есть также и другие виды, но в этой задаче они не понадобятся.


Вам потребуется определить, является ли последовательность букв корректным номером указанных двух типов, и если является, то каким.


На вход даются строки, которые претендуют на то, чтобы быть номером. Определите тип номера. Буквы в номерах — заглавные русские. Маленькие и английские для простоты можно игнорировать.

Примеры:

С227НА777 -> Private 

КУ22777 -> Taxi 

М227К19У9 -> Fail  

Т22В7477 -> Fail

In [16]:
s = input().split()
for number in s:
    is_private = False
    is_taxi = False
    if len(number) in (8, 9):
        is_private = bool(re.match(r'[АВЕКМНОРСТУХ]\d{3}[АВЕКМНОРСТУХ]{2}\d{3}', number)) or bool(re.match(r'[АВЕКМНОРСТУХ]\d{3}[АВЕКМНОРСТУХ]{2}\d{2}', number))
    if len(number) in (7, 8):
        is_taxi = bool(re.match(r'[АВЕКМНОРСТУХ]{2}\d{5}', number)) or bool(re.match(r'[АВЕКМНОРСТУХ]{2}\d{6}', number))
    if not(is_private or is_taxi):
        print(number, '-> Fail')
    else:
        print(number, end=' ')
        print('-> Private' if is_private else '-> Taxi')

С227НА777 -> Private


**Упражнение 5.** У вас есть текст сообщения, в котором не везде указано правильное время. Требуется это исправить. Для этого нужно заменить все вхождения времени на строку (TBD). Время — это строка вида HH:MM:SS или HH:MM, в которой HH — число от 00 до 23, а MM и SS — число от 00 до 59.

Пример:

Ввод:

В 09:00 начнётся лекция, а в 09:00:01 некоторые студенты только собираются на пары. 
В 25:50 пар нет!

Вывод:

В (TBD) начнётся лекция, а в (TBD) некоторые студенты только собираются на пары. 
В 25:50 пар нет!

In [17]:
s = input()
s = re.sub(r'[01][0-9]:[0-5][0-9]:[0-5][0-9]', '(TBD)', s)
s = re.sub(r'2[0-3]:[0-5][0-9]:[0-5][0-9]', '(TBD)', s)
s = re.sub(r'[01][0-9]:[0-5][0-9]', '(TBD)', s)
s = re.sub(r'2[0-3]:[0-5][0-9]', '(TBD)', s)
print(s)

В (TBD) начнётся лекция, а в (TBD) некоторые студенты только собираются на пары.  В 25:50 пар нет!


**Упражнение 6.** В одной организации потребовалось запутать финансовую документацию. Но важно, чтобы это было обратимо.
В организации придумали вариант заменить каждое целое число (последовательность цифр) на его куб. Напишите код для предложенного алгоритма.

Пример:

Ввод:

Было закуплено 12 единиц техники 
по 410.37 рублей.

Вывод:

Было закуплено 1728 единиц техники 
по 68921000.50653 рублей.

In [18]:
s = input()
n = re.findall(r'\d+', s)
for i in n:
    s = re.sub(i, str(int(i)**3), s)
print(s)

Было закуплено 1728 единиц техники  по 68921000.50653 рублей.


# Статистика в питоне

Модуль statistics предоставляет функции для вычисления математической статистики числовых (вещественных) данных.

Функции, которые вычисляют среднее или типичное значение для генеральной совокупности или выборки:

* mean()	Среднее арифметическое («среднее») данных.

* fmean()	Быстрое арифметическое с плавающей точкой. Функция statistics.fmean() сначала преобразует элементы последовательности data в вещественные числа, рассчитывает и возвращает примерное среднее арифметическое. Функция statistics.fmean() работает быстрее, чем функция statistics.mean() и всегда возвращает float.

* median()	Медиана (среднее значение) данных.

* median_grouped()	Медиана или 50й процентиль сгруппированных данных.

* mode()	Мода (наиболее распространенное значение) дискретных или номинальных данных.

* stdev()	Стандартное отклонение выборки данных.

* variance()	Выборочная дисперсия данных.

In [2]:
import statistics

a = [-1.0, 2.5, 3.25, 5.75]
statistics.variance(a)

7.770833333333333

**Упражнение 7.** С клавиутур в одной строке через пробле вводится последовательность чисел. Вычислите среднее, медиану и моду для введённых чисел.

In [3]:
a = list(map(int, input().split()))

print(statistics.mean(a))
print(statistics.median(a))
print(statistics.mode(a))

3
3
3


**Упражнение 8\*.** Введите с клавиатуры две последовательности чисел (каждая последовательность вводится в одной строке, числа последовательности разделены пробелом).

Нужно рассчитать среднее, медиану, моду, стандартное отклонение и дисперсию для первой и второй последовательности чисел, а также последовательности полученной объединением этих двух последовательностей. Выводимые значения округляются до сотых.

Результат нужно записать в файл с названием statistics_res.csv в формате:

Последовательность 1:

Среднее - 2.63, Медиана - 2.88, Мода -1.0, Стандартное отклонение - 2.79 Дисперсия - 7.77

Последовательность 2:

.......


In [4]:
a = list(map(int, input().split()))
b = list(map(int, input().split()))
c = a + b

mean_a = round(statistics.mean(a), 2)
mean_b = round(statistics.mean(b), 2)
mean_c = round(statistics.mean(c), 2)
mode_a = round(statistics.mode(a), 2)
mode_b = round(statistics.mode(b), 2)
mode_c = round(statistics.mode(c), 2)
median_a = round(statistics.median(a), 2)
median_b = round(statistics.median(b), 2)
median_c = round(statistics.median(c), 2)

stdev_a = round(statistics.stdev(a), 2)
stdev_b = round(statistics.stdev(b), 2)
stdev_c = round(statistics.stdev(c), 2)

var_a = round(statistics.variance(a), 2)
var_b = round(statistics.variance(b), 2)
var_c = round(statistics.variance(c), 2)

with open("statistics_rec.csv", "a") as f:
    f.write("Последовательность 1:\n \n" f"Среднее - {mean_a}, Медиана - {median_a}, Мода - {mode_a}, Стандартное отклонение - {stdev_a}, Дисперсия - {var_a}\n \n")
    f.write("Последовательность 2:\n \n" f"Среднее - {mean_b}, Медиана - {median_b}, Мода - {mode_b}, Стандартное отклонение - {stdev_b}, Дисперсия - {var_b}\n \n")
    f.write("Последовательность 3:\n \n" f"Среднее - {mean_c}, Медиана - {median_c}, Мода - {mode_c}, Стандартное отклонение - {stdev_c}, Дисперсия - {var_c}\n \n")