In [14]:
import re

# (?s) = re.DOTALL

### Основные задачи

#### Задача 1. 

Найти ценники в формате "10000 руб. 00 коп.", при этом:
- "руб." и "коп." не обязательно сокращены;
- кол-во копеек не может быть трёхзначным;
- кол-во рублей может быть нулевым, но не может быть некорректно записанным числом типа "0123 рубля")

In [49]:
import re

text = '1 руб. 30 коп.    1200 рублей 00 копеек     173 рубля 03 копейки   1 рубль 01 копейка     0123 рубля 00 копеек'

# pattern = re.compile(r"\b([1-9]\d*|0) руб(\.|лей|ля|ль) \d{2} коп(\.|еек|ейки|ейка)") # решение от Александры
pattern = re.compile(r"\b[1-9](\d+|) руб(\.|лей|ля|ль) \d{2} коп(\.|еек|ейки|ейка)")
re.sub(pattern, '***', text)



'***    ***     ***   ***     0123 рубля 00 копеек'

#### Задача 2.

Некоторые любят выделять особо важные места в тексте с помощью нижнего подчёркивания, например: "...здесь \_очень важно\_ отметить..." (дело в том, что нижние подчеркивания в некоторых редакторах автоматически превращаются в курсив).

Ищем такие выделения, но не длиннее 5 слов.

In [92]:
text = ''''важное1: _это очень важная мысль_ важное2: _Кукундер_. важное3:_это пять слов ку-ку-кундер слов_
важное4: _это_
важное5: _это шесть длинных русских ненавязчивых слов_'''


pattern = re.compile(r"(?i)\b_([-а-я0-9]+\s){0,4}[-а-я0-9]+_\b")
re.sub(pattern, '***', text)


"'важное1: *** важное2: ***. важное3:***\nважное4: ***\nважное5: _это шесть длинных русских ненавязчивых слов_"

#### Задача 3.

Найти в тексте все куски, которые взяты в круглые скобки. Считаем, что вложенных скобок нет.

In [169]:
text = ''''(Это1) текст с (непересекающимися:( D)) скобками). Но! (Скобки
могут. переноситься) на строку и (между ними может быть 
сколько угодно слов, цифр123 и вообще - все!) НО МОЖЕТ И НЕ ВСЕ'''

# pattern = re.compile(r"(?i)\(.+?\)", flags = re.DOTALL) # решение от Александры для непересекающихся - ищет первый match
pattern = re.compile(r"(?is)\([^()]+\)")
# res = re.finditer(pattern, text)
for match in re.finditer(pattern, text):
    phrase = match.group(0)
    print(repr(phrase))

'(Это1)'
'( D)'
'(Скобки\nмогут. переноситься)'
'(между ними может быть \nсколько угодно слов, цифр123 и вообще - все!)'


#### Задача 4.

То же, скобки могут быть вложенные. В этом случае ищем только самые внутренние скобки, внутри которых нет других.

In [167]:
text = ''''(Это1) текст с ((пересекающимися): скобками). Но! (Скобки
(могут.) переноситься) на строку и (между ними может быть 
сколько угодно слов, (цифр123) и вообще - все!)'''

# pattern = re.compile(r"(?i)\(.+?\)", flags = re.DOTALL) # решение от Александры для непересекающихся - ищет первый match
pattern = re.compile(r"(?i)\([^()]+\)", flags = re.DOTALL)
# res = re.finditer(pattern, text)
for match in re.finditer(pattern, text):
    phrase = match.group(0)
    print(repr(phrase))

'(Это1)'
'(пересекающимися)'
'(могут.)'
'(цифр123)'


#### Задача 5.

В файле 26.txt содержатся сырые выкачанные из интернета новостные тексты. Извлеките сами тексты из файла. BeautifulSoup пользоваться пока нельзя. 

In [68]:
import re


text = open('26.txt', 'r', encoding = 'utf8').read()
file.close()

pattern = re.compile(r"(?s)(?<=<text><o>).+?(?=</o></text>)")
listofnews = []
for match in re.finditer(pattern, text):
    listofnews.append(match.group(0))

print(*listofnews, sep = "---")

# file = open('26.txt', 'r', encoding='utf8')
# text = file.read()
# pattern = re.compile(r'((?s)<text><o>.+?</o></text>)')


 В Томской области 14 июля совершил аварийную посадку вертолет Ми-8. Как  сообщает  региональное управление МЧС, пострадали семь человек, погибших нет. 
 По предварительным данным, вертолет опрокинулся на бок практически сразу после взлета с посадочной площадки Игольско-Талового нефтяного месторождения на севере Томской области. На борту находились 17 человек, в том числе три члена экипажа. Как сообщил  РИА Новости  представитель оперативного штаба, четверо пострадавших находятся в тяжелом состоянии. 
 По словам источника  «Интерфакса» , вертолет принадлежал компании «Газпром авиа». Причины аварии пока не установлены. 
 Это уже не первое за последние годы происшествие с Ми-8 на площадке Игольско-Талового месторождения. В декабре 2010 года вертолет сгорел во время подготовки к взлету. Причиной инцидента стал взрыв теплогенератора, которым разогревали двигатель машины. Пострадавших тогда не было. 
 ---
 Сотни человек вышли на улицы США в знак протеста против оправдательного приговора об

#### Задача 6.

Достаньте не только тексты из файла 26.txt, но и даты их создания - одним регулярным выражением, чтобы возвращались кортежи "текст - дата". 

In [107]:
# import re

# text = open('26.txt', 'r', encoding = 'utf8').read()
# file.close()

# pattern = re.compile(r"(?s)(<text><o>)(.+?)(\n\s</o></text>\n<datetime>)(\d{2}:\d{2},\s\d{2}\s[а-я]+\s\d{4})")
# listofnews = []
# # re.sub(pattern, '***', text)
# for match in re.finditer(pattern, text):
#     listofnews.append(match.group(2)+' - '+match.group(4))

# print(*listofnews, sep = "\n")

import re

text = open('26.txt', 'r', encoding = 'utf8').read()
file.close()

pattern = re.compile(r"(?s)(?:<text><o>)(.+?)(?:\n\s</o></text>\n<datetime>)(\d{2}:\d{2},\s\d{2}\s[а-я]+\s\d{4})")
re.findall(pattern, text)

('\n В Томской области 14 июля совершил аварийную посадку вертолет Ми-8. Как  сообщает  региональное управление МЧС, пострадали семь человек, погибших нет. \n По предварительным данным, вертолет опрокинулся на бок практически сразу после взлета с посадочной площадки Игольско-Талового нефтяного месторождения на севере Томской области. На борту находились 17 человек, в том числе три члена экипажа. Как сообщил  РИА Новости  представитель оперативного штаба, четверо пострадавших находятся в тяжелом состоянии. \n По словам источника  «Интерфакса» , вертолет принадлежал компании «Газпром авиа». Причины аварии пока не установлены. \n Это уже не первое за последние годы происшествие с Ми-8 на площадке Игольско-Талового месторождения. В декабре 2010 года вертолет сгорел во время подготовки к взлету. Причиной инцидента стал взрыв теплогенератора, которым разогревали двигатель машины. Пострадавших тогда не было. ', '11:21, 14 июля 2013') ('\n Сотни человек вышли на улицы США в знак протеста проти

#### Задача 7. 

Есть текст, состоящий из строк, каждая строка состоит из нескольких колонок, границы содержимого колонки определяются кавычками:

    "Иван Иваныч Петухов" "М" "ИЛинг_ФПЛ (КЛ)" "2 курс" "2" "ничего не знает, отправлен на пересдачу"

Надо написать регулярное выражение, которое захватывает содержимое 1ой, 4ой и 6ой колонки, при этом интересуют только те товарищи, у которых в третьей колонке значится "ИЛинг_ФПЛ (КЛ)", "ИЛинг_ИЯ" или "ИФИ_Фил_Герм", а в пятой колонке - 3, 4 или 5, при этом, оценка может быть и со знаком ("3-", "5+" и т.д.).

Это регулярное выражение нужно использовать, чтобы создать список из кортежей, каждый кортеж содержит три элемента - значения искомых колонок.

In [None]:
# your code here

#### Задача 8. 

Найти в тексте дважды подряд повторяющиеся слова.

In [5]:
import re

text = '''это дважды дважды повторяющиеся слова
они ходят парой парой как с Тамарой
Мы ехали долго долго, а потом вдруг! вокруг цветы цветы деревья деревья и луг луг 1 1 3 3 123 123'''

# a = text.split()
pattern = re.compile(r"(?is)(\b[а-я]+\b)+")
base = ''
for match in re.finditer(pattern, text):
    phrase = match.group(0)
    if base == phrase:
        print(repr(phrase))
    base = phrase

'дважды'
'парой'
'долго'
'цветы'
'деревья'
'луг'


### Продвинутые задачи

#### Задача 9. 

Представим, что есть некоторые данные, представляющие из себя последовательность символов. С помощью регулярного выражения надо найти в них подпоследовательности, являющимися палиндромами, длины не менее 6-ти и не более 11 символов. (Подумайте, а хорошо ли подходят регулярные выражения для решения этой задачи?)

In [36]:
def str_reverse(x):
    return x[::-1]

text = '''123321 йцуккуцй фываппавыф олджждлол лолджждло фылолоыф машаашам фывапроорпавыф фывавыф'''
text = '''я ем змея а он меня не ест''' # а если мы хотим искать палиндромы с пробелами - как их захватывать? 

text[0:9]
text[9::-1]
# a = text.split()
# pattern = re.compile(r"(?is)(\b[а-я0-9]{6,11}\b)")
# for match in re.finditer(pattern, text):
#     phrase = match.group(0)
#     if phrase == phrase[::-1]:
#         print(repr(phrase))
        
for i in range(len(text)-5):
    for k in range(6,11):
        mystr = text[i:i+k+1]
        if mystr.replace(' ','') == str_reverse(mystr).replace(' ',''):
            print(mystr)


123321 
 йцуккуцй
 йцуккуцй 
йцуккуцй
йцуккуцй 
 фываппавыф
фываппавыф
фываппавыф 
ываппавы
 олджждло
олджждло
ждлол лолдж
длол лолд
лол лол
олджждло
олджждло 
 машаашам
 машаашам 
машаашам
машаашам 
вапроорпав
апроорпа
авыф фыва
выф фыв
 фывавыф
 фывавыф
 фывавыф
 фывавыф
фывавыф
фывавыф
фывавыф
фывавыф
фывавыф


#### Задача 10.

Найти в тексте все употребления слов "понравилось" и "впечатлило" такие, что непосредственно перед ними НЕ стоит "не". Время прошедшее, но род/число могут быть любыми.

In [None]:
# your code here

#### Задача 11. 

Дан текст, каждая строка является именем некоторого файла (без директории). Напишите регулярное выражение, которое захватывает имена файлов без расширения, при этом интерес представляют только те файлы, у которых расширение не .bat и не .txt.

In [None]:
# your code here

#### Задача 12.

Дан текст, каждая строка которого является полным или относительным путём к некоторому файлу.

Напишите регулярное выражение, которое захватывает:
1. директорию, в которой лежит файл;
2. только имя файла (без расширения);
3. только расширение;
При этом:
- нужны только файлы, у которых расширение не .bat и не .txt.
- пути могут быть как в Unix, так и в Windows формате (https://ru.wikipedia.org/wiki/Путь_к_файлу).
- расширение, если оно есть, начинается с точки. Файлы могут быть без расширения вовсе (в этом случае на месте расширения должно стоять None или "")
- скрытые файлы могут начинаться с точки (например, .bashrc - и это не расширение)
- относительный путь может содержать только название файла, в этом случае вместо директории выведите None или ""
- в остальных случаях директория должна заканчиаться на разделитель директорий. Наприемр, в Unix-системах - "/" - это путь к корневой директории.

Требуется получить список из кортежей, каждый кортеж содержит извлечённые данные.

(Расширение в целом может содержать всё, что угодно, но разделителей директорий не может быть в именах файлах и расширениях. https://en.wikipedia.org/wiki/List_of_filename_extensions )

In [None]:
# your code here

#### Задача 13.

Увеличить все встретившиеся в тексте числа на 1, в том числе и отрицательные. Перед числом может стоять знак. Считаем, что между знаком и числом пробела нет.

In [None]:
# your code here

#### Задача 14.

1. Текст состоит из строк (lines). Удалите одним регулярным выражением все пробелы в началах всех строк, и все пробелы в концах всех строк.
2. То же, но теперь не только обычные пробелы, а все пробельные символы. При этом, дополнительно нужно удалить все пустые строки (пустые вообще, а так же состоящие только из пробельных символов). Попробуйте сделать это за одну операцию замены.
3. Сделайте то же самое без регулярных выражений в одну строчку, используя bilt-in функцию filter.

In [None]:
# your code here

#### Задача 15.

Дан путь к папке. Папка содержит много файлов двух типов: "num_of_words_9_12_4.json" и "9_12_4.txt", где тройка чисел идентифицирует данные, и может быть любой (например, 0_8_0 или 9_13_0 или...). После первого числа иногда может следовать буква 'a', 'b' или 'c', например: "2b_4_8.txt". В папке могут быть файлы и других типов, но схемы их названий выглядят иначе. Для каждого идентификатора в папке, по идее, должен быть и .json, и .txt файл, однако программист, который подготавливал эти данные, допустил ошибку, и поэтому это не так. Напишите программу, которая находит те идентификаторы, для которых нет .json файла, и те, для которых нет .txt файла.

In [None]:
# your code here