## Разрезание строки разделитялями разного типа

split() предполагает использование в самом простом случае и не допускает разрезания с разными разделителями, так-же не учитывает возможность пробелов вокруг разделителей. Решение re.split()

In [1]:
import re

In [2]:
line = 'asdf fjdk; afed, fjek,asdf,      foo'
re.split(r'[;,\s]\s*', line)

['asdf', 'fjdk', 'afed', 'fjek', 'asdf', 'foo']

re.split() позволяет определить множество разделителей

[спецификация регулярок тут](https://docs.python.org/3/library/re.html)

## Поиск текста в начале и в конце строки

In [3]:
line = 'spam.txt'
line.endswith('.txt')

True

In [4]:
line.startswith('ham')

False

Чтобы проверить несколько вариантов, в методы можно передать кортеж (список или множество не подходят)

In [5]:
import os
filenames = os.listdir('.')
filenames

['python-learning-oop_lutz.ipynb',
 '.gitignore',
 'LICENSE',
 'python-learning-structure-and-data.ipynb',
 'README.md',
 'data',
 'pandas-learning.ipynb',
 'snap-learning.ipynb',
 '.git',
 '.vscode',
 'python_learning',
 '.ipynb_checkpoints',
 'matplotlibe-learning.ipynb',
 'networkx-learning.ipynb',
 'python-learning-strings-and-text.ipynb',
 'ipython-learning.ipynb',
 'numpy-learning.ipynb',
 'img']

In [6]:
[name for name in filenames if name.endswith(('.ipynb', '.md'))]

['python-learning-oop_lutz.ipynb',
 'python-learning-structure-and-data.ipynb',
 'README.md',
 'pandas-learning.ipynb',
 'snap-learning.ipynb',
 'matplotlibe-learning.ipynb',
 'networkx-learning.ipynb',
 'python-learning-strings-and-text.ipynb',
 'ipython-learning.ipynb',
 'numpy-learning.ipynb']

In [7]:
# методы работают и с другими операциями
if any(name.endswith(('.ipynb', '.md')) for name in filenames):
    print('wow')

wow


## Поиск совпадений и поиск текстовых паттернов

Если текст - простой литерал, то можно использовать базовые методы

In [8]:
text = 'это конечно замечательно, хотя конечно не это, но замечательно'

In [9]:
# точное совпадение
text == 'замечательно'

False

In [10]:
# совпадение в начале или в конце
text.startswith('это')

True

In [11]:
text.endswith('это')

False

In [12]:
# позиция первого вхождения
text.find('конечно')

4

Для более сложного поиска использовать re  и рег.выражения

In [13]:
text1 = '11/22/2020'
text2 = 'Nov 22, 2020'

In [14]:
# Полное совпадение - match() всегда ищет в начале строки
if re.match(r'\d+/\d+/\d+', text1): #\d+ - совпадение одной или более цифр
    print('Yes')
else:
    print('No')

Yes


In [15]:
if re.match(r'\d+/\d+/\d+', text2):
    print('Yes')
else:
    print('No')

No


In [16]:
# Если шаблон используется много рпаз его можно скомпилировать в объект шаблона
pattern = re.compile(r'\d+/\d+/\d+')

In [17]:
if pattern.match(text1):
    print('Yes')
else:
    print('No')

Yes


In [18]:
# поиск всех случаев совпадения
text = '22/10/2020 я вышел из дома, а пришел 23/11/2021'

In [19]:
pattern.findall(text)

['22/10/2020', '23/11/2021']

Часто бывает полезно использовать "захватывающие группЫ" - это упрощает последующую обработку

In [20]:
pattern = re.compile(r'(\d+)/(\d+)/(\d+)')

In [21]:
grp = pattern.match(text1)
grp

<re.Match object; span=(0, 10), match='11/22/2020'>

In [22]:
grp.group(0)

'11/22/2020'

In [24]:
grp.group(1)

'11'

In [25]:
grp.group(2)

'22'

In [27]:
grp.group(3)

'2020'

In [28]:
grp.groups()

('11', '22', '2020')

In [29]:
# ищем все совпадения - метод findall() проходит по тексту, находит все совпадения и возвращает их в списке
pattern.findall(text)

[('22', '10', '2020'), ('23', '11', '2021')]

In [30]:
for m, d, y in pattern.findall(text):
    print('{0}-{1}-{2}'.format(m, d, y))

22-10-2020
23-11-2021


In [31]:
# метод finditer() возвращает итератора
for m in pattern.finditer(text):
    print(m.groups())

('22', '10', '2020')
('23', '11', '2021')


## Поиск текста с заменой

In [35]:
# в простом случае базовый метод replace() - надо помнить, что строка не изменяется на месте!
text = 'это конечно замечательно, хотя конечно не это, но замечательно'
text.replace('замечательно', 'отвратительно')

'это конечно отвратительно, хотя конечно не это, но отвратительно'

In [45]:
# в более сложных случаях - sub() из re
text = '10/22/2020 я вышел из дома, а пришел 11/12/2021'
re.sub(r'(\d+)/(\d+)/(\d+)', r'\3-\1-\2', text) # цифры во втором случае - ссылки на группы в первом

'2020-10-22 я вышел из дома, а пришел 2021-11-12'

In [46]:
# тоже самое со скомпилированным шаблоном
pattern.sub(r'\3-\1-\2', text)

'2020-10-22 я вышел из дома, а пришел 2021-11-12'

In [47]:
# в более сложных случаях можно определить подстановочную функцию обратного вызова callback
from calendar import month_abbr
def change_date(m):
    mon_name = month_abbr[int(m.group(1))]
    return '{0} {1} {2}'.format(m.group(2), mon_name, m.group(3))

pattern.sub(change_date, text)

'22 Oct 2020 я вышел из дома, а пришел 12 Nov 2021'

На вход подстановочной функции передается объект поиска, возвращенный ф-ией math() или find(). Group() используется для извлечения определенных частей совпадения

In [48]:
# узнать сколько подстановок было сделано можно с помощью re.subn()
newtext, n = pattern.subn(r'\3-\1-\2', text)
newtext

'2020-10-22 я вышел из дома, а пришел 2021-11-12'

In [49]:
n

2