# Working with strings
## Strings formatting

## Regular expressions

Основные функции:
- `match()` - ищет шаблон в начале источника, возвращает **экземпляр объекта соответствия**
- `search()` - возвращает первое совпадение в любом месте с начала строки, возвращает **экземпляр объекта соответствия**
- `findall()` - возвращает **список** всех непересекающихся совпадений
- `split()` - разбивает источник по совпадению и возвращает список всех фрагментов строки
- `sub()` - принимает аргумент для замены и заменяет все части источника, совпавшие с шаблоном

### Шаблоны

Специальные символы
- `.` - любой символ
- `\d` - цифра
- `\D` - не цифра
- `\w` - буква/ цифра/ подчеркивание
- `\W` - **не** буква/ цифра/ подчеркивание
- `\s` - пробел
- `\S` - **не** пробел
- `\b` - граница слова
- `\B` - **не** граница слова
- `^` - начало строки
- `$`- конец сроки
- `[a-z]` - буква нижнего регистра
- `[A-Z]` - буква верхнего регистра
- `[...]` - диапазон символов
- `[^...]` - символы, отсутствующие в наборе
- `|` - альтернатива (ИЛИ)
- `()` - создает группу, сохраняет совпавшую подстроку

Квантификаторы
- `+` - одно или более повторение
- `*` - ноль или более повторений
- `?` - ноль или одно повторение
- `{m}` - m повторений
- `{m, n}` - от m до n повторений
- `+?`, `*?`, `??`, `{m, n}` - минимальные (не жадные) квантификаторы, ищут min возможное число совпадений

In [1]:
import re

In [3]:
# найти вхождение в начале строки-источника
source = 'Young Frankenshtein'
m = re.match('You', source)
if m:
    print(m.group())

You


In [10]:
# найти вхождение после любого кол-ва символов с начала строки-источника
m = re.match('.*(Frank)', source)
if m:
    print(m.group(1))

Frank


In [11]:
# найти шаблон 'Frank' в любом месте строки-источника
m = re.search('Frank', source)
if m:
    print(m.group())

Frank


In [14]:
# найти все вхождения
m = re.findall('n', source)
print(m)
print('Found', len(m), 'matches')

['n', 'n', 'n', 'n']
Found 4 matches


In [15]:
m = re.findall('n.', source)
print(m)

['ng', 'nk', 'ns']


In [16]:
# разбить совпадения
m = re.split('n', source)
m

['You', 'g Fra', 'ke', 'shtei', '']

In [17]:
# заменить совпадения
m = re.sub('n', '?', source)
m

'You?g Fra?ke?shtei?'

### Использование константы printable для тестирования РВ

In [20]:
import string

printable = string.printable
print(len(printable))
printable

100


'0123456789abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~ \t\n\r\x0b\x0c'

In [23]:
re.findall('\d', printable)

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9']

In [25]:
print(re.findall('\w', printable))

['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', 'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l', 'm', 'n', 'o', 'p', 'q', 'r', 's', 't', 'u', 'v', 'w', 'x', 'y', 'z', 'A', 'B', 'C', 'D', 'E', 'F', 'G', 'H', 'I', 'J', 'K', 'L', 'M', 'N', 'O', 'P', 'Q', 'R', 'S', 'T', 'U', 'V', 'W', 'X', 'Y', 'Z', '_']


In [27]:
re.findall('\s', printable)

[' ', '\t', '\n', '\r', '\x0b', '\x0c']

### Протестируем разные шаблоны РВ

In [28]:
source = '''I wish I may, I wish I might
... Have a dish of fish tonight.'''
source

'I wish I may, I wish I might\nHave a dish of fish tonight.'

In [29]:
re.findall('wish', source)

['wish', 'wish']

In [30]:
re.findall('wish|fish', source)

['wish', 'wish', 'fish']

In [31]:
re.findall('^wish', source)

[]

In [32]:
re.findall('^I wish', source)

['I wish']

In [33]:
re.findall('fish$', source)

[]

In [34]:
re.findall('fish tonight.$', source)

['fish tonight.']

In [36]:
re.findall('[wf]ish', source)

['w', 's', 'h', 'w', 's', 'h', 'h', 's', 'h', 's', 'h', 'h']

In [38]:
re.findall('[wsh]+', source)

['w', 'sh', 'w', 'sh', 'h', 'sh', 'sh', 'h']

In [39]:
re.findall('[aouei]+', source)

['i', 'a', 'i', 'i', 'a', 'e', 'a', 'i', 'o', 'i', 'o', 'i']

### Сырые строки

In [40]:
# шаблон должен совпасть с любым словом, которое начинается с fish
re.findall('\bfish', source)

[]

Шаблон не найден, потому что конфликтует с escape-последовательностью Python \b (возврат на шаг). Решение - использовать *неформатированные строки* Python при определении шаблона регулярного выражения. 

Всегда размещайте символ r перед строкой шаблона регулярного выражения, и escape-последовательности Python будут отключены.

In [41]:
re.findall(r'\bfish', source)

['fish']

### Способы вывода совпадений

Все совпадения можно получить из объекта результата, вызвав метод `group()`. Если вы заключите шаблон в круглые скобки, совпадения будут сохранены в отдельную группу, а кортеж, состоящий из них, окажется доступен благодаря вызову метода `groups()`.

In [65]:
m = re.search(r'(. dish\b).*(\bfish)', source)
print(m.group())
print(m.groups())

a dish of fish
('a dish', 'fish')


Можно сохранять совпадения в именованные элементы: (?P<имя> выр ).

In [48]:
m = re.search(r'(?P<DISH>. dish\b).*(?P<FISH>\bfish)', source)
print(m.group())
print(m.groups())
print(m.group('DISH'))
print(m.group('FISH'))

a dish of fish
('a dish', 'fish')
a dish
fish


In [49]:
m.group(0)

'a dish of fish'

In [70]:
m = re.search(r'(?:may).*(might)', source)
m.group(1)

'might'

### Дополнительные примеры шаблонов

In [74]:
pattern, string = 'A.C.', 'xxABCDxx'
m = re.search(pattern, string)
if m:
    print(m.group(0))

ABCD


In [75]:
m = re.search('A.*C.*', string)
m.group(0)

'ABCDxx'

In [76]:
source = '..ABCDEFG\t..'
m = re.search(' *A.C[DE][D-F][^G-ZE]G\t+?', source)
m.group(0)

'ABCDEFG\t'

In [78]:
pattern.split('.')

['A', 'C', '']

## Методы строк

In [79]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'removeprefix',
 'removesuffix',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',


In [81]:
help(str.zfill)

Help on method_descriptor:

zfill(self, width, /)
    Pad a numeric string with zeros on the left, to fill a field of the given width.
    
    The string is never truncated.



In [84]:
source = '6789iujk...uilkhj'
m = re.search(r'\.{3}', source)
m.group()

'...'

In [85]:
source = '7277 Surrey Ave.1111'
m = re.search(r'(94[1-9]|[95-99]\d{1}|\d{4,})', source)
m.group()

'72'

In [91]:
source = '12/05/2002'
m = re.search(r'(?P<date>\d{2})/(?P<month>\d{2})/(?P<year>\d{4})', source)
print('date:', m.group('date'))
print('month:', m.group('month'))
print('year:', m.group('year'))

date: 12
month: 05
year: 2002


In [107]:
source = '9910 Surrey Ave.'
m = re.search(r'(\D.*)', source)
m.group()

' Surrey Ave.'