# Основы Python. Часть 5.1

Строки. Регулярные выражения.

---

### Строки

__Cтроки__ – упорядоченные последовательности символов, используемые для хранения и представления
текстовой информации. С функциональной точки зрения строки могут использоваться для представления
всего, что только может быть выражено в текстовой форме, а также для хранения двоичных значений байтов
и символов Юникода.

Строго говоря, строки в языке Python относятся к категории неизменяемых последовательностей, в том
смысле, что символы, которые они содержат, имеют определенный порядок следования слева направо и
сами строки невозможно изменить.

In [184]:
string = 'abcde 12345'
print(type(string))

<class 'str'>


In [185]:
# строки - неизменяемые!
string[0] = 'z'

TypeError: 'str' object does not support item assignment

In [186]:
# но можно создать новую строку
string = 'z' + string[1:]
string

'zbcde 12345'

__Создание строк__

Кавычки и апострофы, окружающие строки, в языке Python являются взаимозаменяемыми. То есть
строковые литералы можно заключать как в апострофы, так и в кавычки – эти две формы представления строк
ничем не отличаются, и обе они возвращают объект того же самого типа. Причина наличия двух вариантов
состоит в том, чтобы позволить вставлять в литералы символы кавычек и апострофов, не используя для этого
символ обратного слеша. Можно вставлять апострофы в строки, заключенные в кавычки, и наоборот.

In [38]:
# кавычки равнозначны

string1 = 'abcde 12345'
string2 = "abcde 12345"
string3 = """abcde 12345"""

string1 == string2 == string3

True

In [39]:
# для вложенности можно использовать разные типы кавычек

string1 = "'abc'"
string2 = '"abc"'

print(string1, string2)

'abc' "abc"


In [72]:
# тройные кавычки поддерживают многострочные тексты
# (часто используются для комментариев и документирования модулей / классов / функций)

string3 = \
"""
    abcde
        12345
"""

print('начало строки')
print('-------------', end='')

print(string3, end='')

print('-------------')
print('конец строки', end='')

начало строки
-------------
    abcde
        12345
-------------
конец строки

Следует знать, что __Python автоматически объединяет последовательности строковых литералов внутри
выражения__, хотя нет ничего сложного в том, чтобы добавить оператор + между литералами и вызвать
операцию конкатенации явно. При этом, если добавить запятые между этими строками, будет получен
кортеж, а не строка.

In [61]:
# если нет запятой, строки объединяются в одну

long_string = 'AaBbCcDdEeFfGgHhIiJjKkLlMmN'    'nOoPpQqRrSsTtUuVvWwXxYyZz'

print(long_string)

AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz


In [83]:
# аналогично при переносе

long_string = 'AaBbCcDdEeFfGgHhIiJjKkLlMmN' \
              'nOoPpQqRrSsTtUuVvWwXxYyZz'

print(long_string)

AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz


In [75]:
# можно объединять явно

long_string = 'AaBbCcDdEeFfGgHhIiJjKkLlMmN' + 'nOoPpQqRrSsTtUuVvWwXxYyZz'

print(long_string)

AaBbCcDdEeFfGgHhIiJjKkLlMmNnOoPpQqRrSsTtUuVvWwXxYyZz


In [76]:
# однако если есть запятая, то получается tuple

long_string = 'AaBbCcDdEeFfGgHhIiJjKkLlMmN', 'nOoPpQqRrSsTtUuVvWwXxYyZz'

print(long_string)

('AaBbCcDdEeFfGgHhIiJjKkLlMmN', 'nOoPpQqRrSsTtUuVvWwXxYyZz')


__Экранирование (Escape Characters)__

Экранированные последовательности позволяют вставлять в строки символы, которые сложно ввести с
клавиатуры. В конечном строковом объекте символ \ и один или более следующих за ним символов
замещаются единственным символом, который имеет двоичное значение, определяемое экранированной
последовательностью.

Например:

In [179]:
s = 'a\tb\nc' # Cтрока, в которую вставлены символ новой строки и табуляции; длина этой строки – 5

print(s)
print(); print('Длина:', len(s))

a	b
c

Длина: 5


__Поддерживают индексацию__ (аналогично спискам)

In [192]:
string = 'abcde 12345'
string

'abcde 12345'

In [193]:
string[:]

'abcde 12345'

In [195]:
string is string[:] # строки кэшируются

True

In [14]:
string[0]

'a'

In [15]:
string[0:5:2]

'ace'

In [16]:
string[-1]

'5'

In [22]:
string[::-1]

'54321 edcba'

__Поддерживают протокол итераций, операции сравнения, умножения, а также проверку на вхождение__

In [190]:
string = 'abcde 12345'
string

'abcde 12345'

In [20]:
for symbol in string:
    print(symbol * 5)

aaaaa
bbbbb
ccccc
ddddd
eeeee
     
11111
22222
33333
44444
55555


In [149]:
'a' in string

True

In [150]:
'z' in string

False

In [158]:
a = 'abcdefg'
b = 'abcdefg'

a == b

True

In [1]:
a = 'abcdefg'
b = '123'

# сравниваются по длине строки
a > b, len(a) > len(b)

(True, True)

In [2]:
a = 'abcdefg'
b = '1bcdefgg'

# сравниваются по длине строки
a > b, len(a) > len(b)

(True, False)

__Преобразование в строки и методы форматирования строк__

In [106]:
a = 5
a_string = str(a)

print(type(a_string))
a_string

<class 'str'>


'5'

In [112]:
print('That is old formatting: %s' % (a))     # старый метод, не рекомендуется
print('That is new formatting: {}'.format(a)) # новый метод, рекомендуется

That is old formatting: 5
That is new formatting: 5


In [128]:
# можно изменять порядок порядок:

'{2}, {1}, {0}'.format(*'abc')

'c, b, a'

In [198]:
# подставлять именованные аргументы (для читаемости кода):

'Coordinates: {latitude}, {longitude}'.format(longitude='-115.81W', latitude='37.24N')

'Coordinates: 37.24N, -115.81W'

In [126]:
# округлять:

my_float = 0.9876543210
'до третьего знака после запятой: {:.3f}'.format(my_float)

'до третьего знака после запятой: 0.988'

In [134]:
# автоматически преобразовывать в проценты:

my_float = 0.9876543210
'до третьего знака после запятой: {:.2%}'.format(my_float)

'до третьего знака после запятой: 98.77%'

In [148]:
# выравнивать по правому краю, центру или левому краю (как в текстовом редакторе)

Message = "Hello, welcome!\nThis is some text that should be centered!"
print('\n'.join('{:^40}'.format(s) for s in Message.split('\n')))

            Hello, welcome!             
This is some text that should be centered!


Подробнее:
https://pythonworld.ru/osnovy/formatirovanie-strok-metod-format.html

__Объединение (конкатенация) строк__

Кратко:

In [99]:
string1 = 'abcde '
string2 = '12345'

In [102]:
# вариант 1: с помощью знака '+'

def plus_concatenation():
    return string1 + string2

In [103]:
%timeit plus_concatenation()

193 ns ± 0.984 ns per loop (mean ± std. dev. of 7 runs, 10000000 loops each)


In [104]:
# вариант 2: с помощью комманды ''.join(list_of_strings)

def join_concatenation():
    return ''.join((string1, string2))

In [105]:
%timeit join_concatenation()

219 ns ± 2.2 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


Подробно здесь:

https://stackoverflow.com/questions/1316887/what-is-the-most-efficient-string-concatenation-method-in-python

__Методы строк__ (некоторые)

https://docs.python.org/3/library/stdtypes.html#string-methods

In [287]:
string = 'abcde 12345 EDCBA 54321'
string

'abcde 12345 EDCBA 54321'

In [256]:
# заглавные
string.upper(), string.upper().isupper()

('ABCDE 12345 EDCBA 54321', True)

In [258]:
# строчные
string.lower(), string.lower().islower()

('abcde 12345 edcba 54321', True)

In [218]:
# посчитать вхождение

print(string.count('a')) # встречается 1 раз

print(string.count('5'))  # встречается 2 раза

1
2


In [221]:
# "начинается с", "оканчивается на"

print(string.startswith('abcde'))

print(string.endswith('12345'))

True
False


In [289]:
# поиск индекса подстроки в строке

index = string.find('54321')

print(index, '\n', string[index:])

18 
 54321


In [290]:
# если не нашел, то возвращает -1

string.find('XYZ')

-1

In [236]:
# Метод 'str.index()' делает тоже самое,
# только если не нашел вызывает исключение ValueError

print(string.index('54321'))

18


In [237]:
print(string.index('XYZ'))

ValueError: substring not found

In [246]:
# Проверить, все ли символы строки являются буквами (не пробелы и не числа)

string.isalpha(), string[:5].isalpha()

(False, True)

In [262]:
# Проверить, все ли символы строки являются числами (не пробелы и не буквы)

string.isdigit(), string[6:8].isdigit(), string.isnumeric(), string[6:8].isnumeric()

(False, True, False, True)

In [265]:
# Удалить пробелы слева, справа и с двух концов

'   123   '.lstrip(), '   123   '.rstrip(), '   123   '.strip()

('123   ', '   123', '123')

In [275]:
# Заменить одну подстроку на другую (не изменяя исходной строки!)

' abc 123 abc 123'.replace('123', '321')  # по умолчанию заменить все найденные значения

' abc 321 abc 321'

In [285]:
' abc 123 abc 123'.replace('abc', 'xyz', 1)  # заменить только первое найденное значение

' xyz 123 abc 123'

In [279]:
# Разбить на список строк по символу-разделителю (по умолчанию пробел):

' abc 123 cde 345'.split()

['abc', '123', 'cde', '345']

In [281]:
' abc 123 cde 345'.split('3')

[' abc 12', ' cde ', '45']

In [283]:
# Так можно быстро удалить все пробелы в строке:

string = "       abc def 123456789 0   "
''.join(string.split())

'abcdef1234567890'

In [284]:
# Аналогично string.splitlines() разбивает на подстроки (по символу переноса)

"""abc
123
XYZ""".splitlines()

['abc', '123', 'XYZ']

In [5]:
bool('')

False

In [6]:
bool('0')

True

In [7]:
bool(0)

False

---

### Регулярные выражения (regular expression)

__Регуля́рные выраже́ния__ (англ. regular expressions) — формальный язык поиска и осуществления манипуляций с подстроками в тексте, основанный на использовании метасимволов (символов-джокеров, англ. wildcard characters). Для поиска используется строка-образец (англ. pattern, по-русски её часто называют «шаблоном», «маской»), состоящая из символов и метасимволов и задающая правило поиска. Для манипуляций с текстом дополнительно задаётся строка замены, которая также может содержать в себе специальные символы.

https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%B3%D1%83%D0%BB%D1%8F%D1%80%D0%BD%D1%8B%D0%B5_%D0%B2%D1%8B%D1%80%D0%B0%D0%B6%D0%B5%D0%BD%D0%B8%D1%8F

Говоря простым языком, __регулярное выражение__ — это последовательность символов, используемая для поиска и замены текста в строке или файле. Их поддерживает множество языков общего назначения: Python, Perl, R и многие программы в UNIX. Так что изучение регулярных выражений рано или поздно пригодится.

Перевод не очень точно отражает смысл, правильнее было бы «**шаблонные выражения**».

В питоне является встроенной библиотекой, импортируется как '**import re**'.

Онлайн-инструменты для отладки регулярных выражений:

https://regexr.com/

*Пример*: найти и вывести номер из HTML-строки:

In [437]:
string = '1. Your number is <b>123</b>; 2. Your name is <b>Vasiliy</b>'
string

'1. Your number is <b>123</b>; 2. Your name is <b>Vasiliy</b>'

In [438]:
# имортируем стандартную библиотеку для работы с регулярными выражениями в Python
import re

# определяем строку-шаблон, по которой мы будем искать "число один или более раз"
match_string = "<b>(\d+)</b>"

# выполняем поиск по шаблону 'match_string' в строке 'string'
m = re.search(match_string, string)

# если строка нашлась, то выводим её
if m:
    print(m.groups()[0])

123


*Пример*: найти и вывести e-mail из строки:

In [344]:
string = 'Your e-mail is vasya.pupkin2000@ya.ru. Your login is vasya.pupkin2000, please enter password'
string

'Your e-mail is vasya.pupkin2000@ya.ru. Your login is vasya.pupkin2000, please enter password'

In [345]:
# имортируем стандартную библиотеку для работы с регулярными выражениями в Python
import re

# определяем строку-шаблон, по которой мы будем искать "число один или более раз"
match_string = r"\"?([-a-zA-Z0-9.`?{}]+@\w+\.\w+)\"?"

# выполняем поиск по шаблону 'match_string' в строке 'string'
m = re.search(match_string, string)

# если строка нашлась, то выводим её
if m:
    print(m.group())

vasya.pupkin2000@ya.ru


Регулярные выражения используют два типа символов:

- специальные символы: у этих символов есть специальные значения. Аналогично символу __*__, который как правило означает «любой символ»;
- литералы (например: a, b, 1, 2 и т. д.).

Чаще всего регулярные выражения используются для:
- поиска в строке;
- разбиения строки на подстроки;
- замены части строки.

Наиболее часто используемые методы из библиотеки **re**:
- re.match()
- re.group()
- re.groups()
- re.start()
- re.end()
- re.search()
- re.findall()
- re.split()
- re.sub()
- re.compile()

In [3]:
import re

#### re.match

In [407]:
# re.match(pattern, string) - ищет по заданному шаблону в НАЧАЛЕ строки.
# Определить, начинается ли совпадение регулярного выражения с начала строки

result = re.match('AV', 'AV Analytics Vidhya AV')

print(result) # возвращает "Match-объект"

<_sre.SRE_Match object; span=(0, 2), match='AV'>


#### re.group

In [383]:
# re.group() возвращает один или несколько результатов выполнения операции match.

result.group()

'AV'

In [384]:
result = re.match('12345', 'AV Analytics Vidhya AV')

print(result) # None ==> ничего не найдено

None


#### re.groups

In [405]:
# re.groups() возвращает tuple из найденных групп после выполнения операции match.
# («r» перед строкой шаблона, чтобы показать, что это «сырая» строка в Python, т.е. без экранирования)

m = re.match("(\d+)\.(\d+)", "24.1632")

m.groups()

('24', '1632')

#### re.start(), re.end()

In [427]:
# Также есть методы re.start() и re.end() для того, чтобы узнать начальную и конечную позицию найденной строки.

m = re.match(r"(\d+)\.(\d+)", "24.1632 is larger than 10.923")

print('Found number: {} on start index {} and end index {}'.format(
                 m.group(),         m.start(),        m.end()     ))

Found number: 24.1632 on start index 0 and end index 7


#### re.search

In [422]:
# re.search(pattern, string) - этот метод ищет по всей строке, но возвращает только первое найденное совпадение.
# Сканировать всю строку в поисках всех мест совпадений с регулярным выражением.

result = re.search(r'Analytics', 'AV Analytics Vidhya AV')

print(result) # возвращает "Match-объект"

<_sre.SRE_Match object; span=(3, 12), match='Analytics'>


#### re.findall

In [439]:
# re.findall(pattern, string) - этот метод возвращает список всех найденных совпадений.
# У метода re.findall нет ограничений на поиск в начале или конце строки.
# Найти все подстроки совпадений с регулярным выражением и вернуть их в виде списка.

result = re.findall(r'AV', 'AV Analytics Vidhya AV (AV.AV)')

print(result) # возвращает список найденных СТРОК

['AV', 'AV', 'AV', 'AV']


In [452]:
# re.finditer(pattern, string) - итератор всем непересекающимся шаблонам pattern в строке string
# (выдаются match-объекты)

#### re.split

In [451]:
# re.split(pattern, string, [maxsplit=0]) - этот метод разделяет строку по заданному шаблону.
# Аргумент 'maxsplit' (со значением по умолчанию, равным 0) разделит строку столько раз,
# сколько возможно, но если указать этот аргумент, то разделение будет произведено
# не более указанного количества раз.
# Разбить строку в список там, где есть совпадение регулярного выражения.

result = re.split(r'\W+', 'This is a test, short and sweet, of split().', 3)

result # возвращает список разделенных СТРОК

['This', 'is', 'a', 'test, short and sweet, of split().']

#### re.sub

In [457]:
# re.sub(pattern, repl, string) - этот метод ищет шаблон в строке и заменяет его на указанную подстроку.
# Если шаблон не найден, строка остается неизменной.
# Заменить в строке string все непересекающиеся шаблоны pattern на repl.

result = re.sub(r'\W+', '_', 'This is a test, short and sweet, of split().')

result # возвращает новую преобразованную строку

'This_is_a_test_short_and_sweet_of_split_'

#### re.compile

In [4]:
# re.compile(pattern, repl, string) - мы можем собрать регулярное выражение в отдельный объект,
# который может быть использован для поиска. Это также избавляет от переписывания одного и того же выражения.

pattern = re.compile(r'AV')

result = pattern.findall('AV Analytics Vidhya AV')
print(result)

result2 = pattern.findall('AV is largest analytics community of India')
print(result2)

['AV', 'AV']
['AV']


#### Специальные симовлы регулярных выражений

Пример:

In [7]:
# найти все слова (символы без пробелов один или более раз)

result = re.findall(r'\w+', 'AV is largest Analytics community of India')

print(result)

['AV', 'is', 'largest', 'Analytics', 'community', 'of', 'India']


In [8]:
# найти последнее слово (символы без пробелов один или более раз, в конце строки)

result = re.findall(r'\w+$', 'AV is largest Analytics community of India')

print(result)

['India']


In [12]:
# вытащить два последних символа от каждого слова, используя символ границы слова 

result = re.findall(r'.\w\b', 'AV is largest Analytics community of India')

print(result)

['AV', 'is', 'st', 'cs', 'ty', 'of', 'ia']


In [20]:
# вытащить список доменов из всех добавленных почтовых адресов

string = 'abc.test@gmail.com, xyz@test.in, test.first@analyticsvidhya.com, first.test@rest.biz'
result = re.findall(r'@\w+\.(\w+)', string)
ы
print(result)

['com', 'in', 'com', 'biz']


Дополнительно здесь:

https://tproger.ru/translations/regular-expression-python/

#### Greedy / Non-greedy (жадный / ленивый поиск)

Повторения, такие как * называют жадными (greedy); движок будет пытаться повторить его столько раз, сколько это возможно. Если следующие части шаблона не соответствуют, движок вернется назад и попытается попробовать снова с несколькими повторами символа.

Символ вопроса делает алгоритм поиска ленивым (не жадным).

Пример:

In [26]:
string = '<python>perl>'

# Стандартный вариант - жадный
result = re.findall(r'<.+>', string)
print(result)

# Вариант со знаком вопроса - ленивый
result = re.findall(r'<.+?>', string)
print(result)

['<python>perl>']
['<python>']


Реальный пример использования:

In [348]:
def parse_short_pId(pId):
    """ Takes pId and parses "short pId" from it,
        otherwise returns pId.
    """
    match_string = '([OО].+?)-[CС].+-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_ыin(current_match.group(1))

    match_string = '([OО].+-\d+[/]\d+)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))

    match_string = '([OО].+?-\d[CС])-.*\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))

    match_string = '([OО].+)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #EA
    match_string = '([EЕ][AА].*)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #ERA
    match_string = '([EЕ]R[AА].*[/]\d+)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #MS
    match_string = '([MМ]S.*)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #TD #TS
    match_string = '([TТ][DS].*)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))

    match_string = '([TТ]\d+.*)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #ROADM
    match_string = '(R[OО][AА]D[MМ]-\d+.*)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #ROPA-PM
    match_string = '(R[OО][РP][AА]-[РP][MМ])-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))
    
    #OC-RM
    match_string = '([OО][СC]-R[МM]-\d/\d)-\d+'
    current_match = re.match(match_string, pId)
    if current_match:
        return replace_russian_letters_in(current_match.group(1))

    return pId

In [352]:
def replace_letters_in(string, letters_to_replace_dict={}):
    """ Replaces letters in 'string' with corresponding values
        from 'letters_to_replace_dict'
    """
    
    edited_string = string
    for index, letter in enumerate(string):
        if letter.isalpha() and (letter in letters_to_replace_dict.keys()):
            edited_string = ''.join((edited_string[:index],
                                     letters_to_replace_dict[letter],
                                     edited_string[index+1:]))
            
    return edited_string

def replace_russian_letters_in(string):
    """ Replaces cyrillic letters in 'string' with latin ones
    """
    
    russian_to_english_translate = {
        'а':'a', 'А':'A',
        'о':'o', 'О':'O',
        'р':'p', 'Р':'P',
        'е':'e', 'Е':'E',
        'ё':'e', 'Ё':'E',
        'с':'c', 'С':'C',
        'к':'k', 'К':'K',
        'х':'x', 'Х':'X',
        'и':'u',
        'у':'y',
        'В':'B',
        'Т':'T',
        'М':'M',
        'Н':'H'}
    
    return replace_letters_in(string, russian_to_english_translate)

In [353]:
parse_short_pId('EA-16V/18-(14-24)/12-01')

'EA-16V/18-(14-24)/12'

Ещё пример где могут пригодиться регулярные выражения.

В больших файлах можно найти и отредактировать содержимое:

https://regexr.com/47o9c

---