# Строки

В Python 3 мы имеем один строковый тип: str, который хранит данные в Unicode, и два байтовых типа: bytes и bytearray.
В отличие от таких языков, как C#, в языке Python отсутствует специальный тип для представления единственного символа, поэтому в случае необходимости используются односимвольные строк

Строки выделяются одинарными или двойными кавычками.


In [1]:
my_string = "This is a cat"
my_string = 'This is a cat.'

 Неформатированные строки используются для хранения имен каталогов в Windows, а также для регулярных выражений. Неформатированные строки (сырые строки) и экранированные последовательности:

In [2]:
print(r"https://docs.python.org/3/library/string.html")
print('s\np\ta\x00m')

https://docs.python.org/3/library/string.html
s
p	a m


**Блочная  строка** - формат, который удобно использовать для определения
многострочных блоков текста в программном коде. Литералы в этой форме начинаются с трех идущих подряд кавычек (или апострофов), за которыми может следовать произвольное число строк текста, который закрывается такими
же тремя кавычками. Внутри такой строки могут присутствовать и кавычки,
и апострофы, но экранировать их не требуется – строка не считается завершенной, пока интерпретатор не встретит три неэкранированные кавычки того же типа, которые начинают литерал.

Строки в тройных кавычках удобно использовать, когда в программе требуется ввести многострочный текст, например чтобы определить многострочный текст сообщения об ошибке или код разметки на языке HTML или XML. Также такие строки используются для составления коментариев к коду.

In [1]:
s="""Five little monkeys jumping on the bed
One fell off and bumped his head
Mama called         the doctor
And the doctor        said
No more monkeys jumping on the bed"""
print(s)

Five little monkeys jumping on the bed
One fell off and bumped his head
Mama called         the doctor
And the doctor        said
No more monkeys jumping on the bed


## Базовые операции и методы строк

1. Длина строки **len(str)**
2. **Конкатенация**: новая строка 'x'+'y'. (Однако, согласно PEP8, если вам важна производительность, рекомендуется строки объединять методом сепаратор.join(строки). Это будет гарантировать, что объединение происходит в линейное время в различных реализациях).
3. Повторение **str*number**


In [3]:
first_name = 'ada'
last_name = 'lovelace'

full_name = first_name + ' ' + last_name

print(full_name)

print('spam' * 3)

ada lovelace
spamspamspam



**join** - сборка строки из списка по разделителю, применяется к разделителю

In [5]:

print(','.join([first_name,last_name]))

ada,lovelace


***Разные регистры***

In [6]:

print(first_name)
print(first_name.title())
print(first_name)
print(first_name.upper())
print(first_name.lower())

ada
Ada
ada
ADA
ada


Мы уже увидели некоторые методы строк. Полный список можно узнать методом dir с входящим параметром - str:

In [9]:
dir(str)

['__add__',
 '__class__',
 '__contains__',
 '__delattr__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__getitem__',
 '__getnewargs__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__iter__',
 '__le__',
 '__len__',
 '__lt__',
 '__mod__',
 '__mul__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__rmod__',
 '__rmul__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 'capitalize',
 'casefold',
 'center',
 'count',
 'encode',
 'endswith',
 'expandtabs',
 'find',
 'format',
 'format_map',
 'index',
 'isalnum',
 'isalpha',
 'isascii',
 'isdecimal',
 'isdigit',
 'isidentifier',
 'islower',
 'isnumeric',
 'isprintable',
 'isspace',
 'istitle',
 'isupper',
 'join',
 'ljust',
 'lower',
 'lstrip',
 'maketrans',
 'partition',
 'replace',
 'rfind',
 'rindex',
 'rjust',
 'rpartition',
 'rsplit',
 'rstrip',
 'split',
 'splitlines',
 'startswith',
 'strip',
 'swapcase',
 'title',
 'translate',
 'upper',


Вызов помощи по методу: help(method)

In [43]:
 help(str.find) #или так str.find?

Help on method_descriptor:

find(...)
    S.find(sub[, start[, end]]) -> int
    
    Return the lowest index in S where substring sub is found,
    such that sub is contained within S[start:end].  Optional
    arguments start and end are interpreted as in slice notation.
    
    Return -1 on failure.



**Поиск подстроки**

**find** - поиск подстроки в строке. Возвращает номер первого вхождения или -1

In [8]:
#import this
test_string="""Simple is better than complex.
Complex is better than complicated."""
print(test_string.find('better'))
print(test_string.find('\n'))

10
30


**rfind** - поиск подстроки в строке. Возвращает номер последнего вхождения или -1

In [34]:
print(test_string.rfind('better'))

42


Допускается выполнять обход элементов строки в цикле, используя инструкцию **for**, и проверять вхождение подстроки в строку с помощью оператора выражения **in**, который, по сути, выполняет операцию поиска. 
В случае поиска подстрок оператор **in** напоминает метод **str.find()** с тем отличием, что он возвращает логический результат, а не позицию подстроки в строке:

In [11]:
print('than' in test_string)

for symb in test_string:
    print(symb,end = ' ') #показать без end 

True
S i m p l e   i s   b e t t e r   t h a n   c o m p l e x . 
 C o m p l e x   i s   b e t t e r   t h a n   c o m p l i c a t e d . 

Есть ли подстрока в строке:

In [12]:
'cats' in test_string

False

**Удаление лишних пробелов или символов**


In [14]:
name = '  Name   '

print('-' + name.lstrip() + '-')
print('-' + name.rstrip() + '-')
print('-' + name.strip() + '-')

name = '..Name..'
print(name.strip('.'))


-Name   -
-  Name-
-Name-
Name


**replace** - замена по шаблону

In [20]:
print(name.replace('Name','Cat'))
print(name)

print("bla bla bla".replace("bla", "wow",2))

..Cat..
..Name..
wow wow bla


**count** - подсчет вхождения подстроки в строке

In [38]:
print("bla bla bla".count("bla"))
print("To be or not to be".count('o'))

3
4


**split** - разбиение строки по разделителю

In [24]:
test_string.split()

['Simple',
 'is',
 'better',
 'than',
 'complex.',
 'Complex',
 'is',
 'better',
 'than',
 'complicated.']

In [21]:
test_string.split('.')

['Simple is better than complex', '\nComplex is better than complicated', '']

* **isdigit** - состоит ли строка из цифр;
* **isalpha** - состоит ли строка из букв;
* **isalnum** - состоит ли строка из цифр или букв;
* **islower** - состоит ли строка из символов в нижнем регистре;
* **isupper** - состоит ли строка из символов в верхнем регистре;
* **istitle** - начинаются ли слова в строке с заглавной буквы.

**Доступ по индексам и извлечение подстроки**

Так как строки определены как упорядоченные коллекции символов, мы можем обращаться к элементам строк по номерам позиций. Python также позволяет извлекать элементы последовательностей, таких как строки, используя отрицательные смещения.


In [22]:
test_string = 'I love cats'
print(test_string[0], test_string[-3])

I a


В дополнение к простой возможности индексирования по номеру позиции, последовательности поддерживают более общую форму индексирования, известную как получение среза (slicing), которая обеспечивает возможность извлечения за одну операцию целого сегмента (среза).

In [24]:
print(test_string[:9:2])

Ilv a


В общем виде синтаксис операции получения среза выглядит как: X[I:J], и означает: «извлечь из X все, начиная со смещения I и до
смещения J, но не включая его». В качестве результата возвращается новый объект. При выполнении операции получения среза левая граница по умолчанию принимается равной нулю, а правая – длине последовательности, к которой применяется операция. В результате мы получаем следующие наиболее распространенные варианты использования:

In [5]:
s='I love cats'
print(s[1:])
print(s[1:3])
print(s[:3])
print(s[:-1])
print(s[1::2])
print(s[::-1])

 love cats
 l
I l
I love cat
 oect
stac evol I


Третий индекс используется как шаг. Величина шага добавляется к индексу каждого
извлекаемого элемента. Полная форма записи операции извлечения подстроки выглядит так: X[I:J:K]. 
Она означает: «Извлечь все элементы последовательности X, начиная со смещения I, вплоть до смещения J-1, с шагом K».
 
 Третий предел, K, по умолчанию имеет значение 1, именно по этой причине
в обычной ситуации извлекаются все элементы среза, слева направо. Однако
если явно указать значение третьего предела, его можно использовать, чтобы
пропустить некоторые элементы или полностью изменить их порядок.

Можно также использовать отрицательное значение шага. Например, выражение “hello”[::-1] вернет новую строку “olleh”.

При использовании отрицательного шага порядок применения первых двух
границ меняется на противоположный. То есть выражение S[5:1:-1] извлечет
элемент со 2 по 5 в обратном порядке (результат будет содержать элементы последовательности со смещениями 5, 4, 3 и 2):

In [44]:
s='abcdefg'
s[5:1:-1]

'fedc'

Пропуск элементов и изменение порядка их следования – это наиболее типичные случаи использования операции получения среза с тремя пределами.

**Форматирование строк**

Чтобы использовать форматированные строковые литералы, перед открывающей  или тройной кавычкой укажите f или F. Внутри этой строки можно указывать переменные для отображения в {}

In [31]:
year = 2019.76860687678
event = 'Referendum'
print(f'Results of the {year:.2f} {event}')


Results of the 2019.77 Referendum


При форматировании можно использовать спецификаторы формата. С некоторыми мы уже познакомились, когда рассматривали числовые типы:
 * **d** - Десятичное (целое) число
 * **i** - Целое число
 * **o** - Восьмеричное целое число
 * x ( X ) - Шестнадцатеричное целое число (шестнадцатеричные цифры возвращаются в верхнем регистре)
 * e (E) - Вещественное число в экспоненциальной форме (... в верхнем регистре)
 * **f** - Вещественное число в десятичном представлении

In [26]:
number = 23.4237298791
print(f' {number:.6f}  {number: .3f}')

 23.423730   23.424


Как видно из примера выше, вы можете указывать точность представления отоборажаемой переменной после **:**

 Можно форматировать строки с помощью метода строк **str.format ()**, однако в данном случае имена переменных, которые вы хотите отобразить в строке перечисляются в () как параметры метода **format**

In [35]:
yes_votes = 42_572_654
no_votes = 43_132_495
percentage = yes_votes / (yes_votes + no_votes)
print('{:10} YES votes  {:2.2%}'.format(yes_votes, percentage))


  42572654 YES votes  49.67%


In [37]:
table = {'Sjoerd': 4127, 'Jack': 4098, 'Dcab': 7678}
for name, phone in table.items():
    print(f'{name:10} ==> {phone:10d}')

Sjoerd     ==>       4127
Jack       ==>       4098
Dcab       ==>       7678


 По поводу метода **print**. По умолчанию данный метод выводит информацию в новой строке, разделитель между параметрами - пробел:
         
         print(*objects, sep=' ', end='\n', file=sys.stdout, flush=False)
         
 Как видно данный метод имеет параметры по умолчанию. Вы можете задавать другие значения.


In [32]:
print('cat','dog','pig','something else')

cat dog pig something else


In [35]:
print('cat','dog','pig','something else', sep='____', end='\t')
print('mouse')

cat____dog____pig____something else	mouse


Больше информации по форматированию можно найти в стандартном руководстве по Python

Сравенение строк
--------------

 При сравнении строк принимается во внимание символы и их регистр. Так, цифровой символ условно меньше, чем любой алфавитный символ. Алфавитный символ в верхнем регистре условно меньше, чем алфавитные символы в нижнем регистре.

In [37]:
str1 = "1a"
str2 = "aa"
str3 = "Aa"
print(str1 > str2)  # False, так как первый символ в str1 - цифра
print(str2 > str3)  # True, так как первый символ в str2 - в нижнем регистре

False
True


In [38]:
str1 = "Tom"
str2 = "tom"
print(str1 == str2) 
 
print(str1.lower() == str2.lower()) 

False
True
