<a href="https://colab.research.google.com/github/ordevoir/Python/blob/main/05_(adv)_Strings.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Строки

## Разбиение строки в массив

Метод `split()` разбивает строку на список фрагментов на основе разделителя, который указывается в аргументе `sep`. По умолчанию разделителем будет пробел (`sep=" "`). Явное проеобразование строки в список произведет разбиение на отдельные символы.

In [None]:
s = 'This is - some  text'

letters = list(s)               # разбиение на символы
words = s.split()               # разбиение на слова
phrases = s.split('-')          # разделитель -

print(f'{letters = }\n{words   = }\n{phrases = }')

letters = ['T', 'h', 'i', 's', ' ', 'i', 's', ' ', '-', ' ', 's', 'o', 'm', 'e', ' ', ' ', 't', 'e', 'x', 't']
words   = ['This', 'is', '-', 'some', 'text']
phrases = ['This is ', ' some  text']


Разбиение строки на основе переноса (в метах разрыва) можно осуществить методом `splitlines()`. Единственный булевый аргумент `keepends` определяет, будут ли сохранены символы переоса (`\n`, `\v`) на концах фрагментов. По умолчанию `keepends=False`.

In [None]:
s = 'line 1\nline 2\n line 3'
print(s)
print(s.splitlines())       # разбиение строки в местах разрыва
print(s.splitlines(True))   # True - с сохранением символа переноса строки

line 1
line 2
 line 3
['line 1', 'line 2', ' line 3']
['line 1\n', 'line 2\n', ' line 3']


## Объединение строк из списка

In [None]:
delimiter = '\n'
text = delimiter.join(words)
print(text)
" ".join(words)

This
is
-
some
text


'This is - some text'

## Методы класса `str`

### Подсчет и поиск элементов

Отличие методов `find()` и `index()` в том, что если элемент не найден, то `find()` вернет значение `-1`, а `index()` вызовет исключение `ValueError` методы `rfind()` и `rindex()` работают так же, как и `find()` и `index()`, но возращают индекс последного элемента с заданным значением.

In [None]:
s = 'some text'
print(f'{ s.count("t") =        }')     # количество вхождений символа t
# количество вхождений t в диапазоне c 4 позиции до позиции с индексом 6:
print(f'{ s.count("t", 4, 6) =  }')
print(f'{ s.find("t") =         }')     # возвращает индекс первого элемента t
print(f'{ s.index("t") =        }')     # возвращает индекс первого элемента t

 s.count("t") =        2
 s.count("t", 4, 6) =  1
 s.find("t") =         5
 s.index("t") =        5


### Методы `is...()`

`isidentifier()` – строка является валидным идентификаторм, т.е. может быть именем перменной

In [None]:
print(f"{ '1a'.isidentifier()   = }")    # строка явл. валидным идентификатором
print(f"{ '      '.isspace()    = }")    # строка содержит только пробелы
print(f"{ 'dce'.startswith('d') = }")    # строка начинается с символа 'd'
print(f"{ 'dce'.endswith('e')   = }")    # строка заканчивается символом 'e'
print(f"{ 'Some Text'.istitle() = }")    # все слова нач. с большой буквы
print(f"{ 'some text'.islower() = }")    # все буквы в нижнем регистре
print(f"{ 'SOME TEXT'.isupper() = }")    # все буквы в верхнем регистре
print(f"{ 'someText'.isalpha()  = }")    # строка состоит только из букв

 '1a'.isidentifier()   = False
 '      '.isspace()    = True
 'dce'.startswith('d') = True
 'dce'.endswith('e')   = True
 'Some Text'.istitle() = True
 'some text'.islower() = True
 'SOME TEXT'.isupper() = True
 'someText'.isalpha()  = True


Методы `isdigit()`, `isdecimal()`, `isnumeric()` и `isalnum()` весьма похожи и в общем случае проверяют, состоит ли строка только из цифр (чисел и букв).

In [None]:
a = '12344'                                 # строка непосредственно цифр
b = '12\u00B2\u00B3'                        # ²³ специфические символы цифр
c = '\u00BD\u00BC\u00BE\u2153\u2155'        # ½ числовые символы
print(f'{a = }, {b = }, {c = }')

a = '12344', b = '12²³', c = '½¼¾⅓⅕'


`isdigit()` возвращает `True` только в том случае, если все символы предствляют собой непосредственно цифры (`0123456789`)

In [None]:
print(f'{ a = }, {b = }, {c = }')
print(f"{ a.isdigit() = }")
print(f"{ b.isdigit() = }")
print(f"{ c.isdigit() = }")

a = '12344', b = '12²³', c = '½¼¾⅓⅕'
a.isdigit() = True
b.isdigit() = True
c.isdigit() = False


`isdecimal()` возвращает `True` также в том случае, если в строке присутствуют специфические символы *цифр* (например `²`)

In [None]:
print(f'{ a = }, {b = }, {c = }')
print(f"{ a.isdecimal() = }")
print(f"{ b.isdecimal() = }")
print(f"{ c.isdecimal() = }")

a = '12344', b = '12²³', c = '½¼¾⅓⅕'
a.isdecimal() = True
b.isdecimal() = False
c.isdecimal() = False


`isnumeric()` возвращает `True` также в том случае, если в строке присутствуют *числовые* символы (например, `⅕`)

In [None]:
print(f'{ a = }, {b = }, {c = }')
print(f"{ a.isnumeric() = }")
print(f"{ b.isnumeric() = }")
print(f"{ c.isnumeric() = }")

 a = '  text  ', b = '*', c = '½¼¾⅓⅕'
 a.isnumeric() = False
 b.isnumeric() = False
 c.isnumeric() = True


`isalnum()` возвращает `True`, если строка состоит из букв, цифр, специфических символов цифр и числовых символов.

In [None]:
a = '12\u00B2with\u00BD'
b = "*"
print(f"{ a = }, {b = }")
print(f"{ a.isalnum() = }\n{ b.isalnum() = }")

 a = '12²with½', b = '*'
 a.isalnum() = True
 b.isalnum() = False


### Методы для выравнивания

In [None]:
a = ' text '
print(f"{ a             = }")
print(f'{ a.center(13)  = }')  # центрирует строку в заданной длине
print(f"{ a.ljust(10)   = }")  # выравнивание по левому краю
print(f"{ a.rjust(10)   = }")  # выравнивание по правому краю
print(f"{ a.lstrip()    = }")  # обрезает строку слева
print(f"{ a.rstrip()    = }")  # обрезает строку справа
print(f"{ a.strip()     = }")  # обрезает строку и справа и слева

 a             = ' text '
 a.center(13)  = '     text    '
 a.ljust(10)   = ' text     '
 a.rjust(10)   = '     text '
 a.lstrip()    = 'text '
 a.rstrip()    = ' text'
 a.strip()     = 'text'


In [None]:
a = '256'
print(a.zfill(10))  # дополняет строку слева нулями

0000000256


### Методы для изменения регистра букв

In [None]:
s = ' this is Some Text'
print(s)
print(s.lower())        # переводит все буквы в нижний регистр
print(s.upper())        # переводит все буквы в верхний регистр
print(s.capitalize())   # переводит первую букву строки в верхний регистр
print(s.title())        # переводит в верхний регистр начальные буквы
                        # всех слов строки
print(s.casefold())     # то же что и lower, но более универскльный

 this is Some Text
 this is some text
 THIS IS SOME TEXT
 this is some text
 This Is Some Text
 this is some text


## Конвертация между символами и кодами в Unicode

In [None]:
print(ord('π'))     # возвращает код сивола
print(chr(960))     # возвращает символ по коду
print('\nlatin:')
for i in range(33, 127):
    print(chr(i), end='')
print('\ncirilic:')
for i in range(1040, 1103):
    print(chr(i), end='')
print('\ngreek:')
for i in range(913, 969):
    print(chr(i), end='')

960
π

latin:
!"#$%&'()*+,-./0123456789:;<=>?@ABCDEFGHIJKLMNOPQRSTUVWXYZ[\]^_`abcdefghijklmnopqrstuvwxyz{|}~
cirilic:
АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЪЫЬЭЮЯабвгдежзийклмнопрстуфхцчшщъыьэю
greek:
ΑΒΓΔΕΖΗΘΙΚΛΜΝΞΟΠΡ΢ΣΤΥΦΧΨΩΪΫάέήίΰαβγδεζηθικλμνξοπρςστυφχψ

## F-string

In [None]:
# форматированные строки f-string (formatted string)
from math import pi
a = 'some'
b = 'text'
c = f'{a} {b}'
print(c)
print(f'значение числа {chr(960)}: {pi:.3f}')
# В f-sting можно интерполировать значение словарей, списков, вызывать методы...

some text
значение числа π: 3.142


### Выбор способа преобразования

При выводе на печать интерполируемых значений, производится преобразование значений в строку. Преобразование может производиться функциями `str()`, `repr()` и `ancii()`. Для того, чтобы задать способ преобразования, можно воспользоваться операторами `!s`, `!r` и `!a`. По умолчанию используется `!r` (`repr()`).

In [None]:
strValue = 'symbol π'

print(f'{strValue = }')
print(f'str {strValue = !s}')    # <=>   print(f's: {str(strValue)}')
print(f'repr {strValue = !r}')    # <=>   print(f'r: {repr(strValue)}')
print(f'ascii {strValue = !a}')    # <=>   print(f'r: {ascii(strValue)}')

strValue = 'symbol π'
str strValue = symbol π
repr strValue = 'symbol π'
ascii strValue = 'symbol \u03c0'


### Фораматированный вывод datetime

In [None]:
from datetime import datetime
now = datetime.now()
print(f'{now}')
print(f'{now :%Y-%m-%d}')
print(f'{now = :%H:%M:%S}')

2023-10-08 13:11:18.086718
2023-10-08
now = 13:11:18


## Интернирование строк

Интернирование строк-это процесс хранения в памяти только одной копии каждого отдельного строкового значения. Это означает, что, когда мы создаем две строки с одинаковым значением – вместо выделения памяти для них обоих, только одна строка фактически фиксируется в памяти.

*String interning* предназначен для хранение только одной копии идентичных строк. Если создается строка `s1`, затем строки `s2` и `s3`, идентичные строке `s1`, то вместо того, чтобы создать отдельные объекты для имен `s2` и `s3`, имена будут ссылаться
на созданный ранее объект:

In [None]:
s1 = 'abc'
s2 = 'abc'
s3 = 'a' + 'bc'

# В данном слачае интернирование не будет работать, так как в выражении s4 = 'a'
# создается новый строковый объект
s4 = 'a'
s4 += 'bc'

# Но мы можем вручную произвести интернирование при помощи функции intern():
from sys import intern
s5 = 'a'
s5 = intern(s5 + 'bc')

print(f'{s1 = } {s2 = } {s3 = } {s4 = } ')
print(f'{s2 is s1 = }')
print(f'{s3 is s1 = }')
print(f'{s4 is s1 = }')
print(f'{s5 is s1 = }')
print(f'{s5 is s4 = }')