# Содержание

0. различные типы литералов
1. базовые операции
2. индексация
3. слайсинг (slice)
4. методы str
5. форматирование строк

В `python3` всего три строковых типа: 

| type      | назначение                        | mutability
|:----------|:---------------------------------:|:----------:|
 `str`      |представляет обычный текст Unicode | immutable
 `bytes`    |для двоичных данных                | immutable
 `bytearray`|изменяемый `bytes`                 | mutable
 
 Нет отдельного типа для представления символа - вместо этого односимвольные строки.

Содержимое файлов можно считать как тип `str` (обычный текст) или в низкоуровневом `bytes` без предварительной трансляции данных.

## Виды литералов

In [1]:
True, 1, 4.2, 1+3j, None

(True, 1, 4.2, (1+3j), None)

Для начала инициализируем несколько строк:

In [2]:
s1 = 'string'  # 1 + 2 + 3
s2 = "string"
s3 = """string"""  # ''''''
print(s1, s2, s3)

string string string


In [3]:
# разницы нет
print('string')            # одинарные кавычки
print("string")            # двойные кавычки
print("""string""")        # тройные кавычки

string
string
string


In [4]:
print("s\ttr\ni\tng")      # управляющие последовательности \t, \n...

s	tr
i	ng


In [5]:
print(r"С:\new\test.py")   # неформатированные строки

r"С:\new\test.py"

С:\new\test.py


'С:\\new\\test.py'

In [6]:
print(b'sp\x31am')         # .decode('utf-8')
b'sp\x01am'                # байтовые строки

b'sp1am'


b'sp\x01am'

In [7]:
u'eggs\u0020spam'         # литералы Unicode

'eggs spam'

Небольшая табличка:

Type            | Example
:------------------|:--
  String          | ``"hello\tthere"``
  String          | ``'hello'``
  String          | ``'''He said, "hello"'''``
  Raw string      | ``r'hello\tthere'``
  Byte string     | ``b'hello'``


## базовые операции

- конкатенация
- умножение на число
- `len(string)` - длинна строки `string` (количество байт)

In [8]:
s1 = 'not'
s2 = 'empty'
s3 = 'string'     
print(s1 + s2 + s3)  # конкатенация
s1 + s2 + s3

notemptystring


'notemptystring'

In [10]:
s1 + ' ' + s2 + ' ' + s3

'not empty string'

In [11]:
s4 = 'not' ' ' 'empty' " " 'string'  # неявная конкатенация - но лучше явная :)
s4                                   # Zen of Python

'not empty string'

In [12]:
import this

The Zen of Python, by Tim Peters

Beautiful is better than ugly.
Explicit is better than implicit.
Simple is better than complex.
Complex is better than complicated.
Flat is better than nested.
Sparse is better than dense.
Readability counts.
Special cases aren't special enough to break the rules.
Although practicality beats purity.
Errors should never pass silently.
Unless explicitly silenced.
In the face of ambiguity, refuse the temptation to guess.
There should be one-- and preferably only one --obvious way to do it.
Although that way may not be obvious at first unless you're Dutch.
Now is better than never.
Although never is often better than *right* now.
If the implementation is hard to explain, it's a bad idea.
If the implementation is easy to explain, it may be a good idea.
Namespaces are one honking great idea -- let's do more of those!


In [13]:
s2 * 3  # умножение на целое число

'emptyemptyempty'

In [14]:
s2 * 0

''

In [15]:
s2 * (-42)

''

In [16]:
s2 * 42.0  # умножать только на int

TypeError: can't multiply sequence by non-int of type 'float'

Вхождение подстроки в строку: `substring in string`

In [17]:
vino = 'in vino veritas'
aqua = 'in aqua sanitas'

In [18]:
"veritas" in vino

True

In [19]:
"sanitas" in aqua

True

In [20]:
"sanitas" in vino

False

Проверка, что нет такой подстроки `substring not in string`

In [21]:
vino not in aqua

True

In [22]:
"sanitas" not in aqua

False

In [23]:
5 in vino

TypeError: 'in <string>' requires string as left operand, not int

Встроенная функция len - длина последовательности (sequence / iterable) - **фактическое число байтов**

In [24]:
print(len(s1), s1)
print(len(s2), s2)
print(len(s3), s3)
print(len(s1 + s2 + s3))

3 not
5 empty
6 string
14


### Экранированные последовательности

[Таблица](https://docs.python.org/3.8/reference/lexical_analysis.html#string-and-bytes-literals) c экранирующими символами из документации. Ниже перечислены основные:

символ               | для чего
:--------------------|:---------------------
`\`                  | для переноса строки (строка продолжается)
`\\`                 | сохраняет \
`\’`                 | сохраняет ’
`\"`                 | сохраняет ”
`\n`                 | новая строка
`\t`                 | горизонтальная табуляция
`\N{name}`           | идентификатор базы данных Unicode
`\uxxxx`             | символ Unicode с 16-битным шестнадцатеричным значением
`\Uxxxxxxxx`         | символ Unicode с 32-битным шестнадцатеричным значением
`\остальное`         | не управляющая последовательность

In [37]:
'\u3456'

'㑖'

Зачем нужен один `\`?

In [25]:
print('oneoneoneoneoneoneoneoneoneoneone
twotwotwotwotwotwotwotwotwo')

SyntaxError: EOL while scanning string literal (1179582912.py, line 1)

добавим `\`:

In [26]:
print('EOL - End Of Line')

print('one\
two')

print('one \
two')

EOL - End Of Line
onetwo
one two


In [32]:
print([1, 
2, 
       3,
4,
       5,
6])

[1, 2, 3, 4, 5, 6]


Также поможет, если ваша строка с кодом очень длинная:

In [27]:
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + \
1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1 + 1   \
+ 1

23

Если нужно напечатать сам `\` - экранируйте его:

In [38]:
print('\')

SyntaxError: EOL while scanning string literal (4138952293.py, line 1)

In [39]:
print('\\')
print('\\\\')

\
\\


Конечно `\` напечатается, если следующий за ним символ не будет распознан как часть экранированной последовательности, но лучше все же экранировать.

In [40]:
print('А этот \ точно всегда экранирует?')
print('А этот \\ точно всегда экранирует?')

А этот \ точно всегда экранирует?
А этот \ точно всегда экранирует?


In [46]:
string = 'w\no\0r\td'  # сколько тут символов? 10?

print(string)
print(len(string))

w
o r	d
8


In [47]:
'\1'

'\x01'

Экранированные последовательности образуют единственный символ – байт, содержащий двоичное значение кода символа в используемом наборе символов

**Note:** неформатированные строки подавляют экранирование. Создаются вот так: `r'somestring'`

In [48]:
# посмотрим проблему с путями в windows
path = 'C:\new\text\dat'
print(path, len(path), sep='\n')

C:
ew	ext\dat
13


In [49]:
path = r'C:\new\text\dat'
print(path, len(path), sep='\n')

C:\new\text\dat
15


In [50]:
path  # выводится с экранированием

'C:\\new\\text\\dat'

**Note** Конструкция `r'...\'` не является допустимым строковым литералом  – неформатированная строка не может заканчиваться нечетным количеством символов обратного слэша.

Если необходимо, чтобы неформатированная строка заканчивалась символом
обратного слеша, можно:
* добавить два символа и затем удалить второй из них (`r'1\nb\tc\\'[:-1]`)
* добавить один символ вручную `(r'1\nb\tc' + '\\')`
* или использовать обычный синтаксис строковых литералов и дублировать все символы обратного слеша (`'1\\nb\\tc\\'`)

### приведение к другому типу

Другие типы можно перевести в строковое представление, использовав явное приведение:

In [70]:
print([1, 2, 3])

[1, 2, 3]


In [71]:
# например, list в str

str([1, 2, 3])

'[1, 2, 3]'

In [72]:
len(str([1, 2, 3]))

9

In [73]:
# можно и обратно, но будьте внимательны*

list('[1, 2, 3]')

['[', '1', ',', ' ', '2', ',', ' ', '3', ']']

In [74]:
# float в str

str(2.31e-1), str(3.1415926535)

('0.231', '3.1415926535')

In [75]:
# int в str

str(0), str(1), str(42)

('0', '1', '42')

In [76]:
str(True), str(False), str(None)

('True', 'False', 'None')

In [77]:
x = '123'
x = list(x)
x

['1', '2', '3']

### Сравнение строк

Для строк применяется лексикографическое сравнение (по алфавиту). Можно сказать, что сравнение как у списков, но все же это списки сравниваются, как строки :)

In [78]:
'a' + 'a' == 'aa'

True

In [79]:
'a' + 'a' != 'aa'

False

Регистр важен

In [80]:
"apple" != "Apple"

True

In [81]:
'ab' < 'aa'

False

In [82]:
'韩' > 'a'

True

И как это понять? Запоминать порядок всех символов? Конечно нет, вот еще один странный пример

In [83]:
"apple" < "Apple"

False

#### Символы и байты

*Символ* (`韩`) - это абстракция.  
*Charset* - это набор "допустимых" символов.  
*Кодировка* - это правила, как записывать символы в компьютере.  

**ASCII** - это кодировка для 128 символов. Каждый символ занимает 7 бит.  
**КОИ-8** - это кодировка для 256 символов (расширение ASCII для русского языка). Символ занимает 8 бит.  

**Unicode** - это стандарт, включающий в себя charset + несколько кодировок (UTF-8, UTF-16, UTF-32).
- В UTF-8 - от 1 до 4 байт
- UTF-16 - 2 или 4 байта
- UTF-32 - 4 байта  

**Note** string - последовательность символов | bytes - последовательность байтов


Unicode: symbol identifier (such as `r`, `Я` or `韩`) != byte representation.

You can switch between the Unicode symbol (e.g. "U+1D11E") and its integer identifier with `ord` and `chr`:

Кто в алфавите раньше, тот и меньше: 
- `ord()` - узнать, кто раньше (порядковый номер символа)
- `chr()` - поможет получить сам символ по его номеру

In [None]:
# help(ord)
# help(chr)

In [84]:
ord('A')

65

In [85]:
ord('Z')

90

In [86]:
ord('a')

97

In [87]:
ord('z')

122

In [88]:
ord('韩'), '韩' > 'a'

(38889, True)

In [89]:
chr(38451) + ' - солнце'

'阳 - солнце'

In [90]:
ord('\U0001D11E'), chr(119070)

(119070, '𝄞')

In [91]:
chr(ord('韩')) == '韩'

True

```
Encoding: symbols (human-readable) -> bytes 
Decoding: bytes -> symbols
```

In [92]:
s = 'café'
len(s)

4

In [93]:
b = s.encode('utf8')              # binary representation
print(len(b), type(b))
b                             

5 <class 'bytes'>


b'caf\xc3\xa9'

In [94]:
b.decode()

'café'

![](../../images/uniencode.png)

### Интернирование 

при первом прочтении можно пропустить

In [100]:
x = 'Hello'
z = 'Hello'
a = 'Hello World'
b = 'Hello World'
c = 'Hello Worl'

print(z is x)
print(a is b)
print(a == b)
print(a is c + 'd')
print(a == c + 'd')

True
False
True
False
True


In [104]:
# %%writefile untitled.py
letter_d = 'd'

a = 'Hello World'
b = 'Hello World'
c = 'Hello Worl' + letter_d
d = 'Hello Worl' + 'd'

print(f"a is b: {a is b}")
print(f"b is d: {b is d}")
print(f"a is c: {a is c}")

print(f"The ID of a: {id(a)}")
print(f"The ID of b: {id(b)}")
print(f"The ID of c: {id(c)}")
print(f"The ID of d: {id(d)}")

a is b: False
b is d: False
a is c: False
The ID of a: 4390511216
The ID of b: 4391173616
The ID of c: 4391214192
The ID of d: 4391213808


```a is b: True
b is d: True
a is c: False
The ID of a: 4381251376
The ID of b: 4381251376
The ID of c: 4381595824
The ID of d: 4381251376```

Все еще ничего необычного. Но самое интересное происходит не в интерактивном режиме:

In [105]:
!python untitled.py

a is b: True
b is d: True
a is c: False
The ID of a: 4340198960
The ID of b: 4340198960
The ID of c: 4340232816
The ID of d: 4340198960


За подробностями [сюда (англ)](https://stackabuse.com/guide-to-string-interning-in-python/), а еще можно посмотреть [здесь (хабр)](https://habr.com/ru/post/564804/)

## Индексы и срезы (slice)

Индексация аналогично спискам. В целом справедливо для любых последовательностей (iterable)

In [106]:
string = 'string for slicing'
string[0]
string[2]
string[-1]
string[-4]

'c'

**Операция среза возвращает новый объект**, поэтому с помощью `[:]` можно получить полную поверхностную копию объекта последовательности - полезно с изменяемыми объектами (списки, например)

**Третий индекс** - необязательный - используется как шаг

In [107]:
S = 'abcdefghijklmnop'
S[1:10:2]

'bdfhj'

In [108]:
S[::2]

'acegikmo'

In [109]:
S[7:1:-2]  # элемент с индексом 1 не войдет, т.к. вторая граница не включается

'hfd'

In [110]:
S[::-1]

'ponmlkjihgfedcba'

In [111]:
S

'abcdefghijklmnop'

**slice** - объект среза

In [None]:
help(slice)

In [112]:
'spam'[1:3]  # Синтаксис извлечения среза

'pa'

In [113]:
'spam'[slice(1, 3)]  # используется объект среза

'pa'

In [114]:
'spam'[::-1]

'maps'

In [116]:
'spam'[slice(None, None, -1)]

'maps'

In [115]:
'spam'[slice(, None, -1)]

SyntaxError: invalid syntax (1013044318.py, line 1)

## Строки в действии

### Изменение строк

Строки - неизменяемые последовательности

In [117]:
s = 'abcde'
s[0] = 'z'

TypeError: 'str' object does not support item assignment

Чтобы изменить строку, необходимо создать новую строку с помощью таких операций, как конкатенация и извлечение подстроки, а затем, если необходимо, присвоить результать первоначальному имени

In [118]:
s = 'z' + s[1:]
s

'zbcde'

In [119]:
s

'zbcde'

In [120]:
s = s[:2] + 'word' + s[3:]

In [121]:
s

'zbwordde'

## Строковые методы

**Методы** - функции, связанные с определенными объектами. Формально они являются атрибутами, присоединенными к объектам, которые ссылаются на функции.

Методы являются специфичными для типов объектов, но некоторые методы могут относиться к разыми типам (например, `count`), но при этом они по своей функциональности в большей степени зависят от типа объекта, чем другие инструменты.

Функции  – это пакеты программного кода, а  вызовы методов объединяют в себе выполнение двух операций (извлечение атрибута и вызов функции).
* Извлечение атрибута

Выражение вида **`object.attribute`** означает: «извлечь значение атрибута `attribute` из объекта `object`».
* Вызов функции

Выражение вида **`function(arguments)`** означает: «вызвать программный код функции `function`, передав ему ноль или более объектов-аргументов `arguments`, разделенных запятыми, и вернуть значение функции».

Объединение этих двух действий позволяет вызвать метод объекта. Выражение вызова метода `object.method(arguments)` вычисляется слева направо, то есть интерпретатор сначала извлекает метод объекта, а затем вызывает его, передавая ему входные аргументы

In [126]:
# на этот код не обращайте внимания, эта функция нам просто поможет
def print_entire_obj(obj):
    print(len([name for name in dir(obj) if not name.startswith('_')]))
    print(*[name for name in dir(obj) if not name.startswith('_')], sep='\n')

Полный список тут: https://docs.python.org/3.8/library/stdtypes.html#string-methods

In [127]:
print_entire_obj(str)

45
capitalize
casefold
center
count
encode
endswith
expandtabs
find
format
format_map
index
isalnum
isalpha
isascii
isdecimal
isdigit
isidentifier
islower
isnumeric
isprintable
isspace
istitle
isupper
join
ljust
lower
lstrip
maketrans
partition
replace
rfind
rindex
rjust
rpartition
rsplit
rstrip
split
splitlines
startswith
strip
swapcase
title
translate
upper
zfill


### Рассмотрим некоторые методы.

#### isdigit/isalpha

`.isdigit()` - возвращает True, если все символы строки - цифры

`.isalpha()` - возвращает True, если все символы строки - буквы

In [131]:
help(str.isdigit)

Help on method_descriptor:

isdigit(self, /)
    Return True if the string is a digit string, False otherwise.
    
    A string is a digit string if all characters in the string are digits and there
    is at least one character in the string.



In [132]:
'02'.isdigit()

True

In [133]:
'0.2'.isdigit()

False

In [134]:
'0 2'.isdigit()

False

In [135]:
'andefg'.isalpha()

True

In [136]:
'and efg'.isalpha()

False

Пользователь на вход пишет последовательность символов, нужно перевести в int:

In [137]:
int('asd')

ValueError: invalid literal for int() with base 10: 'asd'

In [139]:
# чтобы перевести в int, нужно проверить, можно ли перевести в int
number_str = input()

if number_str.isdigit():
    number_int = int(number_str)
    print("Преобразовано в int:",  number_int)
else:
    print("Невозможно преобразовать в int")

09876543
Преобразовано в int: 9876543


#### lower/upper/capitalize

`.lower()` - переводит строку в нижний регистр

`.upper()` - переводит строку в вехний регистр

`.capitalize()` - переводит в верхний регистр первую букву только самого первого слова строки

Пользователь вводит имя, а затем мы вежливо здороваемся с ним!

In [141]:
# вежливо здороваемся

name = input()

print("Привет,", name.capitalize() + '!')

Илья
Привет, Илья!


In [142]:
print("Привет,", input().capitalize() + '!')

илья
Привет, Илья!


Полезно пользоваться этими методами, когда надо сравнивать между собой строки.

Повторяем все, что ввел пользователь, до тех пор, пока пользователь не ввел слово Стоп (в произвольном виде).

In [143]:
# повторюшка

word = input()
while word.lower() != 'стоп':  # СтОп, СТОП
    print(word)
    word = input()

123456нри
123456нри
онав756гапф2к
онав756гапф2к
х3шге39опхтм
х3шге39опхтм
вдаптылтхуешроъ-35=ефлфу
вдаптылтхуешроъ-35=ефлфу
човраигтг934еп204егпофзхшоитошкипое  фшрцуипщф34п98рфу4
човраигтг934еп204егпофзхшоитошкипое  фшрцуипщф34п98рфу4
СТоп


In [144]:
word = input()
while word != 'стоп':  # СтОп, СТОП
    print(word)
    word = input()

СтоП
СтоП
стоп


In [None]:
# другой вариант, но суть та же

while True:
    word = input()
    if word.lower() != 'стоп':
        print(word)
    else:
        break

In [145]:
word

'стоп'

In [146]:
word.lower()

'стоп'

In [None]:
type(word.lower())

В Питоне вы часто увидете цепной вызов методов:

In [147]:
word.lower().islower()

True

In [148]:
word.lower()[::-1].upper()

'ПОТС'

#### split/join

- `.split()` - разбивает строку на подстроки в зависимости от разделителя

- `.join()` - объединяет строки в одну строку, вставляя между ними определенный разделитель

In [149]:
# посмотреть документацию по методу split
help(str.split)

Help on method_descriptor:

split(self, /, sep=None, maxsplit=-1)
    Return a list of the words in the string, using sep as the delimiter string.
    
    sep
      The delimiter according which to split the string.
      None (the default value) means split according to any whitespace,
      and discard empty strings from the result.
    maxsplit
      Maximum number of splits to do.
      -1 (the default value) means no limit.



In [150]:
'hello, world'.split()  # 'hello, world'.split(sep=None, maxsplit=-1)

['hello,', 'world']

In [153]:
'hello, world'.split('l'), len('hello, world'.split('l'))

(['he', '', 'o, wor', 'd'], 4)

In [151]:
'hello,     world'.split(' ')

['hello,', '', '', '', '', 'world']

In [152]:
'hello,     world'.split()  # сплитит по пробельным символам: \t, \n, ' ', \b

['hello,', 'world']

In [156]:
print(*'hello world world | world , world '.split(sep='wor', maxsplit=3), sep='\n')

hello 
ld 
ld | 
ld , world 


**Ситуация:** пользователь вводит положительные целые числа через запятую, без пробелов, нужно посчитать сумму чисел.

In [159]:
# ищем сумму чисел

numbers_str = input()

numbers_list = numbers_str.split(',')

print(numbers_list, type(numbers_list[0]))

# numbers_list = [int(i) for i in numbers_list]  # list comprehensions

for index, number in enumerate(numbers_list):
    numbers_list[index] = int(number)
    
print("Сумма чисел:", sum(numbers_list))

print(numbers_list)

1,2,3
['1', '2', '3'] <class 'str'>
['1', '2', '3']
0
1
1
[1, '2', '3']
1
2
2
[1, 2, '3']
2
3
3
Сумма чисел: 6
[1, 2, 3]


In [160]:
numbers_str

'1,2,3'

In [161]:
numbers_list

[1, 2, 3]

In [165]:
# еще пример
lst_str = ['42', '42', '42', '42', '42']
sum(map(int, lst_str))

210

In [166]:
# пример работы join

print(" ".join(['abc', 'def', 'class']))

print("---".join(['1', '2', '3']))

abc def class
1---2---3


In [167]:
print("---".join([1, 2, 3]))

TypeError: sequence item 0: expected str instance, int found

In [168]:
list(map(str, [1, 2, 3]))

['1', '2', '3']

In [None]:
str.join()

In [175]:
map(str, [1, 2, 3])

<map at 0x106d33b80>

In [169]:
print("---".join(map(str, [1, 2, 3])))

1---2---3


In [176]:
"aojngi siuehrbgiuhsbeig\niahbwoihbsv\tkncvi sijbohsbfeuhb   \t\n".split(' ')

['aojngi',
 'siuehrbgiuhsbeig\niahbwoihbsv\tkncvi',
 'sijbohsbfeuhb',
 '',
 '',
 '\t\n']

In [179]:
# ' '.join(['aojngi',
#  'siuehrbgiuhsbeig\niahbwoihbsv\tkncvi',
#  'sijbohsbfeuhb',
#  '',
#  '',
#  '\t\n'])

In [180]:
"aojngi siuehrbgiuhsbeig\niahbwoihbsv\tkncvi sijbohsbfeuhb   \t\n".split()

['aojngi', 'siuehrbgiuhsbeig', 'iahbwoihbsv', 'kncvi', 'sijbohsbfeuhb']

In [181]:
' '.join(['aojngi', 'siuehrbgiuhsbeig', 'iahbwoihbsv', 'kncvi', 'sijbohsbfeuhb'])

'aojngi siuehrbgiuhsbeig iahbwoihbsv kncvi sijbohsbfeuhb'

In [182]:
string = "Vvorld VVide vveb"
string

'Vvorld VVide vveb'

In [183]:
string.lower()

'vvorld vvide vveb'

In [184]:
string.lower().split('vv')

['', 'orld ', 'ide ', 'eb']

In [185]:
string = 'W'.join(string.lower().split('vv'))
string == "World Wide Web"

True

#### find/count/replace

- `find(substring, string)` -  возвращает индекс подстроки в строке; если подстрока не найдена, возвращается число -1

- `count(substring, string)` - количество вхождений подстроки в строку

- `replace(substring, string)` - заменяет в строке одну подстроку на другую

In [186]:
string = "я помню чудное мгновенье помню помню не помню"

In [187]:
string.find("помню")

2

In [188]:
string.count("помню")

4

In [189]:
string.count("собака")

0

In [190]:
string.rfind("помн")

40

In [191]:
if string.find('собака') + 1:
    print('Хатико')
else:
    print('Не нашел')

Не нашел


In [192]:
string.find('собака')

-1

In [193]:
if string.find('я'):
    print('Хатико')
else:
    print('Не нашел')

Не нашел


In [194]:
print('Хатико') if string.find('помню') + 1 else print('Не нашел')

Хатико


In [195]:
string

'я помню чудное мгновенье помню помню не помню'

In [202]:
string.replace(" ", '\n')

'я\nпомню\nчудное\nмгновенье\nпомню\nпомню\nне\nпомню'

In [201]:
print(string)
print(repr(string.replace(" ", '\n')))  # representation
print(string.replace(" ", '\n'))

я помню чудное мгновенье помню помню не помню
'я\nпомню\nчудное\nмгновенье\nпомню\nпомню\nне\nпомню'
я
помню
чудное
мгновенье
помню
помню
не
помню


In [203]:
print(string.replace(" ", '\n'))

я
помню
чудное
мгновенье
помню
помню
не
помню


In [204]:
print(string.replace(" ", '___'))

я___помню___чудное___мгновенье___помню___помню___не___помню


Строковые методы раньше были в отдельном модуле **`string`**, теперь там дополнительные средства для работы со строками

In [205]:
import string

In [207]:
help(string)

Help on module string:

NAME
    string - A collection of string constants.

MODULE REFERENCE
    https://docs.python.org/3.8/library/string
    
    The following documentation is automatically generated from the Python
    source files.  It may be incomplete, incorrect or include features that
    are considered implementation detail and may vary between Python
    implementations.  When in doubt, consult the module reference at the
    location listed above.

DESCRIPTION
    Public module variables:
    
    whitespace -- a string containing all ASCII whitespace
    ascii_lowercase -- a string containing all ASCII lowercase letters
    ascii_uppercase -- a string containing all ASCII uppercase letters
    ascii_letters -- a string containing all ASCII letters
    digits -- a string containing all ASCII decimal digits
    hexdigits -- a string containing all ASCII hexadecimal digits
    octdigits -- a string containing all ASCII octal digits
    punctuation -- a string containing all

In [206]:
print(string.ascii_letters)
print(string.ascii_lowercase)
print(string.digits)
string.whitespace

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
0123456789


' \t\n\r\x0b\x0c'

**Ситуация:** сколько в строке `text` символов, не являющихся цифрой?

In [219]:
text = '43ws6q273fgqr9383rgf98y13r08fyb0387gfh8qwybrvuyerc9yv3203grf38q04v-hqur39rbvfbw40-g8h=4058hgq9rugfqg0874369qrtfq0348wfehpewrigj-w8956nhn4'
len(text) - sum(text.count(digit) for digit in string.digits)


81

In [211]:
for digit in range(10):
    print(f'count for {digit}: {text.count(str(digit))}')

count for 0: 8
count for 1: 1
count for 2: 2
count for 3: 12
count for 4: 7
count for 5: 2
count for 6: 3
count for 7: 3
count for 8: 11
count for 9: 7


In [None]:
# [exp for counter in iterable]  -- вид expression'а для list comprehention

In [210]:
numbers_list = [int(i) for i in numbers_list]
numbers_list

[1, 2, 3]

## Выражения форматирования строк

[Так что же это за число такое 42?!](https://ru.wikipedia.org/wiki/Ответ_на_главный_вопрос_жизни,_вселенной_и_всего_такого)

In [220]:
question = '"Главный вопрос жизни, вселенной и всего такого"'
answer = 42

In [221]:
print("вопрос :", question, ", ответ =", answer)

вопрос : "Главный вопрос жизни, вселенной и всего такого" , ответ = 42


In [222]:
print("Вопрос =", 
      question, 
      ", ответ =", 
      answer)

Вопрос = "Главный вопрос жизни, вселенной и всего такого" , ответ = 42


Операции форматирования строк позволяют выполнять подстановку в строки
значений различных типов за одно действие

Операции форматирования строк могут выполняться двумя способами:
* выражения форматирования строк
* методы форматирования строк
* f-strings

### Старый способ (%)

Этот способ очень похож на printf в C.

https://docs.python.org/3.8/library/stdtypes.html#old-string-formatting

In [223]:
print("Вопрос = %s, ответ = %s" % (answer, question))

Вопрос = 42, ответ = "Главный вопрос жизни, вселенной и всего такого"


In [224]:
print("ответ = %(answer)s, на вопрос = %(question)s" % {'question': question , 'answer': answer})

ответ = 42, на вопрос = "Главный вопрос жизни, вселенной и всего такого"


### Уже старый новый способ (str.format)

Метод `format` объектов строк, использует строку, относительно которой он вызывается, как шаблон и  принимает произвольное количество аргументов, представляющих значения для подстановки.

Фигурные скобки внутри строки шаблона используются для обозначения замещаемых спецификаторов и  их параметров, которые могут определять порядковые номера позиционных аргументов (например, `{1}`) или имена именованных аргументов (например, `{food}`).

In [225]:
print("Вопрос: {}, ответ: {}".format(question, answer))

Вопрос: "Главный вопрос жизни, вселенной и всего такого", ответ: 42


In [226]:
print("Ответ {1}, на вопрос = {0}".format(question, answer)) # по индексу

Ответ 42, на вопрос = "Главный вопрос жизни, вселенной и всего такого"


In [227]:
print("ответ: {k2} на вопрос {k1}".format(k1=question, 
                                          k2=answer))

ответ: 42 на вопрос "Главный вопрос жизни, вселенной и всего такого"


Почему эти способы не так хороши?

In [228]:
name = 'Игорь'
surname = 'Львович'
color = 'телесный'
author = 'Достоевский'

In [229]:
print(
    ("Привет, {name} {surname}. " +
     "Твой любимый цвет - {color}. " +
     "Твой любимый писатель - {author}.").format(name=name, surname=surname, color=color, author=author)
)

Привет, Игорь Львович. Твой любимый цвет - телесный. Твой любимый писатель - Достоевский.


In [232]:
print("""Привет, {name} {surname}. 
Твой любимый цвет - {color}. 
Твой любимый писатель - {author}.""".format(name=name, surname=surname, color=color, author=author))

Привет, Игорь Львович. 
Твой любимый цвет - телесный. 
Твой любимый писатель - Достоевский.


Очень громоздко как-то...

### Новый способ (f-strings)

Появился в питоне версии 3.6

In [233]:
name, surname, color, author

('Игорь', 'Львович', 'телесный', 'Достоевский')

In [235]:
print(f"Привет, {name} {surname}. Твой любимый цвет - {color}. Твой любимый писатель - {author}.")

Привет, Игорь Львович. Твой любимый цвет - телесный. Твой любимый писатель - Достоевский.


In [236]:
# а вот так пишется мултилайн:
print(
    f"Привет, {name} {surname}. "
    f"Твой любимый цвет - {color}. "
    f"Твой любимый писатель - {author}."
)

Привет, Игорь Львович. Твой любимый цвет - телесный. Твой любимый писатель - Достоевский.


Выражение в `{exp}` вычисляется в момент исполнения. Поэтому можно не стесняться в выражениях:

In [237]:
print(f"2+2={2 ** 2}")

2+2=4


C функциями тоже работает (и с user-defined):

In [238]:
author = "Достоевский"

print(f"{author.upper()} - лучший автор!")

ДОСТОЕВСКИЙ - лучший автор!


Где еще почитать про форматирование? Например, [здесь](https://pyformat.info) (но без f-строк). Для расширения ваших познаний об f-strings загляните на [хабр](https://habr.com/en/company/wunderfund/blog/674866/)

А как это форматирование использовать?

Ну, например, давайте выведем таблицу ASCII символов:

In [239]:
for char_index in range(128):
    print(f'{char_index}\t||\t{hex(char_index)}\t||\t{chr(char_index)}')

0	||	0x0	||	 
1	||	0x1	||	
2	||	0x2	||	
3	||	0x3	||	
4	||	0x4	||	
5	||	0x5	||	
6	||	0x6	||	
7	||	0x7	||	
8	||	0x8	||	
9	||	0x9	||		
10	||	0xa	||	

11	||	0xb	||	
12	||	0xc	||	
13	||	0xd	||	
14	||	0xe	||	
15	||	0xf	||	
16	||	0x10	||	
17	||	0x11	||	
18	||	0x12	||	
19	||	0x13	||	
20	||	0x14	||	
21	||	0x15	||	
22	||	0x16	||	
23	||	0x17	||	
24	||	0x18	||	
25	||	0x19	||	
26	||	0x1a	||	
27	||	0x1b	||	
28	||	0x1c	||	
29	||	0x1d	||	
30	||	0x1e	||	
31	||	0x1f	||	
32	||	0x20	||	 
33	||	0x21	||	!
34	||	0x22	||	"
35	||	0x23	||	#
36	||	0x24	||	$
37	||	0x25	||	%
38	||	0x26	||	&
39	||	0x27	||	'
40	||	0x28	||	(
41	||	0x29	||	)
42	||	0x2a	||	*
43	||	0x2b	||	+
44	||	0x2c	||	,
45	||	0x2d	||	-
46	||	0x2e	||	.
47	||	0x2f	||	/
48	||	0x30	||	0
49	||	0x31	||	1
50	||	0x32	||	2
51	||	0x33	||	3
52	||	0x34	||	4
53	||	0x35	||	5
54	||	0x36	||	6
55	||	0x37	||	7
56	||	0x38	||	8
57	||	0x39	||	9
58	||	0x3a	||	:
59	||	0x3b	||	;
60	||	0x3c	||	<
61	||	0x3d	||	=
62	||	0x3e	||	>
63	||	0x3f	||	?
64

## Повторение перед следующим занятием

### Общие категории типов

Операции над встроенными типами работают одинаково в  случае применения их к  типам одной категории, поэтому нам необходимо лишь определить эти категории

### Типы одной категории имеют общий набор операций

Формально в языке Python существует **три категории типов (и операций)**:

* **Числа** (целые, вещественные, комплексные)

Поддерживают операции сложения, умножения и так далее

* **Последовательности** (строки, списки, кортежи)

Поддерживают операции индексации, получения среза, конкатенации и так далее.

* **Отображения (словари)**

Поддерживают операцию индексации по ключу и так далее.

* **Множества** образуют отдельную категорию типов (они не отображают ключи в значения и не являются упорядоченными последовательностями)

### Изменяемые типы допускают непосредственное изменение

Основные базовые типы данных в языке Python делятся на следующие категории:

* **Неизменяемые (числа, строки, кортежи, фиксированные множества)**

Объекты неизменяемых типов не поддерживают возможность непосредственного изменения значения объекта, однако вы всегда сможете создавать новые объекты с  помощью выражений и  присваивать их требуемым переменным.

* **Изменяемые (списки, словари, множества)**

Объекты изменяемых типов, наоборот, всегда могут изменяться непосредственно, с  помощью операций, которые не создают новые объекты. Изменяемые объекты могут быть скопированы, но они поддерживают и возможность непосредственного изменения.