# Теперь детально поговорим о строках

In [1]:
a = 'The word you are looking for is "Hello".'

b = "I'll wait you there"

c = '''Тройные кавычки.
Для строк с переносами.
Русский язык поддерживается из коробки'''

In [2]:
a, b

('The word you are looking for is "Hello".', "I'll wait you there")

In [4]:
print(c)

Тройные кавычки.
Для строк с переносами.
Русский язык поддерживается из коробки


### Escape - подследовательности

In [5]:
a = "name\tsurname\nMikey\tMouse"
print(a)


name	surname
Mikey	Mouse


In [6]:
a = "\"'" * 30
print(a)

"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'"'


### Raw-strings

In [8]:
a = '\\n\\t'
print(a)

\n\t


In [62]:
a = r'\n\t'
print(a)

\n\t


### Как вообще хранить строки

*Кодировка* - -> отображение из символов в байты, обычно задаваемое таблицей соответствия. 

*Символ* -> Минимальная компонента текста. 

*Unicode* -> Стандарт в котором перечислены все возможные символы  (более 130000 тысяч).


| 0061 | a   | LATIN SMALL LETTER A |
|------|-----|----------------------|
| 0062 | b   | LATIN SMALL LETTER B |
| 0063 | c   | LATIN SMALL LETTER C |
| ...  | ... | ....                 |
| 007B | {   | LEFT CURLY BRACKET   |
| ...  | ... | ....                 |
| 16e4 | ᛤ   | RUNIC LETTER CEALC   |
| 1F60E | 😎  | SMILING FACE WITH SUNGLASSES   |

Есть Множество способов закодировать unicode -- utf8, utf16, ucs-1, ucs-2, ucs-4 ...

#### Строки в Python3 -- последовательность символов Unicode

In [9]:
a = "Hello, world!"
print(list(a))
print(type(a))
print(type(a[0]))

['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd', '!']
<class 'str'>
<class 'str'>


In [10]:
string = 'Test, Тест'
for sym in string:
    print(ord(sym), sym, end='  ')

84 T  101 e  115 s  116 t  44 ,  32    1058 Т  1077 е  1089 с  1090 т  

In [12]:
z = 1 + 1j

In [14]:
z, type(z)

((1+1j), complex)

In [18]:
z.conjugate()

(1-1j)

In [11]:
for code in range(0x1F60E, 0x1F619):
    print(code, chr(code), end=' ')

128526 😎 128527 😏 128528 😐 128529 😑 128530 😒 128531 😓 128532 😔 128533 😕 128534 😖 128535 😗 128536 😘 

### Методы строк :: регистр

In [19]:
hi = 'Всем привет!'
hi.upper(), hi.lower()

('ВСЕМ ПРИВЕТ!', 'всем привет!')

In [21]:
hi = hi.upper()

In [23]:
hi, hi.title(), hi.swapcase()

('ВСЕМ ПРИВЕТ!', 'Всем Привет!', 'всем привет!')

### Методы строк :: поиск

In [24]:
tea = 'Съешь ещё этих мягких французских булок, да выпей же чаю!'
print(tea.count('о', )) 

1


In [40]:
print(tea.index('чаю')) ## or tea.find

53


In [27]:
tea[53:56]

'чаю'

In [None]:
tea.find()

### Методы строк :: предикаты

In [28]:
"Телевизор".endswith("визор")   # also : startswith

True

In [29]:
s = '123'

In [30]:
"16E45".isalnum(), "16".isdigit(), "test".islower(), "q".isalpha(), "Test Me".istitle()

(True, True, True, True, True)

### Методы строк :: split and join

In [31]:
a = "ID\tNAME\tSURNAME\tCITY\tREGION\tAGE\t\tWEALTH\tREGISTERED"
print(a)
print(a.split())
print(' -- '.join(a.split()))

ID	NAME	SURNAME	CITY	REGION	AGE		WEALTH	REGISTERED
['ID', 'NAME', 'SURNAME', 'CITY', 'REGION', 'AGE', 'WEALTH', 'REGISTERED']
ID -- NAME -- SURNAME -- CITY -- REGION -- AGE -- WEALTH -- REGISTERED


In [37]:
arr = [1, 2, 3]
val = '\n'.join(list(map(str, arr)))

In [39]:
print(val)

1
2
3


### Методы строк :: выравнивание

In [63]:
a = "Luke Skywalker"
print(a.ljust(40, '~'))
print(a.rjust(40, '~'))
print(a.center(40, '~'))

Luke Skywalker~~~~~~~~~~~~~~~~~~~~~~~~~~
~~~~~~~~~~~~~~~~~~~~~~~~~~Luke Skywalker
~~~~~~~~~~~~~Luke Skywalker~~~~~~~~~~~~~


### Методы строк :: форматирование

In [1]:
from datetime import datetime

"[{}] : Starting new process \"{}\"".format(datetime.now().strftime('%Y-%m-%d %H:%M:%S'), 'watcher')

'[2021-07-13 19:39:30] : Starting new process "watcher"'

In [5]:
"{1}! My name is {0}!".format("Alex", "Hi")

'Hi! My name is Alex!'

In [3]:
"{name} {surname} is {age} years old".format(name='Sarah', surname='Connor', age='27')

'Sarah Connor is 27 years old'

In [4]:
for value in [0.6, 1.0001, 22.7]:
    print("value is {:07.4f}".format(value))

value is 00.6000
value is 01.0001
value is 22.7000


## f-strings

Более удобное форматирование строк, с python >= 3.6

In [8]:
def get_name(name):
    return name * 2

In [10]:
name = "Alex"
f"My name is {name}"

'My name is Alex'

In [11]:
for value in [0.6, 1.0001, 22.7]:
    print(f"value is {value:07.4f}")

value is 00.6000
value is 01.0001
value is 22.7000


### модуль string

In [13]:
import string

string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [14]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [15]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

## Bytes

- Тип для хранения бинарных данных
- Отображения байты <-> строки -- кодирование и декодирование

In [41]:
bt = 'Привет 😎'.encode('utf8')

In [42]:
bt

b'\xd0\x9f\xd1\x80\xd0\xb8\xd0\xb2\xd0\xb5\xd1\x82 \xf0\x9f\x98\x8e'

In [43]:
bt.decode('utf8')

'Привет 😎'

In [44]:
bt.find('П')

TypeError: argument should be integer or bytes-like object, not 'str'

## В кодировке не обязательно есть представления для любых символов

In [45]:
'Привет'.encode('cp1251')

b'\xcf\xf0\xe8\xe2\xe5\xf2'

In [46]:
'Привет'.encode('ascii')  # try 'ignore' or 'replace' as a second argument

UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-5: ordinal not in range(128)

In [48]:
'Привет'.encode('ascii', 'replace')  # try 'ignore' or 'replace' as a second argument

b'??????'

### Кодировка по умолчанию

In [49]:
import sys
sys.getdefaultencoding() # sys get default encoding

'utf-8'

### Байты в общем случае не совместимы со строками

In [50]:
'test' in b'bytestest'

TypeError: a bytes-like object is required, not 'str'

In [51]:
b'bytest'.decode('utf-8')

'bytest'

### Файлы

In [56]:
f = open('./poem.txt', )
f

<_io.TextIOWrapper name='./poem.txt' mode='r' encoding='UTF-8'>

In [57]:
for line in f:
    print(line)

Had I the heavens’ embroidered cloths,

Enwrought with golden and silver light,

The blue and the dim and the dark cloths

Of night and light and the half-light,

I would spread the cloths under your feet:

But I, being poor, have only my dreams;

I have spread my dreams under your feet;

Tread softly because you tread on my dreams.





Hi! Check me out!



In [58]:
path = './poem.txt'

### Modes

In [59]:
f = open(path, 'r', encoding='utf8')  # из файла открытого в текстовом режиме читаются строки
f.read(20)

'Had I the heavens’ e'

In [35]:
f = open(path, 'rb') # из файла открытого в бинарном режиме читаются байты
f.read(20)

b'Had I the heavens\xe2\x80\x99'

### Read

In [60]:
f = open(path)
f.readlines()[:3]

['Had I the heavens’ embroidered cloths,\n',
 'Enwrought with golden and silver light,\n',
 'The blue and the dim and the dark cloths\n']

In [61]:
line_lengths = []
for line in open(path):
    line_lengths.append(len(line))
print(line_lengths)

[39, 40, 41, 39, 43, 40, 41, 45, 1, 1, 18]


### Write

Файл можно открыть для записи (режим 'w') и для добавления (режим 'a')

In [62]:
f = open(path, 'a')  # appends to file

In [63]:
f.write('Hi! Check me out!\n')   
f.close()

### Допольнительные методы и поля

In [41]:
f.close()
f.closed
f.flush()
f.seek()
f.tell()
f.truncate()

ValueError: I/O operation on closed file.

### Стражи контекстов

In [64]:
with open(path) as f:
    print(f.read())
f.closed

Had I the heavens’ embroidered cloths,
Enwrought with golden and silver light,
The blue and the dim and the dark cloths
Of night and light and the half-light,
I would spread the cloths under your feet:
But I, being poor, have only my dreams;
I have spread my dreams under your feet;
Tread softly because you tread on my dreams.


Hi! Check me out!
Hi! Check me out!



True

### stdin, stdout, stderr
При работе скрипта Python предоставляет доступ к трем текстовым файловым обьектам -- *stdin*, *stdout* и *stderr*

In [44]:
import sys

total = 0.0
for line in sys.stdin:
    if line.isdigit():
        total += int(line)
        sys.stdout.write('Total so far {}'.format(total))
    else:
        sys.stderr.write('{} is not a digit'.format(line))