# Строки
* Для объявления строки можно использовать двойные или одинарные кавычки
* Для многострочных блоков текста используют тройные кавычки
* Подряд идущие строковые литералы “склеиваются”

In [1]:
'foo' 'bar'

'foobar'

Строковые литералы могут содержать экранированные последовательности, например:
* \' одинарная кавычка,
* \" двойная кавычка,
* \t символ вертикальной табуляции, \n символ переноса строки,
* \xhh символ с HEX кодом hh.

В “сырых” строковых литералах экранированные последовательности не обрабатываются.

In [3]:
print('\tell me')
print(r'tell me')

	ell me
tell me


Юникод — стандарт кодирования текста на разных языках.
* В стандарте версии 8.0 содержится более 120 000 символов.
* Фактически Юникод — это отображение, сопоставляющее символу уникальный номер.
* Как закодировать всё это множество символов байтами?
    * Unicode Transformation Format,по N бит на каждый символ: UTF-8, UTF-16, UTF-32.
    * Universal Character Set, по N байт на каждый символ: UCS-2, UCS-4.
* Если кодировка использует более одного байта, то закодированный текст может также содержать BOM — маркер последовательности байтов, U+FEFF.

* Тип str — неизменяемая последовательность символов Юникод
* Отдельного типа для символов в Python нет: каждый символ строки — тоже строка

In [4]:
s = 'ого, строка'
list(s)

['о', 'г', 'о', ',', ' ', 'с', 'т', 'р', 'о', 'к', 'а']

In [5]:
s[0], type(s[0])

('о', str)

Как строки представляются в памяти?

Начиная с версии 3.3 в Python был реализован PEP-3934, который описывает механизм адаптивного представления строк.
* Если строка состоит из символов ASCII,то она хранится в кодировке UCS-1, то есть каждый символ представляется одним байтом.
* Если максимальный код символа в строке меньше 216,то используется UCS-2.
* Иначеи спользуется UCS-4,кодирующая каждый символ четырьмя байтами.

In [8]:
list(map(ord, 'hello')) #UCS-1

[104, 101, 108, 108, 111]

In [9]:
list(map(ord, 'привет')) #UCS-2

[1087, 1088, 1080, 1074, 1077, 1090]

In [12]:
ord("🀘") #UCS-4 почти

127000

Python поддерживает экранированные последовательности для символов Юникода:

In [13]:
"\u0068", "\U00000068"

('h', 'h')

In [14]:
"\N{DOMINO TILE HORIZONTAL-00-00}"

'🀱'

Получить символ Юникода по его коду можно с помощью функции chr:


In [15]:
print(chr(0x68))
print(chr(1087))

h
п


In [16]:
def identity(ch):
    return chr(ord(ch))

identity('п')

'п'

Модификаторы регистра

In [17]:
print('foo bar'.capitalize())
print('foo'.title())
print('foo'.upper())
print('foo'.lower())
print('foo'.title().swapcase())

Foo bar
Foo
FOO
foo
fOO


Группа методов, выравнивающих строку в “блоке” фиксированной длины. При этом дополнительные позиции заполняются указанным символом:
* Если длина “блока” меньше длины строки, то строка возвращается без изменений.

In [20]:
print("foo bar".ljust(16, '~'))
print("foo bar".rjust(16, '~'))
print("foo bar".center(16, '~'))

print("foo bar".ljust(16))
print("foo bar".rjust(16))
print("foo bar".center(16))

foo bar~~~~~~~~~
~~~~~~~~~foo bar
~~~~foo bar~~~~~
foo bar         
         foo bar
    foo bar     


Группа методов, заканчивающихся на strip, удаляет все вхождения указанных символов слева, справа или с обоих концов строки:

* По умолчанию удаляются все пробелы

In [23]:
print("]>>foo bar<<[".lstrip("]>"))
print("]>>foo bar<<[".rstrip("]>"))
print("]>>foo bar<<[".strip("[]<>"))

print("\t foo bar \r\n ".strip())

foo bar<<[
]>>foo bar<<[
foo bar
foo bar


Метод split разделяет строку на подстроки по указанному разделителю:
* Если разделитель не указан, то строка разделяется по пробелам.

In [28]:
print("foo,bar".split(","))
print("foo,,,bar".split(","))
print("\t foo bar \r\n ".split())
print('foo.tar.gz'.split('.', 1))
print('foo.tar.gz'.rsplit('.', 1))

['foo', 'bar']
['foo', '', '', 'bar']
['foo', 'bar']
['foo', 'tar.gz']
['foo.tar', 'gz']


Метод partition возвращает кортеж из трёх элементов: подстрока до вхождения разделителя, сам разделитель и подстрока после вхождения разделителя.

In [30]:
print("foo,bar,baz".partition(","))
print( "foo,bar,baz".rpartition(","))
print('foo.tar.gz'.partition('.'))

('foo', ',', 'bar,baz')
('foo,bar', ',', 'baz')
('foo', '.', 'tar.gz')


С помощью метода join можно соединить любую последовательность строк:

In [26]:
print(", ".join(["foo", "bar", "baz"]))
print(", ".join(filter(None, ["", "foo"])))
print(", ".join("bar"))

foo, bar, baz
foo
b, a, r


Eсли последовательность содержит объекты другого типа, будет ошибка

In [31]:
 ", ".join(range(10))

TypeError: sequence item 0: expected str instance, int found

Вхождение подстроки идиоматично проверять с помощью операторов in и not in:

In [32]:
print("foo" in "foobar")
print("foo" not in "foobar")

True
False


Также можно сравнивать префикс или суффикс строки с одной или несколькими строками:

In [33]:
print("foobar".startswith("foo"))
print("foobar".endswith(("boo", "bar")))

True
True


Найти место первого вхождения подстроки можно с помощью метода find:

In [34]:
print("abracadabra".find("ra"))
print("abracadabra".find("ra", 0, 3))

2
-1


Метод index аналогичен find, но, если искомая подстрока не найдена, он поднимает исключение:

In [35]:
"abracadabra".index("ra", 0, 3)

ValueError: substring not found

 Для поиска места последнего вхождения подстроки можно воспользоваться методами rfind и rindex.
 
 Метод replace заменяет вхождения подстроки на заданную строку, по умолчанию — все:

In [36]:
print("abracadabra".replace("ra", "**"))
print("abracadabra".replace("ra", "**", 1))

ab**cadab**
ab**cadabra


Для множественной замены символов удобно использовать метод translate, который принимает словарь трансляции.

In [39]:
translation_map = {ord("a"): "*", ord("b"): "?"}
"abracadabra".translate(translation_map)

'*?r*c*d*?r*'

Методы-предикаты позволяют проверить строку на соответствие некоторому формату, например:

In [40]:
print("100500".isdigit())
print("foo100500".isalnum())
print("foobar".isalpha())

print("foobar".islower())
print("FOOBAR".isupper())
print( "Foo Bar".istitle())
print("\r \n\t \r\n".isspace())

True
True
True
True
True
True
True


В Python есть два способа форматирования строк. Первый, который мы рассмотрим, использует метод format:
* {} обозначает место, в которое будет подставлен позиционный аргумент.
* Внутри {} можно опционально указать способ преобразования объекта в строку и спецификацию формата.

In [41]:
print("{}, {}, how are you?".format("Hello", "Sally"))
print("Today is October, {}th.".format(8))

Hello, Sally, how are you?
Today is October, 8th.


В Python 3 есть три различных по смыслу способа преобразовать объект в строку:
* **str** возвращает человекочитаемое представление объекта,
* **repr** возвращает представление объекта,по которому можно однозначно восстановить его значение,
* **ascii** аналогичен repr по смыслу,но возвращаемая строка состоит только из символов ASCII.

In [42]:
print( str("я строка"))
print(repr("я строка"))
print(ascii("я строка"))

я строка
'я строка'
'\u044f \u0441\u0442\u0440\u043e\u043a\u0430'


Для преобразования объекта в строку используются первые буквы соответствующих функций:

In [43]:
print("{!s}".format("я строка")) # str
print("{!r}".format("я строка")) # repr
print("{!a}".format("я строка")) # ascii

я строка
'я строка'
'\u044f \u0441\u0442\u0440\u043e\u043a\u0430'


Спецификация формата позволяет:
* выровнять строку в “блоке” фиксированной длины
* привести число к другой системе исчисления
* потребовать наличие знака в строковом представлении числа и зафиксировать количество знаков до или после запятой.

In [45]:
print("{:~^16}".format("foo bar"))
print("int: {0:d} hex: {0:x}".format(42))
print("oct: {0:o} bin: {0:b}".format(42))
print("{:+08.2f}".format(-42.42))
print("{!r:~^16}".format("foo bar"))

~~~~foo bar~~~~~
int: 42 hex: 2a
oct: 52 bin: 101010
-0042.42
~~~'foo bar'~~~~


Внутри {} можно также явно указывать номер позиционного или имя ключевого аргумента:

In [46]:
print("{0}, {1}, {0}".format("hello", "kitty"))
print("{0}, {who}, {0}".format("hello", who="kitty"))

hello, kitty, hello
hello, kitty, hello


 Если один из аргументов — контейнер, то при форматировании можно обращаться к его элементам по индексу или ключу:

In [47]:
point = 0, 10
print("x = {0[0]}, y = {0[1]}".format(point))

point = {"x": 0, "y": 10}
print("x = {0[x]}, y = {0[y]}".format(point))

x = 0, y = 10
x = 0, y = 10


Ещё один способ форматирования строк в Python использует оператор % и внешне похож на printf:

In [48]:
print( "%s, %s, how are you?" % ("Hello", "Sally"))
print("x = %(x)+2d, y = %(y)+2d" % point)

Hello, Sally, how are you?
x = +0, y = +10


Он менее выразителен и гибок, чем format:
* % — бинарный оператор, справа от него может быть один аргумент: кортеж или словарь,
* каждый элемент кортежа используется только один раз,
* нет синтаксиса для обращения к элементам контейнера или атрибутам объекта,
* не предусмотрена возможность расширения, например, если потребуется форматировать длинные числа с плавающей точкой, то синтаксис "%8.2f" для них работать не будет.

In [52]:
print( "I'm a list with three arguments: %s" % [1, 2, 3])
print("I'm a string with three characters: %s" % "abc")
print("I'm a tuple with three arguments: %s" % (1, 2, 3))

I'm a list with three arguments: [1, 2, 3]
I'm a string with three characters: abc


TypeError: not all arguments converted during string formatting

В модуле string можно найти полезные при работе со строками константы:


In [54]:
import string

print(string.ascii_letters)
print(string.digits)
print(string.punctuation)
print(string.whitespace)

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
0123456789
!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~
 	



# Bytes

Тип bytes — неизменяемая последовательность байтов.
* Аналогично строковым литералам в Python есть литералы для байтов и “сырых” байтов
* Байты и строки тесно связаны:
    * строку можно закодировать последовательностью байтов
    * и из последовательности байтов можно раскодировать строку
* Напоминание: "utf-8" — одна из кодировок Юникода.
* Кодировка специфицирует преобразование текстовой строки в последовательность байтов. Стандартная библиотека Python поддерживает более сотни кодировок.

In [57]:
print(b"\00\42\24\00")
print(rb"\00\42\24\00")

chunk = "я строка".encode("utf-8")
print(chunk)
print(chunk.decode("utf-8"))

chunk = "я строка".encode("cp1251")
print(chunk)

b'\x00"\x14\x00'
b'\\00\\42\\24\\00'
b'\xd1\x8f \xd1\x81\xd1\x82\xd1\x80\xd0\xbe\xd0\xba\xd0\xb0'
я строка
b'\xff \xf1\xf2\xf0\xee\xea\xe0'


Что будет, если указать неверную кодировку?

In [58]:
chunk.decode("utf-8")

UnicodeDecodeError: 'utf-8' codec can't decode byte 0xff in position 0: invalid start byte

Методы encode и decode принимают опциональный аргумент, контролирующий логику обработки ошибок:
* "strict" — ошибочные символы поднимают исключение,
* "ignore" — ошибочные символы пропускаются,
* "replace" — ошибочные символы заменяются на "\ufffd".


In [60]:
chunk = "я строка".encode("cp1251")
print(chunk.decode("utf-8", "ignore"))
print(chunk.decode("utf-8", "replace"))

 
� ������


Если не указывать кодировку, то Python будет использовать системную кодировку по умолчанию:

In [61]:
import sys
sys.getdefaultencoding()

'utf-8'

Байты поддерживают большинство операций, специфичных для строк, за исключением:
* метода encode, кодирующего строку в байты,
* метода format, форматирующего строку для вывода,
* некоторых предикатов, о которых мы не говорили.

Также стоит помнить, что тип bytes соответствутет последовательности байтов, а не символов, то есть:

In [62]:
"boo" in b"foobar"

TypeError: a bytes-like object is required, not 'str'

In [63]:
b"foobar".replace("o", "")

TypeError: a bytes-like object is required, not 'str'

# Файлы и ввод/вывод
* Текстовые и бинарные файлы в Python — это две большие разницы.
* Создать объект типа файл можно с помощью функции open, которая принимает один обязательный аргумент — путь к файлу:

In [64]:
open("./1.txt")

FileNotFoundError: [Errno 2] No such file or directory: './1.txt'

Аргументов у функции open довольно много, нас будут интересовать:
* mode—определяет, в каком режиме будет открыт файл, возможные значения:
    * "r","w","x","a","+", 
    * "b","t".
* для текстовых файлов можно также указать encoding и errors.

Открыть бинарный файл для чтения и записи:

In [None]:
# Открыть бинарный файл для чтения и записи:
open("./csc.db", "r+b")

#Открыть текстовый в файл в кодировке "cp1251" для добавления, игнорируя ошибки кодирования:
open("./admin.log", "a", encoding="cp1251", errors="ignore")

# Создать новый текстовый файл в системной кодировке и открыть его для записи
open("./lecture4.tex", "x")

Метод read читает не более, чем n символов из файла:

In [None]:
handle = open("./HBA1.txt")
handle.read(16)

Методы readline и readlines читают одну или все строчки соотвественно. Можно указать максимальное количество символов, которые надо прочитать:

In [None]:
handle = open("./HBA1.txt")
print(len(handle.readline()))
print(handle.readline(16))
print(handle.readlines(16))

Метод write записывает строку в файл:

In [None]:
handle = open("./example.txt", "w")
handle.write("abracadabra")

Неявного добавления символа окончания строки при этом не происходит.

Записать последовательность строк можно с помощью метода writelines:

In [None]:
handle.writelines(["foo", "bar"])
handle = open("./example.txt", "r+")
handle.fileno()
handle.tell()
handle.seek(8)
handle.tell()
handle.write("something unimportant")
handle.flush()
handle.close()

Интерпретатор Python предоставляет три текстовых файла, называемых стандартными потоками ввода/вывода: sys.stdin, sys.stdout и sys.stderr.

Для чтения sys.stdin используют функцию input:

In [66]:
input("Name: ")

Name: kate


'kate'

Для записи в sys.stdout или sys.stderr — функцию print:

In [67]:
print("Hello, `sys.stdout`!", file=sys.stdout)
print("Hello, `sys.stderr`!", file=sys.stderr)

Hello, `sys.stdout`!


Hello, `sys.stderr`!


Функция print позволяет
* изменять разделитель между аругументами
* указывать последовательность, которой заканчивается вывод
* форсировать вызов flush у файла, в который осуществляется вывод

In [68]:
print(*range(4))
print(*range(4), sep="_")
print(*range(4), end="\n--\n")

0 1 2 3
0_1_2_3
0 1 2 3
--


In [None]:
handle = open("./example.txt", "w")
print(*range(4), file=handle, flush=True)

В модуле io реализованы базовые классы для работы с текстовыми и бинарными данными.

Класс io.StringIO позволяет получить файловый объект из строки, а io.BytesIO из байтов:

In [70]:
import io
handle = io.StringIO("foo\n\bar")
print(handle.readline())


handle.write("boo")
print(handle.getvalue())

foo

foo
boo


Аналогичный пример для io.BytesIO:

In [71]:
handle = io.BytesIO(b"foobar")
print(handle.read(3))
print(handle.getvalue())

b'foo'
b'foobar'
