<style>
    
.shadow {

    /*Edit or add new attributes, change size, color, etc */
    width: 45em;
    box-shadow: 8px 8px 10px #444;
    border: 1px solid silver;
    color: red;

    /*For positioning in a jupyter notebook*/
    margin-top: 2em;
    position: relative;
    top: -25px
}
</style>

In [1]:
from IPython.display import display, HTML
display(HTML('''
<style>
.jp-Cell-outputWrapper .jp-Placeholder {
    display: none;
}
</style>
'''))

<center>
    <img src="https://upload.wikimedia.org/wikipedia/commons/a/a8/%D0%9B%D0%9E%D0%93%D0%9E_%D0%A8%D0%90%D0%94.png" width=500px/>
    <font>Python 2023</font><br/>
    <br/>
    <br/>
    <b style="font-size: 2em">Функции, строки, </b><br/>
    <b style="font-size: 2em">потоки ввода-вывод</b><br/>
    <br/>
    <font>Никита Бондарцев</font><br/>
</center>

# Функции

## Что такое функция?

Именованный кусок кода, который можно переиспользовать

## Зачем нужны функции?

- Упрощение поддержки за счет переиспользования кода
- Логическая струкуризация программы, тк проще работать с небольшими кусочками кода, которые призваны сделать что-то простое и понятное
- Самодокументирование кода при использовании говорящих названий функций и параметров

### Объявление функции

In [2]:
def function():
    pass

<div class="alert alert-info">
<b>Hint:</b> Ключевое слово "pass" бывает полезно, если нужно явно указать, что в блоке кода ничего делать не нужно
</div>

### Вызов функции и её значение

In [3]:
result = function()

In [4]:
print(result)

None


<div class="alert alert-info">
<b>Info:</b> В питоне функция всегда возвращает значение. Если в теле функции отсутствует "return", она возвращает "None"
</div>

In [5]:
def meaning_of_life():
    return 42

### Пример осмысленной функции

<center>
<img src=https://wikimedia.org/api/rest_v1/media/math/render/svg/6b915be29a0f9a5267018f90014a74c6a04551f1  width=800/>
</center>

### Аргументы функции

In [6]:

def relative_difference(x, y):
    delta = x - y
    mean = (x + y) / 2
    return abs(delta / mean)

In [7]:
relative_difference(3, 5)

0.5

In [8]:
relative_difference(y=5, x=3)

0.5

<div class="alert alert-info">
<b>Hint:</b> Аргументы в функцию можно передавать по имени, при этом порядок аргументов не важен
</div>

<div class="alert alert-warning">
<b>PEP 8:</b> При указании аргументов по имени пробелы вокруг знака равенства не ставятся!
</div>

In [9]:
relative_difference(3, y=5)

0.5

In [10]:
relative_difference(5, -5)

ZeroDivisionError: float division by zero

In [10]:
# Как фиксить будем?
def relative_difference(x, y):
    delta = x - y
    mean = (x + y) / 2
    return abs(delta / mean)


In [11]:
def safe_relative_difference_long(x, y):
    delta = x - y
    mean = (x + y) / 2
    if mean == 0.0:
        res = None
    else:
        res = abs(delta / mean)
    return res

<div class="alert alert-info">
<b>Hint:</b> Как и во многих языках, в питоне функция может содержать более одного "return"
</div>

In [12]:
def safe_relative_difference(x, y):
    delta = x - y
    mean = (x + y) / 2
    if mean == 0.0:
        return None  # If condition is met function execution ends here
    return abs(delta / mean)

In [13]:
print(safe_relative_difference(5, -5))

None


### Документирование и аннотирование функций

In [14]:
import typing as tp

def relative_difference(x: float, y: float) -> float | None:
    """
    Compares two quantities taking into account their absolute values
    And another line just to make an example of multiline docstrings
    """
    delta = x - y
    mean = (x + y) / 2
    if mean == 0.0:
        return None
    return abs(delta / mean)

In [15]:
help(relative_difference)

Help on function relative_difference in module __main__:

relative_difference(x: float, y: float) -> float | None
    Compares two quantities taking into account their absolute values
    And another line just to make an example of multiline docstrings



<div class="alert alert-info">
<b>Hint:</b> help выводит документацию по использованию объекта. Особенно полезна в интеративном режиме.
</div>

In [16]:
help(pow)

Help on built-in function pow in module builtins:

pow(base, exp, mod=None)
    Equivalent to base**exp with 2 arguments or base**exp % mod with 3 arguments
    
    Some types, such as ints, are able to use a more efficient algorithm when
    invoked using the three argument form.



### Значение аргументов по умолчанию

In [17]:
def relative_difference(x: float, y: float, verbose: bool = False) -> float | None:
    delta = x - y
    if verbose:
        print(f'Delta: {delta}')
    mean = (x + y) / 2
    if verbose:
        print(f'Mean: {mean}')
    if mean == 0.0:
        if verbose:
            print('Mean is equal to zero!')
        return None
    return abs(delta / mean)

<div class="alert alert-warning">
<b>PEP 8:</b> Для аргументов с типом при указании дефолтного значения принято ставить пробелы вокруг знака равенства
</div>

In [18]:
relative_difference(-10, 3)

3.7142857142857144

In [19]:
relative_difference(-10, y=3, verbose=True)

Delta: -13
Mean: -3.5


3.7142857142857144

In [20]:
relative_difference(y=3, x=-10, verbose=True)

Delta: -13
Mean: -3.5


3.7142857142857144

In [21]:
relative_difference(x=-10, y=3, True)

SyntaxError: positional argument follows keyword argument (165282274.py, line 1)

### Тайпинг на функцию, которая передается как аргумент другой функции

`tp.Callable[[<type of arg1>, <type of arg2>], <return type>]`

In [22]:
import typing as tp

def relative_difference(
        x: float, y: float, normalize_by: tp.Callable[[float, float], float]
    ) -> float | None:

    delta = x - y
    
    norm = normalize_by(x, y)

    if norm == 0.0:
        return None
    return abs(delta / norm)

### Опциональные аргументы

In [23]:
def relative_difference(
        x: float, y: float,
        normalize_by: tp.Callable[[float, float], float] | None = None
    ) -> float | None:

    delta = x - y
    
    if normalize_by is not None:
        norm = normalize_by(x, y)
    else:
        norm = 1

    if norm == 0.0:
        return None
    return abs(delta / norm)

<div class="alert alert-warning">
<b>PEP 8:</b> Cравнивать что-либо с "None" нужно с помощью "is", "is not", т.к. это синглтон.
</div>

<div class="alert alert-warning">
<b>PEP 8:</b> Использовать "... is not ..." всегда предпочтительнее, чем "not ... is ...", ибо "Readability counts." (с) Zen of Python
</div>

In [24]:
relative_difference(-5, 8, normalize_by=max)

1.625

In [25]:
def mean(x: float, y: float) -> float:
    return (x + y) / 2

In [26]:
relative_difference(-5, 8, normalize_by=mean)

8.666666666666666

In [27]:
relative_difference(-5, 8)

13.0

In [28]:
relative_difference(-5, 8, mean)

8.666666666666666

### Исключительно именованные аргументы

In [29]:
def relative_difference(
        x: float, y: float, *,
        normalize_by: tp.Callable[[float, float], float] | None = None
    ) -> float | None:

    delta = x - y
    
    if normalize_by is not None:
        norm = normalize_by(x, y)
    else:
        norm = 1.0

    if norm == 0.0:
        return None
    return abs(delta / norm)

In [30]:
relative_difference(-5, 8, mean)

TypeError: relative_difference() takes 2 positional arguments but 3 were given

In [31]:
relative_difference(-5, 8, normalize_by=mean)

8.666666666666666

### Исключительно позиционные аргументы

In [32]:
def relative_difference(
        x: float, y: float,
        /,
        *,
        normalize_by: tp.Callable[[float, float], float] | None = None
    ) -> float | None:

    delta = x - y
    
    if normalize_by is not None:
        norm = normalize_by(x, y)
    else:
        norm = 1.0

    if norm == 0.0:
        return None
    return abs(delta / norm)

In [33]:
relative_difference(-5, y=8, normalize_by=mean)

TypeError: relative_difference() got some positional-only arguments passed as keyword arguments: 'y'

### Инициализация дефолтных аргументов

In [34]:
def function(list_argument: list[str] = []) -> list[str]:
    list_argument.append("Hi!")  
    return list_argument

In [35]:
function()

['Hi!']

In [36]:
function()

['Hi!', 'Hi!']

In [37]:
function()

['Hi!', 'Hi!', 'Hi!']

<div class="alert alert-danger">
<b>Ошибка:</b> Использовать мутабельные объекты в качестве дефолтного значения аргумента функции
</div>

In [38]:
def function(list_argument: list[str] | None = None) -> list[str]:
    if list_argument is None:
        list_argument = []
    list_argument.append("Hi!")  
    return list_argument

In [39]:
function()

['Hi!']

In [40]:
function()

['Hi!']

In [41]:
function()

['Hi!']

<div class="alert alert-success">
<b>Рекомендация:</b> По возможности, используйте "None" в качестве дефолтного значения аргумента функции 
</div>

### А если None нужен для другого?

In [46]:
sentinel = object()

def function(list_argument: list[str] | None | object = sentinel) -> list[str] | None:
    if list_argument is None:
        return None

    the_list: tp.List[str] = []
    if list_argument is not sentinel:
        the_list = list_argument
    the_list.append("Hi!")
    return the_list

In [47]:
function()

['Hi!']

In [48]:
print(function(None))

None


<div class="alert alert-info">
<b>Hint:</b> Если вам нужно отличать случай, когда вам передали "None", от дефолтного значения аргумента,
    создайте специальный sentinel-объект для дефолтного значения
</div>

### Функция от произвольного числа аргументов

<center>
<img src=https://wikimedia.org/api/rest_v1/media/math/render/svg/fc621ce0b9b2d52e3ce835a9211f042f272c341e width="300"/>
</center>

In [49]:
def root_mean_square(args: list[float]) -> float:
    if not args:
        return 0.0

    squares_sum = sum(x ** 2 for x in args)

    mean = squares_sum / len(args)
    return mean ** 0.5

In [50]:
root_mean_square([4, 8, 15, 16, 23, 42])

21.80978373727412

## *args

In [51]:
def root_mean_square(*args: float) -> float:
    if not args:
        return 0.0
    
    squares_sum = sum(x ** 2 for x in args)

    mean = squares_sum / len(args)
    return mean ** 0.5

<div class="alert alert-warning">
<b>PEP 8:</b> Для *args указывается тип одного элемента списка!
</div>

In [52]:
root_mean_square(4, 8, 15, 16, 23, 42)

21.80978373727412

## **kwargs

In [53]:
def root_mean_square(*args: float, **kwargs: tp.Any) -> float:
    verbose = kwargs.get('verbose', False)
    
    if not len(args):
        if verbose:
            print('Empty arguments list!')
        return 0.0

    squares_sum = sum(x ** 2 for x in args)
    if verbose:
        print(f'Sum of squares: {squares_sum}')

    mean = squares_sum / len(args)
    if verbose:
        print(f'Mean square: {mean}')

    return mean ** 0.5

In [54]:
root_mean_square(4, 8, 15, 16, 23, 42, verbose=True)

Sum of squares: 2854
Mean square: 475.6666666666667


21.80978373727412

In [55]:
root_mean_square(verbose=True)

Empty arguments list!


0.0

### Распаковка аргументов функции

In [56]:
def function(x, y, /, *, option1=None, option2=None):
    print(x, y, option1, option2)

In [57]:
positional = [4, 8]
key_value = {'option1': 15, 'option2': 16}

In [58]:
function(*positional, **key_value)

4 8 15 16


In [59]:
function(4, 8, option1=3, **key_value)

TypeError: function() got multiple values for keyword argument 'option1'

### А теперь подумаем

In [77]:

def read_and_merge_files(base_path: str, *files: str, binary: str = False) -> None:
    print(f'{base_path=}, {files=}, {binary=}')


In [78]:
read_and_merge_files('a', 'b', 'c', 'd')

base_path='a', files=('b', 'c', 'd'), binary=False


In [79]:
read_and_merge_files('a', 'b', 'c', 'd', True)

base_path='a', files=('b', 'c', 'd', True), binary=False


In [80]:
read_and_merge_files('a', 'b', 'c', 'd', binary=True)

base_path='a', files=('b', 'c', 'd'), binary=True


## Лямбды

In [81]:
sorted(['привет', 'как', 'дела'], key=lambda string: len(string))

['как', 'дела', 'привет']

In [82]:
string_length = lambda string: len(string)

<div class="alert alert-danger">
<b>Антипаттерн:</b> Сохранять лямбду в переменную
</div>

In [83]:
def string_length(string: str) -> int:
    return len(string)


# Строки

In [84]:
a = 'The word you are looking for is "Hello".'

In [85]:
b = "I'll wait you there"

In [86]:
c = '''Тройные кавычки
для строк с переносами.
Русский язык поддерживается из коробки.
Как и любой другой'''

In [87]:
"And also" " you can " \
"split them in pieces"

'And also you can split them in pieces'

In [88]:
("And also" " you can "
"split them in pieces")

'And also you can split them in pieces'

## О поддержке русского языка

In [89]:
def покажи(а):
    print(а)

делимое = 6
делитель = 3

частное = делимое / делитель

покажи(частное)

2.0


## Базовые методы строк

[полный список в доке](https://docs.python.org/3/library/stdtypes.html#string-methods)

In [90]:
first = 'The Government'

In [91]:
print(list(first))

['T', 'h', 'e', ' ', 'G', 'o', 'v', 'e', 'r', 'n', 'm', 'e', 'n', 't']


In [92]:
print(type(first))
print(type(first[0]))

<class 'str'>
<class 'str'>


In [93]:
second = '...considers these people "irrelevant".'

In [94]:
bool(second)

True

In [95]:
bool('')

False

In [96]:
'irrelevant' in second

True

### Сравнения

In [97]:
'a' < 'b'

True

In [98]:
'test' < 'Hi'

False

In [99]:
'ёжик' < 'медвежонок'

False

In [100]:
ord('ё') < ord('м')  # 1105 vs 1084

False

In [106]:
!pip install pyicu

Collecting pyicu
  Downloading PyICU-2.11.tar.gz (257 kB)
[2K     [38;2;114;156;31m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m257.9/257.9 kB[0m [31m931.9 kB/s[0m eta [36m0:00:00[0m kB/s[0m eta [36m0:00:01[0m:01[0m
[?25h  Installing build dependencies ... [?25ldone
[?25h  Getting requirements to build wheel ... [?25ldone
[?25h  Preparing metadata (pyproject.toml) ... [?25ldone
[?25hBuilding wheels for collected packages: pyicu
  Building wheel for pyicu (pyproject.toml) ... [?25ldone
[?25h  Created wheel for pyicu: filename=PyICU-2.11-cp311-cp311-linux_x86_64.whl size=1461027 sha256=6c96356b50d51a9fdf28b3e3ec0eb66c573acf2fef6345b88cfd5dc706a524c6
  Stored in directory: /home/nikita/.cache/pip/wheels/d5/13/b0/7bf63df6fb3e97b4467956b7fe6e46ae8e88eb5986e6648331
Successfully built pyicu
Installing collected packages: pyicu
Successfully installed pyicu-2.11


In [107]:
# pip install pyicu
import icu

collator = icu.Collator.createInstance(icu.Locale('ru_RU.UTF-8'))

sorted(['ёжик', 'медвежонок'], key=collator.getSortKey)

['ёжик', 'медвежонок']

### Регистр

In [108]:
test = 'We don\'t.'

In [109]:
test.upper()

"WE DON'T."

In [110]:
test.lower()

"we don't."

In [111]:
test.title()

"We Don'T."

In [112]:
test.swapcase()

"wE DON'T."

### Поиск в строке

In [119]:
secret = 'Hunted by the authorities, we work in secret.'
print(secret.count('e')) 

6


In [120]:
print(secret.index('authorities'))  ## or .find .rfind .rindex

14


In [121]:
secret.index('god')

ValueError: substring not found

In [122]:
secret.find('god')

-1

### Предикаты

In [123]:
"You'll never find us".endswith("find us")  # also: .startswith

True

In [124]:
"16E45".isalnum(), "16".isdigit(), "q".isalpha()

(True, True, True)

In [125]:
"test".islower(), "Test Me".istitle()

(True, True)

### Split & join

In [126]:
header = 'ID\tNAME\tSURNAME\tCITY\tREGION\tAGE\tWEALTH\tREGISTERED'

In [127]:
print(header.split())

['ID', 'NAME', 'SURNAME', 'CITY', 'REGION', 'AGE', 'WEALTH', 'REGISTERED']


In [128]:
print('\n'.join(s.lower() for s in header.split()))

id
name
surname
city
region
age
wealth
registered


### replace & translate

In [139]:
text = 'Вот так работает замена'

In [140]:
text.replace('от', 'УПС')

'ВУПС так рабУПСает замена'

In [141]:
text.translate({ord('а'): ord('d'), ord('о'): 'y'})

'Вyт тdк рdбyтdет зdменd'

In [142]:
text.translate({ord('а'): ord('d'), ord('о'): 112})

'Вpт тdк рdбpтdет зdменd'

In [143]:
text.translate({'от': 'УПС'})

'Вот так работает замена'

In [144]:
text.translate({ord('о'): 'УПС'})

'ВУПСт так рабУПСтает замена'

### Выравнивание

In [145]:
print('but victim or perpetrator'.ljust(40, '.'))

but victim or perpetrator...............


In [146]:
print('if your number\'s up...'.rjust(40, '.'))

..................if your number's up...


In [147]:
print('we\'ll find *you*'.center(40, '.'))

............we'll find *you*............


### Форматирование

https://docs.python.org/3/library/string.html#format-specification-mini-language

In [148]:
from datetime import datetime

"[{}]: Starting new process '{}'".format(
    datetime.now().strftime('%Y-%m-%d %H:%M:%S'),
    'watcher'
)

"[2023-09-26 15:28:32]: Starting new process 'watcher'"

In [149]:
"{1}! My name is {0}!".format("John", "Hi")

'Hi! My name is John!'

In [150]:
name='John'
surname='Reese'

f'{name} {surname}'

'John Reese'

In [151]:
for value in [0.6, 1.0001, 22.7]:
    print(f'value is {value:07.4f}')

value is 00.6000
value is 01.0001
value is 22.7000


In [152]:
comment = 'Added yet another homework solution'
commit_hash = '7a721ddd315602f94a7d4123ea36450bd2af3e89'
f'{commit_hash=}, {comment=}'
# self-documenting string

"commit_hash='7a721ddd315602f94a7d4123ea36450bd2af3e89', comment='Added yet another homework solution'"

In [153]:
some_random_url = 'https://yandex.ru/images/'
some_random_url.strip('/')  # rstrip, lstrip

'https://yandex.ru/images'

### Модуль string

In [154]:
import string

string.ascii_letters

'abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ'

In [155]:
string.ascii_lowercase

'abcdefghijklmnopqrstuvwxyz'

In [156]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

### А это кто такой?

In [159]:
weird_string = b'Happy tree friends'

In [160]:
len(weird_string)

18

In [161]:
weird_string.find(b'friend')

11

In [163]:
weird_string.upper()

b'HAPPY TREE FRIENDS'

In [165]:
weird_string.find(b'tree')

6

In [166]:
weird_string.find('tree')

TypeError: argument should be integer or bytes-like object, not 'str'

In [168]:
type(weird_string)

bytes

In [170]:
type(weird_string.decode())

str

In [172]:
help(weird_string.decode)

Help on built-in function decode:

decode(encoding='utf-8', errors='strict') method of builtins.bytes instance
    Decode the bytes using the codec registered for encoding.
    
    encoding
      The encoding with which to decode the bytes.
    errors
      The error handling scheme to use for the handling of decoding errors.
      The default is 'strict' meaning that decoding errors raise a
      UnicodeDecodeError. Other possible values are 'ignore' and 'replace'
      as well as any other name registered with codecs.register_error that
      can handle UnicodeDecodeErrors.



## Как хранятся строки

**Кодировка** (encoding) — таблица, задающая отображение конечного множества символов алфавита в байты

Наиболее известные семейства кодировок:
  - совместимые с ASCII,
  - совместимые с EBCDIC,
  - основанные на Юникоде

![ASCII](https://upload.wikimedia.org/wikipedia/commons/thumb/4/4f/ASCII_Code_Chart.svg/1920px-ASCII_Code_Chart.svg.png)

(ASCII - American Standard Code for Information Interchange)

### windows-1252, старшая часть таблицы
![windows-1252](https://avatars.mds.yandex.net/get-pdb/2711552/0172cebb-9c7e-495c-b099-1b0df5ad42f5/s1200)

### windows-1251, старшая часть таблицы
![wind-1251](http://gimnnik.narod.ru/open-office/TextProcessor/images/cp1251.gif)


### KOI-8R, старшая часть таблицы
![koi8-r](http://gimnnik.narod.ru/open-office/TextProcessor/images/koi8-r.gif)


## Unicode


**Unicode** — cтандарт в котором перечислены все возможные символы, включает практически все современные 

письменности, в частности письменности Востока, Азии и Африки. Unicode - это только список, а не кодировка.

### Первая Unicode плоскость
![unicode](https://upload.wikimedia.org/wikipedia/commons/thumb/0/05/Roadmap_to_Unicode_BMP_multilingual.svg/langru-1920px-Roadmap_to_Unicode_BMP_multilingual.svg.png)

Всего плоскостей 17, каждая по 2^16 символов, то есть всего 1114112 сиволов

Строки в python 3 — последовательность символов unicode.

![py3unicode](https://avatars.mds.yandex.net/get-pdb/2974349/4e925664-387a-45ef-8afd-f49b8cd13c7e/s1200)

Unicode имеет несколько форм представления, кодировок (Unicode transformation format, UTF):
- UTF-8
- UTF-16
- UTF-32

UTF-8 — представление Юникода, обеспечивающее наибольшую компактность и обратную совместимость с ASCII

#### И вот наконец-то вернемся к питону

In [175]:
'Hello, world!'.encode('utf-8')

b'Hello, world!'

## Байты и байтовые строки

Байты (`bytes`) — некоторые бинарные данные (не обязательно текстовые)

bytearray - mutable

In [181]:
bytes([84, 104, 101, 115, 101, 32, 98, 121, 116, 101, 115])

b'These bytes'

In [182]:
arr = bytearray([84, 104, 101, 115, 101, 32, 98, 121, 116, 101, 115])
arr[1] = 105
arr

bytearray(b'Tiese bytes')

In [183]:
bytes([200, 220, 240, 3])

b'\xc8\xdc\xf0\x03'

In [184]:
bytes([1,2, 1000])

ValueError: bytes must be in range(0, 256)

In [185]:
b'hello мир'

SyntaxError: bytes can only contain ASCII literal characters (3864234219.py, line 1)

In [186]:
list(b'just like ints')

[106, 117, 115, 116, 32, 108, 105, 107, 101, 32, 105, 110, 116, 115]

In [187]:
len(b'bytes')

5

### Кодировка по-умолчанию

In [188]:
import sys
sys.getdefaultencoding() # речь идет про кодировку исходников!

'utf-8'

In [189]:
# а если написать в начале файла с сорцами
# -*- coding: latin-1 -*-
text = 'то текст больше не будет юникодом. (хотя в этой жупитер тетрадке все еще юникод)'

# а также внутри в питоне тоже будет юникод

### Трудности перевода

In [190]:
'Это сообщение в utf-8'.encode('utf-8').decode('cp1251')

'Р\xadС‚Рѕ СЃРѕРѕР±С‰РµРЅРёРµ РІ utf-8'

Кодировка может вообще не содержать некоторых символов

In [191]:
'Привет'.encode('utf-8').decode('ascii')

UnicodeDecodeError: 'ascii' codec can't decode byte 0xd0 in position 0: ordinal not in range(128)

### Байты != строки

In [192]:
'test' == b'test'

False

Потому что байты - это любые бинарные данные, не обязательно текстовые.

И даже если данные текстовые, то без знания кодировки правильно отобразить их может быть сложно.

In [193]:
b'sample text in latin'.decode('utf-16')

'慳灭敬琠硥⁴湩氠瑡湩'

<div align="center">
<img alt="meme" src="https://cs10.pikabu.ru/images/big_size_comm/2018-01_5/1516896816147643489.jpg" width="550px"/>
</div>



<div align="center">
<img alt="lol" src="https://avatars.mds.yandex.net/get-pdb/2434617/db2f341b-deac-406a-b690-631311f37ee5/s1200" width="1400px"/>
</div>

## Получение символа по коду и наоборот

In [194]:
ord('G'), ord('ы')  # это номер в юникоде. Всегда номер в юникоде

(71, 1099)

In [195]:
chr(71)

'G'

In [196]:
chr(ord('B') - 1), chr(ord('A') + 256)

('A', 'Ł')

In [197]:
chr(65536 * 17)

ValueError: chr() arg not in range(0x110000)

In [198]:
int('0x110000', base=16), int('0x110000', base=16) / 65536

(1114112, 17.0)

## Управляющие символы и их escape-последовательности

In [199]:
print('name\tsurname\n---------------\nHarold\tFinch')

name	surname
---------------
Harold	Finch


In [200]:
sample_string = 'Whoops\b.\0'
print(sample_string)

Whoop. 


In [201]:
print(sample_string)
print(len(sample_string))

Whoop. 
9


## Raw-strings

In [202]:
print('Hey\tFrank!\nHow are you?')

Hey	Frank!
How are you?


In [203]:
print(r'Hey\tFrank!\nHow are you?')

Hey\tFrank!\nHow are you?


In [204]:
r'Hey\tFrank!\nHow are you?'

'Hey\\tFrank!\\nHow are you?'

In [205]:
'Hey\tFrank!\nHow are you?'

'Hey\tFrank!\nHow are you?'

## Escape-последовательности unicode

`\u[0-F]{4}` или  `\U[0-F]{8}` или `\N{NameGoesHere}`

In [206]:
print('\u0056\u0069\u006f\u006c\u0065\u006e\u0074\u0020'
      '\u0063\u0072\u0069\u006d\u0065\u0073\u0020'
      '\u0069\u006e\u0076\u006f\u006c\u0076\u0069\u006e\u0067\u0020'
      '\u006f\u0072\u0064\u0069\u006e\u0061\u0072\u0079\u0020'
      '\u0070\u0065\u006f\u0070\u006c\u0065\u002e')

Violent crimes involving ordinary people.


In [207]:
print('\U0001f4b0')

💰


In [208]:
print('\N{SMILING FACE WITH SUNGLASSES}')

😎


### Различные escape-последовательности можно миксовать

In [123]:
print("a\xac\u1234\u20ac\U00008000\N{GREEK CAPITAL LETTER DELTA}")

a¬€耀Δ


## Немного про UTF-8

In [220]:

def letter_summary(letter: str) -> tp.Tuple[str, int, str, bytes]:
    dec_code = ord(letter)
    hex_code = hex(dec_code)
    bytes_written = letter.encode('utf-8')
    return letter, dec_code, hex_code, bytes_written, ' '.join([bin(byte)[2:].rjust(8, '0') for byte in bytes_written])

In [221]:
letter_summary('g')

('g', 103, '0x67', b'g', '01100111')

In [222]:
letter_summary('ы')

('ы', 1099, '0x44b', b'\xd1\x8b', '11010001 10001011')

<img src="https://avatars.mds.yandex.net/get-pdb/2905812/e41de13f-3a16-4734-855f-6f3dd113ac32/s1200"/>

In [223]:
chr(170000).encode('utf-8'), hex(170000)

(b'\xf0\xa9\xa0\x90', '0x29810')

In [224]:
letter_summary(chr(170000))

('𩠐',
 170000,
 '0x29810',
 b'\xf0\xa9\xa0\x90',
 '11110000 10101001 10100000 10010000')

### Тест на понимание utf-8

In [225]:
('I designed the machine to detect acts of terror '
 'but it sees everything.').encode('utf-8').decode('ascii')

'I designed the machine to detect acts of terror but it sees everything.'

In [226]:
len('Hello'.encode('utf-8'))

5

In [227]:
len('Hello Мир'.encode('utf-8'))

12

# Совсем немного про память

In [228]:
import sys
print(sys.getsizeof(''))
print(sys.getsizeof('Hell'))

49
53


In [229]:
print(sys.getsizeof('Hello'))

54


In [230]:
print(sys.getsizeof('мир'))

80


In [231]:
print(sys.getsizeof('Hello мир'))

92


In [232]:
print(sys.getsizeof('Hello мирa'))

94


# Потоки ввода-вывода

## Стандартные потоки

In [237]:
import sys

sys.stdout.write('Hello again!\n');

Hello again!


In [238]:
sys.stderr.write('Danger!\n');

Danger!


### Каждый байт сообщения печатается сразу?

спойлер: нет

In [None]:
import sys
from time import sleep

print('first')
print('second', end='')
# uncomment to fix!
# sys.stdout.flush()
print('third', file=sys.stderr)

sleep(2)


Нет, потому что вывод буферизирован, и обычно ожидает конец строки `\n`, либо явной

команды на опустошение буфера.

## Откуда ещё берутся потоки?

## Файлы

In [239]:
f = open('tail_access.log')
f

<_io.TextIOWrapper name='tail_access.log' mode='r' encoding='UTF-8'>

In [240]:
content = f.read()

In [241]:
len(content)

1036156

In [242]:
f.close()  # implicit f.flush()

Читать весь файл в память может быть очень дорого

In [243]:
f = open('tail_access.log')

In [244]:
f.readline()

'[22/Sep/2019:19:08:27 +0000] py.manytask.org 46.39.53.190 "GET / HTTP/1.1" 200 0.243 5987 "0.240"\n'

А если там не строки? Или нужно прочитать сразу пачку строк?

In [245]:
chunk_size = 512
f.read(chunk_size)

'[22/Sep/2019:19:08:28 +0000] py.manytask.org 46.39.53.190 "GET /static/favicon.png HTTP/1.1" 200 0.004 1825 "0.004"\n[22/Sep/2019:19:10:14 +0000] py.manytask.org 89.178.228.153 "GET / HTTP/1.1" 200 0.196 6016 "0.196"\n[22/Sep/2019:19:10:14 +0000] py.manytask.org 89.178.228.153 "GET /static/style.css HTTP/1.1" 304 0.004 599 "0.004"\n[22/Sep/2019:19:10:16 +0000] py.manytask.org 89.178.228.153 "GET / HTTP/1.1" 200 0.133 6016 "0.132"\n[22/Sep/2019:19:10:16 +0000] py.manytask.org 89.178.228.153 "GET /static/style.cs'

In [246]:
f.close()

Окей, хотим прочитать чанками до конца...

In [247]:
f = open('tail_access.log')

In [248]:
lines = 0
while True:
    chunk = f.read(chunk_size)
    if not chunk:
        break
    lines += chunk.count('\n')
lines

9656

In [249]:
f.read()

''

In [250]:
f.close()

In [252]:
f = open('unicode_file.txt', encoding='windows-1251')
f.read(5)

'РџСЂР'

In [253]:
f.close()

In [254]:
f = open('unicode_file.txt', encoding='utf-8')
f.read(5)

'Приве'

In [255]:
f.close()

А если нужно вернуться в начало прочитанного файла? Обязательно открывать заново?

In [256]:
f = open('tail_access.log')
content = f.read()

In [257]:
f.read()

''

In [258]:
import io
f.seek(0, io.SEEK_SET)

0

In [259]:
f.readline()

'[22/Sep/2019:19:08:27 +0000] py.manytask.org 46.39.53.190 "GET / HTTP/1.1" 200 0.243 5987 "0.240"\n'

In [260]:
f.tell()

98

Хочу читать с конца файла!

In [261]:
f.seek(-100, io.SEEK_END)  # упс...

UnsupportedOperation: can't do nonzero end-relative seeks

In [263]:
f.close()

### Modes

In [268]:
f = open('tail_access.log', 'r')
f.readline()  # в текстовом режиме читаются строки (strings)

'[22/Sep/2019:19:08:27 +0000] py.manytask.org 46.39.53.190 "GET / HTTP/1.1" 200 0.243 5987 "0.240"\n'

In [269]:
f.close()

In [270]:
f = open('tail_access.log', 'rb')
f.readline()  # в байтовом (бинарном) режиме читаются байты

b'[22/Sep/2019:19:08:27 +0000] py.manytask.org 46.39.53.190 "GET / HTTP/1.1" 200 0.243 5987 "0.240"\n'

In [271]:
f.close()

In [272]:
f = open('tail_access.log', 'rb')
f.seek(-99, io.SEEK_END)  # только для байтовых строк

1036057

In [273]:
f.read()

b'[28/Sep/2019:15:57:03 +0000] py.manytask.org 91.228.178.70 "GET / HTTP/1.1" 200 0.130 8337 "0.128"\n'

### Write

In [289]:
f = open('/tmp/junk.txt', 'w')

In [290]:
f.write('test\n')

5

In [291]:
f.close()

In [292]:
f = open('/tmp/junk.txt', 'a')
f.write('another one\n')
f.close()

In [293]:
f = open('/tmp/junk.txt')
f.read()

'test\nanother one\n'

In [294]:
f.close()

In [295]:
f = open('/tmp/junk.txt', 'wb')

In [296]:
f.write(b'\x20\x12')

2

In [297]:
f.close()

In [298]:
f = open('/tmp/junk.txt')
print(f.read())
f.close()

 


### Read + write

In [299]:
f = open('/tmp/junk.txt', 'r+')

In [300]:
f.write('test\n')

5

In [301]:
f.seek(0, io.SEEK_SET)
f.read()

'test\n'

In [302]:
f.close()

### Context manager

In [303]:
with open('/tmp/junk.txt') as f:
    print(f.read())

test



## In-memory streams

### StringIO

In [305]:
import io

In [306]:
output = io.StringIO()
output.write('This goes into the stream. ')
print('And so does this.', file=output)

In [307]:
print(output.getvalue())

This goes into the stream. And so does this.



In [308]:
output.close()  # отбрасываем содержимое стрима

In [309]:
input_ = io.StringIO('Inital value for read stream')

In [310]:
print(input_.read())

Inital value for read stream


### BytesIO

In [311]:
output = io.BytesIO()
output.write('This goes into the stream. '.encode('utf-8'))
output.write('ÁÇÊ'.encode('utf-8'))

6

In [312]:
print(output.getvalue())

b'This goes into the stream. \xc3\x81\xc3\x87\xc3\x8a'


In [313]:
input_ = io.BytesIO(b'Inital value for read stream')

In [314]:
print(input_.read())

b'Inital value for read stream'


### Напоследок

<div align="center">
<img alt="random-access" src="https://www.bestprog.net/wp-content/uploads/2020/04/11_01_02_03_02_01_01_.jpg" width="600px" />
</div>

# Всем спасибо!