# PYTHON 3

## Lecture 03
### Functions and Strings

<img src="https://www.eirlab.net/wp-content/uploads/2022/03/python-logo-2.png" align="right" style="height: 200px;"/>

### Chupov Dmitrii


MIPT 2024

# Часть 1. Функции, генераторы, замыкания, декораторы
### Содержание

* Базовый синтаксис
* Аргументы по умолчанию
* Переменное число аргументов
* Рекурсия
* Генераторы
* Анонимные функции
* Атрибуты
* Области видимости
* Замыкания
* Декораторы

## Объявление и вызов функции

In [1]:
def foo(a, b):
    print('a =', a, 'b =', b)

foo(1, 'b')

a = 1 b = b


#### Аргументы по умолчанию

In [2]:
def foo(a, b, c=0.5, d=(None,)):
    print('a =', a, 'b =', b, 'c =', c, 'd =', d)

foo(1, 'b')
foo(1, 'b', 0.3)
foo(1, 'b', d='d')
foo(1, d='d', c=0.3, b='b')

a = 1 b = b c = 0.5 d = (None,)
a = 1 b = b c = 0.3 d = (None,)
a = 1 b = b c = 0.5 d = d
a = 1 b = b c = 0.3 d = d


#### Изменяемые (mutable) аргументы передаются по ссылке, неизменяемые (immutable) - по значению

In [3]:
def get_my_hero_team(team, number):
    number = 10
    team['Alla'] = 'Pugacheva'
    team['Fillip'] = 'Kirkorov'

number = 5
hero_team = {'Irina': 'Allegrova', 'Fillip': 'Plein'}
get_my_hero_team(hero_team, number)

[print(*item) for item in hero_team.items()]
print(number)

Irina Allegrova
Fillip Kirkorov
Alla Pugacheva
5


#### Переменное число аргуметнов

In [4]:
def foo(a, b, *args):
    print('a =', a, 'b =', b, 'args =', args)

foo(1, 'b')
foo(1, 'b', 0.5)
foo(1, 'b', [1, 2], 0.5)

a = 1 b = b args = ()
a = 1 b = b args = (0.5,)
a = 1 b = b args = ([1, 2], 0.5)


In [5]:
def foo(a, *args, b):
    print('a =', a, 'b =', b, 'args =', args)

foo(1, [1, 2], 0.5, b='b')
foo(1, [1, 2], 0.5)

a = 1 b = b args = ([1, 2], 0.5)


TypeError: foo() missing 1 required keyword-only argument: 'b'

In [6]:
def foo(a, b=0.5, **kwargs):
    print('a =', a, 'b =', b, 'kwargs =', kwargs)

foo(1, c='c')
foo(1, c='c', b='b')
foo(1, 'b', c='c', d='d')

a = 1 b = 0.5 kwargs = {'c': 'c'}
a = 1 b = b kwargs = {'c': 'c'}
a = 1 b = b kwargs = {'c': 'c', 'd': 'd'}


In [7]:
def foo(*args, **kwargs):
    print('args =', args, 'kwargs =', kwargs)

foo(1, 'a', x=0.5, y=[3, 4])
foo(*[1, 'a'], **{'x' : 0.5, 'y': [3, 4]})

args = (1, 'a') kwargs = {'x': 0.5, 'y': [3, 4]}
args = (1, 'a') kwargs = {'x': 0.5, 'y': [3, 4]}


#### Рекурсия

In [8]:
def easy_sort(x):
    if not x:
        return x

    first = min(x)
    x.remove(first)
    return [first] + easy_sort(x)

easy_sort([4, 2, 3, 1, 7, 5])

[1, 2, 3, 4, 5, 7]

In [9]:
def ackermann(m, n):
    if m == 0:
        return n + 1
    if n == 0:
        return ackermann(m - 1, 1)
    return ackermann(m - 1, ackermann(m, n - 1))

In [10]:
print(ackermann(1, 3))
print(ackermann(2, 3))
print(ackermann(3, 4))

5
9
125


## Iterable/Iterator/Generator

- **Iterator** - то, от чего можно взять next()
- **Iterable** - то, от чего можно взять iter(), получив Iterator

- **Generator** - особый вид Iterator
- **Generator Expression** - способ создания Generator
- **Generator Function** (в простонародии тоже Generator) - еще один способ создания Generator 

In [11]:
values = ['Hello', 'world!']
print(values.__iter__())

def foo(x):
    print('I am a generator function!')
    return x.__iter__()

for value in foo(values):
    print(value, end=' ')

<list_iterator object at 0x7fc17abdf1c0>
I am a generator function!
Hello world! 

In [12]:
from collections.abc import Iterable, Iterator

iterable = ['Alice', 'Bob', 'Charlie']
iterator1 = iter(iterable)
iterator2 = iter(iterable)

print(iterable)
print(isinstance(iterable, Iterable))
print(iterator1)
print(isinstance(iterator1, Iterator))

['Alice', 'Bob', 'Charlie']
True
<list_iterator object at 0x7fc19006a550>
True


In [13]:
for i in iterator1:
    print(i)

Alice
Bob
Charlie


#### Второй раз не работает

In [14]:
for i in iterator1:
    print(i)

In [15]:
from collections.abc import Generator

generator = (x**2 for x in range(10))
print(generator)
print(isinstance(generator, Generator))
print(isinstance(generator, Iterator))
print(isinstance(iterator1, Generator))

print(next(generator))
print(next(generator))
print(next(generator))

<generator object <genexpr> at 0x7fc17ac53a50>
True
True
False
0
1
4


In [16]:
for i in generator:
    print(i)

9
16
25
36
49
64
81


#### Второй раз тоже не работает

In [17]:
for i in generator:
    print(i)

#### Ключевое слово **yield**

In [18]:
values = ['Hello', 'world!']

def foo(x):
    print('I am the generator!')
    for value in x:
        yield value

#foo - generator function
#foo() - generator

for value in foo(values):
    print(value, end=' ')

I am the generator!
Hello world! 

#### Кубы натуральных чисел

In [19]:
def cubes(x):
    for value in x:
        yield value ** 3

for value in cubes(range(10)):
    print(value, end=' ')

0 1 8 27 64 125 216 343 512 729 

Генератор может быть бесконечным

In [20]:
def cubes():
    i = 0
    while True:
        yield i ** 3
        i += 1

for value in cubes():
    print(value, end=' ')

    if value > 100:
        break

0 1 8 27 64 125 

## Анонимные функции

In [21]:
lambda x : print(x)

<function __main__.<lambda>(x)>

In [22]:
list(map(lambda x : x ** 2, range(10)))

[0, 1, 4, 9, 16, 25, 36, 49, 64, 81]

In [23]:
sorted([1, 2, 3, 4], key = lambda x : 1 / x)

[4, 3, 2, 1]

## Аттрибуты

In [24]:
def foo(*args, **kwargs):
    'Function which prints arguments.'
    print('args =', args, 'kwargs =', kwargs)

print(dir(foo))
print(foo.__name__)
print(foo.__doc__)
print(foo.__module__)

['__annotations__', '__call__', '__class__', '__closure__', '__code__', '__defaults__', '__delattr__', '__dict__', '__dir__', '__doc__', '__eq__', '__format__', '__ge__', '__get__', '__getattribute__', '__globals__', '__gt__', '__hash__', '__init__', '__init_subclass__', '__kwdefaults__', '__le__', '__lt__', '__module__', '__name__', '__ne__', '__new__', '__qualname__', '__reduce__', '__reduce_ex__', '__repr__', '__setattr__', '__sizeof__', '__str__', '__subclasshook__']
foo
Function which prints arguments.
__main__


#### Аттрибуты можно использовать как статические переменные

In [25]:
def get_next_id():
    if not hasattr(get_next_id, 'value'):
        get_next_id.value = 0

    get_next_id.value += 1
    return get_next_id.value

print(get_next_id())
print(get_next_id())
print(get_next_id())
print('get_next_id.value =', get_next_id.value)

1
2
3
get_next_id.value = 3


#### Где хранятся аргументы по умолчанию?

In [26]:
def foo(a = 'Hello', b = 1):
    print(a, b)

print('Defaults: ', foo.__defaults__)
foo()

foo.__defaults__ = ('Hello', 'world!')
print('Defaults: ', foo.__defaults__)
foo()

Defaults:  ('Hello', 1)
Hello 1
Defaults:  ('Hello', 'world!')
Hello world!


#### Почему не стоит использовать mutable аргументы по умолчанию

In [27]:
def foo(a, b = []):
    b.append(a)
    print(*b)

foo('Hello')
foo('the')
foo('wonderful')
foo('world!')

Hello
Hello the
Hello the wonderful
Hello the wonderful world!


# Пространства имен [Namespaces]

Пространство имён -- мэппинг из имен переменных в объекты.

**locals()** - возвращает текущий namespace в виде словаря <br>
**globals()** - возвращает namespace модуля

In [28]:
locals() is globals()

True

In [29]:
value = 42
print(globals()['value'])

globals()['value'] = 100500
print(value)

42
100500


#### Циклы и условия не создают своё пространство имён

In [30]:
if (True):
    value_assigned_in_if = 1

for loop_counter in range(1):
    value_assigned_in_for = 2

print(loop_counter)
print(value_assigned_in_if)
print(value_assigned_in_for)

0
1
2


#### Функции создают своё пространство имён

In [31]:
value = 0

def foo():
    value = 1
    print(value)

    print('locals:', locals()['value'])
    print('globals:', globals()['value'])

foo()
print(value)

1
locals: 1
globals: 0
0


### Область видимости (scope)

Правило LEGB:
1. Local - имена, определенные внутри функции (и не помеченные global)
2. Enclosing-function locals - имена в области видимости всех оборачивающих (enclosing) функций, в порядке уменьшения глубины
3. Global - имена, определенные на уровне модуля или посредством global
4. Built-in - предопределенные (range, open, ...)

In [32]:
value = 1

def foo():
    value = 2

    def bar():
        value = 3

    bar()
    print('enclosing scope value', value)

foo()
print('global value', value)

enclosing scope value 2
global value 1


#### Пример LEGB

In [33]:
def foo():
    def bar():
        print('built-in:', range)
    bar()
foo()

range = 'global range'

def foo():
    def bar():
        print('global:', range)
    bar()
foo()

def foo():
    range = 'enclosing-function range'
    def bar():
        print('enclosing-function:', range)
    bar()
foo()

def foo():
    range = 'enclosing-function range'
    def bar():
        range = 'local range'
        print('local:', range)
    bar()
foo()

built-in: <class 'range'>
global: global range
enclosing-function: enclosing-function range
local: local range


### Ключевое слово global

In [34]:
value = 1

def foo():
    value = 2

    def bar():
        global value
        value = 3

    bar()
    print('enclosing scope value', value)

foo()
print('global value', value)

enclosing scope value 2
global value 3


### Ключевое слово nonlocal

In [35]:
value = 1

def foo():
    value = 2

    def bar():
        nonlocal value
        value = 3

    bar()
    print('enclosing scope value', value)

foo()
print('global value', value)

enclosing scope value 3
global value 1


Пространства имён в python *статические* <br>
Определение любого используемого в коде обьекта можно найти без запуска программы.

In [36]:
value = 1

def foo():

    print(value)

    def bar():
        print(value)

    bar()
    value = 2

foo()

UnboundLocalError: local variable 'value' referenced before assignment

# Замыкания [Closures]
*In computer programming languages, a closure is a function together with a referencing environment of that function. A closure function is any function that uses a variable that is defined in an environment (or scope) that is external to that function, and is accessible within the function when invoked from a scope in which that free variable is not defined.*

Существования замыканий следует из правила LEGB, возможности оперировать с функциями как обьектами и того что области видимости в Питоне - статические.

In [3]:
multipliers = []

for m in range(5):
    multipliers.append(lambda x: x * m)

print([multipliers[i](i) for i in range(5)])

[0, 4, 8, 12, 16]


In [4]:
def foo():
    x = 3
    def bar():
        print(x)
    x = 5
    return bar

bar = foo()
bar()

x = 9
bar()

5
5


In [5]:
def make_adder(x):
    def adder(y):
        return x + y
    return adder

add_two = make_adder(2)

print(add_two(5))
print(add_two(7))

7
9


#### Функции могут замыкать одинаковые переменные

In [6]:
def cell(value = 0):
    def Get():
        return value

    def Set(new_value):
        nonlocal value
        value = new_value
        return value

    return Get, Set

Get, Set = cell(10)
print(Get())

Set(20)
print(Get())

10
20


#### Посмотрим, что внутри замыкания

In [7]:
print(Get.__closure__)
print(Get.__closure__[0].cell_contents)

(<cell at 0x7fe33408d9a0: int object at 0x9570a0>,)
20


**\_\_closure\_\_** &mdash; список замкнутых переменных.<br>
Переменная представлена в виде класса **cell** с единственным полем **cell_contents**

In [8]:
print(Get.__closure__ == Set.__closure__)
print(Get.__closure__[0] is Set.__closure__[0])

True
True


# Декораторы

Замыкания как способ быстро изменить поведение функции

In [9]:
import sys

def deprecate(func):
    def inner(*args, **kwargs):
        print('{} is deprecated'.format(func.__name__), file=sys.stderr)
        return func(*args, **kwargs)
    return inner

pprint = deprecate(print)

pprint([1, 2, 3])

[1, 2, 3]


print is deprecated


### Наблюдение

In [10]:
import sys

def deprecated(func):
    def wrapper(*args, **kwargs):
        print('{} is deprecated'.format(func.__name__), file=sys.stderr)
        return func(*args, **kwargs)
    return wrapper


@deprecated
def show(x):
    print(x)

show([1, 2, 3])

[1, 2, 3]


show is deprecated


### Проблема

In [11]:
@deprecated
def show(x):
    'This is a really nice looking docstring'
    print(x)

print(show.__name__)
print(show.__doc__)

wrapper
None


### Решение 1

In [12]:
def deprecated(func):
    def wrapper(*args, **kwargs):
        print('{} is deprecated!'.format(func.__name__), file=sys.stderr)
        return func(*args, **kwargs)
    wrapper.__name__ = func.__name__
    wrapper.__doc__ = func.__doc__
    wrapper.__module__ = func.__module__
    return wrapper

@deprecated
def show(x):
    'This is a really nice looking docstring'
    print(x)

print(show.__name__)
print(show.__doc__)

show
This is a really nice looking docstring


### Решение 2

In [13]:
import functools

def deprecated(func):
    @functools.wraps(func)
    def wrapper(*args, **kwargs):
        print('{} is deprecated!'.format(func.__name__), file=sys.stderr)
        return func(*args, **kwargs)
    return wrapper

@deprecated
def show(x):
    'This is a really nice looking docstring'
    print(x)

print(show.__name__)
print(show.__doc__)

show
This is a really nice looking docstring


### Декораторы с аргументами

In [14]:
def trace(dest=sys.stderr):
    def wraps(func):
        @functools.wraps(func)
        def wrapper(*args, **kwargs):
            print('{} called with args {}, kwargs {}!'.format(func.__name__, args, kwargs), file = dest)
            return func(*args, **kwargs)
        return wrapper
    return wraps

@trace(sys.stdout)
def f(x, test):
    if test > 1:
        return f(x, test / 2)

f('Hi!', test=42)

f called with args ('Hi!',), kwargs {'test': 42}!
f called with args ('Hi!', 21.0), kwargs {}!
f called with args ('Hi!', 10.5), kwargs {}!
f called with args ('Hi!', 5.25), kwargs {}!
f called with args ('Hi!', 2.625), kwargs {}!
f called with args ('Hi!', 1.3125), kwargs {}!
f called with args ('Hi!', 0.65625), kwargs {}!


### Обработка исключений

In [15]:
#Обработка исключений

arr = [1,2,3]

try:
    arr[1] = 0
    #arr[3] = 0
    #tuple(arr)[1] = 0

except IndexError:
    print('except IndexError is executed if IndexError occurs in try')

except:
    print('except is executed if not listed error occurs')

else:
    print('else is executed if try worked')

finally:
    print('finally is always executed')

else is executed if try worked
finally is always executed


## Разные полезные плюшки

In [16]:
# Функция filter - возвращает фильтр-объект (генератор)
res = [y for y in filter(lambda x: x > 0, range(-5,5))]

print(res)

[1, 2, 3, 4]


In [17]:
import functools

#help(functools.reduce) # == Apply a function of two arguments cumulatively to the items of a sequence

print(functools.reduce(lambda x,y: x*y, res))

24


In [18]:
# The partial() is used for partial function application which “freezes” some portion of
# a function’s arguments and/or keywords resulting in a new object.

basetwo = functools.partial(int, base=2)
basetwo.__doc__ = 'Convert base 2 string to an int.'
basetwo('10010')

18

# Часть 2. Cтроки и приколы

## Но сначала еще немного о функциях!

<img src="https://translator-school.com/storage/blogs/May2022/06-osobennosti-perevoda-subtitrov.jpg" align="left" style="height: 200px;"/>

Предположим, вы хотите написать свою ультра клевую оупенсорс либу. 

И это очень важный ее кусок:

In [19]:
# this is my first open-source library

def some_really_complex_function(arg, another_arg, *here_go_more_args, **and_some_kwargs_too):
    print('Here I do some really complicated code')
    return 42

In [20]:
some_really_complex_function(1, 2)

Here I do some really complicated code


42

Очень хотелось бы, чтобы у нее был хелп

In [21]:
def some_really_complex_function_with_docstring(arg, another_arg, *here_go_more_args, **and_some_kwargs_too):
    '''
    This is a really complex function.

    Args:
        arg: some argument
        another_arg: some other argument

    (c) Лягушонок Пеп <------- you see that?
    '''
    print('Here I do some really complicated code')
    # Yeah, and returns 42
    return 42

In [22]:
help(some_really_complex_function_with_docstring)

Help on function some_really_complex_function_with_docstring in module __main__:

some_really_complex_function_with_docstring(arg, another_arg, *here_go_more_args, **and_some_kwargs_too)
    This is a really complex function.
    
    Args:
        arg: some argument
        another_arg: some other argument
    
    (c) Лягушонок Пеп <------- you see that?



Кошмар на ночь...

In [23]:
def дважды_принт(аргумент):
    print(аргумент * 2)

дважды_принт(42)

84


In [24]:
дважды_принт.__name__

'дважды_принт'

# ТАК НЕ НАДО

# Поговорим все же о строках
* Strings in Python 3.x
* `str` and `bytes`
* < Intermission > : Python's builtin functions
* Unicode support: encoding & decoding
* Encoding detection
* Regular expressions 101

# Работа со строками

### Срезы

In [25]:
s = 'Lorem ipsum dolor sit amet, consectetur adipiscing elit'
print(s[10 : 20])
print(s[10 : 20 : 3])

m dolor si
mori


### Операции со строками

In [26]:
s += '!' * 2
print(s)
s[-1] = '?'

Lorem ipsum dolor sit amet, consectetur adipiscing elit!!


TypeError: 'str' object does not support item assignment

### String join / split

In [27]:
print(s.split())
print(s.split('sit'))

['Lorem', 'ipsum', 'dolor', 'sit', 'amet,', 'consectetur', 'adipiscing', 'elit!!']
['Lorem ipsum dolor ', ' amet, consectetur adipiscing elit!!']


In [28]:
words = s.split(' ')

In [29]:
print(''.join(words))
print(' '.join(words))
print(' ^_^ '.join(words))

Loremipsumdolorsitamet,consecteturadipiscingelit!!
Lorem ipsum dolor sit amet, consectetur adipiscing elit!!
Lorem ^_^ ipsum ^_^ dolor ^_^ sit ^_^ amet, ^_^ consectetur ^_^ adipiscing ^_^ elit!!


### Basic transformations: upper, lower

In [30]:
s.upper()

'LOREM IPSUM DOLOR SIT AMET, CONSECTETUR ADIPISCING ELIT!!'

In [31]:
s.lower()

'lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [32]:
s.lower().capitalize()

'Lorem ipsum dolor sit amet, consectetur adipiscing elit!!'

In [33]:
s.title()

'Lorem Ipsum Dolor Sit Amet, Consectetur Adipiscing Elit!!'

### Substring search

In [34]:
'lorem' in s, 'lorem' in s.lower()

(False, True)

In [35]:
s.find('ipsum') # returns first index

6

In [36]:
s.find('nonexistent') # or -1

-1

In [37]:
s.index('ipsum')

6

In [38]:
s.index('nonexistent')

ValueError: substring not found

### Свойства строк: isalpha, isdigit etc

In [39]:
strings = ['abc', '2', '   ']

print('\t\t'.join('string isalpha isdigit isspace'.split()))
for s in strings:
    print("\"{}\"".format(s), s.isalpha(), s.isdigit(), s.isspace(), sep='\t\t')

string		isalpha		isdigit		isspace
"abc"		True		False		False
"2"		False		True		False
"   "		False		False		True


### Разное: startswith, endswith, strip

In [40]:
'Hello, world!'.startswith('Hel')

True

In [41]:
'Hello, world!'.endswith('world')

False

In [42]:
'    Hello world    '.strip()

'Hello world'

## Модуль string

In [43]:
import string

print(string.ascii_letters)
print(string.ascii_lowercase)
print(string.digits)
string.whitespace

abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ
abcdefghijklmnopqrstuvwxyz
0123456789


' \t\n\r\x0b\x0c'

### Форматирование строк

https://pyformat.info/

In [44]:
# Old style

name = 'Bob'
'Hello, %s' % name

'Hello, Bob'

In [45]:
name = 'Bob'
'Hello, %(name)s' % {'name':name}

'Hello, Bob'

In [46]:
# New style
name = 'Bob'
'Hello, {}'.format(name)

'Hello, Bob'

In [47]:
names = ['Bob','Alice']
print('Hello, {0}! Hello, {1}! Hello, {0} again!'.format(*names))

Hello, Bob! Hello, Alice! Hello, Bob again!


In [48]:
names = {'name1':'Bob','name2':'Alice'}
print('Hello, {name1}! Hello, {name2}! Hello, {name1} again!'.format(**names))

Hello, Bob! Hello, Alice! Hello, Bob again!


In [49]:
number = 50159747054
name = 'Bob'

print('Hey {}, I have a decimal number {}!'.format(name, number))

# Supports indexes
print('Sammy is {} {} {} {}!'.format('a', 'happy', 'blue', 'shark'))
print('Sammy is {3} {2} {1} {0}!'.format('a', 'happy', 'blue', 'shark'))
print('Sammy is {1} {1} {1} {3}!'.format('a', 'happy', 'blue', 'shark'))

# and named args
print('Coordinates: {latitude}, {longitude}'.format(latitude=37.24, longitude=-115.81))

Hey Bob, I have a decimal number 50159747054!
Sammy is a happy blue shark!
Sammy is shark blue happy a!
Sammy is happy happy happy shark!
Coordinates: 37.24, -115.81


In [50]:
# f-строки

year = 2020
season = 4

print(f'В {year}-м году состоится {season}-й сезон курса Python 3') # Обратите внимание на символ f перед строкой

В 2020-м году состоится 4-й сезон курса Python 3


In [51]:
# f-строки поддерживают форматирование чисел

year = 2020
season = 4

# .2f - вещественное число с двумя знаками после запятой
print(f'В {year}-м году состоится {season: .2f}-й сезон курса Python 3')

В 2020-м году состоится  4.00-й сезон курса Python 3


In [52]:
# внутри f-строк можно выполнять различные операции

year = 2020

print(f'В {year}-м году состоится {year-2017+1}-й сезон курса Python 3')

В 2020-м году состоится 4-й сезон курса Python 3


In [53]:
# можно обращаться к элементам списков по индексу

years = [2016,2017,2018,2019,2020]
season = 4

print(f'В {years[season]}-м году состоится {season}-й сезон курса Python 3')

В 2020-м году состоится 4-й сезон курса Python 3


In [54]:
# И даже использовать функции и методы

year = 2020
season = 4
name = 'Python 3'

print(f'В {year}-м году состоится {season}-й сезон {name.upper()}')

В 2020-м году состоится 4-й сезон PYTHON 3


## Symbols & bytes

*Символ* (`韩`) - это абстракция.  
*Charset* - это набор "допустимых" символов.  
*Кодировка* - это правила, как записывать символы в компьютере.  

**ASCII** - это кодировка для 128 символов. Каждый символ занимает 7 бит.  
**КОИ-8** - это кодировка для 256 символов (расширение ASCII для русского языка). Символ занимает 8 бит.  

**Unicode** - это стандарт, включающий в себя charset + несколько кодировок (UTF-8, UTF-16, UTF-32).
- В UTF-8 - от 1 до 4 байт
- UTF-16 - 2 или 4 байта
- UTF-32 - 4 байта  

#### string - последовательность символов | bytes - последовательность байтов



Unicode: symbol identifier (such as `r`, `Я` or `韩`) != byte representation.

You can switch between the Unicode symbol (e.g. "U+1D11E") and its integer identifier with `ord` and `chr`:

In [55]:
ord('r')

114

In [56]:
ord('\U0001D11E'), chr(ord('\U0001D11E')), chr(119070)

(119070, '𝄞', '𝄞')

In [57]:
ord('韩')

38889

In [58]:
chr(ord('韩')) == '韩'

True

Как можем хранить в памяти?

```
Encoding: symbols (human-readable) -> bytes 
Decoding: bytes -> symbols
```

In [59]:
s = 'café'
len(s)

4

In [60]:
b = s.encode('utf8')
print(len(b), type(b))
b # binary representation

5 <class 'bytes'>


b'caf\xc3\xa9'

In [61]:
b.decode('utf8')

'café'

In [62]:
print(b)
for byte in b:
    print(hex(byte), byte, chr(byte))

b'caf\xc3\xa9'
0x63 99 c
0x61 97 a
0x66 102 f
0xc3 195 Ã
0xa9 169 ©


# Кодировки, подробнее

In [63]:
string = 'El Niño'

for codec in ['latin_1', 'utf_8', 'utf_16', 'cp437']:
    encoded = string.encode(codec)
    print(codec, encoded.decode(codec), encoded, sep='\t\t')

latin_1		El Niño		b'El Ni\xf1o'
utf_8		El Niño		b'El Ni\xc3\xb1o'
utf_16		El Niño		b'\xff\xfeE\x00l\x00 \x00N\x00i\x00\xf1\x00o\x00'
cp437		El Niño		b'El Ni\xa4o'


Что-то что работает, что-то что не работает

In [64]:
city = 'São Paulo'
print(city.encode('utf_8'))
print(city.encode('utf_16'))
print(city.encode('iso8859_1'))
print(city.encode('cp437'))

b'S\xc3\xa3o Paulo'
b'\xff\xfeS\x00\xe3\x00o\x00 \x00P\x00a\x00u\x00l\x00o\x00'
b'S\xe3o Paulo'


UnicodeEncodeError: 'charmap' codec can't encode character '\xe3' in position 1: character maps to <undefined>

Oops!

In [65]:
print(city.encode('cp437', errors='ignore')) # bad
print(city.encode('cp437', errors='replace')) # better
print(city.encode('cp437', errors='xmlcharrefreplace')) # still not perfect

b'So Paulo'
b'S?o Paulo'
b'S&#227;o Paulo'


## Работа с файлами

In [66]:
with open('unicode_file.txt', 'w', encoding='utf-16le') as f:
    f.write('韩国烧酒')

In [67]:
with open('unicode_file.txt', 'r') as f:
    print(f.read())

UnicodeDecodeError: 'utf-8' codec can't decode bytes in position 0-1: invalid continuation byte

In [68]:
with open('unicode_file.txt', 'r', encoding='utf-16') as f:
    print(f.read())

UnicodeError: UTF-16 stream does not start with BOM

In [69]:
with open('unicode_file.txt', 'r', encoding='utf-16le') as f:
    print(f.read())

韩国烧酒


До сих пор мы не сталкивались ни с какими **сложными** случаями.

Мы можем справиться с ними с помощью `chardet` и `UnicodeDammit`, которые являются частью пакета BeautifulSoup.

### chardet

In [70]:
# !pip install chardet

In [71]:
import urllib, chardet

rawdata = urllib.request.urlopen('http://yahoo.co.jp/').read()
chardet.detect(rawdata)

{'encoding': 'utf-8', 'confidence': 0.99, 'language': ''}

### UnicodeDammit

In [72]:
# !pip install bs4

In [73]:
from bs4 import UnicodeDammit

Давайте слепим какую-то странную строку

In [74]:
snowmen = (u'\N{SNOWMAN}' * 3)
print(snowmen)
quote = (u'\N{LEFT DOUBLE QUOTATION MARK}I like snowmen!\N{RIGHT DOUBLE QUOTATION MARK}')
print(quote)
doc = snowmen.encode('utf8') + quote.encode('windows_1252')

☃☃☃
“I like snowmen!”


In [75]:
print(doc)
# ☃☃☃�I like snowmen!�

print(doc.decode('windows-1252'))
# â˜ƒâ˜ƒâ˜ƒ“I like snowmen!”

print(doc.decode('utf8'))
# ☃☃☃�I like snowmen!�

b'\xe2\x98\x83\xe2\x98\x83\xe2\x98\x83\x93I like snowmen!\x94'
â˜ƒâ˜ƒâ˜ƒ“I like snowmen!”


UnicodeDecodeError: 'utf-8' codec can't decode byte 0x93 in position 9: invalid start byte

UnicodeDammit может это разжевать!

In [76]:
new_doc = UnicodeDammit.detwingle(doc)
print(new_doc)
print(new_doc.decode('utf8'))
# ☃☃☃“I like snowmen!”

b'\xe2\x98\x83\xe2\x98\x83\xe2\x98\x83\xe2\x80\x9cI like snowmen!\xe2\x80\x9d'
☃☃☃“I like snowmen!”


## Regular expressions 101

Регулярные выражения удобно дебажить тут https://regex101.com/

Metasymbols: ```. ˆ $ * + ? { } [ ] | ( )```

Documentation: https://docs.python.org/3/library/re.html

In [76]:
import re

string = '__abc__acc__abc__a6c__'
print(re.findall(r'abc', string))
print(re.findall(r'a\dc', string))
print(re.findall(r'a\wc', string))

['abc', 'abc']
['a6c']
['abc', 'acc', 'abc', 'a6c']


In [77]:
print(re.sub(r'a\wc', '***', string))

__***__***__***__***__


In [78]:
text = u'Français złoty Österreich'
pattern = r'\w+'
ascii_pattern = re.compile(pattern, re.ASCII)
unicode_pattern = re.compile(pattern)

print('Text    :', text)
print('Pattern :', pattern)
print('ASCII   :', list(ascii_pattern.findall(text)))
print('Unicode :', list(unicode_pattern.findall(text)))

Text    : Français złoty Österreich
Pattern : \w+
ASCII   : ['Fran', 'ais', 'z', 'oty', 'sterreich']
Unicode : ['Français', 'złoty', 'Österreich']
