In [1]:
# March 2022

# for communication

# twitter https://twitter.com/runaz_there

# Программирование на языке Python

Материал в этой главе основан на онлайн-учебнике [Composing Programs](https://composingprograms.com/). Дополнительно по программированию на Python могу порекомендовать сайт [Real Python](https://realpython.com/). 

Ниже я собрал только те соображения и код из учебника, которые, на мой взгляд, будут полезны для применения Python для статистических исследований, машинного обучения. Код, как правило, взят непосредственно из книги, у меня не было цели "привязать" код к исследованию данных Goodreads.

Начать стоит, пожалуй, вот с этой [цитаты](https://composingprograms.com/pages/11-getting-started.html):

"The fundamental equation of computers is:

computer = powerful + stupid

Computers are very powerful, looking at volumes of data very quickly. Computers can perform billions of operations per second, where each operation is pretty simple.

Computers are also shockingly stupid and fragile. The operations that they can do are extremely rigid, simple, and mechanical. The computer lacks anything like real insight ... it's nothing like the HAL 9000 from the movies. If nothing else, you should not be intimidated by the computer as if it's some sort of brain. It's very mechanical underneath it all.

Programming is about a person using their real insight to build something useful, constructed out of these teeny, simple little operations that the computer can do."

In [2]:
from urllib.request import urlopen
from math import pi

Немного про программирование. Элементы языка программирования, базовые концепции: выражения и операторы; функции; объекты; интерпретаторы.

По большому счету компьютерная программа:

1. либо вычисляет какое-либо значение;
2. либо выполняет какое-либо действие.

Поэтому код на Python состоит либо из выражений, либо из операторов. Как правило, выражения описывают вычисление, а операторы описывают выполнение какого-либо действия. 

Вот оператор присваивания.


In [3]:
shakespeare = urlopen('http://composingprograms.com/shakespeare.txt')
shakespeare

<http.client.HTTPResponse at 0x1e5354e2bb0>

Функция - это такой элемент языка, который как бы собирает под одной оболочкой множество команд, которые надо выполнить. Применительно к функциям важно помнить, что они выпоняются последовательно. Ниже пример.

Важные мысли

1. Язык служит для фреймворком для организации идей о том, как произвести вычисления.
2. Программы пишутся прежде всего для людей, а уже затем для компьютеров.

Таким образом можно перейти от простых идей ко все более сложным. Поэтому любой язык программирования должен обеспечивать три механизма:

1. примитивные выражения и утверждения (expressions and statements), которые являются простейшими блоками;
2. инструменты комбинирования, с помошью которых объединяются различные элементарные блоки;
3. инструменты абстрагирования, с помощью которых можно работать с объединененными блоками как с единым целым, как с элементарным блоком. 

Поэтому, повторюсь, в программировании два основных элемента это функции и данные. 

In [4]:
# выражение (expressions)
42

42

Выражения могут объединяться, тогда получится compound expression. У таких выражений есть несколько подвидов, самый важный - это call expression.

In [5]:
# пример выражения call expression
max(7.5, 8.6)

8.6

Здесь max это operator, а числа в скобках это operand. Оператор задает функцию. Функция max вызывается с аргументами-числами, и возвращает значение.

In [6]:
# вложенные функции
max(min(1, -2), min(pow(3, 5), -4))

-2

In [7]:
words = set(shakespeare.read().decode().split())

Что здесь происходит?

Машина читает текст, декодирует его, разбивает на элементы, а затем все это помещает в множество.

Объекты - это не только списки, множества, кортежи, словари, но и все другое.

Интерпретаторы - это программы, которые способны интерпретировать язык программирования. 

Указанное деление относительно. Функции - это объекты, объекты - функции, все вместе - интерпретаторы. 

In [8]:
# важный способ присвоения значений
radius = 10
area, circumference = pi * radius * radius, 2 * pi * radius

Принципы для хорошей функциии:

"Each function should have exactly one job. That job should be identifiable with a short name and characterizable in a single line of text. Functions that perform multiple jobs in sequence should be divided into multiple functions.
Don't repeat yourself is a central tenet of software engineering. The so-called DRY principle states that multiple fragments of code should not describe redundant logic. Instead, that logic should be implemented once, given a name, and applied multiple times. If you find yourself copying and pasting a block of code, you have probably found an opportunity for functional abstraction.
Functions should be defined generally. Squaring is not in the Python Library precisely because it is a special case of the pow function, which raises numbers to arbitrary powers".

Официальные требования к описанию функций [см. здесь](https://www.python.org/dev/peps/pep-0257/)

Код - это последовательность инструкций. Такие инструкции могут быть элементарными, а могут быть составными. 

In [9]:
# в return можно задавать инструкцию
# а не просто возвращать значение
def percent_difference(x, y):
	    difference = abs(x-y)
	    return 100 * difference / x
result = percent_difference(40, 50)


In [10]:
# пример на функцию и условный оператор
def absolute_value(x):
    if x > 0:
        return x
    elif x == 0:
	    return 0
    else:
        return -x
	
result = absolute_value(-2)
print(result)

2


In [11]:
# пример на цикл 
def fib(n):
    pred, curr = 0, 1
    k = 2
    while k < n:
        pred, curr = curr, pred + curr
        k = k + 1
    return curr
	
result = fib(8)

Лямбда функция может быть понята по следующему примеру:

lambda x: f(g(x))

"A function that takes x and returns f(g(x))".

Такая функция не имеет имени. В языке Python предпочтительным считается использование явного задания функции с помощью def. Однако для простых, коротких функций? допускается также использование лямбда функции.

In [12]:
# пример лямбда-функции
s = lambda x: x * x
s(12)

144

In [13]:
# декораторы
def trace(fn):
    def wrapped(x):
        print('->', fn, '(', x,')')
        return fn(x)
    return wrapped

trace(5)

<function __main__.trace.<locals>.wrapped(x)>

In [14]:
@trace
def triple(x):
    return 3 * x

In [15]:
triple(12)

-> <function triple at 0x000001E535503820> ( 12 )


36

Что здесь происходит? Беру функцию triple и передаю ей аргумент 12. Функция triple должна вернуть 36, но вместо этого она передает свой результат в функцию trace, которая как бы "обертывает" функцию triple. В результате в функцию trace передается значение 36 как результат функции triple и 12 как аргумент x, общий для triple и trace.

Чтобы лучше это понять, надо посмотреть на код ниже.

In [16]:
def triple(x):
    return 3 * x

triple = trace(triple)

# Рекурсивные функции

Вот какое определение дано в учебнике: "Функция называется рекурсивной, если тело функции вызывает саму функцию прямо или косвенно. То есть процесс выполнения тела рекурсивной функции, в свою очередь, может потребовать повторного применения этой функции.".

Ниже приведен пример такой функции. Задача в том, чтобы просуммировать цифры натурального числа. 

In [17]:
# оставля. только последнюю цифру
18117 % 10

7

In [18]:
# оставля. все цифры, кроме последней
18117 // 10

1811

In [19]:
def sum_digits(n):
    if n < 10:
        return n
    else:
        all_but_last, last = n // 10, n % 10
        return sum_digits(all_but_last) + last

Что здесь происходит? Условие под if устанавливает, что если цифра меньше 10, то его сумма будет равна такой цифре. Например, для 9 сумма будет 9. 

Под else стоит оператор присвоения. all_but_last - это все цифры, кроме последней, например 738. last - это последняя цифра. Функция возвращает сумму самой себя с аргументом all_but_last и последней цифры. Вот как это работает.

In [20]:
7 % 10

7

In [21]:
# если цифра одна
sum_digits(7)

7

In [22]:
# если 18117
sum_digits(738)

18

In [23]:
def sum_digits(n):
    if n < 10:
        return n
    else:
        all_but_last, last = n // 10, n % 10
        return sum_digits(all_but_last) + last

Что здесь происходит по шагам?

1. Помещаю 738 в функцию sum_digits. Это число больше 10, поэтому перехожу к else. 
2. Разбиваю 738 на 73 и 8. Так завершается первый локальный фрейм (local frame).
3. Вновь передаю в функцию sum_digits значение 73 (через sum_digits(all_but_last)). Теперь получаю как all_but_last уже 7, как last получаю 3. Это второй локальный фрейм.
4. Опять передаю в sum_digits 7. Так как это число меньше 10, то возвращаю его как результат функции sum_digits. Это будет третий локальный фрейм.
5. Теперь передаю в обратном порядке. От третьего фрейма во второй передаю 7, last там уже был определен как 3. Сумма равна 10, которую теперь передаю из второго фрейма в первый как результат функции sum_digits(all_but_last).
6. На этом последнем шаге суммирую 10 из sum_digits(all_but_last) и last = 8.

Вот еще один пример на рекурсию - подсчет факториала.

In [24]:
def fact(n):
    if n == 1:
        return 1
    else:
        return n * fact(n-1)

In [25]:
fact(4)

24

In [26]:
# использование print с рекурсией
def cascade(n):
        """Print a cascade of prefixes of n."""
        if n < 10:
            print(n)
        else:
            print(n)
            cascade(n//10)
            print(n)

cascade(2013)

2013
201
20
2
20
201
2013


# Типы данных в Python



In [27]:
# list
pair = [10, 20]
print(pair)
print(type(pair))

[10, 20]
<class 'list'>


In [28]:
x, y = pair
print(x, y)

10 20


In [29]:
print(pair[0], pair[1])

10 20


In [30]:
len(pair)

2

In [31]:
# умножение, суммирование для списков
digits = [1, 8, 2, 8]
[2, 7] + digits*2

[2, 7, 1, 8, 2, 8, 1, 8, 2, 8]

In [32]:
# вложенные списки
pairs = [[10, 20], [30, 40]]
print(pairs[1])
print(pairs[1][0])

[30, 40]
30


In [33]:
# кортежи, неизменяемая последовательность

("the", 1, ("and", "only"))

('the', 1, ('and', 'only'))

In [34]:
# операции с кортежами
code = ("up", "up", "down", "down") + ("left", "right")*2
print(len(code))
print(code[3])
print(code.count("down"))
print(code.index("left"))

8
down
2
4


In [35]:
# словари
numerals = {'I': 1.0, 'V': 5, 'X': 10}

In [36]:
# операции со словарем
numerals['X']

10

In [37]:
numerals['I'] = 1
numerals['L'] = 50
numerals

{'I': 1, 'V': 5, 'X': 10, 'L': 50}

In [38]:
# возвращает ключи
print(numerals.keys())

# возвращает значения
print(numerals.values())

print(numerals.items())

dict_keys(['I', 'V', 'X', 'L'])
dict_values([1, 5, 10, 50])
dict_items([('I', 1), ('V', 5), ('X', 10), ('L', 50)])


In [39]:
# преобразование списка в словарь
dict([(3, 9), (4, 16), (5, 25)])

{3: 9, 4: 16, 5: 25}

In [40]:
# создание словаря генератором
{x: x*x for x in range(3, 6)}

{3: 9, 4: 16, 5: 25}

In [41]:
# множества (set) не содержат повторений
s = {3, 2, 1, 4, 4}
s

{1, 2, 3, 4}

In [42]:
# операции с множеством
print(3 in s)
print(len(s))
print(s.union({1, 5}))
print(s.intersection({6, 5, 4, 3}))

True
4
{1, 2, 3, 4, 5}
{3, 4}


# Циклы

In [43]:
# реализация счетчика с помощью цикла while
def count(s, value):
    total, index = 0, 0
    while index < len(s):
        if s[index] == value:
            total = total + 1
        index = index + 1
    return total

count(digits, 8)

2

In [44]:
# реализация счетчика с помощью цикла for
def count(s, value):
    total = 0
    for elem in s:
        if elem == value:
            total = total + 1
    return total

count(digits, 8)

2

In [45]:
# распаковка с помощью for
pairs = [[1, 2], [2, 2], [2, 3], [4, 4]]
for x, y in pairs:
    print(x, y)

1 2
2 2
2 3
4 4


In [46]:
# зада. диапазоны значений
list(range(5, 8))

[5, 6, 7]

In [47]:
# range часто задает количество повторений в цикле
# подчеркивание является именем, но дополнительно 
# указывает, что нигде далее по коду это имя не будет встречаться
for _ in range(3):
    print('Go Bears!') 

Go Bears!
Go Bears!
Go Bears!


In [48]:
# генератор заменяет for
odds = [1, 3, 5, 7, 9]
[x+1 for x in odds]

[2, 4, 6, 8, 10]

In [49]:
# генератор с применение if
[x for x in odds if 25% x == 0]

[1, 5]

In [50]:
# в генераторе может быть и функция
def perimeter(width, height):
    return 2 * width + 2 * height

def minimum_perimeter(area):
    heights = divisors(area)
    perimeters = [perimeter(width(area, h), h) for h in heights]
    return min(perimeters)

# еще один пример
def keep_if(filter_in, s):
    return [x for x in s if filter_fn(x)]

# String (строки)

In [51]:
# string
sity = 'Berkeley'
print(len(sity))
print(sity[3])

8
k


In [52]:
# операции с строками
print('Berkeley' + ', CA')
print('Shabu ' * 2)

Berkeley, CA
Shabu Shabu 


# Объекты

Описание из учебника: "Объекты объединяют значения данных с поведением. Объекты представляют информацию, но также ведут себя подобно вещам, которые они представляют. Логика того, как объект взаимодействует с другими объектами, объединяется вместе с информацией, которая кодирует значение объекта. Когда объект печатается, он знает, как записать себя в тексте. Если объект состоит из частей, он знает, как раскрыть эти части по требованию. Объекты - это одновременно информация и процессы, объединенные вместе для представления свойств, взаимодействий и поведения сложных объектов.".

"Дата имени привязана к классу. Как мы уже видели, класс представляет собой своего рода ценность. Отдельные даты называются экземплярами этого класса. Экземпляры могут быть созданы путем вызова класса по аргументам, которые характеризуют экземпляр".

In [53]:
# пример
from datetime import date

tues = date(2014, 5, 13)
print(date(2014, 5, 19) - tues)

6 days, 0:00:00


"Объекты имеют атрибуты, которые являются именованными значениями, являющимися частью объекта. В Python, как и во многих других языках программирования, мы используем точечную нотацию для обозначения атрибута объекта."

expression . name

Здесь name - это атрибут объекта.

In [54]:
# пример атрибута объекта
tues.year

2014

Объекты могут также иметь методы, которые ведут себя как функции. 

In [55]:
# пример метода
tues.strftime('%A, %B %d')

'Tuesday, May 13'

# Создание класса

Общая модель

class name:
    suite

"Оператор suite класса содержит операторы def, которые определяют новые методы для объектов этого класса. Метод, который инициализирует объекты, имеет специальное имя в Python, __init__ (два подчеркивания с каждой стороны слова "init"), и называется конструктором для класса".

In [56]:
# пример класса только с атрибутами

class Account:
    def __init__(self, account_holder):
        self.balance = 0
        self.holder = account_holder

"Метод __init__ для учетной записи имеет два формальных параметра. Первый из них, self, привязан к недавно созданному объекту учетной записи. Второй параметр, account_holder, привязан к аргументу, передаваемому классу при его вызове для создания экземпляра.

Конструктор привязывает баланс имени атрибута экземпляра к 0. Он также привязывает атрибут name holder к значению имени account_holder. Формальный параметр account_holder - это локальное имя в методе __init__. С другой стороны, держатель имени, привязанный с помощью оператора окончательного присваивания, сохраняется, поскольку он хранится как атрибут self с использованием точечной нотации."

In [57]:
a = Account('Kirk')

"Этот "вызов" класса Account создает новый объект, являющийся экземпляром Account, затем вызывает функцию конструктора __init__ с двумя аргументами: вновь созданный объект и строка 'Kirk'. По соглашению мы используем имя параметра self для первого аргумента конструктора, поскольку оно привязано к создаваемому объекту. Это соглашение принято практически во всем коде Python."

In [58]:
a.balance

0

In [59]:
a.holder

'Kirk'

In [60]:
# пример класса с атрибутами и методами
class Account:
    def __init__(self, account_holder):
        self.balance = 0
        self.holder = account_holder
    def deposit(self, amount):
        self.balance = self.balance + amount
        return self.balance
    def withdraw(self, amount):
        if amount > self.balance:
            return 'Insufficient funds'
        self.balance = self.balance - amount
        return self.balance

In [61]:
spock_account = Account('Spock')
print(spock_account.deposit(100))
print(spock_account.withdraw(90))
print(spock_account.withdraw(90))
print(spock_account.holder)

100
10
Insufficient funds
Spock


"Когда метод вызывается для объекта, этот объект неявно передается в качестве первого аргумента методу. То есть объект, представляющий собой значение expression слева от точки, автоматически передается в качестве первого аргумента методу, названному в правой части выражения с точкой. В результате объект привязывается к параметру self.
"

In [62]:
# пример на атрибут класса
class Account:
    interest = 0.02 # атрибут класса
    def __init__(self, account_holder):
        self.balance = 0
        self.holder = account_holder
    # ниже могу быть добавлены дополнительные методы

In [63]:
# пример на наследование классов
# начинается с повторения класса Account
class Account:
        """A bank account that has a non-negative balance."""
        interest = 0.02
        def __init__(self, account_holder):
            self.balance = 0
            self.holder = account_holder
        def deposit(self, amount):
            """Increase the account balance by amount and return the new balance."""
            self.balance = self.balance + amount
            return self.balance
        def withdraw(self, amount):
            """Decrease the account balance by amount and return the new balance."""
            if amount > self.balance:
                return 'Insufficient funds'
            self.balance = self.balance - amount
            return self.balance

In [64]:
# дочерний класс
# родительский помещаем 
# после имени дочернего класса
class CheckingAccount(Account):
    withdraw_charge = 1
    interest = 0.01  # в дочернем классе можно изменить атрибут родительского
    def withdraw(self, amount):  # в дочернем классе также можно изменить метод родительского
        return Account.withdraw(self, amount + self.withdraw_charge)

In [65]:
checking = CheckingAccount('Sam')
checking.deposit(10)  # этот метод прямо берем из родительского класса

10

In [66]:
checking.withdraw(5)

4

# Полезные мелочи

In [67]:
# все пары
def all_pairs(s):
    for item1 in s:
        for item2 in s:
            yield (item1, item2)

list(all_pairs([1, 2, 3]))

[(1, 1), (1, 2), (1, 3), (2, 1), (2, 2), (2, 3), (3, 1), (3, 2), (3, 3)]

Принципы тестирования на ошибки (дебагинг)

1. Тестируй последовательно, небольшими кусочками написанного кода.
2. Изолируй ошибку. Разбей код на небольшие фрагменты.
3. Проверь свои предположения. Надо проверить те идеи, тот порядок, на основании которых писал код.
4. Попроси совета.