# 0. Семинар по Python
8 февраля 2017  
Атлас

# 1. Общее

Классный гайд с юмором: The Hitchhiker’s Guide to Python http://docs.python-guide.org/en/latest/

* Python - интерпретируемый язык
* Две версии в активной разработке: 2 и 3
* в работе с текстами проще использовать версию 3 за счёт того что все строки в Unicode
* далее примеры даны в python 3
* python 2 следует использовать, если очень нужны какие-то пакеты, которые не поддерживают 3 версию

## Типы: immutable (неизменяемые), mutable (изменяемые)

Почитать вот здесь: http://docs.python-guide.org/en/latest/writing/gotchas/

The value of some objects can change. Objects whose value can change are said to be mutable; objects whose value is unchangeable once they are created are called immutable (строго говоря)

Неизменяемые - int, bool, строки, tuple, byte
Изменяемые - коллекции (list, dict)

In [3]:
a = []

a.append(1)

print(a)

a.append(2)
print(a)

[1]
[1, 2]


In [7]:
def foo(a, b=[]):
    b.append(a)
    return b

def foo(a, b=None):
    if b is None:
        b = []
    b.append(a)
    return b



print(foo(1))

[1]


In [8]:
print(foo(2))

[2]


# 2. Naming convention & читабельность кода

> **“Code is read much more often than it is written. Design for readability.”**

(Raymond Chen)

> **“Programs must be written for people to read, and only incidentally for machines to execute.”**

(Harold Abelson)

* Официальный гайд: PEP 8 -- Style Guide for Python Code https://www.python.org/dev/peps/pep-0008/
* Мы пишем код для других
* Понятные имена переменных (не бойтесь, что получается не очень коротко)
* Комментарии к **алгоритмам** - это хорошо. Избегайте очевидных комментариев 
* Меньше if'ов и ветвлений, например:

In [10]:
def foo_bad(arg):
    if arg == 'a':
        print('arg is a')
    else:
        print('arg is not a')
        
def foo_good(arg):
    if arg == 'a':
        print('arg is a')
        return
    print('arg is not a')

foo_bad('a')
foo_bad('b')

print('\n')

foo_good('a')
foo_good('c')

arg is a
arg is not a


arg is a
arg is not a


## Документация к функции

In [10]:
def foo(a, b):
    """
    Function returns the sum of a and b
    
    :param a: a first number
    :param b: a second number
    :return: the sum
    """
    return a + b

* такой формат понимают автогенераторы документации
* всё что между (не считая самих описаний) """ PyCharm создаёт автоматически

# 3. Объектно-ориентированное программирование (ООП)

* Объект - это **экземпляр класса**
* Можно думать об объектах как об объектах в реальном мире
* В программировании объекты описываются **полями** и **методами**

In [11]:
class Duck:
    def __init__(self):
        self.lake_name = 'Baikal'
    
    def quack(self):
        print(self.lake_name)
        print('quack!')
        
duck = Duck()
duck.quack()
print('The lake is %s' % duck.lake_name)

Baikal
quack!
The lake is Baikal


![](./files/ytka4.jpg)

![](./files/24365.jpg)

![](./files/8lCFcC_THpg.jpg)

![](./files/Donald_Duck.svg.png)

In [22]:
class RealDuck:
    def quack(self):
        print('quack!')

class RubberDuck:
    def quack(self):
        print('rubber quack!')

class DonaldDuck:
    def quack(self):
        print('$$!')
        
real_duck = RealDuck()
real_duck.quack()

donald_duck = DonaldDuck()
donald_duck.quack()

quack!
$$!


In [12]:
# Now the right way to do it
import abc

# abstract class (it also called an interface when all methods are abstract)
class Duck(object):
    __metaclass__ = abc.ABCMeta

    @abc.abstractmethod
    def quack(self):
        raise Exception('Not implemented')

class RubberDuck(Duck):
    def quack(self):
        print('rubber quack!')
        
class DonaldDuck(Duck):
    def __init__(self, a, b):
        self.money = a * b
    
    def quack(self):
        result = ['$'] * self.money
        print(result)
        
        
def any_duck_say_quack(duck):
    # this method has no idea which exactly duck is it
    # it only knows that duck can quack()!
    duck.quack()
        
rubber_duck = RubberDuck()
donald_duck = DonaldDuck(2, 3)

any_duck_say_quack(rubber_duck)
any_duck_say_quack(donald_duck)

rubber quack!
['$', '$', '$', '$', '$', '$']


## Три столпа
**Наследование** - наследование  
**Инкапсуляция** - "сокрытие" данных (нарисовать кота)  
**Полиморфизм** - см. пример выше


* Большое значение имеет то, как связаны между собой классы и объекты
* Наследование - самые жёсткий тип связи
* Существуют *паттерны проектирования* и *принципы проектирования*
* Один из принципов: "Программируйте на уровне интерфейса, а не на уровне реализоации"
* Зачем вообще заморачиваться объектами!?!? Ответ: чтобы построить гибкую систему, адаптированную к ***изменениям***
* В питоне ООП не всегда полезно
* Часто в питоне мы хотим сделать класс для удобства и читабельности:

In [13]:
# bad (sometimes)
def foo_bad(a, b):
    c = a + b
    d = a * b
    return [c, d]

# good (sometimes)
class FooOutput:
    def __init__(self, sum_var, mult_var):
        self.sum_var = sum_var
        self.mult_var = mult_var
        
def foo_good(a, b):
    c = a + b
    d = a * b
    return FooOutput(sum_var=c, mult_var=d)

print(foo_bad(1,2))

foo_output = foo_good(1,2)
foo_output[0]
print(foo_output.sum_var)
print(foo_output.mult_var)

[3, 2]
3
2


# 4. Инструменты


## Virtual environment (вирутальное окружение)

* **MUST HAVE**
* суть в создании абстрагированного от системы интепретатора питона под проект
* (нарисовать на доске)
* (показать пример в консоли)

## PyCharm
IDE от JetBrains

* debug
* version control system
* code templates
* быстрая документация к функциям
* подсказки для библиотек
* интрументы для работы с БД
* интерактивная консоль (в том числе поддержка IPython Notebook)
* удалённый интепретатор! Чтобы дебажить\тестить код, когда он уже развёрнут на Amazon машине



# 5. Тесты (автоматические)

## Модульные

* отвечают на вопрос "работает ли этот небольшой участок кода?"
* обычно работают в трёх понятиях: 
    * **target** - объект\функция, которая тестируется
    * **expected** - ожидаемый аутпут
    * **actual** - действительный аутпут
* проверяют, соответствует ли **actual** **expected**
* могут существовать без **expected** в полном виде - например, можно проверять, что количество элементов в массиве такое как мы ожидаем; или что были созданы необходимые папки; и т.д.

In [17]:
import unittest

def foo(a, b):
    return a + b

class TestCase(unittest.TestCase):
    def test_foo(self):
        a = 3
        b = 2
        expected = 5
        actual = foo(a, b)
        self.assertEqual(expected, actual)


In [13]:
import unittest

import pandas as pd
from pandas.util.testing import assert_frame_equal

from brightbox.core.tools import calculate_weights
from brightbox.test.helper import prepare_df_to_compare, assert_frame_equal_easy
from brightbox.core.constants import FIELD_LAT_BIN, FIELD_LON_BIN, FIELD_CITY_POSIX, FIELD_DATE, \
    FIELD_DEVICE, FIELD_WEIGHT_HOUR_VALUE, FIELD_FILTER_COMB_ID, FIELD_WEIGHT_UNIQUE, FIELD_WEIGHT, \
    FIELD_QUAD_KEY


class TestCase(unittest.TestCase):
    def test_calculate_weights(self):
        test_input = get_input_test_data()
        expected = get_calculate_weights_output()
        actual = calculate_weights(test_input)
        assert_frame_equal(expected.sort_index(axis=1), actual.sort_index(axis=1))

def get_input_test_data():
    data_test = pd.DataFrame({FIELD_LAT_BIN: [1, 1, 3, 4, 5],

                              FIELD_LON_BIN: [1, 1, 3, 4, 5],

                              FIELD_CITY_POSIX: [86400, 86400, 2, 2, 345],

                              FIELD_DATE: ['2015-12-18', '2015-12-17', '2015-12-16', '2015-12-10',
                                           '2015-11-01'],

                              FIELD_DEVICE: pd.Categorical(
                                  ['device1', 'device1', 'device2', 'device2',
                                   'device3']),

                              FIELD_WEIGHT_HOUR_VALUE: [1, 1, 2, 1, 1],
                              FIELD_FILTER_COMB_ID: [1, 1, 1, 2, 1],
                              FIELD_QUAD_KEY: pd.Categorical(
                                  ['12222222121121122', '12222222121121122', '12222212221222122',
                                   '12222212112112220', '12222211122211102'])})
    return data_test

def get_calculate_weights_output():
    data_test = pd.DataFrame({FIELD_LAT_BIN: [1, 3, 4, 5],

                              FIELD_LON_BIN: [1, 3, 4, 5],

                              FIELD_WEIGHT: [2, 2, 1, 1],

                              FIELD_WEIGHT_UNIQUE: [1, 1, 1, 1],

                              FIELD_FILTER_COMB_ID: [1, 1, 2, 1],

                              FIELD_QUAD_KEY: pd.Categorical(
                                  ['12222222121121122', '12222212221222122', '12222212112112220',
                                   '12222211122211102'])})
    return data_test


ImportError: No module named 'pandas'

## Интеграционные 

* проверяют, что множество компонентов работают вместе (в нашей интерпретации)
* это, например, может быть тестом пайплайна
* главная задача теста - убедиться, что не возникает ошибок в ходе пайплайна, то есть что он вообще работает

![](./files/UnitTest_en.png)

# The end

![](./files/20004519.jpg)