# Модель данных. Тестирование

Алексей Умнов https://www.youtube.com/watch?v=wbigj-HsTt4  
Слайды доступны по адресу: http://parallels.nsu.ru/~fat/Python/

## Модель данных

Все данные в программе - объекты:
* Числа, строки, списки
* Классы, функции

Основные свойства объектов:
* Идентичность (identity)
  * ~ адрес в памяти
  * Не может изменяться
  * методы и операторы идентичности - id(), is, is not
* Тип (type)
  * Возможные операции и значения
  * Не может изменяться
  * type()
* Значение (value)
  * Текущее состояние объекта
  * ~ состояние памяти
  * Изменяемость (mutabbility) зависит от типа

## Идентичность объектов

Проверка объектов на идентичность. Идентичность строки сравнивается по значению!!!

In [2]:
s1 = 'str'
s2 = 'str'

print(id(s1))
print(id(s2))

139738089109408
139738089109408


In [3]:
if s2 is s1:
    print('Yes, objects "s1" and "s2" identity: s1=' + s1, 's2=' + s2)
else:
    print('No, objects "s1" and "s2: not identity: s1=' + s1, 's2=' + s2)

Yes, objects "s1" and "s2" identity: s1=str s2=str


Проверка на идентичность. Идентичность не по значению:

In [4]:
class A():
    pass

class B():
    pass

a = A()
b = B()

print(id(a))
print(id(b))

139737970218432
139737970218376


In [5]:
if a is b:
    print('Yes, objects "a" and "b" identity')
else:
    print('No, objects "a" and "b" not identity')

No, objects "a" and "b" not identity


In [6]:
x = 1  # Создан объект типа int() со значением 1 и ему присвоена переменная x
x = [] # Создан объект типа list() и ему присвоена переменная x

Во втором присваивании объект типа `int()` не был изменен, он был утерян присваиванием другого типа. Утерянные или потерявшие связь объекты Python удаляет автоматически из памяти. Переменные могут менять тип, а сам тип менять идентичность и тип не может.

Когда мы присваиваем `x = 1` это выглядит примерно так:

```
var (name & link)               object (type & value)
     | x |---------| ссылка |--------->| 1 |
```

В Python все значения переменных хранятся по ссылке, переменная не может хранить значение без ссылки на объект.

In [7]:
x = 1
y = x    # 'y' ссылается на идентичный объект, что и переменная 'x'

if y is x:
    print('Yes, x and y identity: x=' + str(id(x)), 'y=' + str(id(y)))

Yes, x and y identity: x=10935488 y=10935488


## Изменяемый тип объектов

In [12]:
def print_id(x, y):
    "Это вспомогательная функция для демонстрации примеров"
    print('x=' + str(x), 'y=' + str(y), 
          'identity=' + str(id(x) == id(y)),
          '(x_id:' + str(id(x)), 'y_id: ' + str(id(y)) + ')')

Значение объектов может меняться:

In [13]:
x = [1, 2] # 'x' ссылается на объект типа list() со значениями [1, 2]
y = x      # 'y' ссылается на тот же объект, что и переменная 'x'
y += [3]   # Добавим новый элемент в список через переменную 'y'

# Переменные 'x' и 'y' имеют идентичное значение, так как ссылаются на один и тот же объект в памяти:
print_id(x, y)

x=[1, 2, 3] y=[1, 2, 3] identity=True (x_id:139737969723272 y_id: 139737969723272)


Аналогично, изменяя объект через переменную `x`, переменная `y` будет также выводить идентичные значения:

In [14]:
x[0] = 0

print_id(x, y)

x=[0, 2, 3] y=[0, 2, 3] identity=True (x_id:139737969723272 y_id: 139737969723272)


## Неизменяемый тип объектов

### Некоторые операции не допустимы

Например, можно создать объект типа `tuple()`, а при попытке изменить его значение вызовется ошибка:

In [15]:
x = (1, 2)

x[0] = 0

TypeError: 'tuple' object does not support item assignment

### Некоторые операции создают новый объект

Например, создадим объект `tuple()` и присвоим ему переменную `x`:

In [17]:
x = (1, 2)
y = x

print_id(x, y)

x=(1, 2) y=(1, 2) identity=True (x_id:139737987813128 y_id: 139737987813128)


А теперь попробуем добавить новый элемент:

In [18]:
y += (3,)

print_id(x, y)

x=(1, 2) y=(1, 2, 3) identity=False (x_id:139737987813128 y_id: 139737970015976)


Что произошло?  
Переменные `x` и `y` теперь ссылаются на разные объекты.  
Так как объект на который ссылается переменная `x` изменить нельзя, то при попытке изменить его через переменную `y`, был создан новый объект с копированием значений из первого объекта и присвоением нового третьего элемента другого объекта.

## Контейнеры и изменяемость

Контейнеры - объекты со ссылками на другие объекты. Например: списки, словари, классы.

Пример 1:

In [19]:
x = [1, 2]    # Изменяемый тип
y = ('a', x)  # В неизменяемый тип tuple() поместили строку 'a' и изменяемый! объект 'x'

print(y)

('a', [1, 2])


Что это значит? Объект `y` не изменяемый тип, но возможность изменить элементы объекта `x` сохраняются:

In [20]:
x[0] = 0

print(y)

('a', [0, 2])


Таким образом, в объекте типа `tuple()` находятся только ссылки на объекты, и они не могут быть изменены на другие объекты. Хороший пример иллюстрирующий суть ссылок и объектов:

In [22]:
row = [''] * 3 # Создаются 3 объекта типа str() в списке с одинаковым значением

print(row)
print('ID row[0] =', id(row[0]))
print('ID row[1] =', id(row[1]))
print('ID row[2] =', id(row[2]))
print('ID row =', id(row))

['', '', '']
ID row[0] = 139738089015984
ID row[1] = 139738089015984
ID row[2] = 139738089015984
ID row = 139738003035272


In [23]:
board = [row] * 3   # Создаются 3 ссылки на объект row

print(board)
print('ID board[0] =', id(board[0]))
print('ID board[1] =', id(board[1]))
print('ID board[2] =', id(board[2]))
print('ID board =', id(board))

[['', '', ''], ['', '', ''], ['', '', '']]
ID board[0] = 139738003035272
ID board[1] = 139738003035272
ID board[2] = 139738003035272
ID board = 139737970042056


Поэтому, изменение по адресу `[0][0]` отражается сразу в 3-х ссылках на объект `row` которые принадлежат объекту `board`:

In [24]:
print(board)

board[0][0] = 'X'

print(board)

[['', '', ''], ['', '', ''], ['', '', '']]
[['X', '', ''], ['X', '', ''], ['X', '', '']]


## Аргументы функций

Если `l` это тип `list()`, то запись `('a', 'b')` преобразуется к типу `list()` и значения объединятся.  
Если `l` это тип `tuple()`, тогда создастся новый объект типа `tuple()` и значения в нем объединятся из двух объектов.

In [31]:
def f(l):
    print('id before change =', id(l))
    l += ('a', 'b')
    print('id after change =', id(l))
    return l

x = [1, 2]

# Вернулась ссылка 'l' из функции
print(f(x))

# Объект не изменился, изменились значения, так как в функцию пришла ссылка на изменяемый объект
print(x)

id before change = 139737970165064
id after change = 139737970165064
[1, 2, 'a', 'b']
[1, 2, 'a', 'b']


ID объекта у переменной `x` осталось прежним, так как объект `list()` это изменяемый объект.  
Присваивание в функции в виде записи типа `tuple()` было преобразовано к типу `list()`.

Другой пример:

In [32]:
y = (1, 2)

# Вернулась ссылка 'l' из функции.
# Здесь вернулся новый объект, так как тип tuple() переданный в функцию является неизменяемым типом:
print(f(y))

# Объект у переменной 'y' не изменился, так как в функции был создан новый объект:
print(y)

id before change = 139737988137096
id after change = 139737969620056
(1, 2, 'a', 'b')
(1, 2)


## Изменяемые и неизменяемые типы данных

| Изменяемые | Неизменяемые |
|------------|--------------|
| list       | int          |
| dict       | float        |
| set        | complex      |
|            | bool         |
|            | str          |
|            | tuple        |
|            | frozenset    |

In [33]:
x = 1

print('x id =', id(x))

x id = 10935488


Числа являются неизменяемым объектом, поэтому создается новый объект типа `int()` и в него помещается результат вычисления:

In [34]:
x += 1

print('x id =', id(x))

x id = 10935520


Переменная `x` уже указывает на другой объект, а объект с первоначальным ID будет уничтожен Python'ом.  
Если мы зарегистрируем новую переменную со значением равным переменной `x`, то они **обе будут ссылаться на один и тот же объект!**

In [35]:
y = 2

print('y id =', id(y))
print_id(x, y)

y id = 10935520
x=2 y=2 identity=True (x_id:10935520 y_id: 10935520)


Почему так происходит? Ответ в оптимизации Python значений переменных которые равны до значения 256.

## Конкатенация строк

Как долго первый вариант кода будет работать?

### Вариант 1:

In [44]:
text = 'Василий'
s = ''

print('s =', s, 'id =', id(s))

for i in text:
    # Каждый раз создается новый объект (это может быть не так в реализации CPython)
    # и ему присваивается ссылка 's':
    s += i
    print('s =', s, 'id =', id(s))

s =  id = 139738089015984
s = В id = 139737969678896
s = Ва id = 139737969204800
s = Вас id = 139737969201360
s = Васи id = 139737970227224
s = Васил id = 139737969214632
s = Васили id = 139737969215160
s = Василий id = 139737969215248


Как поправить производительность кода? Например, так:

### Вариант 2:

In [45]:
parts = [] # Создаем изменяемый объект типа list()

for a in text:
    # Добавляем символы в один и тот же объект.
    # Метод append() в Python реализован эффективней, чем обычная конкатенация строк:
    parts.append(a)
    print('parts id =', id(parts))

s = ''.join(parts)  # Создаем объект типа str() из объекта типа list()

print('s =', s, 'id =', id(s))

parts id = 139737969705224
parts id = 139737969705224
parts id = 139737969705224
parts id = 139737969705224
parts id = 139737969705224
parts id = 139737969705224
parts id = 139737969705224
s = Василий id = 139737969561512


В реализации CPython:

* В первом варианте создалось 8 объектов для переменной `s`
* Во втором варианте создалось 2 объекта, один для переменной `parts` и один для `s`

## Копирование

Задача: скопировать старый объект в новый объект

Неизменяемые объекты:
* Использовать оператор присваивания: `y = x`
* Фактически это не будет копированием, потому что новое имя переменной будет ссылаться на тот же объект, что и первая переменная.
* Python'у нет необходимости дублировать объект, который и так является неизменным

Изменяемые объекты:
* Использовать модуль `copy`: `copy`, `deepcopy`
* Функция `copy` - не глубокое копирование.
* Функция `deepcopy` - глубокое копирование. Циклично копирует в контейнере по ссылкам объекты

## Словари и множества

`dict()` и `set()`

Ключами могут быть только хэшируемые объекты. Что такое хэш? Хэш это какое-то целое число вычисленное функцией `hash()`. Хэш нужен для того, чтобы быстро обрабатывать операции сравнения. У каждого объекта есть хэш и он не должен меняться, т.е. он у объекта всегда один.

Объекты <--> Целые числа

Если `x == y`, то `hash(x) == hash(y)`

`list`, `dict`, `set` - нехэшируемые объекты, их нельзя указать в качестве ключей в `dict`, `set`.

In [48]:
class C():
    pass

c = C()         # Создается экземпляр класса
print(hash(c))

d = {c: 'a'}    # Ключ в словаре как пользовательский объект класса 'С'
print(d)

c.x = 1         # 'с' это изменяемый объект, регистрируем в нем атрибут 'x' со значением 1
print(hash(c))  # Хэш объекта не изменился

8733623110187
{<__main__.C object at 0x7f17480ca2b0>: 'a'}
8733623110187


Сравнение и хэш по умолчанию:

`x == y` эквивалентно `id(x) == id(y)`  
`hash(x)` определяется по `id(x)`

In [49]:
x = C()       # Создается экземпляр класса
y = C()       # Создается новый экземпляр класса

print(x == y) # False. Объекты не равны. Это два разных объекта

False


ID и хэш у объектов разные:

In [50]:
print('x id =', id(x), 'hash =', hash(x))
print('y id =', id(y), 'hash =', hash(y))

x id = 139737969763720 hash = -9223363303231665576
y id = 139737969764280 hash = -9223363303231665541


Если добавить/изменить какие-то атрибуты объекта, то хэш его не изменится:

In [51]:
x.a = 1 # Добавляется атрибут 'a' со значением 1

print('x id =', id(x), 'hash =', hash(x))
print('y id =', id(y), 'hash =', hash(y))

x id = 139737969763720 hash = -9223363303231665576
y id = 139737969764280 hash = -9223363303231665541


## Синглтон

Синглтоном называется такой класс, у которого может существовать только один экземпляр объекта.

Пример: `None`  
Это синглтон. Если написать `x = None` и `y = None`, то обе переменных будут ссылаться на один и тот же объект:

In [52]:
x = None
y = None

print(x is y)

True


## Сборщик мусора

В Python есть свой сборщик мусора (Garbage Collector), который имеет свойства:
* **Подсчет кол-ва ссылок** - Для каждого созданного объекта считается сколько переменных на него ссылается
* **Удаление объектов** - Когда счетчик достигает значения 0, то это означает, что объект уже не нужен, и может быть удален из памяти. Удаление происходит не сразу. Существуют менеджеры контекстов, которые умеют открыть файл и закрыть его в конкретный момент времени. Например оператор `with`, гарантирует, что по выходу из контекста будут вызваны операции, в данном конкретном случае закрытие файла и освобождение всех соответствующих ресурсов:
```
with open('path/to/file') as f:
    ...
```                           
* **Циклические ссылки** - Обнаруживает цикличность. Пример ниже:

In [53]:
x = []
y = [x]

print(x)
print(y)

x.append(y)

print(x)
print(y)

[]
[[]]
[[[...]]]
[[[...]]]


## Байт-код

Выполнение скрипта состоит из 2-х шагов:
* Компиляция в байт-код (файлы с раширением *.pyc)
* Исполнение байт-кода

Модуль dis (CPython)

## Библиотеки

* Стандартные библиотеки
* Огромный набор внешних библиотек:
  * PyPI (the Python Package Index) - Это сервис пользовательских библиотек. С этим сервисом работает утилита `pip`, например:

````bash
pip install some_package
pip install --upgrade another_package
````

## Тестирование

Юнит-тесты

Общая идея:
* Разбивать код на независимые части (юниты)
* Тестировать каждую часть отдельно

Преимущества:
* Нужно меньше тестов
* Проще отлаживать

Рассмотрим несколько способов юнит-тестирования.

### Тесты вручную

In [55]:
def factorial(n):
    current = 1
    for i in range(1, n + 1):
        current *= i
    return current


# Напишем для функции factorial() тестовые функции и запустим их:
def test_1():
    return factorial(1) == 1
def test_2():
    return factorial(5) == 120

if not (test_1() and test_2()):
    print('Tests failed!')

### Тесты с помощью модуля unittest

Возможности `unittest`:
* Отчеты (сколько сломалось, что сломалось)
* В чем проблема (assertEqual(), assertTrue(), assertIn(), ...)
* Поиск тестов в директории

In [57]:
import unittest

class TestFactorial(unittest.TestCase):
    
    # Методы должны называться с префиксом test*
    def test_1(self):
        self.assertEqual(factorial(1), 1)

    def test_2(self):
        self.assertEqual(factorial(5), 120)

    # Проверка исключений
    def test_float():
        with self.assertRaises(TypeError):
            factorial(2.5)

    def test_str():
        with self.assertRaises(TypeError):
            factorial('qwerty')


# unittest.main() # Запускаем тесты

### Тесты с помощью модуля pytest

Этот модуль не включен в стандартную библиотеку, но её легко установить с помощью `pip`.

In [58]:
def test_1():
    assert factorial(1) == 1

def test_2():
    assert factorial(5) == 120

# $ py.test <filename>

## Проверка кода

Оператор `assert` - Проверка корректности "на лету":

````python
assert CONDITION, TEXT
````

Если выражение возвращает `True`, то `assert` ничего не делает, а если выражение возвращает `False`, то `assert` генерирует исключение `AssertionError` с текстом указанным вторым аргументом. Конструкция `assert` эквивалентна следующей записи:

````python
if not CONDITION:
    raise AssertionError(TEXT)
````

In [59]:
def test_assert(n):
    # ... Здесь какой-то код
    assert n > 1, "My description on error"

test_assert(1)

AssertionError: My description on error

Использование assert:
* В корректной программе не срабатывает
* Обычно не используется для проверки аргументов, их лучше обрабатывать с помощью обычных исключений
* Отражают инварианты программы
* Есть опция, отключающая их проверку для ускорения работы. Т.е., интепретатор проигнорирует их, отключит их. assert не надо опасаться писать в большом количестве

Утилиты для проверки

(Проверка кода без выполнения)
* pep8.py
* PyChecker
* PyFlakes
* pylint
* (IDE PyCharm)