# Содержание<a name="0"></a>

1. [Чтение сообщений об ошибках](#1)
2. [Исключения](#2)
3. [Стэк вызова](#3)
4. [Что такое исключение](#4)
5. [Обработка исключений](#5)
6. [Осознанная обработка исключений](#6)
7. [Иерархия исключений](#7)
8. [Детали try-except](#8)
9. [Отладка: введение](#9)
10. [Отладка исключений](#10)
11. [Отладка через print](#11)
12. [Отлов багов](#12)
13. [Смысл тестирования](#13)
14. [V-мера. Практика](#14)
15. [Автоматическое тестирование](#15)
16. [Типы тестов](#16)

---

# Чтение сообщений об ошибках<a name="1"></a>

**Программа** — набор **инструкций**, которые мы отправляем интерпретатору. Когда интерпретатор не понимает наших инструкций, он сообщает об этом. В сообщениях об ошибках в *Python* содержится много полезной информации, и правильно их читать — полезный навык.

Мы допустили **синтаксическую ошибку** и получили сообщение:

In [3]:
print("hello') 

SyntaxError: EOL while scanning string literal (<ipython-input-3-f67a3b4ec1d7>, line 1)

На что стоит обратить внимание:

* Сообщение начинается с **названия файла**, где допущена ошибка. В примере это ячейка из *Jupyter*, поэтому название является техническим. Если вы собираете проект из многих файлов, то здесь будет имя соответствующего файла.
* После названия файла идёт **номер строки** с ошибкой, в данном случае — первая строка (line 1).
* Дальше выводится **строка** из кода, так что вы сразу можете оценить, что пошло не так.
* В конце указывается, что это была синтаксическая ошибка (**SyntaxError**), и идёт пояснительное сообщение. У разных синтаксических ошибок пояснительное сообщение разное и обычно позволяет понять, как исправить ошибку.  

Лучше начинать чтение сообщения с конца, чтобы понять, на что жалуется интерпретатор, а потом уже смотреть, где именно.

[К содержанию](#0)

---

# Исключения<a name="2"></a>

**Синтаксические ошибки** исправлять проще всего: это небольшие **опечатки**, и даже если мы их допустили, часто они находятся в одной строчке, на которую нам указывает интерпретатор. Более интересный класс ошибок — **исключения**, неудачные сочетания логики и данных:

In [4]:
a = 5 / 0  

ZeroDivisionError: division by zero

Мы стали делить на ноль, и *Python* вывел сообщение об ошибке, так же как и с синтаксической ошибкой:

* название исключения (**ZeroDivisionError**);
* файл, номер строки и сама строка с ошибкой;
* название исключения повторяется и добавляется поясняющее сообщение *division by zero*.  

Если ошибка будет в другом, название исключения и поясняющее сообщение изменится:

In [5]:
dictionary = {"cheboksary": "city", "cheburek": "food"}  
dictionary["cheburshka"] 

KeyError: 'cheburshka'

В этом примере мы получили **KeyError** — отсутствующий **ключ** в словаре и сам ключ.

[К содержанию](#0)

---

# Стэк вызова<a name="3"></a>

Мы говорили, что в сообщении об ошибке указывается **файл** и **номер строки**, где она случилась. На самом деле указывается **стэк вызова (Traceback)**. Это весь путь, который проходит интерпретатор до того, как встретил ошибку. Посмотрим на примере: программа генерирует номера домов на улице, добавляя номер дома к названию улицы:

In [6]:
# адрес одного дома  
def house_address(street, number):  
    return street + ' ' + number   
  
# адреса домов на улице  
def street(street_name, last_house):  
    addresses = []  
    for i in range(last_house):  
        addresses.append(house_address(street_name, i+1))  
    return addresses   
  
street("Tverskaya", 7)  

TypeError: can only concatenate str (not "int") to str

Мы сначала вызвали **функцию street**, которая воспользовалась **house_address**, где уже закралась ошибка. Сообщение большое и может казаться неподъёмным, но это просто **список** всех наших функций с их местоположением и кодом, приведённый в том порядке, как мы их вызывали:

* вызов *street* на 12-ой строчке;
* вызов *house_address* внутри street на 9-ой;
* ошибка на 3-ей строчке;
* интерпретатор получил число там, где ожидал строку.  

Мы пытаемся сложить **строку street** с **числом number**. Достаточно поменять street + ' ' + number на форматированную строку f"{street} {number}", чтобы программа корректно заработала.

### Зачем такой стэк

Зачем нам предыдущие шаги в стэке вызова, если в конце показывается истинное место ошибки? Причины две:

* Одна и та же функция может вызваться в разных местах с разными данными: полный путь помогает понять контекст.
* Вы пользуетесь сторонней библиотекой и некорректно применили функцию из неё: тогда ошибка может уйти глубже, и в конце стэка будут показываться нерелеватные внутренности библиотеки, а нужная функция будет в середине стэка.

[К содержанию](#0)

---

# Что такое исключение<a name="4"></a>

При ошибках *Python* генерирует исключения: разберёмся, что это такое и откуда они берутся. **Исключения** — это ещё один тип данных, как строки или числа.

In [7]:
print(type("Skillfactory"))   
print(type(42))  
print(type(ValueError()))   

<class 'str'>
<class 'int'>
<class 'ValueError'>


Когда программа встречает некорректные ситуации, она выбрасывает исключения. Для базовых случаев это делает сам **интерпретатор**, но могут делать и авторы библиотек и программ в определённых ситуациях. Для этого есть специальный синтаксис **raise Exception()**.

In [8]:
raise RuntimeError()

RuntimeError: 

Зачем специально **генерировать ошибку** в собственном коде? Для того, чтобы писать более **предсказуемый код**, во многих ситуациях выбросить ошибку лучше, чем работать с некорректными данными. Выбрасывание исключений является повсеместной практикой в *Python* и других языках программирования.

Давайте посмотрим на примере: у вас есть функция, которая сортирует объекты и делает разные действия. Пусть она сортирует фрукты на яблоки и апельсины:

In [9]:
def show_fruit(fruit):  
    if fruit == "apple":  
        print("Ready to eat")  
    elif fruit == "orange":  
        print("You need to peel first")  
        
show_fruit("apple")

Ready to eat


Что произойдёт, если мы вызовем эту функцию для морковки? Ничего: мы некорректно использовали функцию, и она нам позволила это сделать. Более корректно было бы выбросить ошибку:

In [10]:
def show_fruit(fruit):  
    if fruit == "apple":  
        print("Ready to eat")  
    elif fruit == "orange":  
        print("You need to peel first")  
    else:  
        raise ValueError()  

show_fruit("apple")   
show_fruit("carrot")  

Ready to eat


ValueError: 

Здесь мы выбросили **ошибку значения** для некорректных данных (**ValueError**), но ошибка не информативная. Мы можем добавить поясняющее сообщение в скобках, чтобы было проще понять причину.

In [11]:
def show_fruit(fruit):  
    if fruit == "apple":  
        print("Ready to eat")  
    elif fruit == "orange":  
        print("You need to peel first")  
    else:  
        raise ValueError("You need to pass correct fruit")  

show_fruit("apple")  
show_fruit("carrot")  

Ready to eat


ValueError: You need to pass correct fruit

В последней строчке у нас добавилось **пояснение**, что мы передали какой-то некорректный фрукт. В Python достаточно много встроенных типов исключений. Вы можете посмотреть их в [документации к языку](https://docs.python.org/3/library/exceptions.html) и выбирать подходящий по смыслу для вашей ситуации.

### Задачи

Напишие текст, который выведется на последней строке при исполнении программы:

In [12]:
def preprocess_data(data, mode):
    if mode == "to_number":
        return [float(value) for value in data]
    elif mode == "to_str":
        return [str(value) for value in data]
    else:
        raise ValueError("Incorrect mode")
        
preprocess_data({"price": 100}, "to_array")

ValueError: Incorrect mode

Определите функцию check_server, которая принимает на вход переменную mode.

* Если mode имеет значение "memory", программа должна вернуть строку "Memory is ok".
* Если mode имеет значение "connection", программа должна вернуть строку "Connection is ok".
* Для остальных случае программа должна выбросить исключение ValueError.

In [18]:
def check_server(mode):  
    if mode == "memory":  
        return "Memory is ok" 
    elif mode == "connection":  
        return "Connection is ok" 
    else:  
        raise ValueError()

[К содержанию](#0)

---

# Обработка исключений<a name="5"></a>

Мы научились выбрасывать исключения, и потенциально это ломает программу. Очевидный способ избавиться от этого — **исправить ошибку**, но бывают ситуации, когда мы не вполне контролируем данные, например, пользовательский ввод или большая база данных с небольшим количеством искаженных данных. Изредка мы всё-таки будем получать **исключения**, и нам надо с этим как-то работать.

Для этой цели мы можем воспользоваться блоком **отработки исключений** — **try-except**. Он позволяет отрабатывать исключения, не прерывая хода программы. Без блока *try-except* в примере мы бы получили **KeyError**, здесь же мы печатаем строку **Oops, key not found** и продолжаем выполнение программы.

In [19]:
dictionary = {}  
try:  
    dictionary["no_key"]  
except:  
    print("Oops, key not found")  

print("End of program")  

Oops, key not found
End of program


Если более формально, то мы пробуем выполнить часть программы, которая находится внутри **try**. Если эта часть кода выбрасывает исключение, то мы сразу переходим к выполнению части внутри **except**. Если же исключение не выбрасывается, то мы пропускаем часть внутри *except*. В любом случае мы выполняем программу дальше, как обычно.

[К содержанию](#0)

---

# Осознанная обработка исключений<a name="6"></a>

Общая идея использования **try-except** такая:

* вы знаете, что у вас может возникнуть исключение, и не можете его полностью избежать;
* вы "отлавливаете" эти исключения, а в блок **except** помещаете логику, которая позволит вам из этой ситуации корректно выйти.  

Когда мы вызываем **raise**, то делаем подачу: тут какие-то не такие данные, нужно исправить. Когда мы обрабатываем исключения через **try-except**, то принимаем: да, данные неидеальные, но я об этом подумал. Проблема в том, что с обычным **try-except** можно "отловить" не только те исключения, на которые мы рассчитывали. 

Посмотрим на примере: у нас есть программа, которая отрабатывает очень **большую базу данных**, и мы бы хотели, чтобы была возможность корректно прервать её с клавиатуры. Код мог бы выглядеть как-то так:

In [20]:
try:  
    # запускаем программу отработки базы данных  
    process(db)   
except:  
    # если с клавиатуры пришло прерывание, то корректно останавливаем процесс  
    gently_close(db)  

NameError: name 'gently_close' is not defined

При остановке с клавиатуры мы получаем исключение **KeyInterrupt**, так что мы идём в блок **except** и корректно закрываем базу данных. Проблема в том, что *except* "отловит" и другие исключения, например, ошибку отсутствующего ключа или таймаута, что усложнит для нас обнаружение и исправление этих ошибок. На этот случай **try-except** позволяет указывать, какое именно исключение мы отлавливаем.

In [21]:
try:  
    process(db)   
except KeyInterrupt:  # обратите внимание, что мы добавили имя исключения после except  
    gently_close(db)  

NameError: name 'KeyInterrupt' is not defined

Так мы не пропустим случайно неожиданную ошибку. Давайте посмотрим на ещё один пример для закрепления синтаксиса:

In [23]:
dictionary = {}  
try:  
    dictionary["no_key"]  
except KeyError:  
    print("Oops, key not found")  
# => Oops, key not found  
  
dictionary = {}  
try:  
    dictionary["no_key"]  
except IOError:  
    print("Oops, key not found")  

Oops, key not found


KeyError: 'no_key'

Во втором случае мы ожидали **IOError**, но исключение было **KeyError**, поэтому программа прервалась с ошибкой. Это упростит исправление ошибки.

[К содержанию](#0)

---

# Иерархия исключений<a name="7"></a>

Исключения в *Python* имеют иерархию: у нас есть более общие и более специфичные исключения. Вот график исключений:

![image.png](attachment:image.png)

Здесь мы видим, что **KeyError** и **IndexError** являются подмножеством **LookupError**, которая является подмножеством **Exception**. На практике это имеет следующее значение: если мы укажем более верхнеуровневые исключения, то "отловятся" все **дочерние**, но не наоборот.

In [24]:
# Напишем функцию, которая может обращаться и к спискам, и к словарям  
# при этом не выбрасывая исключение для несуществующих индексов/ключей   
def safe_element(collection, place):  
    try:  
        return(collection[place])  
    except LookupError:  
        print("Key or index not found")  
  
users = ["Pavel", "Elena", "Sergey"]  
safe_element(users, 1)  
safe_element(users, 3)    
  
prices = {"apple": 10, "orange": 20}  
safe_element(prices, "apple")   
safe_element(prices, "carrot")  

Key or index not found
Key or index not found


Желательно указывать наиболее специфичное исключение. Полную иерархию можно посмотреть в [документации](https://docs.python.org/2/library/exceptions.html#exception-hierarchy).

### Задачи

Напишите программу, которая реализует безопасное сложение двух объектов x и y.

Если объекты не могут быть сложены, функция должна:

* Отловить TypeError
* Вывести на экран "Can't sum x and y", где x и y - переданные объекты
* Вернуть 0

In [27]:
def safe_sum(x, y):
    
    try:
        return x+y
    except TypeError:
        print("Can't sum x and y")
        return 0

[К содержанию](#0)

---

# Детали try-except<a name="8"></a>

Мы рассмотрели базовый синтаксис **try-except**, однако у него есть ещё несколько вариаций. Они не часто встречаются на практике, но мы о них расскажем. Иногда в блоке **except** нам нужен доступ к **самому объекту исключения**, например, мы хотим получить поясняющее сообщение и вывести его на экран, но при этом продолжить программу дальше. Мы можем это сделать с помощью **ключевого слова 'as'**, за которым идёт имя новой переменной.

In [28]:
try:  
    5/0  
except ZeroDivisionError as zero_error:  
    # здесь в zero_error мы получаем сам объект исключения  
    # print как раз выведет его поясняющее сообщение  
    print(zero_error)  

print("Program ends correctly")  

division by zero
Program ends correctly


Ещё один распространённый подход: мы совершаем какое-то промежуточное действие, а потом перевыбрасываем исключение.

In [29]:
# Пусть у нас есть функция, которая шлёт емейл разработчику об ошибке  
def notify_admin(error):  
    print("Mail to administrator has been sent about", error)  
      
value = "poem"  
try:  
    digitized = int(value)  
except ValueError as digitized_error:  
    notify_admin(digitized_error)  
    raise digitized_error

Mail to administrator has been sent about invalid literal for int() with base 10: 'poem'


ValueError: invalid literal for int() with base 10: 'poem'

Обратите внимание, что в начале ошибки есть **уведомление** о том, что email отправлен. Еще одна полезная функция: для одного **try** вы можете писать сразу много **except** на разные исключения.

In [30]:
try:  
    # открываем файл и считываем строку  
    data_file = open("valuble_data.txt")  
    s = data_file.readline()  
    # пробуем преобразовать её в число  
    i = float(s.strip())  
except OSError as err:  
    # если файла нет или его не удаётся прочитать, мы получил ошибку операционной системы   
    print("OS error: {0}".format(err))  
except ValueError:  
    # если данные не преобразуется в число, мы получим ValueError  
    print("Could not convert data to float")  

OS error: [Errno 2] No such file or directory: 'valuble_data.txt'


У try-except есть блоки **else** и **finally**; первый выполняется в случае, если мы не встретили исключение в try, и используется в основном для написания чуть более чистого кода. **Finally** выполняется в любом случае, даже если возникло непредвиденное исключение или выход с помощью **return**. Обычно используется для корректного освобождения ресурсов, например, закрытия файлов.

Надеемся, что система исключения для вас стала более понятной, и вы сможете более свободно работать с ошибками.

[К содержанию](#0)

---

# Отладка: введение<a name="9"></a>

В этом разделе мы обсудим подходы, которые помогают быстрее найти и исправить ошибки. Приведённые методы хорошо зарекомендовали себя на практике. Тем не менее единого метода, который бы работал всегда, нет, и разнообразие видов ошибок превращает **отладку** в настоящее искусство. Научиться определять необходимый метод вы сможете со временем.

**Ошибки** можно условно поделить на **два класса**:

* **явные**, которые выбрасывают исключение;
* **неявные (баги)**: программа формально работает, но есть какой-то изъян в логике, так что вы получаете не то, что хотели.  

Для примеров в этом разделе мы будем использовать датасет о фильмах с imdb. В датасете указана основная информация: сборы, год выпуска и т.д. Первые строки датасета:

In [31]:
import pandas as pd
movies = pd.read_csv('imdb.csv')

### ЗАДАЧИ

В каком году вышел фильм Suicide Squad, информация о котором есть в датасете imdb?

In [32]:
movies[movies['Title'] == 'Suicide Squad']['Year']

4    2016
Name: Year, dtype: int64

[К содержанию](#0)

---

# Отладка исключений<a name="10"></a>

Разберёмся с **явными** ошибками, они гораздо проще в исправлении. Для начала нужно прочитать **сообщение об ошибке**: смотрим на тип исключения и поясняющее сообщение, чтобы понять природу ошибки, затем на стэк вызова, чтобы определить место, где она возникла, и само содержание строки.

In [33]:
# для примера попробуем написать функцию, которая печатает первые 5 строчек csv файла с нашими данными  
import csv  
  
# открываем файл  
with open("imdb.csv", newline="") as csvfile:  
    # делаем reader, который построчно берёт данные из файла  
    reader = csv.reader(csvfile)  
    for i in xrange(5):  
        print(next(reader))  

NameError: name 'xrange' is not defined

Дальше мы смотрим на **исключение** и поясняющее сообщение NameError: name 'xrange' is not defined. В стэке вызова мы видим, что это имя использовалось в 8-ой строчке. **Хrange** было функцией в **Python2**, но в **Python3** её переименовали в **range**. Исправим это:

In [34]:
import csv  
  
with open("imdb.csv", newline="") as csvfile:  
    reader = csv.reader(csvfile)  
    for i in range(5):  
        print(next(reader))  

['Rank', 'Title', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)', 'Metascore']
['1', 'Guardians of the Galaxy', 'Action,Adventure,Sci-Fi', 'A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'James Gunn', 'Chris Pratt, Vin Diesel, Bradley Cooper, Zoe Saldana', '2014', '121', '8.1', '757074', '333.13', '76']
['2', 'Prometheus', 'Adventure,Mystery,Sci-Fi', 'Following clues to the origin of mankind, a team finds a structure on a distant moon, but they soon realize they are not alone.', 'Ridley Scott', 'Noomi Rapace, Logan Marshall-Green, Michael Fassbender, Charlize Theron', '2012', '124', '7', '485820', '126.46', '65']
['3', 'Split', 'Horror,Thriller', 'Three girls are kidnapped by a man with a diagnosed 23 distinct personalities. They must try to escape before the apparent emergence of a frightful new 24th.', 'M. Night Shyamalan', 'James McAv

[К содержанию](#0)

---

# Отладка через print<a name="11"></a>

Внимательное чтение сообщения уже должно решить большую часть явных ошибок с **выбрасываемым исключением**. Если случай более запутанный, и сходу разрешить его не удалось, ключевое здесь — понять, на **каких данных** ваш код не работает. В базовом варианте можно использовать **print**.

Выведите все релевантные данные до строки, где возникла ошибка, и подумайте, что с этими данными могло пойти не так:

In [35]:
# Теперь попробуем поместить данные в некое подобие таблицы.  
# У нас будет словарь, где ключами будут имена столбцов, а значениями - списки с данными   
import csv  


# функция, которая делает таблицу по данным из reader  
def build_table(reader):  
    table = {}  
    # инициализируем столбцы  
    headers = next(reader)  
    for header in headers:  
        table[header] = []  
          
    # считываем данные      
    for row in reader:  
        for header in headers:  
            table[header].append(row[header])  
              
    return table  
  
with open("imdb.csv", newline="") as csvfile:  
    # делаем reader, который построчно берёт данные из файла  
    reader = csv.reader(csvfile)  
    # строим таблицу  
    imdb_data = build_table(reader) 

TypeError: list indices must be integers or slices, not str

Мы получили **TypeError** и сообщение, что **индекс** должен быть числом в 17 строке. Сразу может быть непонятно, почему это произошло, поэтому давайте посмотрим на данные:

In [37]:
import csv  
  

def build_table(reader):  
    table = {}  
    headers = next(reader)  
    for header in headers:  
        table[header] = []  
          
    for row in reader:  
        for header in headers:  
            # Мы выводим значения всех переменных, которые задействованы в ошибочной строке  
            print("Header:", header)  
            print("Table:", table)  
            print("Row:", row)  
            table[header].append(row[header])  
              
    return table  
  
with open("imdb.csv", newline="") as csvfile:  
    reader = csv.reader(csvfile)  
    imdb_data = build_table(reader)  

Header: Rank
Table: {'Rank': [], 'Title': [], 'Genre': [], 'Description': [], 'Director': [], 'Actors': [], 'Year': [], 'Runtime (Minutes)': [], 'Rating': [], 'Votes': [], 'Revenue (Millions)': [], 'Metascore': []}
Row: ['1', 'Guardians of the Galaxy', 'Action,Adventure,Sci-Fi', 'A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'James Gunn', 'Chris Pratt, Vin Diesel, Bradley Cooper, Zoe Saldana', '2014', '121', '8.1', '757074', '333.13', '76']


TypeError: list indices must be integers or slices, not str

Вот наша строка с ошибкой: <code>table[header].append(row[header])</code>. В ней мы видим два потенциальных места, где могла произойти ошибка, — <code>table[header]</code> и <code>row[header]</code>. Смотрим на данные, **header** — это строка "**Rank**". В словаре **table** есть ключ "**Rank**", значит, ошибка не там. Но **row** является **списком**, поэтому мы должны использовать численный индекс, а не строку. Исправим программу, чтобы передавался последовательный номер заголовка, а не он сам:

In [38]:
import csv  


def build_table(reader):  
    table = {}  
    headers = next(reader)  
    for header in headers:  
        table[header] = []  
          
    for row in reader:  
        # Обратите внимание, что теперь мы используем индекс столбца, а не его имя для обращения к элементу row  
        for i, header in enumerate(headers):  
            table[header].append(row[i])  
              
    return table  
  
with open("imdb.csv", newline="") as csvfile:  
    reader = csv.reader(csvfile)  
    imdb_data = build_table(reader)  
  
  
# Выведем данные в полученной таблице  
for header, values in imdb_data.items():  
    print(header, values[:5])  

Rank ['1', '2', '3', '4', '5']
Title ['Guardians of the Galaxy', 'Prometheus', 'Split', 'Sing', 'Suicide Squad']
Genre ['Action,Adventure,Sci-Fi', 'Adventure,Mystery,Sci-Fi', 'Horror,Thriller', 'Animation,Comedy,Family', 'Action,Adventure,Fantasy']
Description ['A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'Following clues to the origin of mankind, a team finds a structure on a distant moon, but they soon realize they are not alone.', 'Three girls are kidnapped by a man with a diagnosed 23 distinct personalities. They must try to escape before the apparent emergence of a frightful new 24th.', "In a city of humanoid animals, a hustling theater impresario's attempt to save his theater with a singing competition becomes grander than he anticipates even as its finalists' find that their lives will never be the same.", 'A secret government agency recruits some of the most dangerous incarcerated super-villai

Всё работает! В конце заметим, что print выводит строку **без кавычек**, что иногда затрудняет понимание данных.

In [39]:
print(5)   
print("5")  

5
5


Быстрый способ обойти это — использовать **метод repr()**. Он старается вывести объекты так, как они бы выглядели в самом коде:

In [40]:
print(repr(5))
print(repr("5"))  

5
'5'


### Задачи

У вас есть функция, которая должна убирать дубликаты из списка и сохранять при этом порядок:

<code>remove_dups([1, 12, 4, 1, 4, 8])</code>  
<code># => [1, 12, 4, 8]</code>
    
Сейчас она не очень хорошо написана и возвращает исключение: исправьте её

<code>from copy import copy

def remove_dups(values):
    values = copy(values)
    for i in range(len(values)):
        if values[i+1] in values[i:]:
            values.remove(values[i])
    return values</code>

In [27]:
def remove_dups(values):
    temp_lst = values
    values = []
    for i in range(len(temp_lst)):
        if temp_lst[i] not in values:
            values.append(temp_lst[i])
    return values

In [29]:
remove_dups([1, 12, 4, 1, 4, 8])

[1, 12, 4, 8]

[К содержанию](#0)

---

# Отлов багов<a name="12"></a>

**Баги** — ошибки в **логике** программы, и они менее очевидны для отладки, чем явные исключения. Вы можете быть уверены, что код работает идеально, а спустя несколько дней обнаружить, что он возвращает неверные ответы. Начинать следует с определения **места ошибки**; так как сообщений об ошибке нет, то задача сводится к нахождению **аномалии** в данных. Для этого отлично подходят **дебаггеры**, и в *Python* есть встроенный — **pdb**.

![GIF](https://lms.skillfactory.ru/assets/courseware/v1/bcec03a0619c16a490847b8d8975b1df/asset-v1:Skillfactory+DST-WEEKLY-2.0+08JULY2020+type@asset+block/bears.gif)

Ранее мы использовали **print**, чтобы выводить переменные перед строкой с ошибкой. **Дебаггеры** решают примерно ту же задачу, только делают это гораздо лучше: они позволяют остановить программу посреди выполнения и посмотреть на её состояние через **интерактивную консоль**.

Чтобы поставить программу на паузу в определённом месте, вызовите **метод set_trace** на этой строчке:

In [30]:
import pdb; pdb.set_trace()  

--Call--
> [1;32mc:\users\vinogrodskiy.gb\anaconda3\lib\site-packages\ipython\core\displayhook.py[0m(252)[0;36m__call__[1;34m()[0m
[1;32m    250 [1;33m        [0msys[0m[1;33m.[0m[0mstdout[0m[1;33m.[0m[0mflush[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m    251 [1;33m[1;33m[0m[0m
[0m[1;32m--> 252 [1;33m    [1;32mdef[0m [0m__call__[0m[1;33m([0m[0mself[0m[1;33m,[0m [0mresult[0m[1;33m=[0m[1;32mNone[0m[1;33m)[0m[1;33m:[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m    253 [1;33m        """Printing with history cache management.
[0m[1;32m    254 [1;33m[1;33m[0m[0m
[0m
ipdb> continue


Когда вы запустите программу и интерпретатор дойдёт до этой строчки, у вас откроется интерактивная консоль.

**Возможности дебаггера:**

* возможно выполнение любого корректного кода в нём: вывести значения любой доступной переменной, **метод locals()** выведет локальные переменные;
* PP позволяет вывести словари и их объекты, что упрощает чтение;
* перемещение по коду: **next** выполнит следующую строку, **return** выполнит весь код до конца текущей функции и вернёт интерактивную консоль на следующей строчке, **continue** выйдет из интерактивного режима и продолжит программу.

[К содержанию](#0)

---

# Использование pdb<a name="13"></a>

В предыдущем блоке мы привели основные **команды pdb**. Полный список команд выводится по запросу **help** внутри интерактивной сессии pdb, а пока давайте посмотрим работу метода на конкретном примере. Пусть у нас есть следующая функция:

In [32]:
from collections import Counter  
  
# Считаем, сколько фильмов в каждом жанре  
def count_genres(column):  
    genres = []  
    for movie_genres in column:  
        splitted = movie_genres.split(",")  
        genres.extend(splitted)  
    counter = Counter(genres)  
      
    return counter   
   
print(count_genres(movies["Genre"]))  

Counter({'Drama': 501, 'Action': 296, 'Comedy': 277, 'Adventure': 254, 'Thriller': 189, 'Crime': 146, 'Romance': 138, 'Sci-Fi': 117, 'Horror': 117, 'Mystery': 103, 'Fantasy': 100, 'Biography': 80, 'Family': 51, 'Animation': 49, 'History': 26, 'Sport': 18, 'Music': 16, 'War': 13, 'Western': 7, 'Musical': 5})


Мы получили результат, но чтобы лучше понять, как мы это сделали, воспользуемся дебаггером. Для этого поставим вызов **pdb.set_trace()** в начале функции. Вызов дебаггера часто называют **брейкпоинтом** (breakpoint, точка прерывания), потому что программа ставится на паузу в этой точке.

In [34]:
from collections import Counter  
import pdb  
  

def count_genres(column):  
    genres = []  
    # ставим брейкпоинт в этом месте  
    pdb.set_trace()  
    for movie_genres in column:  
        splitted = movie_genres.split(",")  
        genres.extend(splitted)  
    counter = Counter(genres)  
      
    return counter   
   
print(count_genres(movies["Genre"]))  

> [1;32m<ipython-input-34-2ee2dd064ad4>[0m(9)[0;36mcount_genres[1;34m()[0m
[1;32m      7 [1;33m    [1;31m# ставим брейкпоинт в этом месте[0m[1;33m[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m      8 [1;33m    [0mpdb[0m[1;33m.[0m[0mset_trace[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m----> 9 [1;33m    [1;32mfor[0m [0mmovie_genres[0m [1;32min[0m [0mcolumn[0m[1;33m:[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m     10 [1;33m        [0msplitted[0m [1;33m=[0m [0mmovie_genres[0m[1;33m.[0m[0msplit[0m[1;33m([0m[1;34m","[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m     11 [1;33m        [0mgenres[0m[1;33m.[0m[0mextend[0m[1;33m([0m[0msplitted[0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m
ipdb> genres
[]
ipdb> next
> [1;32m<ipython-input-34-2ee2dd064ad4>[0m(10)[0;36mcount_genres[1;34m()[0m
[1;32m      8 [1;33m    [0mpdb[0m[1;33m.[0m[0mset_trace[0m[1;33m([0m[1;33m)[0m[1;33m[0m[1;33m[0m[0m
[0m[1;32m   

Рекомендуем запустить дебаггер для какой-то простой программы, чтобы посомтреть на программу глазами интерпретатора и лучше понять поток данных в ней. Для отладки нужно поставить брэкпонит в точке, где у вас всё работает нормально и проходить до момента, где уже точно сломалось. Так вы с высокой вероятностью найдёте аномалию в данных и сможете исправить ошибку.

### ЗАДАЧИ

У нас есть функция group_values(db, value_key, group_key, step). Она должна группировать объекты из db по ключу group_key с шагом step. В результат попадает только значение аттрибута value_key.

Это похоже на гистограмму, когда мы раскладываем значения по корзинам определённого размера. Скажем, у нас есть пользователи:

   <code>user_db = [
    {"name": "Elena", "age": 19, "salary": 80_000},
    {"name": "Sergey", "age": 31, "salary": 160_000},
    {"name": "Olga", "age": 33, "salary": 170_000},
    {"name": "Vadim", "age": 17, "salary": 45_000}
]</code>
    
Мы хотим сгруппировать их зарплаты(salary) по возрасту(age) с шагом в 10 лет. Получится

<code>group_values(user_db, "salary", "age", 10)</code>  
<code># =></code>  
<code># {</code>  
<code>#     10: [80_000, 45_000],</code>  
<code>#     30: [160_000, 170_000]</code>  
<code># }</code>
    
Сейчас функция возвращает что-то не то. Исправьте это, пользуясь pdb. Для этого вам нужно скопировать код на свой компьютер и запустить либо в Python, либо в Jupyter. Входной формат именно такой, как указан в примере user_db

<code>from collections import defaultdict</code>

<code>def group_values(db, value_key, group_key, step):
    grouped = defaultdict(list) 
    for item in db:
        grouped[item[group_key] % step].append(item[value_key])
    return grouped</code>
    

In [41]:
from collections import defaultdict

def group_values(db, value_key, group_key, step):
    grouped = defaultdict(list) 
    for item in db:
        grouped[(item[group_key] // step) * step].append(item[value_key])
    return dict(grouped)

In [42]:
user_db = [
    {"name": "Elena", "age": 19, "salary": 80_000},
    {"name": "Sergey", "age": 31, "salary": 160_000},
    {"name": "Olga", "age": 33, "salary": 170_000},
    {"name": "Vadim", "age": 17, "salary": 45_000}
]

group_values(user_db, "salary", "age", 10)

{10: [80000, 45000], 30: [160000, 170000]}

[К содержанию](#0)

---

# Смысл тестирования<a name="14"></a>

Объяснение **смысла тестирования** начнём с классического анекдота.

*У программиста спрашивают:*

*— В чём сложность поддержки большого проекта?*

*Программист:*

*— Представь, что ты писатель и поддерживаешь проект «Война и мир». У тебя ТЗ — написать главу, как Наташа Ростова гуляла под дождём по парку. Ты пишешь «шёл дождь», сохраняешь, вылетает сообщение об ошибке «Наташа Ростова умерла, продолжение невозможно». Почему умерла? Начинаешь разбираться. Выясняется, что у Пьера Безухова скользкие туфли, он упал, его пистолет ударился о землю и выстрелил в столб, а пуля от столба срикошетила в Наташу. Что делать? Зарядить пистолет холостыми? Поменять туфли? Решили убрать столб. Получаем сообщение «Поручик Ржевский умер». Выясняется, что он в следующей главе опирается на столб, которого уже нет.*

Чем сложнее программа, тем больше вероятность ошибки. Если вы постоянно меняете ошибку в разных местах, то функции, которые работали вчера, могут не сработать сегодня. Ситуация усложняется, если вы работаете в команде: нельзя гарантировать, что изменения, внесенные коллегой, не сломают ваш код.

Вы можете проверять код руками с помощью **print, дебаггера** и анализа результата выполнения программы. Это может нормально работать для небольших программ, но с ростом количества кода и функций каждая проверка требует больше времени. Кроме того, вы вряд ли сможете каждый раз проверять все функции и ограничитесь одной-двумя базовыми проверками, что плохо скажется на качестве.

[К содержанию](#0)

---

# Автоматическое тестирование<a name="15"></a>

Сложности, которые могут возникнуть  с ручным тестированием, может решить **автоматическое тестирование**. В разделе отладки мы говорили, что нужно анализировать **поток данных**: что поступает на вход и получается на выходе; на это и нацелены тесты функций.

Воспользуемся **библиотекой pytest**, которая позволяет определять тесты и используется в крупных проектах. Документацию к библиотеке можно посмотреть [здесь](https://docs.pytest.org/en/latest/). 

Запустилось три теста (*collected 3 items*), и все три корректно отработали (*3 passed*):

In [44]:
def test_something():  
    assert True  
      
def test_equal_string():  
    greetings = "Hello, " +  "world"  
    assert greetings == "Hello, world"
    
def test_numbers():  
    total = 73 + 42  
    assert total == 115

# После этого мы запускаем код с помощью pytest из консоли  
# >> pytest basic_test.py  
# ============================= test session starts ==============================  
# collected 3 items                                                                
  
# basic_test.py ...                                                        [100%]  
  
# =========================== 3 passed in 0.03 seconds ===========================

У нас **две проблемы** с данными в столбце:

* численные данные заведены **строкой**, так что мы не можем выполнять арифметические операции;
* в данных есть **пропуски**, например, не у всех фильмов есть оценка с *metascore*.  

Напишем и протестируем функцию, которая это исправляет. Все тесты проходят, всё корректно работает:

In [46]:
# Функция, которая обращает все строки в числа и подставляет значение по умолчанию, если встречает пропуск.  
def digitize_values(collection, default=0):  
    no_missed = [value if value else default for value in collection]   
    return [float(value) for value in no_missed]  
  
# Мы передаём на вход произвольные параметры и смотрим, что функция корректно работает с ними   
# Проверим, что функция корректно обращает список строк в список чисел  
def test_digitize_convert_to_float():  
    assert digitize_values(["10", "50"])  == [10, 50]  
    assert digitize_values(["70.2", "33.4"]) == [70.2, 33.4]  
      
# Хорошей практикой считается покрывать разные аспекты функции в разных тестах  
# Здесь мы проверим, что функция закрывает пропуски   
def test_digitize_restore_missed():  
    assert digitize_values([""], 10) == [10]  
    assert digitize_values(["20", None], 50) == [20, 50]  
      
# Ещё стоит проверять, что наша функция корректно работает на граничных значениях  
# Например, на пустых данных  
def test_digitize_empty():  
    assert digitize_values([]) == []  

    
# Запустим тесты  
# >>> pytest digitize.py  
# ============================= test session starts ==============================  
# collected 3 items                                                                
  
# digitize.py ...                                                          [100%]  
  
# =========================== 3 passed in 0.04 seconds ===========================  

[К содержанию](#0)

---

# Типы тестов<a name="16"></a>

Тесты, которые мы написали в предыдущем блоке, называются **unit-тестами**, потому что они проверяют **отдельный блок**. Они помогают проверить работу отдельных функций, но остаётся вопрос: корректно ли функции взаимодействуют друг с другом. Для этого есть ещё два типа тестов: **интеграционный** и **приёмочный**.

Интеграционные тесты проверяют, что отдельные функции корректно **обмениваются данными**. Это подобно проверке того, что USB-провод входит в USB-порт. Приёмочные тесты проверяют код в **контексте** пользователя, например, автоматически прокликивая программу или веб-приложение на популярных сценариях использования продукта.

Тестирование — большая область; есть отдельные курсы на эту тему и даже отдельная профессия **QA-инженер**, который занимается исключительно тестированием. Мы надеемся, что у вас появилось общее представление о том, зачем нужны тесты и как их делать. Более подробное введение в тестирование есть в книгах [Гарри Персиваля](https://www.labirint.ru/books/641696/) и [Брайана Оккена](https://www.amazon.com/Python-Testing-pytest-Effective-Scalable/dp/1680502409).

[К содержанию](#0)

---