## Юнит 7. Основные алгоритмы машинного обучения. Часть II 
### Skillfactory: DSPR-19
### PYTHON-15. Тестирование и отладка кода 

### Задание 1
```python
Напишие текст, который выведется на последней строке при исполнении программы:

def preprocess_data(data, mode):
    if mode == "to_number":
        return [float(value) for value in data]
    elif mode == "to_str":
        return [str(value) for value in data]
    else:
        raise ValueError("Incorrect mode")
        
preprocess_data({"price": 100}, "to_array")
```


In [3]:
def preprocess_data(data, mode):
    if mode == "to_number":
        return [float(value) for value in data]
    elif mode == "to_str":
        return [str(value) for value in data]
    else:
        raise ValueError("Incorrect mode")
        
preprocess_data({"price": 100}, "to_array")

ValueError: Incorrect mode

### Задание 2
Определите функцию `check_server`, которая принимает на вход переменную `mode`.

- Если mode имеет значение "memory", программа должна вернуть строку "Memory is ok".
- Если mode имеет значение "connection", программа должна вернуть строку "Connection is ok".
- Для остальных случае программа должна выбросить исключение ValueError.

In [None]:
def check_server(mode):
    if mode == 'memory':
        return "Memory is ok"
    elif mode == 'connection':
        return "Connection is ok"
    else:
        raise ValueError()

In [4]:
check_server('mem')

NameError: name 'check_server' is not defined

### 2.6 Обработка исключений

In [5]:
dictionary = {}  
try:  
    dictionary["no_key"]  
except:  
    print("Oops, key not found")  
  
print("End of program")  
# => Oops, key not found  
# => End of program  

Oops, key not found
End of program


In [6]:
try:
    print("Inside try block")
except:
    print("Inside except block")

Inside try block


In [7]:
try:
    4 + "b"
    print("Inside try block")
except:
    print("Inside except block")

Inside except block


### 2.7 Осознанная обработка исключений


### Задание
Почему нужно указывать конкретное исключение в try-except?

Ответ:  
- Чтобы исключение отрабатывалось корректным отработчиком
- Чтобы не пропустить случайно исключение, про которое мы не знаем


### 2.8 Иерархия исключений


In [8]:
# Напишем функцию, которая может обращаться и к спискам, и к словарям  
# при этом не выбрасывая исключение для несуществующих индексов/ключей   
def safe_element(collection, place):  
    try:  
        return(collection[place])  
    except LookupError:  
        print("Key or index not found")  
  
users = ["Pavel", "Elena", "Sergey"]  
safe_element(users, 1)  
# => 'Elena'  
safe_element(users, 3)  
# => 'Key or index not found'   
  
prices = {"apple": 10, "orange": 20}  
safe_element(prices, "apple")  
# => 10  
safe_element(prices, "carrot")  
# => 'Key or index not found'  

Key or index not found
Key or index not found


### Задание 2
Напишите программу, которая реализует безопасное сложение двух объектов x и y.

Если объекты не могут быть сложены, функция должна:

- Отловить TypeError
- Вывести на экран "Can't sum x and y", где x и y - переданные числа
- Вернуть 0

```
safe_sum(1, 2)
#=> 3

safe_sum(5, 'a')
# => Can't sum 5 and a
# 0 
```

In [9]:
def safe_sum(x,y):
    try:
        return x + y
    except TypeError:
        print(f"Can't sum {x} and {y}")
        return 0

In [10]:
safe_sum(5,'!')

Can't sum 5 and !


0

### 9. Детали try-except
Мы рассмотрели базовый синтаксис try-except, однако у него есть ещё несколько вариаций. Они не часто встречаются на практике, но мы о них расскажем. Иногда в блоке except нам нужен доступ к самому объекту исключения, например, мы хотим получить поясняющее сообщение и вывести его на экран, но при этом продолжить программу дальше. Мы можем это сделать с помощью ключевого слова 'as', за которым идёт имя новой переменной.


In [11]:
try:  
    5/0  
except ZeroDivisionError as zero_error:  
    # здесь в zero_error мы получаем сам объект исключения  
    # print как раз выведет его поясняющее сообщение  
    print(zero_error)  
  
print("Program ends correctly")  
  
# => division by zero  
# => Program ends correctly  

division by zero
Program ends correctly


Ещё один распространённый подход: мы совершаем какое-то промежуточное действие, а потом перевыбрасываем исключение.



In [12]:
# Пусть у нас есть функция, которая шлёт емейл разработчику об ошибке  
def notify_admin(error):  
    print("Mail to administrator has been sent about", error)  
      
value = "poem"  
try:  
    digitized = int(value)  
except ValueError as digitized_error:  
    notify_admin(digitized_error)  
    raise digitized_error  
      
# => Mail to administrator has been sent about invalid literal for int() with base 10: 'poem'  
# ---------------------------------------------------------------------------  
# ValueError                                Traceback (most recent call last)  
# <ipython-input-121-3fd4cd869d2d> in <module>  
#       8 except ValueError as digitized_error:  
#       9     notify_admin(digitized_error)  
# ---> 10     raise digitized_error  
#      11   
#      12   
  
# <ipython-input-121-3fd4cd869d2d> in <module>  
#       5 value = "poem"  
#       6 try:  
# ----> 7     digitized = int(value)  
#       8 except ValueError as digitized_error:  
#       9     notify_admin(digitized_error)  
  
# ValueError: invalid literal for int() with base 10: 'poem'  


Mail to administrator has been sent about invalid literal for int() with base 10: 'poem'


ValueError: invalid literal for int() with base 10: 'poem'

Обратите внимание, что в начале ошибки есть уведомление о том, что email отправлен. Еще одна полезная функция: для одного try вы можете писать сразу много except на разные исключения.

In [13]:
try:  
    # открываем файл и считываем строку  
    data_file = open("valuble_data.txt")  
    s = data_file.readline()  
    # пробуем преобразовать её в число  
    i = float(s.strip())  
except OSError as err:  
    # если файла нет или его не удаётся прочитать, мы получил ошибку операционной системы   
    print("OS error: {0}".format(err))  
except ValueError:  
    # если данные не преобразуется в число, мы получим ValueError  
    print("Could not convert data to float")  
  
# => OS error: [Errno 2] No such file or directory: 'valuble_data.txt'  

OS error: [Errno 2] No such file or directory: 'valuble_data.txt'


У try-except есть блоки else и finally; первый выполняется в случае, если мы не встретили исключение в try, и используется в основном для написания чуть более чистого кода. Finally выполняется в любом случае, даже если возникло непредвиденное исключение или выход с помощью return. Обычно используется для корректного освобождения ресурсов, например, закрытия файлов.

Надеемся, что система исключения для вас стала более понятной, и вы сможете более свободно работать с ошибками.

### 10. Отладка: введение


В этом разделе мы обсудим подходы, которые помогают быстрее найти и исправить ошибки. Приведённые методы хорошо зарекомендовали себя на практике. Тем не менее единого метода, который бы работал всегда, нет, и разнообразие видов ошибок превращает отладку в настоящее искусство. Научиться определять необходимый метод вы сможете со временем.

Ошибки можно условно поделить на два класса:

явные, которые выбрасывают исключение;
неявные (баги): программа формально работает, но есть какой-то изъян в логике, так что вы получаете не то, что хотели.
Для примеров в этом разделе мы будем использовать датасет о фильмах с imdb. В датасете указана основная информация: сборы, год выпуска и т.д.

In [2]:
import pandas as pd

In [3]:
data = pd.read_csv('imdb.csv')

In [3]:
data.head()

Unnamed: 0,Rank,Title,Genre,Description,Director,Actors,Year,Runtime (Minutes),Rating,Votes,Revenue (Millions),Metascore
0,1,Guardians of the Galaxy,"Action,Adventure,Sci-Fi",A group of intergalactic criminals are forced ...,James Gunn,"Chris Pratt, Vin Diesel, Bradley Cooper, Zoe S...",2014,121,8.1,757074,333.13,76.0
1,2,Prometheus,"Adventure,Mystery,Sci-Fi","Following clues to the origin of mankind, a te...",Ridley Scott,"Noomi Rapace, Logan Marshall-Green, Michael Fa...",2012,124,7.0,485820,126.46,65.0
2,3,Split,"Horror,Thriller",Three girls are kidnapped by a man with a diag...,M. Night Shyamalan,"James McAvoy, Anya Taylor-Joy, Haley Lu Richar...",2016,117,7.3,157606,138.12,62.0
3,4,Sing,"Animation,Comedy,Family","In a city of humanoid animals, a hustling thea...",Christophe Lourdelet,"Matthew McConaughey,Reese Witherspoon, Seth Ma...",2016,108,7.2,60545,270.32,59.0
4,5,Suicide Squad,"Action,Adventure,Fantasy",A secret government agency recruits some of th...,David Ayer,"Will Smith, Jared Leto, Margot Robbie, Viola D...",2016,123,6.2,393727,325.02,40.0


### Задание
В каком году вышел фильм *Suicide Squad*, информация о котором есть в датасете imdb?

In [4]:
data.Year[data.Title=='Suicide Squad']

4    2016
Name: Year, dtype: int64

### 11. Отладка исключений


Разберёмся с явными ошибками, они гораздо проще в исправлении. Для начала нужно прочитать сообщение об ошибке: смотрим на тип исключения и поясняющее сообщение, чтобы понять природу ошибки, затем на стэк вызова, чтобы определить место, где она возникла, и само содержание строки.

In [6]:
# для примера попробуем написать функцию, которая печатает первые 5 строчек csv файла с нашими данными  
import csv  
  
# открываем файл  
with open("imdb.csv", newline="") as csvfile:  
    # делаем reader, который построчно берёт данные из файла  
    reader = csv.reader(csvfile)  
    for i in xrange(5):  
        print(next(reader))  
          
# ---------------------------------------------------------------------------  
# NameError                                 Traceback (most recent call last)  
# <ipython-input-201-6e6f17831e06> in <module>  
#       6     # делаем reader, который построчно берёт данные из файла  
#       7     reader = csv.reader(csvfile)  
# ----> 8     for i in xrange(5):  
#       9         print(next(reader))  
#      10   
  
# NameError: name 'xrange' is not defined  

NameError: name 'xrange' is not defined

Дальше мы смотрим на исключение и поясняющее сообщение NameError: name 'xrange' is not defined. В стэке вызова мы видим, что это имя использовалось в 8-ой строчке. Хrange было функцией в Python2, но в Python3 её переименовали в range. Исправим это:

In [7]:
import csv  
  
with open("imdb.csv", newline="") as csvfile:  
    reader = csv.reader(csvfile)  
    for i in range(5):  
        print(next(reader))  
  
# => ['Rank', 'Title', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)', 'Metascore']  
# ['1', 'Guardians of the Galaxy', 'Action,Adventure,Sci-Fi', 'A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'James Gunn', 'Chris Pratt, Vin Diesel, Bradley Cooper, Zoe Saldana', '2014', '121', '8.1', '757074', '333.13', '76']
# ...

['Rank', 'Title', 'Genre', 'Description', 'Director', 'Actors', 'Year', 'Runtime (Minutes)', 'Rating', 'Votes', 'Revenue (Millions)', 'Metascore']
['1', 'Guardians of the Galaxy', 'Action,Adventure,Sci-Fi', 'A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'James Gunn', 'Chris Pratt, Vin Diesel, Bradley Cooper, Zoe Saldana', '2014', '121', '8.1', '757074', '333.13', '76']
['2', 'Prometheus', 'Adventure,Mystery,Sci-Fi', 'Following clues to the origin of mankind, a team finds a structure on a distant moon, but they soon realize they are not alone.', 'Ridley Scott', 'Noomi Rapace, Logan Marshall-Green, Michael Fassbender, Charlize Theron', '2012', '124', '7', '485820', '126.46', '65']
['3', 'Split', 'Horror,Thriller', 'Three girls are kidnapped by a man with a diagnosed 23 distinct personalities. They must try to escape before the apparent emergence of a frightful new 24th.', 'M. Night Shyamalan', 'James McAv

### Задание
На что надо смотреть в сообщении об ошибке?

Ответ:  
- На имя исключения и поясняющее собщение 
- На номер строки с ошибкой
- На содержание строки с ошибкой

### 12. Отладка через print
Внимательное чтение сообщения уже должно решить большую часть явных ошибок с выбрасываемым исключением. Если случай более запутанный, и сходу разрешить его не удалось, ключевое здесь — понять, на каких данных ваш код не работает. В базовом варианте можно использовать print.

Выведите все релевантные данные до строки, где возникла ошибка, и подумайте, что с этими данными могло пойти не так:

In [8]:
# Теперь попробуем поместить данные в некое подобие таблицы.  
# У нас будет словарь, где ключами будут имена столбцов, а значениями - списки с данными   
import csv  
  
  
# функция, которая делает таблицу по данным из reader  
def build_table(reader):  
    table = {}  
    # инициализируем столбцы  
    headers = next(reader)  
    for header in headers:  
        table[header] = []  
          
    # считываем данные      
    for row in reader:  
        for header in headers:  
            table[header].append(row[header])  
              
    return table  
  
with open("imdb.csv", newline="") as csvfile:  
    # делаем reader, который построчно берёт данные из файла  
    reader = csv.reader(csvfile)  
    # строим таблицу  
    imdb_data = build_table(reader)  
  
  
# ---------------------------------------------------------------------------  
# TypeError                                 Traceback (most recent call last)  
# <ipython-input-207-9a69df7712c2> in <module>  
#      23     reader = csv.reader(csvfile)  
#      24     # строим таблицу  
# ---> 25     imdb_data = build_table(reader)  
#      26   
#      27 # ---------------------------------------------------------------------------  
  
# <ipython-input-207-9a69df7712c2> in build_table(reader)  
#      15     for row in reader:  
#      16         for header in headers:  
# ---> 17             table[header].append(row[header])  
#      18   
#      19     return table  
  
# TypeError: list indices must be integers or slices, not str  

TypeError: list indices must be integers or slices, not str

Мы получили TypeError и сообщение, что индекс должен быть числом в 17 строке. Сразу может быть непонятно, почему это произошло, поэтому давайте посмотрим на данные:

In [10]:
import csv  
  
  
def build_table(reader):  
    table = {}  
    headers = next(reader)  
    for header in headers:  
        table[header] = []  
          
    for row in reader:  
        for header in headers:  
            # Мы выводим значения всех переменных, которые задействованы в ошибочной строке  
            print("Header:", header)  
            print("Table:", table)  
            print("Row:", row)  
            table[header].append(row[header])  
              
    return table  
  
with open("imdb.csv", newline="") as csvfile:  
    reader = csv.reader(csvfile)  
    imdb_data = build_table(reader)  
  
  
# Header: Rank  
# Table: {'Rank': [], 'Title': [], 'Genre': [], 'Description': [], 'Director': [], 'Actors': [], 'Year': [], 'Runtime (Minutes)': [], 'Rating': [], 'Votes': [], 'Revenue (Millions)': [], 'Metascore': []}  
# Row: ['1', 'Guardians of the Galaxy', 'Action,Adventure,Sci-Fi', 'A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'James Gunn', 'Chris Pratt, Vin Diesel, Bradley Cooper, Zoe Saldana', '2014', '121', '8.1', '757074', '333.13', '76']  

Header: Rank
Table: {'Rank': [], 'Title': [], 'Genre': [], 'Description': [], 'Director': [], 'Actors': [], 'Year': [], 'Runtime (Minutes)': [], 'Rating': [], 'Votes': [], 'Revenue (Millions)': [], 'Metascore': []}
Row: ['1', 'Guardians of the Galaxy', 'Action,Adventure,Sci-Fi', 'A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'James Gunn', 'Chris Pratt, Vin Diesel, Bradley Cooper, Zoe Saldana', '2014', '121', '8.1', '757074', '333.13', '76']


TypeError: list indices must be integers or slices, not str

Вот наша строка с ошибкой: table[header].append(row[header]). В ней мы видим два потенциальных места, где могла произойти ошибка, — table[header] и row[header]. Смотрим на данные, header — это строка "Rank". В словаре table есть ключ "Rank", значит, ошибка не там. Но row является списком, поэтому мы должны использовать численный индекс, а не строку. Исправим программу, чтобы передавался последовательный номер заголовка, а не он сам:

In [11]:
import csv  
  
def build_table(reader):  
    table = {}  
    headers = next(reader)  
    for header in headers:  
        table[header] = []  
          
    for row in reader:  
        # Обратите внимание, что теперь мы используем индекс столбца, а не его имя для обращения к элементу row  
        for i, header in enumerate(headers):  
            table[header].append(row[i])  
              
    return table  
  
with open("imdb.csv", newline="") as csvfile:  
    reader = csv.reader(csvfile)  
    imdb_data = build_table(reader)  
  
  
# Выведем данные в полученной таблице  
for header, values in imdb_data.items():  
    print(header, values[:5])  

# Rank ['1', '2', '3', '4', '5']  
# Title ['Guardians of the Galaxy', 'Prometheus', 'Split', 'Sing', 'Suicide Squad']  
# Genre ['Action,Adventure,Sci-Fi', 'Adventure,Mystery,Sci-Fi', 'Horror,Thriller', 'Animation,Comedy,Family', 'Action,Adventure,Fantasy']  
# ...  

Rank ['1', '2', '3', '4', '5']
Title ['Guardians of the Galaxy', 'Prometheus', 'Split', 'Sing', 'Suicide Squad']
Genre ['Action,Adventure,Sci-Fi', 'Adventure,Mystery,Sci-Fi', 'Horror,Thriller', 'Animation,Comedy,Family', 'Action,Adventure,Fantasy']
Description ['A group of intergalactic criminals are forced to work together to stop a fanatical warrior from taking control of the universe.', 'Following clues to the origin of mankind, a team finds a structure on a distant moon, but they soon realize they are not alone.', 'Three girls are kidnapped by a man with a diagnosed 23 distinct personalities. They must try to escape before the apparent emergence of a frightful new 24th.', "In a city of humanoid animals, a hustling theater impresario's attempt to save his theater with a singing competition becomes grander than he anticipates even as its finalists' find that their lives will never be the same.", 'A secret government agency recruits some of the most dangerous incarcerated super-villai

Всё работает! В конце заметим, что print выводит строку без кавычек, что иногда затрудняет понимание данных.



In [12]:
print(5)  
# => 5  
print("5")  
# => 5  


5
5


Быстрый способ обойти это — использовать метод repr(). Он старается вывести объекты так, как они бы выглядели в самом коде:



In [13]:
print(repr(5))  
# => 5  
print(repr("5"))  
# => '5'  

5
'5'


In [14]:
print(repr('12.48'))

'12.48'


### Задание 2
У вас есть функция, которая должна убирать дубликаты из списка и сохранять при этом порядок:

```
remove_dups([1, 12, 4, 1, 4, 8])
# => [1, 12, 4, 8]
```
    
Сейчас она не очень хорошо написана и возвращает исключение: исправьте её
```python
from copy import copy

def remove_dups(values):
    values = copy(values)
    for i in range(len(values)):
        if values[i+1] in values[i:]:
            values.remove(values[i])
    return values
```

In [15]:
def remove_dups(values):
    result = []
    for i in range(0,len(values)):
        if values[i] not in values[:i]:
            result.append(values[i])
    return result

In [16]:
remove_dups([1, 12, 4, 1, 4, 8])

[1, 12, 4, 8]

### 13. Отлов багов
## 2.13 Отлов багов
Баги — ошибки в логике программы, и они менее очевидны для отладки, чем явные исключения. Вы можете быть уверены, что код работает идеально, а спустя несколько дней обнаружить, что он возвращает неверные ответы. Начинать следует с определения места ошибки; так как сообщений об ошибке нет, то задача сводится к нахождению аномалии в данных. Для этого отлично подходят дебаггеры, и в `Python` есть встроенный — `pdb`.

Ранее мы использовали `print`, чтобы выводить переменные перед строкой с ошибкой. Дебаггеры решают примерно ту же задачу, только делают это гораздо лучше: они позволяют остановить программу посреди выполнения и посмотреть на её состояние через интерактивную консоль.

Чтобы поставить программу на паузу в определённом месте, вызовите метод `set_trace` на этой строчке:
```
import pdb; pdb.set_trace()  
```
Когда вы запустите программу и интерпретатор дойдёт до этой строчки, у вас откроется интерактивная консоль.

Возможности дебаггера:

- возможно выполнение любого корректного кода в нём: вывести значения любой доступной переменной, метод locals() выведет локальные переменные;
- PP позволяет вывести словари и их объекты, что упрощает чтение;
- перемещение по коду: next выполнит следующую строку, return выполнит весь код до конца текущей функции и вернёт интерактивную консоль на следующей строчке, continue выйдет из интерактивного режима и продолжит программу.

### 14. Использование pdb
В предыдущем блоке мы привели основные команды pdb. Полный список команд выводится по запросу `help` внутри интерактивной сессии `pdb`, а пока давайте посмотрим работу метода на конкретном примере. Пусть у нас есть следующая функция:

In [4]:
from collections import Counter  
  
# Считаем, сколько фильмов в каждом жанре  
def count_genres(column):  
    genres = []  
    for movie_genres in column:  
        splitted = movie_genres.split(",")  
        genres.extend(splitted)  
    counter = Counter(genres)  
      
    return counter   
   
print(count_genres(data["Genre"]))  

Counter({'Drama': 501, 'Action': 296, 'Comedy': 277, 'Adventure': 254, 'Thriller': 189, 'Crime': 146, 'Romance': 138, 'Sci-Fi': 117, 'Horror': 117, 'Mystery': 103, 'Fantasy': 100, 'Biography': 80, 'Family': 51, 'Animation': 49, 'History': 26, 'Sport': 18, 'Music': 16, 'War': 13, 'Western': 7, 'Musical': 5})


Мы получили результат, но чтобы лучше понять, как мы это сделали, воспользуемся дебаггером. Для этого поставим вызов `pdb.set_trace()` в начале функции. Вызов дебаггера часто называют брейкпоинтом (`breakpoint`, точка прерывания), потому что программа ставится на паузу в этой точке.

In [None]:
from collections import Counter  
import pdb  
  
  
def count_genres(column):  
    genres = []  
    # ставим брейкпоинт в этом месте  
    pdb.set_trace()  
    for movie_genres in column:  
        splitted = movie_genres.split(",")  
        genres.extend(splitted)  
    counter = Counter(genres)  
      
    return counter   
   
print(count_genres(data["Genre"])) 

При выполнении программы у нас запустится интерактивная сессия. Ниже идут команды к pdb, и что он возвращает.  Команды идут после символов (Pdb), которые консоль выводит сама.



In [None]:
# При запуске дебаггер показывает, что мы находимся на 8 строке  
> <imdb.py>(8)count_genres()  
-> for movie_genres in column:  
      
# Попробуем вывести жанры. На этот момент это должен быть пустой список  
(Pdb)  genres  
[]  
  
# Перейдём на три строки вниз, для этого три раза вызовем next  
(Pdb)  next  
> <imdb.py>(9)count_genres()  
-> splitted = movie_genres.split(",")  
  
(Pdb)  next  
> <imdb.py>(10)count_genres()  
-> genres.extend(splitted)  
  
  
(Pdb)  next  
> <imdb.py>(8)count_genres()  
-> for movie_genres in column:  
  
# Выведем значение splitted и genres, чтобы посмотреть их содержание.  
# На этот раз в genres должно быть как раз содержания splitted  
(Pdb)  splitted  
['Action', 'Adventure', 'Sci-Fi']  
      
(Pdb)  genres  
['Action', 'Adventure', 'Sci-Fi']  
  
# Выйдем из интерактивной сессии и продолжим программу до конца.  
(Pdb)  continue  
Counter({'Drama': 513, 'Action': 303, 'Comedy': 279, 'Adventure': 259, 'Thriller': 195, 'Crime': 150, 'Romance': 141, 'Sci-Fi': 120, 'Horror': 119, 'Mystery': 106, 'Fantasy': 101, 'Biography': 81, 'Family': 51, 'Animation': 49, 'History': 29, 'Sport': 18, 'Music': 16


### Задание
У нас есть функция `group_values(db, value_key, group_key, step)`. Она должна группировать объекты из `db` по ключу `group_key` с шагом `step`. В результат попадает только значение аттрибута `value_key`.

Это похоже на гистограмму, когда мы раскладываем значения по корзинам определённого размера. Скажем, у нас есть пользователи:

In [6]:
user_db = [
    {"name": "Elena", "age": 19, "salary": 80_000},
    {"name": "Sergey", "age": 31, "salary": 160_000},
    {"name": "Olga", "age": 33, "salary": 170_000},
    {"name": "Vadim", "age": 17, "salary": 45_000}
]

Мы хотим сгруппировать их зарплаты(salary) по возрасту(age) с шагом в 10 лет. Получится
```
group_values(user_db, "salary", "age", 10)
# => 
# {
#     10: [80_000, 45_000],
#     30: [160_000, 170_000]
# }
```    

Сейчас функция возвращает что-то не то. Исправьте это, пользуясь `pdb`. Для этого вам нужно скопировать код на свой компьютер и запустить либо в `Python`, либо в `Jupyter`. Входной формат именно такой, как указан в примере `user_db`

In [7]:
from collections import defaultdict

def group_values(db, value_key, group_key, step):
    grouped = defaultdict(list) 
    for item in db:
        grouped[(item[group_key] // step)*step].append(item[value_key])
    return grouped

In [8]:
group_values(user_db, "salary", "age", 10)

defaultdict(list, {10: [80000, 45000], 30: [160000, 170000]})

In [9]:
user_db = [
    {"name": "Elena", "age": 19, "salary": 80_000},
    {"name": "Sergey", "age": 31, "salary": 160_000},
    {"name": "Olga", "age": 33, "salary": 170_000},
    {"name": "Vadim", "age": 17, "salary": 45_000}
]

In [10]:
def group_values(db, value_key, group_key, step):
    grouped = defaultdict(list)
    for item in db:
        for i in range(step, item[group_key], step):
            if (item[group_key] - i) < step:
                grouped[i].append(item[value_key])
    return grouped

In [11]:
# Вот этот варинат принимает валидатор

from collections import defaultdict
def group_values(db, value_key, group_key, step):
    grouped = defaultdict(list)
    for item in db:
        grouped[(min([x[group_key] for x in db]) // step) * step + step * ((item[group_key] // step) - (min([x[group_key] for x in db]) // step))].append(item[value_key])
    return grouped

### 15. Смысл тестирования
Объяснение смысла тестирования начнём с классического анекдота.

У программиста спрашивают:

— В чём сложность поддержки большого проекта?

Программист:

— Представь, что ты писатель и поддерживаешь проект «Война и мир». У тебя ТЗ — написать главу, как Наташа Ростова гуляла под дождём по парку. Ты пишешь «шёл дождь», сохраняешь, вылетает сообщение об ошибке «Наташа Ростова умерла, продолжение невозможно». Почему умерла? Начинаешь разбираться. Выясняется, что у Пьера Безухова скользкие туфли, он упал, его пистолет ударился о землю и выстрелил в столб, а пуля от столба срикошетила в Наташу. Что делать? Зарядить пистолет холостыми? Поменять туфли? Решили убрать столб. Получаем сообщение «Поручик Ржевский умер». Выясняется, что он в следующей главе опирается на столб, которого уже нет.

Чем сложнее программа, тем больше вероятность ошибки. Если вы постоянно меняете ошибку в разных местах, то функции, которые работали вчера, могут не сработать сегодня. Ситуация усложняется, если вы работаете в команде: нельзя гарантировать, что изменения, внесенные коллегой, не сломают ваш код.

Вы можете проверять код руками с помощью print, дебаггера и анализа результата выполнения программы. Это может нормально работать для небольших программ, но с ростом количества кода и функций каждая проверка требует больше времени. Кроме того, вы вряд ли сможете каждый раз проверять все функции и ограничитесь одной-двумя базовыми проверками, что плохо скажется на качестве.

### Задание
В чём проблемы ручного тестирования?

Ответ:  
- Легко пропустить ошибку.
- На него уходит много времени.

### 2.16 Автоматическое тестирование


Сложности, которые могут возникнуть  с ручным тестированием, может решить автоматическое тестирование. В разделе отладки мы говорили, что нужно анализировать поток данных: что поступает на вход и получается на выходе; на это и нацелены тесты функций.

Воспользуемся библиотекой `pytest`, которая позволяет определять тесты и используется в крупных проектах. Документацию к библиотеке можно посмотреть [здесь](https://docs.pytest.org/en/latest/). 

Запустилось три теста (`collected 3 items`), и все три корректно отработали (`3 passed`):

In [12]:
# Чтобы написать тест, мы должны определить функцию, имя которой начинается на test_  
# после этого мы используем ключевое слово assert, которое проверят, является ли истинным значение сразу за ним  
def test_something():  
    assert True  
      
def test_equal_string():  
    greetings = "Hello, " +  "world"  
    assert greetings == "Hello, world"  
  
def test_numbers():  
    total = 73 + 42  
    assert total == 115  
  
# После этого мы запускаем код с помощью pytest из консоли  
# >> pytest basic_test.py  
# ============================= test session starts ==============================  
# collected 3 items                                                                
  
# basic_test.py ...                                                        [100%]  
  
# =========================== 3 passed in 0.03 seconds ===========================  

У нас две проблемы с данными в столбце:

- численные данные заведены **строкой**, так что мы не можем выполнять арифметические операции;
- в данных есть **пропуски**, например, не у всех фильмов есть оценка с `metascore`.

Напишем и протестируем функцию, которая это исправляет. Все тесты проходят, всё корректно работает:

In [13]:
# Функция, которая обращает все строки в числа и подставляет значение по умолчанию, если встречает пропуск.  
def digitize_values(collection, default=0):  
    no_missed = [value if value else default for value in collection]   
    return [float(value) for value in no_missed]  
  
# Мы передаём на вход произвольные параметры и смотрим, что функция корректно работает с ними   
# Проверим, что функция корректно обращает список строк в список чисел  
def test_digitize_convert_to_float():  
    assert digitize_values(["10", "50"])  == [10, 50]  
    assert digitize_values(["70.2", "33.4"]) == [70.2, 33.4]  
      
# Хорошей практикой считается покрывать разные аспекты функции в разных тестах  
# Здесь мы проверим, что функция закрывает пропуски   
def test_digitize_restore_missed():  
    assert digitize_values([""], 10) == [10]  
    assert digitize_values(["20", None], 50) == [20, 50]  
      
# Ещё стоит проверять, что наша функция корректно работает на граничных значениях  
# Например, на пустых данных  
def test_digitize_empty():  
    assert digitize_values([]) == []  
      
# Запустим тесты  
# >>> pytest digitize.py  
# ============================= test session starts ==============================  
# collected 3 items                                                                
  
# digitize.py ...                                                          [100%]  
  
# =========================== 3 passed in 0.04 seconds ===========================  

In [14]:
!pytest digitize.py

platform linux -- Python 3.8.3, pytest-5.4.3, py-1.9.0, pluggy-0.13.1
rootdir: /home/dell/py_test_debug
[1mcollecting ... [0m[1mcollected 0 items                                                              [0m

[31mERROR: file not found: digitize.py
[0m


In [15]:
!pytest basic_test.py

platform linux -- Python 3.8.3, pytest-5.4.3, py-1.9.0, pluggy-0.13.1
rootdir: /home/dell/py_test_debug
[1mcollecting ... [0m[1mcollected 0 items                                                              [0m

[31mERROR: file not found: basic_test.py
[0m


### Задание
У нас есть четыре функции. Какие из них являются корректными тестами в pytest?

Ответ: 2, 3

### 17. Типы тестов
Тесты, которые мы написали в предыдущем блоке, называются unit-тестами, потому что они проверяют отдельный блок. Они помогают проверить работу отдельных функций, но остаётся вопрос: корректно ли функции взаимодействуют друг с другом. Для этого есть ещё два типа тестов: интеграционный и приёмочный.

Интеграционные тесты проверяют, что отдельные функции корректно обмениваются данными. Это подобно проверке того, что USB-провод входит в USB-порт. Приёмочные тесты проверяют код в контексте пользователя, например, автоматически прокликивая программу или веб-приложение на популярных сценариях использования продукта.

Тестирование — большая область; есть отдельные курсы на эту тему и даже отдельная профессия QA-инженер, который занимается исключительно тестированием. Мы надеемся, что у вас появилось общее представление о том, зачем нужны тесты и как их делать. Более подробное введение в тестирование есть в книгах Гарри Персиваля и Брайана Оккена.

### Задание
Зачем нужны интеграционные тесты?

Ответ:  Проверять, что функции корректно работают друг с другом. 