# Обработка ошибок
1. Текст ошибки указывается в последней строчке
2. Все что перед ней - место, где ошибка произошла
3. Есть встроенные типы ошибок, но можно создавать и свои

Некоторые типы ошибок из документации (точнее [перевода](https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html)):
- ZeroDivisionError - деление на ноль
- ImportError - не удалось импортирование модуля или его атрибута (надо установить эту библиотеку)
- IndexError - индекс не входит в диапазон элементов.
- KeyError - несуществующий ключ (в словаре, множестве или другом объекте)
- MemoryError - недостаточно памяти
- SyntaxError - синтаксическая ошибка (вы опечатались или не закрыли скобку)
- TypeError - операция применена к объекту несоответствующего типа
- ValueError - функция получает аргумент правильного типа, но некорректного значения
- Warning - предупреждение (текст на красном фоне в юпитере это предупреждение, а не ошибка)

In [None]:
# эту строку можно перевести в число
some_num = '123'

In [None]:
float(some_num)

In [None]:
# а эту уже нет (по крайней мере в десятичном счислении)
ups = '123a'

In [None]:
# ValueError - тип ошибки, далее пояснение что произошло
# ----> 1 float(ups) - в каком месте кода произошла ошибка
float(ups)

Пример ошибки внутри функции

In [None]:
def square_sum(*args):
    total_sum = 0
    for arg in args:
        total_sum += arg**2
    
    return total_sum

In [None]:
square_sum(1, 2, 3)

In [None]:
# пытаемся применить к операцию возведения в квадрат к строке
# ----> 1 square_sum(1, 2, '3') - в какой функции произошла ошибка
# ----> 4         total_sum += arg**2 - в какой именно строке произошла ошибка

square_sum(1, 2, '3')

## Как сделать, чтобы цикл с расчетом не падал каждый раз

In [None]:
try:
    # ваш код, где может произойти ошибка
    float('123a')

except:
    # код, который выполняется в случае ошибки


In [46]:
try:
    # ваш код, где может произойти ошибка
    float('123a')

except:
    # код, который выполняется в случае ошибки
    pass

In [None]:
data = ['90', '60', '90', '240tot']
total_sum = 0

for num in data:
    try:
        total_sum += float(num)

    except:
        print('Ошибка в данных: {}'.format(num))
    
print('Итого', total_sum)

Как сохранить всю информацию об ошибке?

In [None]:
# полная версия traceback
import traceback

try:
    float('123fff')

except Exception:
    print(traceback.print_exc())
    
print('Проехали')

### Упражнение
Создайте словарь stats = {'monday': 100, 'tuesday': 200}. 

Какой тип ошибки вызовет обращение stats['wednesday']?

In [None]:
stats = {'monday': 100, 'tuesday': 200}

In [None]:
stats['wednesday']

### Блок finally

In [None]:
try:
    print(stats["wednesday"])
    
except IndexError:
    print("Ошибка индекса")
    
except KeyError:
    print("Ошибка ключа")
    print(1/0)
    
finally:
    print('Эта строчка будет выполнена всегда')
    # закрыть соединение с БД

### Более жизненный пример

In [None]:
with open('real_data.txt', 'r') as f:
    for line in f:
        print(line.strip())

Чем прекрасен этот файл:
1. Даты имеют разный формат: за 8 и 9 октября формат с "09.10.2016 21:40" сменился на "09.10.2016T 21:40:00" (добавилась буква T и секунды). Разработчики объяснили этот тем, что сбились настройки после обновления одной из баз данных.
2. У покупок некоторых пользователей неизвестно значение выручки, из-за чего количество столбцов в строке уменьшается на один.
3. У некоторых строк реальная сумма покупки умножена на миллион. Так иногда действительно делают, чтобы избежать дробных чисел и работать только с целыми.

### Упражнение
Посчитайте сумму выручки из третьего столбца. Пока не обращайте внимания на помноженную на миллион выручку.

In [None]:
sum_revenue = 0
with open('real_data.txt', 'r') as f:
    for line in f:
        line = line.strip().split('\t')
        if len(line) > 2:
            sum_revenue += float(line[2].replace(',','.'))
print(sum_revenue)

In [None]:
'20,3'.replace(',','.')

In [None]:
sum_revenue = 0
with open('real_data.txt', 'r') as f:
    for line in f:
        line = line.strip().split('\t')
        try:
            revenue = float(line[2].replace(',','.'))
        except:
            revenue = 0
        sum_revenue += revenue
print(sum_revenue)

# Даты

In [None]:
# иногда импортируют так
import datetime

In [None]:
# можно и так
import datetime as dt

In [None]:
# у нас будет вариант покороче (но это не одно и то же)
from datetime import datetime

In [None]:
date_string = '09.05.2018  09:00'

In [None]:
# сейчас date_string это просто строка
type(date_string)

In [None]:
datetime.strptime('09.05.2018 09:00', '%d.%m.%Y %H:%M')

In [None]:
# https://docs.python.org/3/library/datetime.html

date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
date_datetime

In [None]:
# теперь можем работать с датами
type(date_datetime)

In [None]:
# получить номер года и часа
date_datetime.year, date_datetime.hour

In [None]:
# день недели
date_datetime.weekday()

In [None]:
# сегодня
datetime.now()

### Упражнение
С помощью метода datetime.strptime переведите строку 'May 25 2017 5:00AM' в формат datetime.

In [None]:
datetime.strptime('May 25 2017 5:00AM', '%B %d %Y %I:%M%p')

### Прибавление интервала к датам

In [23]:
from datetime import timedelta

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
type(start_date)

In [None]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
start_date_datetime

In [None]:
start_date_datetime + timedelta(days=1)

In [None]:
start_date_datetime + timedelta(days=-7, minutes=-1)

### Упражнение
Дана дата в формате '2018-09-01T09:30:00'. Прибавьте к ней 12 часов 15минут и 3 секунды.

In [None]:
start_date_datetime = datetime.strptime('2018-09-01T09:30:00', '%Y-%m-%dT%H:%M:%S')

In [None]:
start_date_datetime + timedelta(days=12, minutes=15, seconds=3)

### Перевод обратно в строку

In [None]:
date = datetime(2018, 9, 1)
date

In [None]:
date.strftime('%Y-%m-%d')

In [None]:
date.strftime('%B %d %Y %I:%M%p')

In [None]:
datetime.now().strftime('%Y-%m-01')

In [None]:
# как получить первый день месяца

date.strftime('%Y-%m-01')

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
start_date, end_date

In [None]:
start_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')

print(start_date_dt, end_date_dt)

In [None]:
i = 0

while i < 10:
    # ...
    i += 1
    print(i)

In [None]:
current_dt = start_date_dt

while current_dt <= end_date_dt:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
current_dt = start_date_dt

while current_dt.strftime('%Y-%m-%d') <= end_date:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
# можно и с помощью list comprehension
[(start_date_dt + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]

### Упражнение
Напишите алгоритм, который "пробегает" период 1 до 7 сентября по часам. Формат вывода '06.01.2018 23:00:00'.

In [35]:
start_date_datetime = datetime.strptime('2018.09.01 00:00:00', '%Y.%m.%d %H:%M:%S')

NameError: name 'datetime' is not defined

In [None]:
[(start_date_datetime + timedelta(hours=x)).strftime('%Y.%m.%d %H:%M:%S') for x in range(7*24)]

In [None]:
stats = {}
i = 0
with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
        print(line)
        i += 1
        if i == 10:
            break
        
        # вычисления нагрузки на систему...
        
# результат
stats

### Нагрузка на систему по часам

In [None]:
stats = {}
with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
#         hour = line[11:13]
        hour = datetime.strptime(line, '%Y-%m-%dT%H:%M:%SZ').hour
        if hour not in stats.keys():
            stats[hour] = 1
        else:
            stats[hour] += 1
        # вычисления нагрузки на систему...
        
# результат
stats

In [None]:
# а в процентном соотношении?


In [None]:
stats = {}
with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
#         hour = line[11:13]
        hour = datetime.strptime(line, '%Y-%m-%dT%H:%M:%SZ').hour
        if hour not in stats.keys():
            stats[hour] = 1
        else:
            stats[hour] += 1
        # вычисления нагрузки на систему...
        
# результат
stats

In [21]:
sum_un = sum([stats[x] for x in stats.keys()])
for x in stats.keys():
    stats[x] = round(stats[x] / sum_un * 100, 2)
stats

NameError: name 'stats' is not defined

###  Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

In [None]:
import time
from datetime import date
from datetime import datetime

In [None]:
d = date(2019, 3, 11)

unixtime = time.mktime(d.timetuple())
unixtime

In [None]:
from datetime import datetime

In [None]:
datetime.fromtimestamp(1552251600)

На практике все сложнее https://habr.com/ru/post/452584/

# Задача про интервалы
Имеется список отсортированных по возрастанию целых чисел data. А также целое число n, которое лежит между минимальным и максимальным значениями из списка data. Вам необходимо определить минимальное ближайшее число к n из списка data.

Пример:
```python
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
```

Ответ: 17

Подобные алгоритмы используются для классификации объекта по значению одной метрики. Например, это может пригодиться для классификации учащегося по его возрасту:
```python
ages = {
    1: 'дети',
    7: 'школьники',
    17: 'студенты',
    23: 'аспиранты',
    27: 'молодые ученые',
    35: 'преподаватели',
    65: 'пенсионеры',
}
```

Итого напишите функцию, которая по списку data и числу n возвращает минимальное ближайшее к n число. Список может быть любым, поэтому не рассчитывайте на написание цепочки условий через if.

Бонусные варианты:
1. Рассмотрите ситуацию, в которой при фиксированном списке data вам необходимо классифицировать большое количество пользователей с разными значениями n. Например, вам необходимо классифицировать базу из 100 миллионов человек по возрастам по словарю ages из примера выше. Можно ли в таком случае ускорить проход по такому числу пользователей?

2. Если вы решали основное задание перебором элементов списка data и сравнением с n, то сложность такого алгоритма O(N). Т. е. при увеличении числа элементов списка data в N раз время работы алгоритма тоже вырастет в N раз. Попробуйте ускорить этот алгоритм. Например, с помощью аналога бинарного поиска.

In [3]:
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
# data.sort() - если значения идут не по возрастанию

In [3]:
# В лоб
def get_min_dev(data, n):
    data_dict = {}
    for x in range(len(data)):
        if abs(n - data[x]) != abs(n - data[x-1]):
            data_dict[abs(n - data[x])] = x
    return print(data[data_dict[min(data_dict.keys())]])

In [4]:
get_min_dev(data, n)

17


In [None]:
# Через фукцию и параметр key, сравнивая элементы списка по модулю отклонения от n. 
def element(x):
    return abs(n-x)
min(data, key=element)

In [4]:
 # Через лямбду и параметр key
def get_min_dev_2(data, n):
    return print(min(data, key=lambda x: abs(n-x)))

In [5]:
get_min_dev_2(data, n)

17


In [None]:
 # Задел на будующее для бинарного поиска

Задание 1
Напишите функцию date_range, которая возвращает список дней между датами start_date и end_date. Даты должны вводиться в формате YYYY-MM-DD.

Задание 2
Дополните функцию из первого задания проверкой на корректность дат. В случае неверного формата или если start_date > end_date должен возвращаться пустой список.

Задание 3
Дан поток дат в формате YYYY-MM-DD, в которых встречаются некорректные значения:
stream = [‘2018-04-02’, ‘2018-02-29’, ‘2018-19-02’]

Напишите функцию, которая проверяет эти даты на корректность. Т. е. для каждой даты возвращает True (дата корректна) или False (некорректная дата).

Задание 4 (бонусное)
Ваш коллега прислал код функции:

DEFAULT_USER_COUNT = 3

def delete_and_return_last_user(region, default_list=[‘A100’, ‘A101’, ‘A102’]):
""“
Удаляет из списка default_list последнего пользователя
и возвращает ID нового последнего пользователя.
”""
element_to_delete = default_list[-1]
default_list.remove(element_to_delete)

return default_list[DEFAULT_USER_COUNT-2]
При однократном вызове этой функции все работает корректно:
delete_and_return_last_user(1)
‘A101’

Однако, при повторном вызове получается ошибка IndexError: list index out of range.

Задание:

Что значит ошибка list index out of range?
Почему при первом запуске функция работает корректно, а при втором - нет?

In [16]:
DEFAULT_USER_COUNT = 3

def delete_and_return_last_user(region, default_list=['A100', 'A101', 'A102']):
    """Удаляет из списка default_list последнего пользователя
    и возвращает ID нового последнего пользователя. """
    element_to_delete = default_list[-1]
    default_list.remove(element_to_delete)

    return default_list[DEFAULT_USER_COUNT-2]

In [17]:
delete_and_return_last_user(1) # осталось два элемента, 3 - 2 = 1, элемент с индексом 1 есть, это 'A101'

'A101'

In [15]:
delete_and_return_last_user(1) # остался один элемент в списке и у него индекс [0], а так как 3 - 2 = 1, 
# то не находя элемента с индексом 1 питон выдаёт ошибку что в этом списке нет какокго индекса

IndexError: list index out of range

Задание 1
Напишите функцию date_range, которая возвращает список дней между датами start_date и end_date. Даты должны вводиться в формате YYYY-MM-DD.

In [63]:
def date_range():
    from datetime import date,timedelta
    start_date = input('Введите дату начала в формате YYYY-MM-DD ')
    end_date = input('Введите дату окончания в формате YYYY-MM-DD ')
    start_date_list, end_date_list = start_date.split('-'), end_date.split('-')
    start_date = date(int(start_date_list[0]),int(start_date_list[1]),int(start_date_list[2]))
    end_date = date(int(end_date_list[0]),int(end_date_list[1]),int(end_date_list[2]))            
    delta_date = end_date - start_date
    for i in range(delta_date.days + 1):
        print(start_date + timedelta(i))

In [66]:
date_range()

Введите дату начала в формате YYYY-MM-DD 2020-02-01
Введите дату окончания в формате YYYY-MM-DD 2020-02-03
2020-02-01
2020-02-02
2020-02-03


Задание 2
Дополните функцию из первого задания проверкой на корректность дат. В случае неверного формата или если start_date > end_date должен возвращаться пустой список.

In [68]:
def date_range_2():
    from datetime import datetime, timedelta
    try:
        start_date = datetime.strptime(input('Введите дату начала в формате YYYY-MM-DD '), '%Y-%m-%d')  # начальная дата
        end_date = datetime.strptime(input('Введите дату окончания в формате YYYY-MM-DD '), '%Y-%m-%d')  # конечная дата
    except:
        print ([])
        return
    delta_date = end_date - start_date         # timedelta
    if delta_date.days <= 0:
        print ([])
    for i in range(delta_date.days + 1):
        print((start_date + timedelta(i)).strftime('%Y-%m-%d'))

In [69]:
date_range_2()

Введите дату начала в формате YYYY-MM-DD 2020-25-25
[]


Задание 3
Дан поток дат в формате YYYY-MM-DD, в которых встречаются некорректные значения:
stream = [‘2018-04-02’, ‘2018-02-29’, ‘2018-19-02’]

Напишите функцию, которая проверяет эти даты на корректность. Т. е. для каждой даты возвращает True (дата корректна) или False (некорректная дата).

In [67]:
stream = ['2018-04-02', '2018-02-29', '2018-19-02']

In [73]:
def check_date(stream):
    from datetime import datetime
    for date in stream:
        x = 0
        try:
            date = datetime.strptime(date, '%Y-%m-%d')
        except:
            x = 1
        if x == 0:
            print('True')
        if x == 1:
            print('False')

In [74]:
check_date(stream)

True
False
False
