# Обработка ошибок
1. Текст ошибки указывается в последней строчке
2. Все что перед ней - место, где ошибка произошла
3. Есть встроенные типы ошибок, но можно создавать и свои

Некоторые типы ошибок из документации (точнее [перевода](https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html)):
- ZeroDivisionError - деление на ноль
- ImportError - не удалось импортирование модуля или его атрибута (надо установить эту библиотеку)
- IndexError - индекс не входит в диапазон элементов.
- KeyError - несуществующий ключ (в словаре, множестве или другом объекте)
- MemoryError - недостаточно памяти
- SyntaxError - синтаксическая ошибка (вы опечатались или не закрыли скобку)
- TypeError - операция применена к объекту несоответствующего типа
- ValueError - функция получает аргумент правильного типа, но некорректного значения
- Warning - предупреждение (текст на красном фоне в юпитере это предупреждение, а не ошибка)

In [1]:
# эту строку можно перевести в число
some_num = '123'

In [2]:
float(some_num)

123.0

In [3]:
# а эту уже нет (по крайней мере в десятичном счислении)
ups = '123a'

In [4]:
# ValueError - тип ошибки, далее пояснение что произошло
# ----> 1 float(ups) - в каком месте кода произошла ошибка
float(ups)

ValueError: could not convert string to float: '123a'

Пример ошибки внутри функции

In [5]:
def square_sum(*args):
    total_sum = 0
    for arg in args:
        total_sum += arg**2
    
    return total_sum

In [6]:
square_sum(1, 2, 3)

14

In [7]:
# пытаемся применить к операцию возведения в квадрат к строке
# ----> 1 square_sum(1, 2, '3') - в какой функции произошла ошибка
# ----> 4         total_sum += arg**2 - в какой именно строке произошла ошибка

square_sum(1, 2, '3')

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

## Как сделать, чтобы цикл с расчетом не падал каждый раз

In [8]:
try:
    # ваш код, где может произойти ошибка
    float('123a')

except:
    # код, который выполняется в случае ошибки
    

SyntaxError: unexpected EOF while parsing (<ipython-input-8-75e5ffc2ac13>, line 7)

In [9]:
data = ['90', '60', '90', '240tot']
total_sum = 0

for num in data:
    try:
        total_sum += float(num)

    except:
        print('Ошибка в данных: {}'.format(num))
    
print('Итого', total_sum)

Ошибка в данных: 240tot
Итого 240.0


Как сохранить всю информацию об ошибке?

In [11]:
# полная версия traceback
import traceback

try:
    float('123fff')

except Exception:
    print(traceback.print_exc())
    
print('Проехали')

None
Проехали


Traceback (most recent call last):
  File "<ipython-input-11-aec2760d579a>", line 5, in <module>
    float('123fff')
ValueError: could not convert string to float: '123fff'


### Упражнение
Создайте словарь stats = {'monday': 100, 'tuesday': 200}. 

Какой тип ошибки вызовет обращение stats['wednesday']?

In [14]:
 stats = {'monday': 100, 'tuesday': 200}

In [15]:
stats['wednesday']

KeyError: 'wednesday'

### Блок finally

In [16]:
try:
    print(stats["wednesday"])
    
except IndexError:
    print("Ошибка индекса")
    
except KeyError:
    print("Ошибка ключа")
    print(1/0)
    
finally:
    print('Эта строчка будет выполнена всегда')

Ошибка ключа
Эта строчка будет выполнена всегда


ZeroDivisionError: division by zero

### Более жизненный пример

In [17]:
with open('real_data.txt', 'r') as f:
    for line in f:
        print(line.strip())

05.10.16 23:18	1010	20,2
09.10.2016T 21:40:00	1036	15,6
05.10.16 3:23	1041
05.10.16 23:19	1041
01.10.16 4:57	1042	14,8
01.10.16 23:29	1042	14,4
03.10.16 20:20	1042	14
04.10.16 0:35	1042	20
04.10.16 13:46	1042	16,2
04.10.16 17:34	1042	11
05.10.16 15:15	1042	10800000
06.10.16 20:45	1042	22,6
07.10.16 2:54	1042	22,4
07.10.16 5:02	1042	24,4
07.10.16 6:35	1042	16,6
08.10.2016T 16:46:00	1042	8,6
01.10.16 13:39	1047
05.10.16 21:41	1047
07.10.16 9:59	1052	24
08.10.2016T 19:36:00	1052	18,8
04.10.16 11:12	1057
09.10.2016T 2:47:00	1057
09.10.2016T 16:27:00	1062	11,2
05.10.16 4:38	1067	19
04.10.16 9:56	1078	23,4
04.10.16 14:36	1085	17
05.10.16 16:41	1096	20,8
01.10.16 11:55	1098	15,6
01.10.16 14:16	1100
02.10.16 1:39	1100
02.10.16 2:49	1100
02.10.16 13:05	1100
03.10.16 4:04	1100
03.10.16 6:58	1100
03.10.16 15:01	1100
04.10.16 23:43	1100
05.10.16 5:46	1100
06.10.16 0:31	1100
06.10.16 9:25	1100
08.10.2016T 15:15:00	1100
07.10.16 9:06	1105	16,2
01.10.16 4:30	1108	17,8
01.10.16 18:16	1108	18,8
02.10.1

Чем прекрасен этот файл:
1. Даты имеют разный формат: за 8 и 9 октября формат с "09.10.2016 21:40" сменился на "09.10.2016T 21:40:00" (добавилась буква T и секунды). Разработчики объяснили этот тем, что сбились настройки после обновления одной из баз данных.
2. У покупок некоторых пользователей неизвестно значение выручки, из-за чего количество столбцов в строке уменьшается на один.
3. У некоторых строк реальная сумма покупки умножена на миллион. Так иногда действительно делают, чтобы избежать дробных чисел и работать только с целыми.

### Упражнение
Посчитайте сумму выручки из третьего столбца. Пока не обращайте внимания на помноженную на миллион выручку.

In [35]:
 with open('real_data.txt', 'r') as f:
    total_sum = 0
    for line in f:
        try:
            line_s = line.strip().split()
            if ',' in line_s[3]:               
                total_sum = total_sum + float(line_s[3].replace(',','.'))
            else:
                total_sum = total_sum + float(line_s[3])
        except:
            print(f'Error in line {line}')
        finally:
            print(line.strip().split())
    print(total_sum)

['05.10.16', '23:18', '1010', '20,2']
['09.10.2016T', '21:40:00', '1036', '15,6']
Error in line 05.10.16 3:23	1041	

['05.10.16', '3:23', '1041']
Error in line 05.10.16 23:19	1041	

['05.10.16', '23:19', '1041']
['01.10.16', '4:57', '1042', '14,8']
['01.10.16', '23:29', '1042', '14,4']
['03.10.16', '20:20', '1042', '14']
['04.10.16', '0:35', '1042', '20']
['04.10.16', '13:46', '1042', '16,2']
['04.10.16', '17:34', '1042', '11']
['05.10.16', '15:15', '1042', '10800000']
['06.10.16', '20:45', '1042', '22,6']
['07.10.16', '2:54', '1042', '22,4']
['07.10.16', '5:02', '1042', '24,4']
['07.10.16', '6:35', '1042', '16,6']
['08.10.2016T', '16:46:00', '1042', '8,6']
Error in line 01.10.16 13:39	1047	

['01.10.16', '13:39', '1047']
Error in line 05.10.16 21:41	1047	

['05.10.16', '21:41', '1047']
['07.10.16', '9:59', '1052', '24']
['08.10.2016T', '19:36:00', '1052', '18,8']
Error in line 04.10.16 11:12	1057	

['04.10.16', '11:12', '1057']
Error in line 09.10.2016T 2:47:00	1057	

['09.10.2016T', 

In [51]:
 with open('real_data.txt', 'r') as f:
    total_sum = 0
    s = 0
    for line in f:
        line_s = line.strip().split('\t')
        #print(line_s)
        try:
            total_sum += float(line_s[2].replace(',','.'))
            
#             if ',' in line_s[2]:               
#                 total_sum = total_sum + float(line_s[2].replace(',','.'))
#             else:
#                 total_sum = total_sum + float(line_s[2])
        except:
            s += s
            #print(f'Error in line {line}')
#         finally:
#             print(line.strip().split())
    print(total_sum)

198203147.8000001


# Даты

In [68]:
# иногда импортируют так
import datetime

In [69]:
# можно и так
import datetime as dt

In [70]:
# у нас будет вариант покороче (но это не одно и то же)
from datetime import datetime

In [71]:
date_string = '09.05.2018  09:00'

In [72]:
# сейчас date_string это просто строка
type(date_string)

str

In [73]:
datetime.strptime('09.05.2018 09:00', '%d.%m.%Y %H:%M')

datetime.datetime(2018, 5, 9, 9, 0)

In [74]:
# https://docs.python.org/3/library/datetime.html

date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
date_datetime

datetime.datetime(2018, 5, 9, 9, 0)

In [75]:
# теперь можем работать с датами
type(date_datetime)

datetime.datetime

In [76]:
# получить номер года и часа
date_datetime.year, date_datetime.hour

(2018, 9)

In [77]:
# день недели
date_datetime.weekday()

2

In [78]:
# сегодня
datetime.now()

datetime.datetime(2020, 5, 4, 16, 33, 55, 34718)

### Упражнение
С помощью метода datetime.strptime переведите строку 'May 25 2017 5:00AM' в формат datetime.

In [79]:
dt_str = 'May 25 2017 5:00AM' 
dt = datetime.strptime(dt_str,'%B %d %Y %I:%M%p')
dt

datetime.datetime(2017, 5, 25, 5, 0)

### Прибавление интервала к датам

In [80]:
from datetime import timedelta

In [81]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [82]:
type(start_date)

str

In [83]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
start_date_datetime

datetime.datetime(2018, 1, 1, 0, 0)

In [84]:
start_date_datetime + timedelta(days=1)

datetime.datetime(2018, 1, 2, 0, 0)

In [85]:
start_date_datetime + timedelta(days=-7, minutes=-1)

datetime.datetime(2017, 12, 24, 23, 59)

### Упражнение
Дана дата в формате '2018-09-01T09:30:00'. Прибавьте к ней 12 часов 15минут и 3 секунды.

In [93]:
from datetime import timedelta
dt = datetime.strptime('2018-09-01T09:30:00', '%Y-%m-%dT%H:%M:%S')

In [94]:
dt2 = dt + timedelta(hours=12,minutes=15,seconds=3)

In [95]:
datetime.strftime(dt2,'%Y-%m-%dT%H:%M:%S')

'2018-09-01T21:45:03'

### Перевод обратно в строку

In [None]:
date = datetime(2018, 9, 1)
date

In [None]:
date.strftime('%Y-%m-%d')

In [None]:
date.strftime('%B %d %Y %I:%M%p')

In [None]:
datetime.now().strftime('%Y-%m-01')

In [None]:
# как получить первый день месяца

date.strftime('%Y-%m-01')

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
start_date, end_date

In [None]:
start_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')

print(start_date_dt, end_date_dt)

In [None]:
i = 0

while i < 10:
    # ...
    i += 1
    print(i)

In [None]:
current_dt = start_date_dt

while current_dt <= end_date_dt:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
current_dt = start_date_dt

while current_dt.strftime('%Y-%m-%d') <= end_date:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
# можно и с помощью list comprehension
[(start_date_dt + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]

### Упражнение
Напишите алгоритм, который "пробегает" период 1 до 7 сентября по часам. Формат вывода '06.01.2018 23:00:00'.

In [98]:
from datetime import timedelta
dt_start = datetime.strptime('01.09.2020 00:00:00','%d.%m.%Y %H:%M:%S')
dt_end = datetime.strptime('07.09.2020 23:59:59','%d.%m.%Y %H:%M:%S')

In [102]:
current_dt = dt_start
while current_dt < dt_end:
    print(datetime.strftime(current_dt,'%d.%m.%Y %H:%M:%S'))
    current_dt += timedelta(hours=1)

01.09.2020 00:00:00
01.09.2020 01:00:00
01.09.2020 02:00:00
01.09.2020 03:00:00
01.09.2020 04:00:00
01.09.2020 05:00:00
01.09.2020 06:00:00
01.09.2020 07:00:00
01.09.2020 08:00:00
01.09.2020 09:00:00
01.09.2020 10:00:00
01.09.2020 11:00:00
01.09.2020 12:00:00
01.09.2020 13:00:00
01.09.2020 14:00:00
01.09.2020 15:00:00
01.09.2020 16:00:00
01.09.2020 17:00:00
01.09.2020 18:00:00
01.09.2020 19:00:00
01.09.2020 20:00:00
01.09.2020 21:00:00
01.09.2020 22:00:00
01.09.2020 23:00:00
02.09.2020 00:00:00
02.09.2020 01:00:00
02.09.2020 02:00:00
02.09.2020 03:00:00
02.09.2020 04:00:00
02.09.2020 05:00:00
02.09.2020 06:00:00
02.09.2020 07:00:00
02.09.2020 08:00:00
02.09.2020 09:00:00
02.09.2020 10:00:00
02.09.2020 11:00:00
02.09.2020 12:00:00
02.09.2020 13:00:00
02.09.2020 14:00:00
02.09.2020 15:00:00
02.09.2020 16:00:00
02.09.2020 17:00:00
02.09.2020 18:00:00
02.09.2020 19:00:00
02.09.2020 20:00:00
02.09.2020 21:00:00
02.09.2020 22:00:00
02.09.2020 23:00:00
03.09.2020 00:00:00
03.09.2020 01:00:00


### Нагрузка на систему по часам

In [114]:
stats = {}

with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
        dt = line[11:13]
        stats.setdefault(dt,0)
        stats[dt] += 1
        #print(line)
        
        #break
        
        # вычисления нагрузки на систему...
        
# результат
pr_dict = {}
t_sum = sum(stats.values())
for dt_h, kol in stats.items():
    #stats[dt_h] = kol*100)/t_sum
    zn = (kol*100)/t_sum
    pr_dict.setdefault(dt_h,zn)
pr_dict

{'21': 5.9,
 '20': 6.7,
 '23': 3.6,
 '22': 3.7,
 '18': 7.2,
 '13': 5.6,
 '11': 5.2,
 '00': 2.2,
 '16': 5.6,
 '17': 5.6,
 '15': 6.8,
 '19': 6.3,
 '12': 6.4,
 '10': 7.7,
 '01': 1.0,
 '07': 2.2,
 '05': 1.0,
 '09': 3.3,
 '06': 1.9,
 '14': 5.7,
 '08': 4.2,
 '03': 0.7,
 '02': 0.8,
 '04': 0.7}

In [115]:
# а в процентном соотношении?


###  Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

In [None]:
import time
from datetime import date
from datetime import datetime

In [None]:
d = date(2019, 3, 11)

unixtime = time.mktime(d.timetuple())
unixtime

In [None]:
from datetime import datetime

In [None]:
datetime.fromtimestamp(1552251600)

На практике все сложнее https://habr.com/ru/post/452584/

# Задача про интервалы
Имеется список отсортированных по возрастанию целых чисел data. А также целое число n, которое лежит между минимальным и максимальным значениями из списка data. Вам необходимо определить минимальное ближайшее число к n из списка data.

Пример:
```python
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
```

Ответ: 17

Подобные алгоритмы используются для классификации объекта по значению одной метрики. Например, это может пригодиться для классификации учащегося по его возрасту:
```python
ages = {
    1: 'дети',
    7: 'школьники',
    17: 'студенты',
    23: 'аспиранты',
    27: 'молодые ученые',
    35: 'преподаватели',
    65: 'пенсионеры',
}
```

Итого напишите функцию, которая по списку data и числу n возвращает минимальное ближайшее к n число. Список может быть любым, поэтому не рассчитывайте на написание цепочки условий через if.

Бонусные варианты:
1. Рассмотрите ситуацию, в которой при фиксированном списке data вам необходимо классифицировать большое количество пользователей с разными значениями n. Например, вам необходимо классифицировать базу из 100 миллионов человек по возрастам по словарю ages из примера выше. Можно ли в таком случае ускорить проход по такому числу пользователей?

2. Если вы решали основное задание перебором элементов списка data и сравнением с n, то сложность такого алгоритма O(N). Т. е. при увеличении числа элементов списка data в N раз время работы алгоритма тоже вырастет в N раз. Попробуйте ускорить этот алгоритм. Например, с помощью аналога бинарного поиска.