Внизу есть задача для тех, кто это уже знает

# Обработка ошибок
1. Текст ошибки указывается в последней строчке
2. Все что перед ней - место, где ошибка произошла
3. Есть встроенные типы ошибок, но можно создавать и свои

Некоторые типы ошибок из документации (точнее [перевода](https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html)):
- ZeroDivisionError - деление на ноль
- ImportError - не удалось импортирование модуля или его атрибута (надо установить эту библиотеку)
- IndexError - индекс не входит в диапазон элементов.
- KeyError - несуществующий ключ (в словаре, множестве или другом объекте)
- MemoryError - недостаточно памяти
- SyntaxError - синтаксическая ошибка (вы опечатались или не закрыли скобку)
- TypeError - операция применена к объекту несоответствующего типа
- ValueError - функция получает аргумент правильного типа, но некорректного значения
- Warning - предупреждение (текст на красном фоне в юпитере это предупреждение, а не ошибка)

In [None]:
# эту строку можно перевести в число
some_num = '123'

In [None]:
float(some_num)

In [None]:
# а эту уже нет (по крайней мере в десятичном счислении)
ups = '123a'

In [None]:
# ValueError - тип ошибки, далее пояснение что произошло
# ----> 1 float(ups) - в каком месте кода произошла ошибка
float(ups)

Пример ошибки внутри функции

In [None]:
def square_sum(*args):
    total_sum = 0
    for arg in args:
        total_sum += arg**2
    
    return total_sum

In [None]:
square_sum(1, 2, 3)

In [None]:
# пытаемся применить к операцию возведения в квадрат к строке
# ----> 1 square_sum(1, 2, '3') - в какой функции произошла ошибка
# ----> 4         total_sum += arg**2 - в какой именно строке произошла ошибка

square_sum(1, 2, '3')

## Как сделать, чтобы цикл с расчетом не падал каждый раз

In [None]:
try:
    # ваш код, где может произойти ошибка
    float('123a')

except:
    # код, который выполняется в случае ошибки
    

In [None]:
data = ['90', '60', '90', '240tot']
total_sum = 0

for num in data:
    try:
        total_sum += float(num)

    except:
        print('Ошибка в данных: {}'.format(num))
    
print('Итого', total_sum)

Как сохранить всю информацию об ошибке?

In [None]:
# полная версия traceback
import traceback

try:
    float('123fff')

except Exception:
    print(traceback.print_exc())
    
print('Проехали')

### Блок finally

In [None]:
try:
    print(stats["wednesday"])
    
except IndexError:
    print("Ошибка индекса")
    
except KeyError:
    print("Ошибка ключа")
    print(1/0)
    
finally:
    print('Эта строчка будет выполнена всегда')

### Более жизненный пример

In [None]:
with open('real_data.txt', 'r') as f:
    for line in f:
        print(line.strip())

Чем прекрасен этот файл:
1. Даты имеют разный формат: за 8 и 9 октября формат с "09.10.2016 21:40" сменился на "09.10.2016T 21:40:00" (добавилась буква T и секунды). Разработчики объяснили этот тем, что сбились настройки после обновления одной из баз данных.
2. У покупок некоторых пользователей неизвестно значение выручки, из-за чего количество столбцов в строке уменьшается на один.
3. У некоторых строк реальная сумма покупки умножена на миллион. Так иногда действительно делают, чтобы избежать дробных чисел и работать только с целыми.

Необходимо посчитать сумму выручки из третьего столбца.

# Даты

In [1]:
# иногда импортируют так
import datetime

In [None]:
# можно и так
import datetime as dt

In [3]:
# у нас будет вариант покороче (но это не одно и то же)
from datetime import datetime

In [None]:
date_string = '09.05.2018  09:00'

In [None]:
# сейчас date_string это просто строка
type(date_string)

In [None]:
datetime.strptime('09.05.2018 09:00', '%d.%m.%Y %H:%M')

In [None]:
# https://docs.python.org/3/library/datetime.html

date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
date_datetime

In [None]:
# теперь можем работать с датами
type(date_datetime)

In [None]:
# получить номер года и часа
date_datetime.year, date_datetime.hour

In [None]:
# день недели
date_datetime.weekday()

In [None]:
# сегодня
datetime.now()

### Упражнение
С помощью метода datetime.strptime переведите строку 'May 25 2017 5:00AM' в формат datetime.

In [5]:
exic_datetime = datetime.strptime('May 25 2017 5:00AM', '%B %d %Y %I:%M%p')

In [6]:
exic_datetime

datetime.datetime(2017, 5, 25, 5, 0)

### Прибавление интервала к датам

In [None]:
from datetime import timedelta

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
type(start_date)

In [None]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
start_date_datetime

In [None]:
start_date_datetime + timedelta(days=1)

In [None]:
start_date_datetime + timedelta(days=-7, minutes=-1)

### Перевод обратно в строку

In [None]:
date = datetime(2018, 9, 1)
date

In [None]:
date.strftime('%Y-%m-%d')

In [None]:
date.strftime('%B %d %Y %I:%M%p')

In [None]:
datetime.now().strftime('%Y-%m-01')

In [None]:
# как получить первый день месяца

date.strftime('%Y-%m-01')

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
start_date, end_date

In [None]:
start_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')

print(start_date_dt, end_date_dt)

In [None]:
i = 0

while i < 10:
    # ...
    i += 1
    print(i)

In [None]:
current_dt = start_date_dt

while current_dt <= end_date_dt:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
current_dt = start_date_dt

while current_dt.strftime('%Y-%m-%d') <= end_date:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
# можно и с помощью list comprehension
[(start_date_dt + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]

### Нагрузка на систему по часам

In [None]:
stats = {}

with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
        print(line)
        
        break
        
        # вычисления нагрузки на систему...
        
# результат
stats

In [None]:
# а в процентном соотношении?


###  Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

In [None]:
import time
from datetime import date
from datetime import datetime

In [None]:
d = date(2019, 3, 11)

unixtime = time.mktime(d.timetuple())
unixtime

In [None]:
from datetime import datetime

In [None]:
datetime.fromtimestamp(1552251600)

На практике все сложнее https://habr.com/ru/post/452584/

# Начал домашку с решения этих

# Задача про интервалы

Имеется список отсортированных по возрастанию целых чисел data. А также целое число n, которое лежит между минимальным и максимальным значениями из списка data. Вам необходимо определить минимальное ближайшее число к n из списка data.

Пример:
```python
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
```

Ответ: 17

Подобные алгоритмы используются для классификации объекта по значению одной метрики. Например, это может пригодиться для классификации учащегося по его возрасту:
```python
ages = {
    1: 'дети',
    7: 'школьники',
    17: 'студенты',
    23: 'аспиранты',
    27: 'молодые ученые',
    35: 'преподаватели',
    65: 'пенсионеры',
}
```

Итого напишите функцию, которая по списку data и числу n возвращает минимальное ближайшее к n число. Список может быть любым, поэтому не рассчитывайте на написание цепочки условий через if.

Бонусные варианты (решен далее):
1. Рассмотрите ситуацию, в которой при фиксированном списке data вам необходимо классифицировать большое количество пользователей с разными значениями n. Например, вам необходимо классифицировать базу из 100 миллионов человек по возрастам по словарю ages из примера выше. Можно ли в таком случае ускорить проход по такому числу пользователей?

2. Если вы решали основное задание перебором элементов списка data и сравнением с n, то сложность такого алгоритма O(N). Т. е. при увеличении числа элементов списка data в N раз время работы алгоритма тоже вырастет в N раз. Попробуйте ускорить этот алгоритм. Например, с помощью аналога бинарного поиска.

In [12]:
# про интервалы
data = [1, 7, 17, 23, 27, 35, 65]
data_len = len(data)
n = 22

In [9]:
mbc, r = data[0], abs(data[0] - n)
for i in range(1, data_len):
    if r > abs(data[i] - n):
        mbc, r = data[i], abs(data[i] - n)
        
print(mbc)    

23


In [13]:
# классификая по значению
ages = {
    1: 'дети',
    7: 'школьники',
    17: 'студенты',
    23: 'аспиранты',
    27: 'молодые ученые',
    35: 'преподаватели',
    65: 'пенсионеры',
}

In [26]:
ages_keys = list(ages.keys())
ages_len = len(ages_keys)
age_ = int(input())

mba, ra = ages_keys[0], abs(ages_keys[0] - age_)
for i in range(1, ages_len):
    if ra > abs(ages_keys[i] - age_):
        mba, ra = ages_keys[i], abs(ages_keys[i] - age_)
        
print(ages[mba])

25
аспиранты


### Бонусные варианты:

1. Рассмотрите ситуацию, в которой при фиксированном списке data вам необходимо классифицировать большое количество пользователей с разными значениями n. Например, вам необходимо классифицировать базу из 100 миллионов человек по возрастам по словарю ages из примера выше. Можно ли в таком случае ускорить проход по такому числу пользователей?

1. Если вы решали основное задание перебором элементов списка data и сравнением с n, то сложность такого алгоритма O(N). Т. е. при увеличении числа элементов списка data в N раз время работы алгоритма тоже вырастет в N раз. Попробуйте ускорить этот алгоритм. Например, с помощью аналога бинарного поиска.

### Решение

В нем реализован аналог бинарного поиска

1. Для кода далее нужен список data, который должен быть инициализирован в блоках выше.
2. Также ему нужен словарь ages.

In [28]:
fin = open("age_names.csv", "r")
fout = open("age_names_classification.csv", "w")

line_ = fin.readline()

for i, line in enumerate(fin):
    age1, name1 = line.strip().split(",")
    age1 = int(age1)
    
    left, right = 0, len(data) - 1
    
    res_index = -1
    
    while left < right:
        mid = (left + right) // 2

        if age1 == data[mid]:
            res_index = mid
            break
        
        elif age1 < data[mid]:
            right = mid
            
        else:
            left = mid
        
        if right - left < 2:
            break
    
    if res_index == -1:
        res_index = left
        if abs(data[left] - age1) > abs(data[right] - age1):
            res_index = right
    
    print(name1, " (", age1, ")", ": ", ages[data[res_index]], sep='', file=fout)

fin.close()
fout.close()

# Теперь задания из ДЗ

## Задание 1

Печатные газеты использовали свой формат дат для каждого выпуска. Для каждой газеты из списка напишите формат указанной даты для перевода в объект datetime:

- The Moscow Times - Wednesday, October 2, 2002
- The Guardian - Friday, 11.10.13
- Daily News - Thursday, 18 August 1977

In [33]:
from datetime import datetime as dt

# for The Moscow Times
mtime = dt.strptime("Wednesday, October 2, 2002", "%A, %B %d, %Y")
print(mtime, type(mtime))

# for The Guardian
# неоднозначность данного формата исследована )) прямым изучением календаря - только 11 октября 2013 - пятница. 
gtime = dt.strptime("Friday, 11.10.13", "%A, %d.%m.%y")
print(gtime, type(gtime))

dtime = dt.strptime("Thursday, 18 August 1977", "%A, %d %B %Y")
print(dtime, type(dtime))

2002-10-02 00:00:00 <class 'datetime.datetime'>
2013-10-11 00:00:00 <class 'datetime.datetime'>
1977-08-18 00:00:00 <class 'datetime.datetime'>


## Задание 2

Дан поток дат в формате YYYY-MM-DD, в которых встречаются некорректные значения:
stream = ['2018-04-02', '2018-02-29', '2018-19-02']

Напишите функцию, которая проверяет эти даты на корректность. Т. е. для каждой даты возвращает True (дата корректна) или False (некорректная дата). 

In [40]:
def is_correct_data(date_str):
    try:
        stream_date = dt.strptime(date_str, "%Y-%m-%d")
        return True
    except:
        return False

stream = ['2018-04-02', '2018-02-29', '2018-19-02']

for date_str in stream:
    print(is_correct_data(date_str))

True
False
False


## Задание 3

Напишите функцию date_range, которая возвращает список дат за период от start_date до end_date. Даты должны вводиться в формате YYYY-MM-DD. В случае неверного формата или при start_date > end_date должен возвращаться пустой список.

In [54]:
# при решении этой задачи использована функция из предыдущей задачи - так что она должна быть "активирована"

from datetime import timedelta

def date_range(start_date, end_date):
    if is_correct_data(start_date) and is_correct_data(end_date):
        sd = dt.strptime(start_date, "%Y-%m-%d")
        ed = dt.strptime(end_date, "%Y-%m-%d")
        if sd < ed:
            tt_delta = (ed - sd).days
            return [sd + timedelta(days=day) for day in range(tt_delta)]
        else:
            return []
    else:
        return []

start_date = "2020-09-01"
end_date = "2020-09-11"

print(*date_range(start_date, end_date), sep='\n')

2020-09-01 00:00:00
2020-09-02 00:00:00
2020-09-03 00:00:00
2020-09-04 00:00:00
2020-09-05 00:00:00
2020-09-06 00:00:00
2020-09-07 00:00:00
2020-09-08 00:00:00
2020-09-09 00:00:00
2020-09-10 00:00:00


## Задание 4 (бонусное)

Ваш коллега прислал код функции:

DEFAULT_USER_COUNT = 3

def delete_and_return_last_user(region, default_list=['A100', 'A101', 'A102']):
    """
    Удаляет из списка default_list последнего пользователя 
    и возвращает ID нового последнего пользователя.
    """
    element_to_delete = default_list[-1]
    default_list.remove(element_to_delete)
    
    return default_list[DEFAULT_USER_COUNT-2]

При однократном вызове этой функции все работает корректно:
delete_and_return_last_user(1)
'A101'

Однако, при повторном вызове получается ошибка IndexError: list index out of range.

Задание:
1. Что значит ошибка list index out of range?
2. Почему при первом запуске функция работает корректно, а при втором - нет?

### Решаем

1. list index out of range - очевидно, что данная ошибка указывает на то, что была попытка обратиться к элементу списка по индексу, которого нет. Т.е. в списке нет элемента с индексом, в поисках которого к нему обратились.
2. Почему...
    * При первом запуске в default_list было 3 элемента с индексами (0, 1, 2), а после его работы в нем осталось 2 элемента. 
    * Повторный запуск снова удалил последний элемент списка (напомню, что там было всего 2 элемента) с индексом 1, и в нем остался последний (точнее, первый) и единственный элемент с индексом 0. А в строке кода return default_list[DEFAULT_USER_COUNT-2] идет обращение к элементу списка с индексом DEFAULT_USER_COUNT-2, который стабильно равен 1 - а такого индекса у нас в списке уже нет. 