# Обработка ошибок
1. Текст ошибки указывается в последней строчке
2. Все что перед ней - место, где ошибка произошла
3. Есть встроенные типы ошибок, но можно создавать и свои

Некоторые типы ошибок из документации (точнее [перевода](https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html)):
- ZeroDivisionError - деление на ноль
- ImportError - не удалось импортирование модуля или его атрибута (надо установить эту библиотеку)
- IndexError - индекс не входит в диапазон элементов.
- KeyError - несуществующий ключ (в словаре, множестве или другом объекте)
- MemoryError - недостаточно памяти
- SyntaxError - синтаксическая ошибка (вы опечатались или не закрыли скобку)
- TypeError - операция применена к объекту несоответствующего типа
- ValueError - функция получает аргумент правильного типа, но некорректного значения
- Warning - предупреждение (текст на красном фоне в юпитере это предупреждение, а не ошибка)

In [None]:
# эту строку можно перевести в число
some_num = '123'

In [None]:
float(some_num)

In [None]:
# а эту уже нет (по крайней мере в десятичном счислении)
ups = '123a'

In [1]:
# ValueError - тип ошибки, далее пояснение что произошло
# ----> 1 float(ups) - в каком месте кода произошла ошибка
float(ups)

NameError: name 'ups' is not defined

Пример ошибки внутри функции

In [2]:
def square_sum(*args):
    total_sum = 0
    for arg in args:
        total_sum += arg**2
    
    return total_sum

In [3]:
square_sum(1, 2, 3)

14

In [4]:
# пытаемся применить к операцию возведения в квадрат к строке
# ----> 1 square_sum(1, 2, '3') - в какой функции произошла ошибка
# ----> 4         total_sum += arg**2 - в какой именно строке произошла ошибка

square_sum(1, 2, '3')

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

## Как сделать, чтобы цикл с расчетом не падал каждый раз

In [7]:
try:
    # ваш код, где может произойти ошибка
    float('123a')

except:
    # код, который выполняется в случае ошибки
    print('error')
    pass
    

error


In [8]:
data = ['90', '60', '90', '240tot']
total_sum = 0

for num in data:
    try:
        total_sum += float(num)

    except:
        print('Ошибка в данных: {}'.format(num))
    
print('Итого', total_sum)

Ошибка в данных: 240tot
Итого 240.0


Как сохранить всю информацию об ошибке?

In [None]:
# полная версия traceback
import traceback

try:
    float('123fff')

except Exception:
    print(traceback.print_exc())
    
print('Проехали')

### Упражнение
Создайте словарь stats = {'monday': 100, 'tuesday': 200}. 

Какой тип ошибки вызовет обращение stats['wednesday']?

In [10]:
stats = {'monday': 100, 'tuesday': 200} 
try:
    stats['wednesday']
except KeyError:
    print('Неправильный ключ')

Неправильный ключ


In [11]:
stats.setdefault('wednesday',None) #не изменяет если значение по ключу,если уже есть ключ

In [12]:
stats

{'monday': 100, 'tuesday': 200, 'wednesday': None}

In [15]:
print(stats.get('saturday',None))

None


### Блок finally

In [14]:
try:
    print(stats["wednesday"])
    print(2)
    
except IndexError:
    print("Ошибка индекса")
    
except KeyError:
    print("Ошибка ключа")
    print(1/0)
    
finally:
    print('Эта строчка будет выполнена всегда')

None
2
Эта строчка будет выполнена всегда


### Более жизненный пример

In [16]:
with open('/home/rain/temp/real_data.txt', 'r') as f:
    for line in f:
        print(line.strip())

05.10.16 23:18	1010	20,2
09.10.2016T 21:40:00	1036	15,6
05.10.16 3:23	1041
05.10.16 23:19	1041
01.10.16 4:57	1042	14,8
01.10.16 23:29	1042	14,4
03.10.16 20:20	1042	14
04.10.16 0:35	1042	20
04.10.16 13:46	1042	16,2
04.10.16 17:34	1042	11
05.10.16 15:15	1042	10800000
06.10.16 20:45	1042	22,6
07.10.16 2:54	1042	22,4
07.10.16 5:02	1042	24,4
07.10.16 6:35	1042	16,6
08.10.2016T 16:46:00	1042	8,6
01.10.16 13:39	1047
05.10.16 21:41	1047
07.10.16 9:59	1052	24
08.10.2016T 19:36:00	1052	18,8
04.10.16 11:12	1057
09.10.2016T 2:47:00	1057
09.10.2016T 16:27:00	1062	11,2
05.10.16 4:38	1067	19
04.10.16 9:56	1078	23,4
04.10.16 14:36	1085	17
05.10.16 16:41	1096	20,8
01.10.16 11:55	1098	15,6
01.10.16 14:16	1100
02.10.16 1:39	1100
02.10.16 2:49	1100
02.10.16 13:05	1100
03.10.16 4:04	1100
03.10.16 6:58	1100
03.10.16 15:01	1100
04.10.16 23:43	1100
05.10.16 5:46	1100
06.10.16 0:31	1100
06.10.16 9:25	1100
08.10.2016T 15:15:00	1100
07.10.16 9:06	1105	16,2
01.10.16 4:30	1108	17,8
01.10.16 18:16	1108	18,8
02.10.1

Чем прекрасен этот файл:
1. Даты имеют разный формат: за 8 и 9 октября формат с "09.10.2016 21:40" сменился на "09.10.2016T 21:40:00" (добавилась буква T и секунды). Разработчики объяснили этот тем, что сбились настройки после обновления одной из баз данных.
2. У покупок некоторых пользователей неизвестно значение выручки, из-за чего количество столбцов в строке уменьшается на один.
3. У некоторых строк реальная сумма покупки умножена на миллион. Так иногда действительно делают, чтобы избежать дробных чисел и работать только с целыми.

### Упражнение
Посчитайте сумму выручки из третьего столбца. Пока не обращайте внимания на помноженную на миллион выручку.

In [None]:
def count_lines(filename, chunk_size=1<<13):
    '''Файл открывается в текстовом режиме (перевод строки преобразуется в '\n' на всех системах), 
    читается блоками по 8K символов в каждом до конца файла и количество '\n' в каждом блоке суммируется, 
    чтобы найти общее число строк.
    '''
    with open(filename) as file:
        return sum(chunk.count('\n')
                   for chunk in iter(lambda: file.read(chunk_size), ''))

In [66]:
# .txt

def count_lines_for_txt(filename):
    with open(filename, 'r') as myfile:
        count = sum(1 for line in myfile)

        print(count)

In [78]:
sum_=0.0
none_str = 0
not_empty = 0

count_lines_for_txt('real_data.txt')
            

with open('real_data.txt', 'r') as f:
 
    i = 0
    for line in f:
        try:
            #print(line.replace(",", ".").strip().split()[3])
            sum_+=float(line.replace(",", ".").strip().split('\t')[2])
            #sum_+=float(line.replace(",", ".").strip().split('')[3])
            not_empty+=1
        except IndexError:
            none_str+=1
            #print('Пустое значение')
            pass
        except:
            print('Error')
            #sum_+=int(line.strip().split()[3])

        
        
        #i+=1
        #if i>10:
        #    break
            
sum_,none_str,not_empty

294


(198203147.8000001, 104, 190)

# Даты

In [None]:
# иногда импортируют так
import datetime

In [None]:
# можно и так
import datetime as dt

In [2]:
# у нас будет вариант покороче (но это не одно и то же)
from datetime import datetime

In [11]:
date_string = '09.05.2018  09:00'

In [81]:
# сейчас date_string это просто строка
type(date_string)

str

In [12]:
datetime.strptime('09.05.2018 09:00', '%d.%m.%Y %H:%M')

datetime.datetime(2018, 5, 9, 9, 0)

In [13]:
# https://docs.python.org/3/library/datetime.html

date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
date_datetime

datetime.datetime(2018, 5, 9, 9, 0)

In [84]:
# теперь можем работать с датами
type(date_datetime)

datetime.datetime

In [85]:
# получить номер года и часа
date_datetime.year, date_datetime.hour

(2018, 9)

In [87]:
# день недели
date_datetime.weekday()

2

In [88]:
# сегодня
datetime.now()

datetime.datetime(2022, 2, 12, 23, 32, 42, 50706)

### Упражнение
С помощью метода datetime.strptime переведите строку 'May 25 2017 5:00AM' в формат datetime.

In [20]:
mystr = 'May 25 2017 5:00AM'
try:
    d = datetime.strptime(mystr,'%B %d %Y %I:%M%p')
except:
    d = datetime.strptime(mystr,'%b %d %Y %I:%M%p')

    
d

datetime.datetime(2017, 5, 25, 5, 0)

In [21]:
date_datetime.isocalendar()

datetime.IsoCalendarDate(year=2018, week=19, weekday=3)

### Прибавление интервала к датам

In [1]:
from datetime import timedelta

In [23]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [24]:
type(start_date)

str

In [25]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
start_date_datetime

datetime.datetime(2018, 1, 1, 0, 0)

In [26]:
start_date_datetime + timedelta(days=1)

datetime.datetime(2018, 1, 2, 0, 0)

In [27]:
start_date_datetime + timedelta(days=-7, minutes=-1)
#учитывает високосные года

datetime.datetime(2017, 12, 24, 23, 59)

In [32]:
datetime(2018, 1, 9, 0, 0) - datetime(2018, 1, 2, 0, 0)

datetime.timedelta(days=7)

In [33]:
(datetime(2018, 1, 9, 0, 0) - datetime(2018, 1, 2, 0, 0)).days

7

### Упражнение
Дана дата в формате '2018-09-01T09:30:00'. Прибавьте к ней 12 часов 15минут и 3 секунды.

In [36]:
next_str = '2018-09-01T09:30:00'
d_next = datetime.strptime(next_str,'%Y-%m-%dT%H:%M:%S')
d_next


datetime.datetime(2018, 9, 1, 9, 30)

In [45]:
d_next+timedelta(hours =12, minutes=15, seconds = 3)

datetime.datetime(2018, 9, 1, 21, 45, 3)

### Перевод обратно в строку

In [65]:
date = datetime(2018, 9, 1)
date

datetime.datetime(2018, 9, 1, 0, 0)

In [66]:
date.strftime('%Y-%m-%d')

'2018-09-01'

In [67]:
date.strftime('%B %d %Y %I:%M%p')

'September 01 2018 12:00AM'

In [68]:
datetime.now().strftime('%Y-%m-01')

'2022-02-01'

In [69]:
# как получить первый день месяца

date.strftime('%Y-%m-01')

'2018-09-01'

In [86]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [87]:
start_date, end_date

('2018-01-01', '2018-01-07')

In [97]:
start_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')

print(start_date_dt, end_date_dt,type(start_date_dt))

2018-01-01 00:00:00 2018-01-07 00:00:00 <class 'datetime.datetime'>


In [54]:
i = 0

while i < 10:
    # ...
    i += 1
    print(i)

1
2
3
4
5
6
7
8
9
10


In [93]:
current_dt = start_date_dt
print(type(current))
while current_dt <= end_date_dt:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

<class 'datetime.datetime'>
2018-01-01
2018-01-02
2018-01-03
2018-01-04
2018-01-05
2018-01-06
2018-01-07


In [85]:
current_dt = start_date_dt

while current_dt.strftime('%Y-%m-%d') <= end_date:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

AttributeError: 'str' object has no attribute 'strftime'

In [75]:
# можно и с помощью list comprehension
[(start_date_dt + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]

['2018-01-01',
 '2018-01-02',
 '2018-01-03',
 '2018-01-04',
 '2018-01-05',
 '2018-01-06',
 '2018-01-07',
 '2018-01-08',
 '2018-01-09',
 '2018-01-10']

### Упражнение
Напишите алгоритм, который "пробегает" период 1 до 7 сентября по часам. Формат вывода '06.01.2018 23:00:00'.

In [2]:
from datetime import datetime
from datetime import timedelta

start = '01.09.2018 23:00:00'
end = '07.09.2018 23:00:00'
start_con = datetime.strptime(start, '%d.%m.%Y %H:%M:%S')
end_con = datetime.strptime(end, '%d.%m.%Y %H:%M:%S')
current_con = start_con
#type(start),type(start_con)
while current_con <= end_con:
    print(current_con.strftime('%d.%m.%Y %H:%M:%S'))

    current_con += timedelta(hours=1)

01.09.2018 23:00:00
02.09.2018 00:00:00
02.09.2018 01:00:00
02.09.2018 02:00:00
02.09.2018 03:00:00
02.09.2018 04:00:00
02.09.2018 05:00:00
02.09.2018 06:00:00
02.09.2018 07:00:00
02.09.2018 08:00:00
02.09.2018 09:00:00
02.09.2018 10:00:00
02.09.2018 11:00:00
02.09.2018 12:00:00
02.09.2018 13:00:00
02.09.2018 14:00:00
02.09.2018 15:00:00
02.09.2018 16:00:00
02.09.2018 17:00:00
02.09.2018 18:00:00
02.09.2018 19:00:00
02.09.2018 20:00:00
02.09.2018 21:00:00
02.09.2018 22:00:00
02.09.2018 23:00:00
03.09.2018 00:00:00
03.09.2018 01:00:00
03.09.2018 02:00:00
03.09.2018 03:00:00
03.09.2018 04:00:00
03.09.2018 05:00:00
03.09.2018 06:00:00
03.09.2018 07:00:00
03.09.2018 08:00:00
03.09.2018 09:00:00
03.09.2018 10:00:00
03.09.2018 11:00:00
03.09.2018 12:00:00
03.09.2018 13:00:00
03.09.2018 14:00:00
03.09.2018 15:00:00
03.09.2018 16:00:00
03.09.2018 17:00:00
03.09.2018 18:00:00
03.09.2018 19:00:00
03.09.2018 20:00:00
03.09.2018 21:00:00
03.09.2018 22:00:00
03.09.2018 23:00:00
04.09.2018 00:00:00


### Нагрузка на систему по часам

In [13]:
stats = {}

with open('/home/rain/temp/logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
        
        #dt = datetime.strptime(line, "%Y-%m-%dT%H:%M:%SZ")
        dt = line[11:13] #более быстро
        stats.setdefault(dt, 0)
        stats[dt] +=1
        # вычисления нагрузки на систему...
        
# результат
print(stats) 
max_=0
for i in stats.values():
    max_=max(max_,i)
    
max_

{'21': 59, '20': 67, '23': 36, '22': 37, '18': 72, '13': 56, '11': 52, '00': 22, '16': 56, '17': 56, '15': 68, '19': 63, '12': 64, '10': 77, '01': 10, '07': 22, '05': 10, '09': 33, '06': 19, '14': 57, '08': 42, '03': 7, '02': 8, '04': 7}


77

In [None]:
# а в процентном соотношении?


###  Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

In [14]:
import time
from datetime import date
from datetime import datetime

In [21]:
d = date(2019, 3, 11,0,0)

unixtime = time.mktime(d.timetuple())
unixtime

TypeError: function takes at most 3 arguments (5 given)

In [23]:
datetime(2012, 4, 1, 0, 0).timestamp()#временная зона учитывается,поэтому разница может быть в 1 час или более

1333224000.0

In [24]:
from datetime import datetime

In [25]:
datetime.fromtimestamp(1552251600)

datetime.datetime(2019, 3, 11, 1, 0)

На практике все сложнее https://habr.com/ru/post/452584/

# Задача про интервалы
Имеется список отсортированных по возрастанию целых чисел data. А также целое число n, которое лежит между минимальным и максимальным значениями из списка data. Вам необходимо определить минимальное ближайшее число к n из списка data.

Пример:
```python
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
```

Ответ: 17

Подобные алгоритмы используются для классификации объекта по значению одной метрики. Например, это может пригодиться для классификации учащегося по его возрасту:
```python
ages = {
    1: 'дети',
    7: 'школьники',
    17: 'студенты',
    23: 'аспиранты',
    27: 'молодые ученые',
    35: 'преподаватели',
    65: 'пенсионеры',
}
```

Итого напишите функцию, которая по списку data и числу n возвращает минимальное ближайшее к n число. Список может быть любым, поэтому не рассчитывайте на написание цепочки условий через if.

Бонусные варианты:
1. Рассмотрите ситуацию, в которой при фиксированном списке data вам необходимо классифицировать большое количество пользователей с разными значениями n. Например, вам необходимо классифицировать базу из 100 миллионов человек по возрастам по словарю ages из примера выше. Можно ли в таком случае ускорить проход по такому числу пользователей?

2. Если вы решали основное задание перебором элементов списка data и сравнением с n, то сложность такого алгоритма O(N). Т. е. при увеличении числа элементов списка data в N раз время работы алгоритма тоже вырастет в N раз. Попробуйте ускорить этот алгоритм. Например, с помощью аналога бинарного поиска.

In [3]:
# O(N)
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
diff = abs(data[0] - n)  # diff = 10000000
print(diff)
j = 1
idiff = -1
while(j < len(data)):
    print('|data[{}]-n|='.format(j), abs(data[j]-n))
    if abs(data[j] - n) < diff :
        diff = abs(data[j] - n)
        idiff = j
    j += 1

diff, data[idiff]

19
|data[1]-n|= 13
|data[2]-n|= 3
|data[3]-n|= 3
|data[4]-n|= 7
|data[5]-n|= 15
|data[6]-n|= 45


(3, 17)

In [1]:
# Потенциально O(logn)

#data = [1, 7, 17, 23, 27, 35, 65]
data = [1, 3, 6, 10, 15, 21, 28] # падает в [1, 28] indexerror
n = 20
#diff = abs(data[0] - n) 
diff = 10000000
print(diff)


left = -1
right = len(data)

while(left + 1 < right):

    mid = (left + right)//2

    print(mid)

    print('|data[{}]-n| ='.format(mid),
          abs(data[mid]-n), "data[mid] =", data[mid])

    if abs(data[mid] - n) < diff and abs(data[mid + 1] - n) < abs(data[mid] - n):
        diff = abs(data[mid] - n)
        left = mid
    else:
        right = mid

print("Разница", abs(data[right] - n))
print("Самое близкое число", data[right])
print("индекс самого близкого числа", right)

10000000
3
|data[3]-n| = 3 data[mid] = 23
1
|data[1]-n| = 13 data[mid] = 7
2
|data[2]-n| = 3 data[mid] = 17
Разница 3
Самое близкое число 17
индекс самого близкого числа 2
