# Вопросы из Слака

### Конструкция
```python
line = json.loads(line.strip())
content[line['x']] = line['y']
```

In [6]:
import json

In [11]:
line = '{"x": 1, "y": 2}'
line

'{"x": 1, "y": 2}'

In [12]:
line = json.loads(line.strip())
line, type(line)

({'x': 1, 'y': 2}, dict)

In [13]:
line['x']

1

In [14]:
content = {}

In [16]:
content[line['x']] = line['y']
content

{1: 2}

### Оператор return
В каких случаях нужен, в каких нет? Особенно если нужно выводить какие-то значения из списков или словарей в циклах. Часто если использую return, он останавливает перебор элементов, выводит значения только по первому элементу. Если return убираю и на вывод пишу просто print, то все элементы цикла перебираются. 

In [21]:
data = [1, 2, 3, 4, 5]

def func(data):
    """возвращает список четных чисел: [2, 4]"""
    final_list = []
    
    for num in data:
        if num % 2 == 0:
            # return сразу заканчивает работу функции
            # return [num]
            
            # можно, но бесполезно
            print(num)
            
            final_list.append(num)
            
    # после отработки цикла for num in data
    return final_list

In [23]:
result = func(data)

2
4


In [26]:
func(data)

2
4


[2, 4]

In [24]:
result

[2, 4]

# Задача про интервалы
Имеется список отсортированных по возрастанию целых чисел data. А также целое число n, которое лежит между минимальным и максимальным значениями из списка data. Вам необходимо определить минимальное ближайшее число к n из списка data.

Пример:
```python
data = [1, 7, 17, 23, 27, 35, 65]
n = 20
```

In [27]:
data = [1, 7, 17, 23, 27, 35, 65]
n = 20

In [32]:
%%time

for i, num in enumerate(data[:-1]):
    print(i, num, data[i+1])
    
    if num < n < data[i+1]:
        print(num, i, i+1)
        break

0 1 7
1 7 17
2 17 23
17 2 3
CPU times: user 328 µs, sys: 166 µs, total: 494 µs
Wall time: 379 µs


### Бинарный поиск
Бумажные телефонные справочники

In [None]:
[1, 7, 17, 23, 27, 35, 65]

### Код на тестовых данных
10 сек

### Используем его на боевых данных?
Во сколько раз вырастет количество шагов/секунд при увеличении данных в N раз?

# O(N) - линейный поиск
x100 --> x100

- 1000 --> 10 шагов
- 2000 --> 10+1 = 11 шагов
- 4000 --> 12 шагов
- 16 000 --> 14 шагов

In [None]:
2**N --> N

In [None]:
N --> log_2(N)

In [None]:
O(log_2(N))

In [None]:
1024 --> 1024 раза
1024 --> 10 раз

### Самый быстрый алгоритм?
O(1) - поиск по словарю и множеству

In [43]:
data = list(range(1000))

In [44]:
data.__sizeof__()

8040

In [36]:
%%time

for _ in range(10**6):
    500 in data

CPU times: user 5.8 s, sys: 22.6 ms, total: 5.82 s
Wall time: 5.9 s


In [45]:
data = set(range(1000))

In [46]:
data.__sizeof__()

32968

In [38]:
%%time

for _ in range(10**6):
    500 in data

CPU times: user 76.4 ms, sys: 1.91 ms, total: 78.3 ms
Wall time: 78 ms


Если увеличиваем размер множества

In [39]:
data = set(range(10**6))

In [42]:
%%time

for _ in range(10**6):
    500 in data

CPU times: user 84.6 ms, sys: 2.02 ms, total: 86.6 ms
Wall time: 86.3 ms


# Обработка ошибок
1. Текст ошибки указывается в последней строчке
2. Все что перед ней - место, где ошибка произошла
3. Есть встроенные типы ошибок, но можно создавать и свои

Некоторые типы ошибок из документации (точнее [перевода](https://pythonworld.ru/tipy-dannyx-v-python/isklyucheniya-v-python-konstrukciya-try-except-dlya-obrabotki-isklyuchenij.html)):
- ZeroDivisionError - деление на ноль
- ImportError - не удалось импортирование модуля или его атрибута (надо установить эту библиотеку)
- IndexError - индекс не входит в диапазон элементов.
- KeyError - несуществующий ключ (в словаре, множестве или другом объекте)
- MemoryError - недостаточно памяти
- SyntaxError - синтаксическая ошибка (вы опечатались или не закрыли скобку)
- TypeError - операция применена к объекту несоответствующего типа
- ValueError - функция получает аргумент правильного типа, но некорректного значения
- Warning - предупреждение (текст на красном фоне в юпитере это предупреждение, а не ошибка)

In [None]:
# эту строку можно перевести в число
some_num = '123'

In [None]:
float(some_num)

In [None]:
# а эту уже нет (по крайней мере в десятичном счислении)
ups = '123a'

In [None]:
# ValueError - тип ошибки, далее пояснение что произошло
# ----> 1 float(ups) - в каком месте кода произошла ошибка
float(ups)

Пример ошибки внутри функции

In [50]:
args_v0 = ~1

In [47]:
def square_sum(*args_v1):
    total_sum = 0
    for arg in args_v0:
        total_sum += arg**2
    
    return total_sum

In [48]:
square_sum(1, 2, 3)

14

In [49]:
# пытаемся применить к операцию возведения в квадрат к строке
# ----> 1 square_sum(1, 2, '3') - в какой функции произошла ошибка
# ----> 4         total_sum += arg**2 - в какой именно строке произошла ошибка

square_sum(1, 2, '3')

TypeError: unsupported operand type(s) for ** or pow(): 'str' and 'int'

### Наша тактика
1. Перевести последнюю строчку на русский язык
2. Поискать в поисковиках
3. Обратиться к коллегам
- Если у нас рабочая задача - сначала сказать какую проблему вы решаете (!!!)
- Если задача учебная/рабочая:
- путь 1 - обязательно скидывать всю информацию (плохие примеры - у меня работает вот такая строчка: open('data.csv') ** 2)

4. Самый правильный способ - сделать воспроизводимый пример
- половина ошибок - запутывание в порядке выполнения ячеек
- воспроизводимость ошибки: 
1) (хороший вариант) - ошибка воспроизводится
2) ошибка не воспроизводится

In [51]:
stats = {}
stats

{}

In [52]:
stats[15] = 0
stats[15] += 1
stats

{15: 1}

In [53]:
stats[20] += 1

KeyError: 20

In [None]:
if 20 in stats:
    stats[20] += 1
else:
    stats[20] = 1

In [54]:
stats

{15: 1}

In [55]:
stats.setdefault(15, 0)
stats

{15: 1}

In [56]:
stats.setdefault(20, 0)

0

In [57]:
stats

{15: 1, 20: 0}

In [58]:
stats.setdefault(24, 0)
stats[24] += 1

In [59]:
stats

{15: 1, 20: 0, 24: 1}

In [60]:
stats.setdefault(None, 0)

0

In [61]:
stats

{15: 1, 20: 0, 24: 1, None: 0}

### map, list comprehention или цикл for

In [None]:
# самый простой и надежный - сразу через цикл for
for item in iter_:
    # код

In [None]:
# list comprehension - синтаксический сахар

In [79]:
# map

data = [1 ,3 ,5 ,6 ,'7', 8]
data

[1, 3, 5, 6, '7', 8]

In [80]:
f = lambda x: x % 2

In [72]:
[f(x) for x in data]

TypeError: not all arguments converted during string formatting

In [81]:
res = map(f, data)
res

<map at 0x7f95b8acfbe0>

In [82]:
next(res)

1

In [83]:
next(res)

1

In [84]:
next(res)

1

In [87]:
next(res)

0

In [86]:
next(res)

TypeError: not all arguments converted during string formatting

In [69]:
for i in res:
    print(i)

1
1
0
1


In [None]:
f.readline()

In [None]:
f.readlines()

## Как сделать, чтобы цикл с расчетом не падал каждый раз

In [None]:
try:
    # ваш код, где может произойти ошибка
    float('123a')

except:
    # код, который выполняется в случае ошибки
    

In [None]:
data = ['90', '60', '90', '240tot']
total_sum = 0

for num in data:
    try:
        total_sum += float(num)

    except:
        print('Ошибка в данных: {}'.format(num))
    
print('Итого', total_sum)

Как сохранить всю информацию об ошибке?

In [None]:
# полная версия traceback
import traceback

try:
    float('123fff')

except Exception:
    print(traceback.print_exc())
    
print('Проехали')

### Блок finally

In [None]:
try:
    print(stats["wednesday"])
    
except IndexError:
    print("Ошибка индекса")
    
except KeyError:
    print("Ошибка ключа")
    print(1/0)
    
finally:
    print('Эта строчка будет выполнена всегда')

### Более жизненный пример

In [None]:
with open('real_data.txt', 'r') as f:
    for line in f:
        print(line.strip())

Чем прекрасен этот файл:
1. Даты имеют разный формат: за 8 и 9 октября формат с "09.10.2016 21:40" сменился на "09.10.2016T 21:40:00" (добавилась буква T и секунды). Разработчики объяснили этот тем, что сбились настройки после обновления одной из баз данных.
2. У покупок некоторых пользователей неизвестно значение выручки, из-за чего количество столбцов в строке уменьшается на один.
3. У некоторых строк реальная сумма покупки умножена на миллион. Так иногда действительно делают, чтобы избежать дробных чисел и работать только с целыми.

Необходимо посчитать сумму выручки из третьего столбца.

# Даты

In [None]:
# иногда импортируют так
import datetime

In [None]:
# можно и так
import datetime as dt

In [None]:
# у нас будет вариант покороче (но это не одно и то же)
from datetime import datetime

In [None]:
date_string = '09.05.2018  09:00'

In [None]:
# сейчас date_string это просто строка
type(date_string)

In [None]:
datetime.strptime('09.05.2018 09:00', '%d.%m.%Y %H:%M')

In [None]:
# https://docs.python.org/3/library/datetime.html

date_datetime = datetime.strptime( date_string, '%d.%m.%Y %H:%M' )
date_datetime

In [None]:
# теперь можем работать с датами
type(date_datetime)

In [None]:
# получить номер года и часа
date_datetime.year, date_datetime.hour

In [None]:
# день недели
date_datetime.weekday()

In [None]:
# сегодня
datetime.now()

### Упражнение
С помощью метода datetime.strptime переведите строку 'May 25 2017 5:00AM' в формат datetime.

### Прибавление интервала к датам

In [None]:
from datetime import timedelta

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
type(start_date)

In [None]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
start_date_datetime

In [None]:
start_date_datetime + timedelta(days=1)

In [None]:
start_date_datetime + timedelta(days=-7, minutes=-1)

### Перевод обратно в строку

In [None]:
date = datetime(2018, 9, 1)
date

In [None]:
date.strftime('%Y-%m-%d')

In [None]:
date.strftime('%B %d %Y %I:%M%p')

In [None]:
datetime.now().strftime('%Y-%m-01')

In [None]:
# как получить первый день месяца

date.strftime('%Y-%m-01')

In [None]:
start_date = '2018-01-01'
end_date = '2018-01-07'

In [None]:
start_date, end_date

In [None]:
start_date_dt = datetime.strptime(start_date, '%Y-%m-%d')
end_date_dt = datetime.strptime(end_date, '%Y-%m-%d')

print(start_date_dt, end_date_dt)

In [None]:
i = 0

while i < 10:
    # ...
    i += 1
    print(i)

In [None]:
current_dt = start_date_dt

while current_dt <= end_date_dt:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
current_dt = start_date_dt

while current_dt.strftime('%Y-%m-%d') <= end_date:
    print(current_dt.strftime('%Y-%m-%d'))
    
    current_dt += timedelta(days=1)

In [None]:
# можно и с помощью list comprehension
[(start_date_dt + timedelta(days=x)).strftime('%Y-%m-%d') for x in range(10)]

### Нагрузка на систему по часам

In [None]:
stats = {}

with open('logs.csv', 'r') as f:
    for line in f:
        line = line.strip()
        print(line)
        
        break
        
        # вычисления нагрузки на систему...
        
# результат
stats

In [None]:
# а в процентном соотношении?


###  Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

In [None]:
import time
from datetime import date
from datetime import datetime

In [None]:
d = date(2019, 3, 11)

unixtime = time.mktime(d.timetuple())
unixtime

In [None]:
from datetime import datetime

In [None]:
datetime.fromtimestamp(1552251600)

На практике все сложнее https://habr.com/ru/post/452584/