# Продвинутый Python
## ТЕМА 2: Время и даты в Python

Время в Unix - количество секунд с 1 января 1970 года 00:00:00 UTC

Если подождать ровно одну секунду, время Unix изменится ровно на одну секунду

Время Unix никогда не двигается назад

Измерения времени:
* International Atomic Time - сверхточное время на основе показаний сотен атомных часов
* Universal Time - оборот Земли вокруг оси просиходит неравномерно, постепенно замедляется и дает погрешность. Поправка - високосный год.

Сверхточность времени лежит в основе работы систем навигации. Система GPS обеспечивает возможность получать точные координаты в любое время суток

### Обработка ошибок
* Текст ошибки указывается в последней строке
* Все что перед ней - место, где произошла ошибка
* Есть встроенные типы ошибок, но можно создавать и свои

Некторые типа ошибок из документации (перевода):
* ZeroDivisionError - деление на ноль 
* ImportError - не удалось импортирование модуля или его атрибута (надо установить эту библиотеку)
* IndexError - индекс не входит в диапазон элементов
* KeyError - несуществующий ключ (в словаре, множестве или другом объекте)
* MemoryError - недостаточно памяти
* SyntaxError - синтаксическая ошибка (вы опечатались или не закрыли скобку)
* TypeError - операция применена к объекту несоответствующего типа
* ValueError - функция получает аргумент правильного типа, но некорректного значения
* Warning - предупреждение (текст на красном фоне в юпитере это предупреждение, а не ошибка)

In [None]:
# Блок try except
try:
    # Код, где может произойти ошибка
    float('123a')
except:
    # Код который выполняется в случае ошибки
    # pass - просто ничего не делает
    pass

In [14]:
data = ['10', '20', '30', '40@$#']
total_sum = 0
for num in data:
    try:
        total_sum += float(num)
    except:
        print('Ошибка в данных: "{}" !!!'.format(num))
print('Result', total_sum)

Ошибка в данных: "40@$#" !!!
Result 60.0


In [25]:
# Полная версия traceback (позволяет блок выводить на экран, сохранять в файл...)
import traceback
try:
    float('123fff')
except Exception:
    traceback.print_exc()
    ex = traceback.format_exc()
print(ex)

Traceback (most recent call last):
  File "/var/folders/lc/gq9gmfgj2bz496xqttsl9hzr0000gn/T/ipykernel_12807/2381522687.py", line 4, in <module>
    float('123fff')
ValueError: could not convert string to float: '123fff'



Traceback (most recent call last):
  File "/var/folders/lc/gq9gmfgj2bz496xqttsl9hzr0000gn/T/ipykernel_12807/2381522687.py", line 4, in <module>
    float('123fff')
ValueError: could not convert string to float: '123fff'


In [34]:
# Блок finally. Часто используется для закрытия соединений с БД, закрытии файла на запись
try:
    print(values)
except IndexError:
    print('IndexError')
except KeyError:
    print('KeyError')
finally:
    print("Выполнится всегда")
    #connection.close()
    #file.close()

Выполнится всегда


NameError: name 'values' is not defined

### Даты

In [2]:
# Импорт библиотеки
import datetime
datetime.datetime.today()

datetime.datetime(2023, 12, 13, 14, 36, 41, 908190)

In [3]:
# Импорт нужно нам класса datetime из файла datetime.py
from datetime import datetime
print(datetime.today())
print(datetime.now())

2023-12-13 14:36:47.107127
2023-12-13 14:36:47.107198


In [44]:
# На данном этапе это просто строка
date_string = '09.05.2018 09:00'
print(type(date_string))

<class 'str'>


In [52]:
# https://docs.python.org/3/library/datetime.html - все про даты и как их записывать
# Преобразование строки в объект типа datetime
date = datetime.strptime(date_string, '%d.%m.%Y %H:%M')
date

datetime.datetime(2018, 5, 9, 9, 0)

In [54]:
date.year, date.month, date.day, date.hour, date.minute, date.second, date.microsecond

(2018, 5, 9, 9, 0, 0, 0)

In [55]:
date.weekday() # среда

2

In [78]:
# Перевод даты в строку
date = datetime(2023, 11, 3)
print(date)
date.strftime('%Y-%m-%d ...служебные данные...')

2023-11-03 00:00:00


'2023-11-03 ...служебные данные...'

In [79]:
# Получение первого дня месяца
datetime.now().strftime('%Y-%m-01')

'2023-11-01'

### Прибавление интервала к датам

In [60]:
# В Python строки сравниваются в алфавитном порядке
'logs_2017-12-31.csv' < 'logs_2018-01-01'

True

In [4]:
from datetime import timedelta
start_date = '2018-01-01'
end_date = '2018-01-07'
print(type(start_date))
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
print(start_date_datetime)
print(start_date_datetime + timedelta(days = 1))
print(start_date_datetime + timedelta(days = -1, milliseconds = -1))
print(start_date_datetime + timedelta(hours = 0.5, microseconds = -1))

<class 'str'>
2018-01-01 00:00:00
2018-01-02 00:00:00
2017-12-30 23:59:59.999000
2018-01-01 00:29:59.999999


In [95]:
start_date_datetime = datetime.strptime(start_date, '%Y-%m-%d')
end_date_datetime = datetime.strptime(end_date, '%Y-%m-%d')
print(start_date_datetime, end_date_datetime)

# Первый способ перебора дат в цикле
print("1 способ:")
current = start_date_datetime
while current <= end_date_datetime:
    print(current.strftime('%Y-%m-%d'))
    current += timedelta(days = 1)
    
# Второй способ перебора дат в цикле
print("2 способ:")
current = start_date_datetime
while current.strftime('%Y-%m-%d') <= end_date:
    print(current.strftime('%Y-%m-%d'))
    current += timedelta(days = 1)
    
# Третий (продвинутый) способ с помощью list comprehension
print("3 способ")
print([(start_date_datetime + timedelta(days = x)).strftime('%Y-%m-%d') 
       for x in range(10)])


2018-01-01 00:00:00 2018-01-07 00:00:00
1 способ:
2018-01-01
2018-01-02
2018-01-03
2018-01-04
2018-01-05
2018-01-06
2018-01-07
2 способ:
2018-01-01
2018-01-02
2018-01-03
2018-01-04
2018-01-05
2018-01-06
2018-01-07
3 способ
['2018-01-01', '2018-01-02', '2018-01-03', '2018-01-04', '2018-01-05', '2018-01-06', '2018-01-07', '2018-01-08', '2018-01-09', '2018-01-10']


### Нагрузка на систему по часам

In [105]:
# Необходимо вычислить, в какие часы нагрузка на систему максимальна
stats = {}
with open('date_logs.csv', 'w') as f:
    f.write('2018-04-30T21:37:41Z\n')
with open('date_logs.csv') as f:
    for line in f:
        line = line.strip()
        # Можно выделить номер часа из строки и таким образом. Этот способ гораздо
        # быстрее, чем работать с библиотеками даты / времени (поиск подстроки в строке).
        # Если задача позволяет избегать использование datetime, а можно использовать
        # что-то более просто и банальное, то лучше это использовать. Это обеспечит 
        # прирост производительности.
        print(line[11:13])
        dt = datetime.strptime(line, '%Y-%m-%dT%H:%M:%SZ')
        print(line, "--->", dt)
        hour = dt.hour
        print(hour)
        stats.setdefault(hour, 0)
        stats[hour] += 1

21
2018-04-30T21:37:41Z ---> 2018-04-30 21:37:41
21


### Unixtime
Количество секунд, прошедших с 1 января 1970 года по UTC

Преимущества:
* Можно не думать о формате, так как получается обычное целое число
* В таком формате (целое число) дата занимаем меньше места (оптимизация)

In [146]:
import time
from datetime import date
from datetime import datetime
d = date(2019, 3, 11)
unixtime = time.mktime(d.timetuple())
print("unixtime:", unixtime)
# Получение даты с помощью метода fromtimestamp
# Внимание! Используется часовой пояс UTC
datetime.fromtimestamp(1552251600.0)

unixtime: 1552251600.0


datetime.datetime(2019, 3, 11, 0, 0)

## Вебинар 2

### Cайты с задачками на Python:
* hackerrand.com
* leetcode.com
* codeforces.com

### Задача про интервалы дат
Имеется список отсортированных по возрастанию дат dates_list. А также дата date, которая лежит между минимальным и максимальным значениями из списка dates_list. Вам необходимо определить ближайшие даты в списке dates_list, которые окружают date.

In [115]:
# В таком формате порядок следования по календарю совпадает с алфавитным.
# Python не знает, что это даты, и воспринимает это как обычным строки
print("'2021-12-31' < '2022-01-01': ", '2021-12-31' < '2022-01-01')
dates_list = ['2022-01-01', '2022-01-07', '2022-02-23', '2022-03-08', '2022-05-01',
             '2022-05-09', '2022-06-12']
date = '2022-04-01'

'2021-12-31' < '2022-01-01':  True


In [130]:
# Вариант 1. Счетчик
i = 0
for dt in dates_list[: -1]:
    print(i, dt, dates_list[i + 1])
    i += 1

0 2022-01-01 2022-01-07
1 2022-01-07 2022-02-23
2 2022-02-23 2022-03-08
3 2022-03-08 2022-05-01
4 2022-05-01 2022-05-09
5 2022-05-09 2022-06-12


In [123]:
# Вариант 2. Только там, где известно количество элементов
for i in range(len(dates_list)):
    print(i, dates_list[i])

0 2022-01-01
1 2022-01-07
2 2022-02-23
3 2022-03-08
4 2022-05-01
5 2022-05-09
6 2022-06-12


In [143]:
# Вариант 3. 
for i, dt in enumerate(dates_list):
    if dt < date < dates_list[i + 1]: 
        print(i, dt, dates_list[i + 1])

3 2022-03-08 2022-05-01


### С какой скоростью работает алгоритм?
Во сколько раз вырастет время работы кода, если количество данных вырастет в N раз?

O(функция от N) - "О" большое, N - размер входных данных

* Линейный поиск - O(N)   x100 ---> x100
* Квадратичный поиск - О(N^2)   x100 ---> x10000
* Бинарный поиск - O(log_2(N))

Бинарный поиск. Пример - телефонный справочник. Открываем по середине, смотрим куда попали, берем какую-то из половин, снова делим пополам.

При росте данных в 1024 раза, линейный замедлится в 1024 раза, бинарный - в 10 раз.

2 ** 10, 2^N, N, log_2(N)

### Какой алгоритм самый быстрый? 
O(const) или O(1) - время работы не зависит от объема данных

Пример: поиск по словарю или множеству (if user_id in purchases: )

### План по исправлению ошибок:
Шаг 1.

* Ошибка пишется в последней строке лога (traceback). Переводим на русский или читаем сразу по английский. Необходимо хотя бы примерно понять, о чем идет речь.
* Читаем traceback (лог ошибки). Сверху вниз, стрелка указывает на строчку, где произошла ошибка, а в первой строке следующего блока написано, где именно в этой строке произошла ошибка. Так доходим до последнего блока лога, где указана строка, в которой изначально происходит ошибка.

Шаг 2. Если не получился шаг 1 - ищем ошибку в интернете
* Поисковая выдача, боты
* Обязательно читать вопрос, который был задан на форуме / сайте. Он не всегда будет соответствовать изначальному, так как поисковик показывает максимально подходящую выдачу, не всегда точную.

Шаг 3. Если не получился шаг 1 и шаг 2 - спросить коллегу
* Если вы на работе: обязательно пишите, какую исходную задачу вы решаете. Во многих случаях скажут, как задачу решить проще
* Если вы на учебе: убедитесь, что в вопросе понятно, что значат переменные
* Покажите, какие данные на входе
* Когда задаете вопрос, обязательно проверьте, что у коллеги достаточно информации: он должен иметь саму ошибку (TypeError), весь traceback и весь код.
* У коллеги воспроизвелась ошибка: скорее всего помогут
* У коллеги НЕ воспроизвелась ошибка: у нас разное окружение (набор инструментов, в которых выполняется код (ОС, библиотеки, версии Python))

Шаг 4. Составить воспроизводимый пример
* Создать новый и чистый отдельный файл
* Скопировать в него весь код, приводящий к ошибке (минимально возможный объем)
* Бывают случаи, что ячейки могут выполняться в хаотичном порядке, и в основном юпитер-ноутбуке можно забыть (запутаться) правильную последовательность, или может быть ячейка с забытой строкой. Следовательно, в новом файле может воспроизводится уже другая ошибка.
-> Желательно попробовать разобраться самостоятельно

-> Лайфхак: на русском stackoverflow плохо работает поиск на сайте. Часто помогает указать в поисковом запросе в самом браузере ключевое слово site:названиедомена.com (например, site:stackoverflow.com запрос)

-> Иногда проблема возникает из-за отключенного корпоративного VPN

-> Другие возможные проблемы: устарел пароль; изменили права в сетевых настройках; регион, в котором сервис недоступен; разные ОС

In [162]:
# Решение задачи 1
# Записываю исходные данные в виде строк
moscow_times = 'Wednesday, October 2, 2002'
guardian = 'Friday, 11.10.23'
daily_news = 'Thursday, 18 August 1977'

from datetime import datetime

# Преобразую сроку moscow_times в формат datetime с помощью метода strptime
moscow_times = datetime.strptime(moscow_times, '%A, %B %d, %Y')
print(f"moscow_times: {moscow_times}, type: {type(moscow_times)}")

# Преобразую сроку guardian в формат datetime с помощью метода strptime
guardian = datetime.strptime(guardian, '%A, %d.%m.%y')
print(f"guardian: {guardian}, type: {type(guardian)}")

# Преобразую сроку daily_news в формат datetime с помощью метода strptime
daily_news = datetime.strptime(daily_news, '%A, %d %B %Y')
print(f"daily_news: {daily_news}, type: {type(daily_news)}")

moscow_times: 2002-10-02 00:00:00, type: <class 'datetime.datetime'>
guardian: 2023-10-11 00:00:00, type: <class 'datetime.datetime'>
daily_news: 1977-08-18 00:00:00, type: <class 'datetime.datetime'>


In [160]:
# Решение задачи 2 для случая когда подходящий формат YYYY-MM-DD - единственный
from datetime import datetime
from datetime import timedelta

def date_range(start_date, end_date):
    
    date_list = []
    
    # Проверка, что диапазон задан корректно (от меньшего к большему)
    if start_date > end_date:
        return date_list
    
    # Попытка преобразовать строки к формату даты
    try:
        start_date = datetime.strptime(start_date, '%Y-%m-%d')
        print(start_date)
        end_date = datetime.strptime(end_date, '%Y-%m-%d')
        print(end_date)
    # Если преобразование не удастся, сработает блок except
    except:
        return date_list
    
    # Заполняем список date_list датами из диапазона, конвертированными обратно в строки
    date = start_date
    while date < end_date:
        date_list.append(datetime.strftime(date, '%Y-%m-%d'))
        date += timedelta(days = 1)
        
    return date_list

print(date_range('2022-01-01', '2022-01-03'))
print(date_range('2022-01-03', '2022-01-01'))
print(date_range('2022-02-30', '2022-02-31'))

2022-01-01 00:00:00
2022-01-03 00:00:00
['2022-01-01', '2022-01-02']
[]
[]


In [161]:
# Решение задачи 2 для случая когда подоходящих форматов > 1
from datetime import datetime
from datetime import timedelta

def date_range(start_date, end_date):
    
    date_list = []
    # Создаем список допустимых форматов дат
    formats_list = ['%Y-%m-%d', '%Y.%m.%d', '%Y %m %d']
    
    # Проверка на корректность задания диапазона
    if start_date > end_date:
        return date_list
    
    # Поиск подходящего формата даты
    for format_value in formats_list:
        # Попытки преобразовать строки к разным форматам даты
        try:
            start_date = datetime.strptime(start_date, format_value)
            end_date = datetime.strptime(end_date, format_value)
        # Если ни один доступный формат даты не подойдет, то выполнится блок except
        except:
            pass
            #format_value = 'No Format'
        
    # Попытка привести к формату. Если на предыдущем шаги формат был найден, то код
    # будет выполняться корректно. Если подходящий формат не найден, 
    # выполнится блок except
    try:
        date = start_date
        while date <= end_date:
            date_list.append(datetime.strftime(date, format_value))
            date += timedelta(days = 1)
    except:    
        return date_list
    
    return date_list

print(date_range('2022.01.01', '2022.01.03'))
print(date_range('2022-01-01', '2022-01-04'))
print(date_range('2022 01 01', '2022 01 05'))
print(date_range('2022-01-03', '2022-01-01'))
print(date_range('2022-02-30', '2022-02-31'))

['2022 01 01', '2022 01 02', '2022 01 03']
['2022 01 01', '2022 01 02', '2022 01 03', '2022 01 04']
['2022 01 01', '2022 01 02', '2022 01 03', '2022 01 04', '2022 01 05']
[]
[]
