# **Функция pd.date_range()**

pd.date_range() - это функция библиотеки Pandas, которая позволяет создавать диапазоны дат с равным интервалом. Она возвращает объект типа DatetimeIndex, содержащий набор последовательных дат, заданных определенным образом.

Функция pd.date_range() имеет несколько параметров, которые позволяют определить начальную и конечную даты, длину интервала, а также частоту создаваемых дат. Некоторые из наиболее часто используемых параметров:

1. start: начальная дата диапазона.
2. end: конечная дата диапазона.
3. periods: количество дат, которое нужно создать в диапазоне.
4. freq: частота создаваемых дат.

Частота (freq) задает интервал между датами и может принимать различные значения, такие как "D" для ежедневных дат, "M" для ежемесячных дат, "Y" для ежегодных дат и т.д.

В примере ниже значения продаж существуют только для определённых дат, но нам нужно, чтобы в датасете был некий непрерывный диапазон. 

In [None]:
# пример использования pd.date_range()
import pandas as pd
df = pd.DataFrame({'product': ['product1', 'product2', 'product3', 'product4'],
                      'price': [100, 200, 150, 300]},
                     index=pd.to_datetime(['2022-01-01', '2022-01-03', '2022-01-06', '2022-01-08']))

new_labels = pd.date_range(start='2022-01-01', periods=8, freq='D')
df_reindexed = df.reindex(labels=new_labels)

print(df_reindexed)

#              product  price
# 2022-01-01  product1  100.0
# 2022-01-02       NaN    NaN
# 2022-01-03  product2  200.0
# 2022-01-04       NaN    NaN
# 2022-01-05       NaN    NaN
# 2022-01-06  product3  150.0
# 2022-01-07       NaN    NaN
# 2022-01-08  product4  300.0

В примере выше можно обратить внимание на функцию pd.to_datetime - она конвертирует входные данные в формат daytime64[ns].

Синтаксис:

pd.to_datetime(arg[, format[, errors[, dayfirst[, yearfirst[, utc,box,unit, origin]]]]])

Основной аргумент функции arg - это данные, которые необходимо преобразовать в объекты datetime. Они могут быть представлены как список, кортеж, одномерный массив numpy или серия pandas.

In [None]:
# пример использования функции pd.to_datetime() для парсинга даты из csv_файла
import pandas as pd

df = pd.read_csv('data.csv') 
df['date'] = pd.to_datetime(df['date'], format='%d-%m-%Y')

print(df['date'])

Если дата указана в явном виде, то функция pd.to_datetime будет распознавать его без дополнительной конкретизации параметров формата.

# **Функция daytime.striptime()**

Позволяет конвертировать строки, содержащие даты в нестандартном формате, в формат daytime64[ns].

Синтаксис следующий:

datetime.strptime(date_string, format)

Параметр format представляет собой строку, которая определяет, как устроена строка с датой/временем date_string. Формат должен соответствовать дате в строке, поэтому нужно знать, как образована эта дата. Ниже приведены некоторые распространенные форматы даты и время, которые можно использовать с datetime.strptime():

* `%Y` - год (например, 0000..9999);
* `%m` - месяц (например, 01-12);
* `%d` - день (например, 01-31)
* `%H` - часы в 24-часовом формате (например, 00-23);
* `%M` - минуты (например, 00-59);
* `%S` - секунды (например, 00-59).

In [None]:
# Преобразование строки '12-01-2021' в объект datetime
from datetime import datetime

date_str = '12-01-2021'
date_obj = datetime.strptime(date_str, '%d-%m-%Y')

print(date_obj) # 2021-01-12 00:00:00

In [None]:
# Преобразование строки '09:45:00' в объект datetime
from datetime import datetime

time_str = '09:45:00'
time_obj = datetime.strptime(time_str, '%H:%M:%S')

print(time_obj) # 1900-01-01 09:45:00

# **Обращение к разным частям даты формата datetime64[ns]**

В случае анализа временных рядов иногда возникает необходимость отсортировать (или обратиться по какому-либо другому поводу) к части даты формата datetime64[ns]. 

Это можно сделать при помощи следующих методов:
* dt.day - вернёт день
* dt.month - вернёт месяц
* dt.year - вернёт год
* dt.date - вернёт дату (без времени)
* dt.time - вернёт время (без даты)
* dt.hour - вернёт час
* dt.minute - вернёт минуту
* dt.second - вернёт секунду

Методы выше применяются только ко всей Series или столбцу. Если применять к конкретной ячейке, надо использовать без 'dt'.

In [None]:
# пример обращения к разным частям даты
import pandas as pd

s = pd.Series(['2024-07-29', '2024-07-30', '2024-07-31'], dtype='datetime64[ns]')

print(s.dt.day[0]) # 29
print(s.dt.month[0]) # 7
print(s.dt.year[0]) # 2024
print(s.dt.date[0]) # 2024-07-29
print(s.dt.time[0]) # 00:00:00
print(s.dt.hour[0]) # 0
print(s.dt.minute[0]) # 0
print(s.dt.second[0]) # 0

# можно применять этот метод ко всей Series
print(s.dt.day)

# 0    29
# 1    30
# 2    31
# dtype: int32

# пример применения к конкретной ячейке
print(s[2].day) # 31

# с DataFrame по аналогии
df = pd.DataFrame({'date': ['2024-07-29', '2024-07-30', '2024-07-31'], 'sex': [1, 1, 1]}, dtype='datetime64[ns]')

print(df['date'].dt.day[0]) # 29

# пример применения к конкретной ячейке
print(df.loc[1, 'date'].day) # 30

# пример применения к столбцу
print(df['date'].dt.date)

# 0    2024-07-29
# 1    2024-07-30
# 2    2024-07-31
# Name: date, dtype: object