<a target="_blank" href="https://colab.research.google.com/github/victorlymarev/pandas/blob/main/notebooks/14-dates.ipynb">
  <img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

In [1]:
import pandas as pd
import numpy as np
import os

In [2]:
path_ltc_sample = '../tables/ltc_sample.parquet' if os.path.exists('../tables/ltc_sample.parquet') else 'https://drive.google.com/uc?id=1XaThogOOqKjJj50LvfJ9WqutjMAC5AxA'

ltc = pd.read_parquet(path_ltc_sample)
ltc.head()

Unnamed: 0,date,price,volume
0,2013-11-13 15:00:56,5.0,12.874
1,2013-11-13 15:58:20,5.0,0.9
2,2013-11-16 18:58:57,4.3,0.06744
3,2013-11-16 18:59:16,4.25,5.0
4,2013-11-19 03:24:48,9.9,0.117018


In [3]:
ltc['date'].head()

0   2013-11-13 15:00:56
1   2013-11-13 15:58:20
2   2013-11-16 18:58:57
3   2013-11-16 18:59:16
4   2013-11-19 03:24:48
Name: date, dtype: datetime64[ns]

Приведение дат к целым числам

In [4]:
ltc['date'].head().astype('int64')

0    1384354856000000000
1    1384358300000000000
2    1384628337000000000
3    1384628356000000000
4    1384831488000000000
Name: date, dtype: int64

In [5]:
ltc['date'].head().astype(str)

0    2013-11-13 15:00:56
1    2013-11-13 15:58:20
2    2013-11-16 18:58:57
3    2013-11-16 18:59:16
4    2013-11-19 03:24:48
Name: date, dtype: object

Приведение строк и чисел к датам

In [6]:
ltc['date'].head().astype(str).astype('datetime64')

0   2013-11-13 15:00:56
1   2013-11-13 15:58:20
2   2013-11-16 18:58:57
3   2013-11-16 18:59:16
4   2013-11-19 03:24:48
Name: date, dtype: datetime64[ns]

In [7]:
pd.to_datetime(ltc['date'].astype(str).head())

0   2013-11-13 15:00:56
1   2013-11-13 15:58:20
2   2013-11-16 18:58:57
3   2013-11-16 18:59:16
4   2013-11-19 03:24:48
Name: date, dtype: datetime64[ns]

In [8]:
pd.to_datetime(ltc['date'].astype('int64').head(), unit='ns')

0   2013-11-13 15:00:56
1   2013-11-13 15:58:20
2   2013-11-16 18:58:57
3   2013-11-16 18:59:16
4   2013-11-19 03:24:48
Name: date, dtype: datetime64[ns]

### Разложение даты и времени на части

Но у дат есть свои специфические методы и атрибуты, которые можно получить через атрибут dt

| Название атрибута                          | Описание                                                |
|:------------------------------------------:|:-------------------------------------------------------:|
| year                                       | Год                                                     |
| month                                      | Месяц                                                   |
| day                                        | День                                                    |
| hour                                       | Час                                                     |
| minute                                     | Минута                                                  |
| second                                     | Секунда                                                 |
| microsecond                                | Микросекунда                                            |
| nanosecond                                 | Наносекунда                                             |
| date                                       | Дата (без учета времени и таймзоны)                     |
| time                                       | Время (без учета таймзоны)                              |
| timetz                                     | Время (с учетем таймзоны)                               |
| dayofyear или day_of_year                  | Номер дня в году (начиная с 1)                          |
| weekofyear или week или isocalendar().week | Номер недели в году (начиная с 1)                       |
| day_of_week или weekday                    | Номер дня недели (начиная с 0)                          |
| day_name('rus')                            | Название дня недели (на русском языке)                  |
| quarter                                    | Номер квартала (начиная с 1)                            |
| days_in_month или daysinmonth              | Число дней в месяце                                     |
| freq                                       | Частота (если есть)                                     |
| is_month_start                             | Проверка на то, что число - это первый день месяца      |
| is_month_end                               | Проверка на то, что число - это последний день месяца   |
| is_quarter_start                           | Проверка на то, что число - это первый день квартала    |
| is_quarter_end                             | Проверка на то, что число - это последний день квартала |
| is_year_start                              | Проверка на то, что число - это первый день года        |
| is_year_end                                | Проверка на то, что число - это последний день года     |
| is_leap_year                               | Проверка на то, что год - высокосный                    |
| tz                                         | Таймзона (если есть)                                    |
| isocalendar()                              | Разложение даты на год, неделю и день                   |

#### Год

In [9]:
ltc['date'].dt.year

0          2013
1          2013
2          2013
3          2013
4          2013
           ... 
1926431    2023
1926432    2023
1926433    2023
1926434    2023
1926435    2023
Name: date, Length: 1926436, dtype: int64

#### Месяц

In [10]:
ltc['date'].dt.month

0          11
1          11
2          11
3          11
4          11
           ..
1926431     3
1926432     3
1926433     3
1926434     3
1926435     3
Name: date, Length: 1926436, dtype: int64

#### Номер дня недели

In [11]:
ltc['date'].dt.weekday

0          2
1          2
2          5
3          5
4          1
          ..
1926431    4
1926432    4
1926433    4
1926434    4
1926435    4
Name: date, Length: 1926436, dtype: int64

#### Дата

Тип данных - object!

In [12]:
ltc['date'].dt.date

0          2013-11-13
1          2013-11-13
2          2013-11-16
3          2013-11-16
4          2013-11-19
              ...    
1926431    2023-03-31
1926432    2023-03-31
1926433    2023-03-31
1926434    2023-03-31
1926435    2023-03-31
Name: date, Length: 1926436, dtype: object

#### Название дня недели 

In [13]:
ltc['date'].dt.day_name()

0          Wednesday
1          Wednesday
2           Saturday
3           Saturday
4            Tuesday
             ...    
1926431       Friday
1926432       Friday
1926433       Friday
1926434       Friday
1926435       Friday
Name: date, Length: 1926436, dtype: object

In [14]:
ltc['date'].dt.day_name('rus')

0            Среда
1            Среда
2          Суббота
3          Суббота
4          Вторник
            ...   
1926431    Пятница
1926432    Пятница
1926433    Пятница
1926434    Пятница
1926435    Пятница
Name: date, Length: 1926436, dtype: object

#### Проверка на то, что дата - начало месяца

In [15]:
ltc['date'].dt.is_month_start

0          False
1          False
2          False
3          False
4          False
           ...  
1926431    False
1926432    False
1926433    False
1926434    False
1926435    False
Name: date, Length: 1926436, dtype: bool

#### Установка часового пояса

In [16]:
tz = ltc['date'].dt.tz_localize('Europe/Moscow')
tz

0         2013-11-13 15:00:56+04:00
1         2013-11-13 15:58:20+04:00
2         2013-11-16 18:58:57+04:00
3         2013-11-16 18:59:16+04:00
4         2013-11-19 03:24:48+04:00
                     ...           
1926431   2023-03-31 23:50:05+03:00
1926432   2023-03-31 23:52:03+03:00
1926433   2023-03-31 23:52:57+03:00
1926434   2023-03-31 23:54:02+03:00
1926435   2023-03-31 23:56:19+03:00
Name: date, Length: 1926436, dtype: datetime64[ns, Europe/Moscow]

In [17]:
url_timezones = 'https://en.wikipedia.org/wiki/List_of_tz_database_time_zones'
pd.read_html(url_timezones)[0].droplevel(0, 1)['TZ identifier'].tolist()#[:5]

['Africa/Abidjan',
 'Africa/Accra',
 'Africa/Addis_Ababa',
 'Africa/Algiers',
 'Africa/Asmara',
 'Africa/Asmera',
 'Africa/Bamako',
 'Africa/Bangui',
 'Africa/Banjul',
 'Africa/Bissau',
 'Africa/Blantyre',
 'Africa/Brazzaville',
 'Africa/Bujumbura',
 'Africa/Cairo',
 'Africa/Casablanca',
 'Africa/Ceuta',
 'Africa/Conakry',
 'Africa/Dakar',
 'Africa/Dar_es_Salaam',
 'Africa/Djibouti',
 'Africa/Douala',
 'Africa/El_Aaiun',
 'Africa/Freetown',
 'Africa/Gaborone',
 'Africa/Harare',
 'Africa/Johannesburg',
 'Africa/Juba',
 'Africa/Kampala',
 'Africa/Khartoum',
 'Africa/Kigali',
 'Africa/Kinshasa',
 'Africa/Lagos',
 'Africa/Libreville',
 'Africa/Lome',
 'Africa/Luanda',
 'Africa/Lubumbashi',
 'Africa/Lusaka',
 'Africa/Malabo',
 'Africa/Maputo',
 'Africa/Maseru',
 'Africa/Mbabane',
 'Africa/Mogadishu',
 'Africa/Monrovia',
 'Africa/Nairobi',
 'Africa/Ndjamena',
 'Africa/Niamey',
 'Africa/Nouakchott',
 'Africa/Ouagadougou',
 'Africa/Porto-Novo',
 'Africa/Sao_Tome',
 'Africa/Timbuktu',
 'Africa/

#### Изменение часового пояса

In [18]:
tz.head()

0   2013-11-13 15:00:56+04:00
1   2013-11-13 15:58:20+04:00
2   2013-11-16 18:58:57+04:00
3   2013-11-16 18:59:16+04:00
4   2013-11-19 03:24:48+04:00
Name: date, dtype: datetime64[ns, Europe/Moscow]

In [19]:
tz.dt.tz_convert('Asia/Yekaterinburg').head()

0   2013-11-13 17:00:56+06:00
1   2013-11-13 17:58:20+06:00
2   2013-11-16 20:58:57+06:00
3   2013-11-16 20:59:16+06:00
4   2013-11-19 05:24:48+06:00
Name: date, dtype: datetime64[ns, Asia/Yekaterinburg]

### Округление дат

#### dt.normalize()

Приведение даты к полуночи

In [20]:
ltc['date'].dt.normalize()

0         2013-11-13
1         2013-11-13
2         2013-11-16
3         2013-11-16
4         2013-11-19
             ...    
1926431   2023-03-31
1926432   2023-03-31
1926433   2023-03-31
1926434   2023-03-31
1926435   2023-03-31
Name: date, Length: 1926436, dtype: datetime64[ns]

### dt.round()

Округление даты

In [21]:
ltc['date'].dt.round(freq='h')

0         2013-11-13 15:00:00
1         2013-11-13 16:00:00
2         2013-11-16 19:00:00
3         2013-11-16 19:00:00
4         2013-11-19 03:00:00
                  ...        
1926431   2023-04-01 00:00:00
1926432   2023-04-01 00:00:00
1926433   2023-04-01 00:00:00
1926434   2023-04-01 00:00:00
1926435   2023-04-01 00:00:00
Name: date, Length: 1926436, dtype: datetime64[ns]

In [22]:
ltc['date'].dt.round(freq='2d')

0         2013-11-13
1         2013-11-13
2         2013-11-17
3         2013-11-17
4         2013-11-19
             ...    
1926431   2023-04-01
1926432   2023-04-01
1926433   2023-04-01
1926434   2023-04-01
1926435   2023-04-01
Name: date, Length: 1926436, dtype: datetime64[ns]

In [23]:
# Это работать не будет
# ltc['date'].dt.round(freq='m')

Можно написать свое условие

In [24]:
np.where(ltc['date'].dt.day >= 16,
         ltc['date'].dt.normalize() + pd.offsets.MonthEnd(0), # приводим дату к концу месяца если условие выполнено
#          Приводим дату к концу предыдущего месяца если условие не соблюдается
         ltc['date'].dt.normalize() + pd.offsets.MonthEnd(0) - pd.offsets.MonthEnd(1))

array(['2013-10-31T00:00:00.000000000', '2013-10-31T00:00:00.000000000',
       '2013-11-30T00:00:00.000000000', ...,
       '2023-03-31T00:00:00.000000000', '2023-03-31T00:00:00.000000000',
       '2023-03-31T00:00:00.000000000'], dtype='datetime64[ns]')

### dt.floor

Округление даты вниз

In [25]:
ltc['date'].dt.floor(freq='d')

0         2013-11-13
1         2013-11-13
2         2013-11-16
3         2013-11-16
4         2013-11-19
             ...    
1926431   2023-03-31
1926432   2023-03-31
1926433   2023-03-31
1926434   2023-03-31
1926435   2023-03-31
Name: date, Length: 1926436, dtype: datetime64[ns]

### dt.ceil

Округление даты вверх

In [26]:
ltc['date'].dt.ceil(freq='d')

0         2013-11-14
1         2013-11-14
2         2013-11-17
3         2013-11-17
4         2013-11-20
             ...    
1926431   2023-04-01
1926432   2023-04-01
1926433   2023-04-01
1926434   2023-04-01
1926435   2023-04-01
Name: date, Length: 1926436, dtype: datetime64[ns]

### dt.strftime()
Представление даты в виде строки нужного формата

In [27]:
ltc['date'].head().dt.strftime('%d-%m-%Y')

0    13-11-2013
1    13-11-2013
2    16-11-2013
3    16-11-2013
4    19-11-2013
Name: date, dtype: object

### С датами можно использовать агрегационные функции

In [28]:
ltc['date'].mean()

Timestamp('2020-06-27 12:28:52.505041920')

In [29]:
ltc['date'].std()

Timedelta('639 days 02:06:48.655962912')

In [30]:
ltc['date'].astype('int64').mean().astype('int64').astype('datetime64[ns]')

numpy.datetime64('2020-06-27T12:28:52.505041920')

### Если мы работаем не с Series, то ставить dt не надо

In [31]:
pd.Timestamp('2023-07-23')

Timestamp('2023-07-23 00:00:00')

In [32]:
pd.Timestamp('2023-07-23').day

23

In [33]:
pd.Timestamp('2023-07-23').month

7

In [34]:
pd.date_range('2023-07-23', '2023-08-23', freq='d').day_name('rus')

Index(['Воскресенье', 'Понедельник', 'Вторник', 'Среда', 'Четверг', 'Пятница',
       'Суббота', 'Воскресенье', 'Понедельник', 'Вторник', 'Среда', 'Четверг',
       'Пятница', 'Суббота', 'Воскресенье', 'Понедельник', 'Вторник', 'Среда',
       'Четверг', 'Пятница', 'Суббота', 'Воскресенье', 'Понедельник',
       'Вторник', 'Среда', 'Четверг', 'Пятница', 'Суббота', 'Воскресенье',
       'Понедельник', 'Вторник', 'Среда'],
      dtype='object')

#### Все эти методы можно использовать при фильтрации строк

In [35]:
ltc.query('date.dt.is_month_start').head()

Unnamed: 0,date,price,volume
342,2013-12-01 09:02:09,41.0,0.564837
343,2013-12-01 09:25:02,41.0,0.000299
344,2013-12-01 11:47:53,35.0,0.42228
345,2013-12-01 19:35:09,24.48034,0.081649
346,2013-12-01 20:43:32,30.37258,2.000168


### asof

#### Метод возвращает актуальное (последнее доступное) на указанную дату заначение

In [36]:
(ltc
    .set_index('date')
    .asof('2017-03-30 23:05:00')
)

price      7.200000
volume    90.126216
Name: 2017-03-30 23:05:00, dtype: float64

In [37]:
ltc.query('date <= "2017-03-30 23:05:00"').sort_values(by='date').tail(1)

Unnamed: 0,date,price,volume
9810,2017-03-30 23:00:07,7.2,90.126216


### at_time

#### Метод возвращает все значения, произошедшие в определенное время, без учета даты

In [38]:
(ltc
    .set_index('date')
    .at_time('23:00')
    .head()
)

Unnamed: 0_level_0,price,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2017-03-30 23:00:00,7.2,16.90506
2018-01-06 23:00:00,278.83,1.427952
2018-01-25 23:00:00,179.49,0.651
2018-01-28 23:00:00,192.01,0.381489
2018-01-28 23:00:00,192.01,1.0742


### between_time

#### Метод возвращает все значения между двумя значениями времени без учета даты

In [39]:
(ltc
    .set_index('date')
    .between_time('23:00', '04:00')
    .head()
)

Unnamed: 0_level_0,price,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-11-19 03:24:48,9.9,0.117018
2013-11-19 03:27:08,9.9,0.817538
2013-11-22 02:18:25,10.0,0.384419
2013-11-22 23:53:28,11.0,0.1
2013-11-22 23:58:02,11.5,0.1


### Last
#### Метод возвращает все послединие значения за какой-то интервал (например, за час)

In [40]:
# все значения за поледний час
(ltc
    .set_index('date')
    .last('2d')
)

Unnamed: 0_level_0,price,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2023-03-29 23:57:13,91.25,8.265248
2023-03-30 00:04:06,91.42,8.540001
2023-03-30 00:04:21,91.28,0.091221
2023-03-30 00:13:36,91.18,3.168801
2023-03-30 00:14:03,91.09,1.058000
...,...,...
2023-03-31 23:50:05,89.71,5.023057
2023-03-31 23:52:03,89.68,0.983897
2023-03-31 23:52:57,89.68,0.557648
2023-03-31 23:54:02,89.68,0.265624


### First
#### Метод возвращает все первые значения за какой-то интервал (например, за час)

In [41]:
# все значения за первый год (Календарный)
(ltc
    .set_index('date')
    .first('Y')
)

Unnamed: 0_level_0,price,volume
date,Unnamed: 1_level_1,Unnamed: 2_level_1
2013-11-13 15:00:56,5.00000,12.874000
2013-11-13 15:58:20,5.00000,0.900000
2013-11-16 18:58:57,4.30000,0.067440
2013-11-16 18:59:16,4.25000,5.000000
2013-11-19 03:24:48,9.90000,0.117018
...,...,...
2013-12-30 17:23:22,24.94000,1.327322
2013-12-30 21:44:12,24.95000,0.104470
2013-12-30 21:44:14,23.86000,0.403951
2013-12-30 21:46:08,24.96000,0.426573


### Список сокращений (регистр не важен)

| Сокращение   | Расшифровка                              | Сокращение   | Расшифровка                    |
|:-------------|:-----------------------------------------|:-------------|:-------------------------------|
| B            | Последний рабочий день в неделе          | QS           | Начало квартала                |
| C            | Пользовательский последний день в неделе | BQS          | Первый рабочий день квартала   |
| D            | День                                     | A, Y         | Конец года                     |
| W            | Неделя                                   | BA, BY       | Последний рабочий день в году  |
| M            | Конец месяца                             | AS, YS       | Начало года                    |
| SM           | 15 число месяца                          | BAS, BYS     | Первый рабочий день в году     |
| BM           | Последний рабочий день в месяце          | BH           | Рабочий час (от 9:00 до 17:00) |
| CBM          | Пользовательский конец месяца            | H            | Час                            |
| MS           | Первое число месяца                      | T, min       | Минута                         |
| SMS          | 1 и 15 число месяца                      | S            | Секунда                        |
| BMS          | Первый рабочий день месяца               | L, ms        | Миллисекунда                   |
| CBMS         | Пользовательский первый день месяца      | U, us        | Микросекунда                   |
| Q            | Конец квартала                           | N            | Наносекунда                    |
| BQ           | Последний рабочий день квартала          | nan          | nan                            |

## Арифметические опериции

### Timedelta

Используется в арифметических операциях с датами

In [41]:
pd.Timedelta(1, 'day')

Timedelta('1 days 00:00:00')

In [42]:
pd.Timedelta(135, 'min')

Timedelta('0 days 02:15:00')

In [43]:
pd.Timedelta(9, 's')

Timedelta('0 days 00:00:09')

In [44]:
pd.Timedelta(0.25, 'h')

Timedelta('0 days 00:15:00')

### Возможные варианты сокращений

* **'W'** - неделя, **'D'** - день, **'T'** - минута, **'S'** - секунда, **'L'** - милисекунда, **'U'** - микросекунда, **'N'** - наносекунда
* **'days'** или **'day'** - день
* **'hours'**, **'hour'**, **'hr'**, или **'h'** - час
* **'minutes'**, **'minute'**, **'min'**, или **'m'** - минута
* **'seconds'**, **'second'**, или **'sec'** - секунда
* **'milliseconds'**, **'millisecond'**, **'millis'**, или **'milli'** - милисекунда
* **'microseconds'**, **'microsecond'**, **'micros'**, или **'micro'** - микросекунда
* **'nanoseconds'**, **'nanosecond'**, **'nanos'**, **'nano'**, или **'ns'** - наносекунда

In [45]:
# можно исользовать:
# days, hours, minutes, seconds, milliseconds, microseconds, nanoseconds
pd.Timedelta(days=3, hours=4, minutes=122, seconds=912)

Timedelta('3 days 06:17:12')

In [46]:
pd.Timedelta(135, 'min') * 10

Timedelta('0 days 22:30:00')

In [47]:
pd.Timedelta(135, 'min') / 10

Timedelta('0 days 00:13:30')

In [48]:
pd.Timedelta(135, 'min') + pd.Timedelta(9, 's')

Timedelta('0 days 02:15:09')

In [49]:
pd.Timedelta(135, 'min') - pd.Timedelta(9, 's')

Timedelta('0 days 02:14:51')

### to_timedelta

Преобразует набор чисел в объекты timedelta

In [50]:
pd.to_timedelta(np.arange(10), 'days')

TimedeltaIndex(['0 days', '1 days', '2 days', '3 days', '4 days', '5 days',
                '6 days', '7 days', '8 days', '9 days'],
               dtype='timedelta64[ns]', freq=None)

In [51]:
pd.to_timedelta([1, 12.8, 11.5, 0.3], 'days')

TimedeltaIndex(['1 days 00:00:00', '12 days 19:12:00', '11 days 12:00:00',
                '0 days 07:12:00'],
               dtype='timedelta64[ns]', freq=None)

#### Пложим несколько дат в отдельную переменную

In [52]:
ts = ltc.loc[[300, 341, 342], 'date'].copy()
ts

300   2013-11-29 21:41:23
341   2013-11-30 13:44:47
342   2013-12-01 09:02:09
Name: date, dtype: datetime64[ns]

### Опрации с Timedelta

In [53]:
ts + pd.Timedelta(8, 'h')

300   2013-11-30 05:41:23
341   2013-11-30 21:44:47
342   2013-12-01 17:02:09
Name: date, dtype: datetime64[ns]

In [54]:
ts - pd.Timedelta(8, 'h')

300   2013-11-29 13:41:23
341   2013-11-30 05:44:47
342   2013-12-01 01:02:09
Name: date, dtype: datetime64[ns]

In [55]:
ts - 10 * pd.Timedelta(8, 'h')

300   2013-11-26 13:41:23
341   2013-11-27 05:44:47
342   2013-11-28 01:02:09
Name: date, dtype: datetime64[ns]

### Offsets

In [56]:
dir(pd.offsets)[:42]

['BDay',
 'BMonthBegin',
 'BMonthEnd',
 'BQuarterBegin',
 'BQuarterEnd',
 'BYearBegin',
 'BYearEnd',
 'BaseOffset',
 'BusinessDay',
 'BusinessHour',
 'BusinessMonthBegin',
 'BusinessMonthEnd',
 'CBMonthBegin',
 'CBMonthEnd',
 'CDay',
 'CustomBusinessDay',
 'CustomBusinessHour',
 'CustomBusinessMonthBegin',
 'CustomBusinessMonthEnd',
 'DateOffset',
 'Day',
 'Easter',
 'FY5253',
 'FY5253Quarter',
 'Hour',
 'LastWeekOfMonth',
 'Micro',
 'Milli',
 'Minute',
 'MonthBegin',
 'MonthEnd',
 'Nano',
 'QuarterBegin',
 'QuarterEnd',
 'Second',
 'SemiMonthBegin',
 'SemiMonthEnd',
 'Tick',
 'Week',
 'WeekOfMonth',
 'YearBegin',
 'YearEnd']

### MonthEnd

#### Приведем дату к концу месяца

In [57]:
ts

300   2013-11-29 21:41:23
341   2013-11-30 13:44:47
342   2013-12-01 09:02:09
Name: date, dtype: datetime64[ns]

In [58]:
ts + pd.offsets.MonthEnd(0)

300   2013-11-30 21:41:23
341   2013-11-30 13:44:47
342   2013-12-31 09:02:09
Name: date, dtype: datetime64[ns]

In [59]:
ts.dt.normalize() + pd.offsets.MonthEnd(0)

300   2013-11-30
341   2013-11-30
342   2013-12-31
Name: date, dtype: datetime64[ns]

Если передать 1, то все даты, что не конец месяца - станут концом месяца, но если дата - конец месяца, то она станет концом следующего месяца

In [60]:
ts.dt.normalize() + pd.offsets.MonthEnd(1)

300   2013-11-30
341   2013-12-31
342   2013-12-31
Name: date, dtype: datetime64[ns]

Приведем даты к концу следующего месяца

In [61]:
ts

300   2013-11-29 21:41:23
341   2013-11-30 13:44:47
342   2013-12-01 09:02:09
Name: date, dtype: datetime64[ns]

In [62]:
ts.dt.normalize() + pd.offsets.MonthEnd(0) + pd.offsets.MonthEnd(1)

300   2013-12-31
341   2013-12-31
342   2014-01-31
Name: date, dtype: datetime64[ns]

Если вычесть pd.offsets.MonthEnd(0) то это будет эквивалентно прибавлению

In [63]:
ts.dt.normalize()

300   2013-11-29
341   2013-11-30
342   2013-12-01
Name: date, dtype: datetime64[ns]

In [64]:
ts.dt.normalize() - pd.offsets.MonthEnd(0)

300   2013-11-30
341   2013-11-30
342   2013-12-31
Name: date, dtype: datetime64[ns]

Такая запись приведет даты к концу предыдущего месяца

In [65]:
ts.dt.normalize() - pd.offsets.MonthEnd(1)
# ts.dt.normalize() + pd.offsets.MonthEnd(0) - pd.offsets.MonthEnd(1)

300   2013-10-31
341   2013-10-31
342   2013-11-30
Name: date, dtype: datetime64[ns]

Приведение даты к концу предпредыдущего месяца

In [66]:
ts.dt.normalize() - pd.offsets.MonthEnd(2)
# ts.dt.normalize() + pd.offsets.MonthEnd(0) - pd.offsets.MonthEnd(2)

300   2013-09-30
341   2013-09-30
342   2013-10-31
Name: date, dtype: datetime64[ns]

### Приведение даты к началу месяца

In [67]:
ts.dt.normalize() + pd.offsets.MonthEnd(0) - pd.offsets.MonthBegin(1)

300   2013-11-01
341   2013-11-01
342   2013-12-01
Name: date, dtype: datetime64[ns]

### Добавляем 9 рабочих дней

In [68]:
ts

300   2013-11-29 21:41:23
341   2013-11-30 13:44:47
342   2013-12-01 09:02:09
Name: date, dtype: datetime64[ns]

In [69]:
ts + pd.offsets.BusinessDay(9)

300   2013-12-12 21:41:23
341   2013-12-12 13:44:47
342   2013-12-12 09:02:09
Name: date, dtype: datetime64[ns]

#### Добавляем 9 рабочих дней при четырехдневной рабочей неделе

In [None]:
ts + pd.offsets.CustomBusinessDay(9, weekmask='Mon Tue Wed Thu')

Добавим 10 рабочих часов. Рабочие часы Пн-Пт с 9 до 17

In [70]:
ts

300   2013-11-29 21:41:23
341   2013-11-30 13:44:47
342   2013-12-01 09:02:09
Name: date, dtype: datetime64[ns]

In [71]:
ts + pd.offsets.BusinessHour(10)

  ts + pd.offsets.BusinessHour(10)


300   2013-12-03 11:00:00
341   2013-12-03 11:00:00
342   2013-12-03 11:00:00
Name: date, dtype: datetime64[ns]

### Метод astype

Метод приведит дату к началу периода

In [72]:
ts

300   2013-11-29 21:41:23
341   2013-11-30 13:44:47
342   2013-12-01 09:02:09
Name: date, dtype: datetime64[ns]

In [73]:
ts.dt.date.astype('datetime64[W]')

300   2013-11-28
341   2013-11-28
342   2013-11-28
Name: date, dtype: datetime64[ns]

In [74]:
ts.dt.date.astype('datetime64[M]')

300   2013-11-01
341   2013-11-01
342   2013-12-01
Name: date, dtype: datetime64[ns]

In [75]:
ts.dt.date.astype('datetime64[Y]')

300   2013-01-01
341   2013-01-01
342   2013-01-01
Name: date, dtype: datetime64[ns]

# Задания

#### Описание таблиц лежит [здесь](https://github.com/victorlymarev/pandas/tree/main/tables)

Некоторые таблицы занимают много памяти, поэтому каждые 5-10 заданий лучше перезапускайте ноутбук.

Если вы будете работать с этим ноутбуком в google colab и у вас что-то не будет работать, то раскоментируйте ячейку ниже (для этого выделите содержимое ячейки и нажмите на клавиши ctrl / (если смотреть по английской раскладке или ctrl . для русской), либо просто руками уберите # и пробел после нее в каждой строчке) и запустите ее.

In [None]:
# import os
# os._exit(00)
# !pip install pyarrow pandas==1.5.3

### Задание 1

Магазин открывается через 15 дней после завершения ремонта. Найдите дату, когда был закончен ремонт в каждом магазине

In [None]:
import os
import pandas as pd

path_shops = '../tables/shops.xlsx' if os.path.exists('../tables/shops.xlsx') else 'https://drive.google.com/uc?id=1gfnmceJa3Mc1X06NftTx9G9QfKfprjEB'

shops = pd.read_excel(path_shops)
shops.head()

In [None]:
# напишите свой код здесь

### Задание 2

На каждую отчетную дату найдите возраст сотрудника в годах

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

### Задание 3

Округлите дату покупки до недели (при помощи метода astype)

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample_check на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample_check = '../tables/sales_sample_check.parquet' if os.path.exists('../tables/sales_sample_check.parquet') else 'https://drive.google.com/uc?id=1oYT518oqGnEF51PSFHfSHYNP-690ktFL'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample_check)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 4

Для каждой строки найдите день недели на русском языке, когда была совершена покупка

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample_check на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample_check = '../tables/sales_sample_check.parquet' if os.path.exists('../tables/sales_sample_check.parquet') else 'https://drive.google.com/uc?id=1oYT518oqGnEF51PSFHfSHYNP-690ktFL'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample_check)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 5

Найдте цену на litecoin по состоянию на 29 мая 2020 года 18:32

In [None]:
# таблица ltc - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_ltc_sample на path_ltc_full внутри функции read_parquet

import os
import pandas as pd

# path_ltc_full = '../tables/ltc.parquet' if os.path.exists('../tables/ltc.parquet') else "https://drive.usercontent.google.com/download?id=1ZkAmVZverOV3aGwmEQGAFXgXnQ6pPsZw&export=download&authuser=1&confirm=t&uuid=b827b3e2-7c5d-4979-9d25-f1c34954ac9f&at=APZUnTUs_oUnCQujGIlgn2Zkb5VG:1693327327264"
path_ltc_sample = '../tables/ltc_sample.parquet' if os.path.exists('../tables/ltc_sample.parquet') else 'https://drive.google.com/uc?id=1XaThogOOqKjJj50LvfJ9WqutjMAC5AxA'

ltc = pd.read_parquet(path_ltc_sample)
ltc.head()

In [None]:
# напишите свой код здесь

### Задание 6

Приведите колонку purchase_date к началу года

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample_check на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample_check = '../tables/sales_sample_check.parquet' if os.path.exists('../tables/sales_sample_check.parquet') else 'https://drive.google.com/uc?id=1oYT518oqGnEF51PSFHfSHYNP-690ktFL'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample_check)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 7

Для каждого сотрудника посчитайте посчитайте сколько было ему лет, когда он впервые устроился на работу.

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

### Задание 8

Найдите цену закрытия за каждый день (цена закрытия - последняя цена за определенный период)

In [None]:
# таблица ltc - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_ltc_sample на path_ltc_full внутри функции read_parquet

import os
import pandas as pd

# path_ltc_full = '../tables/ltc.parquet' if os.path.exists('../tables/ltc.parquet') else "https://drive.usercontent.google.com/download?id=1ZkAmVZverOV3aGwmEQGAFXgXnQ6pPsZw&export=download&authuser=1&confirm=t&uuid=b827b3e2-7c5d-4979-9d25-f1c34954ac9f&at=APZUnTUs_oUnCQujGIlgn2Zkb5VG:1693327327264"
path_ltc_sample = '../tables/ltc_sample.parquet' if os.path.exists('../tables/ltc_sample.parquet') else 'https://drive.google.com/uc?id=1XaThogOOqKjJj50LvfJ9WqutjMAC5AxA'

ltc = pd.read_parquet(path_ltc_sample)
ltc.head()

In [None]:
# напишите свой код здесь

### Задание 9

Посчитайте среднее время покупки в магазине 9 21 окрября 2022 года. Результат округлити до минут. Кроме того, постройте гистограмму числа покупок по времени.

In [None]:
# таблица sales - большая, и в некоторых случаях ваш компьютер может не справиться с ее обработкой
# поэтому лучше работайте с частью этой таблицы
# но если вы хотите попробовать поработать с полной версией таблицы,
# можете заменить переменную path_sales_sample_check на path_sales внутри функции read_parquet

import os
import pandas as pd

path_sales_sample_check = '../tables/sales_sample_check.parquet' if os.path.exists('../tables/sales_sample_check.parquet') else 'https://drive.google.com/uc?id=1oYT518oqGnEF51PSFHfSHYNP-690ktFL'
# path_sales = '../tables/sales.parquet' if os.path.exists('../tables/sales.parquet') else "https://drive.usercontent.google.com/download?id=15KwSxyM6hpNABGe6_vsrFZvD09VfHFyK&export=download&authuser=1&confirm=t&uuid=115bd48c-cc2c-4f2a-8b42-be5ca6ef6db8&at=APZUnTUVb8nfNANw5wr9Cad7PJ3U:1693327774694"

sales = pd.read_parquet(path_sales_sample_check)
sales.head()

In [None]:
# напишите свой код здесь

### Задание 10

Посмотрите на рапределение людей с высшим образованием в разрезе возраста.

Измените образование с высшего на среднее общее если сотруднику на отчетную дату было меньше 21 года и месяц отчетной даты - январь, февраль, март, апрель, май или июнь

In [None]:
import os
import pandas as pd

path_empl = '../tables/employees.parquet' if os.path.exists('../tables/employees.parquet') else 'https://drive.google.com/uc?id=1AARD5-eVlCxoApt5CYZebrC3Cqw42lvj'

empl = pd.read_parquet(path_empl)
empl.head()

In [None]:
# напишите свой код здесь

In [1]:
from IPython.core.display import display, HTML
display(HTML("<style>.container { width:100% !important; }</style>"))

  from IPython.core.display import display, HTML
