## Особенности работы с датой и временем при анализе данных в Pandas

### Автор лекции: [Габбасов Раиль](https://github.com/garrigar)

Работать с датой и временем в Pandas довольно удобно. На самом деле, Pandas изначально был создан Уэдом МакКинни, когда он работал консультантом по инвестиционным фондам, для обработки соответствующих этой области данных, среди которых были данные о дате и времени.

In [1]:
# Импортируем pandas и numpy
import pandas as pd
import numpy as np

### Timestamp

In [2]:
# В Pandas есть четыре основных класса, связанных со временем: Timestamp, DatetimeIndex, Period и PeriodIndex. 
# Для начала давайте посмотрим на объект Timestamp. Он представляет собой одну метку времени, его значение связано с некоторым моментом времени.

# Например, давайте создадим временную метку, используя строку '9/1/2019 10:05AM'.
# Timestamp в большинстве случаев взаимозаменяем с объектом datetime из Python.
pd.Timestamp('9/1/2019 10:05AM')

Timestamp('2019-09-01 10:05:00')

In [3]:
# Мы также можем создать метку времени, передав несколько параметров, таких как год, месяц, дата, час, минута, по отдельности.
pd.Timestamp(2019, 12, 20, 0, 0)

Timestamp('2019-12-20 00:00:00')

In [4]:
# Timestamp также имеет некоторые полезные атрибуты, такие как isoweekday(), который показывает день недели, соответствующий отметке времени.
# (1 - понедельник, 7 - воскресенье)
pd.Timestamp(2019, 12, 20, 0, 0).isoweekday()

5

In [5]:
# Можно извлечь конкретный год, месяц, день, час, минуту, секунду из метки времени
pd.Timestamp(2019, 12, 20, 5, 2,23).second

23

### Period

In [6]:
# Предположим, что нас не интересует конкретный момент времени, а нужен промежуток времени. Здесь в игру вступает класс Period. 
# Period (период) представляет собой один промежуток времени, например, определенный день или месяц.

# Здесь мы создаем период — январь 2016 года
pd.Period('1/2016')

Period('2016-01', 'M')

In [7]:
# При выводе было видно, что степень детализации периода равна M, т.е. месяц, 
# так как это была наименьшая временная единица, которую мы указали. 

# Вот пример периода "5 марта 2016 года".
pd.Period('3/5/2016')

Period('2016-03-05', 'D')

In [8]:
# Объекты Period представляют полный указанный нами промежуток времени. Арифметика периода очень проста и интуитивно понятна. 
# Например, если мы хотим узнать, что будет через 5 месяцев после января 2016 года, мы просто прибавляем 5:
pd.Period('1/2016') + 5

Period('2016-06', 'M')

In [9]:
# Из результата можем видеть, что мы получаем июнь 2016 года. 
# Если мы хотим узнать, что было за два дня до 5 марта 2016 года, мы просто вычитаем 2:
pd.Period('3/5/2016') - 2

Period('2016-03-03', 'D')

In [10]:
# Ключевым здесь является то, что объект периода инкапсулирует в себе степень детализации (наименьшую временную единицу), 
# вокруг которой и построена арифметика.

### DatetimeIndex and PeriodIndex

In [11]:
# Индекс, содержащий временные метки, - это DatetimeIndex. Давайте посмотрим на пример. 
# Для начала создадим наш пример типа Series (серию) t1, где в качестве индекса мы будем использовать метки времени 1, 2 и 3 сентября 2016 года. 
# В создаваемой серии каждая метка времени является индексом и имеет связанное с ней значение, в данном случае 'a', 'b', и 'c'.

t1 = pd.Series(list('abc'), [pd.Timestamp('2016-09-01'), pd.Timestamp('2016-09-02'), 
                             pd.Timestamp('2016-09-03')])
t1

2016-09-01    a
2016-09-02    b
2016-09-03    c
dtype: object

In [12]:
# Видим, что тип индекса нашей серии - DatetimeIndex.
type(t1.index)

pandas.core.indexes.datetimes.DatetimeIndex

In [13]:
# Точно так же мы можем создать индекс на основе периодов.
t2 = pd.Series(list('def'), [pd.Period('2016-09'), pd.Period('2016-10'), 
                             pd.Period('2016-11')])
t2

2016-09    d
2016-10    e
2016-11    f
Freq: M, dtype: object

In [14]:
# Тип ts2.index - PeriodIndex.
type(t2.index)

pandas.core.indexes.period.PeriodIndex

### Конвертация в Datetime

In [15]:
# Теперь давайте посмотрим, как конвертировать в Datetime. 
# Предположим, у нас есть список дат в виде строк, и мы хотим создать новый датафрейм.

# Попробуем разные форматы даты
d1 = ['2 June 2013', 'Aug 29, 2014', '2015-06-26', '7/12/16']

# И какие-нибудь случайные данные...
ts3 = pd.DataFrame(np.random.randint(10, 100, (4, 2)), index=d1, columns=list('ab'))
ts3

Unnamed: 0,a,b
2 June 2013,30,89
"Aug 29, 2014",78,81
2015-06-26,37,25
7/12/16,96,53


In [16]:
# При вызове pandas.to_datetime, pandas попытается преобразовать даты в Datetime и представить их в стандартном формате.

ts3.index = pd.to_datetime(ts3.index)
ts3

Unnamed: 0,a,b
2013-06-02,30,89
2014-08-29,78,81
2015-06-26,37,25
2016-07-12,96,53


In [17]:
# Стоит отметить, что to_datetime() принимает аргументом не только строго объект Index, но также и Series, и list из строк с датами.
# Например, так тоже можно:
pd.to_datetime(d1)

DatetimeIndex(['2013-06-02', '2014-08-29', '2015-06-26', '2016-07-12'], dtype='datetime64[ns]', freq=None)

In [18]:
# to_datetime() также имеет параметры для изменения порядка парсинга даты. 
# Например, мы можем передать аргумент dayfirst=True, чтобы проанализировать дату в европейском формате.

pd.to_datetime('4.7.12', dayfirst=True)  # 4 июля

Timestamp('2012-07-04 00:00:00')

In [19]:
pd.to_datetime('4.7.12', dayfirst=False)  # 7 апреля

Timestamp('2012-04-07 00:00:00')

In [20]:
pd.to_datetime('4.7.12')  # 7 апреля

Timestamp('2012-04-07 00:00:00')

In [21]:
# Еще немного о методе to_datetime() - в конце.

### Timedelta

In [22]:
# Объект Timedelta - это разница во времени. Это не то же самое, что период, но концептуально похоже. 
# Например, если мы хотим взять разницу между 3 сентября и 1 сентября, мы получим Timedelta, равную двум дням.
pd.Timestamp('9/3/2016') - pd.Timestamp('9/1/2016')

Timedelta('2 days 00:00:00')

In [23]:
# Мы можем также, к примеру, узнать дату и время спустя 12 дней и 3 часа после момента времени 8:10 утра 2 сентября 2016:
pd.Timestamp('9/2/2016 8:10AM') + pd.Timedelta('12D 3H')

Timestamp('2016-09-14 11:10:00')

In [24]:
# Для создания Timedelta можно пользоваться как строковыми алиасами, так и именованными аргументами:
pd.Timedelta('12D 3H') == pd.Timedelta(days=12, hours=3)

True

### Offset

In [25]:
# Offset похож на Timedelta, но следует определенным правилам с точки зрения календаря. 
# Offset (смещение) обеспечивает гибкость в отношении типов временных интервалов. Помимо часа, дня, недели, месяца и т. д., 
# также есть рабочий день, конец месяца и т. д.

# Давайте создадим метку времени и посмотрим, какой сегодня день недели:
pd.Timestamp('9/4/2016').weekday()

6

In [26]:
# Теперь сложим эту метку времени со смещением на одну неделю вперед:
pd.Timestamp('9/4/2016') + pd.offsets.Week()

Timestamp('2016-09-11 00:00:00')

In [27]:
# Теперь попробуем сделать из этого конец месяца, тогда у нас будет последний день сентября
pd.Timestamp('9/4/2016') + pd.offsets.MonthEnd()

Timestamp('2016-09-30 00:00:00')

In [28]:
# Offset можно задать и произвольный:
pd.Timestamp('9/4/2016') + pd.offsets.DateOffset(months=2, hours=1)

Timestamp('2016-11-04 01:00:00')

### Работа с датами в Dataframe

In [29]:
# Далее рассмотрим несколько приемов работы с датами в DataFrame. 
# Предположим, мы хотим посмотреть на 9 измерений, сделанных раз в две недели, каждое воскресенье, начиная с октября 2016 года. 
# Используя date_range, мы можем создать соответствующий DatetimeIndex. В date_range мы должны указать дату начала или окончания. 
# Если она явно не указана, по умолчанию дата считается датой начала. Затем мы должны указать количество периодов ('periods') и частоту ('freq'). 
# Здесь мы устанавливаем значение «2W-SUN», что означает «раз в две недели ("2W" от "biweekly") по воскресеньям».

dates = pd.date_range('10-01-2016', periods=9, freq='2W-SUN')
dates

DatetimeIndex(['2016-10-02', '2016-10-16', '2016-10-30', '2016-11-13',
               '2016-11-27', '2016-12-11', '2016-12-25', '2017-01-08',
               '2017-01-22'],
              dtype='datetime64[ns]', freq='2W-SUN')

In [30]:
# Пример с началом и концом интервала:
pd.date_range(start='10-01-2016', end='10-03-2016')

DatetimeIndex(['2016-10-01', '2016-10-02', '2016-10-03'], dtype='datetime64[ns]', freq='D')

In [31]:
# Можно указать и другие частоты. Например, рабочий день ("B" от "business day")
pd.date_range('10-01-2016', periods=9, freq='B')

DatetimeIndex(['2016-10-03', '2016-10-04', '2016-10-05', '2016-10-06',
               '2016-10-07', '2016-10-10', '2016-10-11', '2016-10-12',
               '2016-10-13'],
              dtype='datetime64[ns]', freq='B')

In [32]:
# Стоит отметить, что аргумент freq, вообще говоря, выражается через экземпляр Offset. 
# Но существуют стоковые алиасы часто используемых Offset, например, 'B', 'D', 'H' и многие другие.
# Видим, что результаты в этой и в предыдущей ячейках совпадают.
pd.date_range('10-01-2016', periods=9, freq=pd.offsets.BDay())

DatetimeIndex(['2016-10-03', '2016-10-04', '2016-10-05', '2016-10-06',
               '2016-10-07', '2016-10-10', '2016-10-11', '2016-10-12',
               '2016-10-13'],
              dtype='datetime64[ns]', freq='B')

In [33]:
# Или меожем сделать шаг равным кварталу, с началом квартала в июне ("QS" от "quarter start")
pd.date_range('04-01-2016', periods=12, freq='QS-JUN')

DatetimeIndex(['2016-06-01', '2016-09-01', '2016-12-01', '2017-03-01',
               '2017-06-01', '2017-09-01', '2017-12-01', '2018-03-01',
               '2018-06-01', '2018-09-01', '2018-12-01', '2019-03-01'],
              dtype='datetime64[ns]', freq='QS-JUN')

In [34]:
# Теперь давайте вернемся к нашему примеру DatetimeIndex «раз в две недели по воскресеньям» и создадим DataFrame, 
# используя эти даты и некоторые случайные данные, и посмотрим, что мы можем с этим сделать.

dates = pd.date_range('10-01-2016', periods=9, freq='2W-SUN')
df = pd.DataFrame({'Число 1': 100 + np.random.randint(-5, 10, 9).cumsum(),
                  'Число 2': 120 + np.random.randint(-5, 10, 9)}, index=dates)
df

Unnamed: 0,Число 1,Число 2
2016-10-02,109,122
2016-10-16,109,124
2016-10-30,112,126
2016-11-13,120,121
2016-11-27,119,127
2016-12-11,124,122
2016-12-25,127,118
2017-01-08,135,118
2017-01-22,137,127


In [35]:
# Во-первых, мы можем проверить, каким днем недели является конкретная дата. 
# Например, здесь мы видим, что все даты в нашем индексе приходятся на воскресенье, что соответствует частоте, которую мы установили.
df.index.day_name()

Index(['Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday', 'Sunday',
       'Sunday', 'Sunday'],
      dtype='object')

In [36]:
# В начале упоминался факт совместимости с объектами даты и времени из Python. Посмотрим на пример такой совместимости, 
# прибавив timedelta из пакета datetime:
from datetime import timedelta
di1 = df.index + timedelta(days=1)
di1

DatetimeIndex(['2016-10-03', '2016-10-17', '2016-10-31', '2016-11-14',
               '2016-11-28', '2016-12-12', '2016-12-26', '2017-01-09',
               '2017-01-23'],
              dtype='datetime64[ns]', freq=None)

In [37]:
# На получившемся DatetimeIndex можно увидеть результат работы еще одного типа методов, название которого говорит само за себя:
di1.is_month_end

array([False, False,  True, False, False, False, False, False, False])

In [38]:
# Вернемся к df. Можем, например, как и всегда, использовать diff(), чтобы найти разницу между значениями для каждой даты.
df.diff()

Unnamed: 0,Число 1,Число 2
2016-10-02,,
2016-10-16,0.0,2.0
2016-10-30,3.0,2.0
2016-11-13,8.0,-5.0
2016-11-27,-1.0,6.0
2016-12-11,5.0,-5.0
2016-12-25,3.0,-4.0
2017-01-08,8.0,0.0
2017-01-22,2.0,9.0


In [39]:
# Предположим, мы хотим узнать среднее значение для каждого месяца в нашем DataFrame. Мы можем сделать это, используя resample. 
df.resample('M').mean()

Unnamed: 0,Число 1,Число 2
2016-10-31,110.0,124.0
2016-11-30,119.5,124.0
2016-12-31,125.5,120.0
2017-01-31,136.0,122.5


In [40]:
# Можно посчитать сразу несколько агрегирующих функций:
df.resample('M').agg(['mean', 'max', 'min', 'sum'])

Unnamed: 0_level_0,Число 1,Число 1,Число 1,Число 1,Число 2,Число 2,Число 2,Число 2
Unnamed: 0_level_1,mean,max,min,sum,mean,max,min,sum
2016-10-31,110.0,112,109,330,124.0,126,122,372
2016-11-30,119.5,120,119,239,124.0,127,121,248
2016-12-31,125.5,127,124,251,120.0,122,118,240
2017-01-31,136.0,137,135,272,122.5,127,118,245


In [41]:
# Теперь давайте поговорим об индексации и срезах по объектам даты и времени, которая сделана в Pandas очень удобно (как и многое другое :D).
# Например, вот так мы можем индексироваться, если хотим найти значения за определенный год (2017):
df.loc['2017']

Unnamed: 0,Число 1,Число 2
2017-01-08,135,118
2017-01-22,137,127


In [42]:
# Можем также посмотреть и на конкретный месяц...
df.loc['2016-12']

Unnamed: 0,Число 1,Число 2
2016-12-11,124,122
2016-12-25,127,118


In [43]:
# ...или даже сделать срез по определенному диапазону дат. Например, For example, here we only want the values from December 2016
# Например, здесь мы смотрим на значения начиная только с декабря 2016 года.
df.loc['2016-12':]

Unnamed: 0,Число 1,Число 2
2016-12-11,124,122
2016-12-25,127,118
2017-01-08,135,118
2017-01-22,137,127


### "Боевой" пример: датасет Taxis

In [44]:
# Скачаем датасет Taxis

In [45]:
TAXIS_URL = 'https://raw.githubusercontent.com/mwaskom/seaborn-data/master/taxis.csv'

In [46]:
# Считаем как есть:
taxis_df = pd.read_csv(TAXIS_URL)

In [47]:
# Посмотрим, что там вообще...
taxis_df

Unnamed: 0,pickup,dropoff,passengers,distance,fare,tip,tolls,total,color,payment,pickup_zone,dropoff_zone,pickup_borough,dropoff_borough
0,2019-03-23 20:21:09,2019-03-23 20:27:24,1,1.60,7.0,2.15,0.0,12.95,yellow,credit card,Lenox Hill West,UN/Turtle Bay South,Manhattan,Manhattan
1,2019-03-04 16:11:55,2019-03-04 16:19:00,1,0.79,5.0,0.00,0.0,9.30,yellow,cash,Upper West Side South,Upper West Side South,Manhattan,Manhattan
2,2019-03-27 17:53:01,2019-03-27 18:00:25,1,1.37,7.5,2.36,0.0,14.16,yellow,credit card,Alphabet City,West Village,Manhattan,Manhattan
3,2019-03-10 01:23:59,2019-03-10 01:49:51,1,7.70,27.0,6.15,0.0,36.95,yellow,credit card,Hudson Sq,Yorkville West,Manhattan,Manhattan
4,2019-03-30 13:27:42,2019-03-30 13:37:14,3,2.16,9.0,1.10,0.0,13.40,yellow,credit card,Midtown East,Yorkville West,Manhattan,Manhattan
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6428,2019-03-31 09:51:53,2019-03-31 09:55:27,1,0.75,4.5,1.06,0.0,6.36,green,credit card,East Harlem North,Central Harlem North,Manhattan,Manhattan
6429,2019-03-31 17:38:00,2019-03-31 18:34:23,1,18.74,58.0,0.00,0.0,58.80,green,credit card,Jamaica,East Concourse/Concourse Village,Queens,Bronx
6430,2019-03-23 22:55:18,2019-03-23 23:14:25,1,4.14,16.0,0.00,0.0,17.30,green,cash,Crown Heights North,Bushwick North,Brooklyn,Brooklyn
6431,2019-03-04 10:09:25,2019-03-04 10:14:29,1,1.12,6.0,0.00,0.0,6.80,green,credit card,East New York,East Flatbush/Remsen Village,Brooklyn,Brooklyn


In [48]:
# и какие тут типы данных у дат. 
type(taxis_df.pickup[0]), type(taxis_df.dropoff[0])

(str, str)

In [49]:
# Колонки pickup и dropoff - типа str.

In [50]:
# Pandas позволяет сразу при чтении указать, что определенные колонки надо понимать как даты и распарсить их:
taxis_df_1 = pd.read_csv(TAXIS_URL, parse_dates=['pickup'])

In [51]:
# Посмотрим, как дела с датами тут:
type(taxis_df_1.pickup[0]), type(taxis_df_1.dropoff[0])

(pandas._libs.tslibs.timestamps.Timestamp, str)

In [52]:
# Все логично: мы велели распарсить колонку pickup, теперь там объекты Timestamp, про dropoff ничего не сказали, там остались строки.

In [53]:
# В большинстве случаев хватает вышеописанной функциональности при чтении, но в сложных случаях можно управлять парсингом вручную, 
# задав свой парсер, например, так:
from datetime import datetime
d_parser = lambda x: datetime.strptime(x, '%Y-%m-%d %H:%M:%S')
taxis_df_2 = pd.read_csv(TAXIS_URL, parse_dates=['pickup'], date_parser=d_parser)

In [54]:
# В нашем случае, автоматически так и распарсилось:
taxis_df_1.equals(taxis_df_2)

True

In [55]:
# Наконец, что, если у нас нет возможности указать на необходимость парсинга дат при чтении из файла, и нам достался объект DataFrame так, как получилось?
# Тут там на помощь придет уже знакомый нам метод to_datetime():

# Скопируем датафрейм, где даты нераспаршены:
taxis_df_3 = taxis_df.copy()
# Используем метод to_datetime()
taxis_df_3['pickup'] = pd.to_datetime(taxis_df_3['pickup'])

In [56]:
# В нашем случае, автоматически распарсилось так же:
taxis_df_1.equals(taxis_df_3)

True

In [57]:
# Стоит отметить, что в to_datetime() тоже можно указать формат. Просто нам это не пригодилось, автоматически сработало правильно:
pd.to_datetime(taxis_df['pickup']).equals(pd.to_datetime(taxis_df['pickup'], format='%Y-%m-%d %H:%M:%S'))

True

In [58]:
# Итак, в taxis_df_1 теперь первая колонка распаршена:
taxis_df_1.pickup

0      2019-03-23 20:21:09
1      2019-03-04 16:11:55
2      2019-03-27 17:53:01
3      2019-03-10 01:23:59
4      2019-03-30 13:27:42
               ...        
6428   2019-03-31 09:51:53
6429   2019-03-31 17:38:00
6430   2019-03-23 22:55:18
6431   2019-03-04 10:09:25
6432   2019-03-13 19:31:22
Name: pickup, Length: 6433, dtype: datetime64[ns]

In [59]:
# Как быть, если хочется получить доступ к удобным методам DatetimeIndex, типа .day_name(), .is_month_end, упоминавшихся ранее, и др.?

# Следующий вызов:
# taxis_df_1.pickup.day_name()
# дает ошибку:
# AttributeError: 'Series' object has no attribute 'day_name'

In [60]:
# Ответа два.
# 1) Надо преобразовать интересующую Series в DatetimeIndex, от которого уже в свою очередь вызывать интересующие методы.
# Например, так:
pd.DatetimeIndex(taxis_df_1.pickup).day_name()

Index(['Saturday', 'Monday', 'Wednesday', 'Sunday', 'Saturday', 'Monday',
       'Tuesday', 'Friday', 'Saturday', 'Friday',
       ...
       'Tuesday', 'Saturday', 'Thursday', 'Thursday', 'Saturday', 'Sunday',
       'Sunday', 'Saturday', 'Monday', 'Wednesday'],
      dtype='object', name='pickup', length=6433)

In [61]:
# 2) Вызвать у Series поле .dt, которое содержит так называемый объект accessor'а, который позволяет вызывать интересующие методы и поля 
# (как если бы они вызывались у каждого элемента Series по отдельности):
taxis_df_1.pickup.dt.day_name()

0        Saturday
1          Monday
2       Wednesday
3          Sunday
4        Saturday
          ...    
6428       Sunday
6429       Sunday
6430     Saturday
6431       Monday
6432    Wednesday
Name: pickup, Length: 6433, dtype: object

In [62]:
# Обратите внимание на сходства и отличия этих подходов. Какой подход, по-вашему, стоит использовать?

In [63]:
# Пример с использованием dt. Найдем все поездки, которые начинались в день начала месяца:
taxis_df_1[taxis_df_1['pickup'].dt.is_month_start]

Unnamed: 0,pickup,dropoff,passengers,distance,fare,tip,tolls,total,color,payment,pickup_zone,dropoff_zone,pickup_borough,dropoff_borough
31,2019-03-01 02:55:55,2019-03-01 02:57:59,3,0.74,4.00,0.00,0.0,7.80,yellow,cash,Clinton East,West Chelsea/Hudson Yards,Manhattan,Manhattan
35,2019-03-01 17:39:58,2019-03-01 18:04:46,1,3.06,17.00,4.26,0.0,25.56,yellow,credit card,West Chelsea/Hudson Yards,Lenox Hill East,Manhattan,Manhattan
58,2019-03-01 23:21:01,2019-03-01 23:46:28,1,4.50,18.50,4.46,0.0,26.76,yellow,credit card,Garment District,Financial District North,Manhattan,Manhattan
60,2019-03-01 22:49:54,2019-03-01 22:53:32,1,0.90,5.00,0.00,0.0,6.30,yellow,credit card,East Harlem South,East Harlem North,Manhattan,Manhattan
102,2019-03-01 07:34:30,2019-03-01 07:40:58,1,1.20,6.50,0.00,0.0,9.80,yellow,cash,Bloomingdale,Upper West Side North,Manhattan,Manhattan
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6308,2019-03-01 15:58:22,2019-03-01 16:55:59,1,18.20,56.13,0.00,0.0,56.63,green,credit card,Sheepshead Bay,Fresh Meadows,Brooklyn,Queens
6322,2019-03-01 17:03:11,2019-03-01 17:17:11,1,5.39,17.00,3.76,0.0,22.56,green,credit card,Jamaica,JFK Airport,Queens,Queens
6328,2019-03-01 16:37:58,2019-03-01 16:49:05,1,2.56,10.50,0.00,0.0,12.30,green,credit card,Forest Hills,Hillcrest/Pomonok,Queens,Queens
6356,2019-03-01 16:58:23,2019-03-01 16:58:23,1,0.00,3.00,0.00,0.0,4.80,green,cash,Stuyvesant Heights,,Brooklyn,


In [64]:
# Посчитаем diff()
taxis_diff = taxis_df_1[['pickup', 'distance']].diff()
taxis_diff

Unnamed: 0,pickup,distance
0,NaT,
1,-20 days +19:50:46,-0.81
2,23 days 01:41:06,0.58
3,-18 days +07:30:58,6.33
4,20 days 12:03:43,-5.54
...,...,...
6428,7 days 15:25:44,-6.32
6429,0 days 07:46:07,17.99
6430,-8 days +05:17:18,-14.60
6431,-20 days +11:14:07,-3.02


In [65]:
# Посмотрим на типы данных
taxis_diff.dtypes

pickup      timedelta64[ns]
distance            float64
dtype: object

In [66]:
taxis_diff.pickup.iloc[-1]

Timedelta('9 days 09:21:57')

In [67]:
# Видим, что тип разницы времен - Timedelta, что ожидаемо.

In [68]:
# Но что за значение NaT в первой строке?
taxis_diff.iloc[0]

pickup      NaT
distance    NaN
Name: 0, dtype: object

In [69]:
# NaT – это отсутствующее значение для данных типа DateTime, аббревиатура от Not a Time (по аналогии с NaN - Not a Number)

In [70]:
# Пример еще одной ситуации, когда может возникнуть NaT:
pd.to_datetime(['2019-01-02', 'SURPRISE', '2019-01-03'], errors='coerce')
# (errors - ещё один параметр метода to_datetime(): 
# если равен 'raise' (по умолчанию), то при ошибке будет исключение, 
# если 'coerce', то ошибочные даты станут NaT,
# если 'ignore', то для ошибочных дат вернется ввод)

DatetimeIndex(['2019-01-02', 'NaT', '2019-01-03'], dtype='datetime64[ns]', freq=None)

In [71]:
pd.to_datetime(['2019-01-02', 'SURPRISE', '2019-01-03'], errors='ignore')

Index(['2019-01-02', 'SURPRISE', '2019-01-03'], dtype='object')

### Смотрите также

Более подробную информацию можно с лёгкостью найти в официальной документации:
https://pandas.pydata.org/docs/user_guide/timeseries.html