# Время

Для работы с датой и временем можно использовать модуль datetime. Для получения данных о времени в момент вызова функции используйте функцию today в одноимённом подмодуле:

In [2]:
import datetime  # by convention imports are placed in the head of file and separated with 2 blank lines from other code


date = datetime.datetime.today()
date

datetime.datetime(2022, 10, 30, 21, 13, 37, 237730)

Само по себе это даст вам специальный тип даты. Чтобы перевести его в строку сделайте следующее:

In [5]:
date = datetime.datetime.today().strftime('%Y-%m-%D-%H:%M:%S')
date

'2022-10-10/30/22-21:16:18'

strftime форматирует дату по переданному ему формату:

% – обозначает что дальше будет часть даты
Y – год 4-мя знаками
m – месяц 2-мя знаками
d – день
H – час
M – минуты
S – секунды

In [6]:
from datetime import datetime


# current date and time
now = datetime.now() 
print(f'Full time format of now is {now}')

Full time format of now is 2022-10-30 21:16:53.470289


https://docs.python.org/3/library/datetime.html

# Конвертация во время

pd.to_datetime() — метод, позволяющий превратить строки во время. Это позволяет удобно с ним работать.

In [None]:
df['Date'] = pd.to_datetime(df['Date'])

In [21]:
df = pd.read_csv('3_taxi_peru.csv', sep = ';')

In [22]:
df.dtypes

journey_id           object
user_id              object
driver_id            object
taxi_id              object
icon                 object
start_type           object
start_at             object
start_lat            object
start_lon            object
end_at               object
end_lat              object
end_lon              object
end_state            object
driver_start_lat     object
driver_start_lon     object
arrived_at           object
source               object
driver_score        float64
rider_score         float64
dtype: object

In [23]:
df['start_at'] = pd.to_datetime(df.start_at)

In [24]:
df.dtypes

journey_id                  object
user_id                     object
driver_id                   object
taxi_id                     object
icon                        object
start_type                  object
start_at            datetime64[ns]
start_lat                   object
start_lon                   object
end_at                      object
end_lat                     object
end_lon                     object
end_state                   object
driver_start_lat            object
driver_start_lon            object
arrived_at                  object
source                      object
driver_score               float64
rider_score                float64
dtype: object

Видим, что тип данных изменился

In [25]:
df.start_at

0       2010-11-16 16:44:00
1       2010-06-01 00:34:00
2       2010-05-31 05:01:00
3       2010-06-01 00:29:00
4       2010-09-11 23:55:00
                ...        
23106   2010-07-31 13:15:00
23107   2010-10-02 05:26:00
23108   2010-09-21 09:56:00
23109   2010-04-29 04:30:00
23110   2010-03-16 19:58:00
Name: start_at, Length: 23111, dtype: datetime64[ns]

In [26]:
df.start_at.dt.day

0        16
1         1
2        31
3         1
4        11
         ..
23106    31
23107     2
23108    21
23109    29
23110    16
Name: start_at, Length: 23111, dtype: int64

In [27]:
df.start_at.dt.weekday

0        1
1        1
2        0
3        1
4        5
        ..
23106    5
23107    5
23108    1
23109    3
23110    1
Name: start_at, Length: 23111, dtype: int64

In [28]:
df.start_at.dt.day_name()

0         Tuesday
1         Tuesday
2          Monday
3         Tuesday
4        Saturday
           ...   
23106    Saturday
23107    Saturday
23108     Tuesday
23109    Thursday
23110     Tuesday
Name: start_at, Length: 23111, dtype: object

In [29]:
df.start_at.dt.month

0        11
1         6
2         5
3         6
4         9
         ..
23106     7
23107    10
23108     9
23109     4
23110     3
Name: start_at, Length: 23111, dtype: int64

In [30]:
df.start_at.dt.month_name()

0         November
1             June
2              May
3             June
4        September
           ...    
23106         July
23107      October
23108    September
23109        April
23110        March
Name: start_at, Length: 23111, dtype: object

In [31]:
df.start_at.dt.year

0        2010
1        2010
2        2010
3        2010
4        2010
         ... 
23106    2010
23107    2010
23108    2010
23109    2010
23110    2010
Name: start_at, Length: 23111, dtype: int64

In [None]:
https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.to_datetime.html

Парсинг дат


Также вы можете заранее распарсить дату при загрузке датасета, передав в parse_dates список колонок, в которых содержится дата:

In [None]:
pd.read_csv('some.csv', parse_dates=[1])  # order of columns starting from 0

# Операции с датами

In [43]:
df_orders = pd.read_excel('data.xlsx')

In [44]:
df_orders = df_orders.rename(columns=lambda c: c.lower().replace('-', '_').replace('/', '_').replace(' ', '_'))

In [46]:
#Как извлечь из даты информацию о месяце и годе?
# создание столбца year_month
df_orders['year_month'] = df_orders['order_date'].dt.to_period('M')

In [47]:
#интервал между двумя датами
df_orders['duration_order'] = df_orders.ship_date - df_orders.order_date
df_orders.head(2)

Unnamed: 0,row_id,order_id,order_date,ship_date,ship_mode,customer_id,customer_name,segment,country_region,city,...,product_id,category,sub_category,product_name,sales,quantity,discount,profit,year_month,duration_order
0,1,CA-2018-152156,2018-11-08,2018-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,FUR-BO-10001798,Furniture,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136,2018-11,3 days
1,2,CA-2018-152156,2018-11-08,2018-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,FUR-CH-10000454,Furniture,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582,2018-11,3 days


In [54]:
#или интервал между двумя датами
df_orders['days_to_order'] = (df_orders['ship_date'] - df_orders['order_date']).dt.days
df_orders.head(2)

Unnamed: 0,row_id,order_id,order_date,ship_date,ship_mode,customer_id,customer_name,segment,country_region,city,...,sub_category,product_name,sales,quantity,discount,profit,year_month,duration_order,days_to_order,plan_date
0,1,CA-2018-152156,2018-11-08,2018-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136,2018-11,3 days,3,2018-11-10
1,2,CA-2018-152156,2018-11-08,2018-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582,2018-11,3 days,3,2018-11-10


In [55]:
#прибавление интервала
df_orders['plan_date'] = df_orders.order_date+pd.DateOffset(days=2)
df_orders.head(2)

Unnamed: 0,row_id,order_id,order_date,ship_date,ship_mode,customer_id,customer_name,segment,country_region,city,...,sub_category,product_name,sales,quantity,discount,profit,year_month,duration_order,days_to_order,plan_date
0,1,CA-2018-152156,2018-11-08,2018-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,Bookcases,Bush Somerset Collection Bookcase,261.96,2,0.0,41.9136,2018-11,3 days,3,2018-11-10
1,2,CA-2018-152156,2018-11-08,2018-11-11,Second Class,CG-12520,Claire Gute,Consumer,United States,Henderson,...,Chairs,"Hon Deluxe Fabric Upholstered Stacking Chairs,...",731.94,3,0.0,219.582,2018-11,3 days,3,2018-11-10


# Поиск пустых значений


isna — это метод, с помощью которого можно быстро найти пропущенные значения в датафрейме:

Применив его, на выходе мы получаем датафрэйм той же размерности, где в каждой ячейке True или False — в зависимости от того, было ли значение пропущено:

In [7]:
import pandas as pd

In [8]:
#создание датафрейма
df_data = pd.DataFrame([['Anna', 23, 3],
             ['Ivan', 36, None],
             ['Lena', 33, 10],
             ['Irina', None, 7],
             ['Lisa', 27, 7],
             ['Peter', 32, 8]])
df_data.columns = ['name', 'age', 'expr'] 

In [10]:
df_data.isna()

Unnamed: 0,name,age,expr
0,False,False,False
1,False,False,True
2,False,False,False
3,False,True,False
4,False,False,False
5,False,False,False


В связке с ним можно использовать, например, sum, чтобы посмотреть на число NA в разных колонках:

In [12]:
df_data.isna().sum()

name    0
age     1
expr    1
dtype: int64

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.isna.html

# Проверка на начало строки

startswith — строковый метод, принимающий другую строку и возвращающий True или False в зависимости от того, начинается ли исходная строка с переданной.

In [14]:
'Minsk'.startswith('Mi')

True

In [15]:
'Minsk'.startswith('Ab')

False

https://pythonz.net/references/named/str.startswith/

In [17]:
my_str = 'Discworld'

In [None]:
my_str.startswith('Mad')  # False
my_str.startswith('Disc')  # True
my_str.startswith(('Disc', 'Mad'))  # True
my_str.startswith('world', 4, 9)  # True

# Конвертация типов в датафрэйме

Нередка ситуация, когда тип данных в колонке не соответствует желаемому.

Чтобы это исправить, есть метод astype, в который можно передать словарь, где ключи — названия колонок, а значения — новые типы для них. Метод возвращает новый датафрэйм с изменёнными типами:

df = df.astype({'money': 'float'})  # df.money will be rational number after this line


df.height = df.height.astype('float')  # df.height will be rational number

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.astype.html

# Удаление пропущенных значений

dropna — метод, позволяющий выкинуть из датафрэйма все строки, содержащие пропущенные значения.

In [56]:
#создание датафрейма
df_data = pd.DataFrame([['Anna', 23, 3],
             ['Ivan', 36, None],
             ['Lena', 33, 10],
             ['Irina', None, 7],
             ['Lisa', 27, 7],
             ['Peter', 32, 8]])
df_data.columns = ['name', 'age', 'expr'] 

In [57]:
df_data.dropna()

Unnamed: 0,name,age,expr
0,Anna,23.0,3.0
2,Lena,33.0,10.0
4,Lisa,27.0,7.0
5,Peter,32.0,8.0


Так мы выкинем все строки, где было хотя бы одно пропущенное значение

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.dropna.html#pandas.DataFrame.dropna