# ПРОДВИНУТЫЕ ТЕМЫ PANDAS И ЗАДАНИЯ СО ЗВЁЗДОЧКОЙ

## Управляем временем

### resample

Теперь посмотрим, какие возможности pandas предоставляет для работы с временными рядами. Один из наиболее часто используемых и удобных методов — `.resample()`, позволяющий преобразовать данные и применить к ним другой метод (`sum()`, `size()` и пр.). Таким образом, можно рассчитать показатели, например, за весь день, неделю, месяц и т.п.

Например, посчитать сумму показателя по дням, имея данные по часам, можно следующим образом:

In [None]:
data.resample(rule='D').sum()

где `rule` — параметр, отвечающий за то, по какому периоду нужно агрегировать данные. В данном случае параметр он равен `'D'` (Day). 

### 1

В следующих задачах мы будем работать сэмплом данных об аренде велосипедов в Чикаго:

- `trip_id` — id поездки;  
- `start_time` — Дата и время начала поездки
- `end_time` — Дата и время конца поездки
- `bikeid` — id велосипеда
- `tripduration` — продолжительность поездки в минутах
- `from_station_id` — id станции начала поездки
- `from_station_name` — название пункта отправления
- `to_station_id` — id пункта прибытия
- `to_station_name` — название пункта прибытия
- `usertype` — тип пользователя
- `gender` — пол (если subscriber)
- `birthyear` — год рождения (если subscriber)

Для начала, возьмем данные только за Q1, осохраним их в переменную `bikes_Q1`. Перед тем как сделать `.resample()`, нужно немного подготовить данные. Поместите колонку `start_time` в качестве индексов и сохраните изменения в исходный датасет. Предварительно проверьте тип переменной, и приведите её к правильному, если необходимо.

In [145]:
import pandas as pd
import numpy as np

In [5]:
bikes_Q1 = pd.read_csv('bikes_q1_sample.csv')

In [8]:
bikes_Q1[['start_time', 'end_time']] = bikes_Q1[['start_time', 'end_time']].apply(pd.to_datetime)

In [9]:
bikes_Q1.dtypes

trip_id                       int64
start_time           datetime64[ns]
end_time             datetime64[ns]
bikeid                        int64
tripduration                 object
from_station_id               int64
from_station_name            object
to_station_id                 int64
to_station_name              object
usertype                     object
gender                       object
birthyear                   float64
dtype: object

In [10]:
bikes_Q1.set_index('start_time', inplace=True)

In [11]:
bikes_Q1

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-01-22 20:04:31,17617135,2018-01-22 20:11:53,1131,442.0,471,Francisco Ave & Foster Ave,468,Budlong Woods Library,Subscriber,Female,1949.0
2018-03-16 19:47:59,17897619,2018-03-16 20:04:00,6146,961.0,296,Broadway & Belmont Ave,253,Winthrop Ave & Lawrence Ave,Subscriber,Male,1988.0
2018-03-14 18:49:20,17881307,2018-03-14 18:54:38,3847,318.0,260,Kedzie Ave & Milwaukee Ave,503,Drake Ave & Fullerton Ave,Subscriber,Male,1987.0
2018-03-14 18:33:48,17881130,2018-03-14 19:07:40,1483,2032.0,199,Wabash Ave & Grand Ave,199,Wabash Ave & Grand Ave,Subscriber,Male,1990.0
2018-02-05 17:39:14,17686289,2018-02-05 17:46:13,6391,419.0,596,Benson Ave & Church St,605,University Library (NU),Subscriber,Male,1992.0
...,...,...,...,...,...,...,...,...,...,...,...
2018-02-28 17:16:53,17792363,2018-02-28 17:18:49,2401,116.0,50,Clark St & Congress Pkwy,41,Federal St & Polk St,Subscriber,Male,1991.0
2018-02-08 11:52:44,17695807,2018-02-08 11:58:13,4687,329.0,18,Wacker Dr & Washington St,39,Wabash Ave & Adams St,Subscriber,Male,1979.0
2018-03-22 17:18:21,17938644,2018-03-22 17:24:13,6200,352.0,59,Wabash Ave & Roosevelt Rd,50,Clark St & Congress Pkwy,Subscriber,Male,1968.0
2018-02-20 16:45:07,17738202,2018-02-20 16:57:42,757,755.0,99,Lake Shore Dr & Ohio St,38,Clark St & Lake St,Subscriber,Male,1990.0


### 2

В данных имеется как дата аренды, так и её точное время начала и окончания с точностью до секунд. Примените метод `pd.resample()` и агрегируйте данные по дням. В качестве ответа укажите максимальное число аренд за день.

In [15]:
bikes_Q1.resample('1d').trip_id.count().max()

4196

### 3

Посмотрим на распределение количества аренд для разных групп пользователей (`usertype`) — customers и subscribers в данных за апрель.

Сделайте ресемпл по дням для каждой группы и в качестве ответа укажите число аренд за 18 апреля, сделанных пользователями типа `Subscriber`.

In [110]:
bikes = pd.read_csv('bikes_april.csv', parse_dates=[0, 2])

In [111]:
bikes.dtypes

start_time           datetime64[ns]
trip_id                       int64
end_time             datetime64[ns]
bikeid                        int64
tripduration                 object
from_station_id               int64
from_station_name            object
to_station_id                 int64
to_station_name              object
usertype                     object
gender                       object
birthyear                   float64
dtype: object

In [112]:
bikes.set_index('start_time', inplace=True)

In [113]:
bikes.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-04-01 00:10:23,18000531,2018-04-01 00:22:12,5065,709.0,228,Damen Ave & Melrose Ave,219,Damen Ave & Cortland St,Subscriber,Male,1983.0
2018-04-01 00:15:49,18000533,2018-04-01 00:19:47,4570,238.0,128,Damen Ave & Chicago Ave,130,Damen Ave & Division St,Subscriber,Male,1978.0
2018-04-01 00:17:00,18000534,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
2018-04-01 00:20:00,18000536,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2018-04-01 00:23:19,18000538,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0


In [30]:
day_bikes_count = bikes.groupby('usertype') \
                       .trip_id.resample('1d') \
                       .count()

In [34]:
day_bikes_count.loc[('Subscriber', '2018-04-18')]

2196

### ★ 4

Посмотрим на данные за период с апреля по декабрь.

Объедините сэмплы данных за нужные месяцы в один общий датасет `bikes`. Сделайте преобразование по дням для каждой группы пользователей (`usertype`), затем выберите дни, в которые число аренд, сделанных customers, было больше, чем у subscribers.

- __2018-09-02__
- __2018-05-27__
- 2018-02-09
- 2018-05-28
- 2019-09-02
- 2018-05-04

In [121]:
links = ["https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_apr.csv", 
         "https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_may.csv", 
         "https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_jun.csv", 
         "https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_july.csv", 
         "https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_aug.csv", 
         "https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_sep.csv",
         "https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_oct.csv",
         "https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_nov.csv",
         "https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_dec.csv"]

In [125]:
bikes = []

In [126]:
for link in links:
    df = pd.read_csv(link)
    bikes.append(df)

In [127]:
bikes = pd.concat(bikes)

In [128]:
bikes.head()

Unnamed: 0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
0,18000534,2018-04-01 00:17:00,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
1,18000536,2018-04-01 00:20:00,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2,18000538,2018-04-01 00:23:19,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0
3,18000540,2018-04-01 00:24:46,2018-04-01 00:44:23,6401,1177.0,596,Benson Ave & Church St,517,Clark St & Jarvis Ave,Subscriber,Male,1974.0
4,18000541,2018-04-01 00:26:04,2018-04-01 00:31:05,6333,301.0,145,Mies van der Rohe Way & Chestnut St,24,Fairbanks Ct & Grand Ave,Subscriber,Male,1984.0


In [129]:
bikes[['start_time', 'end_time']] = bikes[['start_time', 'end_time']].apply(pd.to_datetime)

In [130]:
bikes.set_index('start_time', inplace=True)

In [131]:
bikes.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-04-01 00:17:00,18000534,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
2018-04-01 00:20:00,18000536,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2018-04-01 00:23:19,18000538,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0
2018-04-01 00:24:46,18000540,2018-04-01 00:44:23,6401,1177.0,596,Benson Ave & Church St,517,Clark St & Jarvis Ave,Subscriber,Male,1974.0
2018-04-01 00:26:04,18000541,2018-04-01 00:31:05,6333,301.0,145,Mies van der Rohe Way & Chestnut St,24,Fairbanks Ct & Grand Ave,Subscriber,Male,1984.0


In [70]:
day_bikes_count = bikes.groupby('usertype') \
                       .trip_id \
                       .resample('1d') \
                       .count()

In [72]:
day_bikes_vs_user_groups = day_bikes_count.unstack(level='usertype')

In [76]:
(day_bikes_vs_user_groups.Customer > day_bikes_vs_user_groups.Subscriber) \
    .to_frame(name='more_customer_than_subscriber') \
    .query('more_customer_than_subscriber == True')

Unnamed: 0_level_0,more_customer_than_subscriber
start_time,Unnamed: 1_level_1
2018-05-27,True
2018-09-02,True


### 5

Отлично! Следующий шаг – более подробно посмотреть на летний период.

Еще один плюс использования дат в качестве индексов – возможность выбрать данные за интересующий нас промежуток времени. В переменную `bikes_summer` сохраните наблюдения с 1 июня по 31 августа. Затем запишите в `top_destination` наиболее популярный пункт назначения (его название). Агрегируйте данные по дням и определите, в какой день в полученный пункт (`top_destination`) было совершено меньше всего поездок. Дату сохраните в `bad_day`, отформатировав timestamp с помощью `.strftime('%Y-%m-%d'`).

In [148]:
bikes_summer = bikes.loc['2018-06-01':'2018-08-31']

In [133]:
top_destination = bikes_summer.to_station_name.value_counts() \
                                              .idxmax()

In [134]:
top_destinantion_bikes = bikes_summer.query('to_station_name == @top_destination')

In [135]:
top_destinantion_bikes.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-06-01 07:04:44,18710193,2018-06-01 07:24:39,4421,1195.0,192,Canal St & Adams St,35,Streeter Dr & Grand Ave,Subscriber,Male,1960.0
2018-06-01 07:25:37,18710624,2018-06-01 07:32:31,961,414.0,25,Michigan Ave & Pearson St,35,Streeter Dr & Grand Ave,Subscriber,Male,1987.0
2018-06-01 07:25:44,18710627,2018-06-01 07:48:45,971,1381.0,177,Theater on the Lake,35,Streeter Dr & Grand Ave,Subscriber,Male,1978.0
2018-06-01 07:34:35,18710828,2018-06-01 07:47:26,4268,771.0,140,Dearborn Pkwy & Delaware Pl,35,Streeter Dr & Grand Ave,Customer,,
2018-06-01 07:34:46,18710830,2018-06-01 07:51:30,5183,1004.0,18,Wacker Dr & Washington St,35,Streeter Dr & Grand Ave,Subscriber,Female,1955.0


In [136]:
bad_day = top_destinantion_bikes.resample('1d').to_station_name.count() \
                                                               .idxmin()

In [137]:
bad_day = bad_day.strftime('%Y-%m-%d')

In [138]:
bad_day

'2018-06-21'

### 6

Куда больше всего ездят на выходных? Туда же, куда и в будние дни, или в другие пункты назначения?

Используя данные за период с 1 июня по 31 августа, выберите верные утверждения.

- __Наиболее популярный пункт назначения в субботу – Streeter Dr & Grand Ave__
- __Второй по числу поездок в субботу – Lake Shore Dr & North Blvd__
- Второй по числу поездок в субботу – Canal St & Adams St
- В будние дни больше всего поездок совершено до Canal St & Adams St
- __В будние дни больше всего поездок совершается до Streeter Dr & Grand Ave__

In [149]:
bikes_summer['day'] = bikes_summer.index.day_name()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  bikes_summer['day'] = bikes_summer.index.day_name()


In [150]:
bikes_summer.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear,day
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2018-06-01 00:04:40,18709077,2018-06-01 00:06:47,3155,127.0,128,Damen Ave & Chicago Ave,214,Damen Ave & Grand Ave,Subscriber,Female,1978.0,Friday
2018-06-01 00:06:08,18709080,2018-06-01 00:24:18,2807,1090.0,258,Logan Blvd & Elston Ave,69,Damen Ave & Pierce Ave,Customer,,,Friday
2018-06-01 00:08:01,18709086,2018-06-01 00:32:55,2737,1494.0,337,Clark St & Chicago Ave,225,Halsted St & Dickens Ave,Customer,Male,1988.0,Friday
2018-06-01 00:09:02,18709091,2018-06-01 00:19:21,6089,619.0,210,Ashland Ave & Division St,56,Desplaines St & Kinzie St,Subscriber,Male,1987.0,Friday
2018-06-01 00:09:28,18709092,2018-06-01 00:14:44,2352,316.0,240,Sheridan Rd & Irving Park Rd,303,Broadway & Cornelia Ave,Subscriber,Male,1997.0,Friday


In [154]:
bikes_summer.day.unique()

array(['Friday', 'Saturday', 'Sunday', 'Monday', 'Tuesday', 'Wednesday',
       'Thursday'], dtype=object)

In [155]:
working_day = ['Friday', 'Monday', 'Tuesday', 'Wednesday', 'Thursday']
holidays = ['Saturday', 'Sunday']

In [158]:
bikes_summer['is_working_day'] = np.where(bikes_summer.day.isin(working_day), 1, 0)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  bikes_summer['is_working_day'] = np.where(bikes_summer.day.isin(working_day), 1, 0)


In [159]:
bikes_summer.query('day == "Saturday"') \
            .to_station_name \
            .value_counts()

Streeter Dr & Grand Ave       3461
Lake Shore Dr & North Blvd    1690
Theater on the Lake           1470
Lake Shore Dr & Monroe St     1232
Millennium Park               1080
                              ... 
Karlov Ave & Madison St          1
Stony Island Ave & 82nd St       1
Cicero Ave & Flournoy St         1
Halsted St & 59th St             1
Perry Ave & 69th St              1
Name: to_station_name, Length: 557, dtype: int64

In [161]:
bikes_summer.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear,day,is_working_day
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
2018-06-01 00:04:40,18709077,2018-06-01 00:06:47,3155,127.0,128,Damen Ave & Chicago Ave,214,Damen Ave & Grand Ave,Subscriber,Female,1978.0,Friday,1
2018-06-01 00:06:08,18709080,2018-06-01 00:24:18,2807,1090.0,258,Logan Blvd & Elston Ave,69,Damen Ave & Pierce Ave,Customer,,,Friday,1
2018-06-01 00:08:01,18709086,2018-06-01 00:32:55,2737,1494.0,337,Clark St & Chicago Ave,225,Halsted St & Dickens Ave,Customer,Male,1988.0,Friday,1
2018-06-01 00:09:02,18709091,2018-06-01 00:19:21,6089,619.0,210,Ashland Ave & Division St,56,Desplaines St & Kinzie St,Subscriber,Male,1987.0,Friday,1
2018-06-01 00:09:28,18709092,2018-06-01 00:14:44,2352,316.0,240,Sheridan Rd & Irving Park Rd,303,Broadway & Cornelia Ave,Subscriber,Male,1997.0,Friday,1


In [163]:
bikes_summer.query('is_working_day == 1') \
            .to_station_name \
            .value_counts()

Streeter Dr & Grand Ave         7614
Canal St & Adams St             6142
Clinton St & Washington Blvd    4857
Clinton St & Madison St         4694
Lake Shore Dr & North Blvd      4213
                                ... 
Racine Ave & 61st St               2
Laramie Ave & Madison St           2
Marion St & South Blvd             1
Central Ave & Madison St           1
Throop St & 52nd St                1
Name: to_station_name, Length: 578, dtype: int64