# Задание 1
___
**resample**

Теперь посмотрим, какие возможности pandas предоставляет для работы с временными рядами! Один из наиболее часто используемых и удобных методов — .resample(), позволяющий преобразовать данные и применить к ним другой метод (sum(), size() и пр.). Таким образом, можно рассчитать показатели, например, за весь день, неделю, месяц и т.п. С полным списком возможных значений можно ознакомиться здесь.

|Date Offset | Обозначение | Описание|
|:--------:|:-------------:|:---------:|
|DateOffset | None |	|
|Week | 'W' | одна неделя|
|MonthEnd | 'M' | конец календарного месяца|
|MonthBegin | 'MS' | начало календарного месяца|
|QuarterEnd | 'Q' | конец календарного квартала|
|YearEnd | 'A' | конец календарного года|
|YearBegin | 'AS' или 'BYS' | начало календарного года|
|Day | 'D' | день|
|Hour | 'H' | один час|
|Minute | 'T' или 'min' | одна минута|
|Second | 'S' | одна секунда|
|Milli | 'L' или 'ms' | одна миллисекунда| 
|Micro | 'U' или 'us' | одна микросекунда|

Например, посчитать сумму показателя по дням, имея данные по часам, можно следующим образом:
```
data.resample(rule='D').sum()
```
где rule — параметр, отвечающий за то, по какому периоду нужно агрегировать данные. В данном случае параметр он равен 'D' (Day). 

Для получения данных за каждые 6 часов используем число и обозначение H:
```
data.resample(rule='6H').sum()
```
В качестве индексов датафрейма обязательно нужно использовать колонку формата DateTime, отсортированную в правильном порядке. Поэтому предварительно всегда следует проверить правильность типа данных и, если требуется, привести его к правильному с помощью pd.to_datetime().

# Задание 2
___
В следующих задачах мы будем работать сэмплом данных об аренде велосипедов в Чикаго:

+ `trip_id` — id поездки;
+ `start_time` — Дата и время начала поездки
+ `end_time` — Дата и время конца поездки
+ `bikeid` — id велосипеда
+ `tripduration` — продолжительность поездки в минутах
+ `from_station_id` — id станции начала поездки
+ `from_station_name` — название пункта отправления
+ `to_station_id` — id пункта прибытия
+ `to_station_name` — название пункта прибытия
+ `usertype` — тип пользователя
+ `gender` — пол (если subscriber)
+ `birthyear` — год рождения (если subscriber)

Для начала, возьмем [данные](https://stepik.org/media/attachments/lesson/367415/bikes_q1_sample.csv) только за Q1, они уже сохранены в переменную bikes_Q1. Перед тем как сделать .resample(), нужно немного подготовить данные. Поместите колонку start_time в качестве индексов и сохраните изменения в исходный датасет. Предварительно проверьте тип переменной, и приведите её к правильному, если необходимо.

+ как привести к DateTime? документация 

Данные за Q1 находятся в `bikes_Q1`.

In [110]:
import pandas as pd
import numpy as np

In [3]:
url = 'https://stepik.org/media/attachments/lesson/367415/bikes_q1_sample.csv'

In [4]:
bikes_Q1 = pd.read_csv(url)

In [5]:
bikes_Q1

Unnamed: 0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
0,17617135,2018-01-22 20:04:31,2018-01-22 20:11:53,1131,442.0,471,Francisco Ave & Foster Ave,468,Budlong Woods Library,Subscriber,Female,1949.0
1,17897619,2018-03-16 19:47:59,2018-03-16 20:04:00,6146,961.0,296,Broadway & Belmont Ave,253,Winthrop Ave & Lawrence Ave,Subscriber,Male,1988.0
2,17881307,2018-03-14 18:49:20,2018-03-14 18:54:38,3847,318.0,260,Kedzie Ave & Milwaukee Ave,503,Drake Ave & Fullerton Ave,Subscriber,Male,1987.0
3,17881130,2018-03-14 18:33:48,2018-03-14 19:07:40,1483,2032.0,199,Wabash Ave & Grand Ave,199,Wabash Ave & Grand Ave,Subscriber,Male,1990.0
4,17686289,2018-02-05 17:39:14,2018-02-05 17:46:13,6391,419.0,596,Benson Ave & Church St,605,University Library (NU),Subscriber,Male,1992.0
...,...,...,...,...,...,...,...,...,...,...,...,...
174210,17792363,2018-02-28 17:16:53,2018-02-28 17:18:49,2401,116.0,50,Clark St & Congress Pkwy,41,Federal St & Polk St,Subscriber,Male,1991.0
174211,17695807,2018-02-08 11:52:44,2018-02-08 11:58:13,4687,329.0,18,Wacker Dr & Washington St,39,Wabash Ave & Adams St,Subscriber,Male,1979.0
174212,17938644,2018-03-22 17:18:21,2018-03-22 17:24:13,6200,352.0,59,Wabash Ave & Roosevelt Rd,50,Clark St & Congress Pkwy,Subscriber,Male,1968.0
174213,17738202,2018-02-20 16:45:07,2018-02-20 16:57:42,757,755.0,99,Lake Shore Dr & Ohio St,38,Clark St & Lake St,Subscriber,Male,1990.0


In [6]:
bikes_Q1.dtypes

trip_id                int64
start_time            object
end_time              object
bikeid                 int64
tripduration          object
from_station_id        int64
from_station_name     object
to_station_id          int64
to_station_name       object
usertype              object
gender                object
birthyear            float64
dtype: object

In [8]:
bikes_Q1[['start_time', 'end_time']] = bikes_Q1[['start_time', 'end_time']].apply(pd.to_datetime)

In [10]:
bikes_Q1.set_index('start_time', inplace=True)

In [20]:
bikes_Q1.resample('2W').trip_id.count()

start_time
2018-01-07     5121
2018-01-21    21710
2018-02-04    27139
2018-02-18    17466
2018-03-04    32921
2018-03-18    35406
2018-04-01    34452
Freq: 2W-SUN, Name: trip_id, dtype: int64

# Задание 3
___
В данных имеется как дата аренды, так и её точное время начала и окончания с точностью до секунд. Примените метод `pd.resample()` и агрегируйте данные по дням. В качестве ответа укажите максимальное число аренд за день.

In [21]:
bikes_Q1.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-01-22 20:04:31,17617135,2018-01-22 20:11:53,1131,442.0,471,Francisco Ave & Foster Ave,468,Budlong Woods Library,Subscriber,Female,1949.0
2018-03-16 19:47:59,17897619,2018-03-16 20:04:00,6146,961.0,296,Broadway & Belmont Ave,253,Winthrop Ave & Lawrence Ave,Subscriber,Male,1988.0
2018-03-14 18:49:20,17881307,2018-03-14 18:54:38,3847,318.0,260,Kedzie Ave & Milwaukee Ave,503,Drake Ave & Fullerton Ave,Subscriber,Male,1987.0
2018-03-14 18:33:48,17881130,2018-03-14 19:07:40,1483,2032.0,199,Wabash Ave & Grand Ave,199,Wabash Ave & Grand Ave,Subscriber,Male,1990.0
2018-02-05 17:39:14,17686289,2018-02-05 17:46:13,6391,419.0,596,Benson Ave & Church St,605,University Library (NU),Subscriber,Male,1992.0


In [24]:
bikes_Q1.resample('1d').trip_id.count().max()

4196

In [25]:
bikes_Q1.resample('1d').trip_id.count().idxmax()

Timestamp('2018-02-27 00:00:00', freq='D')

# Задание 4
___
Посмотрим на распределение количества аренд для разных групп пользователей (`usertype`) — `customers` и `subscribers` в данных за апрель. Данные за нужный период можно подгрузить [отсюда](https://stepik.org/media/attachments/lesson/367415/bikes_april.csv).

Сделайте ресемпл по дням для каждой группы и в качестве ответа укажите число аренд за 18 апреля, сделанных пользователями типа Subscriber.

Может пригодиться:

функция для транспонирования .T

In [26]:
url_1 = 'https://stepik.org/media/attachments/lesson/367415/bikes_april.csv'

In [36]:
bikes = pd.read_csv(url_1, parse_dates=[0, 2])

In [37]:
bikes.head()

Unnamed: 0,start_time,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
0,2018-04-01 00:10:23,18000531,2018-04-01 00:22:12,5065,709.0,228,Damen Ave & Melrose Ave,219,Damen Ave & Cortland St,Subscriber,Male,1983.0
1,2018-04-01 00:15:49,18000533,2018-04-01 00:19:47,4570,238.0,128,Damen Ave & Chicago Ave,130,Damen Ave & Division St,Subscriber,Male,1978.0
2,2018-04-01 00:17:00,18000534,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
3,2018-04-01 00:20:00,18000536,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
4,2018-04-01 00:23:19,18000538,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0


In [38]:
bikes.dtypes

start_time           datetime64[ns]
trip_id                       int64
end_time             datetime64[ns]
bikeid                        int64
tripduration                 object
from_station_id               int64
from_station_name            object
to_station_id                 int64
to_station_name              object
usertype                     object
gender                       object
birthyear                   float64
dtype: object

In [34]:
bikes.usertype.value_counts()

Subscriber    80166
Customer       9978
Name: usertype, dtype: int64

In [39]:
bikes.set_index('start_time', inplace=True)

In [42]:
day_bikes_count = bikes.groupby(['usertype']) \
                        .trip_id \
                        .resample('1d') \
                        .count()

In [45]:
day_bikes_count.loc[('Subscriber', '2018-04-18')]

2196

# Задание 5
___
⭐️ Посмотрим на данные за период с апреля по декабрь.

Объедините сэмплы данных за нужные месяцы в один общий датасет bikes. Сделайте преобразование по дням для каждой группы пользователей (usertype), затем выберите дни, в которые число аренд, сделанных customers, было больше, чем у subscribers.

Данные за 

Q2: (1) [апрель](https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_apr.csv), (2) [май](https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_may.csv), (3) [июнь](https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_jun.csv) \
Q3: (4) [июль](https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_july.csv), (5) [август](https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_aug.csv), (6) [сентябрь](https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_sep.csv) \
Q4: (7) [октябрь](https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_oct.csv), (8) [ноябрь](https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_nov.csv), (9) [декабрь](https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_dec.csv) \
Note: объединение данных может занять немного времени, don't worry

In [50]:
lines = [
    'https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_apr.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_may.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q2_sample_jun.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_july.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_aug.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q3_sample_sep.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_oct.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_nov.csv',
    'https://stepik.org/media/attachments/lesson/367415/bikes_q4_sample_dec.csv'
]

In [56]:
bikes = []

In [62]:
for link in lines:
#     print(link)
    df = pd.read_csv(link)
    bikes.append(df)

In [60]:
bikes = pd.concat(bikes)

In [63]:
bikes.head()

Unnamed: 0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
0,18000534,2018-04-01 00:17:00,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
1,18000536,2018-04-01 00:20:00,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2,18000538,2018-04-01 00:23:19,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0
3,18000540,2018-04-01 00:24:46,2018-04-01 00:44:23,6401,1177.0,596,Benson Ave & Church St,517,Clark St & Jarvis Ave,Subscriber,Male,1974.0
4,18000541,2018-04-01 00:26:04,2018-04-01 00:31:05,6333,301.0,145,Mies van der Rohe Way & Chestnut St,24,Fairbanks Ct & Grand Ave,Subscriber,Male,1984.0


In [64]:
bikes[['start_time', 'end_time']] = bikes[['start_time', 'end_time']].apply(pd.to_datetime)

In [66]:
bikes.dtypes

trip_id                       int64
start_time           datetime64[ns]
end_time             datetime64[ns]
bikeid                        int64
tripduration                 object
from_station_id               int64
from_station_name            object
to_station_id                 int64
to_station_name              object
usertype                     object
gender                       object
birthyear                   float64
dtype: object

In [67]:
bikes.set_index('start_time', inplace=True)

In [69]:
day_bikes_count = bikes.groupby(['usertype']) \
                        .trip_id \
                        .resample('1d') \
                        .count()

In [71]:
day_bikes_vs_user_groups = day_bikes_count.unstack(level='usertype')

In [76]:
(day_bikes_vs_user_groups.Customer > day_bikes_vs_user_groups.Subscriber) \
    .to_frame(name='more_customer_than_subscriber') \
    .query('more_customer_than_subscriber == True')

Unnamed: 0_level_0,more_customer_than_subscriber
start_time,Unnamed: 1_level_1
2018-05-27,True
2018-09-02,True


___

In [78]:
(day_bikes_vs_user_groups.Customer > day_bikes_vs_user_groups.Subscriber) \
    .values \
    .nonzero()

(array([ 56, 154]),)

In [81]:
day_bikes_vs_user_groups.iloc[[56, 154]]

usertype,Customer,Subscriber
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1
2018-05-27,6526,4898
2018-09-02,5504,4366


# Задание 6
___
Отлично! Следующий шаг – более подробно посмотреть на летний период.

Еще один плюс использования дат в качестве индексов – возможность выбрать данные за интересующий нас промежуток времени. В переменную bikes_summer сохраните наблюдения с 1 июня по 31 августа. Затем запишите в top_destination наиболее популярный пункт назначения (его название). Агрегируйте данные по дням и определите, в какой день в полученный пункт (top_destination) было совершено меньше всего поездок. Дату сохраните в bad_day, отформатировав timestamp с помощью .strftime('%Y-%m-%d').

Могут пригодиться:

+ loc
+ strftime
+ idxmin, idxmax
+ size
+ query

Полный датафрейм уже сохранен как bikes, еще раз объединять данные в этом степе не нужно :) В качестве индексов используется start_time в нужном формате.

In [82]:
bikes.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-04-01 00:17:00,18000534,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
2018-04-01 00:20:00,18000536,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2018-04-01 00:23:19,18000538,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0
2018-04-01 00:24:46,18000540,2018-04-01 00:44:23,6401,1177.0,596,Benson Ave & Church St,517,Clark St & Jarvis Ave,Subscriber,Male,1974.0
2018-04-01 00:26:04,18000541,2018-04-01 00:31:05,6333,301.0,145,Mies van der Rohe Way & Chestnut St,24,Fairbanks Ct & Grand Ave,Subscriber,Male,1984.0


In [84]:
# отбираем данные за летний период
bikes_summer = bikes.loc['2018-06-01':'2018-08-31']

In [89]:
# наиболее популярный пункт
top_destination = bikes_summer.to_station_name.value_counts().idxmax()

In [91]:
top_destination_bikes = bikes_summer.query('to_station_name == @top_destination')

In [94]:
bad_day = top_destination_bikes \
                            .resample('1d') \
                            .to_station_name \
                            .count() \
                            .idxmin()

In [98]:
bad_day = bad_day.strftime('%Y-%m-%d')

In [99]:
bad_day

'2018-06-21'

# Задание 7
___
Куда больше всего ездят на выходных? Туда же, куда и в будние дни, или в другие пункты назначения?

Используя данные за период с 1 июня по 31 августа, выберите верные утверждения.

In [102]:
bikes_summer['day'] = bikes_summer.index.day_name()

In [108]:
weekdays = ['Friday', 'Monday', 'Tuesday', 'Wednesday', 'Thursday']
holidays = ['Saturday', 'Sunday']

In [112]:
bikes_summer['is_weekdays'] = np.where(bikes_summer.day.isin(weekdays), 1, 0)

In [116]:
bikes_summer.groupby(['is_weekdays']) \
            .to_station_name \
            .value_counts() \

is_weekdays  to_station_name           
0            Streeter Dr & Grand Ave       12052
             Lake Shore Dr & North Blvd     6184
             Theater on the Lake            5716
             Lake Shore Dr & Monroe St      4542
             Millennium Park                3968
                                           ...  
1            Marshfield Ave & 59th St          4
             Racine Ave & 61st St              4
             Central Ave & Madison St          2
             Marion St & South Blvd            2
             Throop St & 52nd St               2
Name: to_station_name, Length: 1147, dtype: int64

In [117]:
bikes_summer.query('day == "Saturday"') \
            .to_station_name \
            .value_counts()

Streeter Dr & Grand Ave       6922
Lake Shore Dr & North Blvd    3380
Theater on the Lake           2940
Lake Shore Dr & Monroe St     2464
Millennium Park               2160
                              ... 
State St & 76th St               2
Cicero Ave & Flournoy St         2
Halsted St & 47th Pl             2
Racine Ave & 65th St             2
Perry Ave & 69th St              2
Name: to_station_name, Length: 557, dtype: int64

In [118]:
bikes_summer.query('is_weekdays == 1') \
            .to_station_name \
            .value_counts()

Streeter Dr & Grand Ave         15228
Canal St & Adams St             12284
Clinton St & Washington Blvd     9714
Clinton St & Madison St          9388
Lake Shore Dr & North Blvd       8426
                                ...  
Cicero Ave & Flournoy St            4
Marshfield Ave & 59th St            4
Marion St & South Blvd              2
Throop St & 52nd St                 2
Central Ave & Madison St            2
Name: to_station_name, Length: 578, dtype: int64