Посмотрим на данные по арендам велосипедов в Чикаго за период с апреля по декабрь.

Объединим сэмплы данных за нужные месяцы в один общий датасет bikes. Сделаем преобразование по дням для каждой группы пользователей (usertype), затем выберем дни, в которые число аренд, сделанных customers, было больше, чем у subscribers.

In [1]:
import pandas as pd
import scipy
from scipy import stats
from scipy import linalg
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import scipy.stats as ss

In [22]:
# Открываем файлы по арендам велосипедов с апреля по декабрь:

apr_q2 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q2_sample_apr.csv')
may_q2 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q2_sample_may.csv')
jun_q2 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q2_sample_jun.csv')
jul_q3 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q3_sample_july.csv')
aug_q3 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q3_sample_aug.csv')
sep_q3 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q3_sample_sep.csv')
oct_q4 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q4_sample_oct.csv')
nov_q4 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q4_sample_nov.csv')
dec_q4 = pd.read_csv('/Users/siarheimasliankou/Documents/Work/DA_Practice/Python/Task_8/Tasks_from_3_topic/bikes_q4_sample_dec.csv')

In [31]:
# Объединяем файлы:

bikes = pd.concat([apr_q2, may_q2, jun_q2, jul_q3, aug_q3, sep_q3, oct_q4, nov_q4, dec_q4])


In [32]:
# Приводим колонки с датами в нужный формат для последующего сэмплирования:

bikes['start_time'] = pd.to_datetime(bikes['start_time'])
bikes['end_time'] = pd.to_datetime(bikes['end_time'])

bikes.sort_values(by='start_time', inplace=True)

bikes = bikes.set_index('start_time')

In [74]:
# Считаем количество аренд по дням для группы Customer:

cus = bikes.query("usertype == 'Customer'").groupby('usertype').resample(rule='D').agg({'trip_id': 'count'}).reset_index()
cus

Unnamed: 0,usertype,start_time,trip_id
0,Customer,2018-04-01,166
1,Customer,2018-04-02,110
2,Customer,2018-04-03,19
3,Customer,2018-04-04,53
4,Customer,2018-04-05,62
...,...,...,...
270,Customer,2018-12-27,28
271,Customer,2018-12-28,65
272,Customer,2018-12-29,23
273,Customer,2018-12-30,55


In [73]:
# Считаем количество аренд по дням для группы Subscriber:

sub = bikes.query("usertype == 'Subscriber'").groupby('usertype').resample(rule='D').agg({'trip_id': 'count'}).reset_index()
sub

Unnamed: 0,usertype,start_time,trip_id
0,Subscriber,2018-04-01,549
1,Subscriber,2018-04-02,1865
2,Subscriber,2018-04-03,1276
3,Subscriber,2018-04-04,1501
4,Subscriber,2018-04-05,1637
...,...,...,...
270,Subscriber,2018-12-27,684
271,Subscriber,2018-12-28,872
272,Subscriber,2018-12-29,350
273,Subscriber,2018-12-30,385


In [79]:
# Объединяем датафреймы и проверяем в какие дни у группы Customer количество аренд было большим чем у группы Subscriber:

common_df = pd.merge(cus, sub, on = 'start_time', how = 'inner')
common_df_res = common_df[common_df['trip_id_x'] > common_df['trip_id_y']]
common_df_res

Unnamed: 0,usertype_x,start_time,trip_id_x,usertype_y,trip_id_y
56,Customer,2018-05-27,3263,Subscriber,2449
154,Customer,2018-09-02,2752,Subscriber,2183


In [271]:
#Посмотрим подробно на летний период и выберем нужные месяцы:


bikes_summer = bikes.loc['2018-06-01':'2018-08-31']


In [272]:
# Найдем наиболее популярный пункт назначения:

top_destination = bikes_summer.groupby('to_station_name', as_index = False).size()

In [273]:
# Применяем нужный метод:

top_destination.idxmax()

to_station_name    578
size               510
dtype: int64

In [274]:
# Находим название наиболее популярного пункта назначения:

top_destination.loc[510]

to_station_name    Streeter Dr & Grand Ave
size                                 13640
Name: 510, dtype: object

In [275]:
# Агрегируем данные по дням и определяем в какой день в полученный пункт (top_destination) 
# было совершено меньше всего поездок:

bad_day = bikes_summer.query("to_station_name == 'Streeter Dr & Grand Ave'").resample(rule='D').size().idxmin().strftime('%Y-%m-%d')
bad_day

'2018-06-21'

In [285]:
# Выясняем куда больше всего ездят на выходных с помощью lambda функции и метода .strftime:

bikes_summer = bikes_summer.assign(weekday = lambda x: pd.to_datetime(x.index).strftime('%A%'))


bikes_summer

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear,weekday
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2018-06-01 00:04:40,18709077,2018-06-01 00:06:47,3155,127.0,128,Damen Ave & Chicago Ave,214,Damen Ave & Grand Ave,Subscriber,Female,1978.0,Friday%
2018-06-01 00:06:08,18709080,2018-06-01 00:24:18,2807,1090.0,258,Logan Blvd & Elston Ave,69,Damen Ave & Pierce Ave,Customer,,,Friday%
2018-06-01 00:08:01,18709086,2018-06-01 00:32:55,2737,1494.0,337,Clark St & Chicago Ave,225,Halsted St & Dickens Ave,Customer,Male,1988.0,Friday%
2018-06-01 00:09:02,18709091,2018-06-01 00:19:21,6089,619.0,210,Ashland Ave & Division St,56,Desplaines St & Kinzie St,Subscriber,Male,1987.0,Friday%
2018-06-01 00:09:28,18709092,2018-06-01 00:14:44,2352,316.0,240,Sheridan Rd & Irving Park Rd,303,Broadway & Cornelia Ave,Subscriber,Male,1997.0,Friday%
...,...,...,...,...,...,...,...,...,...,...,...,...
2018-08-31 23:49:34,20479557,2018-08-31 23:56:20,4289,406.0,374,Western Ave & Walton St,69,Damen Ave & Pierce Ave,Subscriber,Male,1987.0,Friday%
2018-08-31 23:49:56,20479559,2018-09-01 00:30:37,6337,2441.0,497,Kimball Ave & Belmont Ave,599,Valli Produce - Evanston Plaza,Subscriber,Male,1989.0,Friday%
2018-08-31 23:50:01,20479560,2018-08-31 23:58:00,1429,479.0,113,Bissell St & Armitage Ave,16,Paulina Ave & North Ave,Subscriber,Male,1987.0,Friday%
2018-08-31 23:54:44,20479564,2018-09-01 00:06:10,6204,686.0,623,Michigan Ave & 8th St,99,Lake Shore Dr & Ohio St,Subscriber,Male,1985.0,Friday%


In [291]:
# Группируем данные и находим самые популярные направления на выходных:

bikes_summer.groupby(['to_station_name', 'weekday']) \
            .size() \
            .sort_values(ascending = False) \
            .groupby('weekday') \
            .head()

to_station_name               weekday   
Streeter Dr & Grand Ave       Saturday%     3461
                              Sunday%       2565
                              Friday%       1726
Lake Shore Dr & North Blvd    Saturday%     1690
Streeter Dr & Grand Ave       Wednesday%    1669
                              Monday%       1503
                              Thursday%     1482
Theater on the Lake           Saturday%     1470
Lake Shore Dr & North Blvd    Sunday%       1402
Theater on the Lake           Sunday%       1388
Canal St & Adams St           Monday%       1276
                              Wednesday%    1270
                              Tuesday%      1257
Streeter Dr & Grand Ave       Tuesday%      1234
Lake Shore Dr & Monroe St     Saturday%     1232
Canal St & Adams St           Thursday%     1214
                              Friday%       1125
Lake Shore Dr & North Blvd    Wednesday%    1119
Millennium Park               Saturday%     1080
Lake Shore Dr & Monroe St   