In [1]:
import pandas as pd

# Анализ данных об аренде велосипедов в Чикаго

In [10]:
bikes_q1 = pd.read_csv(bikes_q1, parse_dates=['start_time','end_time'])

Для начала, возьмем данные только за Q1 <br>


### Структура данных
`trip_id` — id поездки <br>
`start_time` — Дата и время начала поездки<br>
`end_time` — Дата и время конца поездки<br>
`bikeid` — id велосипеда<br>
`tripduration` — продолжительность поездки в минутах<br>
`from_station_id` — id станции начала поездки<br>
`from_station_name` — название пункта отправления<br>
`to_station_id` — id пункта прибытия<br>
`to_station_name` — название пункта прибытия<br>
`usertype` — тип пользователя<br>
`gender` — пол (если subscriber)<br>
`birthyear` — год рождения (если subscriber)<br>

In [3]:
bikes_q1.head()

Unnamed: 0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
0,17617135,2018-01-22 20:04:31,2018-01-22 20:11:53,1131,442.0,471,Francisco Ave & Foster Ave,468,Budlong Woods Library,Subscriber,Female,1949.0
1,17897619,2018-03-16 19:47:59,2018-03-16 20:04:00,6146,961.0,296,Broadway & Belmont Ave,253,Winthrop Ave & Lawrence Ave,Subscriber,Male,1988.0
2,17881307,2018-03-14 18:49:20,2018-03-14 18:54:38,3847,318.0,260,Kedzie Ave & Milwaukee Ave,503,Drake Ave & Fullerton Ave,Subscriber,Male,1987.0
3,17881130,2018-03-14 18:33:48,2018-03-14 19:07:40,1483,2032.0,199,Wabash Ave & Grand Ave,199,Wabash Ave & Grand Ave,Subscriber,Male,1990.0
4,17686289,2018-02-05 17:39:14,2018-02-05 17:46:13,6391,419.0,596,Benson Ave & Church St,605,University Library (NU),Subscriber,Male,1992.0


In [4]:
bikes_q1.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 174215 entries, 0 to 174214
Data columns (total 12 columns):
 #   Column             Non-Null Count   Dtype  
---  ------             --------------   -----  
 0   trip_id            174215 non-null  int64  
 1   start_time         174215 non-null  object 
 2   end_time           174215 non-null  object 
 3   bikeid             174215 non-null  int64  
 4   tripduration       174215 non-null  object 
 5   from_station_id    174215 non-null  int64  
 6   from_station_name  174215 non-null  object 
 7   to_station_id      174215 non-null  int64  
 8   to_station_name    174215 non-null  object 
 9   usertype           174215 non-null  object 
 10  gender             164161 non-null  object 
 11  birthyear          164236 non-null  float64
dtypes: float64(1), int64(4), object(7)
memory usage: 15.9+ MB


In [6]:
bikes_q1.duplicated().sum()

0

In [8]:
bikes_q1.dtypes
# так как у столбцов с датой стоит тип object, приведем к формату DateTime при чтении csv файла

trip_id                int64
start_time            object
end_time              object
bikeid                 int64
tripduration          object
from_station_id        int64
from_station_name     object
to_station_id          int64
to_station_name       object
usertype              object
gender                object
birthyear            float64
dtype: object

#### Перед тем как сделать .resample(), немного подготовим данные. Поместим колонку start_time в качестве индексов и сохраните изменения в исходный датасет.

In [12]:
bikes_q1 = bikes_q1.set_index('start_time')

In [14]:
bikes_q1.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-01-22 20:04:31,17617135,2018-01-22 20:11:53,1131,442.0,471,Francisco Ave & Foster Ave,468,Budlong Woods Library,Subscriber,Female,1949.0
2018-03-16 19:47:59,17897619,2018-03-16 20:04:00,6146,961.0,296,Broadway & Belmont Ave,253,Winthrop Ave & Lawrence Ave,Subscriber,Male,1988.0
2018-03-14 18:49:20,17881307,2018-03-14 18:54:38,3847,318.0,260,Kedzie Ave & Milwaukee Ave,503,Drake Ave & Fullerton Ave,Subscriber,Male,1987.0
2018-03-14 18:33:48,17881130,2018-03-14 19:07:40,1483,2032.0,199,Wabash Ave & Grand Ave,199,Wabash Ave & Grand Ave,Subscriber,Male,1990.0
2018-02-05 17:39:14,17686289,2018-02-05 17:46:13,6391,419.0,596,Benson Ave & Church St,605,University Library (NU),Subscriber,Male,1992.0


#### 1. В данных имеется как дата аренды, так и её точное время начала и окончания с точностью до секунд. Применим метод pd.resample() и агрегируем данные по дням. Посмотрим максимальное число аренд за день

In [23]:
bikes_q1.resample('1d').trip_id.count().sort_values(ascending=False)

start_time
2018-02-27    4196
2018-03-28    3640
2018-02-26    3422
2018-02-28    3412
2018-03-15    3245
              ... 
2018-02-10     364
2018-02-11     331
2018-02-09     300
2018-02-04     279
2018-01-01     191
Name: trip_id, Length: 90, dtype: int64

**Вывод:** максимально число аренд за день  было 27 февраля и составляло 4196

#### 2. Посмотрим на распределение количества аренд для разных групп пользователей (usertype) — customers и subscribers в данных за апрель

Сделаем ресемпл по дням для каждой группы и в качестве ответа укажем число аренд за 18 апреля, сделанных пользователями типа Subscribe

In [27]:
bikes_apr = pd.read_csv(bikes_apr, parse_dates=['start_time','end_time'])

In [32]:
bikes_apr.set_index('start_time', inplace=True)

In [33]:
bikes_apr.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-04-01 00:17:00,18000534,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
2018-04-01 00:20:00,18000536,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2018-04-01 00:23:19,18000538,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0
2018-04-01 00:24:46,18000540,2018-04-01 00:44:23,6401,1177.0,596,Benson Ave & Church St,517,Clark St & Jarvis Ave,Subscriber,Male,1974.0
2018-04-01 00:26:04,18000541,2018-04-01 00:31:05,6333,301.0,145,Mies van der Rohe Way & Chestnut St,24,Fairbanks Ct & Grand Ave,Subscriber,Male,1984.0


In [44]:
bikes_april = bikes_apr.query("usertype == 'Subscriber'")\
                        .trip_id\
                        .resample('1d')\
                        .count()\
                        .to_frame()\
                        .reset_index()
bikes_april.head()

Unnamed: 0,start_time,trip_id
0,2018-04-01,549
1,2018-04-02,1865
2,2018-04-03,1276
3,2018-04-04,1501
4,2018-04-05,1637
