In [141]:
import pandas as pd

bike_data = pd.read_csv('data/citibike-tripdata.csv', sep=',')
bike_df = bike_data.copy()

На этот раз мы поговорим о спорте, а точнее — о велоспорте. 

Вашим заданием в этом модуле будет проанализировать и преобразовать данные о велопоездках клиентов  
компании Citi Bike (США), специализирующейся на прокате велосипедов.

Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября  
2018 года и включает в себя следующую информацию:

* starttime — время начала поездки (дата, время);
* stoptime — время окончания поездки (дата, время);
* start station id — идентификатор стартовой стоянки;
* start station name — название стартовой стоянки;
* start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;
* end station id — идентификатор конечной стоянки;
* end station name — название конечной стоянки;
* end station latitude, end station longitude — географическая широта и долгота конечной стоянки;
* bikeid — идентификатор велосипеда;
* usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик  
с годовой арендой велосипеда);
* birth year — год рождения клиента;
* gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).



In [142]:
bike_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 14 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   starttime                300000 non-null  object 
 1   stoptime                 300000 non-null  object 
 2   start station id         299831 non-null  float64
 3   start station name       299831 non-null  object 
 4   start station latitude   300000 non-null  float64
 5   start station longitude  300000 non-null  float64
 6   end station id           299831 non-null  float64
 7   end station name         299831 non-null  object 
 8   end station latitude     300000 non-null  float64
 9   end station longitude    300000 non-null  float64
 10  bikeid                   300000 non-null  int64  
 11  usertype                 300000 non-null  object 
 12  birth year               300000 non-null  int64  
 13  gender                   300000 non-null  int64  
dtypes: f

In [143]:
# Идентификатор самой популярной стартовой стоянки
print(bike_df['start station id'].value_counts())
# ИЛИ
print(bike_df['start station id'].mode()[0])

start station id
281.0     1928
2006.0    1909
519.0     1873
514.0     1845
426.0     1835
          ... 
3432.0      15
3599.0      11
2005.0       9
3704.0       7
3583.0       6
Name: count, Length: 759, dtype: int64
281.0


In [144]:
# Велосипед с каким id является самым популярным?
print(bike_df['bikeid'].value_counts())
# ИЛИ
print(bike_df['bikeid'].mode()[0])

bikeid
33887    107
34358    104
34159    103
34258    103
34730    102
        ... 
18083      1
17567      1
15122      1
15681      1
25794      1
Name: count, Length: 10004, dtype: int64
33887


In [145]:
# Какой тип клиентов (usertype) является преобладающим - Subscriber или Customer?
# В ответ записать долю клиентов этого типа от общего количества (округлить до сотых)
bike_df['usertype'].value_counts(normalize=True)
print(round(bike_df['usertype'].value_counts(normalize=True).iloc[0], 2))

0.77


In [146]:
# Кто больше занимается велоспортом - мужчины или женщины? В ответ записать число поездок
# той группы, у которой их больше
bike_df['gender'].value_counts()
print(bike_df['gender'].value_counts().iloc[0])

183582


In [147]:
# Число уникальных стартовых и конечных стоянок
print(bike_df['start station name'].nunique())
print(bike_df['end station name'].nunique())
# Минимальный возраст клиента
bike_df['birth year'].max()
# Самая непопулярная стартовая стоянка
bike_df['start station name'].value_counts()
# Наибольшее число поездок завершается на ...
bike_df['end station name'].value_counts()

759
765


end station name
West St & Chambers St          1963
12 Ave & W 40 St               1909
Pershing Square North          1850
Central Park S & 6 Ave         1828
E 17 St & Broadway             1804
                               ... 
Exchange Place                    3
Union St                          1
Warren St                         1
Montrose Ave & Bushwick Ave       1
Liberty Light Rail                1
Name: count, Length: 765, dtype: int64

In [148]:
# Удалить столбцы с start и end id. Вывести количество столбцов
bike_df = bike_df.drop(['start station id', 'end station id'], axis = 1)
bike_df.shape[1]

12

In [149]:
# Заменить признак birth year на признак возраста age. Год отсчета - 2018.
# Сколько поездок совершено клиентами старше 60 лет?
bike_df['age'] = 2018 - bike_df['birth year']
bike_df = bike_df.drop('birth year', axis = 1)
display(bike_df.head())
display(bike_df[bike_df['age'] > 60].shape[0])


Unnamed: 0,starttime,stoptime,start station name,start station latitude,start station longitude,end station name,end station latitude,end station longitude,bikeid,usertype,gender,age
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,MacDougal St & Washington Sq,40.732264,-73.998522,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1,38
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,Cadman Plaza West & Montague St,40.69383,-73.990539,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,0,49
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,1 Ave & E 62 St,40.761227,-73.96094,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1,43
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,St James Pl & Oliver St,40.713079,-73.998512,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,2,34
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,W 13 St & 6 Ave,40.736494,-73.997044,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1,24


11837

In [150]:
# Создать признак длительности поездки trip duration. Для этого вычислить интервал между началом и концом поездки.
# Сколько целых минут длилась поездка под индексом 3 в таблице? 
bike_df['starttime'] = pd.to_datetime(bike_df['starttime'])
bike_df['stoptime'] = pd.to_datetime(bike_df['stoptime'])
bike_df['trip duration'] = bike_df['stoptime'] - bike_df['starttime']
print(bike_df.loc[3, 'trip duration'])

0 days 00:07:16.837000


In [151]:
# Создать признак-мигалку weekend, который равен 1, если поездка начиналась в выходной и 0 
# в противном случае. Выясните, сколько поездок начиналось в выходные
def is_weekend(data):
    if data == 5 or data == 6:
        return 1
    return 0

bike_df['weekend'] = bike_df['starttime'].dt.day_of_week.apply(is_weekend)
display(bike_df.head(3))
display(bike_df['weekend'].value_counts())

Unnamed: 0,starttime,stoptime,start station name,start station latitude,start station longitude,end station name,end station latitude,end station longitude,bikeid,usertype,gender,age,trip duration,weekend
0,2018-09-01 00:00:05.269,2018-09-01 00:27:20.634,MacDougal St & Washington Sq,40.732264,-73.998522,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1,38,0 days 00:27:15.365000,1
1,2018-09-01 00:00:11.281,2018-09-01 00:02:23.481,Cadman Plaza West & Montague St,40.69383,-73.990539,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,0,49,0 days 00:02:12.200000,1
2,2018-09-01 00:00:20.649,2018-09-01 00:55:58.547,1 Ave & E 62 St,40.761227,-73.96094,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1,43,0 days 00:55:37.898000,1


weekend
0    184865
1    115135
Name: count, dtype: int64

Создайте признак времени суток поездки time_of_day. Время суток определяется из часа начала поездки. Условимся, что:
* поездка совершается ночью (night), если ее час приходится на интервал от 0 (вкл) до 6 (вкл) часов;  
* поездка совершается утром (morning), если ее час приходится на интервал от 6 (не вкл) до 12 (вкл) часов;  
* поездка совершается днем (day), если ее час приходится на интервал от 12 (не вкл) до 18 (вкл) часов;  
* поездка совершается вечером (evening), если ее час приходится на интервал от 18 (не вкл) до 23 (вкл) часов. 

In [152]:
# Во сколько раз число поездок днем больше, чем поездок ночью? Ответ округлить до целых.
def time_of_day(hour):
    if hour>=0 and hour<=6:
        return 'night'
    elif hour>6 and hour<=12:
        return 'morning'
    elif hour>12 and hour<=18:
        return 'day'
    elif hour>18 and hour<=23:
        return 'evening'
    
bike_df['time_of_day'] = bike_df['starttime'].dt.hour.apply(time_of_day)
display(bike_df['time_of_day'].value_counts())
a = bike_df[bike_df['time_of_day'] == 'day'].shape[0] # число строк с bike_df['time_of_day'] == 'day'
b = bike_df[bike_df['time_of_day'] == 'night'].shape[0] # число строк с bike_df['time_of_day'] == 'night'
display(round(a / b))

time_of_day
day        143012
morning     95530
evening     46373
night       15085
Name: count, dtype: int64

9