На этот раз мы поговорим о спорте, а точнее — о велоспорте. 

Вашим заданием в этом модуле будет проанализировать и преобразовать данные о велопоездках клиентов компании Citi Bike (США), специализирующейся на прокате велосипедов.

In [3]:
import pandas as pd

citibike_data = pd.read_csv('data/citibike-tripdata.csv', sep=',')
citibike_df = citibike_data.copy()
citibike_df.head()

Unnamed: 0,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,usertype,birth year,gender
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,252.0,MacDougal St & Washington Sq,40.732264,-73.998522,366.0,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1980,1
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,314.0,Cadman Plaza West & Montague St,40.69383,-73.990539,3242.0,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,1969,0
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,3142.0,1 Ave & E 62 St,40.761227,-73.96094,3384.0,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1975,1
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,308.0,St James Pl & Oliver St,40.713079,-73.998512,3690.0,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,1984,2
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,345.0,W 13 St & 6 Ave,40.736494,-73.997044,380.0,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1994,1


In [4]:
citibike_df.shape # (300000, 14)

(300000, 14)

Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября 2018 года и включает в себя следующую информацию:

starttime — время начала поездки (дата, время);

stoptime — время окончания поездки (дата, время);

start station id — идентификатор стартовой стоянки;

start station name — название стартовой стоянки;

start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;

end station id — идентификатор конечной стоянки;

end station name — название конечной стоянки;

end station latitude, end station longitude — географическая широта и долгота конечной стоянки;

bikeid — идентификатор велосипеда;

usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда);

birth year — год рождения клиента;

gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).

In [5]:
citibike_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 14 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   starttime                300000 non-null  object 
 1   stoptime                 300000 non-null  object 
 2   start station id         299831 non-null  float64
 3   start station name       299831 non-null  object 
 4   start station latitude   300000 non-null  float64
 5   start station longitude  300000 non-null  float64
 6   end station id           299831 non-null  float64
 7   end station name         299831 non-null  object 
 8   end station latitude     300000 non-null  float64
 9   end station longitude    300000 non-null  float64
 10  bikeid                   300000 non-null  int64  
 11  usertype                 300000 non-null  object 
 12  birth year               300000 non-null  int64  
 13  gender                   300000 non-null  int64  
dtypes: f

In [6]:
display(300000 - 299831)

169

Задание 6.3

1 point possible (graded)
Найдите идентификатор самой популярной стартовой стоянки. Запишите идентификатор в виде целого числа.

In [7]:
citibike_df['start station id'].mode()

0    281.0
Name: start station id, dtype: float64

Задание 6.4

1 point possible (graded)
Велосипед с каким идентификатором является самым популярным?

In [8]:
citibike_df['bikeid'].mode()

0    33887
Name: bikeid, dtype: int64

Задание 6.5

1 point possible (graded)
Какой тип клиентов (столбец usertype) является преобладающим — Subscriber или Customer? В качестве ответа запишите долю клиентов преобладающего типа среди общего количества клиентов. Ответ округлите до сотых.

In [9]:
display(citibike_df['usertype'].mode())
subscriber_count = citibike_df[citibike_df['usertype'] == 'Subscriber'].shape[0]
usertype_sum =  citibike_df['usertype'].shape[0]

display(subscriber_count)
display(round((subscriber_count / usertype_sum), 2))

0    Subscriber
Name: usertype, dtype: object

232202

0.77

In [10]:
citibike_df['gender'].value_counts()

gender
1    183582
2     74506
0     41912
Name: count, dtype: int64

In [11]:
# Число уникальных стартовых и конечных стоянок, 
# которыми воспользовались клиенты, не равны друг другу # 765 759

print(citibike_df['end station id'].nunique())
print(citibike_df['start station id'].nunique())

765
759


In [12]:
display((2018 - citibike_df['birth year']).min()) # В рассматриваемые дни минимальный возраст 
# клиента составлял 16 лет

16

In [13]:
# Самой непопулярной стартовой стоянкой из тех, которыми воспользовались клиенты, 
# является стоянка с названием "Eastern Pkwy & Washington Ave"

citibike_df['start station name'].value_counts()

start station name
Grand Army Plaza & Central Park S    1928
Central Park S & 6 Ave               1909
Pershing Square North                1873
12 Ave & W 40 St                     1845
West St & Chambers St                1835
                                     ... 
NYCBS Depot - GOW                      15
Franklin Ave & Empire Blvd             11
Railroad Ave & Kay Ave                  9
47 Ave & Skillman Ave                   7
Eastern Pkwy & Washington Ave           6
Name: count, Length: 759, dtype: int64

In [14]:
# В наших данных присутствуют столбцы, которые дублируют информацию друг о друге: это столбцы с идентификатором и названием стартовой и конечной стоянки. 
# Удалите признаки идентификаторов стоянок. Сколько столбцов осталось?

citibike_df = citibike_df.drop(['start station id', 'end station id'], axis=1)
print(citibike_df.shape)

(300000, 12)


In [15]:
# Замените признак birth year на более понятный признак возраста клиента age. Годом отсчёта возраста выберите 2018 год. Столбец birth year удалите из таблицы. 
# Сколько поездок совершено клиентами старше 60 лет?

citibike_df['age'] = 2018 - citibike_df['birth year']
display(citibike_df[citibike_df['age'] > 60]['age'].count()) # 11837

11837

date — дата;
year, month, day — год, месяц, день;
time — время;
hour, minute, second — час, минута, секунда;
dayofweek — номер дня недели, от 0 до 6, где 0 — понедельник, 6 — воскресенье;
day_name — название дня недели;
dayofyear — порядковый день года;
quarter — квартал (интервал в три месяца).

In [16]:
# Создайте признак длительности поездки trip duration. Для этого вычислите интервал времени между временем окончания поездки (stoptime) и её началом (starttime). 
# Сколько целых минут длилась поездка под индексом 3 в таблице?

citibike_df['stoptime'] = pd.to_datetime(citibike_df['stoptime'])
citibike_df['starttime'] = pd.to_datetime(citibike_df['starttime'])
citibike_df['trip duration'] = citibike_df['stoptime'].dt.minute - citibike_df['starttime'].dt.minute

display(citibike_df['trip duration'][3])

7

In [17]:
# Создайте «признак-мигалку» weekend, # который равен 1, 
# если поездка начиналась в выходной день (суббота или воскресенье), 
# и 0 — в противном случае. Выясните, сколько поездок начиналось в выходные.dayofweek

#citibike_df['weekend'] = 

def get_weekend(weekday):
    res_lst = [5, 6]
    if weekday in res_lst:
        return 1
    else:
        return 0

day_week = citibike_df['starttime'].dt.dayofweek
display(day_week.value_counts())

citibike_df['weekend'] = day_week.apply(get_weekend)
display(citibike_df['weekend'].value_counts())

starttime
1    68628
2    61185
6    60812
0    55052
5    54323
Name: count, dtype: int64

weekend
0    184865
1    115135
Name: count, dtype: int64

Задание 6.12

1 point possible (graded)
Создайте признак времени суток поездки time_of_day. Время суток будем определять из часа начала поездки. Условимся, что:
поездка совершается ночью (night), если её час приходится на интервал от 0 (включительно) до 6 (включительно) часов;
поездка совершается утром (morning), если её час приходится на интервал от 6 (не включительно) до 12 (включительно) часов;
поездка совершается днём (day), если её час приходится на интервал от 12 (не включительно) до 18 (включительно) часов;
поездка совершается вечером (evening), если её час приходится на интервал от 18 (не включительно) до 23 часов (включительно).
Во сколько раз количество поездок, совершённых днём, больше, чем количество поездок, совёршенных ночью, за представленный в данных период времени? Ответ округлите до целых.

In [22]:
def convert_time(time):
    night_time = range(0, 7) # поездка совершается ночью (night), 
    # если её час приходится на интервал от 0 (включительно) до 6 (включительно) часов;
    
    morning_time = range(7, 13) # поездка совершается утром (morning), 
    # если её час приходится на интервал от 6 (не включительно) до 12 (включительно) часов;
    
    day_time = range(13, 19) # поездка совершается днём (day), 
    # если её час приходится на интервал от 12 (не включительно) до 18 (включительно) часов;
    
    evening_time = range(19, 24) # поездка совершается вечером (evening), 
    # если её час приходится на интервал от 18 (не включительно) до 23 часов (включительно).
    if time in night_time:
        return 'night'
    if time in morning_time:
        return 'morning'
    if time in day_time:
        return 'day'
    if time in evening_time:
        return 'evening'


citibike_df['time_of_day'] = citibike_df['starttime'].dt.hour.apply(convert_time)
display(citibike_df['time_of_day'].value_counts())

citibike_df[citibike_df['time_of_day'] == 'day'].shape[0] / citibike_df[citibike_df['time_of_day'] == 'night'].shape[0]

time_of_day
day        143012
morning     95530
evening     46373
night       15085
Name: count, dtype: int64

9.480411004308916