На этот раз мы поговорим о спорте, а точнее — о велоспорте. 

Вашим заданием в этом модуле будет проанализировать и преобразовать данные о велопоездках клиентов компании Citi Bike (США), специализирующейся на прокате велосипедов.

Скачать датасет в формате csv можно здесь: https://drive.google.com/file/d/1ERm5SXJBx4dg6FBWnzTzeNl5lVHjqurY/view?usp=sharing.

Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября 2018 года и включает в себя следующую информацию:

starttime — время начала поездки (дата, время);
stoptime — время окончания поездки (дата, время);
start station id — идентификатор стартовой стоянки;
start station name — название стартовой стоянки;
start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;
end station id — идентификатор конечной стоянки;
end station name — название конечной стоянки;
end station latitude, end station longitude — географическая широта и долгота конечной стоянки;
bikeid — идентификатор велосипеда;
usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда);
birth year — год рождения клиента;
gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).

Оригинальный источник данных вы можете найти здесь: https://www.citibikenyc.com/system-data. Он представляет собой таблицу на 1,7 миллиона строк. В учебных целях мы удалили из датасета несколько признаков, а также уменьшили число строк.

In [74]:
import pandas as pd

In [75]:
citibike_tripdata = pd.read_csv('data/citibike-tripdata.csv')
display(citibike_tripdata)

Unnamed: 0,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,usertype,birth year,gender
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,252.0,MacDougal St & Washington Sq,40.732264,-73.998522,366.0,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1980,1
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,314.0,Cadman Plaza West & Montague St,40.693830,-73.990539,3242.0,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,1969,0
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,3142.0,1 Ave & E 62 St,40.761227,-73.960940,3384.0,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1975,1
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,308.0,St James Pl & Oliver St,40.713079,-73.998512,3690.0,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,1984,2
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,345.0,W 13 St & 6 Ave,40.736494,-73.997044,380.0,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1994,1
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
299995,2018-09-05 19:08:27.8460,2018-09-05 19:15:51.4940,494.0,W 26 St & 8 Ave,40.747348,-73.997236,448.0,W 37 St & 10 Ave,40.756604,-73.997901,19531,Subscriber,1990,2
299996,2018-09-05 19:08:28.3700,2018-09-05 19:20:01.5080,3016.0,Kent Ave & N 7 St,40.720368,-73.961651,3086.0,Graham Ave & Conselyea St,40.715143,-73.944507,34020,Subscriber,1982,1
299997,2018-09-05 19:08:27.5090,2018-09-05 19:13:40.5060,3686.0,Gansevoort St & Hudson St,40.739448,-74.005070,168.0,W 18 St & 6 Ave,40.739713,-73.994564,33220,Subscriber,1991,1
299998,2018-09-05 19:08:29.2300,2018-09-05 20:04:29.3220,254.0,W 11 St & 6 Ave,40.735324,-73.998004,499.0,Broadway & W 60 St,40.769155,-73.981918,34744,Subscriber,1975,0


In [76]:
# Практика по модулю PYTHON-11 (Закрепление знаний)

#1
print('Количество нулей:', citibike_tripdata['start station id'].isnull().sum())
#2
print('Типы данных в датасете:')
display(citibike_tripdata.info())
#3
print('Самая популярная стартовая станция:', citibike_tripdata['start station id'].value_counts().nlargest(1).index)
#4
print('Самый популярный велосипед:', citibike_tripdata['bikeid'].value_counts().nlargest(1).index)
#5
display(round(citibike_tripdata['usertype'].value_counts(normalize=True), 2))
#6
citibike_male_count = citibike_tripdata[citibike_tripdata['gender'] == 1].shape[0]
citibike_female_count = citibike_tripdata[citibike_tripdata['gender'] == 0].shape[0]
print(max([citibike_male_count, citibike_female_count]))
#7
display(citibike_tripdata['start station id'].value_counts(), #759 (Ответ - да)
        citibike_tripdata['end station id'].value_counts()) #765
display(2023 - citibike_tripdata['birth year'].max()) #21 (Ответ - нет)
display(citibike_tripdata['start station name'].value_counts(ascending=True)) # Ответ - да
display(citibike_tripdata['end station name'].value_counts()) # Ответ - нет

Количество нулей: 169
Типы данных в датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 14 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   starttime                300000 non-null  object 
 1   stoptime                 300000 non-null  object 
 2   start station id         299831 non-null  float64
 3   start station name       299831 non-null  object 
 4   start station latitude   300000 non-null  float64
 5   start station longitude  300000 non-null  float64
 6   end station id           299831 non-null  float64
 7   end station name         299831 non-null  object 
 8   end station latitude     300000 non-null  float64
 9   end station longitude    300000 non-null  float64
 10  bikeid                   300000 non-null  int64  
 11  usertype                 300000 non-null  object 
 12  birth year               300000 non-null  int64  
 13  gender       

None

Самая популярная стартовая станция: Index([281.0], dtype='float64', name='start station id')
Самый популярный велосипед: Index([33887], dtype='int64', name='bikeid')


usertype
Subscriber    0.77
Customer      0.23
Name: proportion, dtype: float64

183582


start station id
281.0     1928
2006.0    1909
519.0     1873
514.0     1845
426.0     1835
          ... 
3432.0      15
3599.0      11
2005.0       9
3704.0       7
3583.0       6
Name: count, Length: 759, dtype: int64

end station id
426.0     1963
514.0     1909
519.0     1850
2006.0    1828
497.0     1804
          ... 
3183.0       3
3191.0       1
3187.0       1
3074.0       1
3192.0       1
Name: count, Length: 765, dtype: int64

21

start station name
Eastern Pkwy & Washington Ave           6
47 Ave & Skillman Ave                   7
Railroad Ave & Kay Ave                  9
Franklin Ave & Empire Blvd             11
NYCBS Depot - GOW                      15
                                     ... 
West St & Chambers St                1835
12 Ave & W 40 St                     1845
Pershing Square North                1873
Central Park S & 6 Ave               1909
Grand Army Plaza & Central Park S    1928
Name: count, Length: 759, dtype: int64

end station name
West St & Chambers St          1963
12 Ave & W 40 St               1909
Pershing Square North          1850
Central Park S & 6 Ave         1828
E 17 St & Broadway             1804
                               ... 
Exchange Place                    3
Union St                          1
Warren St                         1
Montrose Ave & Bushwick Ave       1
Liberty Light Rail                1
Name: count, Length: 765, dtype: int64

In [80]:
#Начало изменения датасета
citibike_tripdata_copy = citibike_tripdata.copy()
#8
citibike_tripdata_copy = citibike_tripdata_copy.drop(['start station id', 'end station id'], axis=1)
display(len(citibike_tripdata_copy.columns)) #12
#9
citibike_tripdata_copy['age'] = citibike_tripdata_copy['birth year'].apply(lambda x: 2018 - x)
citibike_tripdata_copy = citibike_tripdata_copy.drop('birth year', axis=1)
clients_under_60 = len(citibike_tripdata_copy[citibike_tripdata_copy['age'] > 60].index)
print(clients_under_60)  #11837
#10
citibike_tripdata_copy['starttime'] = pd.to_datetime(citibike_tripdata_copy['starttime'])
citibike_tripdata_copy['stoptime'] = pd.to_datetime(citibike_tripdata_copy['stoptime'])
citibike_tripdata_copy['trip duration'] = citibike_tripdata_copy['stoptime'] - citibike_tripdata_copy['starttime']
display(citibike_tripdata_copy['trip duration'][3]) #7
#11
day_name = citibike_tripdata_copy['starttime'].dt.day_name()
citibike_tripdata_copy['weekend'] = day_name.apply(lambda x: 1 if x == 'Saturday' or x == 'Sunday' else 0)
display(citibike_tripdata_copy['weekend'].sum()) #115135
#12
#Функция берёт на входе начальное время поездки и возвращает время суток, в которое началась поездка
def time_classificator(time):
    if time >= 0 and time <= 6:
        return 'night'
    elif time > 6 and time <= 12:
        return 'morning'
    elif time > 12 and time <= 18:
        return 'day'
    else:
        return 'evening'
citibike_tripdata_copy['time_of_day'] = citibike_tripdata_copy['starttime'].dt.hour.apply(time_classificator)
daytime_trips = len(citibike_tripdata_copy[citibike_tripdata_copy['time_of_day'] == 'day'])
nighttime_trips = len(citibike_tripdata_copy[citibike_tripdata_copy['time_of_day'] == 'night'])
print(round(daytime_trips/nighttime_trips)) #9


12

11837


Timedelta('0 days 00:07:16.837000')

115135

9
