На этот раз мы поговорим о спорте, а точнее — о велоспорте. 

Вашим заданием в этом модуле будет проанализировать и преобразовать данные о велопоездках клиентов компании Citi Bike (США), специализирующейся на прокате велосипедов.

Скачать датасет в формате csv можно здесь.

Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября 2018 года и включает в себя следующую информацию:

starttime — время начала поездки (дата, время);\
stoptime — время окончания поездки (дата, время);\
start station id — идентификатор стартовой стоянки;\
start station name — название стартовой стоянки;\
start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;\
end station id — идентификатор конечной стоянки;\
end station name — название конечной стоянки;\
end station latitude, end station longitude — географическая широта и долгота конечной стоянки;\
bikeid — идентификатор велосипеда;\
usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда);\
birth year — год рождения клиента;\
gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).

In [3]:
import pandas as pd

bike_data = pd.read_csv('data/citibike-tripdata.csv', sep=',')
bike_data.head()

Unnamed: 0,starttime,stoptime,start station id,start station name,start station latitude,start station longitude,end station id,end station name,end station latitude,end station longitude,bikeid,usertype,birth year,gender
0,2018-09-01 00:00:05.2690,2018-09-01 00:27:20.6340,252.0,MacDougal St & Washington Sq,40.732264,-73.998522,366.0,Clinton Ave & Myrtle Ave,40.693261,-73.968896,25577,Subscriber,1980,1
1,2018-09-01 00:00:11.2810,2018-09-01 00:02:23.4810,314.0,Cadman Plaza West & Montague St,40.69383,-73.990539,3242.0,Schermerhorn St & Court St,40.691029,-73.991834,34377,Subscriber,1969,0
2,2018-09-01 00:00:20.6490,2018-09-01 00:55:58.5470,3142.0,1 Ave & E 62 St,40.761227,-73.96094,3384.0,Smith St & 3 St,40.678724,-73.995991,30496,Subscriber,1975,1
3,2018-09-01 00:00:21.7460,2018-09-01 00:07:38.5830,308.0,St James Pl & Oliver St,40.713079,-73.998512,3690.0,Park Pl & Church St,40.713342,-74.009355,28866,Subscriber,1984,2
4,2018-09-01 00:00:27.3150,2018-09-01 02:21:25.3080,345.0,W 13 St & 6 Ave,40.736494,-73.997044,380.0,W 4 St & 7 Ave S,40.734011,-74.002939,20943,Customer,1994,1


In [4]:
bike_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 300000 entries, 0 to 299999
Data columns (total 14 columns):
 #   Column                   Non-Null Count   Dtype  
---  ------                   --------------   -----  
 0   starttime                300000 non-null  object 
 1   stoptime                 300000 non-null  object 
 2   start station id         299831 non-null  float64
 3   start station name       299831 non-null  object 
 4   start station latitude   300000 non-null  float64
 5   start station longitude  300000 non-null  float64
 6   end station id           299831 non-null  float64
 7   end station name         299831 non-null  object 
 8   end station latitude     300000 non-null  float64
 9   end station longitude    300000 non-null  float64
 10  bikeid                   300000 non-null  int64  
 11  usertype                 300000 non-null  object 
 12  birth year               300000 non-null  int64  
 13  gender                   300000 non-null  int64  
dtypes: f

In [5]:
# Поиск самой популярной стартовой стоянки
popular_station_id = bike_data['start station id'].mode()[0]

# Вывод результата
print(int(popular_station_id))

281


In [7]:
# Поиск самой популярной стартовой стоянки
bike_id = bike_data['bikeid'].mode()[0]

# Вывод результата
print(int(bike_id))

33887


In [8]:
# Подсчёт количества клиентов по типам
usertype_counts = bike_data['usertype'].value_counts()

# Определение преобладающего типа и его доли
most_common_usertype = usertype_counts.idxmax()  # Преобладающий тип клиентов
most_common_usertype_share = usertype_counts.max() / usertype_counts.sum()

# Округление до сотых
most_common_usertype_share = round(most_common_usertype_share, 2)

# Вывод результата
print(f"Преобладающий тип клиентов: {most_common_usertype}")
print(f"Доля клиентов преобладающего типа: {most_common_usertype_share}")

Преобладающий тип клиентов: Subscriber
Доля клиентов преобладающего типа: 0.77


In [10]:
# Фильтруем по полу: 1 - мужчины, 2 - женщины
male_trips = bike_data[bike_data['gender'] == 1]
female_trips = bike_data[bike_data['gender'] == 2]

# Находим количество поездок для каждой группы
male_trip_count = len(male_trips)
female_trip_count = len(female_trips)

# Выбираем максимальное значение
max_trip_count = max(male_trip_count, female_trip_count)

# Выводим результат
print(male_trip_count, female_trip_count)

183582 74506


In [14]:
# Проверяем количество столбцов до удаления
initial_columns = bike_data.shape[1]
print(f"Количество столбцов до удаления: {initial_columns}")

# Удаление признаков идентификаторов стоянок
columns_to_drop = ['start station id', 'end station id']
bike_data = bike_data.drop(columns=columns_to_drop, errors='ignore')

# Подсчет количества оставшихся столбцов
remaining_columns = bike_data.shape[1]
print(f"Количество столбцов после удаления: {remaining_columns}")


Количество столбцов до удаления: 14
Количество столбцов после удаления: 12


In [15]:

# Шаг 1: Создание признака возраста
bike_data['age'] = 2018 - bike_data['birth year']

# Шаг 2: Удаление столбца birth year
bike_data = bike_data.drop(columns=['birth year'], errors='ignore')

# Шаг 3: Фильтрация клиентов старше 60 лет
senior_trips = bike_data[bike_data['age'] > 60]

# Шаг 4: Подсчёт количества поездок
senior_trip_count = len(senior_trips)

# Вывод результата
print(f"Количество поездок клиентов старше 60 лет: {senior_trip_count}")

Количество поездок клиентов старше 60 лет: 11837


In [16]:
# Шаг 1: Преобразуем столбцы starttime и stoptime в формат datetime
bike_data['starttime'] = pd.to_datetime(bike_data['starttime'])
bike_data['stoptime'] = pd.to_datetime(bike_data['stoptime'])

# Шаг 2: Вычисляем длительность поездки в минутах
bike_data['trip_duration'] = (bike_data['stoptime'] - bike_data['starttime']).dt.total_seconds() / 60

# Шаг 3: Округляем длительность до целого числа
bike_data['trip_duration'] = bike_data['trip_duration'].round()

# Шаг 4: Находим длительность поездки под индексом 3
trip_duration_index_3 = bike_data.loc[3, 'trip_duration']

# Вывод результата
print(f"Длительность поездки под индексом 3: {int(trip_duration_index_3)} минут")

Длительность поездки под индексом 3: 7 минут


In [17]:
# Шаг 1: Преобразуем столбец starttime в формат datetime
bike_data['starttime'] = pd.to_datetime(bike_data['starttime'])

# Шаг 2: Создаём признак weekend
bike_data['weekend'] = bike_data['starttime'].dt.dayofweek.isin([5, 6]).astype(int)

# Шаг 3: Подсчёт поездок, начавшихся в выходные
weekend_trip_count = bike_data['weekend'].sum()

# Вывод результата
print(f"Количество поездок, начавшихся в выходные: {weekend_trip_count}")

Количество поездок, начавшихся в выходные: 115135


In [18]:
# Шаг 1: Преобразуем столбец starttime в формат datetime
bike_data['starttime'] = pd.to_datetime(bike_data['starttime'])

# Шаг 2: Извлекаем час начала поездки
bike_data['hour'] = bike_data['starttime'].dt.hour

# Шаг 3: Создаём признак времени суток
conditions = [
    (bike_data['hour'] >= 0) & (bike_data['hour'] <= 6),   # ночь
    (bike_data['hour'] > 6) & (bike_data['hour'] <= 12),   # утро
    (bike_data['hour'] > 12) & (bike_data['hour'] <= 18),  # день
    (bike_data['hour'] > 18) & (bike_data['hour'] <= 23)   # вечер
]

choices = ['night', 'morning', 'day', 'evening']

bike_data['time_of_day'] = pd.cut(bike_data['hour'], bins=[-1, 6, 12, 18, 23], labels=choices)

# Шаг 4: Подсчитываем количество поездок в каждой категории
time_of_day_counts = bike_data['time_of_day'].value_counts()

# Шаг 5: Рассчитываем, во сколько раз количество поездок днём больше, чем ночью
day_count = time_of_day_counts.get('day', 0)
night_count = time_of_day_counts.get('night', 0)

# Вычисляем во сколько раз
if night_count > 0:
    ratio = day_count / night_count
else:
    ratio = 0  # Если ночью поездок нет, результат равен 0

# Округляем до целого числа
ratio_rounded = round(ratio)

# Вывод результата
print(f"Во сколько раз количество поездок днём больше, чем ночью: {ratio_rounded}")

Во сколько раз количество поездок днём больше, чем ночью: 9
