На этот раз мы поговорим о спорте, а точнее — о велоспорте. 

Вашим заданием в этом модуле будет проанализировать и преобразовать данные о велопоездках клиентов компании Citi Bike (США), специализирующейся на прокате велосипедов. <br/>
Датасет представляет собой таблицу с информацией о 300 тысячах поездок за первые пять дней сентября 2018 года и включает в себя следующую информацию:<br/>
- starttime — время начала поездки (дата, время);
- stoptime — время окончания поездки (дата, время);
- start station id — идентификатор стартовой стоянки;
- start station name — название стартовой стоянки;
- start station latitude, start station longitude — географическая широта и долгота стартовой стоянки;
- end station id — идентификатор конечной стоянки;
- end station name — название конечной стоянки;
- end station latitude, end station longitude — географическая широта и долгота конечной стоянки;
- bikeid — идентификатор велосипеда;
- usertype — тип пользователя (Customer — клиент с подпиской на 24 часа или на три дня, Subscriber — подписчик с годовой арендой велосипеда);
- birth year — год рождения клиента;
- gender — пол клиента (0 — неизвестный, 1 — мужчина, 2 — женщина).

In [None]:
import pandas as pd
citibike_tripdata = pd.read_csv('data/citibike-tripdata.csv', sep = ',')
display(citibike_tripdata.head())

Сколько пропусков в столбце start station id?

In [None]:
citibike_tripdata.info()
# 169

Какой тип данных имеют столбцы starttime и stoptime?
object

Найдите идентификатор самой популярной стартовой стоянки. Запишите идентификатор в виде целого числа.

In [None]:
citibike_tripdata['start station id'].mode()[0]

Велосипед с каким идентификатором является самым популярным?

In [None]:
citibike_tripdata['bikeid'].mode()[0]

Какой тип клиентов (столбец usertype) является преобладающим — Subscriber или Customer? В качестве ответа запишите долю клиентов преобладающего типа среди общего количества клиентов. Ответ округлите до сотых.

In [None]:
citibike_tripdata['usertype'].value_counts(normalize=True)

другим способом

In [None]:
citibike_tripdata['usertype'].mode()[0]
citibike_tripdata[citibike_tripdata['usertype']=='Subscriber'].shape[0]
print(round(citibike_tripdata[citibike_tripdata['usertype']=='Subscriber'].shape[0])/(citibike_tripdata.shape[0]))

Кто больше занимается велоспортом — мужчины или женщины? В ответ запишите число поездок для той группы, у которой их больше.

In [None]:
# citibike_tripdata['gender'].mode()[0] # 1
citibike_tripdata['gender'].value_counts(0)

In [None]:
#  эталонное решение
male_count = citibike_tripdata[citibike_tripdata['gender'] == 1].shape[0]
female_count = citibike_tripdata[citibike_tripdata['gender'] == 2].shape[0]
print(max([male_count, female_count]))

Выберите утверждения,которые соответствуют нашим данным:
- A Число уникальных стартовых и конечных стоянок, которыми воспользовались клиенты, не равны друг другу
- B В рассматриваемые дни минимальный возраст клиента составлял 10 лет
- C Самой непопулярной стартовой стоянкой из тех, которыми воспользовались клиенты, является стоянка с названием "Eastern Pkwy & Washington Ave"
- D Наибольшее количество поездок завершается на стоянке под названием "Liberty Light Rail"
Подсказка (1 из 1): Для вывода статистической информации в таблице можно воспользоваться методом describe().

In [None]:
# A Число уникальных стартовых и конечных стоянок, которыми воспользовались клиенты, не равны друг другу
a = citibike_tripdata['start station name'].nunique()
b = citibike_tripdata['end station name'].nunique()
print(a, b)

In [None]:
# B В рассматриваемые дни минимальный возраст клиента составлял 10 лет
citibike_tripdata['birth year'].max()


In [None]:
 # C Самой непопулярной стартовой стоянкой из тех, которыми воспользовались клиенты, 
 # является стоянка с названием "Eastern Pkwy & Washington Ave"
citibike_tripdata['start station name'].value_counts()

In [None]:
# Наибольшее количество поездок завершается на стоянке под названием "Liberty Light Rail"
citibike_tripdata['end station name'].value_counts()


In [None]:
data= citibike_tripdata.copy()

В первую очередь удалим лишнюю информацию из данных.
В наших данных присутствуют столбцы, которые дублируют информацию друг о друге: это столбцы с идентификатором и названием стартовой и конечной стоянки. Удалите признаки идентификаторов стоянок. Сколько столбцов осталось?


Подсказка (1 из 2): Для удаления столбцов из таблицы можно воспользоваться методом drop(), передав в него наименования столбцов, а также параметр axis=1.
Подсказка (2 из 2): Результирующее число столбцов можно получить с помощью атрибута shape.

In [None]:
data = data.drop(['start station id','end station id'], axis= 1)
data.shape[1]

Замените признак birth year на более понятный признак возраста клиента age. Годом отсчёта возраста выберите 2018 год. Столбец birth year удалите из таблицы. Сколько поездок совершено клиентами старше 60 лет?

- Подсказка (1 из 3): Чтобы создать столбец с возрастом, вычтите из числа 2018 столбец birth year, а результат положите в столбец age.
- Подсказка (2 из 3): Удалите столбец birth year и произведите фильтрацию по условию «возраст больше 60».
- Подсказка (3 из 3): Найдите число строк в отфильтрованной таблице.


In [None]:
data['age'] = 2018 - data['birth year']
data.drop(['birth year'], axis=1, inplace=True)
print(data[data['age'] > 60].shape[0])

Cоздайте признак длительности поездки trip duration. Для этого вычислите интервал времени между временем окончания поездки (stoptime) и её началом (starttime). Сколько целых минут длилась поездка под индексом 3 в таблице?

Подсказка - Приводим столбцы starttime и stoptime в формат datetime, чтобы между ними можно было вычислять интервал (разницу между датами).
         - Длительность поездки рассчитывается как разница между stoptime и starttime. Результат заносим в столбец trip duration. Далее нам останется только обратиться к строке под индексом 3.

In [None]:
data_start = pd.to_datetime(data['starttime'])
data_stop = pd.to_datetime(data['stoptime'])
data['trip duration']= data_stop - data_start
data.loc[3, 'trip duration']

Создайте «признак-мигалку» weekend, который равен 1, если поездка начиналась в выходной день (суббота или воскресенье), и 0 — в противном случае. Выясните, сколько поездок начиналось в выходные.<br/>
- Подсказка (1 из 3): Чтобы создать признак weekend, необходимо с помощью атрибута аксессора dt dayofweek выделить день недели из столбца с датой начала поездки.W
- Подсказка (2 из 3): С помощью метода apply() можно применить к результирующей Series функцию, которая принимает на вход число (день поездки) и возвращает 1, если это число равно 5 или 6 (суббота и воскресенье), в противном случае функция возвращает 0. Результат необходимо занести в столбец weekend.
- Подсказка (3 из 3): Самый простой способ посчитать число поездок, совершаемых в выходные — рассчитать сумму по столбцу (поскольку столбец состоит из 1 и 0, на выходе суммы получается количество, равное 1).

In [None]:
data['weekday'] = data['starttime'].dt.dayofweek
def get_weekend(weekday):
    if weekday == 5 or weekday == 6:
        return 1
    else: 
        return 0
data['weekend'] = data['weekday'].apply(get_weekend)
data['weekend'].sum()
