# Анализ данных об аренде велосипедов в Чикаго

## Описание данных:

- **trip_id** — id поездки;
- **start_time** — Дата и время начала поездки
- **end_time** — Дата и время конца поездки
- **bikeid** — id велосипеда
- **tripduration** — продолжительность поездки в минутах
- **from_station_id** — id станции начала поездки
- **from_station_name** — название пункта отправления
- **to_station_id** — id пункта прибытия
- **to_station_name** — название пункта прибытия
- **usertype** — тип пользователя
- **gender** — пол (если subscriber)
- **birthyear** — год рождения (если subscriber)

In [1]:
# Импорт библиотек
import os
import pandas as pd
import numpy as np

import warnings
warnings.filterwarnings('ignore')

## Задания:

#### 1. Поместите колонку start_time в качестве индексов. Предварительно проверьте тип переменной, и приведите её к правильному, если необходимо.

In [2]:
# Считаем данные, установим колонку start_time как индекс
bikes_Q1 = pd.read_csv(r'D:\data_analysis\works\bikes_data\bikes_q1.csv',
                       parse_dates=['start_time', 'end_time'], index_col='start_time')
bikes_Q1.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-01-22 20:04:31,17617135,2018-01-22 20:11:53,1131,442.0,471,Francisco Ave & Foster Ave,468,Budlong Woods Library,Subscriber,Female,1949.0
2018-03-16 19:47:59,17897619,2018-03-16 20:04:00,6146,961.0,296,Broadway & Belmont Ave,253,Winthrop Ave & Lawrence Ave,Subscriber,Male,1988.0
2018-03-14 18:49:20,17881307,2018-03-14 18:54:38,3847,318.0,260,Kedzie Ave & Milwaukee Ave,503,Drake Ave & Fullerton Ave,Subscriber,Male,1987.0
2018-03-14 18:33:48,17881130,2018-03-14 19:07:40,1483,2032.0,199,Wabash Ave & Grand Ave,199,Wabash Ave & Grand Ave,Subscriber,Male,1990.0
2018-02-05 17:39:14,17686289,2018-02-05 17:46:13,6391,419.0,596,Benson Ave & Church St,605,University Library (NU),Subscriber,Male,1992.0


In [3]:
# Посмотрим на размерность данных
bikes_Q1.shape

(174215, 11)

In [4]:
# Посмотрим на типы данных в датафрейме
bikes_Q1.dtypes

trip_id                       int64
end_time             datetime64[ns]
bikeid                        int64
tripduration                 object
from_station_id               int64
from_station_name            object
to_station_id                 int64
to_station_name              object
usertype                     object
gender                       object
birthyear                   float64
dtype: object

#### 2. В данных имеется как дата аренды, так и её точное время начала и окончания с точностью до секунд. Примените метод pd.resample() и агрегируйте данные по дням. В качестве ответа укажите максимальное число аренд за день.

In [5]:
bikes_Q1.trip_id.resample(rule='1d').count().max()

4196

#### 3. Посмотрим на распределение количества аренд для разных групп пользователей (usertype) — customers и subscribers в данных за апрель.  Сделайте ресемпл по дням для каждой группы и в качестве ответа укажите число аренд за 18 апреля, сделанных пользователями типа Subscriber.

In [6]:
# Загрузим и считаем данные за апрель
bikes_april = pd.read_csv(r'D:\data_analysis\works\bikes_data\bikes_april.csv',
                          parse_dates=['start_time', 'end_time'], index_col='start_time')
bikes_april.head()

Unnamed: 0_level_0,trip_id,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
2018-04-01 00:10:23,18000531,2018-04-01 00:22:12,5065,709.0,228,Damen Ave & Melrose Ave,219,Damen Ave & Cortland St,Subscriber,Male,1983.0
2018-04-01 00:15:49,18000533,2018-04-01 00:19:47,4570,238.0,128,Damen Ave & Chicago Ave,130,Damen Ave & Division St,Subscriber,Male,1978.0
2018-04-01 00:17:00,18000534,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
2018-04-01 00:20:00,18000536,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2018-04-01 00:23:19,18000538,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0


In [7]:
# Сделаем агрегацию данных и выведем количество пользователей за указанный день
bikes_per_days =bikes_april \
                    .groupby('usertype') \
                    .trip_id \
                    .resample(rule='1d') \
                    .count()

bikes_per_days.loc[('Subscriber', '2018-04-18')]

2196

#### 4. Объедините сэмплы данных за нужные месяцы в один общий датасет bikes. Сделайте преобразование по дням для каждой группы пользователей (usertype), затем выберите дни, в которые число аренд, сделанных customers, было больше, чем у subscribers.

In [8]:
# Считаем все файлы и объединим их в итоговый датафрейм
tree = os.walk(r'D:\data_analysis\works\bikes_data')

bikes = pd.DataFrame()

for path, dirs, files in tree:
    for file in files:
        if 'sample' in file.split('_'):
            file_path = '\\'.join([path, file])
            df = pd.read_csv(file_path, parse_dates=['start_time', 'end_time'])
            bikes = pd.concat([bikes, df], ignore_index=True)

In [9]:
# Сделаем индексом колонку start_time и посмотрим на данные
bikes.set_index(bikes.start_time, inplace=True)
bikes.head()

Unnamed: 0_level_0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2018-04-01 00:17:00,18000534,2018-04-01 00:17:00,2018-04-01 00:22:53,1323,353.0,130,Damen Ave & Division St,69,Damen Ave & Pierce Ave,Subscriber,Male,1991.0
2018-04-01 00:20:00,18000536,2018-04-01 00:20:00,2018-04-01 00:26:22,2602,382.0,121,Blackstone Ave & Hyde Park Blvd,351,Cottage Grove Ave & 51st St,Subscriber,Female,1992.0
2018-04-01 00:23:19,18000538,2018-04-01 00:23:19,2018-04-01 00:35:01,4213,702.0,31,Franklin St & Chicago Ave,180,Ritchie Ct & Banks St,Subscriber,Male,1985.0
2018-04-01 00:24:46,18000540,2018-04-01 00:24:46,2018-04-01 00:44:23,6401,1177.0,596,Benson Ave & Church St,517,Clark St & Jarvis Ave,Subscriber,Male,1974.0
2018-04-01 00:26:04,18000541,2018-04-01 00:26:04,2018-04-01 00:31:05,6333,301.0,145,Mies van der Rohe Way & Chestnut St,24,Fairbanks Ct & Grand Ave,Subscriber,Male,1984.0


In [10]:
# Сделаем агрегацию данных по дням и посчитаем количество пользователей с разделением по типу
bikes_count = bikes \
                .groupby('usertype') \
                .trip_id \
                .resample(rule='1d') \
                .count()

In [11]:
# Отобразим только те дни, в которые пользователей с типом Customer было больше чем Subscriber
(bikes_count.Customer > bikes_count.Subscriber) \
    .to_frame(name='more_customers_than_subscribers') \
    .query('more_customers_than_subscribers == True')

Unnamed: 0_level_0,more_customers_than_subscribers
start_time,Unnamed: 1_level_1
2018-05-27,True
2018-09-02,True


#### 5. В переменную bikes_summer сохраните наблюдения с 1 июня по 31 августа. Затем запишите в top_destination наиболее популярный пункт назначения (его название). Агрегируйте данные по дням и определите, в какой день в полученный пункт (top_destination) было совершено меньше всего поездок. Дату сохраните в bad_day.

In [12]:
# Сохраним в переменную bikes_summer данные по летним месяцам и отобразим первые 5 строк
bikes_summer = bikes.loc['2018-06-01': '2018-08-31']
bikes_summer.head()

Unnamed: 0_level_0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
2018-06-01 00:04:40,18709077,2018-06-01 00:04:40,2018-06-01 00:06:47,3155,127.0,128,Damen Ave & Chicago Ave,214,Damen Ave & Grand Ave,Subscriber,Female,1978.0
2018-06-01 00:06:08,18709080,2018-06-01 00:06:08,2018-06-01 00:24:18,2807,1090.0,258,Logan Blvd & Elston Ave,69,Damen Ave & Pierce Ave,Customer,,
2018-06-01 00:08:01,18709086,2018-06-01 00:08:01,2018-06-01 00:32:55,2737,1494.0,337,Clark St & Chicago Ave,225,Halsted St & Dickens Ave,Customer,Male,1988.0
2018-06-01 00:09:02,18709091,2018-06-01 00:09:02,2018-06-01 00:19:21,6089,619.0,210,Ashland Ave & Division St,56,Desplaines St & Kinzie St,Subscriber,Male,1987.0
2018-06-01 00:09:28,18709092,2018-06-01 00:09:28,2018-06-01 00:14:44,2352,316.0,240,Sheridan Rd & Irving Park Rd,303,Broadway & Cornelia Ave,Subscriber,Male,1997.0


In [13]:
# Сделаем агрегацию данных по дням и месту прибытия
destinations = bikes_summer \
                .groupby('to_station_name') \
                .trip_id \
                .resample(rule='1d') \
                .count()

In [14]:
# Запишем в переменную самое популярное место прибытия
top_destination = bikes_summer.to_station_name.value_counts().idxmax()
top_destination

'Streeter Dr & Grand Ave'

In [15]:
# Отберем день с наименьшим количеством поездок к самому посещаемому месту
bad_day = destinations['Streeter Dr & Grand Ave'].idxmin().strftime('%Y-%m-%d')
bad_day

'2018-06-21'

#### 6. Куда больше всего ездят на выходных? Туда же, куда и в будние дни, или в другие пункты назначения?

In [16]:
# Создадим в датафрейме bikes_summer дополнительную колонку с названием дня недели
bikes_summer['weekday'] = bikes_summer.index.day_name()

# Создадим список с будними днями
weekdays = ['Monday', 'Tuesday', 'Wednesday','Thursday', 'Friday']

# Создадим дополнительную колонку, которая будет содержать 'Yes' если день выходной и 'No' если будний
bikes_summer['is_holiday'] = np.where(bikes_summer['weekday'].isin(weekdays), 'No', 'Yes')
bikes_summer.head()

Unnamed: 0_level_0,trip_id,start_time,end_time,bikeid,tripduration,from_station_id,from_station_name,to_station_id,to_station_name,usertype,gender,birthyear,weekday,is_holiday
start_time,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
2018-06-01 00:04:40,18709077,2018-06-01 00:04:40,2018-06-01 00:06:47,3155,127.0,128,Damen Ave & Chicago Ave,214,Damen Ave & Grand Ave,Subscriber,Female,1978.0,Friday,No
2018-06-01 00:06:08,18709080,2018-06-01 00:06:08,2018-06-01 00:24:18,2807,1090.0,258,Logan Blvd & Elston Ave,69,Damen Ave & Pierce Ave,Customer,,,Friday,No
2018-06-01 00:08:01,18709086,2018-06-01 00:08:01,2018-06-01 00:32:55,2737,1494.0,337,Clark St & Chicago Ave,225,Halsted St & Dickens Ave,Customer,Male,1988.0,Friday,No
2018-06-01 00:09:02,18709091,2018-06-01 00:09:02,2018-06-01 00:19:21,6089,619.0,210,Ashland Ave & Division St,56,Desplaines St & Kinzie St,Subscriber,Male,1987.0,Friday,No
2018-06-01 00:09:28,18709092,2018-06-01 00:09:28,2018-06-01 00:14:44,2352,316.0,240,Sheridan Rd & Irving Park Rd,303,Broadway & Cornelia Ave,Subscriber,Male,1997.0,Friday,No


In [17]:
# Сгруппируем данные по переменной is_holiday и посчитаем количество посещений по станциям
# Отсортируем посещения по будням и отобразим первые 15 строк
bikes_summer \
        .groupby('is_holiday') \
        .to_station_name \
        .value_counts() \
        .to_frame() \
        .rename(columns={'to_station_name': 'visits'}) \
        .reset_index() \
        .pivot(index='to_station_name', columns='is_holiday', values='visits') \
        .fillna(0) \
        .sort_values('No', ascending=False).head(15) \
        .style.background_gradient(subset=['No','Yes'], cmap='jet')

is_holiday,No,Yes
to_station_name,Unnamed: 1_level_1,Unnamed: 2_level_1
Streeter Dr & Grand Ave,7614.0,6026.0
Canal St & Adams St,6142.0,328.0
Clinton St & Washington Blvd,4857.0,199.0
Clinton St & Madison St,4694.0,447.0
Lake Shore Dr & North Blvd,4213.0,3092.0
Michigan Ave & Washington St,3835.0,755.0
Daley Center Plaza,3771.0,323.0
Millennium Park,3405.0,1984.0
Theater on the Lake,3357.0,2858.0
Franklin St & Monroe St,3315.0,265.0
