# Анализ спроса на самокаты

In [55]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [56]:
import warnings
warnings.filterwarnings('ignore')

## Предобработка данных о погоде

In [57]:
# Чтение данных и удаление первой строки с единицами измерения
df = pd.read_csv('weather.csv', na_values="", parse_dates=['Datetime']).drop(index=0, axis=1)

# Названия колонок к PEP8
df.columns = df.columns.str.replace(' ', '_').str.lower()

# Приведение колонок к float, кроме колонки с датами
for col in df.columns[1:]:
    df[col] = df[col].astype(float)

### Проверка на дубликаты

In [58]:
df.duplicated().sum(), df['datetime'].duplicated().sum()

(np.int64(0), np.int64(0))

### Работа с пропусками

In [59]:
df.isna().sum() # Проверка наличия пропусков

datetime                0
temperature            55
precipitation_total    30
wind_gust               0
wind_speed             16
cloud_cover_total      20
sunshine_duration      12
dtype: int64

Так как мы работаем с временными рядами, в заполнении пропусков может помочь **интерполяция**, которая отталкивается от значений соседних точек.

#### ДО

In [60]:
df.iloc[1003:1015]

Unnamed: 0,datetime,temperature,precipitation_total,wind_gust,wind_speed,cloud_cover_total,sunshine_duration
1004,2023-05-12 19:00:00,14.07,0.1,18.72,6.13,28.0,42.07
1005,2023-05-12 20:00:00,13.69,0.0,14.4,5.51,26.0,0.0
1006,2023-05-12 21:00:00,,0.0,12.96,6.57,20.0,0.0
1007,2023-05-12 22:00:00,,0.0,14.04,7.24,38.0,0.0
1008,2023-05-12 23:00:00,,0.0,14.04,6.62,38.0,0.0
1009,2023-05-13 00:00:00,,0.0,13.68,7.73,25.0,0.0
1010,2023-05-13 01:00:00,,0.0,12.96,7.17,23.7,0.0
1011,2023-05-13 02:00:00,,0.0,12.6,8.56,23.1,0.0
1012,2023-05-13 03:00:00,,0.0,11.16,6.73,59.0,0.0
1013,2023-05-13 04:00:00,,0.0,10.8,6.64,77.0,1.44


#### ПОСЛЕ

In [61]:
for col in df.columns[1:]:
    df[col] = df[col].interpolate()
    
df.iloc[1003:1015]

Unnamed: 0,datetime,temperature,precipitation_total,wind_gust,wind_speed,cloud_cover_total,sunshine_duration
1004,2023-05-12 19:00:00,14.07,0.1,18.72,6.13,28.0,42.07
1005,2023-05-12 20:00:00,13.69,0.0,14.4,5.51,26.0,0.0
1006,2023-05-12 21:00:00,13.49,0.0,12.96,6.57,20.0,0.0
1007,2023-05-12 22:00:00,13.29,0.0,14.04,7.24,38.0,0.0
1008,2023-05-12 23:00:00,13.08,0.0,14.04,6.62,38.0,0.0
1009,2023-05-13 00:00:00,12.88,0.0,13.68,7.73,25.0,0.0
1010,2023-05-13 01:00:00,12.68,0.0,12.96,7.17,23.7,0.0
1011,2023-05-13 02:00:00,12.48,0.0,12.6,8.56,23.1,0.0
1012,2023-05-13 03:00:00,12.27,0.0,11.16,6.73,59.0,0.0
1013,2023-05-13 04:00:00,12.07,0.0,10.8,6.64,77.0,1.44


### Работа со значениями

In [62]:
# Перевод порыва и скорости ветра в м/с и округление до 1 знака после запятой
df[['wind_gust', 'wind_speed']] = (df[['wind_gust', 'wind_speed']] / 3.6).round(1)

# Округление продолжительности солнечного сияния, температуры и облачности до целого
df[['sunshine_duration', 'temperature', 'cloud_cover_total']] = df[['sunshine_duration', 'temperature', 'cloud_cover_total']].round().astype(int)

df.iloc[1234:1240]

Unnamed: 0,datetime,temperature,precipitation_total,wind_gust,wind_speed,cloud_cover_total,sunshine_duration
1235,2023-05-22 10:00:00,23,0.0,4.6,0.9,8,55
1236,2023-05-22 11:00:00,24,0.0,5.1,1.1,4,58
1237,2023-05-22 12:00:00,25,0.0,5.0,1.4,4,58
1238,2023-05-22 13:00:00,25,0.1,5.0,1.9,9,55
1239,2023-05-22 14:00:00,26,0.6,6.0,1.0,18,49
1240,2023-05-22 15:00:00,25,0.5,6.4,1.1,19,48


### Проверка на выбросы

In [63]:
df.describe()

Unnamed: 0,datetime,temperature,precipitation_total,wind_gust,wind_speed,cloud_cover_total,sunshine_duration
count,3672,3672.0,3672.0,3672.0,3672.0,3672.0,3672.0
mean,2023-06-16 11:30:00.000000256,18.09,0.1,5.8,2.04,40.98,21.54
min,2023-04-01 00:00:00,-2.0,0.0,0.8,0.0,0.0,0.0
25%,2023-05-09 05:45:00,13.0,0.0,3.7,1.2,15.0,0.0
50%,2023-06-16 11:30:00,18.0,0.0,5.1,1.7,32.0,15.0
75%,2023-07-24 17:15:00,23.0,0.0,7.3,2.6,67.0,43.0
max,2023-08-31 23:00:00,36.0,5.8,19.8,8.3,100.0,60.0
std,,6.84,0.34,2.9,1.18,31.31,21.89


Все значения находятся в норме, выбросов не наблюдается

### Выгрузка новой таблицы

In [64]:
new_units_of_measure = ["", "°C", "mm", "m/s", "m/s", "%", "min"] # Скорости теперь в м / с

first_row = pd.DataFrame([new_units_of_measure], columns=df.columns, index=[0]) 
df = pd.concat([first_row, df], ignore_index=True) # Добавление в начало таблицы


df.to_csv('processed_weather.csv', index=False)

## Предобработка данных о поездках

In [40]:
# Чтение данных и удаление первой строки с единицами измерения
df = pd.read_csv('rides.csv', na_values="", parse_dates=['Start Date', 'End Date'])

# Названия колонок к PEP8
df.columns = df.columns.str.replace(' ', '_').str.lower()
    
# Приводим значения направлений движения к единому формату
df['end_district'] = df['end_district'].str.lower().str.strip().str.replace(" ", '-')
df['start_district'] = df['start_district'].str.lower().str.strip().str.replace(" ", '-')

# Приводим значения начальных и конечных точек к единому формату
df['start_location'] = df['start_location'].str.lower().str.strip().str.replace(".", ' ').str.replace("  ", ' ')
df['start_location'] = df['start_location'].str.replace('ул ', '')

df['end_location'] = df['end_location'].str.lower().str.strip().str.replace(".", ' ').str.replace("  ", ' ')
df['end_location'] = df['end_location'].str.replace('ул ', '')

### Проверка на дубликаты

In [41]:
df.duplicated().sum()

np.int64(4883)

Данные, представленные в таблице rides.csv не должны дублироваться, поэтому удаляем дубликаты

In [42]:
df = df.drop_duplicates()
df = df.reset_index(drop=True)

### Работа с пропусками

In [43]:
df.isna().sum() # Проверка наличия пропусков

id                   0
start_date           0
end_date           555
start_location       0
start_district       0
end_location         0
end_district         0
distance          1181
promo                0
dtype: int64

Наблюдаются пропуски с дате окончания поездки и дистанции поездки.

* Пропуски в end_date будем заполнять на основании пройденной дистанции

* Пропуски в distance будем заполнять на основании времени поездки

#### Работа с пропусками в end_date

Рассчитывать время конца поездки будем на основании медианы средней скорости во время пути и дистанции поездки.

Формула: Конец_поездки = начало_поездки + (дистанция / медиана_средней_скорости)

##### ДО

In [44]:
df.iloc[946:949]

Unnamed: 0,id,start_date,end_date,start_location,start_district,end_location,end_district,distance,promo
946,101286,2023-04-22 23:33:50,NaT,чехова,заречный,октябрьская,заречный,2521.0,0
947,101287,2023-04-22 23:35:04,2023-04-22 23:54:26,советская,центральный,суворова,ленинский,3204.0,0
948,101288,2023-04-22 23:36:43,2023-04-23 00:14:03,кирова,ленинский,буденного,октябрьский,3755.0,0


##### ПОСЛЕ

In [45]:
# Создаем колонну ride_duration, которая содержит длительность поездки в минутах
df['ride_duration'] = df.apply(lambda row: (row.end_date - row.start_date).seconds / 60, axis = 1)

# Создаем колонку average_speed, которая хранит среднюю скорость на протяжении всего пути в км/ч
df['average_speed'] = df.apply(lambda row: (row.distance / 1000) / (row.ride_duration / 60), axis=1)

median_average_speed = df['average_speed'].median()

# Заполнение пустых значений в столбце 'end_date'
df['end_date'] = df['end_date'].fillna(
    df['start_date'] + pd.to_timedelta((df['distance'] / 1000) / median_average_speed, unit='h')
)

df.iloc[946:949]

Unnamed: 0,id,start_date,end_date,start_location,start_district,end_location,end_district,distance,promo,ride_duration,average_speed
946,101286,2023-04-22 23:33:50,2023-04-22 23:50:25.672184098,чехова,заречный,октябрьская,заречный,2521.0,0,,
947,101287,2023-04-22 23:35:04,2023-04-22 23:54:26.000000000,советская,центральный,суворова,ленинский,3204.0,0,19.37,9.93
948,101288,2023-04-22 23:36:43,2023-04-23 00:14:03.000000000,кирова,ленинский,буденного,октябрьский,3755.0,0,37.33,6.03


#### Работа с пропусками в distance

Рассчитывать дистанцию поездки будем на основании медианы средней скорости во время пути и длительности поездки.

Формула: Дистанция = медиана_средней_скорости * время_поездки

##### ДО

In [46]:
df.iloc[1130:1133]

Unnamed: 0,id,start_date,end_date,start_location,start_district,end_location,end_district,distance,promo,ride_duration,average_speed
1130,101470,2023-04-23 11:26:28,2023-04-23 12:10:50,речная,юго-восточный,пионерская,заречный,,0,44.37,
1131,101471,2023-04-23 11:27:21,2023-04-23 11:47:01,комарова,ленинский,дружбы,центральный,3581.0,0,19.67,10.93
1132,101472,2023-04-23 11:28:32,2023-04-23 11:50:19,майская,октябрьский,молодежная,юго-восточный,3082.0,0,21.78,8.49


##### ПОСЛЕ

In [47]:
# Заполнение пустых значений в столбце 'distance'
df['distance'] = df['distance'].fillna(median_average_speed * (df['ride_duration'] / 60) * 1000)

df.iloc[1130:1133]

Unnamed: 0,id,start_date,end_date,start_location,start_district,end_location,end_district,distance,promo,ride_duration,average_speed
1130,101470,2023-04-23 11:26:28,2023-04-23 12:10:50,речная,юго-восточный,пионерская,заречный,6740.07,0,44.37,
1131,101471,2023-04-23 11:27:21,2023-04-23 11:47:01,комарова,ленинский,дружбы,центральный,3581.0,0,19.67,10.93
1132,101472,2023-04-23 11:28:32,2023-04-23 11:50:19,майская,октябрьский,молодежная,юго-восточный,3082.0,0,21.78,8.49


#### Проверка работы

In [48]:
df = df.drop(['ride_duration', 'average_speed'], axis=1) # Удаляем уже ненужные стоблцы

df.isna().sum() # Проверка наличия пропусков

id                0
start_date        0
end_date          0
start_location    0
start_district    0
end_location      0
end_district      0
distance          0
promo             0
dtype: int64

### Проверка на выбросы

In [49]:
pd.set_option('display.float_format', '{:.2f}'.format)
df.describe()

Unnamed: 0,id,start_date,end_date,distance,promo
count,97372.0,97372,97372,97372.0,97372.0
mean,149025.5,2023-06-13 21:06:08.931407360,2023-06-13 21:33:03.576468480,26998.68,0.02
min,100340.0,2023-04-22 09:01:03,2023-04-22 09:24:45,1.0,0.0
25%,124682.75,2023-05-20 21:41:39.500000,2023-05-20 22:07:59,3044.0,0.0
50%,149025.5,2023-06-14 15:15:46,2023-06-14 15:44:53,3703.0,0.0
75%,173368.25,2023-07-08 19:50:22.249999872,2023-07-08 20:18:30,4433.0,0.0
max,197711.0,2023-07-31 23:57:01,2023-08-14 07:25:37.719536260,7569789.0,1.0
std,28109.02,,,307435.12,0.14


В distance присутствуют очень сильные выбросы, вероятно, они вызваны ошибками в показаниях датчиков

Так как выбросы в distance аномально большие или маленькие, то самым простым способом будет вручную отфильтровать выбросы и исправить ошибочные значения, не прибегая к интерквартильному размаху или стандартным отклонениям

Выбросы будем исправлять по аналогии с пропусками.

Некоторые строки с выбросами также содержали пустые данные и на этапе заполнения пустых данных, заполненные пропуски тоже получили некорректные значения. При условии, что один из параметров выброс, а другой был пропущен - мы не можем восстановить данные, следовательно придется их удалить.

In [50]:
# Обновляем значения в колонке ride_duration
df['ride_duration'] = df.apply(lambda row: (row.end_date - row.start_date).seconds / 60, axis=1)

# Удаляем значения, которые невозможно восстановить и обновляем индексацию
df = df[(df['ride_duration'] < 90) & (df['ride_duration'] > 10)]
df = df.reset_index(drop=True)

##### ДО

In [51]:
df.iloc[954:957]

Unnamed: 0,id,start_date,end_date,start_location,start_district,end_location,end_district,distance,promo,ride_duration
954,101299,2023-04-22 23:54:39,2023-04-23 00:23:58,дачная,центральный,свободы,ленинский,4273850.0,0,29.32
955,101300,2023-04-22 23:58:02,2023-04-23 00:20:51,заречная,юго-восточный,спортивная,октябрьский,3186.0,0,22.82
956,101301,2023-04-22 23:58:44,2023-04-23 00:22:00,подгорная,ленинский,озерная,юго-восточный,4679.0,0,23.27


##### ПОСЛЕ

In [52]:
# Заменяем выбросы в соответствии с формулой
df['distance'] = df['distance'].where(
    (df['distance'] >= 10) & (df['distance'] <= 50000), 
    median_average_speed * (df['ride_duration'] / 60) * 1000
).round().astype(int)

df.iloc[954:957]

Unnamed: 0,id,start_date,end_date,start_location,start_district,end_location,end_district,distance,promo,ride_duration
954,101299,2023-04-22 23:54:39,2023-04-23 00:23:58,дачная,центральный,свободы,ленинский,4454,0,29.32
955,101300,2023-04-22 23:58:02,2023-04-23 00:20:51,заречная,юго-восточный,спортивная,октябрьский,3186,0,22.82
956,101301,2023-04-22 23:58:44,2023-04-23 00:22:00,подгорная,ленинский,озерная,юго-восточный,4679,0,23.27


#### Проверка работы

In [53]:
# Удаляем теперь ненужные колонны таблицы
df = df.drop(['ride_duration'], axis=1) 

df.describe()

Unnamed: 0,id,start_date,end_date,distance,promo
count,96638.0,96638,96638,96638.0,96638.0
mean,149020.97,2023-06-13 20:58:56.413264128,2023-06-13 21:25:26.435115264,3845.82,0.02
min,100340.0,2023-04-22 09:01:03,2023-04-22 09:24:45,1094.0,0.0
25%,124672.25,2023-05-20 21:32:31.750000128,2023-05-20 21:58:06,3119.0,0.0
50%,149018.5,2023-06-14 15:08:45,2023-06-14 15:37:43.500000,3743.0,0.0
75%,173376.75,2023-07-08 19:55:47.500000,2023-07-08 20:21:19.500000,4456.0,0.0
max,197711.0,2023-07-31 23:57:01,2023-08-01 00:42:12,12675.0,1.0
std,28113.79,,,1036.42,0.14


### Выгрузка новой таблицы

In [54]:
# Приводим дистанцию к целочисленному типу
df['distance'] = df['distance'].astype(int)

df.to_csv('processed_rides.csv', index=False, date_format='%Y-%m-%d %H:%M:%S')

## Объединение таблиц

Для более удобного анализа данных стоит объединить имеющиеся таблицы

In [65]:
rides_df = pd.read_csv('processed_rides.csv', parse_dates=['start_date', 'end_date'])
weather_df = pd.read_csv('processed_weather.csv', parse_dates=['datetime']).drop(index=0, axis=1)

rides_df['rounded_start_time'] = rides_df['start_date'].dt.round('h')


merge_df = pd.merge_asof(
    rides_df.sort_values('rounded_start_time'), 
    weather_df.sort_values('datetime'), 
    left_on='rounded_start_time', 
    right_on='datetime', 
    direction='backward'
)

merge_df = merge_df.drop('rounded_start_time', axis=1)

merge_df.to_csv('rides_&_weather.csv', index=False)

## Проведение расчетов и иссследований

### 1. Расчет итоговой стоимости

![alt text](image.png)

In [None]:
# тык-тык тут код

### 2. Стимулирует ли акция спрос на самокаты?

. . .

## Проверка гипотез

### 1. В дождливое время спрос на самокаты ниже.

H0: Спрос на самокаты <u>не зависит</u> от погодных условий

H1: Спрос на самокаты <u>зависит</u> от погодных условий

In [None]:
# тут код с проверкой теории, и объяснением почему мы используем какие-то коэффиценты.