In [None]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import plotly.express as px
from datetime import datetime

In [None]:
df = pd.read_csv('kicksharing.csv', sep = ',', encoding ='utf-8')

**Т-Банк: поездки на самокатах**

Т-Город — это группа сервисов, которые помогают пользователям решать ежедневные
задачи. Например, есть сервисы, которые позволяют купить билеты в кино или заказать
продукты и так далее. В частности, существует сервис для аренды электросамокатов
«Самокаты» — именно ему посвящена данная база.
Сервис позволяет воспользоваться самокатом от Юрента через приложение Т-Банка.
Чтобы арендовать самокат, клиенту необходимо зайти в приложение, открыть сервис
«Самокаты» и отсканировать QR-код на руле самоката. В этот момент у клиента
со счета списывается фиксированная сумма в качестве взноса. В конце поездки
также списывается итоговая сумма за поездку.
Данные охватывают сезон аренды самокатов 2024 года (с апреля по октябрь 2024).
Стоимость минуты и стоимость поездки измеряется в условных денежных единицах



***Описание***

order_rk Идентификатор заказа (поездки)

party_rk_id Идентификатор клиента

minute_cost Стоимость минуты

hold_amount Размер суммы, которая замораживается на счете в момент
взятия самоката

transport_model Название модели самоката

distance_km Километраж поездки

created_dttm Дата и время создания заказа

book_start_dttm Дата и время начала поездки

book_end_dttm Дата и время завершения поездки

book_time_zone_cd Часовой пояс

local_book_start_dttm Дата и время начала поездки в часовом поясе человека,
который брал самокат

nominal_price_rub_amt Стоимость поездки

loyalty_accrual_rub_amt Размер выплаченного кэшбэка в рублях

loyalty_accrual_bns_amt Размер выплаченного кэшбэка в бонусах (если оплата
происходила с помощью кредитной карты)

Gender_cd Пол клиента

Age Возраст клиента

*забыли добавить описание в файле activation_cost, скорее всего это

activation_cost - стоимость активации самоката(фиксированная сумма взноса)


***Education_level Уровень образования клиента:***

SCH — начальное, среднее

GRD — высшее

UGR — неполное высшее

PGR — два высших

ACD — ученая степень


lvn_state_nm Регион проживания человека


***marital_status_cd Семейный статус человека:***

IMR — состоит в незарегистрированном браке

MAR —женат/замужем

DLW — не проживает с супругом(ой)

OMR — состоит в зарегистрированном браке

CIV — гражданский брак

UNM — холост/не замужем

DIV — разведен(а)

FAL — никогда не состоял(а) в браке

WID — вдовец/вдова

In [None]:
df['created_dttm'] = pd.to_datetime(df['created_dttm'])
df['book_start_dttm'] = pd.to_datetime(df['book_start_dttm'])
df['book_end_dttm'] = pd.to_datetime(df['book_end_dttm'])
df['local_book_start_dttm'] = pd.to_datetime(df['local_book_start_dttm'])
df['created_dttm'] = pd.to_datetime(df['created_dttm'])
df['created_dttm'] = pd.to_datetime(df['created_dttm'])

In [None]:
df.duplicated().any()

In [None]:
df.head()

In [None]:
df['book_time_zone_cd'] = df['book_time_zone_cd'].astype(str)
df['order_rk'] = df['order_rk'].astype(str)
df['party_rk'] = df['party_rk'].astype(str)

In [None]:
df.info()

In [None]:
df.shape[0]

In [None]:
df.isnull().sum()

***Посмотрим, в каждом столбце какой процент пропуски составляют от всего количества***

Поскольку процент пропусков маленький, лучше заполнить пропуски значением "Unknown"

In [None]:
null_gender = df['gender_cd'].isnull().sum()
percent_null_gender = round(null_gender / df.shape[0] *100,2)
print(f'Процент пропуска по колонке "Пол клиента" составляет {percent_null_gender}%')

In [None]:
df['gender_cd'].fillna('Unknown', inplace=True)

В столбце "Уровень образования клиента" процент пропусков значительный, следовательно, лучше тоже заполнить значением "Unknown"

In [None]:
null_education_level_cd = df['education_level_cd'].isnull().sum()
percent_null_education_level_cd = round(null_education_level_cd / df.shape[0] *100,2)
print(f'Процент пропуска по колонке "Уровень образования клиента" составляет {percent_null_education_level_cd}%')

In [None]:
df['education_level_cd'].fillna('Unknown', inplace=True)

Аналогично предыдущему варианту, "Семейный статус человека" лучше тоже заполнить значением "Unknown"(пропуск может быть связан с тем, что клиент не захотел о себе оставлять эту информацию, а не из-за утери данных)

In [None]:
null_marital_status_cd = df['marital_status_cd'].isnull().sum()
percent_null_marital_status_cd = round(null_marital_status_cd / df.shape[0] *100,2)
print(f'Процент пропуска по колонке "Семейный статус человека" составляет {percent_null_marital_status_cd}%')

In [None]:
df['marital_status_cd'].fillna('Unknown', inplace=True)

В случае с регионом сравнительно небольшой процент пропусков, значит, можно заполнить модой

In [None]:
null_lvn_state_nm = df['lvn_state_nm'].isnull().sum()
percent_null_lvn_state_nm = round(null_lvn_state_nm / df.shape[0] *100,2)
print(f'Процент пропуска по колонке "Регион проживания человека" составляет {percent_null_lvn_state_nm}%')

In [None]:
mode_value = df['lvn_state_nm'].mode()[0]
print(mode_value)

In [None]:
df['education_level_cd'].fillna(mode_value, inplace=True)

Скорее всего, можем предположить, что пропуски в колонке "Размер выплаченного кэшбэка в рублях " означает, что кэшбек не начислялся за поездку, поэтому вместо пропуска можем проставить значение "0".

In [None]:
null_loyalty_accrual_rub_amt = df['loyalty_accrual_rub_amt'].isnull().sum()
percent_null_loyalty_accrual_rub_amt = round(null_loyalty_accrual_rub_amt / df.shape[0] *100,2)
print(f'Процент пропуска по колонке "Размер выплаченного кэшбэка в рублях " составляет {percent_null_education_level_cd}%')

In [None]:
df['education_level_cd'].fillna(0, inplace=True)

И в заключении, поскольку процент пропусков в столбце "Размер выплаченного кэшбэка в бонусах (если оплата происходила с помощью кредитной карты)" очень большой, заменим их значением "0"

In [None]:
null_loyalty_accrual_bns_amt = df['loyalty_accrual_bns_amt'].isnull().sum()
percent_null_loyalty_accrual_bns_amt = round(null_loyalty_accrual_bns_amt / df.shape[0] *100,2)
print(f'Процент пропуска по колонке "Размер выплаченного кэшбэка в бонусах (если оплата происходила с помощью кредитной карты)" {percent_null_loyalty_accrual_bns_amt}%')

In [None]:
df['loyalty_accrual_bns_amt'].fillna(0, inplace=True)

In [None]:
df['loyalty_accrual_bns_amt'] = df['loyalty_accrual_bns_amt'].astype(float)

In [None]:
df.info()

Посчитаем описательные характеристики по всем переменным и построим матрицу корреляции, чтобы посмотреть, какую силу связи между собой имеют числовые переменные(сила может быть положительной, отрицательной или вовсе ее не быть).

In [None]:
cor_matrix = df[df.select_dtypes(include=['number']).columns].corr()
plt.figure(figsize=(10, 8))
sns.heatmap(cor_matrix, annot=True, fmt=".2f", cmap='coolwarm')
plt.title('Матрица корреляций')
plt.show()

**Какие выводы можно сделать, глядя на матрицу корреляции**:
- *отрицательной корреляции между переменными нет вообще*;
- *самые сильные положительные корреляции наблюдаются между*:
  - Стоимостью поездки и размером выплаченного кэшбэка в рублях(что логично - чем больше оплата, тем больше кэшбек);
  - Стоимостью минуты поездки и стоимостью активации самоката.

In [None]:
df.describe()

Какие выводы можно сделать по описательным статистикам числовых переменных:
- средний возраст пользователя самокатом около 31 года(т.к. среднее и медиана близки по значению, можем сделать вывод, что по этим данных сильных выбросов нет), в основном пользователями являются люди от 24 ло 37 лет;
- средняя стоимость минуты поездки на самокате варьируется от 7 до 8 рублей(т.к. среднее и медиана близки по значению, можем сделать вывод, что по этим данных также нет сильных выбросов);
- средняя стоимость активации от 42 до 50 рублей;
- средний километраж поездки составляет от 1.5 до 3 км, ондако заметим, что есть очень большой выброс, а именно - максимальное значение(56012 км, для сравнения - длина экватора 40 000 км), стоит обратить внимание на данный момент, хоть и большая часть данных находится в разумных пределах(если смотреть на квантили);
- средняя стоимость поездки варьируется от 100 жо 130 рублей;
- стоит обратить внимание на минимальное значение размера выплаченного кэшбека, он отрицательный, о чем это может нам говорить? нужно подумать об этом.


Поскольку во всем исследовании нас интересует, как можно улучшить показатели продукта и масштабировать его, необходимо определиться с целевой переменной. Чаще всего, в качестве такой переменной берут какой - то денежный показатель,и можем предположить, что правильнее всего в качестве целевой будет взять переменную **Стоимость поездки(nominal_price_rub_amt)**.

Попробуем сформулировать предположения, которые будем тестировать.
1. Выдвинем гипотезу о связи между стоимостью поездки и размером выплаченного кэшбэка в рублях
  - $H_0$: взаимосвязи между переменными нет 
  - $H_1$: взаимосвязь есть

In [None]:
from scipy.stats import chi2_contingency, chi2 

In [None]:
stat, p, dof, expected = chi2_contingency(pd.crosstab(df.nominal_price_rub_amt, df.loyalty_accrual_rub_amt))
print(f'stat = {stat}, p-value = {p}')

In [None]:
prob = 0.95
alpha = 1.0 - prob
if p <= alpha:
    print('Отклоняем H0')
else:
    print('Не отклоняем H0')