**Цель исследования** - проанализировать данные о пользователях сервиса аренды самокатов GoFast.\
Необходимо проверить следующие гипотезы:
1.  Тратят ли пользователи с подпиской больше времени на поездки?\
2.  Можно ли сказать, что среднее расстояние, которое проезжают пользователи с подпиской за одну поездку, не превышает 3130 метров?
3. Будет ли помесячная выручка от пользователей с подпиской по месяцам выше, чем выручка от пользователей без подписки. 

4. Представьте такую ситуацию: техническая команда сервиса обновила сервера, с которыми взаимодействует мобильное приложение. Она надеется, что из-за этого количество обращений в техподдержку значимо снизилось. Некоторый файл содержит для каждого пользователя данные о количестве обращений до обновления и после него. Какой тест вам понадобился бы для проверки этой гипотезы?

Также требуется с помощью распределений решить следующие задачи:
1. нужно провести акцию с раздачей промокодов на один бесплатный месяц подписки, в рамках которой как минимум 100 существующих клиентов должны продлить эту подписку. То есть по завершении периода действия подписки пользователь может либо отказаться от неё, либо продлить, совершив соответствующий платёж. Выяснить, какое минимальное количество промокодов нужно разослать, чтобы вероятность не выполнить план была примерно 5%

2. Отдел маркетинга рассылает клиентам push-уведомления в мобильном приложении. Клиенты могут открыть его или не открывать. Известно, что уведомления открывают около 40% получивших клиентов. Отдел планирует разослать 1 млн уведомлений. С помощью аппроксимации постройте примерный график распределения и оцените вероятность того, что уведомление откроют не более 399,5 тыс. пользователей.

Описание данных В основных данных есть информация о пользователях, их поездках и подписках.

Пользователи — users_go.csv

user_id - уникальный идентификатор пользователя
name - имя пользователя
age - возраст
city - город
subscription_type тип подписки (free, ultra)\

Поездки — rides_go.csv\

user_id - уникальный идентификатор пользователя distance - расстояние, которое пользователь проехал в текущей сессии (в метрах) duration - продолжительность сессии (в минутах) — время с того момента, как пользователь нажал кнопку «Начать поездку» до момента, как он нажал кнопку «Завершить поездку»
date - дата совершения поездки\

Подписки — subscriptions_go.csv
subscription_type - тип подписки
minute_price - стоимость одной минуты поездки по данной подписке
start_ride_price - стоимость начала поездки
subscription_fee - стоимость ежемесячного платежа\

In [None]:
import pandas as pd 
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import scipy.stats as st
from math import factorial, sqrt


# Загрузка данных

In [None]:
users_go = pd.read_csv('C:/Users/Иван/test/6Sprint/users_go.csv')
rides_go = pd.read_csv('C:/Users/Иван/test/6Sprint/rides_go.csv')
subscriptions_go = pd.read_csv('C:/Users/Иван/test/6Sprint/subscriptions_go.csv')
pd.set_option('display.max_columns', None)

In [None]:
users_go.head(10)

In [None]:
users_go.info()


In [None]:
rides_go.head(10)

In [None]:
rides_go.info()

In [None]:
subscriptions_go.head(10)

Всего датасет users_go содержит данные о 1534 пользователях из разных городов. Датасет rides_go содержит в себе 18068 записей о поездках пользователей из датасета users_go. Датасет subscription_go содержит данные о тарифах поездок с подпиской и без.

# Предобработка данных

## Обработка users_go

In [None]:
users_go.isna().sum()

In [None]:
cols = users_go.columns 

#красный для пропущенных данных и зеленый для не пропущенных
colours = ['#FF5733', '#00FF00']
sns.heatmap(users_go[cols].isnull(), cmap=sns.color_palette(colours))
plt.show()

In [None]:
users_go.duplicated().sum()

In [None]:
users_go.shape

In [None]:
users_go.drop_duplicates(inplace=True)

In [None]:
users_go.duplicated().sum()

In [None]:
users_go['age'].hist(bins=12)

В датасете users_go обработаны дубликаты. Аномальные выбросы и пропущенные значения отсутсвуют.

## Обработка rides_go

In [None]:
rides_go.isna().sum()

In [None]:
cols = rides_go.columns 

#красный для пропущенных данных и зеленый для не пропущенных
colours = ['#FF5733', '#00FF00']
sns.heatmap(rides_go[cols].isnull(), cmap=sns.color_palette(colours))
plt.show()

In [None]:
rides_go.duplicated().sum()

In [None]:
rides_go[['distance', 'duration']].hist(bins=20)

In [None]:
rides_go.head()

In [None]:
rides_go['date'] = pd.to_datetime(rides_go['date'])

In [None]:
rides_go.dtypes

In [None]:
rides_go.corr()

In [None]:
rides_go['distance'] = rides_go['distance'].round(2)
rides_go['duration'] = np.ceil(rides_go['duration']) 
rides_go['duration'] = rides_go['duration'].astype('int')

In [None]:
rides_go.head(10)

На этапе предобработки данных были обработаны дубликаты в данных, изучены датасеты на предмет пропусков данных, которых не оказалось ни в одном датасете. Также были построены гистограмы для числовых признаков.

# Исследовательский анализ данных


## Частота встречаемости городов


In [None]:
users_go.head(10)

In [None]:
users_go.city.unique()

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))

user_counts = users_go['city'].value_counts()
user_counts.plot(kind='bar',ax=ax,color ='skyblue', edgecolor='black')

for i, v in enumerate(user_counts):
    ax.text(i, v + 1 , str(v), ha='center', va='bottom', fontsize=10)

plt.title('Распределение пользователей по городам')
plt.xlabel('Город')
plt.ylabel('Количество пользователей')
ax.legend(['Количество пользователей в городе'])
plt.show()

Самый популярный город - Пятигорск, наименее - Москва.


## Cоотношение пользователей с подпиской и без подписки

In [None]:
fig, ax = plt.subplots(figsize=(10, 6))

subs_type_perc = (users_go['subscription_type'].value_counts() / users_go.shape[0]) * 100
# subs_type_perc.plot(kind='pie', ax=ax)

colors=['lightgreen', 'lightcoral']

subs_type_perc.plot(kind='pie', ax=ax, autopct='%1.1f%%', colors=colors)
plt.title('Тип подписки')



Как можно заметить пользователей без подписки в процентном соотношении больше(54.4%), чем пользователей с подпиской (45.6%)

## Возраст пользователей

In [None]:
users_go.age.describe()

In [None]:
users_go['age'].hist(bins=30)

Средний возраст пользователя - 25 лет, минимальный - 12, а максимальный - 43 года.

## Продолжительность поездок

In [None]:
rides_go.head()

In [None]:
plt.hist(rides_go['duration'], bins=40)
plt.xlabel('Продолжительность')
plt.ylabel('Частота')
plt.title('Распределение продолжительности сессий')
plt.show()

In [None]:
rides_go.duration.describe()

In [None]:
sns.boxplot(x = rides_go['duration'], color='green')
plt.title('Время, проведенное в поездке')
plt.xlabel('Время, минуты')
_ = plt.xlim(0, 45)

In [None]:
rides_go.duration.median()

Средняя продолжительность поездки среди пользователей 17.6 минут. При это присутсвуют долгие сессии от 30 минут и выше, так и слишком короткие сессии продолжительностью меньше минуты.

## Расстояние, которое пользователь преодолел за одну поездку;

In [None]:
# rides_go.distance.hist(bins=30, figsize=(5,5))
plt.hist(rides_go['distance'], bins=40)
plt.xlabel('Дистанция')
plt.ylabel('Частота')
plt.title('Распределение дистанции сессии')
plt.show()

In [None]:
rides_go.distance.describe()

In [None]:
sns.boxplot(x = rides_go['distance'], color='green')
plt.title('Время, проведенное в поездке')
plt.xlabel('Время, минуты')
_ = plt.xlim(0, 8000)

Средняя дистанция поездки - 3070 метров. При этом существуют как слишком "длинные" поездки до 7000 метров, так и слишком короткие длиною меньше 1000 метров.


# Объединение данных

## Объединение датафреймов

In [None]:
merged_data = users_go.merge(rides_go, on='user_id')
merged_data.head(20)

In [None]:
merged_data.shape

In [None]:
merged_data = merged_data.merge(subscriptions_go, on='subscription_type')
merged_data.head(30)

## Фильтрация датафреймов для пользователей с подпиской и без

In [None]:
ultra_subs_type = merged_data[merged_data['subscription_type'] == 'ultra']
ultra_subs_type.head(10)

In [None]:
free_subs_type = merged_data[merged_data['subscription_type'] == 'free']
free_subs_type.head(10)

## Визуализация распределений

In [None]:
plt.hist(ultra_subs_type['distance'], bins=50, alpha=0.5, label='ultra_subscription', color='orange')
plt.hist(free_subs_type['distance'], bins=50, alpha=0.5, label='free_subscription', color='skyblue')
plt.xlabel('Дистанция')
plt.ylabel('Частота')
plt.title('Распределение дистанций сессии среди ultra и free подписок')
plt.legend()
plt.show()
None

Как можно заметить, распределение частот дистанций среди разных подписок имеет одинаковую форму, за исключением того, что пользователи с бесплатной подпиской имеют больший разброс(дисперсию) данных

In [None]:
plt.hist(ultra_subs_type['duration'], bins=30, alpha=0.5, label='ultra_subscription', color='orange')
plt.hist(free_subs_type['duration'], bins=30, alpha=0.5, label='free_subscription', color='skyblue')
plt.xlabel('Продолжительность')
plt.ylabel('Частота')
plt.title('Распределение продолжительности сессии среди ultra и free подписок')
plt.legend()
None

Продолжительности сессии для обеих типов подписок распределены по нормальному закону, для пользователей с бесплатной подпиской наблюдается бОльшая дисперсия данных.

# Подсчет выручки

## Агрегирование датафрейма

Для подсчета выручки от каждого пользователя по каждому месяцу добавим столбцы 'month' - месяц сессии.

In [None]:
merged_data.head(10)

In [None]:
month_names = {
    1: 'Январь',
    2: 'Февраль',
    3: 'Март',
    4: 'Апрель',
    5: 'Май',
    6: 'Июнь',
    7: 'Июль',
    8: 'Август',
    9: 'Сентябрь',
    10: 'Октябрь',
    11: 'Ноябрь',
    12: 'Декабрь'
}

merged_data['month'] = merged_data['date'].dt.month.map(month_names)

In [None]:
merged_data.head()

In [None]:
merged_data.columns

In [None]:
group_data = pd.pivot_table(merged_data,index=['user_id', 'month'],
                                     values=['distance', 'duration','subscription_type','name'],
                                     aggfunc={'distance': np.sum,
                                              'duration': np.sum,
                                              'name': len,
                                              'subscription_type': 'min'})\
                        .rename(columns={'name': 'amount_of_session', 'distance':'total_distance', 'duration':'total_duration'})

group_data.head(20)

## Добавление столбца с помесячной выручкой по каждому пользователю.

In [None]:
def calculate_monthly_revenue(row):
    
    subscription_type = row['subscription_type']
    
    if subscription_type == 'ultra':
        return (6 * row['total_duration']) + 199  
    
    if subscription_type == 'free':
        return (8 * row['total_duration']) + (row['amount_of_session'] * 50)
    
group_data['monthly_revenue'] = group_data.apply(calculate_monthly_revenue, axis=1)

In [None]:
group_data

На этом этапе работы была проведено агрегирование данных по user_id и месяцу поездок и было посчитано сколько каждый пользователь совершил поездок в отельный месяц. Также было рассчитано какую выручку принес каждый пользователь в отдельные месяцы с учетом его тарифа поездок.

#  Проверка гипотез

Проверим следующие гипотезы

1.  Тратят ли пользователи с подпиской больше времени на поездки?\
2.  Можно ли сказать, что среднее расстояние, которое проезжают пользователи с подпиской за одну поездку, не превышает 3130 метров?
3. Будет ли помесячная выручка от пользователей с подпиской по месяцам выше, чем выручка от пользователей без подписки. 

4. Представьте такую ситуацию: техническая команда сервиса обновила сервера, с которыми взаимодействует мобильное приложение. Она надеется, что из-за этого количество обращений в техподдержку значимо снизилось. Некоторый файл содержит для каждого пользователя данные о количестве обращений до обновления и после него. Какой тест вам понадобился бы для проверки этой гипотезы?

In [None]:
# group_data.groupby('subscription_type')['total_duration'].median()
group_data.pivot_table(index='subscription_type',values='total_duration', aggfunc='median')

In [None]:
free_subs_sample = group_data[group_data['subscription_type'] == 'free']
free_subs_sample

In [None]:
ultra_subs_sample = group_data[group_data['subscription_type'] == 'ultra']
ultra_subs_sample

## Первая гипотеза

Гипотеза H0 - средняя продолжительность поездки для пользователей с подпиской = средней продолжительности для 
пользователей без подписки
Гипотеза H1 - Средняя продолжитлеьность с подпиской выше.


Значение p равное 1 не означает, что нулевая гипотеза (H0) полностью верна; оно лишь говорит о том, что у вас нет статистических доказательств для отвержения H0 на основе имеющихся данных.

In [None]:
alpha = 0.05 # уровень значимости

results = st.ttest_ind(ultra_subs_sample['total_duration'], free_subs_sample['total_duration'] , alternative='greater')
print(f'p-value: {results.pvalue}')

if (results.pvalue < alpha):
    print('Отвергаем нулевую гипотезу')
else:
    print('Не отвергаем нулевую гипотезу') 

Нет статистически значимой разницы. Среднее время пользователей с подпиской не отличается от пользователей без подписки.

## Вторая гипотеза

Проверим вторую гипотезу.\


H0 - среднее расстояние, которое проезжают пользователи с подпиской 3130 метров.\
H1 - среднее расстояние, которое проезжают пользователи с подпиской больше 3130.

In [None]:
alpha = 0.05 # уровень значимости

interested_value = 3130

results = st.ttest_1samp(ultra_subs_sample['total_distance'], interested_value, alternative='greater')
print(f'p-value: {results.pvalue}')

if (results.pvalue < alpha):
    print('Отвергаем нулевую гипотезу')
else:
    print('Не отвергаем нулевую гипотезу') 



Среднее расстояние, которое проезжают пользователи не равно 3130. И, соответсвенно, среднее расстояние среди пользователей с подпиской в среднем выше, чем 3130 метров, и это значит, что пользователь с подпиской также изнашивают самокаты. Большую роль здесь может играть тот факт, что с подпиской стоимость минуты меньше, поэтому пользователи дольше катаются и проезжают большое расстояние.

## Третья гипотеза

Проверим третью гипотезу.\
Н0 - средняя выручка по месяцам у пользователей с подпиской и без равны.\
H1 - средняя выручка по месяцам у пользователей с подпиской выше, чем у пользователей без подписки.


In [None]:
free_subs_sample['monthly_revenue'].mean()

In [None]:
ultra_subs_sample['monthly_revenue'].mean()

In [None]:
alpha = 0.05

results = st.ttest_ind(ultra_subs_sample['monthly_revenue'], free_subs_sample['monthly_revenue'], alternative='greater')

print(f"p-value{results.pvalue}")


if (results.pvalue < alpha):
    print('Отвергаем нулевую гипотезу')
else:
    print('Не отвергаем нулевую гипотезу') 

Отвергаем нулевую гипотезу о том, что средние выручки равны. И исходя из одностороннего теста вправо, можно сказать, что средняя вырчка пользователей с подпиской выше. И эти пользователи выгоднее для компании.

## Четвертая гипотеза

Для гипотезы необходимо провести односторонний тест влево, т.е. H0 - количество обращений до и после ремонта сервера равны, H1 - количество обращений после ремонта меньше, чем до.

# Распределения

##


In [None]:
from scipy.stats import binom

# Заданные параметры
p = 0.1 # вероятность успеха
desired_prob = 0.05 
min_success = 100

N = 1
prob = 0

while prob < desired_prob:
    prob = 1 - binom.cdf(min_success - 1, N, p)
    N += 1

print(f"Минимальное количество промокодов N: {N}")
print(f"Вероятность {prob}")

In [None]:
p = 0.1
desired_prob = 0.05
min_success = 100

N_values = []
prob_values = []

N = 1
prob = 0

while prob < desired_prob:
    prob = 1 - binom.cdf(min_success - 1, N, p)
    N_values.append(N)
    prob_values.append(prob)
    N += 1
    

plt.plot(N_values, prob_values, marker='o', linestyle='-')
plt.xlabel('Количество промокодов (N)')
plt.ylabel('Вероятность не выполнения плана')
plt.title('Зависимость вероятности от количества промокодов')
plt.grid(True)
plt.axhline(desired_prob, color='red', linestyle='--', label=f'Желаемая вероятность ({desired_prob})')
plt.legend()
plt.show()

Нужно разослать минимум 851 промокод для того, чтобы вероятность не выполнить план была примерно 5 %, при условии того, что прописку продлевает 10%  пользователей после бесплатного пробного периода.

## 

In [None]:
n = 1000000  # количество новых посетителей
p = 0.4  # вероятность завести аккаунт
desired_users = 399500

# Рассчитываем параметры нормального распределения
mu = n * p  # математическое ожидание
sigma = sqrt(n * p * (1 - p))  # стандартное отклонение

# Задаем нормальное распределение
distr = st.norm(mu, sigma)

# Находим вероятность, что появится меньше 339.5 тысяч новых аккаунтов
result = distr.cdf(desired_users)  
print("Вероятность того, что не более 399,5 тыс. пользователей откроют уведомление:", result)

При условии того, что будет разослано 1 млн push уведомлений, вероятность того, что пользователи откроют не более 399.5 тыс уведомлений равна 15.3%

# Общий вывод


В рамках исследования были изучены данные популярного сервиса аренды самокатов GoFast.Чтобы совершать поездки по городу, пользователи сервиса GoFast пользуются мобильным приложением.\

Сервисом можно пользоваться:
без подписки\
абонентская плата отсутствует;\
стоимость одной минуты поездки — 8 рублей;\
стоимость старта (начала поездки) — 50 рублей;\

с подпиской Ultra\
абонентская плата — 199 рублей в месяц;\
стоимость одной минуты поездки — 6 рублей;\
стоимость старта — бесплатно.\

**Описание данных**\
В основных данных есть информация о пользователях, их поездках и подписках.

Пользователи — users_go.csv

user_id - уникальный идентификатор пользователя
name - имя пользователя
age - возраст
city - город
subscription_type тип подписки (free, ultra)\

Поездки — rides_go.csv\

user_id - уникальный идентификатор пользователя distance - расстояние, которое пользователь проехал в текущей сессии (в метрах) duration - продолжительность сессии (в минутах) — время с того момента, как пользователь нажал кнопку «Начать поездку» до момента, как он нажал кнопку «Завершить поездку»
date - дата совершения поездки\

Подписки — subscriptions_go.csv
subscription_type - тип подписки
minute_price - стоимость одной минуты поездки по данной подписке
start_ride_price - стоимость начала поездки
subscription_fee - стоимость ежемесячного платежа\

Всего датасет users_go содержит данные о 1534 пользователях из разных городов. Датасет rides_go содержит в себе 18068 записей о поездках пользователей из датасета users_go. Датасет subscription_go содержит данные о тарифах поездок с подпиской и без.

На этапе предобработки данных были обработаны дубликаты в данных, изучены датасеты на предмет пропусков данных, которых не оказалось ни в одном датасете. Также были построены гистограмы для числовых признаков, которые показали, что время и дистанции поездок распределены близко к нормальному закону.

Исследовательский анализ показал:\
1. Самый популярный город - Пятигорск, наименее - Москва.\
2. Пользователей без подписки в процентном соотношении больше(54.4%), чем пользователей с подпиской (45.6%)\
3. Средний возраст пользователя - 25 лет, минимальный - 12, а максимальный - 43 года.\
4. Средняя продолжительность поездки среди пользователей 17.6 минут. При это присутсвуют долгие сессии от 30 минут и выше, так и слишком короткие сессии продолжительностью меньше минуты.\
5. Средняя дистанция поездки - 3070 метров. При этом существуют как слишком "длинные" поездки до 7000 метров, так и слишком короткие длиною меньше 1000 метров.

Также в ходе работы были объеденены с помощью метода merge все три датасате по ключу user_id , а также после этого были сформированы отдельные выборки для пользователей с подпиской и без.

Анализ распределений отдельных выборок показал:\
1. Распределение частот дистанций среди разных подписок имеет одинаковую форму, за исключением того, что пользователи с бесплатной подпиской имеют больший разброс(дисперсию) данных.
2. Продолжительности сессии для обеих типов подписок распределены по нормальному закону, для пользователей с бесплатной подпиской наблюдается бОльшая дисперсия данных.

На следующем этапе работы была проведено агрегирование данных по user_id и месяцу поездок и было посчитано сколько каждый пользователь совершил поездок в отельный месяц. Также было рассчитано какую выручку принес каждый пользователь в отдельные месяцы с учетом его тарифа поездок.

На этапе проверки гипотез были изучены следующие статистические закономерности.

1.  Тратят ли пользователи с подпиской больше времени на поездки?\
2.  Можно ли сказать, что среднее расстояние, которое проезжают пользователи с подпиской за одну поездку, не превышает 3130 метров?
3. Будет ли помесячная выручка от пользователей с подпиской по месяцам выше, чем выручка от пользователей без подписки. 

4. Представьте такую ситуацию: техническая команда сервиса обновила сервера, с которыми взаимодействует мобильное приложение. Она надеется, что из-за этого количество обращений в техподдержку значимо снизилось. Некоторый файл содержит для каждого пользователя данные о количестве обращений до обновления и после него. Какой тест вам понадобился бы для проверки этой гипотезы?

Для первой гипотезы была проверена односторонняя правая гипотеза. **Вывод** - Нет статистически значимой разницы. Среднее время пользователей с подпиской не отличается от пользователей без подписки.


Для второй гипотезы была проверена односторонняя правая гипотеза. **Вывод**- Среднее расстояние, которое проезжают пользователи не равно 3130. И, соответсвенно, среднее расстояние среди пользователей с подпиской в среднем выше, чем 3130 метров, и это значит, что пользователь с подпиской также изнашивают самокаты. Большую роль здесь может играть тот факт, что с подпиской стоимость минуты меньше, поэтому пользователи дольше катаются и проезжают большое расстояние.

Для третьей гипотезы была проведена односторонняя правая гипотеза. **Вывод** - Отвергаем нулевую гипотезу о том, что средние выручки равны. И исходя из одностороннего теста вправо, можно сказать, что средняя вырчка пользователей с подпиской выше. И эти пользователи выгоднее для компании.

Для четвертой гипотезы необходимо провести односторонний тест влево, т.е. H0 - количество обращений до и после ремонта сервера равны, H1 - количество обращений после ремонта меньше, чем до.

Также в ходе работы были изучены распредления и получены следующие ответы для отдела маркетинга:
1. Нужно разослать минимум 851 промокод для того, чтобы вероятность не выполнить план была примерно 5 %, при условии того, что прописку продлевает 10% пользователей после бесплатного пробного периода.
2. При условии того, что будет разослано 1 млн push уведомлений, вероятность того, что пользователи откроют не более 399.5 тыс уведомлений равна 15.3%

Вывод: сервису выгоднее увеличивать количество пользователей с подпиской так как они приносят большую выручку.