# Определение перспективного тарифа для телеком-компании

  В телеком компании предлагается два тарифных плана "Смарт" и "Ультра". Для корректировки рекламного бюджета коммерческим департаментом, необходимо понять, какой тариф приносит больше денег.

Необходимо проанализировать тарифы на небольшой выборке поведение клиентов и сделать вывод - какой тариф лучше.

**Цель исследования** - проверка гипотез:
* средняя выручка пользователей тарифов "Ультра" и "Смарт" различаются;
* средняя выручка пользователей из Москвы отличается от выручки пользователей из других регионов.

Также необходимо пояснить:
* как формулировали нулевую и альтернативную гипотезы;
* какой критерий использовали для проверки гипотез и почему.

**Ход исследования**
1. Открытие файлов с данными и изучение общей информации.
2. Подготовка данных.
3. Проанализировать данные:
    * Определить сколько разговора, сообщений и объема трафика требуется пользователям каждого тарифа в месяц;
    * Определить среднее количество, дисперсию и стандартное отклонение;
    * Построить гистограммы;
    * Описать распределения.
4. Проверить гипотезы:
    * средняя выручка пользователей тарифов "Ультра" и "Смарт" различаются;
    * средняя выручка пользователей из Москвы отличается от выручки пользователей из других регионов;
    * пояснить формулировку нулевой и альтернативной гипотез;
    * пояснить какой критерий был использован для проверки гипотез.
5. Написть общий вывод.

<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Открытие-файла-с-данными-и-изучение-общей-информации" data-toc-modified-id="Открытие-файла-с-данными-и-изучение-общей-информации-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Открытие файла с данными и изучение общей информации</a></span></li><li><span><a href="#Подготовка-данных" data-toc-modified-id="Подготовка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Подготовка данных</a></span><ul class="toc-item"><li><span><a href="#Приведем-данные-к-нужным-типам" data-toc-modified-id="Приведем-данные-к-нужным-типам-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Приведем данные к нужным типам</a></span></li><li><span><a href="#Устранение-ошибок-в-данных" data-toc-modified-id="Устранение-ошибок-в-данных-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Устранение ошибок в данных</a></span></li><li><span><a href="#Расчет-необходимых-показателей" data-toc-modified-id="Расчет-необходимых-показателей-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Расчет необходимых показателей</a></span></li></ul></li><li><span><a href="#Анализ-данных" data-toc-modified-id="Анализ-данных-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Анализ данных</a></span><ul class="toc-item"><li><span><a href="#Описание-поведения-клиентов" data-toc-modified-id="Описание-поведения-клиентов-3.1"><span class="toc-item-num">3.1&nbsp;&nbsp;</span>Описание поведения клиентов</a></span></li></ul></li><li><span><a href="#Проверка-гипотез" data-toc-modified-id="Проверка-гипотез-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>Проверка гипотез</a></span></li><li><span><a href="#Общий-вывод" data-toc-modified-id="Общий-вывод-5"><span class="toc-item-num">5&nbsp;&nbsp;</span>Общий вывод</a></span></li></ul></div>

## Открытие файла с данными и изучение общей информации

Импортируем необходимые для работы библиотеки и откроем файлы с данными.

In [1]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from scipy import stats as st

Прочитаем предоставленные файлы и посмотрим данные в них.

In [2]:
calls = pd.read_csv('/datasets/calls.csv')
internet = pd.read_csv('/datasets/internet.csv', index_col=0)
messages = pd.read_csv('/datasets/messages.csv')
tariffs = pd.read_csv('/datasets/tariffs.csv')
users = pd.read_csv('/datasets/users.csv')

FileNotFoundError: [Errno 2] No such file or directory: '/datasets/calls.csv'

In [None]:
calls.info()
display(calls.head())
calls['duration'].describe()

In [None]:
internet.info()
display(internet.head())
internet['mb_used'].describe()

In [None]:
messages.info()
display(messages.head())

In [None]:
tariffs.info()
display(tariffs.head())

In [None]:
users.info()
display(users.head())

In [None]:
display(calls.duplicated().sum())
display(internet.duplicated().sum())
display(messages.duplicated().sum())
display(tariffs.duplicated().sum())
display(users.duplicated().sum())

**Вывод**

На первый взгляд видно, что:
* в данных даты записаны как текст, вероятно это происходит на этапе чтения CSV таблицы.
* необходимо данные по звонкам и трафику в интернете привести к виду, по которому идет тарификация. Нв данный момент, предположу, что данные таблицы учитывают фактическое потребление, а тарификация происходит на другой части бэкэнда.

Первый тип ошибки устраним применив метод `.to_datetime()` к столбцу и преобразуем в дату. Второй - добавим соответствующие столбцы в таблицы с верным округлением для тарификации.

## Подготовка данных

### Приведем данные к нужным типам

Приведем данные к нужным типам по замечаниям в предыдушем выводе.

In [None]:
calls['call_date'] = pd.to_datetime(calls['call_date'], format='%Y-%m-%d')

In [None]:
internet['session_date'] = pd.to_datetime(internet['session_date'], format='%Y-%m-%d')

In [None]:
messages['message_date'] = pd.to_datetime(messages['message_date'], format='%Y-%m-%d')

In [None]:
users['churn_date'] = pd.to_datetime(users['churn_date'], format='%Y-%m-%d')

In [None]:
users['reg_date'] = pd.to_datetime(users['reg_date'], format='%Y-%m-%d')

### Устранение ошибок в данных

В соответсвии с тарифом округлим длительность звонка до минут в большую сторону.

In [None]:
calls['tariff_duration'] = np.ceil(calls['duration'])
calls['tariff_duration'] = calls['tariff_duration'].astype('int64')
display(calls.head())
calls.info()

В таблицах с длительностью звонков и интернет трафиком есть нулевые значения. Изучим их отдельно. Для этого создадим таблицу с количеством пользователей за 2018 год, таблицу с количеством нулевых интернет-сессий и таблицу с количеством звонков с нулевой длительностью. После этого построим три графика в обних координатных осях: количество пользователей, нулевых интернет-сессий и звонков с нулевой длительностью.

In [None]:
# Найдем количество пользователей

users_profit = users.sort_values('reg_date').groupby('reg_date')['user_id'].count()
users_decrease = users.sort_values('churn_date').groupby('churn_date')['user_id'].count()
user_count = pd.DataFrame({'profit': users_profit, 'decrease': users_decrease})
user_count['decrease'] = user_count['decrease'].fillna(0)
user_count['profit'] = user_count['profit'].fillna(0)
user_count['count'] = (user_count['profit'] - user_count['decrease'])
counter = 0
for index in user_count.index:
    counter += user_count.loc[index, 'count']
    user_count.loc[index, 'count'] = counter

# Найдем объем интернет трафика

internet_count_zero = (
    internet
    .query('mb_used == 0')
    .sort_values('session_date')
    .pivot_table(
        index='session_date', 
        values='mb_used',
        aggfunc='count')
)


# Найдем количество звонков

calls_count_zero = (
    calls
    .query('duration == 0')
    .sort_values('call_date')
    .pivot_table(
        index='call_date', 
        values='duration',
        aggfunc='count')
) 

# Начинаем строить графики
fig, ax = plt.subplots()

plt.plot(
    user_count['count'],
    label='Количество пользователей',
)

plt.plot(
    internet_count_zero,
    label='Количество нулевых интернет-сессий',
)

plt.plot(
    calls_count_zero,
    label='Количество звонков с нулевой длительностью',
)
fig.set_figwidth(12)
fig.set_figheight(6)
fig.suptitle('График нулевых интернет-сессий и звонков', fontsize = 15)

ax.grid()
ax.set_xlabel('Дата')
ax.set_ylabel('Количество, (чел., шт.)')

plt.legend()
plt.show()

**Вывод** 

По графику видно, количество нулевых интернет-сессий и звонков с нулевой длительностью растет пропорционально количеству пользователей. можно предположить, что звонок с нулевой длительностью - это пользователи не смогли дозвониться до абонента, то нулевые интернет-сессии, на мой взгляд - это технические проблемы и их следует удалить.

In [None]:
internet = internet.query('mb_used != 0')
internet.query('mb_used == 0').count()

Для веб-трафика определим общий объем за месяц и округлим его до гигабайт в большую сторону.

In [None]:
internet['month'] = internet['session_date'].dt.to_period('M')
internet_pivot = internet.pivot_table(
    index=['user_id', 'month'],
    values='mb_used',
    aggfunc='sum'
).reset_index()
internet_pivot['gb_used'] = np.ceil(internet_pivot['mb_used'] / 1024)
internet_pivot['gb_used'].astype('int64')

display(internet_pivot.head())

### Расчет необходимых показателей

Определим для каждого пользователя количество сделанных звонков и израсходованных минут разговора по месяцам.

In [None]:
calls['month'] = calls['call_date'].dt.to_period('M')
calls_pivot = calls.pivot_table(
    index=['user_id', 'month'],
    values='tariff_duration',
    aggfunc='sum'
).reset_index()
display(calls_pivot.head())

Определим для каждого пользователя количество сообщений по месяцам.

In [None]:
messages['month'] = messages['message_date'].dt.to_period('M')
messages_pivot = messages.pivot_table(
    index=['user_id', 'month'],
    values='id',
    aggfunc='count'
).reset_index()
messages_pivot.columns = ['user_id', 'month', 'messages']
display(messages_pivot.head())

Объеденим все необходимые данные для дальнейшей работы в одну таблицу.

In [None]:
data = calls_pivot.merge(messages_pivot, on=['user_id', 'month'], how='outer')
data = data.merge(internet_pivot, on=['user_id', 'month'], how='outer')
data = data.merge(users, on='user_id', how='outer')
data = data.rename(columns={'tariff':'tariff_name'})
data = data.merge(tariffs, on='tariff_name', how='outer')
display(data)

Для определения помесячной выручки с каждого пользователя объявим функцию, которая будет возвращать разницу между бесплатным лимитом и суммарным количеством звонков, сообщений и интернет-трафика, помноженную на значение из тарифного плана; после этого найдет сумму с абонентской платой, соответствующую тарифному плану).

In [None]:
data.info()

В таблице присутствуют пропуски. Обработаем их. 

Для начала посмотрим на два пропуска в столбце месяц.

In [None]:
display(data[data['month'].isna()])

Очень подозрательные строки - почти все данные отсутствуют. Удалим эти строки.

In [None]:
data = data.dropna(subset=['month'])
data['tariff_duration'] = data['tariff_duration'].fillna(0)
data['messages'] = data['messages'].fillna(0)
data['mb_used'] = data['mb_used'].fillna(0)
data['gb_used'] = data['gb_used'].fillna(0)
data.info()

В столбце с длительностью столбца, количество сообщений, использованных гигабайтов и дату прекращения пользования тарифом оставим без изменений. Вписать "0" в столбец со звонком, смс, или трафиком нельзя, так как это тарификационный объем за месяц, а пропуск значит, что этих данных нет. отсутствие даты прекращения пользования тарифом заменить также не чем.

In [None]:
def revenue(row):
    
    # Длительность звонков
    duration_calls = row['tariff_duration'] 
    
    # Количество сообщений
    messages = row['messages']
    
    # Количество трафика
    gb_used = row['gb_used']    
    
    # Ежемесячная абонентская плата в рублях
    rub_monthly_fee = row['rub_monthly_fee']
    
    # Количество минут разговора в месяц, включённых в абонентскую плату
    minutes_included = row['minutes_included']
    
    # Количество сообщений в месяц, включённых в абонентскую плату
    messages_included = row['messages_included']
    
    # Объём интернет-трафика, включённого в абонентскую плату (в гигабайтах)
    gb_per_month_included = (row['mb_per_month_included'] / 1024)
    
    # Cтоимость минуты разговора сверх тарифного пакета 
    # (например, если в тарифе 100 минут разговора в месяц, 
    # то со 101 минуты будет взиматься плата)
    rub_per_minute = row['rub_per_minute']
    
    # Cтоимость отправки сообщения сверх тарифного пакета
    rub_per_message = row['rub_per_message']
    
    # Cтоимость дополнительного гигабайта интернет-трафика 
    # сверх тарифного пакета (1 гигабайт = 1024 мегабайта)
    rub_per_gb = row['rub_per_gb']
    
    monthly_revenue_user = 0
    
    if duration_calls > minutes_included:
        monthly_revenue_user += (duration_calls - minutes_included) * rub_per_minute
    if messages > messages_included:
        monthly_revenue_user += (messages - messages_included) * rub_per_message
    if gb_used > gb_per_month_included:
        monthly_revenue_user += (gb_used - gb_per_month_included) * rub_per_gb
    monthly_revenue_user += rub_monthly_fee
    return monthly_revenue_user

row_columns = [
    'tariff_duration', 
    'messages', 
    'gb_used', 
    'rub_monthly_fee', 
    'minutes_included',
    'messages_included',
    'mb_per_month_included',
    'rub_per_minute',
    'rub_per_message',
    'rub_per_gb'
] 

row_values = [
    3001,
    1001,
    31,
    1950,
    3000,
    1000,
    30720,
    1,
    1,
    150
]

row = pd.Series(data=row_values, index=row_columns)
display(row)
revenue(row)

Применим нашу функцию и найдем выручку по каждому месяцу

In [None]:
data['revenue'] = data.apply(revenue, axis=1)
data['revenue'].describe()

In [None]:
data

In [None]:
data = data.drop(
    columns=[
        'mb_used', 
        'age', 
        'churn_date', 
        'first_name', 
        'last_name', 
        'reg_date',
        'messages_included', 
        'mb_per_month_included',
        'minutes_included', 
        'rub_monthly_fee', 
        'rub_per_gb', 
        'rub_per_message',
        'rub_per_minute'], 
    axis=1
)
data['revenue'] = data['revenue'].astype('int64')

In [None]:
data.info()

## Анализ данных

### Описание поведения клиентов

Опишем поведение клиентов оператора, исходя из выборки. Сколько минут разговора, сколько сообщений и какой объём интернет-трафика требуется пользователям каждого тарифа в месяц? Определим среднее количество, дисперсию и стандартное отклонение. Построим гистограммы. Опишем распределения.

In [None]:
# Для удобства восприятия переименуем столбцы.
data.columns=['user_id', 'month', 'calls', 'messages', 'internet', 'city','tariff', 'revenue']
display(data)

In [None]:
data_pivot = data.pivot_table(
    index='tariff',
    values=['calls', 'messages', 'internet'],
    aggfunc=['mean', 'var', 'std']
)
data_pivot

In [None]:
fig, ax = plt.subplots()

plt.hist(
    [
        data[data['tariff'] == 'smart']['calls'], 
    ], 
    density=True,
    label='smart',
    alpha=0.5
)

plt.hist(
    [
        data[data['tariff'] == 'ultra']['calls'], 
    ], 
    density=True,
    label='ultra',
    alpha=0.5
)

fig.set_figwidth(9)
fig.set_figheight(6)
fig.suptitle('Гистограмма количества звонков в месяц', fontsize = 15)

ax.set_xlabel('Продолжительность звонков в месяц, мин.')
ax.set_ylabel('Плотность частоты')

plt.legend()
plt.show()

По данной гистограмме видно что пользователи тарифа Смарт стараются вписаться в лимит 500 минут разговоров в месяц и редко выходят за его рамки. У пользователей тарифа Ультра потребление минут несколько шире, но и лимит гораздо больше.

In [None]:
fig, ax = plt.subplots()

plt.hist(
    [
        data[data['tariff'] == 'smart']['messages'], 
    ], 
    density=True,
    label='smart',
    alpha=0.5
)

plt.hist(
    [
        data[data['tariff'] == 'ultra']['messages'], 
    ], 
    density=True,
    label='ultra',
    alpha=0.5
)

fig.set_figwidth(9)
fig.set_figheight(6)
fig.suptitle('Гистограмма количества сообщений в месяц', fontsize = 15)

ax.set_xlabel('Количество сообщений в месяц, шт.')
ax.set_ylabel('Плотность частоты')

plt.legend()
plt.show()

Количество сообщений нахиться на пике в диапазоне от 0 до 30 в месяц на обоих тарифах. Это может говорить о непопулярности смс в современном мире и перетечению пользователей в мир мессенджеров.

In [None]:
fig, ax = plt.subplots()

plt.hist(
    [
        data[data['tariff'] == 'smart']['internet'], 
    ], 
    density=True,
    label='smart',
    alpha=0.5
)

plt.hist(
    [
        data[data['tariff'] == 'ultra']['internet'], 
    ], 
    density=True,
    label='ultra',
    alpha=0.5
)


fig.set_figwidth(9)
fig.set_figheight(6)
fig.suptitle('Гистограмма объема интернет трафика в месяц', fontsize = 15)

ax.set_xlabel('Объем интернет трафика в месяц, Гб')
ax.set_ylabel('Плотность частоты')

plt.legend()
plt.show()

Интернет трафик характеризуется пиком в районе 10 - 20 Гб в месяц для обоих тарифов. Значит можно сделать вывод, что всем пользователям, вне зависимости от тарифа, необходимо 10 - 20 Гб в месяц.

## Проверка гипотез

Проверим гипотезу о равенстве средней выручке пользователей тарифов «Ультра» и «Смарт». Альтернативная гипотеза говорит о их различии. Для повышения точности примем уровень статистической значимости 1%.

In [None]:
ultra = data[data['tariff'] == 'ultra']['revenue']
smart = data[data['tariff'] == 'smart']['revenue']
alpha = .01 # критический уровень статистической значимости
# если p-value окажется меньше него - отвегнем гипотезу

results = st.ttest_ind(
    ultra, 
    smart,
    equal_var = False
)

print('p-значение: ', results.pvalue)

if results.pvalue < alpha:
    print("Отвергаем нулевую гипотезу")
else:
    print("Не получилось отвергнуть нулевую гипотезу") 

In [None]:
revenue_smart = data[data['tariff'] == 'smart']['revenue'].mean()
revenue_ultra= data[data['tariff'] == 'ultra']['revenue'].mean()

display(
    'Средняя выручка тарифа Смарт в месяц:', revenue_smart, 
    'Средняя выручка тарифа Ультра в месяц:', revenue_ultra,
)

Проверим гипотезу, что средняя выручка пользователей из Москвы равна выручке пользователей из других регионов. Альтернативная говорит о их различии.

In [None]:
revenue_region = data[data['city'] != 'Москва']['revenue']
revenue_moscow = data[data['city'] == 'Москва']['revenue']
alpha = .01 # критический уровень статистической значимости
# если p-value окажется меньше него - отвегнем гипотезу

results = st.ttest_ind(
    revenue_moscow, 
    revenue_region,
    equal_var = False
)

print('p-значение: ', results.pvalue)

if results.pvalue < alpha:
    print("Отвергаем нулевую гипотезу")
else:
    print("Не получилось отвергнуть нулевую гипотезу") 

## Общий вывод

Из проведенного исследования следует, что судя по средней выручке, коммерческому департаменту следует скорректировать рекламный бюджет в сторону тарифа "Ультра". Но в тоже время мы видим, что средняя разница между выручкой и ежемесячной платой по тарифу "Смарт" выше, поэтому, вероятно следует пересмотреть условия тарификации, так как клиенты на этом тарифе чаще превышает предусмотренный лимит. Так как гипотеза о выручке равенстве средней выручке в Москве и регионах подтвердилась, то на Мсокву не стоит делать отдельного акцента.