## Проект: Анализ тарифов сотовой связи

### Описание проекта
Вы аналитик компании «Мегалайн» — федерального оператора сотовой связи. Клиентам предлагают два тарифных плана: «Смарт» и «Ультра». Чтобы скорректировать рекламный бюджет, коммерческий департамент хочет понять, какой тариф приносит больше денег.
Вам предстоит сделать предварительный анализ тарифов на небольшой выборке клиентов. В вашем распоряжении данные 500 пользователей «Мегалайна»: кто они, откуда, каким тарифом пользуются, сколько звонков и сообщений каждый отправил за 2018-й год. Нужно проанализировать поведение клиентов и сделать вывод — какой тариф лучше.

#### Описание тарифов
Тариф «Смарт»
1.	Ежемесячная плата: 550 рублей
2.	Включено 500 минут разговора, 50 сообщений и 15 Гб интернет-трафика
3.	Стоимость услуг сверх тарифного пакета: 
o	Минута разговора — 3 рубля. Количество использованных минут и мегабайтов «Мегалайн» всегда округляет вверх. Если пользователь проговорил всего 1 секунду, в тарифе засчитывается целая минута.
o	Сообщение — 3 рубля.
o	1 Гб интернет-трафика — 200 рублей.

Тариф «Ультра»
1.	Ежемесячная плата: 1950 рублей
2.	Включено 3000 минут разговора, 1000 сообщений и 30 Гб интернет-трафика
3.	Стоимость услуг сверх тарифного пакета: 
o	Минута разговора — 1 рубль;
o	Сообщение — 1 рубль;
o	1 Гб интернет-трафика: 150 рублей.


In [None]:
# импорт необходимых библиотек
import pandas as pd
import matplotlib.pyplot as plt
from scipy import stats as st
import numpy as np
import seaborn as sns

### Шаг 1. Изучение общей информации о данных.

In [None]:
# имформацию о звонках сохранил в переменной calls
try:
    calls = pd.read_csv(r"D:\DOCS\datasets\анализ тарифов сотовой связи Практикум/calls.csv")
except FileNotFoundError:
    calls = pd.read_csv('/datasets/calls.csv')

In [None]:
#  вывел первые 5 строк датафрейма calls
calls.head(5)

Таблица calls — информация о звонках:
* id — уникальный номер звонка
* call_date — дата звонка
* duration — длительность звонка в минутах
* user_id — идентификатор пользователя, сделавшего звонок

In [None]:
# вывел основную информацию для датафрейма calls
calls.info()

In [None]:
# вывел гистограмму для столбца с продолжительностью звонков.
calls['duration'].hist()
plt.xlabel('Длительность звонков')
plt.ylabel('Количество пользователей')
plt.title('Оценка длительности звонков пользователей');

In [None]:
# имформацию об интернет- сеесиях сохранил в переменной sessions
try:
    sessions = pd.read_csv(r"D:\DOCS\datasets\анализ тарифов сотовой связи Практикум/internet.csv")
except FileNotFoundError:
    sessions = pd.read_csv('/datasets/internet.csv')

In [None]:
#  вывел первые 5 стрк датафрейма sessions
sessions.head(5)

Таблица internet — информация об интернет-сессиях:
* id — уникальный номер сессии
* mb_used — объём потраченного за сессию интернет-трафика (в мегабайтах)
* session_date — дата интернет-сессии
* user_id — идентификатор пользователя


In [None]:
# вывел основную информацию для датафрейма sessions
sessions.info()

In [None]:
sessions['mb_used'].hist()
plt.xlabel('Объем потраченного трафика')
plt.ylabel('Количество пользователей')
plt.title('Оценка потрачченного трафика за интернет сессию');

In [None]:
# имформацию о сообщениях сохранил в переменной messages
try:
    messages = pd.read_csv(r"D:\DOCS\datasets\анализ тарифов сотовой связи Практикум/messages.csv")
except FileNotFoundError:
    messages  = pd.read_csv('/datasets/messages.csv')

In [None]:
# вывел первые 5 строк датафрейма messages
messages.head(5)

Таблица messages — информация о сообщениях:
* id — уникальный номер звонка
* message_date — дата сообщения
* user_id — идентификатор пользователя, отправившего сообщение

In [None]:
# вывел основную информацию для датафрейма messages
messages.info()

In [None]:
# имформацию о тарифах сохранил в переменной tariffs
try:
    tariffs = pd.read_csv(r"D:\DOCS\datasets\анализ тарифов сотовой связи Практикум/tariffs.csv")
except FileNotFoundError:
    tariffs  = pd.read_csv('/datasets/tariffs.csv')

In [None]:
# вывел весь датафрейм tariffs.
tariffs

Таблица tariffs — информация о тарифах:
* tariff_name — название тарифа
* rub_monthly_fee — ежемесячная абонентская плата в рублях
* minutes_included — количество минут разговора в месяц, включённых в абонентскую плату
* messages_included — количество сообщений в месяц, включённых в абонентскую плату
* mb_per_month_included — объём интернет-трафика, включённого в абонентскую плату (в мегабайтах)
* rub_per_minute — стоимость минуты разговора сверх тарифного пакета (например, если в тарифе 100 минут разговора в месяц, то со 101 минуты будет взиматься плата)
* rub_per_message — стоимость отправки сообщения сверх тарифного пакета
* rub_per_gb — стоимость дополнительного гигабайта интернет-трафика сверх тарифного пакета (1 гигабайт = 1024 мегабайта)

In [None]:
# вывел основную информацию для датафрейма tariffs
tariffs.info()

In [None]:
# имформацию о пользователях сохранил в переменной users
try:
    users = pd.read_csv(r"D:\DOCS\datasets\анализ тарифов сотовой связи Практикум/users.csv")
except FileNotFoundError:
    users  = pd.read_csv('/datasets/users.csv')

In [None]:
# вывел первые 5 строк датафрейма users
users.head(5)

Таблица users — информация о пользователях:
* user_id — уникальный идентификатор пользователя
* first_name — имя пользователя
* last_name — фамилия пользователя
* age — возраст пользователя (годы)
* reg_date — дата подключения тарифа (день, месяц, год)
* churn_date — дата прекращения пользования тарифом (если значение пропущено, значит, тариф ещё действовал на момент выгрузки данных)
* city — город проживания пользователя
* tarif — название тарифного плана

In [None]:
# вывел основную информацию для датафрейма users
users.info()

### Шаг 2.  Подготовка данных

In [None]:
# привел столбцы с датой и временем к другому типу
users['reg_date'] = pd.to_datetime(users['reg_date'],format='%Y-%m-%d') 
users['churn_date'] = pd.to_datetime(users['churn_date'],format='%Y-%m-%d') 
calls['call_date'] = pd.to_datetime(calls['call_date'],format='%Y-%m-%d') 
messages['message_date'] = pd.to_datetime(messages['message_date'],format='%Y-%m-%d') 
sessions['session_date'] = pd.to_datetime(sessions['session_date'],format='%Y-%m-%d')

In [None]:
# вывел описание столбца продолжительности звонков
calls['duration'].describe()

В данных выявлены звонки с нулевой продолжительностью. Это не ошибка: нулями обозначены пропущенные звонки, поэтому их не нужно удалять.


In [None]:
# округлил значений столбца duration и привел тип к int
calls['duration'] = np.ceil(calls['duration']).astype('int')

In [None]:
# удалил столбец Unnamed: 0 из датафрейма sessions
sessions = sessions.drop(['Unnamed: 0'], axis=1)

In [None]:
# создал столбец month в датафрейме calls с номером месяца из столбца call_date
calls['month'] = calls['call_date'].dt.month

In [None]:
# cоздал столбец month в датафрейме messages с номером месяца из столбца message_date.
messages['month'] = messages['message_date'].dt.month

In [None]:
# cоздал столбец month в датафрейме sessions с номером месяца из столбца session_date
sessions['month'] = sessions['session_date'].dt.month

In [None]:
# подсчитал количества звонков для каждого пользователя по месяцам
calls_per_month = calls.groupby(['user_id','month']).agg(calls=('duration','count'))

In [None]:
# вывод 30 первых строк на экран
calls_per_month.head(30)

In [None]:
# подсчёт израсходованных минут для каждого пользователя по месяцам
minutes_per_month = calls.groupby(['user_id','month']).agg(minutes=('duration','sum'))

In [None]:
# вывод первых 30 строк на экран
minutes_per_month.head(30)

In [None]:
# подсчёт количества отправленных сообщений для каждого пользователя по месяцам
messages_per_month = messages.groupby(['user_id','month']).agg(messages=('message_date','count'))

In [None]:
# вывод первых 30 строк на экран
messages_per_month.head(30)

In [None]:
# подсчёт потраченных мегабайт для каждого пользователя по месяцам
sessions_per_month = sessions.groupby(['user_id','month']).agg({'mb_used':'sum'})

In [None]:
# вывод первых 30 строк на экран
sessions_per_month.head(30)

### Шаг 3.  Анализ данных и подсчёт выручки

In [None]:
print('Процент расторгнувших договор клиентов составляет:', users['churn_date'].count() / users['churn_date'].shape[0] * 100)

In [None]:
# объединил все посчитанные выше значения в один датафрейм user_behavior
user_behavior = calls_per_month\
    .merge(messages_per_month, left_index=True, right_index=True, how='outer')\
    .merge(sessions_per_month, left_index=True, right_index=True, how='outer')\
    .merge(minutes_per_month, left_index=True, right_index=True, how='outer')\
    .reset_index()\
    .merge(users, how='left', left_on='user_id', right_on='user_id')\

user_behavior.head()

In [None]:
# проверил количество пропусков в полученном датафрейме
user_behavior.isna().sum()

In [None]:
# заполнил пропуски 0
user_behavior['calls'] = user_behavior['calls'].fillna(0)
user_behavior['minutes'] = user_behavior['minutes'].fillna(0)
user_behavior['messages'] = user_behavior['messages'].fillna(0)
user_behavior['mb_used'] = user_behavior['mb_used'].fillna(0)

In [None]:
# переименование столбца tariff_name на более простое tariff
tariffs = tariffs.rename(columns={'tariff_name': 'tariff'})

In [None]:
# добавил столбец tariffs к датафрейму user_behavior
user_behavior = user_behavior.merge(tariffs, on='tariff')

In [None]:
# посчитал количество минут разговора, сообщений и мегабайт, превышающих включенные в тариф
user_behavior['paid_minutes'] = user_behavior['minutes'] - user_behavior['minutes_included']
user_behavior['paid_messages'] = user_behavior['messages'] - user_behavior['messages_included']
user_behavior['paid_mb'] = user_behavior['mb_used'] - user_behavior['mb_per_month_included']

for col in ['paid_messages', 'paid_minutes', 'paid_mb']:
    user_behavior.loc[user_behavior[col] < 0, col] = 0

In [None]:
# перевел превышающие тариф мегабайты в гигабайты и сохранил в столбец paid_gb
user_behavior['paid_gb'] = np.ceil(user_behavior['paid_mb'] / 1024).astype(int)

In [None]:
# посчитал выручку за минуты разговора, сообщения и интернет
user_behavior['cost_minutes'] = user_behavior['paid_minutes'] * user_behavior['rub_per_minute']
user_behavior['cost_messages'] = user_behavior['paid_messages'] * user_behavior['rub_per_message']
user_behavior['cost_gb'] = user_behavior['paid_gb'] * user_behavior['rub_per_gb']

In [None]:
# посчитал помесячную выручку с каждого пользователя, она будет храниться в столбец total_cost
user_behavior['total_cost'] = \
      user_behavior['rub_monthly_fee']\
    + user_behavior['cost_minutes']\
    + user_behavior['cost_messages']\
    + user_behavior['cost_gb']

In [None]:
# датафрейм stats_df для каждой пары "месяц-тариф" будет хранить основные характеристики

stats_df = user_behavior.pivot_table(
            index=['month', 'tariff'],\
            values=['calls', 'minutes', 'messages', 'mb_used'],\
            aggfunc=['mean', 'std', 'median']\
).round(2).reset_index()

stats_df.columns=['month', 'tariff', 'calls_mean', 'sessions_mean', 'messages_mean', 'minutes_mean',
                                     'calls_std',  'sessions_std', 'messages_std', 'minutes_std', 
                                     'calls_median', 'sessions_median', 'messages_median',  'minutes_median']

stats_df.head(10)

In [None]:
# распределение среднего количества звонков по видам тарифов и месяцам
ax = sns.barplot(x='month',
            y='calls_mean',
            hue="tariff",
            data=stats_df,
            palette=['lightblue', 'blue'])
ax.set_title('Распределение количества звонков по видам тарифов и месяцам')
ax.set(xlabel='Номер месяца', ylabel='Среднее количество звонков')
sns.set(rc={'figure.figsize':(8,5)});

In [None]:
# cравнение cредней количества звонков среди пользователей тарифов Smart и Ultra
user_behavior.groupby('tariff')['calls'].plot(kind='hist', bins=35, alpha=0.5)
plt.legend(['Smart', 'Ultra'])
plt.xlabel('Количество звонков')
plt.ylabel('Количество клиентов')
plt.show()

In [None]:
# распределение средней продолжительности звонков по видам тарифов и месяцам
ax = sns.barplot(x='month',
            y='minutes_mean',
            hue="tariff",
            data=stats_df,
            palette=['lightblue', 'blue'])
ax.set_title('Распределение продолжительности звонков по видам тарифов и месяцам')
ax.set(xlabel='Номер месяца', ylabel='Средняя продолжительность звонков');

In [None]:
# cравнение cредней длительности разговоров среди пользователей тарифов Smart и Ultra
user_behavior.groupby('tariff')['minutes'].plot(kind='hist', bins=35, alpha=0.5)
plt.legend(['Smart', 'Ultra'])
plt.xlabel('Количество клиентов')
plt.ylabel('Продолжительность звонков в минутах')
plt.title('Cравнение cредней длительности разговоров среди пользователей тарифов Smart и Ultra')
plt.show()

#### Средняя длительность разговоров у абонентов тарифа Ultra больше, чем у абонентов тарифа Smart. В течение года пользователи обоих тарифов увеличивают среднюю продолжительность своих разговоров. Рост средней длительности разговоров у абонентов тарифа Smart равномерный в течение года. Пользователи тарифа Ultra не проявляют подобной линейной стабильности. Стоит отметить, что феврале у абонентов обоих тарифных планов наблюдались самые низкие показатели.

In [None]:
# распределение среднего количества сообщений по видам тарифов и месяцам
ax = sns.barplot(x='month',
            y='messages_mean',
            hue="tariff",
            data=stats_df,
            palette=['lightblue', 'blue']
)
ax.set_title('Распределение количества сообщений по видам тарифов и месяцам')
ax.set(xlabel='Номер месяца', ylabel='Среднее количество сообщений');

In [None]:
# cравнение количества сообщений среди пользователей тарифов Smart и Ultra
user_behavior.groupby('tariff')['messages'].plot(kind='hist', bins=35, alpha=0.5)
plt.legend(['Smart', 'Ultra'])
plt.xlabel('Количество клиентов')
plt.ylabel('Количество сообщений')
plt.title('Cравнение количества сообщений среди пользователей тарифов Smart и Ultra')
plt.show()

#### В среднем количество сообщений пользователи тарифа Ultra отправляют больше - почти на 20 сообщений больше, чем пользователи тарифа Smart. Количество сообщений в течение года на обоих тарифак растет. Динамика по отправке сообщений схожа с тенденциями по длительности разговоров: в феврале отмечено наименьшее количество сообщений за год и пользователи тарифа Ultra также проявляют нелинейную положительную динамику.

In [None]:
# распределение количества потраченного трафика (Мб) по видам тарифов и месяцам
ax = sns.barplot(x='month',
            y='sessions_mean',
            hue="tariff",
            data=stats_df,
            palette=['lightblue', 'blue']
)
ax.set_title('Распределение количества потраченного трафика (Мб) по видам тарифов и месяцам')
ax.set(xlabel='Номер месяца', ylabel='Среднее количество мегабайт');

In [None]:
# cравнение потраченных мегабайт среди пользователей тарифов Smart и Ultra
user_behavior.groupby('tariff')['mb_used'].plot(kind='hist', bins=35, alpha=0.5)
plt.legend(['Smart', 'Ultra'])
plt.xlabel('Потраченные мегабайты')
plt.ylabel('Количество клиентов')
plt.title('Cравнение потраченных мегабайт среди пользователей тарифов Smart и Ultra')
plt.show()

#### Меньше всего пользователи использовали интернет в январе, феврале и апреле. Чаще всего абоненты тарифа Smart тратят 15-17 Гб, а абоненты тарифного плана Ultra - 19-21 ГБ.

### Шаг 4.  Проверка гипотез

#### Проверка гипотезы: средняя выручка пользователей тарифов «Ультра» и «Смарт» различаются

#### Формулирование гипотез:
* H_0: Выручка (total_cost) пользователей "Ультра" = выручка (total_cost) пользователей "Смарт"`
* H_a: Выручка (total_cost) пользователей "Ультра" ≠ выручка (total_cost) пользователей "Смарт"`
* alpha = 0.05

In [None]:
smart = user_behavior[user_behavior['tariff']=='smart']['total_cost']
ultra = user_behavior[user_behavior['tariff']=='ultra']['total_cost']

# results = вызов метода для проверки гипотезы
results = st.ttest_ind(smart,ultra,equal_var=False)

# alpha = задайте значение уровня значимости
alpha = 0.05

# вывод значения p-value на экран 
print(results.pvalue)

# условный оператор с выводом строки с ответом
if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу ')
else:
    print('Не получилось отвергнуть нулевую гипотезу ')

#### Проверка гипотезы: пользователи из Москвы приносят больше выручки, чем пользователи из других городов

#### Формулирование гипотез:
* H_0: Выручка (total_cost) пользователей из Москвы = выручка (total_cost) пользователей не из Москвы`
* H_1: Выручка (total_cost) пользователей из Москвы ≠ выручка (total_cost) пользователей не из Москвы`
* alpha = 0.05

In [None]:
# results = вызов метода для проверки гипотезы
results = st.ttest_ind(
    user_behavior[user_behavior['city']=='Москва']['total_cost'], 
    user_behavior[user_behavior['city']!='Москва']['total_cost'])

# alpha = задайте значение уровня значимости
alpha = 0.05

# вывод значения p-value на экран 
print(results.pvalue)

# условный оператор с выводом строки с ответом
if results.pvalue < alpha:
    print('Отвергаем нулевую гипотезу')
else:
    print('Не получилось отвергнуть нулевую гипотезу')

### Общий вывод
* Средняя длительность разговоров у абонентов тарифа Ultra больше, чем у абонентов тарифа Smart. В течение года пользователи обоих тарифов увеличивают среднюю продолжительность своих разговоров. Рост средней длительности разговоров у абонентов тарифа Smart равномерный в течение года. Пользователи тарифа Ultra не проявляют подобной линейной стабильности. Стоит отметить, что феврале у абонентов обоих тарифных планов наблюдались самые низкие показатели.
* В среднем количество сообщений пользователи тарифа Ultra отправляют больше - почти на 20 сообщений больше, чем пользователи тарифа Smart. Количество сообщений в течение года на обоих тарифак растет. Динамика по отправке сообщений схожа с тенденциями по длительности разговоров: в феврале отмечено наименьшее количество сообщений за год и пользователи тарифа Ultra также проявляют нелинейную положительную динамику.
* Меньше всего пользователи использовали интернет в январе, феврале и апреле. Чаще всего абоненты тарифа Smart тратят 15-17 Гб, а абоненты тарифного плана Ultra - 19-21 ГБ.

* При проверке гипотезы о равенстве средней выручки пользователей тарифов «Ультра» и «Смарт» - с количестве выручки найдены существенные расличия. Средняя выручка пользователей тарифа «Ультра» НЕ РАВНА средней выручке пользователей тарифа «Смарт».
* При проверке гипотезы о превышении количества выручки, приходящей от пользователей Москвы, над выручкой, приходящей от пользователей из других городов. В выручке между пользователями из Москвы и польльзователями из других городов не выявлено значимых различий. Выручка, приходящая от пользователей из Москвы РАВНА выручке, приходящей от пользователей из других городов.