# Анализ тарифов телеком провайдера "Нупозвони!"

По результатам внутреннего экспресс-анализа, проведенного некоторое время назад отделом по работе с клиентами телеком провайдера "Нупозвони!", было высказана гипотеза, что достаточно большое количество клиентов провайдера (юридические лица - колл-центры) подключаются к неоптимальному тарифу и недостаточно точно оценивают потребности своего бизнеса. В последствии это может вызвать ооток клиентов из-за их неудовлетворенности и бОлших расходов, чем они предполагали при подключениии к услугам.

**Цель исследования**:

Необходимо провести исследователькую и аналитическую работу по анализу клиентов, их тарифов, сведений о об использовании услуг виртуальной телефонии провайдера с целью выявления:

- клиентов, которые переплачивают на своем текущем тарифе,
- клиентов, которые могут сэкономить, если перейдут на более дорогой тариф, 
- дальнейшей выгод от смены тарифа, 
- выработки предложений по переходу каждого клиента на более выгодный и оптимальный тариф, 
- изучения возможного оттока клиентов.

**Задачи исследования**:

- исследовательский анализ данных
- определение расходов клиентов в зависимости от тарифа
- определение клиентов, для которых оптимальный тариф не совпадает с текущим
- определить изменение в выручке для клиентов, кто поменяет свой тариф на более оптимальный
 
По результатам анализа необходимо разработать рекомендации о переходе отельных клиентов на более оптимальный тариф, а также проверить 2 дополнительных статистических гипотезы.

**Формат результатов и отчетных материалов**:

1) Отчет о проведении исследования с описанием шагов, проведенных работ, результатами и общими выводами в формате тетрадки JupiterNotebook

2) Итоговая презентация с результатами исследования

3) Интерактивный дашборд

**Источник данных**:

1) Данные о клиентах, дате их подключения и тарифах https://?????????????????/datasets//telecom_clients.csv

2) Данные о пользовании услугами вирутальной телефонии https://??????????????/datasets/telecom_dataset.csv




## Обзор данных

Предварительно посмотрим на данные, представленные для анализа

In [1]:
import pandas as pd

In [2]:
try:
    clients = pd.read_csv('/datasets//telecom_clients.csv')
    dataset = pd.read_csv('/datasets/telecom_dataset.csv')
except:
    clients = pd.read_csv('https://??????????????/datasets/telecom_clients.csv')
    dataset = pd.read_csv('https://????????????/datasets/telecom_dataset.csv')

In [3]:
clients.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 732 entries, 0 to 731
Data columns (total 3 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   user_id      732 non-null    int64 
 1   tariff_plan  732 non-null    object
 2   date_start   732 non-null    object
dtypes: int64(1), object(2)
memory usage: 17.3+ KB


In [4]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 53902 entries, 0 to 53901
Data columns (total 9 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   user_id              53902 non-null  int64  
 1   date                 53902 non-null  object 
 2   direction            53902 non-null  object 
 3   internal             53785 non-null  object 
 4   operator_id          45730 non-null  float64
 5   is_missed_call       53902 non-null  bool   
 6   calls_count          53902 non-null  int64  
 7   call_duration        53902 non-null  int64  
 8   total_call_duration  53902 non-null  int64  
dtypes: bool(1), float64(1), int64(4), object(3)
memory usage: 3.3+ MB


In [5]:
clients.head()

Unnamed: 0,user_id,tariff_plan,date_start
0,166713,A,2019-08-15
1,166901,A,2019-08-23
2,168527,A,2019-10-29
3,167097,A,2019-09-01
4,168193,A,2019-10-16


In [10]:
clients.sort_values(by='date_start')

Unnamed: 0,user_id,tariff_plan,date_start
382,166387,C,2019-08-01
350,166396,C,2019-08-01
458,166375,C,2019-08-01
301,166397,C,2019-08-01
455,166399,C,2019-08-01
...,...,...,...
10,168573,A,2019-10-31
134,168601,C,2019-10-31
675,168578,B,2019-10-31
131,168575,C,2019-10-31


In [6]:
dataset.head()

Unnamed: 0,user_id,date,direction,internal,operator_id,is_missed_call,calls_count,call_duration,total_call_duration
0,166377,2019-08-04 00:00:00+03:00,in,False,,True,2,0,4
1,166377,2019-08-05 00:00:00+03:00,out,True,880022.0,True,3,0,5
2,166377,2019-08-05 00:00:00+03:00,out,True,880020.0,True,1,0,1
3,166377,2019-08-05 00:00:00+03:00,out,True,880020.0,False,1,10,18
4,166377,2019-08-05 00:00:00+03:00,out,False,880022.0,True,3,0,25


In [11]:
dataset.sort_values(by='date')

Unnamed: 0,user_id,date,direction,internal,operator_id,is_missed_call,calls_count,call_duration,total_call_duration
591,166392,2019-08-02 00:00:00+03:00,in,False,,True,1,0,2
1765,166406,2019-08-02 00:00:00+03:00,out,False,879896.0,True,8,0,139
1764,166406,2019-08-02 00:00:00+03:00,in,False,,True,1,0,4
1763,166406,2019-08-02 00:00:00+03:00,out,False,879898.0,True,4,0,53
1768,166406,2019-08-02 00:00:00+03:00,out,False,879896.0,False,3,7,110
...,...,...,...,...,...,...,...,...,...
49881,168225,2019-11-28 00:00:00+03:00,out,True,970244.0,False,1,7,12
49880,168225,2019-11-28 00:00:00+03:00,out,False,970252.0,False,2,141,188
49879,168225,2019-11-28 00:00:00+03:00,out,False,970254.0,True,4,0,149
49893,168225,2019-11-28 00:00:00+03:00,in,False,970252.0,False,1,4,29


In [9]:
dataset.query('operator_id.isna()')

Unnamed: 0,user_id,date,direction,internal,operator_id,is_missed_call,calls_count,call_duration,total_call_duration
0,166377,2019-08-04 00:00:00+03:00,in,False,,True,2,0,4
7,166377,2019-08-05 00:00:00+03:00,in,False,,True,6,0,35
9,166377,2019-08-06 00:00:00+03:00,in,False,,True,4,0,62
17,166377,2019-08-07 00:00:00+03:00,in,False,,True,2,0,24
27,166377,2019-08-12 00:00:00+03:00,in,False,,True,2,0,34
...,...,...,...,...,...,...,...,...,...
53876,168601,2019-11-27 00:00:00+03:00,in,False,,True,2,0,39
53880,168601,2019-11-28 00:00:00+03:00,in,False,,True,1,0,19
53889,168603,2019-11-28 00:00:00+03:00,in,False,,True,1,0,30
53893,168606,2019-11-08 00:00:00+03:00,in,False,,True,6,0,121


На первый взгляд с данными нет особых проблем. Данные представлены за период с 01.08.2019 по 19.11.2019 гг.

Судя по структуре данных, типам атрибутов, на этапе предобработки необходима:

1) замена типов атрибутов с датами, типа id оператора (тип float, но скорее всего int), типа атрибута internal (тип object, но скорее всего bool)

2) выявление причин 8172 пропуска в атрибуте operator_id. а также принятие решения об их замене

## Декомпозиция задач

 Для осуществления поставленной будут выполнены следующие работы (этапы, шаги работ):
 
**Этап 1. Исследовательский анализ данных**:

**1.1 Предобработка данных:**

    1) выгрузка данных и проверка корректности выгрузки;

    2) проверка типов данных, замена типов данных для дальнейшей корректной обработки и анализа:

     - приведение формата атрибутов date_start, date к типу даты;
     - приведение формата id_operator к типу int;
     - приведение формата internal к типу bool или оставление в виде категориальной переменной;

    3) проверка дубликатов в данных, явных и неявных, выявление причин появления дубликатов, принятие решения о замене/удалении дуликатов;

    4) проверка наличия пропусков в данных, выявление причин появления дубликатов, принятие решения о замене/удалении дубликатов.

    5) определение единиц измерения количественных атрибутов, приянтие решения о переводе одних ед. измерения в другие, в т.ч. с помощью добавления новых расчетных атрибутов
 
*На данном этапе также целесообразно обратиться с запросом к руководителю проекта и коллегам для подтверждения гипотез о появлении дубликатов, пропусков в данных, и принятия конечного решения о дальнейших манипуляциях с подобными атрибутами. Возможно, на этапе выгрузки данных из БД произошла ошибка, был составлен некорректный запрос и есть возможность выгрзуить более корректные данные*
 
**1.2 Выявлеение взаимосвязей и аномалий в данных**: 
 
    1) анализ распределений и взаимных коореляций между данными в т.ч. в графическом виде;
 
    2) выявление аномалий.
 
**1.3 Добавление и расчет новых метрик, необходимых для дальнейшего анализа**. По имеющейся информации у заказчика есть отдельная таблица соответствия тарифного плана и условий в рамках тарифных планов, на основании которых существует возможность расчитать расхды каждого клиента на услуги провайдера за рассматриваемый период.
 
 **1.4 EDA**
 
Перед проведением непосредственно 
 
На этапе анализа данных будут построены все необходимые аналитические таблицы, графики, диаграммы, распеределения данных для выявления:
 
    1) основных характеристик предоставляемых услуг (событий-звонков) в различных разрезах - длительности (общей, ожидания), времени совершения вызова, направлений, операторов, клиентов, тарифов;
 
    2) типовых профилей клиентов, операторов, параметров тарифов (т.е. распеределение отдельных характеристик в рамках тарифа);
 
    3) расчета расходов и затрат клиентов на пользование улугами провайдера;
 
    4) расчета типовых расходов клиентов на отдельных тарифах;
 
    5) расчет средних значений расходов клиентов на услуги в разрезе месяцев, тарифов, звонков, операторов и пр.
 
    6) расчет прогнозных значений расходов на новых тарифов с учетом ретроспективных данных о пользовании услугами;
 
    7) расчет "экономической" эффективности от смены тарифа;
 
    8) выявление активных и неактивных клиентов, в т.ч. по количеству вызовов, длительности, объеме потребляемых услуг;
 
    9) общих распределений тарифов и наборов услуг по всем клиентам;
 
    10) общей картины изменения в выборе тарифных планов и расчет влияния на доход провайдера.
 
В результате исследовательского анализа данных будут опеределены клиенты, которые переплачивают на своем текущем тарифе, а также клиенты, которые могут сэкономить, если перейдут на более дорогой тариф,
 
Дополнительно по согласованию с заказчиком и руководителем проекта будет проведена оценка возможности расчета дополнительны параметров для каждого клиента с учетом некоторых предположений и допущений, а именно кол-ва необходимых операторов для одного клиента на основании данных о продолжительности и кол-ве звонков. Целесообразно для дополнительных расчетов использовать формулу Эрланга и соответствующую методику расчета.
 
**1.5 Разработка рекомендаций для клиентов по переходу на новые тариф** в т.ч. детального перечня клиент-тариф, на который целесообразно перейти для сокращения дальнейшиз издержек, в особенности для активных клиентов
 
**Этап 2. Проверка статистических гипотез**
 
На данном этапе будет проведена проверка ряда статистических гипотез, например:
 
    1) проверка различий средних характеристик активных и неактивных пользователей, например:

    - средняя длительность внутренних/внешних звонков активных и неактивных пользователей разная
    - средние расходы активных/неактивных пользователей разная
 
    2) проверка различий средних характеристик в разрезе тарифов, в т.ч. расходов клиентов:

    - средняя продолжительность внутренних/внешних звонков клиентов на тарифах А и Б (А и В, Б и В) одинаковая
    - средние расходы клиентов на разных тарифах одинаковая
    - средние расходы на звонки при превышении лимита на разных тарифах различные
    - средние расходы на операторов на разных тарифах одинаковые

    3) проверка различий между характеристиками до и после перехода на новые тарифные планы:

    - средняя продолжительность звонков при перехде на новые тарифы увеличится
    - средниие расходы при переходе на новые тарифы не изменятся
    - доход провайдера при переходе клиентов на новые тарифы увеличатся
 
Для осуществления данной задачи будет:
 
    1) проведена предварительная проверка данных на нормальность
 
    2) отобран критерий для проведения теста или набор критериев для перепроверки с учетом нормальности распеределения, равнозначности выборок и пр.
 
**Этап 3. Подготовка отчетных материалов**
 
После выполнения всех расчетов и исследовательского анализа данных для нужд заказчика будет подготвлен подробный отчет, в т.ч.:
 
    1) Отчет о выполненной работе в формате тетрадки JupiterNotebook,  содержащей подробную информацию и сведения, полученные на этапах 1-2 настоящей работы
 
    2) Презентация для заказчика, содержащее общее описание исследования и основные выводы и результаты 
 
    3) Интерактивный дашборд, содержащий визуализацию результатов анализа в т.ч. основные характеристики потребляемых услуг в различных разрезах в абсолютных и относительных значениях, информацию о расчетных значениях расходов клинетов и доходе провайдера и т.д.


**Полный перечень этапов, направлений исследовательского анализа, характеристик, гипотез для анализа и перечня отчетных материалов, в т.ч. их содержания, будет согласован с заказчиком на каждом этапе выполнения работ**
 
 
 