<a href="https://colab.research.google.com/github/jenyadev3/Telecom-customer-base-segmentation/blob/main/vkr_telecom.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Сегментация клиентской базы телекоммуникационной компании

**Аналитическая задача** — провести анализ данных с целью выделения наиболее типичных групп клиентов и разработки предложений для каждой из групп.

## Описание данных
Каждый клиент описывается следующим набором признаков:
- `Возраст`, `Среднемесячный расход`, `Средняя продолжительность разговоров`, `Звонков днем за месяц`, `Звонков вечером за месяц`, `Звонков ночью за месяц`, `Звонки в другие города`, `Звонки в другие страны`, `Доля звонков на стационарные телефоны`, `Количество SMS за месяц`, `Дата подключения тарифа`.

## Примерный план по выполнению проекта

**Шаг 1.** Загрузка данных;

**Шаг 2.** Первичная обработка данных (при необходимости):
- скорректировать заголовки;
- скорректировать типы признаков;
- проверить наличие дублирующихся записей;
- проверить наличие аномальных значений;
- восстановить пропущенные значения;

**Шаг 3.** Добавление новых переменных:
- по значениям признака `Возраст` введите новую переменную `Возрастная категория`, принимающую значения "студент", "аспирант", "бизнесмен" и "знаток" по следующую правилу:

$$
\text{Возрастная категория} =
\left\{
\begin{array}{l}
\text{студент,} \quad \text{если Возраст } \in [19, 24];\\  
\text{аспирант,} \quad \text{если Возраст } \in [25, 33];\\
\text{бизнесмен,} \quad \text{если Возраст } \in [34, 56];\\
\text{знаток,} \quad \text{если Возраст } \in [57, 70].
\end{array}
\right.
$$

- по значениям признака `Дата подключения тарифа` создайте признаки: `Год подключения`, `Месяц подключения`, `Дата подключения`;  

**Шаг 3.** Провести исследовательский анализ данных:
- в разрезе значений признаков `Год подключения`, `Месяц подключения`, `Дата подключения` исследуйте:
    - динамику подключения к тарифам (количество клиентов). Постройте графики. В какой год, месяц и день подключались меньше/больше всего клиентов? Какие выводы можно сделать?
- в разрезе значений признака `Возрастная категория` исследуйте распределение признаков `Среднемесячный расход`, `Средняя продолжительность разговоров`, `Звонков днем за месяц`, `Звонков вечером за месяц`, `Звонков ночью за месяц`, `Звонки в другие города`, `Доля звонков на стационарные телефоны`, `Количество SMS за месяц`. Для каждого из признаков рассчитайте выборочное среднее, медиану и моду. Постройте графики. Какие выводы можно сделать о предпочтениях клиентов разных возрастных категорий в отношении используемых услуг (звонков и SMS; времени суток);
- клиенты каких возрастных категорий (ТОП-2):
  
    - больше всего в среднем в месяц тратят на оплату услуг связи;
    - больше всего тратят времени на общение в месяц днем, вечером и ночью;
    - больше всего по количеству звонков в месяц днем, вечером и ночью. Совпадают ли результаты с предыдущем пунктом;

- с помощью диаграмм рассеивания исследуейте зависимости между признаками `Среднемесячный расход`, `Средняя продолжительность разговоров`, `Звонков днем за месяц`, `Звонков вечером за месяц`, `Звонков ночью за месяц`, `Звонки в другие города`, `Доля звонков на стационарные телефоны`, `Количество SMS за месяц`. Какие выводы можно сделать?

**1. Загрузка данных**

In [None]:
import pandas as pd
import numpy as np
df = pd.read_csv("/content/dataset_telecom.csv")

In [None]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4492 entries, 0 to 4491
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   Возраст                                4492 non-null   int64  
 1   Среднемесячный расход                  4468 non-null   float64
 2   Средняя продолжительность разговоров   4475 non-null   float64
 3   Звонков днем за месяц                  4472 non-null   float64
 4   Звонков вечером за месяц               4489 non-null   float64
 5   Звонков ночью за месяц                 4492 non-null   object 
 6   Звонки в другие города                 4492 non-null   object 
 7   Звонки в другие страны                 4492 non-null   int64  
 8   Доля звонков на стационарные телефоны  4492 non-null   object 
 9   Количество SMS за месяц                4492 non-null   object 
 10  Дата подключения тарифа                4492 non-null   object 
dtypes: f

In [None]:
df.describe()

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонки в другие страны
count,4492.0,4468.0,4475.0,4472.0,4489.0,4492.0
mean,41.894924,505.533577,4.230827,63.899374,70.363778,0.394034
std,13.077254,646.354693,3.00521,62.877394,41.219909,1.17198
min,19.0,3.18,0.1,1.0,1.0,0.0
25%,31.0,152.49,2.1,37.0,42.0,0.0
50%,43.0,315.51,3.3,53.0,71.0,0.0
75%,52.0,599.84,5.9,68.0,98.0,0.0
max,70.0,5142.76,20.0,500.0,160.0,12.0


Первичный осмотр выявил, что в дата фрейме всего 10 столбцов и 4492 записей. В некоторых столбцах не хватает данных. Также требуется смена типов у некоторых столбцов.
Это был первичный анализ, обработки будут в следующих шагах.

**Шаг 2. Первичная обработка данных**

*Скорректировать типы признаков*

In [None]:
df.info() #смотрю какие типы признаков вообще

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4492 entries, 0 to 4491
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   Возраст                                4492 non-null   int64  
 1   Среднемесячный расход                  4468 non-null   float64
 2   Средняя продолжительность разговоров   4475 non-null   float64
 3   Звонков днем за месяц                  4472 non-null   float64
 4   Звонков вечером за месяц               4489 non-null   float64
 5   Звонков ночью за месяц                 4492 non-null   object 
 6   Звонки в другие города                 4492 non-null   object 
 7   Звонки в другие страны                 4492 non-null   int64  
 8   Доля звонков на стационарные телефоны  4492 non-null   object 
 9   Количество SMS за месяц                4492 non-null   object 
 10  Дата подключения тарифа                4492 non-null   object 
dtypes: f

In [None]:
#перевожу время из object
df["Дата подключения тарифа"] = pd.to_datetime(df["Дата подключения тарифа"],errors = "coerce")

In [None]:
#перевела из object в числа
cols = ["Звонков ночью за месяц","Звонки в другие города","Доля звонков на стационарные телефоны","Количество SMS за месяц"]
for c in cols:
    df[c] = pd.to_numeric(df[c], errors="coerce")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4492 entries, 0 to 4491
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype         
---  ------                                 --------------  -----         
 0   Возраст                                4492 non-null   int64         
 1   Среднемесячный расход                  4468 non-null   float64       
 2   Средняя продолжительность разговоров   4475 non-null   float64       
 3   Звонков днем за месяц                  4472 non-null   float64       
 4   Звонков вечером за месяц               4489 non-null   float64       
 5   Звонков ночью за месяц                 4491 non-null   float64       
 6   Звонки в другие города                 4490 non-null   float64       
 7   Звонки в другие страны                 4492 non-null   int64         
 8   Доля звонков на стационарные телефоны  4491 non-null   float64       
 9   Количество SMS за месяц                4491 non-null   float64 

*Проверить наличие дублирующихся записей*

In [None]:
df.duplicated().sum() #показывает ноль, значит дубликатов нет

np.int64(0)

*Проверить наличие аномальных значений*

*Отрицательные значения*

In [None]:
#вычисляем то что реально числовые колонки

num_cols = df.select_dtypes(include=[np.number]).columns
num_cols


Index(['Возраст', 'Среднемесячный расход',
       'Средняя продолжительность разговоров', 'Звонков днем за месяц',
       'Звонков вечером за месяц', 'Звонков ночью за месяц',
       'Звонки в другие города', 'Звонки в другие страны',
       'Доля звонков на стационарные телефоны', 'Количество SMS за месяц'],
      dtype='object')

In [None]:
(df[num_cols] < 0).any().any()

np.False_

*Максимальные и минимальные значение*

In [None]:
df.describe()

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонков ночью за месяц,Звонки в другие города,Звонки в другие страны,Доля звонков на стационарные телефоны,Количество SMS за месяц,Дата подключения тарифа
count,4492.0,4468.0,4475.0,4472.0,4489.0,4491.0,4490.0,4492.0,4491.0,4491.0,4492
mean,41.894924,505.533577,4.230827,63.899374,70.363778,6.27299,8.658575,0.394034,10.333556,21.24538,2018-07-10 01:04:50.785841664
min,19.0,3.18,0.1,1.0,1.0,0.0,0.0,0.0,0.0,0.0,2015-01-01 15:48:33
25%,31.0,152.49,2.1,37.0,42.0,0.0,0.0,0.0,3.0,3.0,2016-10-21 08:23:49.500000
50%,43.0,315.51,3.3,53.0,71.0,1.0,2.0,0.0,8.0,6.0,2018-06-21 16:56:24.500000
75%,52.0,599.84,5.9,68.0,98.0,5.0,12.0,0.0,16.0,32.0,2020-04-04 18:48:26.750000128
max,70.0,5142.76,20.0,500.0,160.0,110.0,88.0,12.0,60.0,179.0,2021-12-31 14:12:11
std,13.077254,646.354693,3.00521,62.877394,41.219909,14.714668,13.477005,1.17198,9.222882,27.914631,


*Восстановить пропущенные значения*

In [None]:
df.isna().any()

Unnamed: 0,0
Возраст,False
Среднемесячный расход,True
Средняя продолжительность разговоров,True
Звонков днем за месяц,True
Звонков вечером за месяц,True
Звонков ночью за месяц,True
Звонки в другие города,True
Звонки в другие страны,False
Доля звонков на стационарные телефоны,True
Количество SMS за месяц,True


In [None]:
df.fillna(0)

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонков ночью за месяц,Звонки в другие города,Звонки в другие страны,Доля звонков на стационарные телефоны,Количество SMS за месяц,Дата подключения тарифа
0,24,0.00,2.4,12.0,65.0,5.0,0.0,0,5.0,56.0,2018-06-17 12:14:35
1,51,287.51,1.7,111.0,109.0,1.0,44.0,0,6.0,1.0,2021-10-21 15:39:54
2,41,113.70,2.1,41.0,27.0,0.0,0.0,0,1.0,36.0,2015-03-26 11:26:15
3,35,410.23,5.6,47.0,49.0,0.0,0.0,0,11.0,23.0,2016-01-04 15:53:20
4,26,537.60,4.8,58.0,77.0,4.0,0.0,0,16.0,29.0,2017-05-03 13:33:53
...,...,...,...,...,...,...,...,...,...,...,...
4487,40,186.20,3.7,36.0,28.0,2.0,6.0,0,12.0,30.0,2021-04-10 14:58:23
4488,40,500.68,6.0,46.0,66.0,0.0,6.0,0,15.0,23.0,2021-09-22 14:52:43
4489,60,470.42,3.5,58.0,129.0,2.0,4.0,0,19.0,5.0,2019-04-04 17:33:38
4490,38,858.99,9.3,50.0,74.0,0.0,0.0,0,28.0,69.0,2015-12-30 16:28:26


In [None]:
df.corr()

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонков ночью за месяц,Звонки в другие города,Звонки в другие страны,Доля звонков на стационарные телефоны,Количество SMS за месяц,Дата подключения тарифа
Возраст,1.0,-0.015482,-0.045908,-0.011976,-0.192496,-0.267727,0.028714,0.024974,0.120523,-0.592415,-0.003979
Среднемесячный расход,-0.015482,1.0,0.830043,0.843385,0.421987,0.392874,0.334365,0.381036,0.357391,0.090872,-0.017723
Средняя продолжительность разговоров,-0.045908,0.830043,1.0,0.516141,0.321616,0.39731,0.26053,0.23047,0.239661,0.183775,-0.031687
Звонков днем за месяц,-0.011976,0.843385,0.516141,1.0,0.314136,0.317474,0.369247,0.441975,0.418755,0.028308,-0.010504
Звонков вечером за месяц,-0.192496,0.421987,0.321616,0.314136,1.0,0.285896,0.198853,0.117303,0.200196,0.23501,-0.038597
Звонков ночью за месяц,-0.267727,0.392874,0.39731,0.317474,0.285896,1.0,0.142602,0.125934,-0.015182,0.510988,-0.006133
Звонки в другие города,0.028714,0.334365,0.26053,0.369247,0.198853,0.142602,1.0,0.198942,0.256626,0.018246,-0.018482
Звонки в другие страны,0.024974,0.381036,0.23047,0.441975,0.117303,0.125934,0.198942,1.0,0.237335,-0.033221,0.007003
Доля звонков на стационарные телефоны,0.120523,0.357391,0.239661,0.418755,0.200196,-0.015182,0.256626,0.237335,1.0,-0.12294,-0.009427
Количество SMS за месяц,-0.592415,0.090872,0.183775,0.028308,0.23501,0.510988,0.018246,-0.033221,-0.12294,1.0,-0.021785


**Шаг 3. Провести исследовательский анализ данных:**

В разрезе значений признаков Год подключения, Месяц подключения, Дата подключения будет рассмотренна:
в разрезе значений признаков Год подключения, Месяц подключения, Дата
подключения исследуйте:

динамику подключения к тарифам (количество клиентов).
Постройте графики.
В какой год, месяц и день подключались меньше/больше всего клиентов? Какие выводы можно сделать?
в разрезе значений признака
*динамика подключения к тарифам (количество клиентов)*

In [None]:
df_sorted = df.sort_values(by='Возраст', ascending=False)
df_sorted

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонков ночью за месяц,Звонки в другие города,Звонки в другие страны,Доля звонков на стационарные телефоны,Количество SMS за месяц,Дата подключения тарифа
2158,70,34.68,1.7,5.0,12.0,0.0,0.0,0,9.0,1.0,2020-04-26 18:49:20
421,70,37.44,1.3,18.0,6.0,0.0,0.0,0,4.0,3.0,2019-06-11 12:34:50
585,70,15.96,1.9,5.0,2.0,0.0,0.0,0,5.0,3.0,2020-07-26 11:22:40
409,70,62.64,,21.0,8.0,0.0,0.0,0,1.0,1.0,2021-06-12 10:09:39
3775,70,17.28,1.6,7.0,2.0,0.0,0.0,0,12.0,0.0,2021-02-08 11:41:53
...,...,...,...,...,...,...,...,...,...,...,...
4463,19,82.94,1.2,32.0,74.0,5.0,2.0,0,14.0,25.0,2018-03-23 10:37:57
4455,19,149.15,2.1,44.0,63.0,9.0,0.0,0,0.0,22.0,2019-02-12 10:54:40
3850,19,552.47,5.9,44.0,103.0,0.0,0.0,0,5.0,56.0,2018-10-26 14:34:19
3876,19,20.73,0.3,39.0,68.0,3.0,0.0,0,4.0,14.0,2021-09-07 15:22:07


In [None]:
df["Дата подключения тарифа"].value_counts()
df["Год"] = df["Дата подключения тарифа"].dt.year
df["Месяц"] = df["Дата подключения тарифа"].dt.month
df["День"] = df["Дата подключения тарифа"].dt.day
df.head(20)


Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонков ночью за месяц,Звонки в другие города,Звонки в другие страны,Доля звонков на стационарные телефоны,Количество SMS за месяц,Дата подключения тарифа,Год,Месяц,День
0,24,,2.4,12.0,65.0,5.0,0.0,0,5.0,56.0,2018-06-17 12:14:35,2018,6,17
1,51,287.51,1.7,111.0,109.0,1.0,44.0,0,6.0,1.0,2021-10-21 15:39:54,2021,10,21
2,41,113.7,2.1,41.0,27.0,0.0,0.0,0,1.0,36.0,2015-03-26 11:26:15,2015,3,26
3,35,410.23,5.6,47.0,49.0,0.0,0.0,0,11.0,23.0,2016-01-04 15:53:20,2016,1,4
4,26,537.6,4.8,58.0,77.0,4.0,0.0,0,16.0,29.0,2017-05-03 13:33:53,2017,5,3
5,26,324.56,3.3,45.0,75.0,3.0,1.0,1,8.0,15.0,2016-11-13 15:53:16,2016,11,13
6,50,410.04,4.1,61.0,71.0,0.0,0.0,2,23.0,4.0,2017-07-19 16:02:01,2017,7,19
7,66,14.52,1.1,10.0,1.0,0.0,0.0,0,3.0,1.0,2015-04-27 15:25:42,2015,4,27
8,36,209.12,2.5,34.0,70.0,3.0,2.0,0,7.0,63.0,2017-03-03 12:27:05,2017,3,3
9,40,162.4,1.6,79.0,32.0,4.0,0.0,0,18.0,27.0,2019-05-22 10:22:37,2019,5,22


клиенты каких возрастных категорий (ТОП-2):

больше всего в среднем в месяц тратят на оплату услуг связи;
больше всего тратят времени на общение в месяц днем, вечером и ночью;
больше всего по количеству звонков в месяц днем, вечером и ночью. Совпадают ли результаты с предыдущем пунктом;
с помощью диаграмм рассеивания исследуейте зависимости между признаками Среднемесячный расход, Средняя продолжительность разговоров, Звонков днем за месяц, Звонков вечером за месяц, Звонков ночью за месяц, Звонки в другие города, Доля звонков на стационарные телефоны, Количество SMS за месяц. Какие выводы можно сделать?