<a href="https://colab.research.google.com/github/jenyadev3/Telecom-customer-base-segmentation/blob/main/vkr_telecom.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Сегментация клиентской базы телекоммуникационной компании

**Аналитическая задача** — провести анализ данных с целью выделения наиболее типичных групп клиентов и разработки предложений для каждой из групп.

## Описание данных
Каждый клиент описывается следующим набором признаков:
- `Возраст`, `Среднемесячный расход`, `Средняя продолжительность разговоров`, `Звонков днем за месяц`, `Звонков вечером за месяц`, `Звонков ночью за месяц`, `Звонки в другие города`, `Звонки в другие страны`, `Доля звонков на стационарные телефоны`, `Количество SMS за месяц`, `Дата подключения тарифа`.

## Примерный план по выполнению проекта

**Шаг 1.** Загрузка данных;

**Шаг 2.** Первичная обработка данных (при необходимости):
- скорректировать заголовки;
- скорректировать типы признаков;
- проверить наличие дублирующихся записей;
- проверить наличие аномальных значений;
- восстановить пропущенные значения;

**Шаг 3.** Добавление новых переменных:
- по значениям признака `Возраст` введите новую переменную `Возрастная категория`, принимающую значения "студент", "аспирант", "бизнесмен" и "знаток" по следующую правилу:

$$
\text{Возрастная категория} =
\left\{
\begin{array}{l}
\text{студент,} \quad \text{если Возраст } \in [19, 24];\\  
\text{аспирант,} \quad \text{если Возраст } \in [25, 33];\\
\text{бизнесмен,} \quad \text{если Возраст } \in [34, 56];\\
\text{знаток,} \quad \text{если Возраст } \in [57, 70].
\end{array}
\right.
$$

- по значениям признака `Дата подключения тарифа` создайте признаки: `Год подключения`, `Месяц подключения`, `Дата подключения`;  

**Шаг 3.** Провести исследовательский анализ данных:
- в разрезе значений признаков `Год подключения`, `Месяц подключения`, `Дата подключения` исследуйте:
    - динамику подключения к тарифам (количество клиентов). Постройте графики. В какой год, месяц и день подключались меньше/больше всего клиентов? Какие выводы можно сделать?
- в разрезе значений признака `Возрастная категория` исследуйте распределение признаков `Среднемесячный расход`, `Средняя продолжительность разговоров`, `Звонков днем за месяц`, `Звонков вечером за месяц`, `Звонков ночью за месяц`, `Звонки в другие города`, `Доля звонков на стационарные телефоны`, `Количество SMS за месяц`. Для каждого из признаков рассчитайте выборочное среднее, медиану и моду. Постройте графики. Какие выводы можно сделать о предпочтениях клиентов разных возрастных категорий в отношении используемых услуг (звонков и SMS; времени суток);
- клиенты каких возрастных категорий (ТОП-2):
  
    - больше всего в среднем в месяц тратят на оплату услуг связи;
    - больше всего тратят времени на общение в месяц днем, вечером и ночью;
    - больше всего по количеству звонков в месяц днем, вечером и ночью. Совпадают ли результаты с предыдущем пунктом;

- с помощью диаграмм рассеивания исследуейте зависимости между признаками `Среднемесячный расход`, `Средняя продолжительность разговоров`, `Звонков днем за месяц`, `Звонков вечером за месяц`, `Звонков ночью за месяц`, `Звонки в другие города`, `Доля звонков на стационарные телефоны`, `Количество SMS за месяц`. Какие выводы можно сделать?

**1. Загрузка данных**

In [1]:
import pandas as pd
import numpy as np
df = pd.read_csv("/content/dataset_telecom.csv")

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4492 entries, 0 to 4491
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   Возраст                                4492 non-null   int64  
 1   Среднемесячный расход                  4468 non-null   float64
 2   Средняя продолжительность разговоров   4475 non-null   float64
 3   Звонков днем за месяц                  4472 non-null   float64
 4   Звонков вечером за месяц               4489 non-null   float64
 5   Звонков ночью за месяц                 4492 non-null   object 
 6   Звонки в другие города                 4492 non-null   object 
 7   Звонки в другие страны                 4492 non-null   int64  
 8   Доля звонков на стационарные телефоны  4492 non-null   object 
 9   Количество SMS за месяц                4492 non-null   object 
 10  Дата подключения тарифа                4492 non-null   object 
dtypes: f

In [3]:
df.describe()

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонки в другие страны
count,4492.0,4468.0,4475.0,4472.0,4489.0,4492.0
mean,41.894924,505.533577,4.230827,63.899374,70.363778,0.394034
std,13.077254,646.354693,3.00521,62.877394,41.219909,1.17198
min,19.0,3.18,0.1,1.0,1.0,0.0
25%,31.0,152.49,2.1,37.0,42.0,0.0
50%,43.0,315.51,3.3,53.0,71.0,0.0
75%,52.0,599.84,5.9,68.0,98.0,0.0
max,70.0,5142.76,20.0,500.0,160.0,12.0


Первичный осмотр выявил, что в дата фрейме всего 10 столбцов и 4492 записей. В некоторых столбцах не хватает данных. Также требуется смена типов у некоторых столбцов.
Это был первичный анализ, обработки будут в следующих шагах.

**Шаг 2. Первичная обработка данных**

скорректировать заголовки;
скорректировать типы признаков;
проверить наличие дублирующихся записей;
проверить наличие аномальных значений;
восстановить пропущенные значения;

*Скорректировать типы признаков*

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4492 entries, 0 to 4491
Data columns (total 11 columns):
 #   Column                                 Non-Null Count  Dtype  
---  ------                                 --------------  -----  
 0   Возраст                                4492 non-null   int64  
 1   Среднемесячный расход                  4468 non-null   float64
 2   Средняя продолжительность разговоров   4475 non-null   float64
 3   Звонков днем за месяц                  4472 non-null   float64
 4   Звонков вечером за месяц               4489 non-null   float64
 5   Звонков ночью за месяц                 4492 non-null   object 
 6   Звонки в другие города                 4492 non-null   object 
 7   Звонки в другие страны                 4492 non-null   int64  
 8   Доля звонков на стационарные телефоны  4492 non-null   object 
 9   Количество SMS за месяц                4492 non-null   object 
 10  Дата подключения тарифа                4492 non-null   object 
dtypes: f

In [5]:
df["Дата подключения тарифа"] = pd.to_datetime(df["Дата подключения тарифа"],errors = "coerce")

In [6]:
df["Дата подключения тарифа"].info()

<class 'pandas.core.series.Series'>
RangeIndex: 4492 entries, 0 to 4491
Series name: Дата подключения тарифа
Non-Null Count  Dtype         
--------------  -----         
4492 non-null   datetime64[ns]
dtypes: datetime64[ns](1)
memory usage: 35.2 KB


*Проверить наличие дублирующихся записей*

In [7]:
df.duplicated().sum()

np.int64(0)

*Проверить наличие аномальных значений*

In [32]:
df.describe()

Unnamed: 0,Возраст,Среднемесячный расход,Средняя продолжительность разговоров,Звонков днем за месяц,Звонков вечером за месяц,Звонки в другие страны,Дата подключения тарифа
count,4492.0,4468.0,4475.0,4472.0,4489.0,4492.0,4492
mean,41.894924,505.533577,4.230827,63.899374,70.363778,0.394034,2018-07-10 01:04:50.785841664
min,19.0,3.18,0.1,1.0,1.0,0.0,2015-01-01 15:48:33
25%,31.0,152.49,2.1,37.0,42.0,0.0,2016-10-21 08:23:49.500000
50%,43.0,315.51,3.3,53.0,71.0,0.0,2018-06-21 16:56:24.500000
75%,52.0,599.84,5.9,68.0,98.0,0.0,2020-04-04 18:48:26.750000128
max,70.0,5142.76,20.0,500.0,160.0,12.0,2021-12-31 14:12:11
std,13.077254,646.354693,3.00521,62.877394,41.219909,1.17198,


*Восстановить пропущенные значения*

In [8]:
 df.isna().any()

Unnamed: 0,0
Возраст,False
Среднемесячный расход,True
Средняя продолжительность разговоров,True
Звонков днем за месяц,True
Звонков вечером за месяц,True
Звонков ночью за месяц,False
Звонки в другие города,False
Звонки в другие страны,False
Доля звонков на стационарные телефоны,False
Количество SMS за месяц,False


In [24]:
cols = ["Среднемесячный расход","Средняя продолжительность разговоров","Звонков днем за месяц","Звонков вечером за месяц"]

Чтобы все пропуски были одинаковыми

In [25]:
df[cols] = df[cols].replace([None],np.nan)
cols

['Среднемесячный расход',
 'Средняя продолжительность разговоров',
 'Звонков днем за месяц',
 'Звонков вечером за месяц']

Все значения, которые не являются числами

In [30]:
for col in cols:
  mask = pd.to_numeric(df[col],errors="coerce").isna() & df[col].notna()
  print(col)
  print(df.loc[mask,col].unique())

Среднемесячный расход
[]
Средняя продолжительность разговоров
[]
Звонков днем за месяц
[]
Звонков вечером за месяц
[]


In [31]:
for col in cols:
    vals = df[col].unique()
    print(col)
    print(vals[:20])  # первые значения

Среднемесячный расход
[    nan  287.51  113.7   410.23  537.6   324.56  410.04   14.52  209.12
  162.4  2672.34  556.92  636.75   57.33  339.2    50.4   539.28  222.09
  202.3    17.69]
Средняя продолжительность разговоров
[ 2.4  1.7  2.1  5.6  4.8  3.3  4.1  1.1  2.5  1.6 13.8  3.4  nan  2.
  5.1  1.9  2.7  3.5  7.3  2.8]
Звонков днем за месяц
[ 12. 111.  41.  47.  58.  45.  61.  10.  34.  79. 222.  97.  59.   2.
  15.  92.  31.   7.   9.  62.]
Звонков вечером за месяц
[ 65. 109.  27.  49.  77.  75.  71.   1.  70.  32.  96.  64.  39. 152.
   5.  37.  95.  41.  17.  55.]


In [None]:
Среднемесячный расход	True
Средняя продолжительность разговоров	True
Звонков днем за месяц	True
Звонков вечером за месяц

In [None]:
#df.loc[mask, ["cols"]]