# Расчёт текущей лояльности абонентов оператора мобильной связи

**Задача**: 
- Выгрузить данные из базы с помощью SQL запроса 
- Выделить группы пользователей по уровню удовлетворённости сервисами мобильного оператора
- Построить дашборд 
- Создать презентацию с результатами исследования

In [None]:
import pandas as pd
from sqlalchemy import create_engine
import sqlite3
import requests

In [4]:
query = """
WITH
nps_table AS (SELECT user_id,
                    CASE
                        WHEN nps_score>=9 THEN 'Сторонники'
                        WHEN nps_score>=7 THEN 'Нейтралы'
                        WHEN nps_score<=6 THEN 'Критики'
                        ELSE 'Неизвестно'
                    END AS nps_group
                    FROM user),
isnew_table AS (SELECT user_id,
                        CASE
                        WHEN lt_day>365 THEN 'Старый абонент'
                         WHEN lt_day<=365 THEN 'Новый абонент'
                        ELSE 'Неизвестно'
                        END AS is_new
                        FROM user
                        WHERE lt_day >= 0),
gender_table AS (SELECT user_id,
                        CASE
                        WHEN gender_segment = 1 THEN 'Женщина'
                        WHEN gender_segment = 0 THEN 'Мужчина'
                        ELSE 'Неизвестно'
                        END AS bender_gender
                        FROM user)

SELECT  u.user_id,
        u.lt_day,
        it.is_new,
        u.age,
        gt.bender_gender AS gender_segment,
        u.os_name,
        u.cpe_type_name,
        l.city,
        SUBSTR(a.title,3) AS age_segment,
        SUBSTR(tr.title,3) as traffic_segment,
        SUBSTR(lt.title,3) as lifetime_segment,
        u.nps_score,
        nt.nps_group
FROM user as u
INNER JOIN location as l ON u.location_id = l.location_id
INNER JOIN age_segment as a ON u.age_gr_id = a.age_gr_id
INNER JOIN traffic_segment as tr ON u.tr_gr_id = tr.tr_gr_id
INNER JOIN lifetime_segment as lt ON u.lt_gr_id = lt.lt_gr_id
INNER JOIN nps_table as nt ON u.user_id = nt.user_id
INNER JOIN isnew_table as it ON u.user_id = it.user_id
INNER JOIN gender_table as gt ON u.user_id = gt.user_id
"""

In [9]:
%%time
try:
    path_to_db = '/datasets/telecomm_csi.db' # путь к файлу
    engine = create_engine(f'sqlite:///{path_to_db}', echo = False)
    df = pd.read_sql(query, engine)
except:
    try:
        path_to_db = 'telecomm_csi.db' # локальный путь к файлу
        engine = create_engine(f'sqlite:///{path_to_db}', echo = False)
        df = pd.read_sql(query, engine)
    except:
        url = 'https://link' # интернет ссылка на файл
        fname = url.split('/')[-1]
        answer = requests.get(url, allow_redirects=True)
        assert (answer.status_code == 200), f'invalid request code {answer.status_code}'
        with open(fname,'wb') as f: f.write(answer.content)
        df = pd.read_sql(query, sqlite3.connect(fname) )

CPU times: user 8.81 s, sys: 540 ms, total: 9.35 s
Wall time: 12.7 s


In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 502480 entries, 0 to 502479
Data columns (total 13 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   user_id           502480 non-null  object 
 1   lt_day            502480 non-null  int64  
 2   is_new            502480 non-null  object 
 3   age               501939 non-null  float64
 4   gender_segment    502480 non-null  object 
 5   os_name           502480 non-null  object 
 6   cpe_type_name     502480 non-null  object 
 7   city              502480 non-null  object 
 8   age_segment       502480 non-null  object 
 9   traffic_segment   502480 non-null  object 
 10  lifetime_segment  502480 non-null  object 
 11  nps_score         502480 non-null  int64  
 12  nps_group         502480 non-null  object 
dtypes: float64(1), int64(2), object(10)
memory usage: 49.8+ MB


In [8]:
df.sample(10)

Unnamed: 0,user_id,lt_day,is_new,age,gender_segment,os_name,cpe_type_name,city,age_segment,traffic_segment,lifetime_segment,nps_score,nps_group
476947,YO90Q6,459,Старый абонент,40.0,Мужчина,ANDROID,SMARTPHONE,Курск,35-44,1-5,13-24,9,Сторонники
302573,PNLE1Z,196,Новый абонент,41.0,Женщина,ANDROID,SMARTPHONE,Волгоград,35-44,100+,7-12,5,Критики
290196,P0BZAB,1090,Старый абонент,30.0,Женщина,ANDROID,SMARTPHONE,Самара,25-34,5-10,36+,10,Сторонники
265221,NPV5X6,3882,Старый абонент,27.0,Женщина,IOS,SMARTPHONE,Хабаровск,25-34,15-20,36+,3,Критики
152273,HUWG3L,3388,Старый абонент,31.0,Мужчина,ANDROID,SMARTPHONE,Пермь,25-34,25-30,36+,5,Критики
34577,BSGHK5,963,Старый абонент,30.0,Мужчина,ANDROID,SMARTPHONE,Самара,25-34,15-20,25-36,5,Критики
421493,VSZNPF,2762,Старый абонент,43.0,Мужчина,ANDROID,SMARTPHONE,Челябинск,35-44,5-10,36+,10,Сторонники
249439,MWCBIK,1965,Старый абонент,24.0,Мужчина,ANDROID,SMARTPHONE,НижнийНовгород,16-24,10-15,36+,3,Критики
137205,H2QDIH,33,Новый абонент,28.0,Мужчина,IOS,SMARTPHONE,Москва,25-34,30-35,2,8,Нейтралы
131935,GSY0BJ,2860,Старый абонент,48.0,Женщина,ANDROID,SMARTPHONE,Архангельск,45-54,1-5,36+,10,Сторонники


In [21]:
df['nps_group'].unique()

array(['Сторонники', 'Критики', 'Нейтралы'], dtype=object)

In [22]:
df['gender_segment'].unique()

array(['Женщина', 'Мужчина', 'Неизвестно'], dtype=object)

In [23]:
df['is_new'].unique()

array(['Старый абонент', 'Новый абонент'], dtype=object)

In [15]:
#После отрабатывания функции записываем адреса и координаты в файл
df.to_csv('telecomm.csv', encoding='utf-8', index=False)