


**СБОРНЫЙ ПРОЕКТ**

**Описание проекта**

Заказчик этого исследования — большая телекоммуникационная компания, которая оказывает услуги на территории всего СНГ. Перед компанией стоит задача определить текущий уровень потребительской лояльности, или NPS (от англ. Net Promoter Score), среди клиентов из России. 

**Цель исследования**

1. Подключиться к базе
2. Выгрузить данные
3. Создать дашборд,который представит информацию о текущем уровне NPS среди клиентов и покажет, как этот уровень меняется в зависимости от пользовательских признаков
4. Ответить на вопросы:
- Как распределены участники опроса по возрасту, полу и возрасту? Каких пользователей больше: новых или старых? Пользователи из каких городов активнее участвовали в опросе?
- Какие группы пользователей наиболее лояльны к сервису? Какие менее?
- Какой общий NPS среди всех опрошенных?
- Как можно описать клиентов, которые относятся к группе cторонников (англ. promoters)?

**1. Подключение к базе**

In [1]:
import os
import pandas as pd
from sqlalchemy import create_engine

# путь к БД на вашем компьютере (например, в той же папке, что и тетрадь)
path_to_db_local = 'telecomm_csi.db'
# путь к БД на платформе
path_to_db_platform = '/datasets/telecomm_csi.db'
# итоговый путь к БД
path_to_db = None

# если путь на вашем компьютере ведёт к БД, то он становится итоговым
if os.path.exists(path_to_db_local):
    path_to_db = path_to_db_local
# иначе: если путь на платформе ведёт к БД, то он становится итоговым
elif os.path.exists(path_to_db_platform):
    path_to_db = path_to_db_platform
# иначе выводится сообщение о том, что файл не найден
else:
    raise Exception('Файл с базой данных SQLite не найден!')

# если итоговый путь не пустой
if path_to_db:
    # то создаём подключение к базе
    engine = create_engine(f'sqlite:///{path_to_db}', echo=False)

**2. Выгрузим данные**

In [2]:
#Выведем таблицу user
query = """ 
SELECT *      
FROM user; 
    """ 
df = pd.read_sql(query, engine) 
df

Unnamed: 0,user_id,lt_day,age,gender_segment,os_name,cpe_type_name,location_id,age_gr_id,tr_gr_id,lt_gr_id,nps_score
0,A001A2,2320,45.0,1.0,ANDROID,SMARTPHONE,55,5,5,8,10
1,A001WF,2344,53.0,0.0,ANDROID,SMARTPHONE,21,5,5,8,10
2,A003Q7,467,57.0,0.0,ANDROID,SMARTPHONE,28,6,9,6,10
3,A004TB,4190,44.0,1.0,IOS,SMARTPHONE,38,4,4,8,10
4,A004XT,1163,24.0,0.0,ANDROID,SMARTPHONE,39,2,6,8,10
...,...,...,...,...,...,...,...,...,...,...,...
502488,ZZZKLD,1249,54.0,1.0,ANDROID,SMARTPHONE,28,5,5,8,5
502489,ZZZLWY,129,31.0,0.0,ANDROID,SMARTPHONE,28,3,5,4,8
502490,ZZZQ5F,522,36.0,0.0,ANDROID,SMARTPHONE,47,4,10,6,10
502491,ZZZQ8E,2936,37.0,1.0,ANDROID,SMARTPHONE,53,4,18,8,9


In [3]:
#Выведем таблицу location
query = """ 
SELECT *      
FROM location; 
    """ 
df = pd.read_sql(query, engine) 
df

Unnamed: 0,location_id,city,country
0,1,Архангельск,Россия
1,2,Астрахань,Россия
2,3,Балашиха,Россия
3,4,Барнаул,Россия
4,5,Белгород,Россия
...,...,...,...
57,58,Челябинск,Россия
58,59,Череповец,Россия
59,60,Чита,Россия
60,61,Якутск,Россия


In [4]:
#Выведем таблицу traffic_segment
query = """ 
SELECT * 
FROM traffic_segment; 
    """ 
df = pd.read_sql(query, engine) 
df

Unnamed: 0,tr_gr_id,bucket_min,bucket_max,title
0,1,0.0,0.0,01 0
1,2,0.0,0.01,01 0-0.01
2,3,0.01,0.1,02 0.01-0.1
3,4,0.1,1.0,03 0.1-1
4,5,1.0,5.0,04 1-5
5,6,5.0,10.0,05 5-10
6,7,10.0,15.0,06 10-15
7,8,15.0,20.0,07 15-20
8,9,20.0,25.0,08 20-25
9,10,25.0,30.0,09 25-30


In [5]:
#Выведем таблицу lifetime_segment
query = """ 
SELECT * 
FROM lifetime_segment; 
    """ 
df = pd.read_sql(query, engine) 
df

Unnamed: 0,lt_gr_id,bucket_min,bucket_max,title
0,1,1.0,1.0,01 1
1,2,2.0,2.0,02 2
2,3,3.0,3.0,03 3
3,4,4.0,6.0,04 4-6
4,5,7.0,12.0,05 7-12
5,6,13.0,24.0,06 13-24
6,7,25.0,36.0,07 25-36
7,8,36.0,,08 36+


**3. Создадим файл с данными**

In [6]:
query = """ 

SELECT u.user_id,
       u.lt_day,
       (CASE
            WHEN u.lt_day < 365 THEN "New client"
            ELSE "Old client"
        END) as is_new,
       u.age,
       (CASE
            WHEN u.gender_segment = 0 THEN "male"
            ELSE "female"
        END) as gender_segment,
        u.os_name,
        u.cpe_type_name,
        l.country,
        l.city,
        SUBSTRING(ag.title, 4) as age_segment,
        SUBSTRING(ts.title, 4) as trafic_segment,
        SUBSTRING(ls.title, 4) as lifetime_segment,
        u.nps_score,
        (CASE 
           WHEN u.nps_score >= 9 AND u.nps_score <= 10 THEN 'promoters'
           WHEN u.nps_score >= 7 AND u.nps_score <= 8 THEN 'passives'
           ELSE 'detractors'
       END) as nps_group 
FROM user as u
JOIN location as l ON u.location_id=l.location_id
JOIN age_segment as ag ON u.age_gr_id=ag.age_gr_id
JOIN traffic_segment ts ON u.tr_gr_id=ts.tr_gr_id
JOIN lifetime_segment ls ON u.lt_gr_id=ls.lt_gr_id
    """ 

In [7]:
df = pd.read_sql(query, engine) 
df

Unnamed: 0,user_id,lt_day,is_new,age,gender_segment,os_name,cpe_type_name,country,city,age_segment,trafic_segment,lifetime_segment,nps_score,nps_group
0,A001A2,2320,Old client,45.0,Women,ANDROID,SMARTPHONE,Россия,Уфа,45-54,1-5,36+,10,promoters
1,A001WF,2344,Old client,53.0,Man,ANDROID,SMARTPHONE,Россия,Киров,45-54,1-5,36+,10,promoters
2,A003Q7,467,Old client,57.0,Man,ANDROID,SMARTPHONE,Россия,Москва,55-64,20-25,13-24,10,promoters
3,A004TB,4190,Old client,44.0,Women,IOS,SMARTPHONE,Россия,РостовнаДону,35-44,0.1-1,36+,10,promoters
4,A004XT,1163,Old client,24.0,Man,ANDROID,SMARTPHONE,Россия,Рязань,16-24,5-10,36+,10,promoters
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
502488,ZZZKLD,1249,Old client,54.0,Women,ANDROID,SMARTPHONE,Россия,Москва,45-54,1-5,36+,5,detractors
502489,ZZZLWY,129,New client,31.0,Man,ANDROID,SMARTPHONE,Россия,Москва,25-34,1-5,4-6,8,passives
502490,ZZZQ5F,522,Old client,36.0,Man,ANDROID,SMARTPHONE,Россия,Сургут,35-44,25-30,13-24,10,promoters
502491,ZZZQ8E,2936,Old client,37.0,Women,ANDROID,SMARTPHONE,Россия,УланУдэ,35-44,65-70,36+,9,promoters


In [8]:
#Сохраним файл
df.to_csv('project.csv',index=False)