### NPS Telecomm среди клиентов России

**Описание проекта**

Перед большой телекоммуникационной компанией, стоит задача определить текущий уровень потребительской лояльности или NPS (от англ. Net Promoter Score), среди клиентов из России.

Чтобы определить уровень лояльности, клиентам задавали классический вопрос: «Оцените по шкале от 1 до 10 вероятность того, что вы порекомендуете компанию друзьям и знакомым».
Компания провела опрос и попросила вас подготовить дашборд с его итогами. Большую базу данных для такой задачи разворачивать не стали и выгрузили данные в SQLite. 
Чтобы оценить результаты опроса, оценки обычно делят на три группы:
* 9-10 баллов — «cторонники» (англ. promoters);
* 7-8 баллов — «нейтралы» (англ. passives);
* 0-6 баллов — «критики» (англ. detractors).


* NPS = % «сторонников» - % «критиков».

Таким образом, значение этого показателя варьируется от -100% (когда все клиенты «критики») до 100% (когда все клиенты лояльны к сервису). Но это крайние случаи, которые редко встретишь на практике. 

Интерпретируя результаты NPS-опросов, следует также помнить, что само значение мало о чём говорит. Однако исследования показывают, что клиенты-сторонники полезны любому бизнесу. Они чаще других повторно совершают покупки, активнее тестируют обновления и приводят в сервис своих друзей и знакомых. Поэтому NPS остаётся одной из важнейших метрик бизнеса.

**Цели исследования:**
1. Подключиться к базе данных. Данные выгрузили в SQLite — СУБД, в которой база данных представлена файлом с расширением .db.
2. Выгрузить данные для дашборда используя SQL-запросы, выгрузив такую таблицу:
    * поле - описание
    * user_id - Идентификатор клиента
    * lt_day - Количество дней «жизни» клиента
    * is_new - Поле хранит информацию о том, является ли клиент новым
    * age - Возраст
    * gender_segment - Пол (для удобства работы с полем преобразуйте значения в текстовый вид)
    * os_name - Тип операционной системы
    * cpe_type_name - Тип устройства
    * country - Страна проживания
    * city - Город проживания
    * age_segment - Возрастной сегмент
    * traffic_segment - Сегмент по объёму потребляемого трафика
    * lifetime_segment - Сегмент по количеству дней «жизни»
    * nps_score - Оценка клиента в NPS-опросе
    * nps_group - Поле хранит информацию о том, к какой группе относится оценка клиента в опросе
3. Сохранить дф как CSV-файл.
4. Сделать дашборд в Tableau + презентацию в pdf. Дашборд должен отвечать на вопросы:
    * Как распределены участники опроса по возрасту и полу? Каких пользователей больше: новых или старых? Пользователи из каких городов активнее участвовали в опросе?
    * Какие группы пользователей наиболее лояльны к сервису? Какие менее?
    * Какой общий NPS среди всех опрошенных? Как они меняются в зависимости от признаков?
    * Как можно описать клиентов, которые относятся к группе cторонников (англ. promoters)?


**Ход исследования:**

Моё исследование пройдет в несколько этапов:
* Подключусь к базе данных
* Сделаю SQL-запрос к БД
* Сохраню в файл .csv
* Сделаю дашборд и презентацию

### **Описание данных**

**Таблица user** - Содержит основную информацию о клиентах.
* поле | описание:
* user_id - Идентификатор клиента, первичный ключ таблицы
* lt_day - Количество дней «жизни» клиента
* age - Возраст клиента в годах
* gender_segment - Пол клиента (1 – женщина, 0 – мужчина)
* os_name - Тип операционной системы
* cpe_type_name - Тип устройства
* location_id - Идентификатор домашнего региона клиента, внешний ключ, отсылающий к таблице location
* age_gr_id - Идентификатор возрастного сегмента клиента, внешний ключ, отсылающий к таблице age_segment
* tr_gr_id - Идентификатор сегмента клиента по объёму потребляемого трафика в месяц, внешний ключ, отсылающий к таблице traffic_segment
* lt_gr_id - Идентификатор сегмента клиента по количеству месяцев «жизни», внешний ключ, отсылающий к таблице lifetime_segment
* nps_score - Оценка клиента в NPS-опросе (от 1 до 10)

**Таблица location** - Справочник территорий, в которых телеком-компания оказывает услуги.
* поле | описание:
* location_id - Идентификатор записи, первичный ключ
* country - Страна
* city - Город

**Таблица age_segment** - Данные о возрастных сегментах клиентов.
* поле | описание:
* age_gr_id - Идентификатор сегмента, первичный ключ
* bucket_min - Минимальная граница сегмента
* bucket_max - Максимальная граница сегмента
* title - Название сегмента

**Таблица traffic_segment** - Данные о выделяемых сегментах по объёму потребляемого трафика.
* поле | описание:
* tr_gr_id - Идентификатор сегмента, первичный ключ
* bucket_min - Минимальная граница сегмента
* bucket_max - Максимальная граница сегмента
* title - Название сегмента

**Таблица lifetime_segment** - Данные о выделяемых сегментах по количеству месяцев «жизни» клиента — лайфтайму.
* поле | описание:
* lt_gr_id - Идентификатор сегмента, первичный ключ
* bucket_min - Минимальная граница сегмента
* bucket_max - Максимальная граница сегмента
* title - Название сегмента


## 1. Импортируем библиотеки

In [1]:
# Импортируем библиотеки
import os
import pandas as pd
import numpy as np

from sqlalchemy import create_engine

## 2. Конфигурация для подключения к базе данных `telecomm_csi.db`

In [2]:
# путь к БД на вашем компьютере (например, в той же папке, что и тетрадь)
path_to_db_local = 'telecomm_csi.db'
# путь к БД на платформе
path_to_db_platform = '/datasets/telecomm_csi.db'
# итоговый путь к БД
path_to_db = None

# если путь на вашем компьютере ведёт к БД, то он становится итоговым
if os.path.exists(path_to_db_local):
    path_to_db = path_to_db_local
# иначе: если путь на платформе ведёт к БД, то он становится итоговым
elif os.path.exists(path_to_db_platform):
    path_to_db = path_to_db_platform
# иначе выводится сообщение о том, что файл не найден
else:
    raise Exception('Файл с базой данных SQLite не найден!')

# если итоговый путь не пустой
if path_to_db:
    # то создаём подключение к базе
    engine = create_engine(f'sqlite:///{path_to_db}', echo=False)

## 3. SQL-запрос

In [3]:
    # делаем запрос
    query = """
    
    SELECT u.user_id,
        u.lt_day,
        CASE
            WHEN u.lt_day <= 365 THEN True
            ELSE False
        END AS is_new,
        u.age,
        CASE
            WHEN u.gender_segment = 1 THEN 'женщина'
            WHEN u.gender_segment = 0 THEN 'мужчина'
            ELSE 'Неизвестно'
        END AS gender_segment,
        u.os_name,
        u.cpe_type_name,
        l.country,
        l.city,
        SUBSTR(age.title, 4, 5) AS age_title,  --age.title AS age_title
        SUBSTR(ts.title, 4, 8) AS traffic_segment,
        SUBSTR(ls.title, 4, 5) AS lifetime_segment,
        u.nps_score,
        CASE
            WHEN u.nps_score >= 9 THEN 'cторонники'
            WHEN u.nps_score <= 6 THEN 'критики'
            ELSE 'нейтралы'
        END AS nps_group
        
    FROM user AS u
        LEFT JOIN location l ON u.location_id = l.location_id
        LEFT JOIN age_segment age ON u.age_gr_id = age.age_gr_id
        LEFT JOIN traffic_segment ts ON u.tr_gr_id = ts.tr_gr_id
        LEFT JOIN lifetime_segment ls ON u.lt_gr_id = ls.lt_gr_id
    
    """


In [4]:
# создаём датафрейм по данным запроса
df = pd.read_sql(query, engine)
df.head(3)

Unnamed: 0,user_id,lt_day,is_new,age,gender_segment,os_name,cpe_type_name,country,city,age_title,traffic_segment,lifetime_segment,nps_score,nps_group
0,A001A2,2320,0,45.0,женщина,ANDROID,SMARTPHONE,Россия,Уфа,45-54,1-5,36+,10,cторонники
1,A001WF,2344,0,53.0,мужчина,ANDROID,SMARTPHONE,Россия,Киров,45-54,1-5,36+,10,cторонники
2,A003Q7,467,0,57.0,мужчина,ANDROID,SMARTPHONE,Россия,Москва,55-64,20-25,13-24,10,cторонники


In [5]:
# посмотрим основную информацию про датасет
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 502493 entries, 0 to 502492
Data columns (total 14 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   user_id           502493 non-null  object 
 1   lt_day            502493 non-null  int64  
 2   is_new            502493 non-null  int64  
 3   age               501939 non-null  float64
 4   gender_segment    502493 non-null  object 
 5   os_name           502493 non-null  object 
 6   cpe_type_name     502493 non-null  object 
 7   country           502493 non-null  object 
 8   city              502493 non-null  object 
 9   age_title         502493 non-null  object 
 10  traffic_segment   502493 non-null  object 
 11  lifetime_segment  502493 non-null  object 
 12  nps_score         502493 non-null  int64  
 13  nps_group         502493 non-null  object 
dtypes: float64(1), int64(3), object(10)
memory usage: 53.7+ MB


## 4. Cохраним дф как .csv-файл

**Незначительно пропусков есть только в Возрасте и Гендерном сегменте(М/Ж)**

In [6]:
# cохраним полученный датафрейм в 
df.to_csv('12_telecomm.csv')

## 5. Сделать дашборд в Tableau + презентацию в pdf

* Ссылка на презентацию pdf:https://disk.yandex.ru/i/Y9H25aSAXP3SUg
* Ссылка на Дашборд (продублирована в презентации): https://public.tableau.com/app/profile/alexander2244/viz/NPSTelecomm/NPS_score