    Необходимо провести исследование текущего уровня потребительской лояльности (NPS) среди клиентов из России. Заказчик исследования — большая телекоммуникационная компания, которая оказывает услуги на территории всего СНГ. 
    Чтобы определить уровень лояльности, клиентам задавали классический вопрос: «Оцените по шкале от 1 до 10 вероятность того, что вы порекомендуете компанию друзьям и знакомым»
    В нашем распоряжении данные, опубликованными на портале открытых данных Министерства культуры. Набор данных содержит информацию о прокатных удостоверениях, сборах и государственной поддержке фильмов, а также информацию с сайта КиноПоиск.
    
    файл с данными /datasets/telecomm_csi.db

In [1]:
import os
import pandas as pd
import numpy as np

from sqlalchemy import create_engine

In [2]:
path_to_db_local = 'telecomm_csi.db'
path_to_db_platform = '/datasets/telecomm_csi.db'
path_to_db = None

if os.path.exists(path_to_db_local):
    path_to_db = path_to_db_local
elif os.path.exists(path_to_db_platform):
    path_to_db = path_to_db_platform
else:
    raise Exception('Файл с базой данных SQLite не найден!')

if path_to_db:
    engine = create_engine(f'sqlite:///{path_to_db}', echo=False)

In [3]:
query = """

WITH
u AS(SELECT *,
       CASE
           WHEN gender_segment == 1.0 THEN 'женщина'
           WHEN gender_segment == 0.0 THEN 'мужчина'
           ELSE 'не определено'
        END as gender_segment_new,
        
        CASE
           WHEN nps_score <= 6 THEN 'критики'
           WHEN nps_score >= 6 AND nps_score < 9 THEN 'нейтралы'
           WHEN nps_score >= 9 THEN 'cторонники'
                   
        END as nps_group,
        
        CASE
           WHEN lt_day <= 365 THEN 'новый'
           WHEN lt_day > 365 THEN 'существующий'
        END as lt_day_new,
        
        CASE
           WHEN lt_day < 365 THEN 'новый'
           WHEN lt_day >= 365 THEN 'существующий'
        END as lt_day_new_old

FROM user)

SELECT u.user_id,
    u.lt_day,
    u.lt_day_new as is_new,
    u.age,
    u.gender_segment_new as gender_segment,
    u.os_name,
    u.cpe_type_name,
    l.country,
    l.city,
    SUBSTRING(a.title, 3) as age_segment,
    SUBSTRING(t.title, 3) as traffic_segment,
    SUBSTRING(lt.title, 3) as lifetime_segment,
    u.nps_score,
    u.nps_group,
    u.lt_day_new_old as is_new_old
    
FROM u
LEFT JOIN location as l ON u.location_id = l.location_id
LEFT JOIN age_segment as a ON u.age_gr_id = a.age_gr_id
LEFT JOIN traffic_segment as t ON u.tr_gr_id = t.tr_gr_id
LEFT JOIN lifetime_segment as lt ON u.lt_gr_id = lt.lt_gr_id
--lifetime_segment as lt 

"""

In [4]:
df = pd.read_sql(query, engine)
df.head(3)

Unnamed: 0,user_id,lt_day,is_new,age,gender_segment,os_name,cpe_type_name,country,city,age_segment,traffic_segment,lifetime_segment,nps_score,nps_group,is_new_old
0,A001A2,2320,существующий,45.0,женщина,ANDROID,SMARTPHONE,Россия,Уфа,45-54,1-5,36+,10,cторонники,существующий
1,A001WF,2344,существующий,53.0,мужчина,ANDROID,SMARTPHONE,Россия,Киров,45-54,1-5,36+,10,cторонники,существующий
2,A003Q7,467,существующий,57.0,мужчина,ANDROID,SMARTPHONE,Россия,Москва,55-64,20-25,13-24,10,cторонники,существующий


In [5]:
# КОД РЕВЬЮЕРА

df[df['lt_day'].isin([364, 365, 366])][['lt_day', 'is_new']].head()

Unnamed: 0,lt_day,is_new
205,364,новый
352,366,существующий
1769,365,новый
1921,364,новый
3638,366,существующий


In [6]:
# представление по предыдудущему варианту распределения на существующих и новых
df[df['lt_day'].isin([364, 365, 366])][['lt_day', 'is_new_old']].head()

Unnamed: 0,lt_day,is_new_old
205,364,новый
352,366,существующий
1769,365,существующий
1921,364,новый
3638,366,существующий


In [7]:
# код студента - проверка количества существующих и новых после корректировки <=365 дн.
display(df['is_new'].value_counts())
display((df['is_new'].value_counts('существующий')*100).round(0))

display(df['is_new_old'].value_counts())
display((df['is_new_old'].value_counts('существующий')*100).round(0))

существующий    416393
новый            86100
Name: is_new, dtype: int64

существующий    83.0
новый           17.0
Name: is_new, dtype: float64

существующий    416619
новый            85874
Name: is_new_old, dtype: int64

существующий    83.0
новый           17.0
Name: is_new_old, dtype: float64

In [8]:
df.to_csv('telecomm_csi_tableau.csv', index=False)

In [10]:
df.to_csv(r'C:\Users\Vitte\Downloads\telecomm_csi_tableau.csv', index=False)

In [11]:
data = pd.read_csv('C:\\Users\\Vitte\\Downloads\\telecomm_csi_tableau.csv')

In [12]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 502493 entries, 0 to 502492
Data columns (total 15 columns):
 #   Column            Non-Null Count   Dtype  
---  ------            --------------   -----  
 0   user_id           502493 non-null  object 
 1   lt_day            502493 non-null  int64  
 2   is_new            502493 non-null  object 
 3   age               501939 non-null  float64
 4   gender_segment    502493 non-null  object 
 5   os_name           502493 non-null  object 
 6   cpe_type_name     502493 non-null  object 
 7   country           502493 non-null  object 
 8   city              502493 non-null  object 
 9   age_segment       502493 non-null  object 
 10  traffic_segment   502493 non-null  object 
 11  lifetime_segment  502493 non-null  object 
 12  nps_score         502493 non-null  int64  
 13  nps_group         502493 non-null  object 
 14  is_new_old        502493 non-null  object 
dtypes: float64(1), int64(2), object(12)
memory usage: 57.5+ MB


In [13]:
data.isna().sum()

user_id               0
lt_day                0
is_new                0
age                 554
gender_segment        0
os_name               0
cpe_type_name         0
country               0
city                  0
age_segment           0
traffic_segment       0
lifetime_segment      0
nps_score             0
nps_group             0
is_new_old            0
dtype: int64

In [14]:
display(data)

Unnamed: 0,user_id,lt_day,is_new,age,gender_segment,os_name,cpe_type_name,country,city,age_segment,traffic_segment,lifetime_segment,nps_score,nps_group,is_new_old
0,A001A2,2320,существующий,45.0,женщина,ANDROID,SMARTPHONE,Россия,Уфа,45-54,1-5,36+,10,cторонники,существующий
1,A001WF,2344,существующий,53.0,мужчина,ANDROID,SMARTPHONE,Россия,Киров,45-54,1-5,36+,10,cторонники,существующий
2,A003Q7,467,существующий,57.0,мужчина,ANDROID,SMARTPHONE,Россия,Москва,55-64,20-25,13-24,10,cторонники,существующий
3,A004TB,4190,существующий,44.0,женщина,IOS,SMARTPHONE,Россия,РостовнаДону,35-44,0.1-1,36+,10,cторонники,существующий
4,A004XT,1163,существующий,24.0,мужчина,ANDROID,SMARTPHONE,Россия,Рязань,16-24,5-10,36+,10,cторонники,существующий
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
502488,ZZZKLD,1249,существующий,54.0,женщина,ANDROID,SMARTPHONE,Россия,Москва,45-54,1-5,36+,5,критики,существующий
502489,ZZZLWY,129,новый,31.0,мужчина,ANDROID,SMARTPHONE,Россия,Москва,25-34,1-5,4-6,8,нейтралы,новый
502490,ZZZQ5F,522,существующий,36.0,мужчина,ANDROID,SMARTPHONE,Россия,Сургут,35-44,25-30,13-24,10,cторонники,существующий
502491,ZZZQ8E,2936,существующий,37.0,женщина,ANDROID,SMARTPHONE,Россия,УланУдэ,35-44,65-70,36+,9,cторонники,существующий


пропусков в категориях age и gender_segment от общего количества не велико и не превышает 0,5% В фильтре сразу можно tableau исключить пропуски в этих категориях

ссылка на презентацию: https://public.tableau.com/views/Project_2_17248650277430/sheet14?:language=en-US&publish=yes&:sid=&:redirect=auth&:display_count=n&:origin=viz_share_link