In [1]:
import os
import pandas as pd
import numpy as np

from sqlalchemy import create_engine

In [2]:
path_to_db_local = 'telecomm_csi.db'
path_to_db_platform = '/datasets/telecomm_csi.db'
path_to_db = None

if os.path.exists(path_to_db_local):
    path_to_db = path_to_db_local
elif os.path.exists(path_to_db_platform):
    path_to_db = path_to_db_platform
else:
    raise Exception('Файл с базой данных SQLite не найден!')

if path_to_db:
    engine = create_engine(f'sqlite:///{path_to_db}', echo=False)

In [3]:
query = """
SELECT  u.user_id,
        u.lt_day,
        CASE 
            WHEN lt_day > 365 THEN 'old'
            ELSE 'new'
        END is_new,
        u.age,
        CASE 
            WHEN gender_segment = 1 THEN 'женщина'
            WHEN gender_segment = 0 THEN 'мужчина'
            ELSE 'иное'
        END gender_segment,        
        u.os_name,
        u.cpe_type_name,
        l.country,
        l.city,
        SUBSTRING(a.title, 4) age_segment,
        SUBSTRING(t.title, 4) traffic_segment,
        SUBSTRING(lt.title, 4) lifetime_segment,
        u.nps_score,
        CASE 
            WHEN nps_score >= 9 THEN 'сторонники'
            WHEN nps_score >= 7 THEN 'нейтралы'            
            ELSE 'критики'
        END nps_group        
FROM user AS u
LEFT JOIN location AS l ON u.location_id =l.location_id
LEFT JOIN age_segment AS a ON u.age_gr_id =a.age_gr_id
LEFT JOIN traffic_segment AS t ON u.tr_gr_id =t.tr_gr_id
LEFT JOIN lifetime_segment AS lt ON u.lt_gr_id =lt.lt_gr_id
"""

In [4]:
df = pd.read_sql(query, engine)
df.head(5)

Unnamed: 0,user_id,lt_day,is_new,age,gender_segment,os_name,cpe_type_name,country,city,age_segment,traffic_segment,lifetime_segment,nps_score,nps_group
0,A001A2,2320,old,45.0,женщина,ANDROID,SMARTPHONE,Россия,Уфа,45-54,1-5,36+,10,сторонники
1,A001WF,2344,old,53.0,мужчина,ANDROID,SMARTPHONE,Россия,Киров,45-54,1-5,36+,10,сторонники
2,A003Q7,467,old,57.0,мужчина,ANDROID,SMARTPHONE,Россия,Москва,55-64,20-25,13-24,10,сторонники
3,A004TB,4190,old,44.0,женщина,IOS,SMARTPHONE,Россия,РостовнаДону,35-44,0.1-1,36+,10,сторонники
4,A004XT,1163,old,24.0,мужчина,ANDROID,SMARTPHONE,Россия,Рязань,16-24,5-10,36+,10,сторонники


In [5]:
#проверим данные в столбцах
df['age'].sort_values().unique()

array([10., 11., 12., 13., 14., 15., 16., 17., 18., 19., 20., 21., 22.,
       23., 24., 25., 26., 27., 28., 29., 30., 31., 32., 33., 34., 35.,
       36., 37., 38., 39., 40., 41., 42., 43., 44., 45., 46., 47., 48.,
       49., 50., 51., 52., 53., 54., 55., 56., 57., 58., 59., 60., 61.,
       62., 63., 64., 65., 66., 67., 68., 69., 70., 71., 72., 73., 74.,
       75., 76., 77., 78., 79., 80., 81., 82., 83., 84., 85., 86., 87.,
       89., nan])

In [6]:
#проверим данные в столбцах
df['city'].sort_values().unique()

array(['Архангельск', 'Астрахань', 'Балашиха', 'Барнаул', 'Белгород',
       'Брянск', 'Владивосток', 'Владимир', 'Волгоград', 'Волжский',
       'Воронеж', 'Грозный', 'Екатеринбург', 'Иваново', 'Ижевск',
       'Иркутск', 'Казань', 'Калининград', 'Калуга', 'Кемерово', 'Киров',
       'Краснодар', 'Красноярск', 'Курск', 'Липецк', 'Магнитогорск',
       'Махачкала', 'Москва', 'НабережныеЧелны', 'НижнийНовгород',
       'НижнийТагил', 'Новокузнецк', 'Новосибирск', 'Омск', 'Оренбург',
       'Пенза', 'Пермь', 'РостовнаДону', 'Рязань', 'Самара',
       'СанктПетербург', 'Саранск', 'Саратов', 'Смоленск', 'Сочи',
       'Ставрополь', 'Сургут', 'Тверь', 'Тольятти', 'Томск', 'Тула',
       'Тюмень', 'УланУдэ', 'Ульяновск', 'Уфа', 'Хабаровск', 'Чебоксары',
       'Челябинск', 'Череповец', 'Чита', 'Якутск', 'Ярославль'],
      dtype=object)

In [7]:
#проверим данные в столбцах
df['age_segment'].sort_values().unique()

array(['16-24', '25-34', '35-44', '45-54', '55-64', '66 +', 'n/a',
       'до 16'], dtype=object)

In [8]:
#проверим данные в столбцах
df['traffic_segment'].sort_values().unique()

array(['0', '0-0.01', '0.01-0.1', '0.1-1', '1-5', '10-15', '100+',
       '15-20', '20-25', '25-30', '30-35', '35-40', '40-45', '45-50',
       '5-10', '50-55', '55-60', '60-65', '65-70', '70-75', '75-80',
       '80-85', '85-90', '90-95', '95-100'], dtype=object)

In [9]:
#проверим данные в столбцах
df['lifetime_segment'].sort_values().unique()

array(['1', '13-24', '2', '25-36', '3', '36+', '4-6', '7-12'],
      dtype=object)

In [10]:
#проверим данные в столбцах
df['nps_score'].sort_values().unique()

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10])

Аномалии в столбцах не обнаружены.

In [11]:
df.to_csv('telecomm_csi_tableau.csv', index=False)

https://public.tableau.com/app/profile/ruslan.burduko/viz/2_17149341642090/NPS_1?publish=yes