In [1]:
import os
import psycopg2
from psycopg2 import Error
import pandas as pd
import numpy as np
import scipy
from scipy.stats import norm
import scipy.stats as stats
import math
import copy
from typing import List, Tuple, Dict, Set

  """)


# **Метрики оценки успешности запуска Историй в Инстаграм**

Если говорить не про профиль,аудиторию или посты, а только про истории, то:
 - Показы (число просмотров фото или видео в историях): диаграмма временной сегментации просмотров (время суток/день недели/неделя месяца)
 - Охват (число уникальных аккаунтов, которые видели определенное фото или видео в историях):отношение числа подписчиков, которые посмотрели истории к общему числу подписчиков
 - Выходы (число выходов из истории): график распределения времени выхода (от 1-10 сек, 10 сек - 1 мин и т.д.)
 - Ответы (число ответов к видео или фото в историях): средняя длина комментария и определение эмоциональной окраски текста
 - Данные о людях (список аккаунтов, которые просмотрели определенное фото или видео в историях): страны, города, возраст, пол и т.д.

# **A/B тест**

### *На сайте запущен А/В тест с целью увеличить доход. В приложенном excel файле ты найдешь сырые данные по результатам эксперимента (user_id), тип выборки (variant_name) и доход, принесенный пользователем (revenue). Проанализируй результаты эксперимента и напиши свои рекомендации менеджеру.*

In [2]:
df = pd.read_csv('ab_test_results.csv', sep=',',decimal=',')

In [3]:
df.columns = [_.strip().lower() for _ in df.columns]

In [4]:
df.head()

Unnamed: 0,user_id,variant_name,revenue
0,737,variant,0.0
1,2423,control,0.0
2,9411,control,0.0
3,7311,control,0.0
4,6174,variant,0.0


In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 10000 entries, 0 to 9999
Data columns (total 3 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   user_id       10000 non-null  int64  
 1   variant_name  10000 non-null  object 
 2   revenue       10000 non-null  float64
dtypes: float64(1), int64(1), object(1)
memory usage: 234.5+ KB


### **Замечание. Так как заранее не обговаривался дизайн A/B теста (альфа, мощность, размер выборок, различие в конверсии, которое мы хотим обнаружить, длительность тестирования и т.д.), то мы не можем говорить о "репрезентативности" полученных данных. Принимаем демо-данные как есть и подвергаем анализу.**

### *1 Проверка на пересечение id юзеров*

In [6]:
list_cotrol_user_id = df[df['variant_name']=='control']['user_id'].values

In [7]:
list_variant_user_id = df[df['variant_name']=='variant']['user_id'].values

In [8]:
intersection_user_id = set(list_cotrol_user_id).intersection(set(list_variant_user_id))  

In [9]:
len(intersection_user_id)

1541

### **Замечание. Очень большое количество пользователей попали, как в одну так и в другую группу. Это нарушение условий тестирования. Исключаем таких юзеров из датасета. Предполагаем, что очищенные данные сохраняют стат значимость**

In [10]:
df_result = copy.deepcopy(df)

In [11]:
df_result = df_result[~df_result['user_id'].isin(intersection_user_id)]

In [12]:
df_result.shape

(6070, 3)

In [13]:
list_cotrol_user_id_result = df_result[df_result['variant_name']=='control']['user_id'].values

In [14]:
list_variant_user_id_result = df_result[df_result['variant_name']=='variant']['user_id'].values

In [15]:
intersection_user_id_result = set(list_cotrol_user_id_result).intersection(set(list_variant_user_id_result))  

In [16]:
len(intersection_user_id_result)

0

### *2 Проверка на сбалансированность выборок*

In [17]:
len(set(list_cotrol_user_id_result))

2390

In [18]:
len(set(list_variant_user_id_result))

2393

### **Замечание. Выборки сбалансированы**

### *3 Сводная таблица с результатами для проверки*

In [19]:
df_pivot = copy.deepcopy(df_result)

In [20]:
df_pivot['val'] = df_pivot['revenue'].apply(lambda x: 'click' if x>0 else 'view')

In [21]:
df_pivot.head()

Unnamed: 0,user_id,variant_name,revenue,val
0,737,variant,0.0,view
4,6174,variant,0.0,view
5,2380,variant,0.0,view
7,9168,control,0.0,view
9,7548,control,0.0,view


In [22]:
df_pivot = df_pivot.groupby(['variant_name','val'],as_index=False).agg({'revenue':(np.size,np.sum)})

In [23]:
df_pivot.head()

Unnamed: 0_level_0,variant_name,val,revenue,revenue
Unnamed: 0_level_1,Unnamed: 1_level_1,Unnamed: 2_level_1,size,sum
0,control,click,54.0,470.56
1,control,view,2972.0,0.0
2,variant,click,43.0,179.32
3,variant,view,3001.0,0.0


In [24]:
df_pivot.columns = ['name_group','val','size_group','total_profit']

In [25]:
df_pivot['avg_sale'] = (df_pivot['total_profit']/df_pivot['size_group']).apply(lambda x: round(x,2))

In [26]:
df_pivot.head()

Unnamed: 0,name_group,val,size_group,total_profit,avg_sale
0,control,click,54.0,470.56,8.71
1,control,view,2972.0,0.0,0.0
2,variant,click,43.0,179.32,4.17
3,variant,view,3001.0,0.0,0.0


### **Замечание. Продаж стало меньше, плюс сократился средний размер чека**

### *4 Статистическая часть A/B теста*

In [27]:
# Нет стат значимых различий
# Калькулятор Evan Miller - https://www.evanmiller.org/ab-testing/chi-squared.html#!54/2972;43/3001@95

In [28]:
clicks0 = df_pivot[(df_pivot['name_group']=='control')&(df_pivot['val']=='click')]['size_group'].values[0]
clicks1 = df_pivot[(df_pivot['name_group']=='variant')&(df_pivot['val']=='click')]['size_group'].values[0]
views0 = df_pivot[(df_pivot['name_group']=='control')&(df_pivot['val']=='view')]['size_group'].values[0]
views1 = df_pivot[(df_pivot['name_group']=='variant')&(df_pivot['val']=='view')]['size_group'].values[0]

In [29]:
# Расчет конверсии
p1 = clicks0/views0
p2 = clicks1/views1

In [30]:
def confidence_interval(conversion:float, trials:int) -> List[float]:
  '''Функция для нахождения доверительного интервала'''
  sigma = math.sqrt(conversion *(1-conversion )/ trials)
  mu = conversion
  probability = 0.95
  interval = stats.norm.interval(probability, loc=mu, scale=sigma)
  interval_round = [round(_*100, 1) for _ in interval]
  return interval_round

In [31]:
# Расчет z метрики
p_combined = (clicks0 + clicks1) / (views0 + views1)
difference = p1 - p2
z_scores = difference/math.sqrt(p_combined * (1 - p_combined) * (1/views0 + 1/views1))

In [32]:
def proportions_diff_z_stat_ind(clicks1, views1, clicks2, views2, alpha = 0.05):
  p1 = clicks1/views1
  p2 = clicks2/views2
  p = float(p1*views1 + p2*views2) / (views1 + views2)
  return (p1 - p2) / np.sqrt(p * (1 - p) * (1 / views1 + 1 / views2))

In [33]:
proportions_diff_z_stat_ind(clicks0, views0, clicks1, views1)

1.1742865901548998

In [34]:
print(f"Значение z равно {z_scores}")
print(f"Конверсия вариант А равна {round(p1*100,1)}% \
        Доверительный интервал {confidence_interval(p1, views0)[0]}% - {confidence_interval(p1, views0)[1]}%")
print(f"Конверсия вариант В равна {round(p2*100,1)}% \
        Доверительный интервал {confidence_interval(p2, views1)[0]}% - {confidence_interval(p2, views1)[1]}%")

Значение z равно 1.1742865901548998
Конверсия вариант А равна 1.8%         Доверительный интервал 1.3% - 2.3%
Конверсия вариант В равна 1.4%         Доверительный интервал 1.0% - 1.9%


In [35]:
# Рассчитываем p-value
p_value = (1 - scipy.stats.norm.cdf(abs(z_scores))) * 2
print('p-значение: {:f}'.format(p_value))

p-значение: 0.240280


In [36]:
alpha = .05
if (p_value < alpha):
    print("Отвергаем нулевую гипотезу: между долями есть значимая разница")
else:
    print("Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными")

Не получилось отвергнуть нулевую гипотезу, нет оснований считать доли разными


### **Резюме по A/B тесту. К технической стороне проведения теста есть много вопросов, поэтому лучше не опираться на такую информацию при принятии финального решения. Если взять данные как есть, то можно сделать вывод о нецелесообразности изменений.**

# **SQL**

In [37]:
%%capture
# Install postgresql server
!sudo apt-get -y -qq update
!sudo apt-get -y -qq install postgresql
!sudo service postgresql start

# Setup a password `postgres` for username `postgres`
!sudo -u postgres psql -U postgres -c "ALTER USER postgres PASSWORD 'postgres';"

# Setup a database with name `tfio_demo` to be used
!sudo -u postgres psql -U postgres -c 'DROP DATABASE IF EXISTS db;'
!sudo -u postgres psql -U postgres -c 'CREATE DATABASE db;'

In [38]:
%env DB_DEMO_DATABASE_NAME=db
%env DB_DEMO_DATABASE_HOST=localhost
%env DB_DEMO_DATABASE_PORT=5432
%env DB_DEMO_DATABASE_USER=postgres
%env DB_DEMO_DATABASE_PASS=postgres

env: DB_DEMO_DATABASE_NAME=db
env: DB_DEMO_DATABASE_HOST=localhost
env: DB_DEMO_DATABASE_PORT=5432
env: DB_DEMO_DATABASE_USER=postgres
env: DB_DEMO_DATABASE_PASS=postgres


In [39]:
point="postgresql://{}:{}@{}:{}/{}".format(
    os.environ['DB_DEMO_DATABASE_USER'],
    os.environ['DB_DEMO_DATABASE_PASS'],
    os.environ['DB_DEMO_DATABASE_HOST'],
    os.environ['DB_DEMO_DATABASE_PORT'],
    os.environ['DB_DEMO_DATABASE_NAME'],
)

In [40]:
print(point)

postgresql://postgres:postgres@localhost:5432/db


In [41]:
def create_tables() -> None:
    """Создать таблицу в БД """
    try:
        conn = psycopg2.connect(point)
        cursor = conn.cursor()
        cursor.execute(""" drop table if exists departments;
                           drop table if exists employees;
                           drop table if exists purchases;
                           drop table if exists transactions;

                           create table if not exists departments (id integer,
                                                                   name text);
                           create table if not exists employees (id integer,
                                                                name text,
                                                                dep_id integer,
                                                                manager_id integer,
                                                                salary integer);
                           create table if not exists purchases (user_id integer,
                                                                  user_gender text, 
                                                                  items integer, 
                                                                  price integer);
                          create table if not exists transactions (transaction_ts timestamp,
                                                                    user_id integer,
                                                                    transaction_id integer,
                                                                    item text);""")
        conn.commit()
    except (Exception, Error) as error:
        print("Ошибка при работе с PostgreSQL", error)
    finally:
        if conn:
            cursor.close()
            conn.close()
            print("Соединение с PostgreSQL закрыто")

In [42]:
def insert_values() -> None:
    """Добавить значения в таблицы"""
    try:
        conn = psycopg2.connect(point)
        cursor = conn.cursor()
        departments = [(1, 'finance'), 
                       (2, 'operations'), 
                       (3, 'deployment')]

        employees = [(1,'John Smith', 1, None, 2000),
                     (2,'Jack Smith',None, 1, 1500),
                     (3,'Becky Smith', 1, 2, 2000),
                     (4,'Rebecca Smith', 2, 2, 700),
                     (5,'Sonny Smith',3, 1, 3000)]

        purchases = [(101,'f',3,100),
                     (102,'female',0,0),
                     (103,'m',0,0),
                     (101,'f',2,100),
                     (105,'male',2,100),
                     (103,'m',0,0)]

        transactions= [('2021-01-10 13:00:00',1,101,'aaa'),
                       ('2021-01-10 14:00:00',1,102,'bbb'),
                       ('2021-01-11 20:00:00',1,103,'aaa'),
                       ('2021-01-12 12:00:00',1,104,'ccc'),
                       ('2021-01-13 23:00:00',1,105,'bbb'),
                       ('2021-01-14 10:00:00',1,106,'ddd'),
                       ('2021-01-17 19:00:00',1,106,'eee'),
                       ('2021-01-08 13:00:00',2,201,'aaa'),
                       ('2021-01-09 14:00:00',2,202,'bbb'),
                       ('2021-01-09 16:00:00',2,203,'aaa'),
                       ('2021-01-20 17:00:00',2,204,'ccc'),
                       ('2021-01-13 23:00:00',3,301,'bbb'),
                       ('2021-01-14 10:00:00',3,301,'ddd'),
                       ('2021-01-17 19:00:00',4,401,'eee'),
                       ]

        departments_records = ", ".join(["%s"] * len(departments))
        employees_records = ", ".join(["%s"] * len(employees))
        purchases_records = ", ".join(["%s"] * len(purchases))
        transactions_records = ", ".join(["%s"] * len(transactions))

        cursor.execute(f"INSERT INTO departments (id, name) VALUES {departments_records}", departments)
        cursor.execute(f"INSERT INTO employees (id, name,dep_id,manager_id,salary) VALUES {employees_records}", employees)
        cursor.execute(f"INSERT INTO purchases (user_id, user_gender,items,price) VALUES {purchases_records}", purchases)
        cursor.execute(f"INSERT INTO transactions (transaction_ts, user_id,transaction_id,item) VALUES {transactions_records}", transactions)

        conn.commit()
    except (Exception, Error) as error:
        print("Ошибка при работе с PostgreSQL", error)
    finally:
        if conn:
            cursor.close()
            conn.close()
            print("Соединение с PostgreSQL закрыто")

In [43]:
def select_postgresql(sql: str):
    """Запрос данных из БД"""
    conn = psycopg2.connect(point)
    return pd.read_sql(sql, conn)

In [44]:
create_tables()
insert_values()

Соединение с PostgreSQL закрыто
Соединение с PostgreSQL закрыто


# **SQL 1**

In [45]:
sql = """select * from employees"""

In [46]:
select_postgresql(sql)

Unnamed: 0,id,name,dep_id,manager_id,salary
0,1,John Smith,1.0,,2000
1,2,Jack Smith,,1.0,1500
2,3,Becky Smith,1.0,2.0,2000
3,4,Rebecca Smith,2.0,2.0,700
4,5,Sonny Smith,3.0,1.0,3000


In [47]:
sql = """select * from departments"""

In [48]:
select_postgresql(sql)

Unnamed: 0,id,name
0,1,finance
1,2,operations
2,3,deployment


### *1_1 Для каждого сотрудника найти его департамент, включая тех, у кого департамента нет*

In [49]:
sql = """select e.*, d.name as dep_name from employees as e left join departments as d on e.dep_id = d.id"""

In [50]:
select_postgresql(sql)

Unnamed: 0,id,name,dep_id,manager_id,salary,dep_name
0,1,John Smith,1.0,,2000,finance
1,3,Becky Smith,1.0,2.0,2000,finance
2,4,Rebecca Smith,2.0,2.0,700,operations
3,5,Sonny Smith,3.0,1.0,3000,deployment
4,2,Jack Smith,,1.0,1500,


### *1_2 Найти наибольшую зарплату по департаментам и отсортировать департаменты по убыванию максимальной зарплаты*

In [51]:
sql = """with tbl as (select e.*, d.name as dep_name from employees as e left join departments as d on e.dep_id = d.id)
         
         select t.dep_id, max(t.salary) as max_salary
         from tbl as t
         group by t.dep_id
         order by max(t.salary) desc"""

In [52]:
select_postgresql(sql)

Unnamed: 0,dep_id,max_salary
0,3.0,3000
1,1.0,2000
2,,1500
3,2.0,700


# **SQL 2**

### *2_1 Посчитай доход с женской аудитории (доход= сумма price*items)*

In [53]:
sql = """with tbl_f as (select *, (p.items*p.price) as revenue
         from purchases as p 
         where p.user_gender in ('f','female'))
         
         select sum(tf.revenue) as total_profit
         from tbl_f as tf """

In [54]:
select_postgresql(sql)

Unnamed: 0,total_profit
0,500


### *2_2 Сравни доход по группе мужчин и женщин*

In [55]:
sql = """with tbl_group as (select p.*, 
          case p.user_gender 
               when 'f' then 'female'
               when 'm' then 'male'
               else p.user_gender
          end as user_gender_full,
         (p.items*p.price) as revenue
         from purchases as p)
         
         select tg.user_gender_full, sum(tg.revenue) as total_profit
         from tbl_group as tg
         group by tg.user_gender_full"""

In [56]:
select_postgresql(sql)

Unnamed: 0,user_gender_full,total_profit
0,female,500
1,male,200


In [57]:
sql = """with tbl_group as (select p.*, 
          case p.user_gender 
               when 'f' then 'female'
               when 'm' then 'male'
               else p.user_gender
          end as user_gender_full,
         (p.items*p.price) as revenue
         from purchases as p)
        
        select sum(tg.revenue) filter (where tg.user_gender_full ='female') as profit_f,
               sum(tg.revenue) filter (where tg.user_gender_full ='male') as profit_m,
               (sum(tg.revenue) filter (where tg.user_gender_full ='female'))-(sum(tg.revenue) filter (where tg.user_gender_full ='male')) as delta
        from tbl_group as tg"""

In [58]:
select_postgresql(sql)

Unnamed: 0,profit_f,profit_m,delta
0,500,200,300


### *2_3 Посчитай кол-во уникальных пользователей-мужчин, заказавших более чем три айтема (суммарно за все заказы)*

In [59]:
sql = """with tbl as (select p.*, 
          case p.user_gender 
               when 'f' then 'female'
               when 'm' then 'male'
               else p.user_gender
          end as user_gender_full,
         (p.items*p.price) as revenue
         from purchases as p),
         
        tbl_male as (select t.user_id, sum(t.items)
         from tbl as t
         where t.user_gender_full = 'male'
         group by t.user_id
         having sum(t.items)>3)
         
         select count(*) as count_male
         from tbl_male"""

In [60]:
select_postgresql(sql)

Unnamed: 0,count_male
0,0


# **SQL 3**

### *3_1 Выведи для каждого пользователя первое наименование, которое он заказал (первое по времени транзакции)*

In [61]:
sql = """select * from transactions"""

In [62]:
select_postgresql(sql)

Unnamed: 0,transaction_ts,user_id,transaction_id,item
0,2021-01-10 13:00:00,1,101,aaa
1,2021-01-10 14:00:00,1,102,bbb
2,2021-01-11 20:00:00,1,103,aaa
3,2021-01-12 12:00:00,1,104,ccc
4,2021-01-13 23:00:00,1,105,bbb
5,2021-01-14 10:00:00,1,106,ddd
6,2021-01-17 19:00:00,1,106,eee
7,2021-01-08 13:00:00,2,201,aaa
8,2021-01-09 14:00:00,2,202,bbb
9,2021-01-09 16:00:00,2,203,aaa


**Вариант 1. В теории данный запрос должен быть быстрее чем оконные функции**

In [63]:
sql = """select t.user_id, t.item as first_item
          from transactions as t inner join (select t.user_id, min(t.transaction_ts) as first_dt
                                              from transactions as t
                                              group by t.user_id) as f
                                 on t.user_id = f.user_id and t.transaction_ts = f.first_dt"""

In [64]:
select_postgresql(sql)

Unnamed: 0,user_id,first_item
0,1,aaa
1,2,aaa
2,3,bbb
3,4,eee


**Вариант 2. Для сравнения по времени**

In [65]:
sql = """select distinct(t.user_id), first_value(t.item) over (partition by t.user_id order by t.transaction_ts)  as first_item
         from transactions as t
         order by t.user_id"""

In [66]:
select_postgresql(sql)

Unnamed: 0,user_id,first_item
0,1,aaa
1,2,aaa
2,3,bbb
3,4,eee


### *3_2 Посчитай сколько транзакций в среднем делает каждый пользователь в течении 72х часов с момента первой транзакции*

In [67]:
sql = """select cast(count(t.transaction_id) as real)/cast(count(distinct(t.user_id)) as real) as avg_tr
        from transactions as t left join
                              (select t.user_id, min(t.transaction_ts) as first_dt
                              from transactions as t
                              group by t.user_id) as f
                              on t.user_id = f.user_id
        where t.transaction_ts < (f.first_dt + interval '72 hour')"""

In [68]:
select_postgresql(sql)

Unnamed: 0,avg_tr
0,2.5
