In [1]:
import pandas as pd


file_path = "ab_test_dataset_v16.xlsx"

df_device = pd.read_excel(file_path, sheet_name="device")
df_country = pd.read_excel(file_path, sheet_name="country")
df_group = pd.read_excel(file_path, sheet_name="group")
df_user = pd.read_excel(file_path, sheet_name="user")
df_daily = pd.read_excel(file_path, sheet_name="daily")  

df_country.head()

Unnamed: 0,country_id,country_code
0,1,BR
1,2,DE
2,3,FR
3,4,IN
4,5,US


In [2]:
def basic_eda(df, name):
    print(f"Table Name: {name}")
    print("Shape:", df.shape)
    print("\nMissing values:\n", df.isnull().sum())
    print("\nDuplicated rows:", df.duplicated().sum())

    # Проверка на отрицательные значения (только для числовых колонок)
    print("\nNegative values:")
    numeric_cols = df.select_dtypes(include=["number"]).columns
    for col in numeric_cols:
        neg_count = (df[col] < 0).sum()
        if neg_count > 0:
            print(f"- {col}: {neg_count} negative values")

    # Распределение значений по колонкам
    print("\nValue counts:")
    for col in df.columns:
        print(f"\n{col}:\n", df[col].value_counts())
    
    print("\n\n")


basic_eda(df_user, "user")
# basic_eda(df_country, "country")
# basic_eda(df_group, "group")
# basic_eda(df_device, "device")
# basic_eda(df_daily, "daily")


Table Name: user
Shape: (10000, 5)

Missing values:
 user_id              0
device_id          203
country_id         669
group_id            41
days_on_product    151
dtype: int64

Duplicated rows: 0

Negative values:
- days_on_product: 20 negative values

Value counts:

user_id:
 user_id
5763    1
6337    1
4041    1
1045    1
592     1
       ..
8238    1
5913    1
3227    1
7866    1
7654    1
Name: count, Length: 10000, dtype: int64

device_id:
 device_id
2.0    5805
1.0    2950
5.0    1012
4.0      17
3.0      13
Name: count, dtype: int64

country_id:
 country_id
5.0    1922
4.0    1890
3.0    1859
2.0    1855
1.0    1775
6.0      30
Name: count, dtype: int64

group_id:
 group_id
2.0    5033
1.0    4926
Name: count, dtype: int64

days_on_product:
 days_on_product
 1.0     554
 26.0    191
 32.0    185
 17.0    184
 35.0    181
        ... 
-11.0      1
 77.0      1
-14.0      1
-12.0      1
 79.0      1
Name: count, Length: 95, dtype: int64





In [None]:
# Выявление и замена пустых значений в столбце "days_on_product" таблицы df_user на ноль.

print(f'Number of missing values before cleaning: {df_user["days_on_product"].isnull().sum()}')   
df_user["days_on_product"] = df_user["days_on_product"].fillna(0)
df_user = df_user.dropna(subset=["user_id", "device_id", "country_id", "group_id"])

print(f'After cleaning: {df_user["days_on_product"].isnull().sum()}')   

Number of missing values before cleaning: 151
After cleaning: 0


In [None]:
# Выявление и фильтрация аномалий в таблице df_user. Предварительный EDA-анализ показал что в столбце "days_on_product"
# присутствуют отрицательные значения. Код ниже фильтрует строки в df_user, оставляя только те, у которых значение в столбце
# "days_on_product" находится в диапазоне — от 0 до 3650 включительно.

df_user = df_user[(df_user["days_on_product"] >= 0) & (df_user["days_on_product"] <= 3650)]

In [None]:
# Просмотр типов данных в таблице df_user.

df_user.dtypes

user_id              int64
device_id          float64
country_id         float64
group_id           float64
days_on_product    float64
dtype: object

In [None]:
# Замена типов данных в таблице df_user на корректные типы.

df_user["device_id"] = df_user["device_id"].astype(int)
df_user["country_id"] = df_user["country_id"].astype(int)
df_user["group_id"] = df_user["group_id"].astype(int)
df_user["days_on_product"] = df_user["days_on_product"].astype(int)

In [7]:
df_user.dtypes

user_id            int64
device_id          int64
country_id         int64
group_id           int64
days_on_product    int64
dtype: object

In [None]:
# Удаление из таблицы df_user строк с пустыми значениями user_id, затем удаление из таблицы df_daily строк с теми значениями 
# user_id, которых нет в отфильтрованной таблице df_user.

valid_user_ids = df_user['user_id'].dropna().unique()
df_daily = df_daily[df_daily['user_id'].isin(valid_user_ids)]

In [None]:
# Выявление и замена пустых значений в столбце "converted" таблицы df_daily на ноль.

print(df_daily["converted"].isnull().sum())   
df_daily["converted"] = df_daily["converted"].fillna(0)
print(df_daily["converted"].isnull().sum())   

477
0


In [None]:
# Выявление и удаление дубликатов из таблицы df_daily.

print("Number of dublicates before cleaning:", df_daily.duplicated().sum())
df_daily = df_daily.drop_duplicates()
print("After cleaning:", df_daily.duplicated().sum())

Number of dublicates before cleaning: 1113
After cleaning: 0


In [None]:
# Преобразование данных столбца "date" таблицы df_daily в формат datetime, после чего создание столбца "month", путём извлечения
# месяца и года из даты. Тип данных столбца "month" будет Period[M], или "период по месяцам". В результате будет создан Series
# monthly_counts, с помощью которого можно будет увидеть, сколько раз повторялась каждая дата.

df_daily["date"] = pd.to_datetime(df_daily["date"])

df_daily["month"] = df_daily["date"].dt.to_period("M")  
monthly_counts = df_daily["month"].value_counts().sort_index()
print(monthly_counts)

month
2025-06        7
2025-07       17
2025-08    54701
2025-09       16
2026-01       17
Freq: M, Name: count, dtype: int64


In [12]:
monthly_percent = (monthly_counts / len(df_daily) * 100).round(2)
print(monthly_percent)

month
2025-06     0.01
2025-07     0.03
2025-08    99.90
2025-09     0.03
2026-01     0.03
Freq: M, Name: count, dtype: float64


In [None]:
# Оставляем только август 2025.

df_daily = df_daily[df_daily["date"].dt.to_period("M") == "2025-08"]

df_daily.drop('month', axis=1, inplace=True)

In [14]:
# Оставляем только первую конверсию (converted = 1) для каждого user_id в таблице df_daily, если у него таких строк несколько.
# Всё остальное (повторные 1) — обнуляем, а 0 оставляем как есть.

# x.cumsum() — накапливает сумму converted, т.е.:
# [0, 0, 1, 0, 1, 1] → [0, 0, 1, 1, 2, 3]

# x.mask(... > 1, 0) — заменяет все значения после первой 1 на 0.


df_daily = df_daily.sort_values(by=["user_id", "date"])

df_daily["converted"] = df_daily.groupby("user_id")["converted"].transform(
    lambda x: x.mask(x.cumsum() > 1, 0)
)

In [None]:
# Проверка типов данных в таблице df_daily, и в дальнейшем замена на корректные типы при необходимости.

df_daily.dtypes

user_id               int64
date         datetime64[ns]
converted           float64
dtype: object

In [16]:
df_daily["converted"] = df_daily["converted"].astype(int)

In [17]:
df_daily.head()

Unnamed: 0,user_id,date,converted
49064,1,2025-08-02,0
42728,1,2025-08-08,0
31383,1,2025-08-14,0
10939,1,2025-08-18,0
38408,2,2025-08-01,0


In [None]:
# Проверка типов данных в остальных таблицах, с заменой на корректные типы при необходимости.

df_device.dtypes

device_id       int64
device_name    object
dtype: object

In [19]:
df_country.dtypes

country_id       int64
country_code    object
dtype: object

In [20]:
df_group.dtypes

group_id        int64
group_label    object
dtype: object

In [21]:
from sqlalchemy import create_engine


user = "postgres"
password = "pg26iv09"
host = "localhost"
port = "5432"
database = "final_task_db"

engine = create_engine(f"postgresql+psycopg2://{user}:{password}@{host}:{port}/{database}")

In [None]:
from sqlalchemy import inspect


inspector = inspect(engine)

def safe_to_sql(df, table_name):
    if table_name in inspector.get_table_names():
        print(f"Current table '{table_name}' already exists. Skip it.")
    else:
        df.to_sql(table_name, engine, if_exists="fail", index=False)
        print(f"The table '{table_name}' successfully created.")


safe_to_sql(df_user, "user")
safe_to_sql(df_device, "device")
safe_to_sql(df_country, "country")
safe_to_sql(df_group, "group")
safe_to_sql(df_daily, "daily")


Current table 'user' already exists. Skip it.
Current table 'device' already exists. Skip it.
Current table 'country' already exists. Skip it.
Current table 'group' already exists. Skip it.
Current table 'daily' already exists. Skip it.


In [23]:
print(engine.url)


postgresql+psycopg2://postgres:***@localhost:5432/final_task_db


In [25]:
import pandas as pd
import psycopg2


conn = psycopg2.connect(
    dbname='final_task_db',
    user='postgres',
    password='pg26iv09',
    host='localhost',
    port=5432
)

In [26]:
query = 'SELECT * FROM v_group_summary;'
df_gs = pd.read_sql(query, conn)

  df_gs = pd.read_sql(query, conn)


In [None]:
# 3.Рассчитать P-value (двухвыборочный z-тест для пропорций).

from math import sqrt
from scipy.stats import norm


n_A = df_gs.loc[df_gs['group_label'] == 'A', 'users_count'].values[0]
cr_A = df_gs.loc[df_gs['group_label'] == 'A', 'conversion_rate'].values[0]
x_A = round(n_A * cr_A)

n_B = df_gs.loc[df_gs['group_label'] == 'B', 'users_count'].values[0]
cr_B = df_gs.loc[df_gs['group_label'] == 'B', 'conversion_rate'].values[0]
x_B = round(n_B * cr_B)

p = (x_A + x_B) / (n_A + n_B)
se = sqrt(p * (1 - p) * (1 / n_A + 1 / n_B))
z = (cr_B - cr_A) / se
p_value = 2 * (1 - norm.cdf(abs(z)))

print(f"Z-stat = {z:.3f}")
print(f"P-value = {p_value:.4f}")


Z-stat = 9.585
P-value = 0.0000


In [None]:
# 4.Рассчитать 95% доверительные интервалы (Wald, Wilson).

import numpy as np
from scipy.stats import norm


# Константа
z = norm.ppf(0.975)  # 95% CI → 0.975 квантиль стандартного нормального распределения


def wald_ci(p, n):
    se = np.sqrt(p * (1 - p) / n)
    return p - z * se, p + z * se

def wilson_ci(p, n):
    denominator = 1 + z**2 / n
    center = (p + z**2 / (2*n)) / denominator
    margin = z * np.sqrt(p*(1 - p)/n + z**2 / (4*n**2)) / denominator
    return center - margin, center + margin


for group in ['A', 'B']:
    row = df_gs[df_gs['group_label'] == group]
    p = row['conversion_rate'].values[0]
    n = row['users_count'].values[0]

    wald = wald_ci(p, n)
    wilson = wilson_ci(p, n)

    print(f"\nGroup {group}")
    print(f"  Conversion: {p:.4f} at n = {n}")
    print(f"  Wald CI:   ({wald[0]:.4f}, {wald[1]:.4f})")
    print(f"  Wilson CI: ({wilson[0]:.4f}, {wilson[1]:.4f})")


Group A
  Conversion: 0.3611 at n = 4499
  Wald CI:   (0.3471, 0.3751)
  Wilson CI: (0.3472, 0.3752)

Group B
  Conversion: 0.4601 at n = 4578
  Wald CI:   (0.4457, 0.4745)
  Wilson CI: (0.4457, 0.4746)


In [None]:
# 5.Провести анализ по сегментам (страна, устройство).

query = 'SELECT * FROM v_users_summary'
df_us = pd.read_sql(query, conn)


by_country = df_us.groupby(['country_code', 'group_label']).agg(
    users=('user_id', 'count'),
    conversions=('total_converted', 'sum')
).reset_index()


by_country['conversion_rate'] = by_country['conversions'] / by_country['users']
print(by_country.sort_values(['country_code', 'group_label']))

   country_code group_label  users  conversions  conversion_rate
0            BR           A    841        241.0         0.286564
1            BR           B    879        347.0         0.394767
2            DE           A    911        278.0         0.305159
3            DE           B    891        383.0         0.429854
4            FR           A    889        450.0         0.506187
5            FR           B    925        488.0         0.527568
6            IN           A    905        386.0         0.426519
7            IN           B    936        468.0         0.500000
8            US           A    940        265.0         0.281915
9            US           B    931        413.0         0.443609
10           XX           A     13          4.0         0.307692
11           XX           B     16          7.0         0.437500


  df_us = pd.read_sql(query, conn)


In [30]:
by_device = df_us.groupby(['device_name', 'group_label']).agg(users=('user_id', 'count'), conversions=('total_converted', 'sum')).reset_index()
by_device['conversion_rate'] = by_device['conversions'] / by_device['users']
print(by_device.sort_values(['device_name', 'group_label']))

  device_name group_label  users  conversions  conversion_rate
0     Desktop           A   1372        391.0         0.284985
1     Desktop           B   1467        576.0         0.392638
2      Mobile           A   2615       1040.0         0.397706
3      Mobile           B   2628       1295.0         0.492770
4  Smartwatch           A      7          5.0         0.714286
5  Smartwatch           B      5          3.0         0.600000
6          TV           A      7          3.0         0.428571
7          TV           B      9          7.0         0.777778
8      Tablet           A    498        185.0         0.371486
9      Tablet           B    469        225.0         0.479744
