In [8]:
import pandas as pd

In [9]:
df = pd.read_csv('./data/marketing_AB.csv', index_col=[0])

In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 588101 entries, 0 to 588100
Data columns (total 6 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   user id        588101 non-null  int64 
 1   test group     588101 non-null  object
 2   converted      588101 non-null  bool  
 3   total ads      588101 non-null  int64 
 4   most ads day   588101 non-null  object
 5   most ads hour  588101 non-null  int64 
dtypes: bool(1), int64(3), object(2)
memory usage: 27.5+ MB


In [11]:
df.sample(10)

Unnamed: 0,user id,test group,converted,total ads,most ads day,most ads hour
58814,1244471,ad,False,21,Sunday,9
250805,1085734,ad,False,15,Saturday,13
61474,1160983,ad,False,28,Friday,17
478388,1080922,ad,False,10,Thursday,19
522077,1068383,ad,False,14,Thursday,21
82167,1025675,ad,False,22,Monday,21
82130,1130001,ad,False,29,Monday,19
498390,1624988,ad,False,3,Saturday,13
473899,1527073,ad,False,7,Monday,15
171797,1141601,ad,False,23,Friday,18


In [12]:
# Разделяем на контрольную и тестовую группы
control_group = df[df["test group"] == "psa"]
test_group = df[df["test group"] == "ad"]

# Рассчитываем метрики
metrics = {
    "control_group": {
        "visits": len(control_group),  # Количество посещений
        "total_conversions": control_group["converted"].sum()  # Суммарное количество покупок
    },
    "test_group": {
        "visits": len(test_group),  # Количество посещений
        "total_conversions": test_group["converted"].sum()  # Суммарное количество покупок
    }
}

# Вывод результатов
print("Результаты анализа:")
print(metrics)

Результаты анализа:
{'control_group': {'visits': 23524, 'total_conversions': 420}, 'test_group': {'visits': 564577, 'total_conversions': 14423}}


In [14]:
# 1. Исследование структуры данных
print("Информация о датасете:")
print(df.info())  # Общая информация о столбцах
print("\nПример данных:")
print(df.head())  # Первые строки для анализа структуры

# 2. Преобразование столбцов к необходимым типам данных
# Преобразование столбца converted в тип bool (если это строка или другие значения)
if df["converted"].dtype != "bool":
    df["converted"] = df["converted"].astype(bool)

# Преобразование total_ads в целые числа
if df["total ads"].dtype != "int64":
    df["total ads"] = df["total ads"].astype(int)

# 3. Проверка на наличие пропусков
print("\nКоличество пропусков по столбцам:")
print(df.isnull().sum())

# Удаление строк с пропусками (если они критичны для анализа)
df = df.dropna()

# 4. Проверка на пересечение пользователей между группами
# Создаем два поднабора данных: контрольная группа и тестовая группа
control_group = df[df["test group"] == "psa"]
test_group = df[df["test group"] == "ad"]

# Ищем пользователей, которые находятся в обеих группах
overlap_users = set(control_group["user id"]).intersection(set(test_group["user id"]))
print("\nКоличество пользователей, попавших в обе группы:", len(overlap_users))

# Исключаем пользователей, попавших в обе группы
df = df[~df["user id"].isin(overlap_users)]

# Проверяем, что пересечения больше нет
print("\nПроверка пересечений после удаления:")
control_group = df[df["test group"] == "psa"]
test_group = df[df["test group"] == "ad"]
overlap_users = set(control_group["user id"]).intersection(set(test_group["user id"]))
print("Количество пользователей, попавших в обе группы после очистки:", len(overlap_users))

Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
Index: 588101 entries, 0 to 588100
Data columns (total 6 columns):
 #   Column         Non-Null Count   Dtype 
---  ------         --------------   ----- 
 0   user id        588101 non-null  int64 
 1   test group     588101 non-null  object
 2   converted      588101 non-null  bool  
 3   total ads      588101 non-null  int64 
 4   most ads day   588101 non-null  object
 5   most ads hour  588101 non-null  int64 
dtypes: bool(1), int64(3), object(2)
memory usage: 27.5+ MB
None

Пример данных:
   user id test group  converted  total ads most ads day  most ads hour
0  1069124         ad      False        130       Monday             20
1  1119715         ad      False         93      Tuesday             22
2  1144181         ad      False         21      Tuesday             18
3  1435133         ad      False        355      Tuesday             10
4  1015700         ad      False        276       Friday             14

Количе