# Часть 1

## Проект. Методы uplift-моделирования  

## Описание задачи  
В этот раз вы будете работать с Яндекс Едой. Ваша задача — определить целевую аудиторию, которой можно предложить промокод на 500 рублей на доставку еды из ресторанов. Цель этого предложения — побудить пользователей совершать покупки чаще. Конверсией в таком контексте можно считать успешное использование промокода, ведь тогда частота заказов увеличится, а доход компании возрастёт.  

## Проблема  
Отбор целевой аудитории для предложения промокодов представляет собой проблему в разработке эффективных маркетинговых стратегий. Неправильный выбор ЦА может привести к неэффективным расходам на маркетинг и снижению конверсии.  

## Бизнес-задача
Разработать эффективную систему, которая позволит точно идентифицировать нужную целевую аудиторию. Это повысит конверсию использования промокодов и приведёт к увеличению доходов компании.
Точный выбор целевой аудитории — ключевой фактор для роста продаж. От него напрямую зависит, насколько хорошо сработает предложение. Однако текущие подходы часто промахиваются, не позволяя понять, кто действительно воспользуется предложением. В результате деньги на маркетинг тратятся впустую. Поэтому компании необходима модель, которая поможет точно находить нужных пользователей и достигать бизнес-целей без лишних затрат.  

## Цель проекта 
Cоздать с нуля uplift-модель на основе данных A/B-теста. Она поможет точнее выбирать клиентов, которым действительно стоит предлагать промокоды. Это не только повысит конверсию, но и улучшит финальные показатели бизнеса.

## Описание датасета
Датасет содержит 64 000 клиентов, которые совершили последнюю покупку в течение последних двенадцати месяцев. Клиенты участвовали в тестировании по мобильному каналу.  

Столбцы:  
`recency` — количество месяцев с момента последней покупки. Этот атрибут помогает понять, как долго клиент не совершал покупок (индикатором его вовлечённости).  
`history_segment` — категоризация расходов клиента за последний год. Этот атрибут позволяет сегментировать клиентов по уровню их трат (помощь в таргетировании предложений).  
`history` — фактическая сумма (в $), потраченная клиентом за последний год. Этот атрибут предоставляет информацию о финансовом поведении клиента.  
`mens` — индикатор (1/0), где 1 означает, что клиент покупал товары для мужчин в течение последнего года. Это помогает определить предпочтения клиента.  
`womens` — индикатор (1/0), где 1 означает, что клиент покупал товары для женщин в течение последнего года. Это также помогает определить предпочтения клиента.  
`zip_code` — классификация почтового индекса (город, пригород, село). Этот атрибут может быть полезен для географического анализа клиентов.  
`newbie` — индикатор (1/0), где 1 обозначает нового клиента (в течение последних двенадцати месяцев). Это поможет оценить эффективность маркетинговых стратегий для привлечения новых клиентов.  
`channel` — описание каналов, через которые клиент совершал покупки в течение последнего года. Этот атрибут поможет с анализом предпочтений клиентов по каналам продаж (0 — мультиканал, 1 — мобильный, 2 — веб).  
`treatment` — индикатор (1/0), где 1 означает, что клиент получил промокод. Этот атрибут позволяет оценить влияние предложения на поведение клиента и его решение о покупке.  
`target` — индикатор (1/0), где 1 означает, что клиент успешно использовал промокод.  

## Этап 1

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import ttest_ind
from scipy import stats

In [2]:
# Открываем и сохраняем файл uplift_fp_data.csv в датафрейм из директории или по ссылке:
try:
    df = pd.read_csv('uplift_fp_data.csv')
    print("Файл найден локально")
except:
    url = "https://raw.githubusercontent.com/yandex-praktikum/mle-uplift-final-project-2025/main/uplift_fp_data.csv"
    try:
        df = pd.read_csv(url)
        print("Файл успешно загружен")
        # Сохраняем локально
        df.to_csv('uplift_fp_data.csv', index=False)
    except Exception as e:
        print(f"Ошибка: {e}")
        df = pd.DataFrame()

Файл найден локально


In [3]:
df

Unnamed: 0,recency,history_segment,history,mens,womens,zip_code,newbie,channel,treatment,target
0,10,1,142.44,1,0,1,0,1,1,0
1,6,2,329.08,1,1,2,1,2,0,0
2,7,1,180.65,0,1,1,1,2,1,0
3,9,4,675.83,1,0,2,1,2,0,0
4,2,0,45.34,1,0,0,0,2,1,0
...,...,...,...,...,...,...,...,...,...,...
63995,10,1,105.54,1,0,0,0,2,0,0
63996,5,0,38.91,0,1,0,1,1,0,0
63997,6,0,29.99,1,0,0,1,1,0,0
63998,1,4,552.94,1,0,1,1,0,1,0


In [4]:
# Проверяем информацию о данных
print("\nИнформация о датасете:")
df.info()


Информация о датасете:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 64000 entries, 0 to 63999
Data columns (total 10 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   recency          64000 non-null  int64  
 1   history_segment  64000 non-null  int64  
 2   history          64000 non-null  float64
 3   mens             64000 non-null  int64  
 4   womens           64000 non-null  int64  
 5   zip_code         64000 non-null  int64  
 6   newbie           64000 non-null  int64  
 7   channel          64000 non-null  int64  
 8   treatment        64000 non-null  int64  
 9   target           64000 non-null  int64  
dtypes: float64(1), int64(9)
memory usage: 4.9 MB


In [5]:
# Проверяем основные статистики
print("\nОсновные статистики:")
df.describe()


Основные статистики:


Unnamed: 0,recency,history_segment,history,mens,womens,zip_code,newbie,channel,treatment,target
count,64000.0,64000.0,64000.0,64000.0,64000.0,64000.0,64000.0,64000.0,64000.0,64000.0
mean,5.763734,1.481969,242.085656,0.551031,0.549719,0.748469,0.50225,1.319609,0.334172,0.146781
std,3.507592,1.544514,256.158608,0.497393,0.497526,0.697936,0.499999,0.678254,0.471704,0.35389
min,1.0,0.0,29.99,0.0,0.0,0.0,0.0,0.0,0.0,0.0
25%,2.0,0.0,64.66,0.0,0.0,0.0,0.0,1.0,0.0,0.0
50%,6.0,1.0,158.11,1.0,1.0,1.0,1.0,1.0,0.0,0.0
75%,9.0,2.0,325.6575,1.0,1.0,1.0,1.0,2.0,1.0,0.0
max,12.0,6.0,3345.93,1.0,1.0,2.0,1.0,2.0,1.0,1.0


In [6]:
# Проверяем уникальные значения в категориальных переменных
print("\nУникальные значения в категориальных переменных:")
categorical_cols = ['history_segment', 'zip_code', 'newbie', 'channel', 'treatment', 'target', 'mens', 'womens']
for col in categorical_cols:
    print(f"{col}: {df[col].unique()}")


Уникальные значения в категориальных переменных:
history_segment: [1 2 4 0 5 3 6]
zip_code: [1 2 0]
newbie: [0 1]
channel: [1 2 0]
treatment: [1 0]
target: [0 1]
mens: [1 0]
womens: [0 1]


***Вывод:***
- Импортированы библиотеки
- Загружен датасет: 64,000 строк × 10 столбцов
- Данные соответствуют описанию
- Пропуски отсутствуют

## Этап 2

### EDA


Сделайте вывод на основе EDA в данной ячейке

# Этап 2

### Проверка на статистическую значимость

Обоснуйте выбор статистического теста в данной ячейке

## Построение корреляций

Сделайте вывод о корреляциях признаков друг с другом и таргетом в этой ячейке

## Этап 3

Обоснуйте выбор конкретной uplift модели в данной ячейке

### Советы по обучению и инференсу моделей
1. Некоторые uplift модели из библиотеки `causalml` будут требовать категориальные значения воздействия. Для этого используйте маппинг
#### Пример использования маппинга
```python
treatment_mapping = {
    0: 'control',
    1: 'treatment'
}
treatment_train_mapped = treatment_train.map(treatment_mapping)
treatment_test_mapped = treatment_test.map(treatment_mapping)
```

2. При вызове метода `.predict` и получения метрик для тестовой выборки не забывайте применять к прогнозам метод `squeeze()`, чтобы преобразовать многомерный массив в одномерный, что поможет получить адекватные метрики.

3. Для воспроизводимости результатов и объективной оценки не забывайте применять `random_state=42` для моделей, а также при разделении выборки

### Разбиение выборки на тренировочную и тестовую

### Обучение выбранного бейзлайна

### Расчет метрик для выбранного бейзлайна на тестовой выборке

# Обучение 2 моделей 

### Обучение модели 1

### Получение метрик по модели 1

### Обучение модели 2

### Получение метрик по модели 2

Проинтерпретируйте полученные результаты и обоснуйте выбор 1 модели в этой ячейке

# Часть 2

## Этап 1
Улучшите бейзлайн выбранной модели

#### Генерация признаков (опционально)

### Подбор гиперпараметров

In [7]:
from optuna import create_study
from sklift.metrics import uplift_at_k

def objective(trial):
    # Дополните код для подбора гиперпараметров

    uplift_at_30 = uplift_at_k(y_test, uplift_pred, treatment_test, k=0.3, strategy='overall')
    return uplift_at_30

# Создаем и запускаем исследование
study = create_study(direction='maximize')
study.optimize(objective, n_trials=100)

# Выводим лучшие гиперпараметры
print("Best hyperparameters: ", study.best_params)
print("Best score: ", study.best_value)


[I 2025-09-16 06:34:20,565] A new study created in memory with name: no-name-f43e543b-a89a-49c5-a420-0ba9530861bd
[W 2025-09-16 06:34:20,567] Trial 0 failed with parameters: {} because of the following error: NameError("name 'y_test' is not defined").
Traceback (most recent call last):
  File "/home/mle-user/mle_projects/mle-sprint5-uplift/.uplift_env/lib/python3.10/site-packages/optuna/study/_optimize.py", line 201, in _run_trial
    value_or_values = func(trial)
  File "/tmp/ipykernel_2480/2685810187.py", line 7, in objective
    uplift_at_30 = uplift_at_k(y_test, uplift_pred, treatment_test, k=0.3, strategy='overall')
NameError: name 'y_test' is not defined
[W 2025-09-16 06:34:20,570] Trial 0 failed with value None.


NameError: name 'y_test' is not defined

## Этап 2

### Визуализация результатов

In [None]:
from utils import custom_uplift_by_percentile

В данной ячейке сделайте вывод о качестве работы модели и проинтерпретируйте график `uplift by percentile` 

# Этап 3

In [None]:
# Класс для инференса модели
class UpliftModelInference:
    """
    Класс для инференса uplift модели.
    """
    
    def __init__(self, model, feature_names, logger=None):
        """
        Инициализация класса.
        
        Аргументы:
            model: Обученная модель uplift
            feature_names: Список признаков для предсказания 
            logger: Объект для логирования (по умолчанию None)
        """
        self.model = model
        self.feature_names = ['recency', 'history_segment', 'history', 'mens', 'womens', 'zip_code', 'newbie', 'channel']
        self.logger = logger
        
        if self.logger:
            self.logger.info("Модель UpliftModel инициализирована с признаками: %s", feature_names)

    def _transform_data(self, X):
        """
        Преобразование данных для модели.
        
        Аргументы:
            X: pandas.DataFrame с признаками
        """
        if self.logger:
            self.logger.debug("Преобразование входных данных размерности %s", X.shape)

        # реализуйте преобразование данных для модели,
        # если в финальной модели используются новые признаки
       

        return X
    
    def predict(self, X):
        """
        Получение предсказаний uplift.
        
        Аргументы:
            X: pandas.DataFrame с признаками
            
        Возвращает:
            numpy.array с предсказанными значениями uplift
        """
        # Проверяем, что датафрейм не пустой
        if X.empty:
            if self.logger:
                self.logger.error("Предоставлен пустой датафрейм")
            return None
            
        # Проверяем наличие пропущенных значений
        if X.isnull().any().any():
            if self.logger:
                self.logger.error("Входные данные содержат пропущенные значения")
            return [None]*len(X)
        
        if self.logger:
            self.logger.info("Выполняем предсказания для данных размерности %s", X.shape)

        # Проверяем наличие всех необходимых признаков
        missing_features = set(self.feature_names) - set(X.columns)
        if missing_features:
            error_msg = f"Отсутствуют признаки: {missing_features}"
            if self.logger:
                self.logger.error(error_msg)

            return [None]*len(X)
        
        # Преобразуем данные для модели
        if self.logger:
            self.logger.debug("Начинаем преобразование данных")
        X = self._transform_data(X)
        
        # Вычисляем uplift
        if self.logger:
            self.logger.debug("Выполняем предсказания модели")
        

        # Дополните код для получения предсказаний аплифта

        
        if self.logger:
            self.logger.info("Предсказания успешно завершены")
            
        return uplift


In [None]:
model = UpliftModelInference(model= # ваш код,
                             feature_names= # ваш код)

In [None]:
test_data = pd.DataFrame({
            'recency': [1, 2, 3],
            'history_segment': [1, 2, 3], 
            'history': [100, 200, 300],
            'mens': [1, 0, 1],
            'womens': [0, 1, 0],
            'zip_code': [1, 0, 1],
            'newbie': [0, 1, 0],
            'channel': [1, 2, 0]
        })

In [None]:
# проверка работы класса
model.predict(test_data)