<a href="https://colab.research.google.com/github/gurovic/MLCourse/blob/main/013_create_data.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Создание синтетических данных

#### 🟢 Базовый уровень (Must Know)
**Цель:** Научиться генерировать простые структуры данных

In [None]:
import numpy as np
import pandas as pd

# Равномерное распределение (цены товаров)
prices = np.random.uniform(10, 100, 1000)

# Нормальное распределение (рост пользователей)
heights = np.random.normal(175, 10, 1000)

# Биномиальное распределение (конверсии)
conversions = np.random.binomial(1, 0.3, 1000)

In [None]:
# Простые A/B-тесты
def generate_ab_data(n=1000, effect=0):
    return pd.DataFrame({
        'group': np.random.choice(['A', 'B'], n),
        'converted': np.random.binomial(1, 0.2 + effect, n)
    })

# Пример использования
ab_data = generate_ab_data()
ab_data.head()

In [None]:
# Базовые временные ряды
dates = pd.date_range('2023-01-01', periods=30)
sales = 50 + np.random.normal(0, 5, 30)
time_series = pd.DataFrame({'date': dates, 'sales': sales})
time_series.plot(x='date', y='sales', title='Продажи')

#### 🟡 Продвинутый уровень (Good to Know)
**Цель:** Генерация данных для ML моделей

In [None]:
from sklearn.datasets import make_classification, make_regression

# Классификация
X_cls, y_cls = make_classification(
    n_samples=1000,
    n_features=10,
    n_informative=5,
    n_classes=3,
    class_sep=1.5,
    random_state=42
)

# Регрессия
X_reg, y_reg = make_regression(
    n_samples=500,
    n_features=7,
    noise=20,
    bias=100,
    random_state=42
)

In [None]:
# Сложные A/B-тесты
def generate_ab_data_advanced(n=2000):
    groups = np.random.choice(['A', 'B'], n)
    effect = np.where(groups == 'B', 0.08, 0)
    return pd.DataFrame({
        'group': groups,
        'converted': np.random.binomial(1, 0.25 + effect),
        'session_duration': np.random.exponential(300, n)
    })

# Пример использования
ab_advanced = generate_ab_data_advanced()
ab_advanced.groupby('group').mean()

#### 🔴 Экспертный уровень (Nice to Know)
**Цель:** Моделирование сложных реалистичных сценариев

In [None]:
# Несбалансированные данные
X_imb, y_imb = make_classification(
    n_samples=5000,
    weights=[0.95, 0.05],  # 5% миноритарного класса
    flip_y=0.02,
    random_state=42
)
print(f"Соотношение классов: {sum(y_imb==0)} vs {sum(y_imb==1)}")

In [None]:
# Симулятор транзакций
def generate_transactions(n=10000):
    is_fraud = np.random.binomial(1, 0.01, n)
    amounts = np.where(
        is_fraud,
        np.random.lognormal(6, 0.5, n),
        np.random.normal(50, 15, n)
    )
    return pd.DataFrame({
        'amount': amounts,
        'hour': np.random.randint(0, 24, n),
        'is_fraud': is_fraud
    })

# Пример использования
transactions = generate_transactions()
transactions.groupby('is_fraud').describe()

In [None]:
# Uplift-моделирование
def generate_uplift_data(n=5000):
    treatment = np.random.choice(['control', 'email', 'sms'], n)
    uplift = np.random.normal(0.05, 0.02, n)
    base_rate = 0.15
    prob = base_rate + np.where(
        treatment == 'control', 0,
        uplift + np.random.normal(0, 0.01, n)
    )
    return pd.DataFrame({
        'treatment': treatment,
        'converted': np.random.binomial(1, prob)
    })

# Пример использования
uplift_data = generate_uplift_data()
uplift_data.groupby('treatment')['converted'].mean()

### 📊 Чеклист по уровням
| Уровень | Навыки | Инструменты |
|---------|--------|-------------|
| **🟢** | Базовые распределения, простые A/B-тесты | `numpy.random`, `pandas` |
| **🟡** | Генерация данных для ML, многовариативные тесты | `make_classification`, `make_regression` |
| **🔴** | Несбалансированные данные, uplift-моделирование, симуляция транзакций | Кастомные генераторы |

### ⚠️ Антипаттерны
1. **Игнорирование распределений**  
   ```python
   # Плохо: доходы с нормальным распределением
   incomes = np.random.normal(50000, 15000, 1000)
   
   # Хорошо: логнормальное распределение
   incomes = np.random.lognormal(10, 0.5, 1000)
   ```

2. **Нереалистичные A/B-тесты**  
   ```python
   # Плохо: одинаковое распределение в группах
   group_a = np.random.normal(100, 10, 500)
   group_b = np.random.normal(100, 10, 500)
   ```

3. **Пренебрежение временными паттернами**  
   ```python
   # Плохо: равномерная активность
   hourly_activity = np.random.poisson(50, 24)
   
   # Хорошо: пики в определенные часы
   peaks = [9, 12, 19]
   hourly_activity = [100 if h in peaks else 30 for h in range(24)]
   ```

### 💡 Полезные практики
1. **Воспроизводимость**  
   Всегда устанавливайте `random_state`:
   ```python
   np.random.seed(42)
   ```

2. **Валидация данных**  
   Проверяйте статистики:
   ```python
   print(df.describe())
   df['is_fraud'].value_counts(normalize=True)
   ```

3. **Визуализация**  
   Строите графики для проверки:
   ```python
   import matplotlib.pyplot as plt
   plt.hist(df['amount'], bins=50)
   plt.show()
   ```

### 📌 Итог
1. **🟢 Базовый уровень**: Освойте генерацию случайных чисел и простых датасетов  
2. **🟡 Продвинутый уровень**: Учитесь создавать данные для ML-моделей  
3. **🔴 Экспертный уровень**: Моделируйте сложные доменные сценарии  

> **Философия главы:**  
> "Синтетические данные — это песочница для аналитика. Стройте в ней любые эксперименты, но помните: реальный мир всегда сложнее вашей модели."