In [None]:
# notebooks/EDA/eda.ipynb

# --- Настройка окружения ---
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# --- Загрузка данных ---
sessions = pd.read_pickle('../../data/processed_data/processed_sessions.pkl')
hits = pd.read_pickle('../../data/processed_data/processed_hits.pkl')

print(f"✅ sessions.shape = {sessions.shape}")
print(f"✅ hits.shape = {hits.shape}")

# --- 1. Первичный обзор ---
print("\n--- Sessions Info ---")
print(sessions.info())
print("\n--- Hits Info ---")
print(hits.info())

print("\n--- Sessions Target Distribution ---")
print(sessions['target'].value_counts(normalize=True))

# --- 2. Распределение целевой переменной ---
plt.figure()
sessions['target'].value_counts().plot(kind='bar', color=['skyblue', 'salmon'])
plt.title('Target Distribution')
plt.xlabel('Target (0/1)')
plt.ylabel('Count')
plt.show()

# --- 3. Числовые признаки ---
numeric_features = ['visit_number', 'screen_width', 'screen_height']

print("\n--- Numeric Features Description ---")
print(sessions[numeric_features].describe())

for col in numeric_features:
    plt.figure()
    sns.histplot(sessions[col].dropna(), kde=True, bins=30)
    plt.title(f'Distribution of {col}')
    plt.xlabel(col)
    plt.ylabel('Frequency')
    plt.show()

# --- 4. Категориальные признаки ---
categorical_features = [
    'utm_source', 'utm_medium', 'utm_campaign', 'utm_adcontent', 'utm_keyword',
    'device_category', 'device_os', 'device_brand', 'device_model',
    'device_browser', 'geo_country', 'geo_city'
]

for col in categorical_features:
    if sessions[col].nunique() < 30:  # чтобы не строить слишком много баров
        plt.figure()
        sns.countplot(data=sessions, y=col, order=sessions[col].value_counts().index)
        plt.title(f'Distribution of {col}')
        plt.xlabel('Count')
        plt.ylabel(col)
        plt.show()

# --- 5. Корреляция числовых признаков с таргетом ---
corr_matrix = sessions[numeric_features + ['target']].corr()

plt.figure()
sns.heatmap(corr_matrix, annot=True, cmap='coolwarm', fmt='.2f')
plt.title('Correlation Matrix')
plt.show()

# --- 6. Поведение пользователей ---
# Сколько событий на сессию?
events_per_session = hits.groupby('session_id').size().rename('n_events')

# Объединяем
sessions = sessions.join(events_per_session, on='session_id').fillna(0)

# Распределение количества событий
plt.figure()
sns.histplot(sessions['n_events'], bins=50, kde=True)
plt.xlim(0, 100)
plt.title('Number of Events per Session')
plt.xlabel('Number of Events')
plt.ylabel('Frequency')
plt.show()

# Boxplot по таргету
plt.figure()
sns.boxplot(x='target', y='n_events', data=sessions)
plt.title('Events per Session by Target')
plt.xlabel('Target')
plt.ylabel('Number of Events')
plt.ylim(0, 100)
plt.show()

# --- 7. ТОП страничек и рефереров ---
print("\n--- Top Pages ---")
print(hits['hit_page_path'].value_counts().head(10))

plt.figure()
hits['hit_page_path'].value_counts().head(10).plot(kind='barh')
plt.title('Top 10 Pages')
plt.xlabel('Hits')
plt.ylabel('Page Path')
plt.show()

print("\n--- Top Referers ---")
print(hits['hit_referer'].value_counts().head(10))

plt.figure()
hits['hit_referer'].value_counts().head(10).plot(kind='barh', color='orange')
plt.title('Top 10 Referers')
plt.xlabel('Hits')
plt.ylabel('Referer')
plt.show()

# --- 8. Анализ действий (event_action) ---
print("\n--- Top Event Actions ---")
print(hits['event_action'].value_counts().head(10))

plt.figure()
hits['event_action'].value_counts().head(10).plot(kind='bar')
plt.title('Top 10 Event Actions')
plt.xlabel('Event Action')
plt.ylabel('Count')
plt.show()

# --- 9. Конечный вывод ---
print("\n--- Summary ---")
print(f"Всего сессий: {sessions.shape[0]}")
print(f"Всего событий: {hits.shape[0]}")
print(f"Конверсия (target=1): {sessions['target'].mean():.4f}")
print(f"Среднее число событий на сессию: {sessions['n_events'].mean():.2f}")

print("\n📊 Базовый EDA завершён.")
