# Визуализация данных Divvy Bikes

Этот notebook демонстрирует различные способы визуализации данных.

In [None]:
# Автоперезагрузка
%load_ext autoreload
%autoreload 2

# Для отображения графиков в notebook
%matplotlib inline

In [None]:
# Настройка путей
import sys
from pathlib import Path

project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

print(f"Корень проекта: {project_root}")

In [None]:
# Импорты
import polars as pl
from src.data.load_data import load_raw_data
from src.visualization.data_explorer import (
    DataExplorer,
    plot_boxplots,
    plot_distributions,
    plot_correlations,
    explore_data
)

print("Импорты успешны")

## 1. Загрузка данных

In [None]:
# Загружаем данные за январь 2024
print("Загрузка данных...")
trips = load_raw_data(year=2024, month=1)
print(f"Загружено: {trips.shape[0]:,} поездок")
print(f"Колонок: {trips.shape[1]}")

## 2. Быстрые функции

### 2.1 Boxplot'ы для числовых переменных

In [None]:
# Boxplot'ы для всех числовых колонок
plot_boxplots(trips)

### 2.2 Распределения числовых переменных

In [None]:
# Гистограммы + KDE
plot_distributions(trips)

### 2.3 Матрица корреляций

In [None]:
# Корреляции между числовыми переменными
plot_correlations(trips)

## 3. Использование DataExplorer

In [None]:
# Создаем исследователь
explorer = DataExplorer(trips)

print(f"Числовых колонок: {len(explorer.numeric_cols)}")
print(f"Категориальных колонок: {len(explorer.categorical_cols)}")
print(f"Временных колонок: {len(explorer.datetime_cols)}")

### 3.1 Категориальные переменные

In [None]:
# Топ-10 значений для категориальных колонок
explorer.plot_categorical_bars(top_n=10)

### 3.2 Временные ряды

In [None]:
# Количество поездок по дням
explorer.plot_time_series('started_at', freq='1d')

In [None]:
# По неделям
explorer.plot_time_series('started_at', freq='1w')

### 3.3 Карта пропусков

In [None]:
# Визуализация пропущенных значений
explorer.plot_missing_heatmap()

### 3.4 Парные графики (pairplot)

In [None]:
# Парные графики для числовых переменных
# Используем выборку для ускорения
explorer.plot_pairplot(sample_size=1000)

## 4. Полное исследование

In [None]:
# Все графики сразу
explore_data(trips, quick=True)

## 5. Кастомные графики

### 5.1 Выбор конкретных колонок

In [None]:
# Только координаты
explorer.plot_numeric_distributions(
    cols=['start_lat', 'start_lng', 'end_lat', 'end_lng'],
    plots_per_row=2
)

In [None]:
# Только определенные категории
explorer.plot_categorical_bars(
    cols=['rideable_type', 'member_casual'],
    top_n=5
)

### 5.2 Разные методы корреляции

In [None]:
# Корреляция Спирмена (для нелинейных зависимостей)
explorer.plot_correlation_matrix(method='spearman')

## 6. Сравнение разных периодов

In [None]:
# Загружаем июль для сравнения
trips_jul = load_raw_data(year=2024, month=7)

print("ЯНВАРЬ 2024:")
explorer_jan = DataExplorer(trips)
explorer_jan.plot_categorical_bars(cols=['rideable_type'], top_n=5)

print("\nИЮЛЬ 2024:")
explorer_jul = DataExplorer(trips_jul)
explorer_jul.plot_categorical_bars(cols=['rideable_type'], top_n=5)

## Готово!

Теперь вы можете:
- Использовать быстрые функции: `plot_boxplots()`, `plot_distributions()`, `plot_correlations()`
- Использовать `DataExplorer` для детального контроля
- Использовать `explore_data()` для полного исследования
- Настраивать графики под свои нужды