# Профилирование данных Divvy Bikes

Этот notebook демонстрирует использование DataProfiler для анализа данных.

In [1]:
# Автоперезагрузка модулей
%load_ext autoreload
%autoreload 2

In [2]:
# Настройка путей
import sys
from pathlib import Path

project_root = Path.cwd().parent
sys.path.insert(0, str(project_root))

print(f"Корень проекта: {project_root}")

Корень проекта: /Users/vsevolod/Desktop/divvy-bikes-analysis


In [3]:
# Импорты
import polars as pl
from src.data.load_data import load_raw_data
from src.data.data_profiler import check_data, quick_check, DataProfiler

print("Импорты успешны")

Импорты успешны


## 1. Загрузка данных

In [4]:
# Загружаем данные за январь 2024
print("Загрузка данных...")
trips = load_raw_data(year=2024, month=1)
print(f"Загружено: {trips.shape[0]:,} поездок")

Загрузка данных...
Загружено: 144,873 поездок


## 2. Полный анализ данных

In [5]:
# Полный отчет
check_data(trips)


[96m[1m
╔══════════════════════════════════════════════════════════╗
║               DATA PROFILING REPORT                      ║
╚══════════════════════════════════════════════════════════╝
[0m

  БАЗОВАЯ ИНФОРМАЦИЯ

[1mРазмер датасета:[0m
  Строк: 144,873
  Колонок: 13
  Размер в памяти: 19.07 MB

[1mТипы данных:[0m
  Datetime(time_unit='us', time_zone=None): 2 колонок
  Float64: 4 колонок
  String: 7 колонок

[1mКолонки:[0m
   1. ride_id                        (String)
   2. rideable_type                  (String)
   3. started_at                     (Datetime(time_unit='us', time_zone=None))
   4. ended_at                       (Datetime(time_unit='us', time_zone=None))
   5. start_station_name             (String)
   6. start_station_id               (String)
   7. end_station_name               (String)
   8. end_station_id                 (String)
   9. start_lat                      (Float64)
  10. start_lng                      (Float64)
  11. end_lat                

## 3. Быстрая проверка (без примеров)

In [6]:
# Быстрая проверка
quick_check(trips)


  БАЗОВАЯ ИНФОРМАЦИЯ

[1mРазмер датасета:[0m
  Строк: 144,873
  Колонок: 13
  Размер в памяти: 19.07 MB

[1mТипы данных:[0m
  Datetime(time_unit='us', time_zone=None): 2 колонок
  Float64: 4 колонок
  String: 7 колонок

[1mКолонки:[0m
   1. ride_id                        (String)
   2. rideable_type                  (String)
   3. started_at                     (Datetime(time_unit='us', time_zone=None))
   4. ended_at                       (Datetime(time_unit='us', time_zone=None))
   5. start_station_name             (String)
   6. start_station_id               (String)
   7. end_station_name               (String)
   8. end_station_id                 (String)
   9. start_lat                      (Float64)
  10. start_lng                      (Float64)
  11. end_lat                        (Float64)
  12. end_lng                        (Float64)
  13. member_casual                  (String)

  АНАЛИЗ ПРОПУСКОВ

[1mОбщая статистика:[0m
  Всего пропусков: 80,404
  Доля пропуско

## 4. Использование DataProfiler напрямую

In [7]:
# Создаем профайлер
profiler = DataProfiler(trips)

# Можем вызывать методы по отдельности
profiler.basic_info()


  БАЗОВАЯ ИНФОРМАЦИЯ

[1mРазмер датасета:[0m
  Строк: 144,873
  Колонок: 13
  Размер в памяти: 19.07 MB

[1mТипы данных:[0m
  Datetime(time_unit='us', time_zone=None): 2 колонок
  Float64: 4 колонок
  String: 7 колонок

[1mКолонки:[0m
   1. ride_id                        (String)
   2. rideable_type                  (String)
   3. started_at                     (Datetime(time_unit='us', time_zone=None))
   4. ended_at                       (Datetime(time_unit='us', time_zone=None))
   5. start_station_name             (String)
   6. start_station_id               (String)
   7. end_station_name               (String)
   8. end_station_id                 (String)
   9. start_lat                      (Float64)
  10. start_lng                      (Float64)
  11. end_lat                        (Float64)
  12. end_lng                        (Float64)
  13. member_casual                  (String)


In [8]:
# Только проверка пропусков
profiler.check_missing()


  АНАЛИЗ ПРОПУСКОВ

[1mОбщая статистика:[0m
  Всего пропусков: 80,404
  Доля пропусков: 4.27%
  Строк с пропусками: 31,065 (21.44%)

[1mПропуски по колонкам:[0m
  [93m• start_station_name            :   19,165 (13.23%)[0m
  [93m• start_station_id              :   19,165 (13.23%)[0m
  [93m• end_station_name              :   20,749 (14.32%)[0m
  [93m• end_station_id                :   20,749 (14.32%)[0m
  [92m• end_lat                       :      288 ( 0.20%)[0m
  [92m• end_lng                       :      288 ( 0.20%)[0m


In [11]:
# Только категориальные данные
profiler.describe_categorical()


  КАТЕГОРИАЛЬНЫЕ ДАННЫЕ

[1mНайдено 7 категориальных колонок[0m

[1m[94m▸ ride_id[0m
  Уникальных значений: 144,873
  Пропусков: 0
  Топ-5 значений:
    - F33E699278223B87                        :        1 ( 0.00%)
    - AC2F69CD8F50DB69                        :        1 ( 0.00%)
    - 0BA3D3A4C7DFA930                        :        1 ( 0.00%)
    - 2AFD3854E78879ED                        :        1 ( 0.00%)
    - 6032CBB6F395019A                        :        1 ( 0.00%)

[1m[94m▸ rideable_type[0m
  Уникальных значений: 2
  Пропусков: 0
  Топ-5 значений:
    - classic_bike                            :   76,525 (52.82%)
    - electric_bike                           :   68,348 (47.18%)

[1m[94m▸ start_station_name[0m
  Уникальных значений: 1,000
  Пропусков: 19,165
  Топ-5 значений:
    - None                                    :   19,165 (13.23%)
    - Clinton St & Washington Blvd            :    1,517 ( 1.05%)
    - Kingsbury St & Kinzie St                :    1,458 ( 1.

In [12]:
# Только временные данные
profiler.describe_datetime()


  ВРЕМЕННЫЕ ДАННЫЕ

[1mНайдено 2 временных колонок[0m

[1m[94m▸ started_at[0m
  Минимум: 2024-01-01 00:00:39
  Максимум: 2024-01-31 23:59:40
  Диапазон: 30 дней
  Пропусков: 0

[1m[94m▸ ended_at[0m
  Минимум: 2024-01-01 00:04:20
  Максимум: 2024-02-02 00:01:21
  Диапазон: 31 дней
  Пропусков: 0



## 5. Сравнение разных месяцев

In [13]:
# Сравним январь и июль
print("=" * 60)
print("ЯНВАРЬ 2024")
print("=" * 60)
trips_jan = load_raw_data(year=2024, month=1)
quick_check(trips_jan)

print("\n" + "=" * 60)
print("ИЮЛЬ 2024")
print("=" * 60)
trips_jul = load_raw_data(year=2024, month=7)
quick_check(trips_jul)

ЯНВАРЬ 2024

  БАЗОВАЯ ИНФОРМАЦИЯ

[1mРазмер датасета:[0m
  Строк: 144,873
  Колонок: 13
  Размер в памяти: 19.07 MB

[1mТипы данных:[0m
  Datetime(time_unit='us', time_zone=None): 2 колонок
  Float64: 4 колонок
  String: 7 колонок

[1mКолонки:[0m
   1. ride_id                        (String)
   2. rideable_type                  (String)
   3. started_at                     (Datetime(time_unit='us', time_zone=None))
   4. ended_at                       (Datetime(time_unit='us', time_zone=None))
   5. start_station_name             (String)
   6. start_station_id               (String)
   7. end_station_name               (String)
   8. end_station_id                 (String)
   9. start_lat                      (Float64)
  10. start_lng                      (Float64)
  11. end_lat                        (Float64)
  12. end_lng                        (Float64)
  13. member_casual                  (String)

  АНАЛИЗ ПРОПУСКОВ

[1mОбщая статистика:[0m
  Всего пропусков: 80,404
  Д

## 6. Анализ после фильтрации

In [14]:
# Фильтруем данные
trips_filtered = trips.filter(
    pl.col('start_station_name').is_not_null() &
    pl.col('end_station_name').is_not_null()
)

print(f"До фильтрации: {trips.shape[0]:,} поездок")
print(f"После фильтрации: {trips_filtered.shape[0]:,} поездок")
print(f"Удалено: {trips.shape[0] - trips_filtered.shape[0]:,} поездок\n")

# Анализ отфильтрованных данных
check_data(trips_filtered, show_samples=False)

До фильтрации: 144,873 поездок
После фильтрации: 113,808 поездок
Удалено: 31,065 поездок


[96m[1m
╔══════════════════════════════════════════════════════════╗
║               DATA PROFILING REPORT                      ║
╚══════════════════════════════════════════════════════════╝
[0m

  БАЗОВАЯ ИНФОРМАЦИЯ

[1mРазмер датасета:[0m
  Строк: 113,808
  Колонок: 13
  Размер в памяти: 15.92 MB

[1mТипы данных:[0m
  Datetime(time_unit='us', time_zone=None): 2 колонок
  Float64: 4 колонок
  String: 7 колонок

[1mКолонки:[0m
   1. ride_id                        (String)
   2. rideable_type                  (String)
   3. started_at                     (Datetime(time_unit='us', time_zone=None))
   4. ended_at                       (Datetime(time_unit='us', time_zone=None))
   5. start_station_name             (String)
   6. start_station_id               (String)
   7. end_station_name               (String)
   8. end_station_id                 (String)
   9. start_lat                  