# MongoDB Data Exploration
Исследование данных в MongoDB для подготовки витрин

In [None]:
import sys
sys.path.append('..')

from src.utils.db_connectors import get_mongo_connector
from src.data_engineering.mongo_extractor import MongoExtractor
import pandas as pd
import json

## 1. Connect to MongoDB

In [None]:
# Initialize connector
mongo = get_mongo_connector(config_path='../config/config.yaml')
extractor = MongoExtractor(mongo)

print("Connected to MongoDB")
print(f"Database: {mongo.database_name}")

## 2. List All Collections

In [None]:
collections = mongo.list_collections()
print(f"Found {len(collections)} collections:\n")
for coll in collections:
    count = mongo.get_collection(coll).count_documents({})
    print(f"  - {coll}: {count:,} documents")

## 3. Explore Schema of Key Collections

### Users Collection

In [None]:
# TODO: Замените 'users' на актуальное имя коллекции
users_schema = extractor.explore_schema('users', sample_size=1000)

print("Users Schema:")
print(json.dumps(users_schema, indent=2, default=str))

### Sessions/Workouts Collection

In [None]:
# TODO: Замените 'sessions' на актуальное имя коллекции
sessions_schema = extractor.explore_schema('sessions', sample_size=1000)

print("Sessions Schema:")
print(json.dumps(sessions_schema, indent=2, default=str))

### HeroPass Collection

In [None]:
# TODO: Замените 'heropasses' на актуальное имя коллекции
hp_schema = extractor.explore_schema('heropasses', sample_size=1000)

print("HeroPass Schema:")
print(json.dumps(hp_schema, indent=2, default=str))

## 4. Sample Data Extraction

In [None]:
# Extract sample users
sample_users = extractor.extract_collection_to_df('users', limit=100)
sample_users.head()

In [None]:
# Check data types and missing values
print("Data Info:")
sample_users.info()

print("\nMissing Values:")
print(sample_users.isnull().sum())

## 5. Mapping to Internal Factors

Проверим какие из internal factors мы можем извлечь:

In [None]:
internal_factors = [
    'age', 'gender', 'weight', 'height', 'fat_percentage',
    'location', 'work_type', 'fitness_experience',
    'personality_type', 'friends_count', 'in_clan',
    'social_posts', 'fitness_goal', 'referral_type',
    'had_trial', 'has_children'
]

print("Checking availability of internal factors in MongoDB:")
for factor in internal_factors:
    # TODO: проверить наличие каждого фактора в данных
    print(f"  - {factor}: [TODO]")

## 6. Next Steps

1. Определить mapping между MongoDB полями и нашими факторами
2. Создать SQL скрипты для витрин на основе доступных данных
3. Разработать ETL pipeline для загрузки данных в PostgreSQL