# 🏃‍♂️ Trening Modelu Przewidywania Czasu Półmaratonu

## Cel:
Wytrenować model sklearn do przewidywania czasu półmaratonu na podstawie:
- Wieku biegacza
- Płci
- Tempa na 5km
- Tempa na 10km (jeśli dostępne)

## Dane:
- halfmarathon_wroclaw_2023__final.csv
- halfmarathon_wroclaw_2024__final(2).csv

In [None]:
# 📦 IMPORTY
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
import joblib
import warnings
warnings.filterwarnings('ignore')

print("✅ Importy załadowane!")

In [None]:
# 📊 WCZYTANIE DANYCH
print("📊 Wczytywanie danych...")

# Wczytaj dane z obu lat
df_2023 = pd.read_csv('../data/halfmarathon_wroclaw_2023__final.csv')
df_2024 = pd.read_csv('../data/halfmarathon_wroclaw_2024__final(2).csv')

print(f"📈 Dane 2023: {df_2023.shape[0]} rekordów, {df_2023.shape[1]} kolumn")
print(f"📈 Dane 2024: {df_2024.shape[0]} rekordów, {df_2024.shape[1]} kolumn")

# Sprawdź kolumny
print("\n🔍 Kolumny 2023:")
print(df_2023.columns.tolist())
print("\n🔍 Kolumny 2024:")
print(df_2024.columns.tolist())

In [None]:
# 🔍 EKSPLORACJA DANYCH
print("🔍 Eksploracja danych 2023:")
print(df_2023.head())
print("\n📊 Info:")
print(df_2023.info())
print("\n📈 Statystyki:")
print(df_2023.describe())

In [None]:
# 🧹 CZYSZCZENIE I PRZYGOTOWANIE DANYCH
def clean_and_prepare_data(df, year):
    """Czyści i przygotowuje dane do treningu modelu"""
    print(f"🧹 Czyszczenie danych {year}...")
    
    df_clean = df.copy()
    
    # Dodaj rok jako kolumnę
    df_clean['year'] = year
    
    # Znajdź kolumny z czasami i wiekiem
    time_cols = [col for col in df_clean.columns if 'time' in col.lower() or 'czas' in col.lower()]
    age_cols = [col for col in df_clean.columns if 'age' in col.lower() or 'wiek' in col.lower()]
    gender_cols = [col for col in df_clean.columns if 'gender' in col.lower() or 'płeć' in col.lower() or 'sex' in col.lower()]
    
    print(f"⏰ Kolumny czasowe: {time_cols}")
    print(f"👤 Kolumny wiekowe: {age_cols}")
    print(f"⚧ Kolumny płci: {gender_cols}")
    
    return df_clean

# Wyczyść dane
df_2023_clean = clean_and_prepare_data(df_2023, 2023)
df_2024_clean = clean_and_prepare_data(df_2024, 2024)

In [None]:
# 🔗 POŁĄCZENIE DANYCH
print("🔗 Łączenie danych z obu lat...")

# Znajdź wspólne kolumny
common_cols = list(set(df_2023_clean.columns) & set(df_2024_clean.columns))
print(f"📊 Wspólne kolumny ({len(common_cols)}): {common_cols[:10]}...")

# Połącz dane używając wspólnych kolumn
df_combined = pd.concat([
    df_2023_clean[common_cols],
    df_2024_clean[common_cols]
], ignore_index=True)

print(f"✅ Połączone dane: {df_combined.shape[0]} rekordów, {df_combined.shape[1]} kolumn")
print(f"📈 Rozkład lat: {df_combined['year'].value_counts()}")

In [None]:
# 🎯 IDENTYFIKACJA KLUCZOWYCH KOLUMN
print("🎯 Identyfikacja kluczowych kolumn...")

# Wyświetl wszystkie kolumny dla analizy
print("📋 Wszystkie dostępne kolumny:")
for i, col in enumerate(df_combined.columns):
    print(f"{i+1:2d}. {col}")

# Sprawdź brakujące wartości
print("\n❌ Brakujące wartości:")
missing = df_combined.isnull().sum()
missing_pct = (missing / len(df_combined)) * 100
missing_df = pd.DataFrame({
    'Kolumna': missing.index,
    'Brakujące': missing.values,
    'Procent': missing_pct.values
}).sort_values('Procent', ascending=False)

print(missing_df.head(10))

In [None]:
# 🏃‍♂️ FEATURE ENGINEERING
print("🏃‍♂️ Feature Engineering...")

# Ta komórka będzie dostosowana po zobaczeniu rzeczywistych kolumn
# Tutaj zidentyfikujemy:
# - Kolumnę z czasem końcowym (target)
# - Kolumnę z wiekiem
# - Kolumnę z płcią
# - Kolumny z czasami na 5km, 10km

print("⏳ Czekam na analizę kolumn...")

In [None]:
# 🤖 TRENOWANIE MODELU
print("🤖 Trenowanie modelu...")

# Ten kod będzie uzupełniony po identyfikacji kolumn
print("⏳ Czekam na przygotowanie features...")

In [None]:
# 💾 ZAPIS MODELU
print("💾 Zapisywanie modelu...")

# model_path = '../models/halfmarathon_predictor.pkl'
# joblib.dump(best_model, model_path)
# print(f"✅ Model zapisany: {model_path}")

print("⏳ Czekam na wytrenowanie modelu...")