In [2]:
# training_pipeline_debug.ipynb
import pandas as pd
import numpy as np
import boto3
import io
import os
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import joblib
from dotenv import load_dotenv

# Za≈Çaduj zmienne ≈õrodowiskowe
load_dotenv()

# Po≈ÇƒÖczenie z DigitalOcean Spaces
session = boto3.session.Session()
s3 = session.client('s3',
                   region_name=os.getenv('DO_SPACES_REGION'),
                   endpoint_url=os.getenv('DO_SPACES_ENDPOINT'),
                   aws_access_key_id=os.getenv('DO_SPACES_KEY'),
                   aws_secret_access_key=os.getenv('DO_SPACES_SECRET'))

# Funkcja do wczytywania CSV z Spaces
def load_csv_from_spaces(filename):
    response = s3.get_object(Bucket=os.getenv('DO_SPACES_BUCKET'), Key=filename)
    return pd.read_csv(io.BytesIO(response['Body'].read()))

print("üì• Wczytywanie danych...")
# Wczytaj dane z 2023 i 2024
df_2023 = load_csv_from_spaces('halfmarathon_wroclaw_2023__final.csv')
df_2024 = load_csv_from_spaces('halfmarathon_wroclaw_2024__final.csv')

print("üîç STRUKTURA DANYCH 2023:")
print("Kolumny:", df_2023.columns.tolist())
print("Pierwsze 5 wierszy:")
print(df_2023.head())
print("\nInfo:")
print(df_2023.info())

print("\nüîç STRUKTURA DANYCH 2024:")
print("Kolumny:", df_2024.columns.tolist())
print("Pierwsze 5 wierszy:")
print(df_2024.head())
print("\nInfo:")
print(df_2024.info())

# Sprawd≈∫ czy kolumny sƒÖ takie same
if df_2023.columns.tolist() == df_2024.columns.tolist():
    print("‚úÖ Kolumny sƒÖ identyczne - mo≈ºna ≈ÇƒÖczyƒá")
else:
    print("‚ùå Kolumny sƒÖ r√≥≈ºne - trzeba dostosowaƒá")

# Po≈ÇƒÖcz dane je≈õli kolumny pasujƒÖ
df = pd.concat([df_2023, df_2024], ignore_index=True)
print(f"\nüìä Po≈ÇƒÖczone dane: {df.shape}")

# POKA≈ª WSZYSTKIE KOLUMNY i ich unikalne warto≈õci
print("\nüéØ ANALIZA KOLUMN:")
for col in df.columns:
    print(f"\n{col}:")
    print(f"  Typ: {df[col].dtype}")
    print(f"  Unikalne warto≈õci: {df[col].nunique()}")
    if df[col].nunique() < 10:
        print(f"  Warto≈õci: {df[col].unique()}")
    print(f"  Braki: {df[col].isnull().sum()}")

üì• Wczytywanie danych...
üîç STRUKTURA DANYCH 2023:
Kolumny: ['Miejsce;Numer startowy;Imiƒô;Nazwisko;Miasto;Kraj;Dru≈ºyna;P≈Çeƒá;P≈Çeƒá Miejsce;Kategoria wiekowa;Kategoria wiekowa Miejsce;Rocznik;5 km Czas;5 km Miejsce Open;5 km Tempo;10 km Czas;10 km Miejsce Open;10 km Tempo;15 km Czas;15 km Miejsce Open;15 km Tempo;20 km Czas;20 km Miejsce Open;20 km Tempo;Tempo Stabilno≈õƒá;Czas;Tempo']
Pierwsze 5 wierszy:
  Miejsce;Numer startowy;Imiƒô;Nazwisko;Miasto;Kraj;Dru≈ºyna;P≈Çeƒá;P≈Çeƒá Miejsce;Kategoria wiekowa;Kategoria wiekowa Miejsce;Rocznik;5 km Czas;5 km Miejsce Open;5 km Tempo;10 km Czas;10 km Miejsce Open;10 km Tempo;15 km Czas;15 km Miejsce Open;15 km Tempo;20 km Czas;20 km Miejsce Open;20 km Tempo;Tempo Stabilno≈õƒá;Czas;Tempo
0  1.0;1787;TOMASZ;GRYCKO;;POL;UKS BLIZA W≈ÅADYS≈ÅA...                                                                                                                                                                                                        

In [3]:
# training_pipeline_fixed.ipynb
import pandas as pd
import numpy as np
import boto3
import io
import os
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import joblib
from dotenv import load_dotenv

# Za≈Çaduj zmienne ≈õrodowiskowe
load_dotenv()

# Po≈ÇƒÖczenie z DigitalOcean Spaces
session = boto3.session.Session()
s3 = session.client('s3',
                   region_name=os.getenv('DO_SPACES_REGION'),
                   endpoint_url=os.getenv('DO_SPACES_ENDPOINT'),
                   aws_access_key_id=os.getenv('DO_SPACES_KEY'),
                   aws_secret_access_key=os.getenv('DO_SPACES_SECRET'))

# Funkcja do wczytywania i rozdzielania CSV
def load_and_split_csv_from_spaces(filename):
    response = s3.get_object(Bucket=os.getenv('DO_SPACES_BUCKET'), Key=filename)
    # Wczytaj jako pojedynczƒÖ kolumnƒô
    df_temp = pd.read_csv(io.BytesIO(response['Body'].read()))
    
    # Rozdziel kolumny wed≈Çug ≈õrednika
    df_split = df_temp.iloc[:, 0].str.split(';', expand=True)
    
    # Ustaw nazwy kolumn z pierwszego wiersza
    df_split.columns = df_split.iloc[0]
    df_split = df_split[1:]  # Usu≈Ñ pierwszy wiersz (nag≈Ç√≥wki)
    
    return df_split

print("üì• Wczytywanie i przetwarzanie danych...")
# Wczytaj i rozdziel dane
df_2023 = load_and_split_csv_from_spaces('halfmarathon_wroclaw_2023__final.csv')
df_2024 = load_and_split_csv_from_spaces('halfmarathon_wroclaw_2024__final.csv')

print("üîç STRUKTURA DANYCH 2023 PO ROZDZIELENIU:")
print("Kolumny:", df_2023.columns.tolist())
print("Wymiar:", df_2023.shape)
print("\nPierwsze 3 wiersze:")
print(df_2023.head(3))

print("\nüîç STRUKTURA DANYCH 2024 PO ROZDZIELENIU:")
print("Kolumny:", df_2024.columns.tolist())
print("Wymiar:", df_2024.shape)
print("\nPierwsze 3 wiersze:")
print(df_2024.head(3))

# Po≈ÇƒÖcz dane
df = pd.concat([df_2023, df_2024], ignore_index=True)
print(f"\nüìä Po≈ÇƒÖczone dane: {df.shape}")

# ANALIZA KOLUMN - kt√≥re nas interesujƒÖ
print("\nüéØ KOLUMNY DO MODELU:")
interesting_cols = ['P≈Çeƒá', 'Rocznik', '5 km Czas', '5 km Tempo', 'Czas', 'Tempo']
for col in interesting_cols:
    if col in df.columns:
        print(f"\n{col}:")
        print(f"  Przyk≈Çadowe warto≈õci: {df[col].head(3).tolist()}")
        print(f"  Unikalne: {df[col].nunique()}")
        print(f"  Braki: {df[col].isnull().sum()}")

# Przygotowanie danych do modelu
print("\nüîß Przygotowanie danych do trenowania...")

# Konwersja typ√≥w danych
df['Rocznik'] = pd.to_numeric(df['Rocznik'], errors='coerce')
df['Czas'] = df['Czas'].astype(str)

# Funkcja do konwersji czasu HH:MM:SS na sekundy
def time_to_seconds(time_str):
    try:
        if pd.isna(time_str):
            return None
        parts = str(time_str).split(':')
        if len(parts) == 3:  # HH:MM:SS
            return int(parts[0]) * 3600 + int(parts[1]) * 60 + int(parts[2])
        elif len(parts) == 2:  # MM:SS
            return int(parts[0]) * 60 + int(parts[1])
        else:
            return None
    except:
        return None

# Konwersja czas√≥w na sekundy
df['half_marathon_seconds'] = df['Czas'].apply(time_to_seconds)
df['pace_5km_seconds'] = df['5 km Tempo'].apply(time_to_seconds)

# P≈Çeƒá na liczby (M -> 1, K -> 0)
df['sex_numeric'] = df['P≈Çeƒá'].map({'M': 1, 'K': 0})

# Wiek z rocznika
current_year = 2024
df['age'] = current_year - df['Rocznik']

# Przygotowanie cech i targetu
features = df[['sex_numeric', 'age', 'pace_5km_seconds']].dropna()
target = df.loc[features.index, 'half_marathon_seconds']

print(f"\nüìä Dane do trenowania:")
print(f"Cechy: {features.shape}")
print(f"Target: {target.shape}")

if len(features) > 0:
    # Podzia≈Ç na train/test
    X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)

    print(f"Train: {X_train.shape}, Test: {X_test.shape}")

    # Trenowanie modelu
    print("\nü§ñ Trenowanie modelu...")
    model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
    model.fit(X_train, y_train)

    # Ewaluacja
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    mse = mean_squared_error(y_test, y_pred)

    print(f"\nüìä Wyniki modelu:")
    print(f"MAE: {mae:.2f} sekund ({mae/60:.1f} minut)")
    print(f"MSE: {mse:.2f}")
    print(f"RMSE: {np.sqrt(mse):.2f} sekund")

    # Zapis modelu do DigitalOcean Spaces
    print("\nüíæ Zapis modelu...")
    model_bytes = io.BytesIO()
    joblib.dump(model, model_bytes)
    model_bytes.seek(0)

    s3.upload_fileobj(model_bytes, 
                      os.getenv('DO_SPACES_BUCKET'), 
                      'trained_model.pkl')

    print("‚úÖ Model zapisany w DO Spaces!")

    # Feature importance
    feature_importance = pd.DataFrame({
        'feature': features.columns,
        'importance': model.feature_importances_
    }).sort_values('importance', ascending=False)

    print(f"\nüéØ Wa≈ºno≈õƒá cech:")
    print(feature_importance)

    print("\nüéâ Pipeline treningowy zako≈Ñczony!")
else:
    print("‚ùå Brak danych do trenowania!")

üì• Wczytywanie i przetwarzanie danych...
üîç STRUKTURA DANYCH 2023 PO ROZDZIELENIU:
Kolumny: ['1.0', '1787', 'TOMASZ', 'GRYCKO', '', 'POL', 'UKS BLIZA W≈ÅADYS≈ÅAWOWO', 'M', '1', 'M30', '1', '1992.0', '00:14:37', '1.0', '2.9233333333333333', '00:29:15', '1.0', '2.9266666666666667', '00:44:47', '1.0', '3.106666666666667', '01:01:43', '1.0', '3.3866666666666663', '0.031399999999999956', '01:04:59', '3.0805088093545074']
Wymiar: (8949, 27)

Pierwsze 3 wiersze:
0  1.0  1787     TOMASZ         GRYCKO           POL  \
1  2.0     3  ARKADIUSZ  GARDZIELEWSKI  WROC≈ÅAW  POL   
2  3.0  3832  KRZYSZTOF          HADAS   POZNA≈É  POL   
3  4.0   416     DAMIAN         DYDUCH    KƒòPNO  POL   

0     UKS BLIZA W≈ÅADYS≈ÅAWOWO  M  1  M30  ...  2.9266666666666667  00:44:47  \
1  ARKADIUSZGARDZIELEWSKI.PL  M  2  M30  ...  2.9833333333333334  00:45:26   
2                             M  3  M20  ...  3.1233333333333335  00:47:34   
3   AZS POLITECHNIKA OPOLSKA  M  4  M30  ...  3.1966666666666668  00:48:

InvalidIndexError: Reindexing only valid with uniquely valued Index objects

In [5]:
# training_pipeline_fixed_v3.ipynb
import pandas as pd
import numpy as np
import boto3
import io
import os
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import joblib
from dotenv import load_dotenv

# Za≈Çaduj zmienne ≈õrodowiskowe
load_dotenv()

# Po≈ÇƒÖczenie z DigitalOcean Spaces
session = boto3.session.Session()
s3 = session.client('s3',
                   region_name=os.getenv('DO_SPACES_REGION'),
                   endpoint_url=os.getenv('DO_SPACES_ENDPOINT'),
                   aws_access_key_id=os.getenv('DO_SPACES_KEY'),
                   aws_secret_access_key=os.getenv('DO_SPACES_SECRET'))

# Funkcja do wczytywania i przetwarzania ka≈ºdego roku osobno
def process_year_data(filename, year):
    response = s3.get_object(Bucket=os.getenv('DO_SPACES_BUCKET'), Key=filename)
    df_temp = pd.read_csv(io.BytesIO(response['Body'].read()))
    
    # Rozdziel kolumny wed≈Çug ≈õrednika
    df_split = df_temp.iloc[:, 0].str.split(';', expand=True)
    
    # Ustaw nazwy kolumn z pierwszego wiersza
    original_columns = df_split.iloc[0].tolist()
    df_split.columns = original_columns
    df_split = df_split[1:]  # Usu≈Ñ nag≈Ç√≥wki
    
    # Mapowanie kolumn na podstawie analizy struktury
    column_mapping = {
        'P≈Çeƒá': 'P≈Çeƒá',
        'Rocznik': 'Rocznik', 
        '5 km Tempo': '5 km Tempo',
        'Czas': 'Czas'
    }
    
    # Znajd≈∫ w≈Ça≈õciwe kolumny
    actual_mapping = {}
    for target_col in column_mapping.keys():
        for actual_col in df_split.columns:
            if target_col in actual_col:
                actual_mapping[target_col] = actual_col
                break
    
    print(f"üìä {year} - znalezione kolumny:")
    for target, actual in actual_mapping.items():
        print(f"  {target}: {actual}")
    
    # Wybierz tylko potrzebne kolumny
    selected_data = df_split[list(actual_mapping.values())].copy()
    selected_data.columns = list(actual_mapping.keys())  # Ustandaryzuj nazwy
    selected_data['Year'] = year
    
    return selected_data

print("üì• Przetwarzanie danych 2023...")
df_2023 = process_year_data('halfmarathon_wroclaw_2023__final.csv', 2023)

print("\nüì• Przetwarzanie danych 2024...")
df_2024 = process_year_data('halfmarathon_wroclaw_2024__final.csv', 2024)

# Po≈ÇƒÖcz dane
df = pd.concat([df_2023, df_2024], ignore_index=True)
print(f"\nüìä Po≈ÇƒÖczone dane: {df.shape}")

print("\nüîç PRZYK≈ÅADOWE DANE:")
print(df.head())

# Przygotowanie danych do modelu
print("\nüîß Przygotowanie danych do trenowania...")

# Funkcja do konwersji czasu na sekundy
def time_to_seconds(time_str):
    try:
        if pd.isna(time_str) or time_str == '':
            return None
        time_str = str(time_str).strip()
        parts = time_str.split(':')
        if len(parts) == 3:  # HH:MM:SS
            return int(parts[0]) * 3600 + int(parts[1]) * 60 + int(parts[2])
        elif len(parts) == 2:  # MM:SS
            return int(parts[0]) * 60 + int(parts[1])
        else:
            return None
    except:
        return None

# Funkcja do konwersji tempa (MM:SS/km) na sekundy/km
def pace_to_seconds(pace_str):
    try:
        if pd.isna(pace_str) or pace_str == '':
            return None
        pace_str = str(pace_str).strip()
        if '.' in pace_str:  # Liczba dziesiƒôtna (minuty)
            return float(pace_str) * 60
        else:  # Format MM:SS
            parts = pace_str.split(':')
            if len(parts) == 2:
                return int(parts[0]) * 60 + int(parts[1])
            else:
                return None
    except:
        return None

# Konwersja danych
df['sex_numeric'] = df['P≈Çeƒá'].map({'M': 1, 'K': 0, 'M ': 1, 'K ': 0})
df['Rocznik_num'] = pd.to_numeric(df['Rocznik'], errors='coerce')
df['half_marathon_seconds'] = df['Czas'].apply(time_to_seconds)
df['pace_5km_seconds'] = df['5 km Tempo'].apply(pace_to_seconds)

# Oblicz wiek
df['age'] = df['Year'] - df['Rocznik_num']

print(f"\nüìä Dane po przetworzeniu:")
print(f"Przyk≈Çadowe wiersze:")
sample_data = df[['P≈Çeƒá', 'sex_numeric', 'Rocznik', 'age', '5 km Tempo', 'pace_5km_seconds', 'Czas', 'half_marathon_seconds']].head(10)
print(sample_data)

# Statystyki
print(f"\nüìà STATYSTYKI:")
print(f"Liczba rekord√≥w: {len(df)}")
print(f"P≈Çeƒá M/K: {df['sex_numeric'].value_counts().to_dict()}")
print(f"Wiek - min: {df['age'].min()}, max: {df['age'].max()}")
print(f"Czas p√≥≈Çmaratonu - min: {df['half_marathon_seconds'].min()/60:.1f}min, max: {df['half_marathon_seconds'].max()/60:.1f}min")

# Przygotowanie cech i targetu
features = df[['sex_numeric', 'age', 'pace_5km_seconds']].dropna()
target = df.loc[features.index, 'half_marathon_seconds']

# Usu≈Ñ rekordy gdzie target jest None
valid_idx = target.notna()
features = features[valid_idx]
target = target[valid_idx]

print(f"\nüìä Dane do trenowania:")
print(f"Cechy: {features.shape}")
print(f"Target: {target.shape}")

if len(features) > 100:
    # Podzia≈Ç na train/test
    X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
    
    print(f"Train: {X_train.shape}, Test: {X_test.shape}")
    
    # Trenowanie modelu
    print("\nü§ñ Trenowanie modelu...")
    model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
    model.fit(X_train, y_train)
    
    # Ewaluacja
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    
    print(f"\nüìä Wyniki modelu:")
    print(f"MAE: {mae:.2f} sekund ({mae/60:.1f} minut)")
    print(f"RMSE: {np.sqrt(mean_squared_error(y_test, y_pred)):.2f} sekund")
    
    # Przyk≈Çadowe predykcje
    print(f"\nüîç Przyk≈Çadowe predykcje:")
    for i in range(5):
        actual_min = y_test.iloc[i] / 60
        pred_min = y_pred[i] / 60
        diff = pred_min - actual_min
        print(f"  Rzeczywiste: {actual_min:.1f}min, Przewidziane: {pred_min:.1f}min (r√≥≈ºnica: {diff:+.1f}min)")
    
    # Zapis modelu
    print("\nüíæ Zapis modelu...")
    model_bytes = io.BytesIO()
    joblib.dump(model, model_bytes)
    model_bytes.seek(0)
    
    s3.upload_fileobj(model_bytes, 
                      os.getenv('DO_SPACES_BUCKET'), 
                      'trained_model.pkl')
    
    print("‚úÖ Model zapisany w DO Spaces jako 'trained_model.pkl'!")
    
    # Wa≈ºno≈õƒá cech
    feature_importance = pd.DataFrame({
        'feature': ['P≈Çeƒá', 'Wiek', 'Tempo_5km'],
        'importance': model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    print(f"\nüéØ Wa≈ºno≈õƒá cech:")
    print(feature_importance)
    
else:
    print("‚ùå Za ma≈Ço danych do trenowania!")

print("\nüéâ Pipeline zako≈Ñczony!")

üì• Przetwarzanie danych 2023...
üìä 2023 - znalezione kolumny:

üì• Przetwarzanie danych 2024...
üìä 2024 - znalezione kolumny:

üìä Po≈ÇƒÖczone dane: (21955, 1)

üîç PRZYK≈ÅADOWE DANE:
   Year
0  2023
1  2023
2  2023
3  2023
4  2023

üîß Przygotowanie danych do trenowania...


KeyError: 'P≈Çeƒá'

In [6]:
# training_pipeline_debug_columns.ipynb
import pandas as pd
import numpy as np
import boto3
import io
import os
from dotenv import load_dotenv

# Za≈Çaduj zmienne ≈õrodowiskowe
load_dotenv()

# Po≈ÇƒÖczenie z DigitalOcean Spaces
session = boto3.session.Session()
s3 = session.client('s3',
                   region_name=os.getenv('DO_SPACES_REGION'),
                   endpoint_url=os.getenv('DO_SPACES_ENDPOINT'),
                   aws_access_key_id=os.getenv('DO_SPACES_KEY'),
                   aws_secret_access_key=os.getenv('DO_SPACES_SECRET'))

def debug_columns(filename, year):
    print(f"\nüîç DEBUG {year}:")
    response = s3.get_object(Bucket=os.getenv('DO_SPACES_BUCKET'), Key=filename)
    df_temp = pd.read_csv(io.BytesIO(response['Body'].read()))
    
    # Rozdziel kolumny wed≈Çug ≈õrednika
    df_split = df_temp.iloc[:, 0].str.split(';', expand=True)
    
    # Poka≈º pierwsze 2 wiersze z numerami kolumn
    print("PIERWSZY WIERSZ (nag≈Ç√≥wki):")
    for i, col in enumerate(df_split.iloc[0]):
        print(f"  Kolumna {i}: '{col}'")
    
    print("\nDRUGI WIERSZ (przyk≈Çadowe dane):")
    for i, col in enumerate(df_split.iloc[1]):
        print(f"  Kolumna {i}: '{col}'")
    
    return df_split

print("üì• Debugowanie struktury danych...")
df_2023_debug = debug_columns('halfmarathon_wroclaw_2023__final.csv', 2023)
df_2024_debug = debug_columns('halfmarathon_wroclaw_2024__final.csv', 2024)

# Sprawd≈∫my kt√≥re kolumny zawierajƒÖ kluczowe informacje
print("\nüéØ SZUKAM KOLUMN Z DANymi:")
keywords = {
    'p≈Çeƒá': ['M', 'K'],
    'wiek': ['1990', '1995', '2000'], 
    'czas_5km': ['00:15:', '00:20:'],
    'czas_p√≥≈Çmaraton': ['01:10:', '01:30:']
}

for year, df_debug in [('2023', df_2023_debug), ('2024', df_2024_debug)]:
    print(f"\n--- {year} ---")
    for i in range(min(10, len(df_debug.columns))):  # Sprawd≈∫ pierwsze 10 kolumn
        col_data = df_debug[i].iloc[1]  # Drugi wiersz (pierwsze dane)
        print(f"Kolumna {i}: '{col_data}'")

üì• Debugowanie struktury danych...

üîç DEBUG 2023:
PIERWSZY WIERSZ (nag≈Ç√≥wki):
  Kolumna 0: '1.0'
  Kolumna 1: '1787'
  Kolumna 2: 'TOMASZ'
  Kolumna 3: 'GRYCKO'
  Kolumna 4: ''
  Kolumna 5: 'POL'
  Kolumna 6: 'UKS BLIZA W≈ÅADYS≈ÅAWOWO'
  Kolumna 7: 'M'
  Kolumna 8: '1'
  Kolumna 9: 'M30'
  Kolumna 10: '1'
  Kolumna 11: '1992.0'
  Kolumna 12: '00:14:37'
  Kolumna 13: '1.0'
  Kolumna 14: '2.9233333333333333'
  Kolumna 15: '00:29:15'
  Kolumna 16: '1.0'
  Kolumna 17: '2.9266666666666667'
  Kolumna 18: '00:44:47'
  Kolumna 19: '1.0'
  Kolumna 20: '3.106666666666667'
  Kolumna 21: '01:01:43'
  Kolumna 22: '1.0'
  Kolumna 23: '3.3866666666666663'
  Kolumna 24: '0.031399999999999956'
  Kolumna 25: '01:04:59'
  Kolumna 26: '3.0805088093545074'

DRUGI WIERSZ (przyk≈Çadowe dane):
  Kolumna 0: '2.0'
  Kolumna 1: '3'
  Kolumna 2: 'ARKADIUSZ'
  Kolumna 3: 'GARDZIELEWSKI'
  Kolumna 4: 'WROC≈ÅAW'
  Kolumna 5: 'POL'
  Kolumna 6: 'ARKADIUSZGARDZIELEWSKI.PL'
  Kolumna 7: 'M'
  Kolumna 8: '2'
  Ko

In [7]:
# training_pipeline_final.ipynb
import pandas as pd
import numpy as np
import boto3
import io
import os
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, mean_squared_error
import joblib
from dotenv import load_dotenv

# Za≈Çaduj zmienne ≈õrodowiskowe
load_dotenv()

# Po≈ÇƒÖczenie z DigitalOcean Spaces
session = boto3.session.Session()
s3 = session.client('s3',
                   region_name=os.getenv('DO_SPACES_REGION'),
                   endpoint_url=os.getenv('DO_SPACES_ENDPOINT'),
                   aws_access_key_id=os.getenv('DO_SPACES_KEY'),
                   aws_secret_access_key=os.getenv('DO_SPACES_SECRET'))

def process_year_data(filename, year):
    response = s3.get_object(Bucket=os.getenv('DO_SPACES_BUCKET'), Key=filename)
    df_temp = pd.read_csv(io.BytesIO(response['Body'].read()))
    
    # Rozdziel kolumny wed≈Çug ≈õrednika
    df_split = df_temp.iloc[:, 0].str.split(';', expand=True)
    
    # Mapowanie kolumn na podstawie debugu
    column_mapping = {
        'P≈Çeƒá': 7,           # Kolumna z p≈ÇciƒÖ (M/K)
        'Rocznik': 11,       # Kolumna z rocznikiem
        '5km_czas': 12,      # Kolumna z czasem na 5km
        'Czas_p√≥≈Çmaraton': 25 # Kolumna z czasem p√≥≈Çmaratonu
    }
    
    # Wybierz tylko potrzebne kolumny
    selected_data = pd.DataFrame()
    for col_name, col_idx in column_mapping.items():
        selected_data[col_name] = df_split[col_idx]
    
    # Usu≈Ñ pierwszy wiersz (nag≈Ç√≥wki)
    selected_data = selected_data.iloc[1:]
    selected_data['Year'] = year
    
    return selected_data

print("üì• Przetwarzanie danych 2023...")
df_2023 = process_year_data('halfmarathon_wroclaw_2023__final.csv', 2023)

print("üì• Przetwarzanie danych 2024...")
df_2024 = process_year_data('halfmarathon_wroclaw_2024__final.csv', 2024)

# Po≈ÇƒÖcz dane
df = pd.concat([df_2023, df_2024], ignore_index=True)
print(f"\nüìä Po≈ÇƒÖczone dane: {df.shape}")

print("\nüîç PRZYK≈ÅADOWE DANE:")
print(df.head())

# Przygotowanie danych do modelu
print("\nüîß Przygotowanie danych do trenowania...")

# Funkcja do konwersji czasu HH:MM:SS na sekundy
def time_to_seconds(time_str):
    try:
        if pd.isna(time_str) or time_str == '':
            return None
        time_str = str(time_str).strip()
        parts = time_str.split(':')
        if len(parts) == 3:  # HH:MM:SS
            return int(parts[0]) * 3600 + int(parts[1]) * 60 + int(parts[2])
        elif len(parts) == 2:  # MM:SS
            return int(parts[0]) * 60 + int(parts[1])
        else:
            return None
    except:
        return None

# Konwersja danych
df['sex_numeric'] = df['P≈Çeƒá'].map({'M': 1, 'K': 0})
df['Rocznik_num'] = pd.to_numeric(df['Rocznik'], errors='coerce')
df['half_marathon_seconds'] = df['Czas_p√≥≈Çmaraton'].apply(time_to_seconds)
df['time_5km_seconds'] = df['5km_czas'].apply(time_to_seconds)

# Oblicz tempo na km z czasu 5km (sekundy/km)
df['pace_5km_seconds_per_km'] = df['time_5km_seconds'] / 5.0

# Oblicz wiek
df['age'] = df['Year'] - df['Rocznik_num']

print(f"\nüìä Dane po przetworzeniu:")
sample_cols = ['P≈Çeƒá', 'sex_numeric', 'Rocznik', 'age', '5km_czas', 'time_5km_seconds', 'pace_5km_seconds_per_km', 'Czas_p√≥≈Çmaraton', 'half_marathon_seconds']
print(df[sample_cols].head(10))

# Statystyki
print(f"\nüìà STATYSTYKI:")
print(f"Liczba rekord√≥w: {len(df)}")
print(f"P≈Çeƒá - M: {(df['sex_numeric'] == 1).sum()}, K: {(df['sex_numeric'] == 0).sum()}")
print(f"Wiek - min: {df['age'].min():.0f}, max: {df['age'].max():.0f}, ≈õrednia: {df['age'].mean():.1f}")
print(f"Czas p√≥≈Çmaratonu - min: {df['half_marathon_seconds'].min()/60:.1f}min, max: {df['half_marathon_seconds'].max()/60:.1f}min")

# Przygotowanie cech i targetu
features = df[['sex_numeric', 'age', 'pace_5km_seconds_per_km']].copy()
target = df['half_marathon_seconds'].copy()

# Usu≈Ñ brakujƒÖce warto≈õci
mask = features.notna().all(axis=1) & target.notna()
features = features[mask]
target = target[mask]

print(f"\nüìä Dane do trenowania:")
print(f"Cechy: {features.shape}")
print(f"Target: {target.shape}")

if len(features) > 100:
    # Podzia≈Ç na train/test
    X_train, X_test, y_train, y_test = train_test_split(features, target, test_size=0.2, random_state=42)
    
    print(f"Train: {X_train.shape}, Test: {X_test.shape}")
    
    # Trenowanie modelu
    print("\nü§ñ Trenowanie modelu...")
    model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
    model.fit(X_train, y_train)
    
    # Ewaluacja
    y_pred = model.predict(X_test)
    mae = mean_absolute_error(y_test, y_pred)
    rmse = np.sqrt(mean_squared_error(y_test, y_pred))
    
    print(f"\nüìä Wyniki modelu:")
    print(f"MAE: {mae:.2f} sekund ({mae/60:.1f} minut)")
    print(f"RMSE: {rmse:.2f} sekund ({rmse/60:.1f} minut)")
    
    # Przyk≈Çadowe predykcje
    print(f"\nüîç Przyk≈Çadowe predykcje (test set):")
    for i in range(5):
        actual_min = y_test.iloc[i] / 60
        pred_min = y_pred[i] / 60
        diff = pred_min - actual_min
        print(f"  Rzeczywiste: {actual_min:.1f}min, Przewidziane: {pred_min:.1f}min (r√≥≈ºnica: {diff:+.1f}min)")
    
    # Zapis modelu
    print("\nüíæ Zapis modelu...")
    model_bytes = io.BytesIO()
    joblib.dump(model, model_bytes)
    model_bytes.seek(0)
    
    s3.upload_fileobj(model_bytes, 
                      os.getenv('DO_SPACES_BUCKET'), 
                      'trained_model.pkl')
    
    print("‚úÖ Model zapisany w DO Spaces jako 'trained_model.pkl'!")
    
    # Wa≈ºno≈õƒá cech
    feature_importance = pd.DataFrame({
        'feature': ['P≈Çeƒá', 'Wiek', 'Tempo_5km'],
        'importance': model.feature_importances_
    }).sort_values('importance', ascending=False)
    
    print(f"\nüéØ Wa≈ºno≈õƒá cech:")
    print(feature_importance)
    
    print(f"\nüéâ Pipeline zako≈Ñczony pomy≈õlnie!")
    print(f"Model wytrenowany na {len(features)} rekordach")
    print(f"≈öredni b≈ÇƒÖd: {mae/60:.1f} minut")
    
else:
    print("‚ùå Za ma≈Ço danych do trenowania!")

print("\n" + "="*50)
print("üéØ MODEL GOTOWY DO U≈ªYCIA W APLIKACJI!")
print("="*50)

üì• Przetwarzanie danych 2023...
üì• Przetwarzanie danych 2024...

üìä Po≈ÇƒÖczone dane: (21955, 5)

üîç PRZYK≈ÅADOWE DANE:
  P≈Çeƒá Rocznik  5km_czas Czas_p√≥≈Çmaraton  Year
0    M  1986.0  00:14:48        01:06:23  2023
1    M  1996.0  00:15:46        01:08:24  2023
2    M  1988.0  00:16:11        01:10:16  2023
3    M  1995.0  00:16:12        01:10:27  2023
4    M  1983.0  00:16:09        01:10:34  2023

üîß Przygotowanie danych do trenowania...

üìä Dane po przetworzeniu:
  P≈Çeƒá  sex_numeric Rocznik   age  5km_czas  time_5km_seconds  \
0    M          1.0  1986.0  37.0  00:14:48             888.0   
1    M          1.0  1996.0  27.0  00:15:46             946.0   
2    M          1.0  1988.0  35.0  00:16:11             971.0   
3    M          1.0  1995.0  28.0  00:16:12             972.0   
4    M          1.0  1983.0  40.0  00:16:09             969.0   
5    M          1.0  1999.0  24.0  00:15:37             937.0   
6    M          1.0  1989.0  34.0  00:16:30             