Zaimplementuj aplikację szacującą czas ukończenia półmaratonu dla zadanych danych

1. Umieść dane w Digital Ocean Spaces

1. Napisz notebook, który będzie Twoim pipelinem do trenowania modelu
    * czyta dane z Digital Ocean Spaces
    * czyści je
    * trenuje model (dobierz odpowiednie metryki [feature selection])
    * nowa wersja modelu jest zapisywana lokalnie i do Digital Ocean Spaces

1. Aplikacja
    * opakuj model w aplikację streamlit
    * wdróż (deploy) aplikację za pomocą Digital Ocean AppPlatform 
    * wejściem jest pole tekstowe, w którym użytkownik się przedstawia, mówi o tym
    jaka jest jego płeć, wiek i tempo na 5km
    * jeśli użytkownik podał za mało danych, wyświetl informację o tym jakich danych brakuje
    * za pomocą LLM (OpenAI) wyłuskaj potrzebne dane, potrzebne dla Twojego modelu
    do określenia, do słownika (dictionary lub JSON)
    * tę część podepnij do Langfuse, aby zbierać metryki o skuteczności działania LLM'a



In [None]:
import pandas as pd
from pycaret.regression import *
from sklearn.model_selection import train_test_split
from datetime import datetime

# Wczytanie danych
df_2023 = pd.read_csv('halfmarathon_wroclaw_2023__final.csv', sep=';')
df_2024 = pd.read_csv('halfmarathon_wroclaw_2024__final.csv', sep=';')


# Obliczenie wieku na podstawie roku urodzenia
df_2023['Wiek'] = 2023 - df_2023['Rocznik']
df_2024['Wiek'] = 2024 - df_2024['Rocznik']

# Połączenie obu DataFrame w jeden
df = pd.concat([df_2023, df_2024], ignore_index=True)

# Usunięcie wierszy z brakującymi danymi w istotnych kolumnach
df = df[df['5 km Czas'].notna()]
df = df[df['10 km Czas'].notna()]
df = df[df['15 km Czas'].notna()]
df = df[df['20 km Czas'].notna()]
df = df[df['Czas'].notna()]

# Mapowanie płci (0 = K, 1 = M)
df['Płeć'] = df['Płeć'].map({'K': 0, 'M': 1})

# Kolumny do usunięcia
columns_to_drop = ['Miejsce', 'Numer startowy', 'Rocznik', 'Kategoria wiekowa', 'Imię', 'Nazwisko', 'Miasto', 'Kraj', 'Drużyna', 'Płeć Miejsce', 'Kategoria wiekowa Miejsce', 
                  '5 km Miejsce Open', '10 km Miejsce Open', '15 km Miejsce Open', '20 km Miejsce Open', 'Tempo Stabilność']
df.drop(columns=columns_to_drop, inplace=True, errors='ignore')

# Funkcje konwertujące czas i tempo na sekundy
def convert_time_to_seconds(time_str):
    if pd.isna(time_str): return None
    time_parts = time_str.split(':')
    if len(time_parts) == 2:
        minutes, seconds = map(int, time_parts)
        return minutes * 60 + seconds
    elif len(time_parts) == 3:
        hours, minutes, seconds = map(int, time_parts)
        return hours * 3600 + minutes * 60 + seconds
    return None

# Zastosowanie konwersji
df['Czas_półmaratonu'] = df['Czas'].apply(convert_time_to_seconds)
df['Czas_na_5km'] = df['5 km Czas'].apply(convert_time_to_seconds)
df['Czas_na_10km'] = df['10 km Czas'].apply(convert_time_to_seconds)
df['Czas_na_15km'] = df['15 km Czas'].apply(convert_time_to_seconds)

# Usunięcie niepotrzebnych kolumn
df.drop(columns=['Czas', 'Tempo', '5 km Czas', '10 km Czas', '15 km Czas', '20 km Czas', '5 km Tempo', '10 km Tempo', '15 km Tempo', '20 km Tempo'], inplace=True, errors='ignore')

df

# Funkcja do trenowania modelu i przewidywania czasów na różnych odcinkach
def train_and_predict(target_column):
   
    # Ustawienie środowiska PyCaret z dodatkowymi cechami (w tym Płeć, Wiek)
    setup(data=df,
          target=target_column,
          session_id=123, 
          normalize=True,
        #   feature_selection=True,
        #   remove_multicollinearity=True
        use_gpu=True,
        numeric_features=['Wiek', 'Płeć'],
        verbose=True
        # ignore_features=['Czas_na_5km']
        )

    # Porównanie modeli
    best_model = compare_models(fold=5)

    # Finalizacja najlepszego modelu
    final_model = finalize_model(best_model)

    # Zapisanie najlepszego modelu
    save_model(final_model, f'{target_column}_model')

    return final_model

# Trenowanie i zapisanie modeli dla różnych celów (czas na 5 km, 10 km, 15 km i pełny półmaraton)
time_5km_model = train_and_predict('Czas_na_5km')
time_10km_model = train_and_predict('Czas_na_10km')
time_15km_model = train_and_predict('Czas_na_15km')
# halfmarathon_time_model = train_and_predict('Czas_półmaratonu')

[LightGBM] [Info] This is the GPU trainer!!
[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 2, number of used features: 0
[LightGBM] [Info] Using GPU Device: gfx1103, Vendor: Advanced Micro Devices, Inc.
[LightGBM] [Info] Compiling OpenCL Kernel with 16 bins...
[LightGBM] [Info] GPU programs have been built
[LightGBM] [Info] Start training from score 0.500000
[LightGBM] [Info] This is the GPU trainer!!
[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 2, number of used features: 0
[LightGBM] [Info] Using GPU Device: gfx1103, Vendor: Advanced Micro Devices, Inc.
[LightGBM] [Info] Compiling OpenCL Kernel with 16 bins...
[LightGBM] [Info] GPU programs have been built
[LightGBM] [Info] Start training from score 0.500000
[LightGBM] [Info] This is the GPU trainer!!
[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 2, number of used features: 0
[LightGBM] [Info] Using GPU Dev

Unnamed: 0,Description,Value
0,Session id,123
1,Target,Czas_na_5km
2,Target type,Regression
3,Original data shape,"(18377, 6)"
4,Transformed data shape,"(18377, 6)"
5,Transformed train set shape,"(12863, 6)"
6,Transformed test set shape,"(5514, 6)"
7,Numeric features,2
8,Rows with missing values,2.6%
9,Preprocess,True


[LightGBM] [Info] This is the GPU trainer!!
[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 2, number of used features: 0
[LightGBM] [Info] Using GPU Device: gfx1103, Vendor: Advanced Micro Devices, Inc.
[LightGBM] [Info] Compiling OpenCL Kernel with 16 bins...
[LightGBM] [Info] GPU programs have been built
[LightGBM] [Info] Start training from score 0.500000
[LightGBM] [Info] This is the GPU trainer!!
[LightGBM] [Info] Total Bins 0
[LightGBM] [Info] Number of data points in the train set: 2, number of used features: 0
[LightGBM] [Info] Using GPU Device: gfx1103, Vendor: Advanced Micro Devices, Inc.
[LightGBM] [Info] Compiling OpenCL Kernel with 16 bins...
[LightGBM] [Info] GPU programs have been built
[LightGBM] [Info] Start training from score 0.500000


Unnamed: 0,Model,MAE,MSE,RMSE,R2,RMSLE,MAPE,TT (Sec)
lr,Linear Regression,20.3968,1180.5258,34.027,0.9809,0.0432,0.0118,0.016
lar,Least Angle Regression,20.3968,1180.5258,34.027,0.9809,0.0432,0.0118,0.016
br,Bayesian Ridge,20.398,1180.5256,34.027,0.9809,0.0432,0.0118,0.016
ridge,Ridge Regression,20.4363,1180.8732,34.0322,0.9809,0.0432,0.0118,0.014
huber,Huber Regressor,20.014,1199.5044,34.3096,0.9806,0.0432,0.0115,0.05
rf,Random Forest Regressor,20.4184,1289.9191,35.5588,0.9792,0.0436,0.0117,0.372
et,Extra Trees Regressor,20.626,1308.1741,35.769,0.9789,0.0438,0.0118,0.228
par,Passive Aggressive Regressor,21.3879,1318.6535,35.9903,0.9786,0.0444,0.0124,0.02
lasso,Lasso Regression,22.6252,1326.5995,36.1429,0.9785,0.0442,0.0131,0.09
llar,Lasso Least Angle Regression,22.6476,1328.3776,36.1678,0.9785,0.0442,0.0131,0.014


Transformation Pipeline and Model Successfully Saved
