# Pełny Cykl Życia Modelu Sentymentu

Ten notebook krok po kroku demonstruje cały cykl życia modelu do klasyfikacji sentymentu, od przygotowania danych, przez eksperymenty i wybór najlepszego modelu, aż po jego użycie do predykcji na nowych danych.

## Sekcja 1: Przygotowanie i Konfiguracja

Zakładamy, że dane treningowe zostały już przygotowane i znajdują się w pliku `artifacts/data/all_train.csv`. W tej komórce definiujemy zmienne, których będziemy używać w całym procesie.

In [31]:
import os
import pandas as pd
import json

os.environ['EXPERIMENT_ID'] = "exp_notebook_tutorial"
os.environ['INPUT_DATA'] = "artifacts/data/all_train.csv"

## Sekcja 2: Generowanie Podziałów Danych

Tworzymy podziały danych dla naszego eksperymentu. Użyjemy strategii `train-val` z wydzielonym zbiorem testowym (20% danych), który posłuży do ostatecznej oceny najlepszego modelu.

In [None]:
!uv run cli generate-splits --experiment-id $EXPERIMENT_ID --input-file $INPUT_DATA --test-size 0.2 --backtesting-strategy train-val

## Sekcja 3: Uruchomienie Eksperymentów i Porównanie Modeli

Teraz uruchomimy proces treningu i walidacji dla każdego z wybranych modeli. Po każdym przebiegu wyświetlimy zaktualizowaną tabelę z porównaniem wyników.

### Model: svm-base

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name svm-base

In [34]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

[32m2025-10-20 14:07:25.268[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m79[0m - [1m--- Model Comparison for Experiment 'exp_notebook_tutorial' ---[0m
[32m2025-10-20 14:07:25.269[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m82[0m - [1m
--- Run Type: backtesting ---[0m
[32m2025-10-20 14:07:25.269[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m91[0m - [1mSummary for backtesting (train-val strategy):[0m
[32m2025-10-20 14:07:25.275[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m95[0m - [1m
             model_name  accuracy precision    recall  f1_score
                             mean      mean      mean      mean
0  prompt-gemma-3-1b-it  0.061966  0.712286  0.061966  0.113160
1              svm-base  0.675214  0.669999  0.675214  0.671415
2               svm-opt  0.705128  0.687651  0.705128  0.688811[0m
[32m2025-10-20 14:07:25.276[0m | [1mINFO    [0m | [36mevaluat

Unnamed: 0,run_type,model_name,fold,accuracy,precision,recall,f1_score
0,backtesting,svm-opt,0,0.705128,0.687651,0.705128,0.688811
1,backtesting,svm-base,0,0.675214,0.669999,0.675214,0.671415
2,backtesting,prompt-gemma-3-1b-it,0,0.061966,0.712286,0.061966,0.11316


### Model: svm-opt

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name svm-opt

In [None]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

### Model: Gemma Zero-shot

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name prompt-gemma-zeroshot-3-1b-it

[32m2025-10-20 12:00:26.498[0m | [1mINFO    [0m | [36mmlops.runner[0m:[36mrun_backtesting[0m:[36m58[0m - [1m--- Backtesting Fold 0 ---[0m
[32m2025-10-20 12:00:26.498[0m | [1mINFO    [0m | [36mmlops.runner[0m:[36m_load_model_from_config[0m:[36m28[0m - [1mLoading model: PromptGemmaModel from models.prompt_gemma.model[0m
[32m2025-10-20 12:00:26.501[0m | [1mINFO    [0m | [36mmodels.prompt_gemma.model[0m:[36m__init__[0m:[36m17[0m - [1mUsing device: cpu[0m
[32m2025-10-20 12:00:26.501[0m | [1mINFO    [0m | [36mmlops.runner[0m:[36mrun_backtesting[0m:[36m68[0m - [1mTraining model...[0m
[32m2025-10-20 12:00:26.501[0m | [1mINFO    [0m | [36mmodels.prompt_gemma.model[0m:[36mtrain[0m:[36m33[0m - [1mPromptGemmaModel does not require training. Skipping.[0m
[32m2025-10-20 12:00:26.501[0m | [1mINFO    [0m | [36mmodels.prompt_gemma.model[0m:[36mtrain[0m:[36m46[0m - [1mOutput directory ensured at: /Users/witjakuczunpriv/projects/AI_Ma

### Model: Gemma Few-shot

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name prompt-gemma-fewshot-3-1b-it

In [None]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

### Model: Gemma Few-shot v2

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name prompt-gemma-fewshot-v2-3-1b-it

In [None]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

### Model: bert-micro-base

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name bert-micro-base

In [36]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

[32m2025-10-20 14:57:28.765[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m79[0m - [1m--- Model Comparison for Experiment 'exp_notebook_tutorial' ---[0m
[32m2025-10-20 14:57:28.765[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m82[0m - [1m
--- Run Type: backtesting ---[0m
[32m2025-10-20 14:57:28.765[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m91[0m - [1mSummary for backtesting (train-val strategy):[0m
[32m2025-10-20 14:57:28.769[0m | [1mINFO    [0m | [36mevaluate[0m:[36mcompare_models[0m:[36m95[0m - [1m
                      model_name  accuracy precision    recall  f1_score
                                      mean      mean      mean      mean
0           prompt-gemma-3-1b-it  0.606838  0.727688  0.606838  0.626360
1   prompt-gemma-fewshot-3-1b-it  0.606838  0.727688  0.606838  0.626360
2  prompt-gemma-zeroshot-3-1b-it  0.000000  0.000000  0.000000  0.000000
3                       s

Unnamed: 0,run_type,model_name,fold,accuracy,precision,recall,f1_score
0,backtesting,svm-opt,0,0.705128,0.687651,0.705128,0.688811
1,backtesting,svm-base,0,0.675214,0.669999,0.675214,0.671415
2,backtesting,prompt-gemma-3-1b-it,0,0.606838,0.727688,0.606838,0.62636
3,backtesting,prompt-gemma-fewshot-3-1b-it,0,0.606838,0.727688,0.606838,0.62636
4,backtesting,prompt-gemma-zeroshot-3-1b-it,0,0.0,0.0,0.0,0.0


### Model: bert-micro-long

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name bert-micro-long

In [None]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

### Model: roberta-base

In [None]:
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name roberta-base

In [None]:
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

### Eksperyment: Zwiększenie liczby epok dla `roberta-base`

Tworzymy nową konfigurację `roberta-base-3` w locie, zmieniając liczbę epok treningowych, aby sprawdzić, czy dłuższy trening poprawi wynik.

In [None]:
# Wczytanie bazowej konfiguracji
with open('model_configs/roberta-base.json', 'r') as f:
    config = json.load(f)

# Modyfikacja hiperparametru
config["training_arguments"]["num_train_epochs"] = 3

# Zapis nowej konfiguracji
with open('model_configs/roberta-base-3.json', 'w') as f:
    json.dump(config, f, indent=4)

print("Utworzono nową konfigurację: model_configs/roberta-base-3.json")

In [None]:
# Uruchomienie eksperymentu dla nowej konfiguracji
!uv run cli run-backtesting --experiment-id $EXPERIMENT_ID --model-config-name roberta-base-3

In [None]:
# Ostateczne porównanie
!uv run cli compare-models --experiment-id $EXPERIMENT_ID --output-file artifacts/experiments/$EXPERIMENT_ID/comparison.csv --run-type backtesting
comparison_df = pd.read_csv(f"artifacts/experiments/{os.environ['EXPERIMENT_ID']}/comparison.csv")
display(comparison_df)

## Sekcja 4: Wybór Najlepszego Modelu

Na podstawie powyższych wyników, jako najlepszy model do dalszych kroków wybieramy `roberta-base-3` (założenie na potrzeby tego tutoriala).

In [None]:
os.environ['BEST_MODEL'] = "roberta-base"

## Sekcja 5: Oszacowanie Wydajności na Zbiorze Testowym

Wybrany model sprawdzamy na odłożonym wcześniej zbiorze testowym. To da nam ostateczną, bezstronną ocenę jego jakości.

In [None]:
!uv run cli estimate-performance --experiment-id $EXPERIMENT_ID --model-config-name $BEST_MODEL

## Sekcja 6: Trening Finalnego Modelu

Mając pewność co do jakości naszego modelu, trenujemy go po raz ostatni na pełnym zbiorze danych (trening + walidacja), aby był gotowy do użycia produkcyjnego.

In [None]:
!uv run cli train-final-model --experiment-id $EXPERIMENT_ID --model-config-name $BEST_MODEL --model-output-dir artifacts/trained_models/

## Sekcja 7: Predykcja na Nowych Danych

Symulujemy scenariusz produkcyjny: pojawiły się nowe dane i chcemy poznać ich sentyment. Użyjemy do tego naszego generatora danych.

In [None]:
!uv run cli data-generate --name new_unseen_data --examples-per-sentiment 5 --lang pl
os.environ['NEW_DATA_FILE'] = "artifacts/data/new_data/new_unseen_data.csv"

Używamy naszego finalnego modelu do wykonania predykcji na nowych danych.

In [None]:
FINAL_MODEL_PATH = f"artifacts/trained_models/{os.environ['EXPERIMENT_ID']}_final/{os.environ['BEST_MODEL']}"
PREDICTION_OUTPUT_FILE = f"artifacts/predictions/new_data_predictions.csv"

!uv run cli predict-new --model-path $FINAL_MODEL_PATH --input-file $NEW_DATA_FILE --output-file $PREDICTION_OUTPUT_FILE

# Wyświetlenie predykcji
predictions_df = pd.read_csv(PREDICTION_OUTPUT_FILE)
print("Wygenerowane predykcje:")
display(predictions_df)

## Sekcja 8: Symulacja Oceny Jakości

W realnym scenariuszu dla nowo wygenerowanych danych nie mielibyśmy prawdziwych etykiet. Aby jednak zademonstrować działanie skryptu `evaluate.py`, zasymulujemy ocenę, traktując sentyment, o który prosiliśmy generator, jako "prawdziwą etykietę".

In [None]:
!python evaluate.py --predictions-file $PREDICTION_OUTPUT_FILE --ground-truth-file $NEW_DATA_FILE