# Metryki jakości w uczeniu maszynowym

###Proces uczenia maszynowego i oceny modeli.

1. Czynności wykonywane podczas uczenia algorytmu

A. Wstępne przetwarzanie danych:
- Czyszczenie danych: usuwanie lub uzupełnianie brakujących wartości, eliminacja błędnych rekordów i odstających obserwacji
- Normalizacja i standaryzacja: sprowadzenie zmiennych do wspólnej skali (np. 0-1 lub rozkładu normalnego)
- Kodowanie zmiennych kategorialnych: zamiana na wartości numeryczne (one-hot encoding, label encoding)
- Redukcja wymiarowości: wybór najważniejszych cech lub tworzenie nowych (analiza głównych składowych, selekcja cech)
- Podział na zbiór treningowy, walidacyjny i testowy (najczęściej w proporcjach 60-20-20 lub 70-15-15)

B. Wybór modelu:
- Analiza charakteru problemu (klasyfikacja, regresja, klastrowanie)
- Ocena dostępnych danych (liczba próbek, wymiarowość, typ zmiennych)
- Wybór odpowiedniego algorytmu (np. drzewa decyzyjne, sieci neuronowe, SVM)
- Określenie hiperparametrów modelu
- Rozważenie ograniczeń obliczeniowych i czasowych

C. Uczenie:
- Trenowanie modelu na zbiorze treningowym
- Walidacja krzyżowa ("cross-validation")
- Dostrajanie hiperparametrów ("grid search", "random search")
- Monitorowanie procesu uczenia (śledzenie krzywych uczenia)
- Zapobieganie przeuczeniu (regularyzacja, wczesne zatrzymanie)

D. Ocena modelu:
- Testowanie na niezależnym zbiorze testowym
- Obliczanie metryk wydajności
- Analiza błędów i przypadków problematycznych
- Interpretacja wyników
- Iteracyjne udoskonalanie modelu

2. Wskaźniki oceny modeli

A. Dokładność (Accuracy):
- Stosunek poprawnych przewidywań do wszystkich przypadków
- Wzór: (TP + TN) / (TP + TN + FP + FN)
- Zalety: łatwa interpretacja
- Wady: może być myląca przy niezbalansowanych klasach
- Zastosowanie: problemy z dobrze zbalansowanymi klasami

B. Precyzja (Precision):
- Stosunek prawdziwie pozytywnych do wszystkich przewidzianych jako pozytywne
- Wzór: TP / (TP + FP)
- Pokazuje, jaki procent pozytywnych przewidywań był faktycznie trafny
- Ważna gdy fałszywie pozytywne wyniki są kosztowne
- Zastosowanie: systemy rekomendacji, diagnostyka medyczna

C. Czułość (Recall):
- Stosunek prawdziwie pozytywnych do wszystkich faktycznie pozytywnych przypadków
- Wzór: TP / (TP + FN)
- Pokazuje, jaki procent faktycznie pozytywnych przypadków został wykryty
- Istotna gdy nie możemy przeoczyć pozytywnych przypadków
- Zastosowanie: wykrywanie oszustw, diagnostyka chorób

D. Wskaźnik F1:
- Średnia harmoniczna precyzji i czułości
- Wzór:
  F1 = 2 * (Precyzja * Czułość) / (Precyzja + Czułość)
- Ukazuje zarówno precyzję, jak i czułość
- Dobry wskaźnik dla niezbalansowanych zbiorów danych
- Pozwala na ocenę modelu za pomocą jednego wskaźnika

E. Pole pod krzywą ROC (AUC-ROC):
- Krzywa ROC pokazuje relację między TPR (czułość) a FPR
- TPR = TP / (TP + FN)
- FPR = FP / (TN + FP)
- Mierzy całościową zdolność modelu do rozróżniania klas
- Wartości od 0 do 1 (im bliżej 1, tym lepiej)
- Niewrażliwe na niezbalansowanie klas
- Pozwala porównywać różne modele

F. Krzywa "lift"

Krzywa "lift" jest to narzędzie wizualizacji, które pomaga ocenić skuteczność modelu predykcyjnego w porównaniu do losowego wyboru. Pokazuje ona, o ile lepiej model radzi sobie z identyfikacją pozytywnych przypadków w porównaniu do przypadkowego, losowego wyboru.

F1. Definicja

- "Lift" to stosunek między odsetkiem pozytywnych wyników w wybranej grupie a odsetkiem pozytywnych wyników w całej populacji.

F2. Interpretacja

- "Lift" = 1 oznacza, że model nie jest lepszy od losowego wyboru.
- "Lift" > 1 wskazuje, że model działa lepiej niż losowy wybór.

- Im wyższa wartość "liftu", tym lepszy model

F3. Zastosowanie

- Marketing: optymalizacja kampanii reklamowych
- Sprzedaż: identyfikacja potencjalnych klientów
- Analiza ryzyka: wykrywanie fraudów
- Medycyna: przewidywanie ryzyka chorób

F4. Przykład.
Załóżmy, że bank chce zidentyfikować klientów, którzy najprawdopodobniej skorzystają z nowej oferty kredytowej. Średni współczynnik odpowiedzi w populacji wynosi 5%. Jeśli model wskazuje grupę, w której współczynnik odpowiedzi wynosi 15%, "lift" wynosi 3 (15%/5% = 3), co oznacza, że model jest trzy razy skuteczniejszy od losowego wyboru.

Proces uczenia maszynowego jest iteracyjny - często trzeba wracać
do wcześniejszych etapów i wprowadzać modyfikacje na podstawie uzyskanych wyników.
Istotne jest zrozumienie tzw. "kontekstu biznesowego" (jak zawsze)

### Najważniejsze wskaźniki używane do oceny modeli regresyjnych.

1. "Mean Squared Error (MSE)" - błąd średni kwadratowy:

- Obliczany jako średnia z kwadratów różnic między wartościami przewidzianymi a rzeczywistymi
- Mocno penalizuje duże błędy poprzez podnoszenie do kwadratu
- Zawsze przyjmuje wartości nieujemne; im bliżej 0, tym lepiej
- Ma tę samą jednostkę co dane wejściowe podniesione do kwadratu


2. "Root Mean Squared Error (RMSE)" - (pierwiastek) błędu średnio kwadratowego

- Z definicji jest to pierwiastek z MSE
- Popularniejszy od MSE, bo wyrażony w tych samych jednostkach co zmienna zależna
- Łatwiejszy w interpretacji niż MSE
- Również zawsze nieujemny; im bliżej 0, tym lepiej


3. "Mean Absolute Error (MAE)" - średni błąd bezwzględny:

- Obliczany jest jako średnia z wartości bezwzględnych różnic między przewidywaniami a wartościami rzeczywistymi

- Mniej czuły na wartości odstające niż MSE/RMSE
- Łatwy w interpretacji - pokazuje średnią wielkość błędu w jednostkach zmiennej zależnej
- Zawsze nieujemny; im bliżej 0, tym lepiej

4. Współczynnik R-kwadrat ($R^2$) -

- Pokazuje, jaki procent zmienności zmiennej zależnej jest wyjaśniany przez model
- Przyjmuje wartości od 0 do 1 (lub 0-100%)
- Im bliżej 1, tym lepiej model opisuje dane
- Może być mylący przy porównywaniu modeli o różnej złożoności


5. Skorygowany współczynnik R-kwadrat ("Adjusted R²") -

- Modyfikacja R² uwzględniająca liczbę zmiennych w modelu
- Penalizuje dodawanie zbędnych zmiennych
- Lepszy niż zwykły R² przy porównywaniu modeli o różnej liczbie zmiennych
- Może przyjmować wartości ujemne

6. MAPE (Mean Absolute Percentage Error) - średni bezwzględny błąd procentowy.

- Wyrażony w procentach
- Przydatny gdy chcemy porównać błędy dla różnych skal danych
- Problematyczny gdy wartości rzeczywiste są bliskie zeru
- Łatwy w komunikacji dla nietechnicznych odbiorców

7. "Explained Variance Score:

- Mierzy, w jakim stopniu model uwzględnia wariancję w danych
- Wartość 1.0 oznacza idealne dopasowanie
- Może być ujemny dla bardzo złych modeli
- Pomocny w wykrywaniu błędów systematycznych