# Uczenie maszynowe

## Regresja logistyczna

Zastosowanie: klasyfikacja binarna.

Metoda: uczenie nadzorowane.

Regresja logistyczna, mimo swojej nazwy, nie jest metodą rozwiązywania problemów regresji, lecz klasyfikacji binarnej. W tym podejściu zmienna zależna \(y\) (atrybut decyzyjny) może przyjmować jedynie dwie wartości: \(y \in Y = \{0, 1\}\), gdzie \(Y\) oznacza przestrzeń wyników. W związku z tym zmienna losowa \(y\), przy zadanych wektorze cech \(x\) i parametrach \(\theta\), ma rozkład Bernoulliego \(B(\phi)\), gdzie \(\phi = P(y = 1)\).

Zależności te można wyrazić następująco:

$$
p(y = 1 \mid \phi) = \phi
$$

$$
p(y = 0 \mid \phi) = 1 - \phi
$$

Podobnie jak regresja liniowa, regresja logistyczna może być postrzegana jako szczególny przypadek uogólnionych modeli liniowych. Aby lepiej to zrozumieć, warto odnieść się do założeń tych modeli i przeanalizować je w kontekście regresji logistycznej, zgodnie z podejściem McCullagha i Neldera (1989).

Oto przejrzysta parafraza z poprawnym formatowaniem wzorów:

---

### Założenie nr 1: Rozkład zmiennej \(y\)

Wiadomo, że zmienna \(y\) ma rozkład Bernoulliego. Aby wykazać, że rozkład Bernoulliego należy do rodziny rozkładów wykładniczych, można zastosować podstawowe własności logarytmów. 

Rozkład Bernoulliego można wyrazić jako:

$$
p(y; \phi) = \phi^y (1 - \phi)^{(1-y)}
$$

Po zastosowaniu logarytmu:

$$
= \exp \left( \log \left( \phi^y (1 - \phi)^{(1-y)} \right) \right)
$$

Rozdzielając składniki logarytmiczne:

$$
= \exp \left( y \cdot \log(\phi) + (1-y) \cdot \log(1-\phi) \right)
$$

Zapisując to w postaci rozdzielnej:

$$
= \exp \left( y \cdot \log(\phi) + \log(1-\phi) - y \cdot \log(1-\phi) \right)
$$

Łącząc składniki:

$$
= \exp \left( y \cdot \log(\phi) - y \cdot \log(1-\phi) + \log(1-\phi) \right)
$$

Ostateczna forma:

$$
= \exp \left( y \cdot \log \left( \frac{\phi}{1-\phi} \right) + \log(1-\phi) \right)
$$

Zatem:

$$
z(y) = 1,
$$

$$
T(y) = y,
$$

$$
\eta(\phi) = \log \left( \frac{\phi}{1 - \phi} \right),
$$

$$
\kappa(\phi) = -\log(1 - \phi).
$$

Rozkład Bernoulliego jest więc szczególnym przypadkiem rozkładu wykładniczego.

### Założenie nr 2: Wartość oczekiwana \(T(y)\) przy znanym \(x\)

W rozważanym modelu należy estymować wartość oczekiwaną \(T(y)\) przy znanym \(x\). Z założenia nr 1 wiadomo, że \(T(y) = y\), co oznacza:

$$
h_\theta(x) = \mathbb{E}(y \mid x; \theta) = \phi.
$$

Dodatkowo, z założenia nr 1 wiadomo, że:

$$
\eta(\phi) = \log\left(\frac{\phi}{1 - \phi}\right),
$$

co można przekształcić, aby wyrazić \(\phi\) jako:

$$
\phi = \frac{1}{1 + e^{-\eta}}.
$$

Podstawiając tę zależność do powyższego wzoru, uzyskujemy:

$$
h_\theta(x) = \mathbb{E}(y \mid x; \theta) = \frac{1}{1 + e^{-\eta}}.
$$

### Założenie nr 3: Postać parametru naturalnego i wyprowadzenie funkcji \( h_\theta(x) \)

Trzecie założenie uogólnionych modeli liniowych określa, że parametr naturalny rozkładu \(\eta\) jest liniową kombinacją cech \(x\), czyli:

$$
\eta = \theta^T x.
$$

Stąd funkcja \( h_\theta(x) \) dla regresji logistycznej przyjmuje postać:

$$
h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}}.
$$

Dzięki założeniom uogólnionych modeli liniowych otrzymaliśmy postać funkcji \( h_\theta(x) \). W przypadku regresji liniowej ta funkcja jest znana z góry, a jej wyprowadzenie z uogólnionych modeli liniowych jest formalnością. Jednak w innych przypadkach, gdy postać \( h_\theta(x) \) nie jest oczywista, znajomość tych założeń okazuje się niezwykle przydatna, pod warunkiem że rozkład zmiennej \( y \) należy do rodziny wykładniczej.

### Funkcja prawdopodobieństwa i klasyfikacja

Aby dokończyć zadanie, czyli znaleźć model klasyfikacji, należy wyznaczyć parametry \(\theta\), które najlepiej spełniają równanie. Wiemy, że \( (y \mid x; \theta) \sim B(\phi) \) i że \( h_\theta(x) = \phi \), co pozwala zapisać prawdopodobieństwa dla dwóch klas:

$$
P(y = 1 \mid x; \theta) = h_\theta(x),
$$

$$
P(y = 0 \mid x; \theta) = 1 - h_\theta(x).
$$

Zatem ogólna funkcja prawdopodobieństwa ma postać:

$$
P(y \mid x; \theta) = \left(h_\theta(x)\right)^y \cdot \left(1 - h_\theta(x)\right)^{1 - y}.
$$

Dla zbioru treningowego składającego się z \( N \) niezależnych próbek \((x^{(j)}, y^{(j)})\), funkcja wiarygodności wynosi:

$$
L(\theta) = \prod_{j=1}^N P(y^{(j)} \mid x^{(j)}; \theta) = \prod_{j=1}^N \left(h_\theta(x^{(j)})\right)^{y^{(j)}} \cdot \left(1 - h_\theta(x^{(j)})\right)^{1 - y^{(j)}}.
$$

Ponieważ \( h_\theta(x) \) ma postać:

$$
h_\theta(x) = \frac{1}{1 + e^{-\theta^T x}},
$$

logarytm funkcji wiarygodności, czyli tzw. funkcja log-wiarygodności, jest wyrażona jako:

$$
l(\theta) = \ln L(\theta) = \sum_{j=1}^N \left( y^{(j)} \ln \left(h_\theta(x^{(j)})\right) + \left(1 - y^{(j)}\right) \ln \left(1 - h_\theta(x^{(j)})\right) \right).
$$

### Wyznaczanie parametrów \(\theta\)

Aby znaleźć optymalne parametry \(\theta\), należy rozwiązać równanie, w którym gradient funkcji log-wiarygodności zeruje się:

$$
\nabla l(\theta) = 0.
$$

Jednak w praktyce parametry \(\theta\) są zwykle wyznaczane numerycznie za pomocą iteracyjnych metod, takich jak metoda najmniejszych kwadratów z regularyzacją wag (Mardia i in., 1979).

### Ocena jakości regresji logistycznej

W poprzednich materiałach omówiono standardowe metody oceny różnych modeli, szczególnie klasyfikatorów. Regresja logistyczna jednak należy do specyficznej grupy klasyfikatorów, w których model nie zwraca konkretnej klasy, ale prawdopodobieństwo przynależności obiektu do klasy pozytywnej (\(y = 1\)). To sprawia, że konieczne jest stosowanie szczególnych miar oceny jakości modelu, opartych na prognozowanych prawdopodobieństwach.

Jedną z takich miar jest **strata logarytmiczna** (ang. *log loss*), nazywana także binarną entropią krzyżową. Jest ona obliczana jako ujemna średnia logarytmów skorygowanych prawdopodobieństw, co można wyprowadzić z równania funkcji log-wiarygodności regresji logistycznej. Strata logarytmiczna jest zdefiniowana jako:

$$
\text{log loss} = -\frac{1}{N} \sum_{j=1}^N \left[ y^{(j)} \ln(h_\theta(x^{(j)})) + (1 - y^{(j)}) \ln(1 - h_\theta(x^{(j)})) \right].
$$

Wartość ta jest ujemna, ponieważ logarytm prawdopodobieństwa, które leży w zakresie \([0, 1]\), przyjmuje wartości ujemne. Przemnożenie wyniku przez \(-1\) sprawia, że strata logarytmiczna jest dodatnia, co ułatwia interpretację: im mniejsza wartość, tym prognozy modelu są bliższe rzeczywistości.

Oprócz straty logarytmicznej, do oceny modeli zwracających prawdopodobieństwa przynależności do klas stosuje się wskaźnik **ROC AUC** (pole pod krzywą ROC). Aby jednak zrozumieć znaczenie tej miary, najpierw należy wyjaśnić, czym jest krzywa ROC (ang. *Receiver Operating Characteristic*). 

Krzywa ROC przedstawia zdolność modelu do klasyfikowania obiektów w zależności od przyjętego progu decyzyjnego. Na osi pionowej pokazuje czułość (ang. *True Positive Rate*, TPR), a na osi poziomej współczynnik fałszywych pozytywów (ang. *False Positive Rate*, FPR), który jest równy \(1 - \text{specyficzność}\). Idealny model charakteryzuje się krzywą, która dla \(FPR = 0\) osiąga \(TPR = 1\), a następnie biegnie równolegle do osi poziomej. Im większe odchylenie krzywej od tego idealnego przebiegu, tym gorsza jakość modelu.

### Miara ROC AUC

Wskaźnik ROC AUC (ang. *Area Under Curve*) to pole pod krzywą ROC. W idealnym przypadku \(ROC\_AUC = 1\), co oznacza doskonały model. Jeśli wartość \(ROC\_AUC = 0.5\), model prawdopodobnie przewiduje klasy w sposób losowy (np. z równym prawdopodobieństwem 50% dla klasy „0” i „1”). Taki model nie nadaje się do praktycznego zastosowania. W danych rzeczywistych osiągnięcie wartości \(ROC\_AUC = 1\) jest rzadkie, ale dążymy do maksymalizacji tego wskaźnika.

Przykład krzywej ROC dla określonego zbioru testowego znajduje się w przykładzie poniżej.

**UWAGA**  
Każdy model losowy osiąga \(ROC\_AUC = 0.5\). Jednak możliwe jest, że model z \(ROC\_AUC = 0.5\) nie generuje predykcji w pełni losowych.

## Przykład: Przewidywanie prawdopodobieństwa przeżycia katastrofy na podstawie danych o pasażerach Titanica

Dane dotyczące pasażerów Titanica, dostępne pod adresem: [Kaggle - Titanic Dataset](https://www.kaggle.com/datasets/azeembootwala/titanic), posłużą jako przykład działania regresji logistycznej. Zestaw danych został wstępnie przetworzony, co oznacza, że jest gotowy do treningu i ewaluacji modelu. W ramach przetwarzania dane zostały znormalizowane, brakujące wartości uzupełniono lub usunięto, a zmienne kategoryczne zakodowano w formie binarnej (0 i 1).

Na początek dane należy wczytać do dwóch osobnych struktur **DataFrame** – jednej dla zbioru treningowego, a drugiej dla zbioru testowego. Po wczytaniu danych zauważymy, że zestaw zawiera 15 kolumn:

1. **Unnamed: 0** – kolumna z automatycznie nadaną nazwą, zawierająca numery porządkowe wierszy,
2. **PassengerId** – unikalny identyfikator pasażera,
3. **Survived** – informacja, czy pasażer przeżył katastrofę (1 – przeżył, 0 – nie przeżył),
4. **Sex** – płeć pasażera (0 – kobieta, 1 – mężczyzna),
5. **Age** – znormalizowany wiek pasażera (wartości w przedziale od 0 do 1),
6. **Fare** – wysokość zapłaconej opłaty za bilet,
7. **Pclass_1** – czy pasażer podróżował w pierwszej klasie (1 – tak, 0 – nie),
8. **Pclass_2** – czy pasażer podróżował w drugiej klasie (1 – tak, 0 – nie),
9. **Pclass_3** – czy pasażer podróżował w trzeciej klasie (1 – tak, 0 – nie),
10. **Family_size** – liczba członków rodziny na pokładzie, znormalizowana do przedziału (0, 1),
11–15. **Title_1, Title_2, Title_3, Title_4** – zmienne binarne wskazujące status pasażera (np. żonaty, kawaler, panna, mężatka),
16. **Emb_1, Emb_2, Emb_3** – zmienne binarne wskazujące port zaokrętowania pasażera (Cherbourg, Queenstown, Southampton).

Analiza zmiennych takich jak **Unnamed: 0** (numer porządkowy) oraz **PassengerId** (identyfikator pasażera) nie wnosi wartości informacyjnej, ponieważ nie opisują one żadnych cech pasażera. Dlatego te kolumny zostaną usunięte z danych przed przystąpieniem do uczenia modelu. 

Ten proces pozwala skupić się na istotnych zmiennych, które mogą wpłynąć na przewidywanie prawdopodobieństwa przeżycia pasażerów.

In [None]:
import numpy as np
import pandas as pd
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import (
    log_loss,
    roc_auc_score,
    confusion_matrix,
    classification_report,
    make_scorer
)
import matplotlib.pyplot as plt
from sklearn.model_selection import (
    cross_validate, 
    StratifiedKFold
)
import optuna

# Wczytanie danych
train_df = pd.read_csv('train_data.csv')
test_df = pd.read_csv('test_data.csv')

# Usunięcie zbędnych kolumn
train_df.drop(columns=['Unnamed: 0', 'PassengerId'], inplace=True)
test_df.drop(columns=['Unnamed: 0', 'PassengerId'], inplace=True)

# Przygotowanie danych wejściowych i wyjściowych
columns = train_df.columns
X_train = train_df[columns[1:]].to_numpy()
X_test = test_df[columns[1:]].to_numpy()
y_train = train_df['Survived'].to_numpy()
y_test = test_df['Survived'].to_numpy()


Na początek model regresji logistycznej zostanie utworzony z domyślnymi ustawieniami hiperparametrów. Po zakończeniu treningu zostanie poddany ocenie – dzięki metodzie `predict` można określić przynależność obiektów do poszczególnych klas, co pozwala na wyznaczenie macierzy pomyłek oraz obliczenie kluczowych metryk oceniających skuteczność modelu.

In [None]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix, classification_report

# Inicjalizacja modelu regresji logistycznej
lr = LogisticRegression()

# Trening modelu
lr.fit(X_train, y_train)

# Predykcja na danych testowych
preds = lr.predict(X_test)

# Wyświetlenie macierzy pomyłek
print("Confusion Matrix:")
print(confusion_matrix(y_test, preds))

# Wyświetlenie raportu klasyfikacji
print("\nClassification Report:")
print(classification_report(y_test, preds))

Aby otrzymać prawdopodobieństwo przynależności obiektów do poszczególnych klas, zamiast samej klasy przewidywanej, należy skorzystać z metody `predict_proba`. Prawdopodobieństwa przypisania obiektów do klasy 1 znajdują się w pierwszej kolumnie uzyskanej macierzy predykcji.

### UWAGA  
Regresja logistyczna w bibliotece scikit-learn jest klasyfikatorem, a nie modelem regresyjnym. Dlatego użycie metody `predict_proba` zwraca dla każdego obiektu wektor dwóch wartości: prawdopodobieństwa przynależności do klasy 0 oraz do klasy 1. Podobne zachowanie można zaobserwować w przypadku innych modeli klasyfikacyjnych korzystających z `predict_proba`. Natomiast w modelach regresyjnych wynik predykcji jest pojedynczą wartością, ponieważ regresory zwracają jedno wyjście.

In [None]:
from sklearn.metrics import roc_auc_score, log_loss

# Predykcja prawdopodobieństw na danych testowych
preds = lr.predict_proba(X_test)

# Obliczenie i wyświetlenie wskaźnika ROC AUC
print("ROC AUC Score:")
print(roc_auc_score(y_test, preds[:, 1]))

# Obliczenie i wyświetlenie straty logarytmicznej
print("\nLog Loss:")
print(log_loss(y_test, preds[:, 1]))

Wartość pola pod krzywą ROC (ROC_AUC) uzyskana na zbiorze testowym wynosi około 0,89, a strata logarytmiczna osiąga wartość 0,3728477052627943. Są to całkiem dobre wyniki – ROC_AUC znacząco przewyższa wartość 0,5, co wskazuje na dobrą zdolność modelu do rozróżniania klas. Jednak stosunkowo wysoka wartość straty logarytmicznej sugeruje, że zdolności generalizacyjne modelu są umiarkowane. Warto jednak podkreślić, że w tym przypadku hiperparametry modelu nie były optymalizowane, więc wynik można uznać za zadowalający.

Dla porównania wartość straty logarytmicznej zostanie obliczona ręcznie zgodnie ze wzorem. W tym celu należy zastosować następujący schemat obliczania prawdopodobieństw skorygowanych:
1. Jeśli obiekt należy do klasy 1, skorygowane prawdopodobieństwo równe jest wartości przewidywanej przez model (\(y_{\text{pred}}\)).
2. Jeśli obiekt należy do klasy 0, skorygowane prawdopodobieństwo wynosi \(1 - y_{\text{pred}}\).

In [None]:
# Obliczanie skorygowanego prawdopodobieństwa
corrected_prob = [
    1 - y_pred if y_true == 0 else y_pred
    for y_pred, y_true in zip(preds[:, 1], y_test)
]

# Konwersja do tablicy numpy
corrected_prob = np.array(corrected_prob)

# Obliczanie logarytmów skorygowanych prawdopodobieństw
log_prob = np.log(corrected_prob + 1e-15)

# Obliczanie straty logarytmicznej
logloss = -np.mean(log_prob)

# Wyświetlenie wyniku
print("Log Loss:", logloss)

Obliczona wartość straty logarytmicznej wynosi 0,3728477052627926, co jest praktycznie równe wynikowi uzyskanemu wcześniej. Niewielkie różnice między tymi wartościami a wynikiem uzyskanym przy użyciu funkcji `log_loss` z biblioteki scikit-learn wynikają z ograniczeń numerycznych. W praktyce takie różnice są pomijalne, dlatego wyniki metryk podaje się zazwyczaj z mniejszą dokładnością, najczęściej do dwóch lub czterech miejsc po przecinku.

Krzywą ROC, na podstawie której wyznaczono wskaźnik ROC_AUC, można narysować przy użyciu poniższej funkcji. Model generujący losowe predykcje zostanie oznaczony niebieską linią przerywaną.

In [None]:
def plot_roc_curve(y, preds, image_path=None):
    import matplotlib.pyplot as plt
    from sklearn.metrics import roc_curve

    # Obliczenie FPR, TPR i progów
    fpr, tpr, thresholds = roc_curve(y, preds)

    # Rysowanie wykresu ROC
    plt.plot([0, 1], [0, 1], linestyle='--', label='Model teoretyczny\nzwracający predykcje losowe')
    plt.plot(fpr, tpr, marker='.', label='Uzyskany model')
    plt.xlabel('Odsetek predykcji prawdziwie dodatnich (TPR)')
    plt.ylabel('Odsetek predykcji fałszywie dodatnich (FPR)')
    plt.legend()

    # Zapis wykresu, jeśli podano ścieżkę
    if image_path:
        plt.savefig(image_path)

    # Wyświetlenie wykresu
    plt.show()


Przebieg uzyskanej krzywej ROC potwierdza, że model osiąga wyniki znacznie lepsze niż model generujący losowe predykcje, co wynika również z wartości wskaźnika ROC_AUC. Ponieważ predykcje uzyskane za pomocą metody `predict_proba` są zmiennymi ciągłymi, nie można bezpośrednio obliczyć standardowych metryk sukcesu. Aby to zrobić, konieczne jest przekształcenie ciągłych wartości na liczby całkowite reprezentujące przynależność do klas.

Do tego celu należy przyjąć próg, który określi, że wartości poniżej niego przyporządkowują obiekty do klasy 0, a wartości powyżej do klasy 1. Istnieją różne sposoby ustalania takiego progu. Poniżej przedstawiono kod funkcji, która implementuje metodę opartą na maksymalizacji średniej geometrycznej TPR i TNR (\(1 - \text{FPR}\)) dla całego zbioru danych (Liu, 2012). Metoda ta zapewnia najwęższe przedziały ufności dla dokładności klasyfikacji i cechuje się największą stabilnością w porównaniu z innymi powszechnie stosowanymi podejściami (Unal, 2017).

Po ustaleniu progu należy dokonać binarnego podziału wyników predykcji ciągłych. Poniżej znajduje się kod realizujący to zadanie.

In [None]:
# Obliczenie prawdopodobieństw predykcji na zbiorze treningowym i testowym
preds_train = lr.predict_proba(X_train)
preds_test = lr.predict_proba(X_test)

# Wyznaczenie optymalnego progu
threshold = get_threshold(y_train, y_test, preds_train[:, 1], preds_test[:, 1])

# Binarna klasyfikacja na podstawie optymalnego progu
bool_preds = preds[:, 1] > threshold

# Wyświetlenie macierzy pomyłek
print("Confusion Matrix:")
print(confusion_matrix(y_test, bool_preds))

# Wyświetlenie raportu klasyfikacji
print("\nClassification Report:")
print(classification_report(y_test, bool_preds))

Porównując macierze pomyłek uzyskane za pomocą metod `predict` oraz `predict_proba` z progowaniem, można zauważyć, że metoda `predict` nieznacznie przeważa – liczba poprawnie zaklasyfikowanych obiektów z klasy 0 jest większa o jeden. Wynik ten jest związany z doborem wartości progu. Zmieniając próg, możemy uzyskać różne wyniki metryk, takich jak czułość czy swoistość, nawet dla tego samego modelu. Wyższy próg skutkuje większą liczbą obiektów przypisanych do klasy 0, natomiast niższy próg prowadzi do większej liczby obiektów przypisanych do klasy 1.

Regresję logistyczną można zoptymalizować, dostosowując wartości hiperparametrów w celu maksymalizacji wybranej metryki. Poniżej przedstawiono kod optymalizujący model pod kątem maksymalizacji wskaźnika ROC AUC. Alternatywnie można skupić się na innych metrykach, takich jak dokładność klasyfikacji czy F1-score. 

Hiperparametry poddane optymalizacji obejmują:
- **C** – parametr regulujący siłę regularyzacji, który kontroluje wartości wag modelu. Pozwala zmniejszyć ryzyko przeuczenia oraz nadmiernego dopasowania do danych.
- **solver** – algorytm stosowany do optymalizacji wag.
- **max_iter** – maksymalna liczba iteracji, jakie algorytm wykona w celu osiągnięcia kryterium zatrzymania (pod warunkiem, że algorytm jest zbieżny). Jeśli algorytm nie zbiegnie się lub nie znajdzie optymalnych wag w określonej liczbie iteracji, proces optymalizacji zostaje przerwany, a wybierany jest najlepszy uzyskany wynik.

### UWAGA  
Optymalizacja hiperparametrów modelu może być również ukierunkowana na minimalizację funkcji celu. W takim przypadku miarą używaną do oceny modelu jest wskaźnik błędu. Dla modeli klasyfikacyjnych najczęściej stosuje się stratę logarytmiczną, natomiast dla modeli regresyjnych standardowymi miarami są błąd średniokwadratowy (MSE) lub średni błąd bezwzględny (MAE).

In [None]:
from sklearn.model_selection import cross_validate, StratifiedKFold
from sklearn.metrics import roc_auc_score, make_scorer
import optuna
import numpy as np
from sklearn.linear_model import LogisticRegression

# Definicja miary oceny
scoring = {'roc_macro': make_scorer(roc_auc_score)}

# Funkcja celu dla optymalizacji hiperparametrów
def objective(trial, model, get_space, X, y):
    model_space = get_space(trial)
    mdl = model(**model_space)
    scores = cross_validate(
        mdl, X, y, 
        scoring=scoring,
        cv=StratifiedKFold(n_splits=5),
        return_train_score=True
    )
    return np.mean(scores['test_roc_macro'])

# Przestrzeń hiperparametrów
def get_space(trial):
    space = {
        "C": trial.suggest_uniform("C", 0, 2),
        "max_iter": trial.suggest_int("max_iter", 100, 1000),
        "solver": trial.suggest_categorical("solver", ["lbfgs", "liblinear"])
    }
    return space

# Liczba prób optymalizacji
trials = 15
model = LogisticRegression

# Inicjalizacja optymalizacji
study = optuna.create_study(direction='maximize')

# Optymalizacja
study.optimize(
    lambda x: objective(x, model, get_space, X_train, y_train), 
    n_trials=trials
)

# Wyświetlenie najlepszych hiperparametrów
print('Best Parameters:', study.best_params)

# Trening modelu z optymalnymi hiperparametrami
lr = model(**study.best_params)
lr.fit(X_train, y_train)

# Ocena modelu na zbiorze testowym
preds = lr.predict(X_test)
print('Test ROC_AUC:', roc_auc_score(y_test, preds))

W zaprezentowanym przykładzie optymalizacja hiperparametrów modelu regresji logistycznej nie przyniosła poprawy wyników. Metryki, takie jak dokładność klasyfikacji, czułość, precyzja i F1, obliczone za pomocą funkcji `classification_report`, pozostają na tym samym poziomie, co dla modelu z domyślnymi ustawieniami hiperparametrów. Prawdopodobnym powodem tego jest ograniczona liczba iteracji przeprowadzonych podczas optymalizacji – wykonano jedynie 15 prób, co mogło uniemożliwić osiągnięcie globalnego maksimum funkcji celu.

## Zadanie: Przewidywanie prawdopodobieństwa zachorowania na cukrzycę typu 2

#### 1. Pobranie i wczytanie danych
Pobierz dane ze strony [Kaggle - Diabetes Data Set](https://www.kaggle.com/mathchi/diabetes-data-set) i załaduj je do struktury **DataFrame**. Uzyskana tabela zawiera dziewięć kolumn:

- **Pregnancies** – liczba przebytych ciąż,
- **Glucose** – stężenie glukozy dwie godziny po wykonaniu testu obciążenia glukozą,
- **BloodPressure** – rozkurczowe ciśnienie krwi (w mmHg),
- **SkinThickness** – grubość fałdu skórnego na ramieniu (w mm),
- **Insulin** – stężenie insuliny dwie godziny po teście obciążenia glukozą,
- **BMI** – wskaźnik masy ciała,
- **DiabetesPedigreeFunction** – wskaźnik ryzyka zachorowania na cukrzycę na podstawie wywiadu rodzinnego,
- **Age** – wiek,
- **Outcome** – przynależność do klasy:
  - 0 – brak diagnozy cukrzycy,
  - 1 – diagnoza cukrzycy.

#### 2. Podział danych
Podziel dane na zbiór uczący i testowy, aby przeprowadzić trening i ewaluację modelu.

#### 3. Trening modelu z domyślnymi hiperparametrami
Przeprowadź trening klasyfikatora opartego na regresji logistycznej, stosując domyślne ustawienia hiperparametrów, a następnie dokonaj jego ewaluacji.

#### 4. Optymalizacja modelu
Zdefiniuj funkcję celu (`objective`) w taki sposób, aby maksymalizować wartość pola pod krzywą ROC (ROC_AUC) i przeprowadź optymalizację hiperparametrów.

#### 5. Trening modelu z optymalnymi hiperparametrami
Przeprowadź trening modelu przy użyciu najlepszych znalezionych parametrów. Wykonaj predykcje na zbiorze testowym, używając zarówno metody `predict`, jak i `predict_proba`. W przypadku użycia metody `predict_proba` wyznacz punkt odcięcia na krzywej ROC w celu dychotomizacji predykcji.

#### 6. Analiza wyników
Wyznacz wartości kluczowych metryk sukcesu, takich jak dokładność, czułość, precyzja czy F1-score, i przeanalizuj wyniki. Zastanów się, czy optymalizacja hiperparametrów znacząco wpłynęła na skuteczność modelu. Sprawdź, czy wyniki uzyskane za pomocą metod `predict` i `predict_proba` różnią się.

#### 7. Wybór istotniejszej metryki
Rozważ, która metryka – czułość czy precyzja – jest ważniejsza w kontekście danych związanych z cukrzycą. Uzasadnij swoją odpowiedź, biorąc pod uwagę kontekst zadania i potencjalne konsekwencje błędów klasyfikacyjnych.