# Biblioteki Pythona w analizie danych

## Tomasz Rodak

Wykład 5

---

Literatura:

- [PRML](https://www.microsoft.com/en-us/research/uploads/prod/2006/01/Bishop-Pattern-Recognition-and-Machine-Learning-2006.pdf) Christopher M. Bishop, "Pattern Recognition and Machine Learning", 2006.
- [PML-1](https://probml.github.io/pml-book/) Kevin P. Murphy, "Probabilistic Machine Learning: An Introduction", 2022.
- [Dokumentacja NumPy](https://numpy.org/doc/stable/)
- [Dokumentacja scikit-learn](https://scikit-learn.org/stable/)

## scikit-learn - estymatory, transformatory i potoki

Biblioteka scikit-learn wprowadza następujące wysokopoziomowe pojęcia:
- **estymator** (*estimator*) - obiekt tworzący deterministyczną funkcję na podstawie danych zgodnie z reprezentowanym w nim modelem. 
- **transformator** (*transformer*) - estymator posiadający metodę `transform()`.
- **potok** (*pipeline*) - sekwencja transformatorów i estymatorów, które są stosowane w kolejności. 

### Estymatory i transformatory

Estymator to obiekt reprezentujący model. Każdy estymator powien posiadać metodę `fit()`, która przyjmuje dane i uczy model, czyli tworzy deterministyczną funkcję na podstawie danych i zgodnie z reprezentowanym w nim modelem. Estymatory posiadają również metodę `predict()` lub `transform()` i ewentualnie `fit_predict()` lub `fit_transform()`.


#### Metoda `fit()`

Metoda `fit()` zwykle przyjmuje dwa argumenty:
- `X` - dane wejściowe (np. cechy, obrazy, teksty)
- `y` - dane wyjściowe (np. etykiety, wartości docelowe)
Metoda `fit()` modyfikuje stan estymatora "w miejscu" oraz zwraca dopasowany estymator - pozwala to na łączenie wielu wywołań w potoku.

Jeśli uczenie jest nienadzorowane, to argument `y` nie jest wymagany, zwykle automatycznie ustawiany jest na wartość `None`.

Częstym efektem wywołania metody `fit()` jest utworzenie atrybutów w estymatorze o nazwach kończących się na `_` (np. `coef_`, `intercept_`, `n_features_in_`, `n_classes_`), które przechowują różne informacje o stanie estymatora po wywołaniu metody `fit()`.

#### Metoda `predict()`

Metoda `predict()` przyjmuje dane wejściowe `X` i zwraca przewidywane wartości wyjściowe `y`. Jest to metoda, która jest wywoływana po `fit()` - model musi być najpierw wyuczony na danych, aby można było przewidywać nowe wartości. 

#### Metoda `transform()`

Metoda `transform()` przyjmuje dane wejściowe `X` i zwraca ich przekształcenie na jakąś nową przestrzeń. Zwrócone dane oznacza się często jako `Xt`. Jest to metoda, która również jest wywoływana po `fit()`.

#### Metody `fit_transform()` i `fit_predict()`

Metody `fit_transform()` i `fit_predict()` są skrótami dla wywołania `fit()` i następnie `transform()` lub `predict()`.
Metoda `fit_transform()` przyjmuje dane wejściowe `X`, uczy estymator na tych danych wywołując `fit()` i zwraca przekształcone dane wyjściowe `Xt` wywołując `transform()`. Podobnie `fit_predict()` przyjmuje dane wejściowe `X`, uczy estymator na tych danych wywołując `fit()` i zwraca przewidywane wartości wyjściowe `y` wywołując `predict()`.

### Przykłady estymatorów wbudowanych w scikit-learn

#### Regresja logistyczna

Model regresji logistycznej jest implementowany w `sklearn.linear_model.LogisticRegression`. Jest to przykład estymatora uczenia nadzorowanego. Spośród metod opisanych powyżej posiada:
- `fit(X, y)` - uczy model na danych `X` i etykietach `y`. Po wywołaniu tej metody w estymatorze są dostępne atrybuty:
  - `coef_` - współczynniki regresji
  - `intercept_` - wyraz wolny
  - `n_features_in_` - liczba cech w danych wejściowych
  - `feature_names_in_` - nazwy cech w danych wejściowych
  - `classes_` - etykiety klas
  - `n_iter` - liczba iteracji w procesie uczenia
- `predict(X)` - przewiduje etykiety klas dla nowych danych `X`

Dodatkowo, model ten, tak jak i wiele innych modeli szacujących prawdopodobieństwo przynależności do klas, posiada metodę `predict_proba(X)`, która zwraca prawdopodobieństwa przynależności do klas dla danych `X`.

#### K-means

Model K-średnich (*K-means*) jest implementowany w `sklearn.cluster.KMeans`. Jest to przykład estymatora uczenia nienadzorowanego. Posiada wszystkie metody opisane powyżej:
- `fit(X)` - uczy model na danych `X`. Po wywołaniu tej metody w estymatorze są dostępne atrybuty:
  - `cluster_centers_` - współrzędne centroidów klastrów
  - `labels_` - etykiety klastrów dla każdego punktu danych
  - `inertia_` - suma kwadratów odległości punktów danych do ich centroidów
- `predict(X)` - przewiduje etykiety klastrów dla nowych danych `X`
- `fit_predict(X)` - uczy model na danych `X` i zwraca etykiety klastrów dla tych danych
- `transform(X)` - przekształca dane `X` na przestrzeń odległości do centroidów klastrów
- `fit_transform(X)` - uczy model na danych `X` i zwraca `X` przekształcone na przestrzeń odległości do centroidów klastrów.

#### PCA

Model analizy głównych składowych (*PCA*) jest implementowany w `sklearn.decomposition.PCA`. Jest to przykład estymatora uczenia nienadzorowanego. Spośród metod opisanych powyżej posiada:
- `fit(X)` - uczy model na danych `X`. Po wywołaniu tej metody w estymatorze dostępne są m.in. atrybuty:
  - `components_` - macierz głównych składowych
  - `explained_variance_` - wariancja wyjaśniona przez każdą główną składową
  - `singular_values_` - wartości osobliwe
- `transform(X)` - przekształca dane `X` na przestrzeń głównych składowych
- `fit_transform(X)` - uczy model na danych `X` i zwraca przekształcone dane `X` w przestrzeni głównych składowych

Dodatkowo, model ten, tak jak i wiele innych modeli transformujących dane, posiada metodę `inverse_transform(Xt)`, która przekształca dane `Xt` z powrotem do oryginalnej przestrzeni. Ponieważ PCA nie jest transformatorem różnowartościowym (podczas transformacji zmienia się liczba cech i część informacji jest tracona), to metoda `inverse_transform(Xt)` nie zwraca danych oryginalnych, a jedynie ich przybliżenie.

#### `MinMaxScaler`

Model `MinMaxScaler` jest implementowany w `sklearn.preprocessing.MinMaxScaler`. Jest to przykład nienadzorowanego transformatora. Spośród metod opisanych powyżej posiada:
- `fit(X)` - uczy model na danych `X`. Po wywołaniu tej metody w estymatorze dostępne są m.in. atrybuty:
  - `data_max_` - maksymalne wartości cech w danych
  - `data_min_` - minimalne wartości cech w danych
  - `data_range_` - zakres wartości cech w danych
  - `n_features_in_` - liczba cech w danych wejściowych
  - ...
- `transform(X)` - przekształca dane `X` na przestrzeń znormalizowaną do przedziału [0, 1]
- `fit_transform(X)` - uczy model na danych `X` i zwraca przekształcone dane `X` w przedziale [0, 1]

Dodatkowo, model ten, tak jak i wiele innych modeli transformujących dane, posiada metodę `inverse_transform(Xt)`, która przekształca dane `Xt` z powrotem do oryginalnej przestrzeni.

#### `PolynomialFeatures`

Model `PolynomialFeatures` jest implementowany w `sklearn.preprocessing.PolynomialFeatures`. Jest to przykład nienadzorowanego transformatora służącego do generowania cech wielomianowych. Spośród metod opisanych powyżej posiada:
- `fit(X)` - uczy model na danych `X`. Po wywołaniu tej metody w estymatorze dostępne są m.in. atrybuty:
  - `powers_` - wykładniki cech wejściowych w wyjściu
  - `n_features_in_` - liczba cech w danych wejściowych
  - `n_output_features_` - liczba cech wyjściowych
  - ...
- `transform(X)` - przekształca dane `X` na przestrzeń cech wielomianowych
- `fit_transform(X)` - uczy model na danych `X` i zwraca przekształcone dane `X` w przestrzeni cech wielomianowych

### Typowy schemat wykorzystania estymatora

1. Inicjalizacja. Polega na stworzeniu obiektu estymatora, który reprezentuje model. Parametry estymatora są hiperparametrami modelu i są ustalane przed rozpoczęciem uczenia.
2. Uczenie. Polega na wywołaniu metody `fit()` na obiekcie estymatora, co prowadzi do dopasowania modelu do danych.
3. Przewidywanie lub transformacja. Polega na wywołaniu metody `predict()` lub `transform()` na obiekcie estymatora, co prowadzi do uzyskania przewidywanych wartości wyjściowych lub przekształconych danych wejściowych.

### Tworzenie własnych estymatorów w scikit-learn

Tworzenie własnych estymatorów w scikit-learn wymaga zrozumienia interfejsu API biblioteki oraz konwencji, które ściśle definiują, jak powinien zachowywać się estymator. 

#### Podstawowe zasady

1. **Dziedziczenie po odpowiednich klasach bazowych**:
   - `BaseEstimator`: zapewnia funkcje pomocnicze, np. ustawianie parametrów
   - Odpowiedni *mixin* w zależności od typu estymatora:
     - `ClassifierMixin`: dla klasyfikatorów
     - `RegressorMixin`: dla algorytmów regresji
     - `TransformerMixin`: dla transformatorów danych
     - `ClusterMixin`: dla algorytmów klasteryzacji

2. **Implementacja wymaganych metod**:
   - `fit(X, y)`: trenuje model na podstawie danych
   - Zależnie od typu estymatora:
     - Klasyfikatory/regresory: `predict(X)`
     - Transformatory: `transform(X)` i opcjonalnie `fit_transform(X, y)`

3. **Konwencje nazewnictwa**:
   - Parametry jako atrybuty inicjalizacji (np. `self.param = param` w `__init__`)
   - Atrybuty wyuczone kończą się podkreślnikiem (np. `self.coef_`)
   - Metody opakowujące powinny zwracać `self` dla umożliwienia łańcuchowania

#### Szczegółowa implementacja

##### 1. Struktura klasy i inicjalizacja

```python
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.utils.validation import check_X_y, check_array, check_is_fitted

class MojEstymator(BaseEstimator, RegressorMixin):
    def __init__(self, parametr1=domyslna_wartosc1, parametr2=domyslna_wartosc2):
        # Zapisz wszystkie parametry inicjalizacyjne
        self.parametr1 = parametr1
        self.parametr2 = parametr2
```

##### 2. Metoda fit

```python
def fit(self, X, y):
    # Walidacja danych wejściowych
    X, y = check_X_y(X, y, accept_sparse=True)
    
    # Zachowaj wymiary danych
    self.n_features_in_ = X.shape[1]
    
    # Zaimplementuj logikę trenowania
    # ... (twój algorytm)
    
    # Zdefiniuj atrybuty wyuczone (z podkreślnikiem)
    self.coef_ = ...
    self.intercept_ = ...
    
    # Oznacz, że model został wytrenowany
    self.is_fitted_ = True
    
    # Zwróć self dla umożliwienia łańcuchowania
    return self
```

##### 3. Metoda predict (dla regresorów/klasyfikatorów)

```python
def predict(self, X):
    # Sprawdź, czy model został wytrenowany
    check_is_fitted(self, 'is_fitted_')
    
    # Walidacja danych wejściowych
    X = check_array(X, accept_sparse=True)
    
    # Sprawdź, czy wymiar danych jest zgodny z modelem
    if X.shape[1] != self.n_features_in_:
        raise ValueError(f"X ma {X.shape[1]} cech, ale {self.__class__.__name__} "
                         f"został wytrenowany z {self.n_features_in_} cechami.")
    
    # Zastosuj model do predykcji
    # ... (twój algorytm)
    return y_pred
```

##### 4. Dla transformatorów - metoda transform

```python
def transform(self, X):
    # Sprawdź, czy model został wytrenowany
    check_is_fitted(self, 'is_fitted_')
    
    # Walidacja danych wejściowych
    X = check_array(X, accept_sparse=True)
    
    # Zastosuj transformację
    # ... (twoja logika)
    return X_transformed
```

#### Integracja z ekosystemem scikit-learn

Prawidłowo zaimplementowany estymator można:
- Używać w potokach (`Pipeline`)
- Stosować w walidacji krzyżowej (`cross_val_score`)
- Optymalizować za pomocą narzędzi wyszukiwania hiperparametrów (`GridSearchCV`, `RandomizedSearchCV`)
- Serializować za pomocą `pickle` lub `joblib`

### Przykład

Klasa `RegresjaLiniowa` jest przykładem własnego estymatora regresji liniowej zgodnego z API scikit-learn. 

In [1]:
import numpy as np
from sklearn.base import BaseEstimator, RegressorMixin
from sklearn.utils.validation import check_X_y, check_array, check_is_fitted
from sklearn.metrics import r2_score

class RegresjaLiniowa(BaseEstimator, RegressorMixin):
    """
    Prosty estymator regresji liniowej zaimplementowany ręcznie.
    
    Parametry
    ---------
    fit_intercept : bool, domyślnie=True
        Czy dopasować wyraz wolny.
    learning_rate : float, domyślnie=0.01
        Współczynnik uczenia używany w metodzie gradientu prostego.
    n_iterations : int, domyślnie=1000
        Liczba iteracji algorytmu gradientu prostego.
    """
    
    def __init__(self, fit_intercept=True, learning_rate=0.01, n_iterations=1000):
        self.fit_intercept = fit_intercept
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations
    
    def fit(self, X, y):
        """
        Dopasowanie estymatora do danych treningowych.
        
        Parametry
        ---------
        X : {array-like, sparse matrix} o kształcie (n_próbek, n_cech)
            Dane treningowe.
        y : array-like o kształcie (n_próbek,)
            Wartości docelowe.
            
        Zwraca
        -------
        self : obiekt
            Zwraca samego siebie.
        """
        # Sprawdzenie poprawności danych wejściowych
        X, y = check_X_y(X, y)
        
        # Inicjalizacja atrybutów
        self.n_samples_, self.n_features_ = X.shape
        
        # Dodanie kolumny jedynek dla wyrazu wolnego
        if self.fit_intercept:
            X_b = np.c_[np.ones((self.n_samples_, 1)), X]
        else:
            X_b = X
        
        # Inicjalizacja wag (współczynników) jako zera
        self.coef_ = np.zeros(X_b.shape[1])
        
        # Trening za pomocą gradientu prostego
        for _ in range(self.n_iterations):
            # Przewidywanie
            y_pred = np.dot(X_b, self.coef_)
            
            # Obliczenie błędu
            error = y_pred - y
            
            # Aktualizacja wag
            gradients = 2/self.n_samples_ * X_b.T.dot(error)
            self.coef_ = self.coef_ - self.learning_rate * gradients
        
        # Rozdzielenie wyrazu wolnego i współczynników, jeśli fit_intercept=True
        if self.fit_intercept:
            self.intercept_ = self.coef_[0]
            self.coef_ = self.coef_[1:]
        else:
            self.intercept_ = 0
        
        # Oznaczenie, że model został wytrenowany
        self.is_fitted_ = True
        
        # Zwrócenie samego siebie zgodnie z konwencją scikit-learn
        return self
    
    def predict(self, X):
        """
        Predykcja wartości dla X.
        
        Parametry
        ---------
        X : {array-like, sparse matrix} o kształcie (n_próbek, n_cech)
            Próbki.
            
        Zwraca
        -------
        y : array o kształcie (n_próbek,)
            Przewidziane wartości.
        """
        # Sprawdzenie czy model został wytrenowany
        check_is_fitted(self, 'is_fitted_')
        
        # Sprawdzenie poprawności X
        X = check_array(X)
        
        # Przewidywanie
        if self.fit_intercept:
            return np.dot(X, self.coef_) + self.intercept_
        else:
            return np.dot(X, self.coef_)
    
    def score(self, X, y):
        """
        Zwraca współczynnik determinacji R^2 predykcji.
        
        Parametry
        ---------
        X : array-like o kształcie (n_próbek, n_cech)
            Próbki testowe.
        y : array-like o kształcie (n_próbek,)
            Prawdziwe wartości dla X.
            
        Zwraca
        -------
        score : float
            R^2 predykcji.
        """
        y_pred = self.predict(X)
        return r2_score(y, y_pred)

In [2]:
X = np.random.rand(100, 2)
y = 3 * X[:, 0] + 5 * X[:, 1] + np.random.randn(100) * 0.5

In [3]:
from sklearn.linear_model import LinearRegression

model_sklearn = LinearRegression()
model_sklearn.fit(X, y)
predictions_sklearn = model_sklearn.predict(X)
print("Współczynnik determinacji R^2 (sklearn):", model_sklearn.score(X, y))

Współczynnik determinacji R^2 (sklearn): 0.9085743526951848


## Potoki (*Pipeline*)

Potoki to mechanizm, który umożliwia łączenie wielu kroków przetwarzania danych w jedną spójną jednostkę. 

### Podstawowa idea

Potok w scikit-learn pozwala na sekwencyjne łączenie różnych transformatorów i jednego estymatora końcowego w jedną całość. Zapewnia to:

1. **Spójny interfejs** - cały potok zachowuje się jak pojedynczy estymator scikit-learn z metodami `fit()`, `predict()`, itd.
2. **Automatyczne przekazywanie danych** - dane są automatycznie przekazywane między etapami
3. **Eliminację wycieków danych** - potok zapewnia, że transformacje (np. skalowanie) są dopasowywane tylko do danych treningowych

## Tworzenie potoku

Podstawowy potok tworzy się przy użyciu klasy `Pipeline`:

```python
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('classifier', LogisticRegression())
])

# Cały potok można trenować jak pojedynczy estymator
pipe.fit(X_train, y_train)

# I używać do predykcji
predictions = pipe.predict(X_test)
```

### Główne zalety potoków

#### 1. Organizacja kodu

Potoki organizują kod w zrozumiały i łatwy do utrzymania sposób - ważne, gdy łańcuch przetwarzania jest złożony.

#### 2. Zapobieganie wyciekom danych

Jednym z najważniejszych zastosowań potoków jest zapobieganie wyciekom danych podczas preprocesingu:

Niepoprawne podejście (wyciek informacji):

```python
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

# Skalowanie przed kroswalidacją - BŁĄD!
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)  # Wyciek danych, bo skalujemy całość

# Kroswalidacja
model = LinearRegression()
scores = cross_val_score(model, X_scaled, y, cv=5, scoring='neg_root_mean_squared_error')
```
Poprawne podejście z potokiem:

```python
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LinearRegression

# Tworzymy pipeline, który najpierw skaluje dane, a potem trenuje model
pipeline = Pipeline([
    ('scaler', StandardScaler()), 
    ('model', LinearRegression())
])

# Kroswalidacja - skalowanie odbywa się osobno w każdym foldzie!
scores = cross_val_score(pipeline, X, y, cv=5, scoring='neg_root_mean_squared_error')

print("RMSE dla każdego folda:", -scores)
print("Średni RMSE:", -scores.mean())

```

### 3. Optymalizacja hiperparametrów

Potoki są szczególnie przydatne w połączeniu z technikami przeszukiwania hiperparametrów:

```python
from sklearn.model_selection import GridSearchCV

param_grid = {
    'scaler__with_mean': [True, False],  # parametry dla transformatora
    'classifier__C': [0.1, 1.0, 10.0]    # parametry dla klasyfikatora
}

search = GridSearchCV(pipe, param_grid, cv=5)
search.fit(X_train, y_train)
```

Zauważ, że parametry dla poszczególnych kroków potoku mają format: `nazwa_kroku__nazwa_parametru`.

### 4. Serializacja i wdrażanie

Cały potok można zapisać jako jeden obiekt:

```python
from joblib import dump, load

# Zapisz cały potok
dump(pipe, 'model_pipeline.joblib')

# Załaduj go później
loaded_pipe = load('model_pipeline.joblib')
```

## Zaawansowane funkcje potoków

### ColumnTransformer

`ColumnTransformer` umożliwia zastosowanie różnych transformacji do różnych kolumn:

```python
from sklearn.compose import ColumnTransformer
from sklearn.preprocessing import OneHotEncoder, StandardScaler

preprocessor = ColumnTransformer(
    transformers=[
        ('num', StandardScaler(), ['wiek', 'dochod']),
        ('cat', OneHotEncoder(), ['kategoria', 'region'])
    ])

pipe = Pipeline([
    ('preprocess', preprocessor),
    ('classifier', LogisticRegression())
])
```

### FeatureUnion

`FeatureUnion` pozwala na równoległe przetwarzanie danych przez różne transformatory:

```python
from sklearn.pipeline import FeatureUnion
from sklearn.decomposition import PCA
from sklearn.feature_selection import SelectKBest

features = FeatureUnion([
    ('pca', PCA(n_components=2)),
    ('select_best', SelectKBest(k=2))
])

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('features', features),
    ('classifier', LogisticRegression())
])
```