In [1]:
from GridSearch import MyGridSearch
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.svm import SVR

# Strojenie hiperparametrów

## Ridge (regresja grzbietowa)

W przypadku regularyzacji L2 dostrojono parametry:

`alpha` - siła regularyzacji. Poprawia uwarunkowania problemu i zmniejsza wariancję 

`solver` - wybór solvera do procedur obliczeniowych. Auto (automatycznie dobierany solver na podstawie typów danych), svd (używa dekompozycje pojedyńczych wartości, bardziej stabilny dla pojedynczych wartości niż cholesky), cholesky (używa standardu scipy.linalg.solve do uzyskania rozwiązania w formie zamkniętej)


In [2]:
df = pd.read_excel('data.xlsx')
X = df.drop(columns=['PE'])
y = df['PE']

params = { "alpha": list(np.arange(-4, 10, 0.005)), 
          "solver": ["auto", "svd", "cholesky"], 
         'random_state':[46]} 
ridge_gs = MyGridSearch(params, Ridge(), X, y)
ridge_gs.get_best()

int32


100%|██████████████████████████████████████████████████████████████████████████████| 8400/8400 [02:00<00:00, 69.67it/s]


({'alpha': -1.4950000000000534, 'solver': 'auto', 'random_state': 46},
 3.62490688)

## Lasso

W przypadku regularyzacji L1 dostrojona parametry:

`alpha` - stała mnożąca wyraz L1. Domyślna wartośc to 1. Wartość 0 jest odpowiednikiem algorytmu regresji liniowej (brak regularyzacji).

`fit_intercept` - flaga mówiąca czy obliczyć punkt przecięcia modelu. W przypadku wartości Flase oczekuje się wycentrowanych danych. Domyślnie ustawiona jest flaga True.

`max_iter` - maksymalna ilośc iteracji. Domyślnie 1000.

In [3]:
params = { "alpha" : list(np.arange(0.01, 4, 0.05)), 
           "fit_intercept": [True, False],
           "max_iter":list(np.arange(400, 1340, 10)),
         'random_state':[46]} 
lasso_gs = MyGridSearch(params, Lasso(), X, y)
lasso_gs.get_best()

int32


100%|████████████████████████████████████████████████████████████████████████████| 15040/15040 [04:12<00:00, 59.47it/s]


({'alpha': 0.01, 'fit_intercept': True, 'max_iter': 400, 'random_state': 46},
 3.62935882)

## SVR

W przypadku regresyjnego liniowego wektora wsparć dostrojone zostały parametry:

`C` - parametr regularyzacji, jest on odwrotnie proporcjonalny do siły regularyzacji. Domyślnie równy 1.

`epsilon` - określa nieczułość na funkcję strat. Zależy od skali wartości y, domyślnie równy 0.


In [4]:
params = { "C" : [0.9, 1, 1.1, 1.2, 1.3, 1.4, 1.5, .16, 1.7],
           "epsilon": [0.08, 0.09, 0.1, 0.11, 0.12, 0.13]}
svr_gs = MyGridSearch(params, SVR(), X, y)
svr_gs.get_best()

int32


100%|██████████████████████████████████████████████████████████████████████████████████| 54/54 [06:52<00:00,  7.65s/it]


({'C': 1.7, 'epsilon': 0.13}, 3.15211345)