In [1]:
import numpy as np
np.random.seed(12345)
from sklearn.metrics import mean_squared_error

In [2]:
def get_w_and_b():
    noisy_features = 5
    w = np.arange(-10, 5)
    w[:noisy_features] = 0
    b = 1.0
    return w, b

def generate_dataset(l, sigma, w, b, noisy_objects=5):
    n = len(w)
    noise = np.random.normal(loc=0.0, scale=sigma, size=l)
    trainX = np.random.random(size=(l, n))
    trainY = np.matmul(trainX[:, :n], w) + b + noise
    trainY[:noisy_objects] += 10*np.random.normal(loc=np.mean(trainY), scale=np.std(trainY), 
                                              size=noisy_objects)
    
    noise = np.random.normal(loc=0.0, scale=sigma, size=l)
    testX = np.random.random(size=(l, n))
    testY = np.matmul(testX, w) + b + noise

    #print(trainX.shape, noise.shape)
    return trainX, trainY, testX, testY

In [3]:
n=10
l=400
sigma=0.1
w, b = get_w_and_b()
trainX, trainY, testX, testY = generate_dataset(l, sigma,w, b)

#### Линейная регрессия

In [5]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

lr = LinearRegression()
lr.fit(trainX, trainY)
pred = lr.predict(testX)

mse = mean_squared_error(pred, testY)
print(mse, np.sqrt(mean_squared_error(lr.coef_, w)))


0.05887651348801793 0.2016092535059465


In [6]:
print(lr.coef_, w)

[ 0.05985201  0.11877347  0.09012595  0.06230633  0.42222426 -4.91702922
 -4.20852861 -3.04137382 -2.17980053 -0.8129077   0.46477894  1.01801319
  2.21886181  2.99640363  4.13437868] [ 0  0  0  0  0 -5 -4 -3 -2 -1  0  1  2  3  4]


In [7]:
lr.intercept_

0.26834103479362525

Адекватная ли получилась модель? Чтобы это понять, часто бывает полезно запустить константную модель на ваших данных

#### Константная модель

In [8]:
from sklearn.dummy import DummyRegressor
lr = DummyRegressor()
lr.fit(trainX, trainY)
pred = lr.predict(testX)

mse = mean_squared_error(pred, testY)
print(mse)

6.9830880833222295


#### Поможет ли регуляризация улучшить результат линейной регрессии?

In [9]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet

lr = Ridge()
lr.fit(trainX, trainY)
pred = lr.predict(testX)

mse = mean_squared_error(pred, testY)
print('ridge', mse, np.sqrt(mean_squared_error(lr.coef_, w)))

lr = Lasso()
lr.fit(trainX, trainY)
pred = lr.predict(testX)

mse = mean_squared_error(pred, testY)
print('Lasso', mse, np.sqrt(mean_squared_error(lr.coef_, w)))

lr = ElasticNet()
lr.fit(trainX, trainY)
pred = lr.predict(testX)

mse = mean_squared_error(pred, testY)
print('ElasticNet', mse, np.sqrt(mean_squared_error(lr.coef_, w)))

ridge 0.05215147317665575 0.19029431706186298
Lasso 6.9830880833222295 2.3804761428476167
ElasticNet 6.9830880833222295 2.3804761428476167


#### Подберите лучшие параметры для гребневой регрессии

In [13]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
#ваш код
for alpha in [0.0001, 0.001, 0.01, 0.1, 1.0, 10.0, 100.0]:
    lr = Ridge(alpha=alpha)
    lr.fit(trainX, trainY)
    pred = lr.predict(testX)

    mse = mean_squared_error(pred, testY)
    print('ridge', alpha, mse, np.sqrt(mean_squared_error(lr.coef_, w)))
    print(lr.coef_)

ridge 0.0001 0.05887493614288579 0.20160633014932886
[ 0.05984959  0.11877298  0.09012805  0.06230652  0.42222127 -4.91701062
 -4.20851653 -3.04136243 -2.17979257 -0.81290688  0.46477525  1.01800968
  2.21885668  2.99639178  4.13436388]
ridge 0.001 0.05886074877933803 0.20158003566081334
[ 0.05982773  0.11876856  0.09014695  0.06230824  0.42219431 -4.91684325
 -4.20840782 -3.04125984 -2.17972095 -0.81289957  0.46474205  1.01797806
  2.21881043  2.99628513  4.13423075]
ridge 0.01 0.05871974003866422 0.20131864813977418
[ 0.05960933  0.11872445  0.09033576  0.0623254   0.42192496 -4.9151702
 -4.20732102 -3.04023434 -2.179005   -0.81282638  0.46441021  1.01766195
  2.21834801  2.99521906  4.13289987]
ridge 0.1 0.057395519522081634 0.1988614414728182
[ 0.05744109  0.11828366  0.09220963  0.06249569  0.41924695 -4.89850642
 -4.19648125 -3.03001794 -2.17187197 -0.8120916   0.46110957  1.01451132
  2.21373226  2.98460115  4.11963943]
ridge 1.0 0.05215147317665575 0.19029431706186298
[ 0.03724

#### Подберите лучшие параметры для Lasso

In [14]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
#ваш код
for alpha in [0.0001, 0.001, 0.01, 0.1, 1.0, 10.0, 100.0]:
    lr = Lasso(alpha=alpha)
    lr.fit(trainX, trainY)
    pred = lr.predict(testX)

    mse = mean_squared_error(pred, testY)
    print('Lasso', alpha, mse, np.sqrt(mean_squared_error(lr.coef_, w)))
    print(lr.coef_)

Lasso 0.0001 0.0584948427635096 0.2007703480889849
[ 0.05822129  0.11752396  0.08876795  0.06107632  0.42061111 -4.91529492
 -4.20745367 -3.04007169 -2.17844221 -0.81196465  0.46311187  1.01657073
  2.21784555  2.99477219  4.13288256]
Lasso 0.001 0.05526367492041001 0.19352023488548664
[ 0.04371888  0.10620322  0.07647029  0.05004869  0.40615182 -4.89977367
 -4.19775645 -3.02836381 -2.16622553 -0.80348685  0.44813283  1.00360156
  2.20867921  2.98010201  4.11943261]
Lasso 0.01 0.040448727530836635 0.15909860125649847
[ 0.          0.          0.          0.          0.27345927 -4.7565161
 -4.09207468 -2.90903198 -2.04256287 -0.71634418  0.30241231  0.88040858
  2.10936766  2.83014501  3.99464973]
Lasso 0.1 1.0712174940394668 0.937804590532118
[-0.          0.          0.          0.          0.         -3.40696554
 -2.95956149 -1.67446929 -0.78639592 -0.          0.          0.
  1.16923891  1.47616828  2.84683173]
Lasso 1.0 6.9830880833222295 2.3804761428476167
[-0. -0.  0.  0.  0. -0

#### Подберите лучшие параметры для ElasticNet

In [None]:
from sklearn.linear_model import LinearRegression, Ridge, Lasso, ElasticNet
#ваш код

#### Для каких моделей и для каких параметров произошел отбор признаков?

In [None]:
Ответ:

#### Можно ли улучшить результат препроцессингом данных?

In [None]:
#ваш код

Выводы:

#### Как регуляризация влияет на разброс и смещение?

In [None]:
#ваш код

Выводы:

#### Дедлайн: до 23:59:59 31 октября
#### На почту mlcoursemm@gmail.com с темой письма ML2020Seminar04