In [6]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import PolynomialFeatures
from sklearn.linear_model import Lasso

boston = pd.read_csv('boston.csv', sep=',', header=0, index_col=0)
boston = boston.astype(float)
target_column = boston.columns[-1]

X = boston.drop(target_column, axis=1)
y = boston[target_column]

poly = PolynomialFeatures(2)
X_2 = poly.fit_transform(X) # X имеет тип pandas DataFrame, а X_2 - numpy array, поэтому имена признаков в X_2
# не сохраняются
feature_names = poly.get_feature_names(boston.columns[:-1]) # После добавления полиномиальных признаков, чтобы получить
# список имен всех полученных признаков достаточно для созданной модели полиномизации (poly) вызвать метод
# get_feature_names, на вход которому подать список имен исходных признаков (все, за исключением имени последнего столбца из
# таблицы boston, так как последний столбец - целевая переменная)
# Если использовать другие формы преобразованния признаков, то нужно самостоятельно создавать список имен переменных
print('Названия признаков: {}'.format(feature_names))

# Обучим, например Lasso регрессию с параметрами по умолчанию (кроме параметра fit_intercept)
lasso_reg = Lasso(fit_intercept=True) # Если fit_intercept=True, в модели будет константа, если fit_intercept=False, то нет.
# Так же и для Ridge, и linearRegression. Какое значение используется по умолчанию, необходимо уточнять в документации.
lasso_reg.fit(X_2, y)

intercept = lasso_reg.intercept_ # константа в модели, если fit_intercept=True
print('Константа: %f' % intercept)
coefs = lasso_reg.coef_ # вектор коэффициентов
name_coef = {feature_names[i]: coefs[i] for i in range(X_2.shape[1])} # словарь вида "имя переменной": значение коэффициента
name_coef_not_null = {feature_names[i]: coefs[i] for i in range(X_2.shape[1]) if coefs[i] != 0}
# то же самое, но только для коэффициентов не равных 0
print(name_coef_not_null)

pd.Series(name_coef).to_csv('results.csv', sep=',') # в файл results.csv будут записаны имена признаков
# и значени соответствующих коэффициентов

pd.Series(name_coef.update({'1': intercept})).to_csv('results_with_intercept.csv', sep=',')
# то же самое с добавлением константы

Названия признаков: ['1', 'crim', 'zn', 'indus', 'chas', 'nox', 'rm', 'age', 'dis', 'rad', 'tax', 'ptratio', 'black', 'lstat', 'crim^2', 'crim zn', 'crim indus', 'crim chas', 'crim nox', 'crim rm', 'crim age', 'crim dis', 'crim rad', 'crim tax', 'crim ptratio', 'crim black', 'crim lstat', 'zn^2', 'zn indus', 'zn chas', 'zn nox', 'zn rm', 'zn age', 'zn dis', 'zn rad', 'zn tax', 'zn ptratio', 'zn black', 'zn lstat', 'indus^2', 'indus chas', 'indus nox', 'indus rm', 'indus age', 'indus dis', 'indus rad', 'indus tax', 'indus ptratio', 'indus black', 'indus lstat', 'chas^2', 'chas nox', 'chas rm', 'chas age', 'chas dis', 'chas rad', 'chas tax', 'chas ptratio', 'chas black', 'chas lstat', 'nox^2', 'nox rm', 'nox age', 'nox dis', 'nox rad', 'nox tax', 'nox ptratio', 'nox black', 'nox lstat', 'rm^2', 'rm age', 'rm dis', 'rm rad', 'rm tax', 'rm ptratio', 'rm black', 'rm lstat', 'age^2', 'age dis', 'age rad', 'age tax', 'age ptratio', 'age black', 'age lstat', 'dis^2', 'dis rad', 'dis tax', 'dis