### Введение
Линейные методы хорошо подходят для работы с разреженными данными — к таковым относятся, например, тексты. Это можно объяснить высокой скоростью обучения и небольшим количеством параметров, благодаря чему удается избежать переобучения.

Линейная регрессия имеет несколько разновидностей в зависимости от того, какой регуляризатор используется. Мы будем работать с гребневой регрессией, где применяется квадратичный, или L2-регуляризатор.

### Гребневая регрессия (Ridge)

In [8]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction import DictVectorizer
from sklearn.linear_model import Ridge #Гребневая регрессия
import pandas as pd
import numpy as np
import scipy

Обратите внимание, что признаки LocationNormalized и ContractTime являются строковыми, и поэтому с ними нельзя работать напрямую. Такие нечисловые признаки с неупорядоченными значениями называют категориальными или номинальными. Типичный подход к их обработке — кодирование категориального признака с m возможными значениями с помощью m бинарных признаков. Каждый бинарный признак соответствует одному из возможных значений категориального признака и является индикатором того, что на данном объекте он принимает данное значение. Данный подход иногда называют one-hot-кодированием. Воспользуйтесь им, чтобы перекодировать признаки LocationNormalized и ContractTime. Он уже реализован в классе sklearn.feature_extraction.DictVectorizer. Пример использования:

In [2]:
data = pd.read_csv('salary-train.csv')
data['LocationNormalized'].fillna('nan', inplace=True)
data['ContractTime'].fillna('nan', inplace=True)

enc = DictVectorizer()
X_train = enc.fit_transform(data[['LocationNormalized', 'ContractTime']].to_dict('records')) #to_dict преобразовывает в словарь
X_test = enc.transform(data[['LocationNormalized', 'ContractTime']].to_dict('records'))

### Программа

In [49]:
data = pd.read_csv('salary-train.csv')
d1 = data['LocationNormalized'].str.lower()
d2 = data['FullDescription'].str.lower()
d3 = data['ContractTime'].str.lower()
d4 = data['SalaryNormalized']

d2 = d2.replace('[^a-zA-Z0-9]', ' ', regex = True)
data = pd.concat([d1, d2, d3, d4], axis=1)
data['LocationNormalized'].fillna('nan', inplace=True)
data['ContractTime'].fillna('nan', inplace=True)

vectorizer = TfidfVectorizer(min_df = 5)
X_train1 = vectorizer.fit_transform(data['FullDescription'])

v = DictVectorizer()
X_train2 = v.fit_transform(data[['LocationNormalized', 'ContractTime']].to_dict('records'))

In [50]:
X_train = np.hstack([X_train1, X_train2])
y_train = data['SalaryNormalized']

clf = Ridge(alpha=1,random_state=241)
clf.fit(X_train[0], y_train)

Ridge(alpha=1, copy_X=True, fit_intercept=True, max_iter=None, normalize=False,
      random_state=241, solver='auto', tol=0.001)

In [51]:
data1 = pd.read_csv('salary_train_mini.csv')
X_test1 = vectorizer.transform(data1['FullDescription'])
X_test2 = v.fit_transform(data1[['LocationNormalized', 'ContractTime']].to_dict('records'))
X_test = np.hstack([X_test1, X_test2])

clf.predict(X_test[0])

array([56719.7900627 , 38211.27723995])