Programming Assignment: Линейная регрессия: прогноз оклада по описанию вакансии

Данное задание основано на материалах лекций по линейной регрессии и посвящено предсказанию оклада, исходя из описания вакансии.

Вы научитесь:

использовать линейную регрессию
применять линейную регрессию к текстовым данным

Линейные методы хорошо подходят для работы с разреженными данными — к таковым относятся, например, тексты. Это можно объяснить высокой скоростью обучения и небольшим количеством параметров, благодаря чему удается избежать переобучения.

Линейная регрессия имеет несколько разновидностей в зависимости от того, какой регуляризатор используется. Мы будем работать с гребневой регрессией, где применяется квадратичный, или L2-регуляризатор.

In [150]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.feature_extraction import DictVectorizer
from scipy.sparse import hstack

# Загрузите данные об описаниях вакансий и соответствующих годовых зарплатах из файла salary-train.csv 
# (либо его заархивированную версию salary-train.zip).

data = pd.read_csv('salary-train.csv')

# Проведите предобработку:

# Приведите тексты к нижнему регистру (text.lower()).
data['FullDescription'] = data.apply(lambda x: x['FullDescription'].lower(), axis=1)

# Замените все, кроме букв и цифр, на пробелы — это облегчит дальнейшее разделение текста на слова. 
# Для такой замены в строке text подходит следующий вызов: re.sub('[^a-zA-Z0-9]', ' ', text). 
# Также можно воспользоваться методом replace у DataFrame, чтобы сразу преобразовать все тексты:
data['FullDescription'] = data['FullDescription'].replace('[^a-zA-Z0-9]', ' ', regex=True)

# Примените TfidfVectorizer для преобразования текстов в векторы признаков. 
# Оставьте только те слова, которые встречаются хотя бы в 5 объектах (параметр min_df у TfidfVectorizer).
vectorizer = TfidfVectorizer(min_df=5)
vectors = vectorizer.fit_transform(data['FullDescription'])

# Замените пропуски в столбцах LocationNormalized и ContractTime на специальную строку 'nan'.
data['LocationNormalized'].fillna('nan', inplace=True)
data['ContractTime'].fillna('nan', inplace=True)

# Примените DictVectorizer для получения one-hot-кодирования признаков LocationNormalized и ContractTime.
enc = DictVectorizer()
data_categ = enc.fit_transform(data[['LocationNormalized', 'ContractTime']].to_dict('records'))

# Объедините все полученные признаки в одну матрицу "объекты-признаки". 
# Обратите внимание, что матрицы для текстов и категориальных признаков являются разреженными. 
# Для объединения их столбцов нужно воспользоваться функцией scipy.sparse.hstack.

data_train = hstack([vectors, data_categ])

# Обучите гребневую регрессию с параметрами alpha=1 и random_state=241. 
# Целевая переменная записана в столбце SalaryNormalized.
from sklearn.linear_model import Ridge

y = data['SalaryNormalized']
clf = Ridge(alpha=1.0, random_state=241)
clf.fit(data_train, y)

# Постройте прогнозы для двух примеров из файла salary-test-mini.csv. 
# Значения полученных прогнозов являются ответом на задание. Укажите их через пробел.

data_test = pd.read_csv('salary-test-mini.csv')
data_test['FullDescription'] = data_test['FullDescription'].str.lower()
data_test['FullDescription'] = data_test['FullDescription'].replace('[^a-zA-Z0-9]', ' ', regex=True)
data_test['LocationNormalized'].fillna('nan', inplace=True)
data_test['ContractTime'].fillna('nan', inplace=True)

vectors_test = vectorizer.transform(data_test['FullDescription'])
data_test_categ = enc.transform(data_test[['LocationNormalized', 'ContractTime']].to_dict('records'))
data_test = hstack([vectors_test, data_test_categ])

predicts = clf.predict(data_test)
print("Answer are %.2f %.2f" % (predicts[0], predicts[1]))

print('\n'.join('{}: {:0.2f}'.format(*i) for i in enumerate(predicts)))

Answer are 56555.62 37188.32
0: 56555.62
1: 37188.32


In [149]:
#tmp = data['SalaryNormalized'].reset_index()
#tmp = tmp.iloc[:,[1]].values
print('\n'.join('{}: {:0.2f}'.format(*i) for i in enumerate(predicts)))

0: 56555.62
1: 37188.32
