# Linear Regression

Вы научитесь:

    использовать линейную регрессию
    применять линейную регрессию к текстовым данным

Введение

Линейные методы хорошо подходят для работы с разреженными данными — к таковым относятся, например, тексты. Это можно объяснить высокой скоростью обучения и небольшим количеством параметров, благодаря чему удается избежать переобучения.

Линейная регрессия имеет несколько разновидностей в зависимости от того, какой регуляризатор используется. Мы будем работать с гребневой регрессией, где применяется квадратичный, или L2-регуляризатор.

Реализация в Scikit-Learn

Для извлечения TF-IDF-признаков из текстов воспользуйтесь классом sklearn.feature_extraction.text.TfidfVectorizer.

Для предсказания целевой переменной мы будем использовать гребневую регрессию, которая реализована в классе sklearn.linear_model.Ridge.

Обратите внимание, что признаки LocationNormalized и ContractTime являются строковыми, и поэтому с ними нельзя работать напрямую. Такие нечисловые признаки с неупорядоченными значениями называют категориальными или номинальными. Типичный подход к их обработке — кодирование категориального признака с m возможными значениями с помощью m бинарных признаков. Каждый бинарный признак соответствует одному из возможных значений категориального признака и является индикатором того, что на данном объекте он принимает данное значение. Данный подход иногда называют one-hot-кодированием. Воспользуйтесь им, чтобы перекодировать признаки LocationNormalized и ContractTime. Он уже реализован в классе sklearn.feature_extraction.DictVectorizer. Пример использования:

    from sklearn.feature_extraction import DictVectorizer
    enc = DictVectorizer()
    X_train_categ = enc.fit_transform(data_train[['LocationNormalized', 'ContractTime']].to_dict('records'))
    X_test_categ = enc.transform(data_test[['LocationNormalized', 'ContractTime']].to_dict('records'))

Вам понадобится производить замену пропущенных значений на специальные строковые величины (например, 'nan'). Для этого подходит следующий код:

    data_train['LocationNormalized'].fillna('nan', inplace=True)
    data_train['ContractTime'].fillna('nan', inplace=True)


Загрузите данные об описаниях вакансий и соответствующих годовых зарплатах из файла salary-train.csv (либо его заархивированную версию salary-train.zip).

In [124]:
import pandas as pd
dataframe_train = pd.read_csv('salary-train.csv')
print(dataframe_train.shape)

(60000, 4)


    Проведите предобработку:

    Приведите тексты к нижнему регистру (text.lower()).
    
    Замените все, кроме букв и цифр, на пробелы — это облегчит дальнейшее разделение текста на слова. Для такой замены в строке text подходит следующий вызов: re.sub('[^a-zA-Z0-9]', ' ', text). Также можно воспользоваться методом replace у DataFrame, чтобы сразу преобразовать все тексты:
    train['FullDescription'] = train['FullDescription'].replace('[^a-zA-Z0-9]', ' ', regex = True)
    
        Примените TfidfVectorizer для преобразования текстов в векторы признаков. Оставьте только те слова, которые встречаются хотя бы в 5 объектах (параметр min_df у TfidfVectorizer).
    Замените пропуски в столбцах LocationNormalized и ContractTime на специальную строку 'nan'. Код для этого был приведен выше.
    
    Примените DictVectorizer для получения one-hot-кодирования признаков LocationNormalized и ContractTime.
    
    Объедините все полученные признаки в одну матрицу "объекты-признаки". Обратите внимание, что матрицы для текстов и категориальных признаков являются разреженными. Для объединения их столбцов нужно воспользоваться функцией scipy.sparse.hstack.

In [125]:
dataframe_train['FullDescription'] = [x.lower() for x in dataframe_train['FullDescription']]
dataframe_train.head(1)

Unnamed: 0,FullDescription,LocationNormalized,ContractTime,SalaryNormalized
0,international sales manager london ****k ****...,London,permanent,33000


In [126]:
dataframe_train['FullDescription'] = dataframe_train['FullDescription'].replace('[^a-zA-Z0-9]', ' ', regex=True)

In [127]:
dataframe_train.head(1)

Unnamed: 0,FullDescription,LocationNormalized,ContractTime,SalaryNormalized
0,international sales manager london k ...,London,permanent,33000


In [128]:
from sklearn.feature_extraction.text import TfidfVectorizer
vectorizer = TfidfVectorizer(min_df=5)
X_train_desc = vectorizer.fit_transform(dataframe_train['FullDescription'])

In [129]:
dataframe_train['LocationNormalized'].fillna('nan', inplace=True)
dataframe_train['ContractTime'].fillna('nan', inplace=True)

In [130]:
from sklearn.feature_extraction import DictVectorizer
enc = DictVectorizer()
X_train_categ = enc.fit_transform(dataframe_train[['LocationNormalized', 'ContractTime']].to_dict('records'))

In [131]:
print(X_train_categ.shape)
print(X_train_desc.shape)

(60000, 1766)
(60000, 22861)


In [132]:
from scipy import sparse
X_train = sparse.hstack([X_train_desc, X_train_categ])

    Обучите гребневую регрессию с параметрами alpha=1 и random_state=241. Целевая переменная записана в столбце
        SalaryNormalized.

In [133]:
from sklearn.linear_model import Ridge
ridge = Ridge(random_state=241)
ridge.fit(X_train, dataframe_train['SalaryNormalized'])

Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=241, solver='auto', tol=0.001)

In [134]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import KFold
cv = KFold(shuffle=True)
print(cross_val_score(ridge, X_train, dataframe_train['SalaryNormalized'], cv=cv, scoring='neg_mean_squared_error'))

[ -1.21003031e+08  -1.22972918e+08  -1.20744499e+08]


In [140]:
import numpy as np
print(np.min(dataframe_train['SalaryNormalized']))

5000


    Постройте прогнозы для двух примеров из файла salary-test-mini.csv. Значения полученных прогнозов являются ответом на задание. Укажите их через пробел.

In [82]:
dataframe_test = pd.read_csv('salary-test-mini.csv')

In [83]:
dataframe_test['FullDescription'] = dataframe_test['FullDescription'].replace('[^a-zA-Z0-9]', ' ', regex=True)
dataframe_test['FullDescription'] = [x.lower() for x in dataframe_test['FullDescription']]

In [84]:
dataframe_test

Unnamed: 0,FullDescription,LocationNormalized,ContractTime,SalaryNormalized
0,we currently have a vacancy for an hr project ...,Milton Keynes,contract,
1,a web developer opportunity has arisen with an...,Manchester,permanent,


In [85]:
X_test_desc = vectorizer.transform(dataframe_test['FullDescription'])

In [86]:
X_test_desc

<2x22861 sparse matrix of type '<class 'numpy.float64'>'
	with 300 stored elements in Compressed Sparse Row format>

In [87]:
X_test_categ = enc.transform(dataframe_test[['LocationNormalized', 'ContractTime']].to_dict('records'))

In [88]:
X_test = sparse.hstack([X_test_desc, X_test_categ])

In [89]:
y_pred = ridge.predict(X_test)

In [90]:
y_pred

array([ 56555.61500155,  37188.32442618])

In [91]:
with open('linear_regression_ans.txt', 'w') as f:
    f.write(' '.join(str(round(x, 2)) for x in y_pred))
!cat linear_regression_ans.txt

56555.62 37188.32